Estrategia · Paso 7 de 10
Cómo combinar frameworks para soluciones más sólidas
Patrones de integración: Vision + Core ML, Natural Language + Foundation Models, y pipelines multi-etapa.
La magia sucede cuando combinas frameworks. Un solo framework resuelve una tarea; varios bien conectados resuelven un problema real de usuario.
Vision + Core ML: ver y entender
Usa Vision para detectar la región de interés (por ejemplo, un rostro o un objeto) y pasa ese recorte a un modelo Core ML personalizado para clasificación específica.
Ejemplo hackathon: app para agricultores. Vision detecta la hoja de una planta; Core ML clasifica si tiene una enfermedad específica entrenada con tu dataset.
let visionRequest = VNDetectRectanglesRequest { request, error in
guard let rect = request.results?.first as? VNRectangleObservation else { return }
// Recortar la región detectada
let cropped = cropImage(image, to: rect.boundingBox)
// Pasar al modelo Core ML
let prediction = try? self.classifier.prediction(image: cropped)
}Natural Language + Foundation Models: del análisis a la acción
Usa Natural Language para el preprocesamiento rápido (detectar idioma, limpiar entidades) y Foundation Models para la generación de respuesta o la toma de decisiones complejas.
Ejemplo hackathon: diario emocional. Natural Language detecta el sentimiento de cada entrada; Foundation Models genera un resumen semanal con consejos personalizados.
// Paso 1: Análisis rápido con NL
let tagger = NLTagger(tagSchemes: [.sentimentScore])
tagger.string = userDiaryEntry
let (score, _) = tagger.tag(at: startIndex, unit: .paragraph, scheme: .sentimentScore)
// Paso 2: Generación con Foundation Models
let session = LanguageModelSession()
let response = try await session.respond(to: "Basado en este diario con sentimiento (score!), escribe un consejo breve.")Pipeline multi-etapa
No temas encadenar tres o más frameworks si cada etapa tiene un propósito claro. Documenta el flujo con un diagrama simple; los jueces valoran la claridad arquitectónica.
Ejemplo: Cámara → Vision (detectar texto) → Natural Language (sentimiento del texto) → Foundation Models (generar respuesta contextual) → UI.
Patrones de combinación de frameworks
Pipeline 1: Ver + Clasificar
Cámara
Vision
Detecta región
Core ML
Clasifica
UI
Resultado
Pipeline 2: Analizar + Generar
Texto
NL
Sentimiento
Foundation
Genera respuesta
UI
Consejo personalizado
Dos patrones comunes: Vision detecta una región y Core ML la clasifica; Natural Language analiza sentimiento y Foundation Models genera una respuesta contextual.
Cuando hayas leído el texto, marca la lección para seguir el progreso.