Volver al inicio

Estrategia · Paso 7 de 10

Cómo combinar frameworks para soluciones más sólidas

Patrones de integración: Vision + Core ML, Natural Language + Foundation Models, y pipelines multi-etapa.

La magia sucede cuando combinas frameworks. Un solo framework resuelve una tarea; varios bien conectados resuelven un problema real de usuario.

Vision + Core ML: ver y entender

Usa Vision para detectar la región de interés (por ejemplo, un rostro o un objeto) y pasa ese recorte a un modelo Core ML personalizado para clasificación específica.

Ejemplo hackathon: app para agricultores. Vision detecta la hoja de una planta; Core ML clasifica si tiene una enfermedad específica entrenada con tu dataset.

Vision + CoreML Pipeline
let visionRequest = VNDetectRectanglesRequest { request, error in
    guard let rect = request.results?.first as? VNRectangleObservation else { return }
    // Recortar la región detectada
    let cropped = cropImage(image, to: rect.boundingBox)
    // Pasar al modelo Core ML
    let prediction = try? self.classifier.prediction(image: cropped)
}

Natural Language + Foundation Models: del análisis a la acción

Usa Natural Language para el preprocesamiento rápido (detectar idioma, limpiar entidades) y Foundation Models para la generación de respuesta o la toma de decisiones complejas.

Ejemplo hackathon: diario emocional. Natural Language detecta el sentimiento de cada entrada; Foundation Models genera un resumen semanal con consejos personalizados.

NL + FoundationModels Pipeline
// Paso 1: Análisis rápido con NL
let tagger = NLTagger(tagSchemes: [.sentimentScore])
tagger.string = userDiaryEntry
let (score, _) = tagger.tag(at: startIndex, unit: .paragraph, scheme: .sentimentScore)

// Paso 2: Generación con Foundation Models
let session = LanguageModelSession()
let response = try await session.respond(to: "Basado en este diario con sentimiento (score!), escribe un consejo breve.")

Pipeline multi-etapa

No temas encadenar tres o más frameworks si cada etapa tiene un propósito claro. Documenta el flujo con un diagrama simple; los jueces valoran la claridad arquitectónica.

Ejemplo: Cámara → Vision (detectar texto) → Natural Language (sentimiento del texto) → Foundation Models (generar respuesta contextual) → UI.

Dos patrones comunes: Vision detecta una región y Core ML la clasifica; Natural Language analiza sentimiento y Foundation Models genera una respuesta contextual.

Cuando hayas leído el texto, marca la lección para seguir el progreso.