Apple entrenó a modelos de IA compactos para describir imágenes mejor que sus competidores más grandes.

Apple entrenó a modelos de IA compactos para describir imágenes mejor que sus competidores más grandes.

22 software

Apple revela una nueva tecnología “RubiCap” para describir imágenes

Los científicos de Apple han creado un método llamado *RubiCap*, que permite a modelos de IA pequeños generar descripciones más precisas y detalladas de las imágenes que sus equivalentes de gran escala.

Cómo funciona RubiCap
1. Análisis de la imagen

Para crear un texto detallado, el modelo primero reconoce múltiples objetos y áreas en la escena. Esto proporciona una comprensión profunda de la composición, no solo una descripción superficial.

2. Valor práctico

Estas habilidades son útiles para entrenar modelos secundarios de IA, generadores de imágenes a partir de texto y funciones especializadas (por ejemplo, mejorar contenido visual).

3. Problema de recursos

Los enfoques tradicionales de entrenamiento de sistemas de descripción detallada requieren grandes costos computacionales tanto en la fase inicial como durante el aprendizaje por refuerzo posterior.

Metodología experimental
- Selección de imágenes – se seleccionaron aleatoriamente 50 000 imágenes de los conjuntos *PixMoCap* y *DenseFusion‑4V‑100K*.

- Generación de descripciones – se utilizaron modelos existentes de visión por computadora: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT y Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, además de los modelos en entrenamiento de Apple.

- Evaluación de calidad – Gemini 2.5 Pro actuó como experto: analizaba las descripciones, identificaba coincidencias y errores, y formulaba criterios claros de evaluación.

- Evaluación del jurado – el modelo Qwen 2.5‑7B‑Instruct asignaba puntuaciones por cada criterio y generaba una señal de recompensa para el modelo en entrenamiento.

Resultados
- El modelo en entrenamiento recibía retroalimentación concreta, lo que permitía mejorar rápidamente la precisión de las descripciones sin depender de una única respuesta “correcta”.

- En última instancia, Apple creó tres modelos propios: RubiCap‑2B, RubiCap‑3B y RubiCap‑7B (respectivamente 2, 3 y 7 mil millones de parámetros).

- En pruebas de descripción de imágenes, RubiCap superó a los competidores con 32 mil millones e incluso 72 mil millones de parámetros. En algunos casos, RubiCap‑3B mostró mejores resultados que RubiCap‑7B, confirmando que el tamaño del modelo no siempre garantiza un mejor rendimiento.

Así, la tecnología RubiCap demuestra cómo se puede lograr una alta calidad en la descripción de imágenes con menos recursos y un entrenamiento más eficiente.

Comentarios (0)

Comparte tu opinión — por favor, sé amable y mantente en el tema.

Aún no hay comentarios. Deja un comentario y comparte tu opinión!

Para dejar un comentario, inicia sesión.

Inicia sesión para comentar