Apple entrenó a modelos de IA compactos para describir imágenes mejor que sus competidores más grandes.

08.04.2026 22 software

Apple revela una nueva tecnología “RubiCap” para describir imágenes

Los científicos de Apple han creado un método llamado *RubiCap*, que permite a modelos de IA pequeños generar descripciones más precisas y detalladas de las imágenes que sus equivalentes de gran escala.

Cómo funciona RubiCap
1. Análisis de la imagen

Para crear un texto detallado, el modelo primero reconoce múltiples objetos y áreas en la escena. Esto proporciona una comprensión profunda de la composición, no solo una descripción superficial.

2. Valor práctico

Estas habilidades son útiles para entrenar modelos secundarios de IA, generadores de imágenes a partir de texto y funciones especializadas (por ejemplo, mejorar contenido visual).

3. Problema de recursos

Los enfoques tradicionales de entrenamiento de sistemas de descripción detallada requieren grandes costos computacionales tanto en la fase inicial como durante el aprendizaje por refuerzo posterior.

Metodología experimental
- Selección de imágenes – se seleccionaron aleatoriamente 50 000 imágenes de los conjuntos *PixMoCap* y *DenseFusion‑4V‑100K*.

- Generación de descripciones – se utilizaron modelos existentes de visión por computadora: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT y Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, además de los modelos en entrenamiento de Apple.

- Evaluación de calidad – Gemini 2.5 Pro actuó como experto: analizaba las descripciones, identificaba coincidencias y errores, y formulaba criterios claros de evaluación.

- Evaluación del jurado – el modelo Qwen 2.5‑7B‑Instruct asignaba puntuaciones por cada criterio y generaba una señal de recompensa para el modelo en entrenamiento.

Resultados
- El modelo en entrenamiento recibía retroalimentación concreta, lo que permitía mejorar rápidamente la precisión de las descripciones sin depender de una única respuesta “correcta”.

- En última instancia, Apple creó tres modelos propios: RubiCap‑2B, RubiCap‑3B y RubiCap‑7B (respectivamente 2, 3 y 7 mil millones de parámetros).

- En pruebas de descripción de imágenes, RubiCap superó a los competidores con 32 mil millones e incluso 72 mil millones de parámetros. En algunos casos, RubiCap‑3B mostró mejores resultados que RubiCap‑7B, confirmando que el tamaño del modelo no siempre garantiza un mejor rendimiento.

Así, la tecnología RubiCap demuestra cómo se puede lograr una alta calidad en la descripción de imágenes con menos recursos y un entrenamiento más eficiente.

Apple entrenó a modelos de IA compactos para describir imágenes mejor que sus competidores más grandes.

Related news

Google Gemini alcanzó 750 millones de usuarios activos mensuales, dejando a ChatGPT apenas a un pequeño margen del líder.

Nada presentó la versión beta de Essential Apps, una plataforma para crear miniaplicaciones con inteligencia artificial

Microsoft explicó por qué se han bloqueado las cuentas de VeraCrypt y otros servicios abiertos: debido a la negligencia de sus creadores

La aplicación Meta✴ AI ocupó el quinto lugar en la App Store tras el lanzamiento de Muse Spark.

Comentarios (0)

Inicia sesión para comentar

Apple entrenó a modelos de IA compactos para describir imágenes mejor que sus competidores más grandes.

Related news

Google Gemini alcanzó 750 millones de usuarios activos mensuales, dejando a ChatGPT apenas a un pequeño margen del líder.

Nada presentó la versión beta de Essential Apps, una plataforma para crear miniaplicaciones con inteligencia artificial

Microsoft explicó por qué se han bloqueado las cuentas de VeraCrypt y otros servicios abiertos: debido a la negligencia de sus creadores

La aplicación Meta✴ AI ocupó el quinto lugar en la App Store tras el lanzamiento de Muse Spark.

Inicia sesión para comentar

Nada presentó la versión beta de Essential Apps, una plataforma para crear miniaplicaciones con inteligencia artificial

La aplicación Meta✴ AI ocupó el quinto lugar en la App Store tras el lanzamiento de Muse Spark.