Apple está desarrollando su propio asistente de IA para el iPhone, capaz de lanzar aplicaciones en lugar del usuario

Apple está desarrollando su propio asistente de IA para el iPhone, capaz de lanzar aplicaciones en lugar del usuario

9 hardware

Apple desarrolla un agente de IA local compacto para trabajar con interfaces de usuario

Apple está trabajando en un nuevo algoritmo – Ferret‑UI Lite, que puede «entender» las interfaces de las aplicaciones y interactuar con ellas en nombre del usuario, pero todo ocurre directamente en el dispositivo. El modelo tiene 3 mil millones de parámetros y en pruebas muestra resultados comparables o incluso superiores a los modelos grandes hasta 24 veces más grandes.

Orígenes del proyecto
En diciembre de 2023, un equipo de nueve investigadores publicó el trabajo FERRET: Refer and Ground Anything Anywhere at Any Granularity. En él se presentó un modelo lingüístico multimodal que aprende con diferentes tipos de datos y puede vincular descripciones textuales con partes concretas de una imagen.

Desde entonces Apple ha ampliado la familia de modelos Ferret:

ModeloPropósito
Ferretv2Modelo base mejorado
Ferret‑UIMLLM especializado en interfaces móviles
Ferret‑UI 2Soporte para varias plataformas y mayor resolución

Ferret‑UI, en particular, resuelve uno de los problemas de los grandes modelos lingüísticos multimodales (MLLM) actuales: reconocen mal los elementos UI. El modelo añade una “resolución arbitraria” sobre Ferret, aumentando la granularidad de las imágenes y utilizando características visuales mejoradas.

Nuevos logros
Recientemente Apple presentó dos versiones adicionales:

1. Ferret‑UI Lite – modelo ligero con 3 mil millones de parámetros, optimizado para ejecución local en dispositivos móviles.
2. Ferret‑UI 2 – versión ampliada que soporta varias plataformas y ofrece mayor resolución de capturas de pantalla.

La principal diferencia entre Ferret‑UI Lite y los grandes modelos basados en servidor es que mantiene la competitividad con requisitos computacionales mucho menores.

¿Por qué importa?
La mayoría de los agentes GUI existentes se basan en enormes modelos fundamentales, porque sus poderosas capacidades de razonamiento y planificación permiten lograr resultados sobresalientes al navegar interfaces gráficas. Sin embargo, esos modelos son demasiado pesados para ejecutarse directamente en el dispositivo.

Ferret‑UI Lite aborda este desafío combinando:

- Múltiples componentes clave e ideas del entrenamiento de LLM pequeños;
- Datos reales y sintéticos de diversas áreas GUI;
- Técnicas de recorte dinámico y optimización de la calidad de segmentación de la interfaz;
- Ajuste fino controlado y aprendizaje por refuerzo.

El resultado es un modelo que se acerca o incluso supera a los agentes GUI más grandes en tareas de vinculación de bajo nivel con elementos UI, comprensión del contenido de pantalla, planificación multietapa y autoanálisis.

Comentarios (0)

Comparte tu opinión — por favor, sé amable y mantente en el tema.

Aún no hay comentarios. Deja un comentario y comparte tu opinión!

Para dejar un comentario, inicia sesión.

Inicia sesión para comentar