Los robots de IA pierden eficacia en conversaciones largas con personas: un gran estudio de Microsoft lo confirmó.

Los robots de IA pierden eficacia en conversaciones largas con personas: un gran estudio de Microsoft lo confirmó.

8 hardware

Investigación de Microsoft Research y Salesforce: cómo los grandes modelos de IA pierden la orientación en diálogos

Qué estudiaron
¿Qué modelos? 200 000+ conversaciones multietapa con LLM líderes GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Conclusiones clave
Indicador | Resultado
Precisión en consultas únicas | 90 % de respuestas correctas (GPT‑4.1, Gemini 2.5 Pro)
Precisión en diálogos largos | ~65 % – la eficacia cae casi a un tercio
Comportamiento del modelo | Frecuentemente “reutiliza” su primera respuesta incorrecta como base para las siguientes réplicas
Longitud de respuestas | Aumenta entre 20‑300 % en conversaciones multietapa, lo que provoca más alucinaciones y conjeturas
Confiabilidad | Disminuye a 112 % (el modelo genera una respuesta “prematuramente” sin terminar la consulta)

¿Por qué sucede esto?
1. Reutilización de una base incorrecta
El modelo se aferra a su primera conclusión y construye respuestas posteriores sobre ella, incluso si es errónea.
2. Expansión del contexto
Con cada nueva pregunta se añade más texto, lo que incrementa la cantidad de “hechos inventados” que el modelo acepta como reales.
3. Problema con los tokens de pensamiento
Incluso modelos con tokens adicionales (o3, DeepSeek R1) no pudieron superar esta trampa: siguen generando respuestas demasiado pronto y sin análisis suficiente.

¿Qué significa esto para los usuarios?
- Baja confiabilidad en conversaciones reales
La IA puede “perder el tema”, empezando a hablar de cosas inexistentes.
- Riesgo de información incorrecta
El abandono de sistemas de búsqueda tradicionales en favor de herramientas generativas (por ejemplo, reseñas Google‑IA) aumenta la probabilidad de recibir datos no fiables.
- Importancia de indicaciones de calidad
Microsoft había señalado previamente un bajo nivel de ingeniería al crear consultas. Preguntas mal formuladas y “malas” indicaciones pueden impedir que la IA despliegue su potencial.

Conclusión
La tecnología de grandes modelos lingüísticos aún está en desarrollo. Aunque demuestran alta precisión en consultas únicas, su confiabilidad en diálogos multietapa sigue siendo un problema. Para usar la IA de manera segura y eficaz es importante:

1. Formular preguntas claras y concretas.
2. Estar dispuesto a corregir las respuestas del modelo.
3. No confiar completamente en el contenido generativo sin verificar los hechos.

En última instancia, perfeccionar los modelos y aumentar su resistencia en conversaciones prolongadas es clave para que la IA se convierta en un socio confiable para los usuarios.

Comentarios (0)

Comparte tu opinión — por favor, sé amable y mantente en el tema.

Aún no hay comentarios. Deja un comentario y comparte tu opinión!

Para dejar un comentario, inicia sesión.

Inicia sesión para comentar