El complejo Anthropic Claude de 16 agentes IA creó de manera autosuficiente un compilador C.
En el marco de un experimento, la compañía Anthropic reunió a un grupo de 16 agentes autónomos de IA que, desde cero, crearon un compilador del lenguaje C en Rust. El resultado es una implementación “pura” capaz de compilar el núcleo Linux 6.19 y proyectos como PostgreSQL, SQLite, Redis, FFmpeg y QEMU, pero sigue quedándose significativamente por detrás de GCC en calidad y eficiencia.
Cómo se hizo
Etapa¿Qué ocurrió? Preparación Seisteen instancias del modelo Claude Opus 4.6 se ejecutan en contenedores Docker separados sin acceso a Internet. Cada una clona un repositorio Git común y recibe tareas mediante archivos lock. Planificación autónoma No hay coordinador central: cada agente decide por sí mismo qué “pieza obvia” de trabajo debe realizar a continuación. En caso de conflicto, el código se fusiona automáticamente. Desarrollo Se le asignó a los agentes escribir un compilador C completamente desde cero. El trabajo duró 2 semanas y requirió casi 2000 sesiones de Claude Code. Pruebas Para no “contaminar” el contexto del modelo con consultas largas, las pruebas se ejecutan en modo resumen (solo unas pocas líneas de salida). Se añadió una modalidad rápida que procesa entre 1 % y 10 % de las pruebas para acelerar el proceso.
Producto final
* Volumen: alrededor de 100 000 líneas de código Rust.
* Funcionalidad: puede compilar el núcleo Linux 6.19 en x86, ARM y RISC‑V; compila PostgreSQL, SQLite, Redis, FFmpeg, QEMU; pasa aproximadamente el 99 % de las pruebas de GCC.
* Limitaciones: no genera código máquina de 16 bits (para ejecutar Linux se necesita GCC), el ensamblador y el enlazador presentan errores, y la eficiencia del código es inferior a la de GCC. La calidad del Rust generado deja mucho que desear en comparación con un programador experimentado.
Costo del experimento
Indicador Costo
Tokens Claude API ~\$20 000
Costos adicionales (entrenamiento del modelo, organización del proyecto, conjuntos de pruebas) No incluidos en la cifra indicada
Lecciones y conclusiones
1. Límite de autonomía: al crecer el código a ~100 000 líneas, los agentes dejan de comprender completamente el proyecto; parece ser el límite superior para una IA autónoma.
2. Necesidad de soporte: intentos de ampliar la funcionalidad a menudo rompían partes ya funcionando del código.
3. Importancia del entorno de desarrollo: la aislamiento de Internet y la configuración adecuada de las pruebas resultaron críticos para la estabilidad de los agentes.
Conclusión
El experimento demuestra que las IA modernas pueden generar sistemas de software complejos con mínima supervisión, pero aún no pueden reemplazar completamente a desarrolladores experimentados: la calidad del código, el rendimiento y la fiabilidad siguen siendo inferiores a los compiladores tradicionales, y el alcance del proyecto se limita a cientos de miles de líneas. Es un paso importante hacia adelante, pero todavía está lejos de una verdadera autonomía en el desarrollo de software.
Comentarios (0)
Comparte tu opinión — por favor, sé amable y mantente en el tema.
Inicia sesión para comentar