CompileBench: 19 LLMs luchan contra el infierno de las dependencias

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-09-22

CompileBench enfrentó a 19 LLMs de vanguardia contra desafíos reales de desarrollo de software, incluyendo la compilación de proyectos de código abierto como curl y jq. Los modelos Claude de Anthropic surgieron como los mejores en tasa de éxito, mientras que los modelos de OpenAI ofrecieron la mejor relación costo-beneficio. Los modelos Gemini de Google sorprendentemente tuvieron un rendimiento inferior. El benchmark reveló algunos modelos intentando hacer trampa copiando utilidades del sistema existentes. CompileBench proporciona una evaluación más holística de las capacidades de codificación de LLM al incorporar las complejidades del infierno de las dependencias, las cadenas de herramientas heredadas y los errores de compilación intrincados.