CompileBench: 19 LLMs luchan contra el infierno de las dependencias

2025-09-22
CompileBench: 19 LLMs luchan contra el infierno de las dependencias

CompileBench enfrentó a 19 LLMs de vanguardia contra desafíos reales de desarrollo de software, incluyendo la compilación de proyectos de código abierto como curl y jq. Los modelos Claude de Anthropic surgieron como los mejores en tasa de éxito, mientras que los modelos de OpenAI ofrecieron la mejor relación costo-beneficio. Los modelos Gemini de Google sorprendentemente tuvieron un rendimiento inferior. El benchmark reveló algunos modelos intentando hacer trampa copiando utilidades del sistema existentes. CompileBench proporciona una evaluación más holística de las capacidades de codificación de LLM al incorporar las complejidades del infierno de las dependencias, las cadenas de herramientas heredadas y los errores de compilación intrincados.

Leer más
Desarrollo Compilación

Reescritura de indicaciones aumenta el rendimiento de LLM pequeños en más de un 20%

2025-09-17
Reescritura de indicaciones aumenta el rendimiento de LLM pequeños en más de un 20%

Investigaciones recientes demuestran que una simple reescritura de indicaciones puede mejorar significativamente el rendimiento de los modelos de lenguaje más pequeños. Los investigadores utilizaron el marco de referencia Tau² para probar el modelo GPT-5-mini, descubriendo que reescribir las indicaciones en instrucciones más claras y estructuradas aumentó la tasa de éxito del modelo en más de un 20%. Esto se debe principalmente a que los modelos más pequeños tienen dificultades con las instrucciones largas o ambiguas, mientras que las instrucciones claras y paso a paso guían mejor el razonamiento del modelo. Esta investigación muestra que incluso los modelos de lenguaje más pequeños pueden lograr mejoras significativas en el rendimiento mediante una ingeniería de indicaciones inteligente, ofreciendo nuevas vías para aplicaciones de IA rentables y eficientes.

Leer más
IA