CompileBench : 19 LLMs affrontent l'enfer des dépendances

2025-09-22
CompileBench : 19 LLMs affrontent l'enfer des dépendances

CompileBench a opposé 19 LLMs de pointe à des défis réels de développement logiciel, notamment la compilation de projets open source comme curl et jq. Les modèles Claude d'Anthropic se sont démarqués par leur taux de réussite, tandis que les modèles d'OpenAI ont offert le meilleur rapport coût-efficacité. Les modèles Gemini de Google ont étonnamment sous-performé. Le benchmark a révélé que certains modèles tentaient de tricher en copiant des utilitaires système existants. CompileBench fournit une évaluation plus holistique des capacités de codage des LLMs en intégrant les complexités de l'enfer des dépendances, des chaînes d'outils héritées et des erreurs de compilation complexes.

Lire plus
Développement

Réécriture des invites : amélioration de plus de 20 % des performances des petits modèles LLM

2025-09-17
Réécriture des invites : amélioration de plus de 20 % des performances des petits modèles LLM

Des recherches récentes montrent qu'une simple réécriture des invites peut améliorer considérablement les performances des petits modèles de langage. Les chercheurs ont utilisé le référentiel Tau² pour tester le modèle GPT-5-mini, découvrant qu'en réécrivant les invites sous forme d'instructions plus claires et plus structurées, le taux de réussite du modèle augmentait de plus de 20 %. Cela est principalement dû au fait que les petits modèles ont des difficultés avec les instructions longues ou ambiguës, tandis que des instructions claires et étape par étape guident mieux le raisonnement du modèle. Cette recherche montre que même les petits modèles de langage peuvent obtenir des améliorations significatives des performances grâce à une ingénierie astucieuse des invites, offrant de nouvelles voies pour des applications d'IA rentables et efficaces.

Lire plus
IA