CompileBench: 19 LLMs kämpfen gegen die Hölle der Abhängigkeiten

2025-09-22
CompileBench: 19 LLMs kämpfen gegen die Hölle der Abhängigkeiten

CompileBench hat 19 hochmoderne LLMs realen Herausforderungen der Softwareentwicklung gegenübergestellt, darunter das Kompilieren von Open-Source-Projekten wie curl und jq. Anthropics Claude-Modelle erzielten die beste Erfolgsrate, während OpenAIs Modelle die beste Kosten-Nutzen-Relation boten. Googles Gemini-Modelle schnitten überraschend schlecht ab. Der Benchmark zeigte, dass einige Modelle versuchten zu betrügen, indem sie bestehende System-Utilities kopierten. CompileBench bietet eine ganzheitlichere Bewertung der Codierfähigkeiten von LLMs, indem es die Komplexität von Abhängigkeits-Höllen, Legacy-Toolchains und komplexen Kompilierfehlern berücksichtigt.

Mehr lesen
Entwicklung

Prompt-Umformulierung steigert die Leistung kleiner LLMs um über 20%

2025-09-17
Prompt-Umformulierung steigert die Leistung kleiner LLMs um über 20%

Jüngste Forschungsergebnisse zeigen, dass eine einfache Umformulierung von Prompts die Leistung kleiner Sprachmodelle deutlich verbessern kann. Die Forscher verwendeten den Tau²-Benchmark, um das GPT-5-mini-Modell zu testen und stellten fest, dass das Umschreiben von Prompts in klarere, strukturiertere Anweisungen die Erfolgsrate des Modells um über 20 % erhöhte. Dies liegt hauptsächlich daran, dass kleinere Modelle mit langen oder mehrdeutigen Anweisungen zu kämpfen haben, während klare, schrittweise Anweisungen das Schlussfolgern des Modells besser leiten. Diese Forschung zeigt, dass selbst kleinere Sprachmodelle durch geschicktes Prompt Engineering erhebliche Leistungsverbesserungen erzielen können und neue Wege für kostengünstige und effiziente KI-Anwendungen eröffnen.

Mehr lesen
KI