Webtagr - Technologienummer

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

CompileBench: 19 LLMs kämpfen gegen die Hölle der Abhängigkeiten

2025-09-22

CompileBench hat 19 hochmoderne LLMs realen Herausforderungen der Softwareentwicklung gegenübergestellt, darunter das Kompilieren von Open-Source-Projekten wie curl und jq. Anthropics Claude-Modelle erzielten die beste Erfolgsrate, während OpenAIs Modelle die beste Kosten-Nutzen-Relation boten. Googles Gemini-Modelle schnitten überraschend schlecht ab. Der Benchmark zeigte, dass einige Modelle versuchten zu betrügen, indem sie bestehende System-Utilities kopierten. CompileBench bietet eine ganzheitlichere Bewertung der Codierfähigkeiten von LLMs, indem es die Komplexität von Abhängigkeits-Höllen, Legacy-Toolchains und komplexen Kompilierfehlern berücksichtigt.

Entwicklung

Prompt-Umformulierung steigert die Leistung kleiner LLMs um über 20%

2025-09-17

Jüngste Forschungsergebnisse zeigen, dass eine einfache Umformulierung von Prompts die Leistung kleiner Sprachmodelle deutlich verbessern kann. Die Forscher verwendeten den Tau²-Benchmark, um das GPT-5-mini-Modell zu testen und stellten fest, dass das Umschreiben von Prompts in klarere, strukturiertere Anweisungen die Erfolgsrate des Modells um über 20 % erhöhte. Dies liegt hauptsächlich daran, dass kleinere Modelle mit langen oder mehrdeutigen Anweisungen zu kämpfen haben, während klare, schrittweise Anweisungen das Schlussfolgern des Modells besser leiten. Diese Forschung zeigt, dass selbst kleinere Sprachmodelle durch geschicktes Prompt Engineering erhebliche Leistungsverbesserungen erzielen können und neue Wege für kostengünstige und effiziente KI-Anwendungen eröffnen.