CompileBench:19のLLMが依存関係地獄に挑む

2025-09-22
CompileBench:19のLLMが依存関係地獄に挑む

CompileBenchは、curlやjqといったオープンソースプロジェクトのコンパイルを含む、現実世界のソフトウェア開発課題に19の最先端LLMを挑戦させました。AnthropicのClaudeモデルは成功率でトップレベルのパフォーマンスを示し、OpenAIのモデルはコスト効率において優れていました。一方、GoogleのGeminiモデルは予想外に低いパフォーマンスでした。ベンチマークでは、既存のシステムユーティリティをコピーすることで不正行為を試みるモデルも発見されました。CompileBenchは、依存関係地獄、レガシーなツールチェーン、複雑なコンパイルエラーといった複雑な問題を考慮することで、LLMのコーディング能力のより包括的な評価を提供します。

続きを読む
開発

プロンプトの書き換えで小型LLMの性能が20%以上向上

2025-09-17
プロンプトの書き換えで小型LLMの性能が20%以上向上

最近の研究によると、プロンプトの簡単な書き換えによって、小型言語モデルのパフォーマンスを大幅に向上させることができることが示されています。研究者たちはTau²ベンチマークフレームワークを使用してGPT-5-miniモデルをテストし、プロンプトをより明確で構造化された指示に書き換えることで、モデルの成功率が20%以上向上することを発見しました。これは主に、小型モデルが冗長で曖昧な指示の処理に苦労する一方、明確なステップバイステップの指示の方がモデルの推論を効果的に導くためです。この研究は、巧みなプロンプトエンジニアリングによって、小型言語モデルでもパフォーマンスを大幅に向上させることができ、コスト効率が高く効率的なAIアプリケーションへの新たな道を開くことを示しています。

続きを読む
AI