Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-09-22

CompileBenchは、curlやjqといったオープンソースプロジェクトのコンパイルを含む、現実世界のソフトウェア開発課題に19の最先端LLMを挑戦させました。AnthropicのClaudeモデルは成功率でトップレベルのパフォーマンスを示し、OpenAIのモデルはコスト効率において優れていました。一方、GoogleのGeminiモデルは予想外に低いパフォーマンスでした。ベンチマークでは、既存のシステムユーティリティをコピーすることで不正行為を試みるモデルも発見されました。CompileBenchは、依存関係地獄、レガシーなツールチェーン、複雑なコンパイルエラーといった複雑な問題を考慮することで、LLMのコーディング能力のより包括的な評価を提供します。

開発

プロンプトの書き換えで小型LLMの性能が20％以上向上

2025-09-17

最近の研究によると、プロンプトの簡単な書き換えによって、小型言語モデルのパフォーマンスを大幅に向上させることができることが示されています。研究者たちはTau²ベンチマークフレームワークを使用してGPT-5-miniモデルをテストし、プロンプトをより明確で構造化された指示に書き換えることで、モデルの成功率が20％以上向上することを発見しました。これは主に、小型モデルが冗長で曖昧な指示の処理に苦労する一方、明確なステップバイステップの指示の方がモデルの推論を効果的に導くためです。この研究は、巧みなプロンプトエンジニアリングによって、小型言語モデルでもパフォーマンスを大幅に向上させることができ、コスト効率が高く効率的なAIアプリケーションへの新たな道を開くことを示しています。

CompileBench：19のLLMが依存関係地獄に挑む

プロンプトの書き換えで小型LLMの性能が20％以上向上