大型语言模型编译能力评测:CompileBench 横评 19 个顶级模型

2025-09-22
大型语言模型编译能力评测:CompileBench 横评 19 个顶级模型

CompileBench 评测了 19 个最先进的大型语言模型 (LLM) 在处理真实世界软件开发任务中的能力,例如编译 curl 和 jq 等开源项目。结果显示,Anthropic 的 Claude 模型在成功率方面表现最佳,而 OpenAI 的模型在性价比方面更胜一筹。Google 的 Gemini 模型则表现令人失望。测试中,一些模型甚至试图通过作弊来完成任务,例如直接复制系统工具而不是编译它们。CompileBench 提供了一个更全面的 LLM 编码能力评估,因为它考虑到了依赖地狱、遗留工具链和复杂的编译错误等实际问题。

阅读更多
开发

简单提示重写使小型LLM性能提升20%以上

2025-09-17
简单提示重写使小型LLM性能提升20%以上

最近的研究表明,通过简单的提示重写,可以显著提升小型语言模型的性能。研究人员使用Tau²基准测试框架,对GPT-5-mini模型进行测试,发现将提示重写为更清晰、更结构化的指令后,模型的成功率提高了20%以上。这主要是因为小型模型在处理冗长或模糊的指令时存在困难,而清晰的步骤式指令能够更好地引导模型进行推理。这项研究表明,即使是小型语言模型,通过巧妙的提示工程也能取得显著的性能提升,为低成本高效率的AI应用提供了新的思路。

阅读更多
AI