核手提箱 可扩展服务 policy 颈挂空调 计算机硬件 极端主义 PostgreSQL AI工具 儿童读物 化学 即时消息 代码审查 反向工程 KDE 数据安全 效率工具 超级计算机 植物学 分析化学 插图 Three.js 泄露 大会 初创 Verizon 海水淡化 GPT-3 数字革命 加速器项目 更多

LMSYS Chatbot Arena:实时和社区驱动的LLM评估 (lmsys.org)

LMSYS Chatbot Arena是一个开源项目,旨在通过实时、开放和社区驱动的评估来推进LLM的发展和理解。该平台允许用户通过在实际用例中的成对比较来评价LLM,并定期发布排行榜。自2023年5月推出以来,Chatbot Arena已成为一个重要的LLM评估平台,吸引了数百万参与者,收集了超过80万张投票,用于评估90多个LLM。该项目致力于开放科学,分享用户偏好数据和一百万个用户提示,支持研究和模型改进。