海龟 Benchmark

一个众包、无法作弊的，评估LLM reasoning & understanding能力的benchmark。

我们最早在一个在线海龟汤游戏中发现，作为游戏中的裁判，许多LLM在对于人类提问的推理和判定准确率上，远逊于人类的水准。我们希望海龟benchmark能作为一个标准化的测试指标，用来评估LLM的推理和理解能力，帮助研究者和AI企业改进模型。

August 9, 2024

第0期: 用2万条真人海龟汤游戏评估LLM推理能力