海龟 Benchmark

Turtle Benchmark

一个众包、无法作弊的,评估LLM reasoning & understanding能力的benchmark。

我们最早在一个在线海龟汤游戏中发现,作为游戏中的裁判,许多LLM在对于人类提问的推理和判定准确率上,远逊于人类的水准。我们希望海龟benchmark能作为一个标准化的测试指标,用来评估LLM的推理和理解能力,帮助研究者和AI企业改进模型。