海龟 Benchmark

一个众包、无法作弊的,评估LLM reasoning & understanding能力的benchmark。
我们最早在一个在线海龟汤游戏中发现,作为游戏中的裁判,许多LLM在对于人类提问的推理和判定准确率上,远逊于人类的水准。我们希望海龟benchmark能作为一个标准化的测试指标,用来评估LLM的推理和理解能力,帮助研究者和AI企业改进模型。
一个众包、无法作弊的,评估LLM reasoning & understanding能力的benchmark。
我们最早在一个在线海龟汤游戏中发现,作为游戏中的裁判,许多LLM在对于人类提问的推理和判定准确率上,远逊于人类的水准。我们希望海龟benchmark能作为一个标准化的测试指标,用来评估LLM的推理和理解能力,帮助研究者和AI企业改进模型。