该平台提供了一个涵盖52个不同学科的13948道多项选择题,并根据模型在这些题目上的表现得出综合排行。
1. 多学科评估 – C-Eval考察了语言模型在52个不同学科领域的理解能力,包括常识、生物、历史、地理等,可以全面而准确地评估模型的语言理解广度与深度。
2. 四个难度级别 – C-Eval的题目分为初级、中级、高级和专家四个难度级别,可以测评模型在不同难度场景下的应用潜力。
3. 排行榜 – C-Eval根据模型在全部题目上的得分总结得出综合排行,目前GPT-4模型名列第一。排行榜由上海交通大学和清华大学的学生提供技术支持。
4. 开源工具 – C-Eval的评测工具和数据集都是开源的,开发者可以使用它来评估自己开发的语言模型,或基于它进行新的研究。
5. 持续迭代 – C-Eval的题库和评测标准会持续扩充和迭代,以跟上语言模型性能的提高和用户需求的变化。
地址:https://cevalbenchmark.com/index_zh.html
排行榜:https://cevalbenchmark.com/static/leaderboard_zh.html
开源地址:https://github.com/SJTU-LIT/ceval