AI快开门
发现AI的无限可能
首页
工具
模型
模型历史
模型排名
模型价格
话题
简报
搜索
首页
工具
模型
话题
简报
搜索
← 返回话题列表
#
MMLU-Pro
相关话题
2024-09-15
模型评测与基准危机
Reflection 模型被指成绩造假并道歉,MMLU-Pro 等新基准紧急上线,英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机,推动更严格、可解释的评价体系成为共识。
基准测试
Reflection
MMLU-Pro
模型评估
可信度