AI快开门
发现AI的无限可能
首页
工具
模型
模型历史
模型排名
模型价格
话题
简报
搜索
首页
工具
模型
话题
简报
搜索
← 返回话题列表
#
动态基准
相关话题
2026-04-04
AI评测范式革命
从静态刷榜到动态博弈,AI评测正在“实战化”。Kaggle推出AI大逃杀,让模型在狼人杀、德州扑克中互骗互杀;普林斯顿等则在Nature提出18维“通用量表”,强调可解释与跨任务泛化。评测重心由“做题家”转向社交欺骗、心理博弈与真实场景可靠性,将直接影响模型迭代方向与行业选型标准。
AI评测
大逃杀
通用量表
社交博弈
动态基准