2026-04-04

AI评测范式革命

从静态刷榜到动态博弈,AI评测正在“实战化”。Kaggle推出AI大逃杀,让模型在狼人杀、德州扑克中互骗互杀;普林斯顿等则在Nature提出18维“通用量表”,强调可解释与跨任务泛化。评测重心由“做题家”转向社交欺骗、心理博弈与真实场景可靠性,将直接影响模型迭代方向与行业选型标准。