AI快开门

发现最好的AI工具

2024-07-12

大模型评测与可信危机

MMLU-PRO被曝偏袒闭源模型、上海交大发布BeHonest诚实性基准、剑桥呼吁儿童安全框架,凸显权威评测失真与模型可信风险,行业急需公正、安全、分级的评估体系以支撑AGI健康发展。