评估基准 - AI话题

2025-07-12

Ai2、耶鲁、NYU上线全球首个科研LLM竞技场SciArena，23款顶级模型实测，o3夺冠、DeepSeek-R1第四，暴露自动指标难捕捉科研人员偏好的痛点，将推动学术写作辅助模型迭代。

2025-06-08

复旦等发布首个多模态逻辑推理基准，Gemini 2.5 Pro仅得60分；VL-Rethinker框架让视觉模型学会“三思后行”，超GPT-o1近7个百分点，揭示多模态推理仍是短板，慢思考成提升核心路径。

2024-12-28

o3在ARC-AGI刷新纪录却遇大网格瓶颈，OpenAI科学家提出“AGI时间”衡量法，CPU offload方案MagicPIG提升解码吞吐量4.99倍，显示后训练、评估与硬件协同优化成为提升模型上限的下一站，推动行业从炼模型转向炼任务。

2024-10-08

黑森林Flux 1.1 Pro速度提升6倍，新算法降能耗95%，LightEval开源评估套件应对“跑分造假”质疑，小型模型推理缺陷被揭露，行业从“拼参数”转向“拼效率+可信”。

AI快开门