2025-07-12
科研专用LLM评估新基准
Ai2、耶鲁、NYU上线全球首个科研LLM竞技场SciArena,23款顶级模型实测,o3夺冠、DeepSeek-R1第四,暴露自动指标难捕捉科研人员偏好的痛点,将推动学术写作辅助模型迭代。
2025-06-08
多模态慢思考与评估基准
复旦等发布首个多模态逻辑推理基准,Gemini 2.5 Pro仅得60分;VL-Rethinker框架让视觉模型学会“三思后行”,超GPT-o1近7个百分点,揭示多模态推理仍是短板,慢思考成提升核心路径。
2024-12-28
模型推理与评估新范式
o3在ARC-AGI刷新纪录却遇大网格瓶颈,OpenAI科学家提出“AGI时间”衡量法,CPU offload方案MagicPIG提升解码吞吐量4.99倍,显示后训练、评估与硬件协同优化成为提升模型上限的下一站,推动行业从炼模型转向炼任务。