AI快开门

发现最好的AI工具

2025-07-12

科研专用LLM评估新基准

Ai2、耶鲁、NYU上线全球首个科研LLM竞技场SciArena,23款顶级模型实测,o3夺冠、DeepSeek-R1第四,暴露自动指标难捕捉科研人员偏好的痛点,将推动学术写作辅助模型迭代。
2025-06-08

多模态慢思考与评估基准

复旦等发布首个多模态逻辑推理基准,Gemini 2.5 Pro仅得60分;VL-Rethinker框架让视觉模型学会“三思后行”,超GPT-o1近7个百分点,揭示多模态推理仍是短板,慢思考成提升核心路径。
2024-12-28

模型推理与评估新范式

o3在ARC-AGI刷新纪录却遇大网格瓶颈,OpenAI科学家提出“AGI时间”衡量法,CPU offload方案MagicPIG提升解码吞吐量4.99倍,显示后训练、评估与硬件协同优化成为提升模型上限的下一站,推动行业从炼模型转向炼任务。
2024-10-08

模型效率与评估

黑森林Flux 1.1 Pro速度提升6倍,新算法降能耗95%,LightEval开源评估套件应对“跑分造假”质疑,小型模型推理缺陷被揭露,行业从“拼参数”转向“拼效率+可信”。