2025-05-28
多模态模型视觉-物理推理短板暴露
清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-03
数学与科学推理突破
DeepSeek-Prover-V2在普特南测试一举解答49题,7B小模型竟自学出671B巨模型未掌握的定理技巧;北大PHYBench同时揭示大模型物理推理短板,推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透,为自主发现新知识奠定算法基础。