模型短板 - AI话题

2025-05-28

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%，港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生，揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类，为下一代模型优化指明关键方向。

2025-05-03

DeepSeek-Prover-V2在普特南测试一举解答49题，7B小模型竟自学出671B巨模型未掌握的定理技巧；北大PHYBench同时揭示大模型物理推理短板，推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透，为自主发现新知识奠定算法基础。

AI快开门