短板 - AI话题 - AI快开门

2025-05-28

多模态模型视觉-物理推理短板暴露

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%，港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生，揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类，为下一代模型优化指明关键方向。

视觉推理物理推理 o3 多模态评测模型短板

2025-05-03

数学与科学推理突破

DeepSeek-Prover-V2在普特南测试一举解答49题，7B小模型竟自学出671B巨模型未掌握的定理技巧；北大PHYBench同时揭示大模型物理推理短板，推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透，为自主发现新知识奠定算法基础。

数学证明物理推理科学发现 DeepSeek 大模型短板

2024-03-31

大模型评测与代码短板

新基准测试显示GPT-4代码能力仅得7.1分，Devin等AI工程师暴露大模型在软件开发全流程中的三大短板，推动行业建立更严格的代码生成评测体系。

GPT-4 代码生成 Devin 基准测试短板