2026-05-12

具身智能物理推理突破

LaST-R1模型在LIBERO基准达99.9%成功率,率先实现“先思考再行动”的物理推理范式,机器人任务成功率从52%跃升至93%。物理因果理解取代纯轨迹记忆,具身大模型迈出“通用操作”关键一步。
2025-06-13

世界模型与物理推理突破

Meta开源V-JEPA 2、谷歌DeepMind自研世界模型证明“世界模型is all you need”,15天预测台风、62小时完成机器人训练,开启物理推理与气候预测新时代,获陶哲轩、LeCun力挺。
2025-05-28

多模态模型视觉-物理推理短板暴露

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-03

数学与科学推理突破

DeepSeek-Prover-V2在普特南测试一举解答49题,7B小模型竟自学出671B巨模型未掌握的定理技巧;北大PHYBench同时揭示大模型物理推理短板,推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透,为自主发现新知识奠定算法基础。