AI快开门

发现最好的AI工具

2025-05-28

多模态模型视觉-物理推理短板暴露

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-03

数学与科学推理突破

DeepSeek-Prover-V2在普特南测试一举解答49题,7B小模型竟自学出671B巨模型未掌握的定理技巧;北大PHYBench同时揭示大模型物理推理短板,推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透,为自主发现新知识奠定算法基础。
2024-03-31

大模型评测与代码短板

新基准测试显示GPT-4代码能力仅得7.1分,Devin等AI工程师暴露大模型在软件开发全流程中的三大短板,推动行业建立更严格的代码生成评测体系。