AI快开门

发现最好的AI工具

2025-05-28

多模态模型视觉-物理推理短板暴露

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-17

学术顶会趋势与评测革新

ACL 2025投稿破8000篇高分遭拒、General-Level提出多模态通才排行榜,反映AI研究量质齐升但评审内卷,呼唤更科学评测体系以引导资源聚焦真正通用智能突破。
2024-11-16

多模态大模型技术竞速

谷歌新Gemini重夺竞技场榜首,Claude 3.6在《我的世界》盖楼展现Agent迭代能力,MEGA-Bench评测显示CoT对开源多模态模型反而有害,反映多模态理解与复杂任务执行仍处快速演进期。
2024-01-27

多模态大模型中文评测突破

智源研究院发布首个中文多模态评测基准CMMU,GPT-4V准确率仅约30%,凸显中文多模态短板;阿里Qwen-VL升级并限时免费,性能反超GPT-4V,国产模型加速追赶。