2026-03-08

AI极限推理瓶颈

“人类最后考试”与HardcoreLogic新基准双双揭示:顶级大模型在深度数学证明、多步符号推理任务上仍远不及人类专家,最高得分仅50%,凸显原创性与严谨逻辑仍是AI核心短板,为后续算法突破指明方向。
2025-07-11

Grok-4刷新大模型天花板

xAI发布Grok-4系列,在“人类最后考试”首次突破50%准确率,被马斯克称为“比所有领域博士都聪明”。模型已上车特斯拉,并带动股价与Robotaxi预期,标志大模型进入工具原生、科学发现新阶段,加剧中美模型竞赛。