最后考试 - AI话题

2026-03-08

“人类最后考试”与HardcoreLogic新基准双双揭示：顶级大模型在深度数学证明、多步符号推理任务上仍远不及人类专家，最高得分仅50%，凸显原创性与严谨逻辑仍是AI核心短板，为后续算法突破指明方向。

2025-07-11

xAI发布Grok-4系列，在“人类最后考试”首次突破50%准确率，被马斯克称为“比所有领域博士都聪明”。模型已上车特斯拉，并带动股价与Robotaxi预期，标志大模型进入工具原生、科学发现新阶段，加剧中美模型竞赛。

AI快开门