2026-03-08

AI极限推理瓶颈

“人类最后考试”与HardcoreLogic新基准双双揭示:顶级大模型在深度数学证明、多步符号推理任务上仍远不及人类专家,最高得分仅50%,凸显原创性与严谨逻辑仍是AI核心短板,为后续算法突破指明方向。