模型局限 - AI话题

2025-09-23

SWE-Bench Pro新基准测试显示，GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板，促使行业重新评估“代码智能”评价指标，并加速神经-符号混合、强化学习新范式的研究投入。

AI快开门