AI快开门

发现最好的AI工具

2025-09-23

编程模型集体“挂科”引反思

SWE-Bench Pro新基准测试显示,GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板,促使行业重新评估“代码智能”评价指标,并加速神经-符号混合、强化学习新范式的研究投入。