AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
模型局限
相关话题
2025-09-23
编程模型集体“挂科”引反思
SWE-Bench Pro新基准测试显示,GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板,促使行业重新评估“代码智能”评价指标,并加速神经-符号混合、强化学习新范式的研究投入。
编程基准
SWE-Bench
模型局限
神经符号
代码智能