2025-09-23
编程模型集体“挂科”引反思
SWE-Bench Pro新基准测试显示,GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板,促使行业重新评估“代码智能”评价指标,并加速神经-符号混合、强化学习新范式的研究投入。
2025-08-23
代码智能体安全攻防
普渡大学团队在代码智能体安全竞赛中以90%攻击率夺冠,并公开第一名的完整方案,揭示大模型驱动开发的安全盲区,推动业界重新审视AI生成代码的漏洞检测与防御体系。
2025-04-04
AI编程与代码智能体生态
Andrej Karpathy提出“Vibe Coding”概念,自然语言直接生成可运行代码降低门槛;开源Open-R1发布10万条CodeForces-CoTs与OlympicCoder模型,7B/32B参数在IOI赛题上超越GPT-4o。AI正从“辅助写代码”走向“自主编程”。