【概览】OpenAI 凌晨连发 GPT-5-Codex 系列,把“7×24 自动编程”推向工程化;国内蚂蚁 6.1B MoE 模型以 1/7 参数对标 40B Dense,Cursor、CodeRabbit 同日迭代融资。资本与模型双轮驱动下,AI 正从“写代码”升级为“当程序员”,软件工程进入无人区。
01 | 编程大模型军备赛
OpenAI 一次性放出 GPT-5-Codex 三版本,支持最长 7 小时连续编码、动态算力分配与 VS Code 零侵入接入,实测简单任务提速 10 倍;国内蚂蚁开源 MoE 模型 Ling-flash-2.0 仅用 6.1B 参数在 HumanEval 上逼平 40B Dense,推理成本骤降 85%。Cursor1.6 同步上线自定义命令与团队知识库,CodeRabbit 再获 6000 万美元 B 轮,估值半年翻番至 5.5 亿美元。模型、工具、资本三线并发,“自动化软件工程”从概念走向订单。
02 | 智能体从对话到行动
谷歌发布 AP2 协议,让 AI 助手在获得一次性授权后可代用户完成搜索-比价-下单-支付全流程,实测 15 秒买到限量球鞋;Gamma 3.0 把 Agent 与 API 编排成“演示流水线”,输入大纲即可自动生成 30 页可交互幻灯片。腾讯 Parallel-R1 框架首次让大模型具备“并行思维”能力,多任务规划速度提升 4.7 倍。Notion 确认年内上线个性化智能体,可跨工作区执行会议纪要、任务拆解与数据回填。Agent 不再只是聊天框,而成为数字员工。
03 | 开源生态深度洗牌
阿里通义千问团队开源 DeepResearch-Lite,在 WebBrowsing 与代码检索任务上超越 OpenAI 同规模闭源模型,仅 13B 参数可商用;小红书把音频大模型 SEA-LM 全套权重、训练语料与评估脚本一次性放出,成为目前最彻底的开源音频项目。宇树科技发布机器人世界模型 UnifoLM,首次将 3D 语义地图与运动控制联合训练,已适配旗下 6 款人形机型。LLM 开源 2.0 榜单更新,60 个模型因缺乏维护或性能掉队被除名,开源竞争从“放参数”升级为“数据+工具链+标准”的全栈对抗。
04 | 物理AI吸金狂潮
Figure 以 390 亿美元估值完成超 10 亿美元 C 轮,创人形机器人单轮纪录,计划 2026 年部署 10 万台进厂打工;阿里战略投资哈啰 Robotaxi,联合打造 L4 级运营平台,首批 200 辆车年底落地杭州。英伟达与 Nscale 宣布 130 亿美元在英国建造 AI 基础设施,专供自动驾驶与机器人训练。资本正把“物理 AI”视为继云之后的下一个 10 万亿美元赛道。
05 | 安全与治理警钟
国内首次大模型众测 48 小时内挖出 281 个高危漏洞,提示注入、数据泄露与越权调用成重灾区;清华发布《人工智能全球治理行动计划》,提出“普惠框架+分级监管+技术援助”三位一体中国方案。云栖大会首次设置“负责任 AI”论坛,联合 30 家企业发布红蓝对抗基准。KCL 最新研究警告,过度依赖对话式 AI 或诱发“AI 精神病”症状,已出现焦虑、幻觉与社交退缩案例,技术狂奔下的伦理与心理风险进入公共议程。
06 | AI+教育全链路渗透
谷歌推出 Learn Your Way,用生成式 AI 把教材变成“可对话、可测验、可分支”的个性化教科书,已与美国 15 州学区签约;YouTube Studio AI 助手可一键扫描面孔盗用与违规二创,保护教师与创作者版权。夸克发布国内首个覆盖执业医师考试全阶段的大模型测试集,包含 20 万道真题与解析,准确率较 GPT-4 提升 8.7%。AI 正重塑“内容生产—学习交互—评估认证”完整闭环。
07 | 消费电子轻量硬件潮
魅族 StarV Snap AI 眼镜仅 39 g,集成拍照、实时翻译与支付宝离线支付,售价 1999 元首日售罄;中国移动发布“灵犀”电子导盲犬,基于多模态大模型实现障碍物语义识别与语音引导,已在京沪 50 个社区试点。华为推出“4+10+N”中小企业智能化方案,把昇腾算力、ModelArts 与行业模板打包成交钥匙盒子,30 分钟完成本地部署。轻量级 AI 硬件正以“随身、助残、易落地”撕开消费级市场缺口。
【展望】当大模型能把程序员“7 小时连续编码”写进 SLA,当 AI 助手可以替你一键买下限量球鞋,技术临界点已清晰可见。接下来,竞争焦点将从“参数与融资”转向“场景深耕与安全可控”:谁能把自动编程做成可审计的工业流水线,谁能在物理世界规模化部署的同时守住伦理底线,谁就能在下一回合抢得先机。