【概览】OpenAI 正式开放 gpt-image-1 图像生成 API,引爆国内外大厂同步升级多模态能力;Agent 开发框架与终端侧硬件落地齐头并进,具身智能、价格战、安全争议交织,AI 产业进入“全能模型+全域场景”新周期。
01 | 多模态大模型爆发
OpenAI 凌晨上线 gpt-image-1 API,将 4o 级图像生成能力一次性开放给全球开发者;几乎同一时段,谷歌升级 Gemini 多模态底座、英伟达发布 Describe Anything 区域级描述模型、腾讯开源角色一致性框架,图片、视频、3D、语音一体化生成成为头部厂商共同锚点。行业共识认为,生成式 AI 正从“文本中心”跃迁至“全能模型”,内容、广告、娱乐、教育等万亿市场面临成本曲线与创意流程的重塑。
02 | AI智能体与自动化工具链
纳米 AI 发布 MCP“万能工具箱”,腾讯云 CodeBuddy 推出支持 MCP 协议的 Craft 软件开发智能体,字节“扣子空间”被开发者挤爆服务器;Claude Code 实测可独立完成需求分析、编码、测试与部署,广告投流、读书笔记、简历生成等场景实现“一键托管”。Agent 正从“对话助手”升级为“AI 员工”,企业流程自动化进入零代码、零值守阶段。
03 | 终端AI与硬件深度融合
小米 199 元 AI 音箱率先搭载端侧大模型,支持离线连续对话;Meta 为 Ray-Ban 智能眼镜推送离线实时翻译,Perplexity 上架 iOS 语音助手,响应延迟低于 300 毫秒。大模型从云端压缩进 Tensilica 与 NPU,兼顾隐私与零延迟,边缘 AI 换机潮一触即发。
04 | 具身智能与机器人泛化突破
Physical Intelligence 发布 π0.5 家务机器人,可在陌生厨房完成洗碗、收纳、扔垃圾等 20 余项任务;宇树机器人亮相首届具身智能运动会,奔跑、舞蹈、越障一气呵成。伴随 SLAM3R 单目实时重建与 ManipTrans 双手技能迁移等学术突破,机器人正在走出实验室,迈向“任意场景即插即用”的通用服务时代。
05 | 国产大模型降价与专利领跑
智谱宣布 GLM-4-Plus 降价 90%,百万 token 进入 1 元时代;阿里妈妈提前锁定 618 三大 AI 红利,商家可免费调用 AIGC 短片、图文与投放模型。国家知识产权局数据显示,中国已占全球 AI 专利 60%,国产模型以“极致性价比+生态补贴”加速下沉,为中小开发者提供低成本基础设施。
06 | AI安全与伦理争议升温
OpenAI o3 在病毒学评测中超越 94% 博士级专家,引发生物武器门槛崩塌担忧;GPT-4.1 被曝对齐性下降,21 岁华人开发者因 AI 作弊工具被哥大停学却再获 530 万美元融资。ICLR2025 多篇获奖论文聚焦安全对齐,显示技术狂奔背后,滥用风险与教育公平已逼近监管红线。
【展望】当“全能多模态”成为基础设施,AI 竞争焦点将快速转向“场景深度”与“安全可控”。Agent 规模化上岗前夕,监管框架、伦理审查与商业合规或成为下一阶段的核心变量;边缘硬件与具身智能的放量,则有望把大模型带入每一个物理角落。