【概览】
OpenAI 罕见松口将释出开放权重模型,xAI Grok4、谷歌 Gemini 与微软 Phi-4-mini 同日抢榜,顶级性能与低价 API 并存,行业竞争维度从“参数”转向“性能-成本-可控性”三维并重;视频、浏览器、端侧、医疗、具身智能等多赛道同步爆发,AI 进入全场景落地深水区。
01 | 顶级模型争霸与开源变局
Grok4 以全榜第一的综合推理与代码能力刷新公开评测,谷歌 Gemini 维持多模态优势,微软 Phi-4-mini 把推理效率提升 10 倍并可在笔记本端运行;更关键的是,OpenAI 首次确认将发布开放权重模型,闭源阵营出现裂缝。巨头同步提速迭代+开源释放,API 定价、开发者生态与下游应用竞争格局将在下半年迎来系统性重估。
02 | AI视频生成全面落地
谷歌 Veo 3 升级“照片转视频”功能并开放 150 国付费接口,7 周生成 4,000 万条短片;阿里开源 ThinkSound 自动为画面匹配音效,爱诗 PixVerse 入选联合国 AI for Good 案例。生成式视频正从 Demo 走向广告、动漫、UGC 等商用场景,传统内容生产链条面临成本骤降与角色重构的双重冲击。
03 | 浏览器新物种混战
Perplexity 推出原生 AI 浏览器 Comet,OpenAI 被曝年内发布同类新品,谷歌 Chrome 搜索份额遭前后夹击。AI 摘要、对话式入口、自动生成网页等能力,将流量入口从“搜索框”升级为“意图代理”,站长广告与 SEO 模式进一步承压,在线广告生态面临重构。
04 | 端侧小模型爆发
vivo 发布 3B 多模态模型 BlueLM-2.5,可在手机端理解 GUI 界面;微软 Phi-4-mini 推理提速 10 倍,笔记本可跑;港大与字节联合推出 4B 数学模型,以强化学习逼近 235B 性能。小参数+高能力+本地部署,显著降低推理成本与隐私风险,为移动、IoT、边缘计算打开增量市场。
05 | 医疗AI开源与产品化提速
谷歌 MedGemma 系列上新,单 GPU 即可运行的开源医疗多模态模型登顶多项医学视觉任务,并配套 HAI-DEF 开发者框架。轻量级+开源降低医院与初创公司接入门槛,影像诊断、患者沟通等场景落地提速,医疗 AI 进入“可私有、可微调、低成本”阶段。
06 | 具身智能与机器人新物种
人形机器人 MagicBot Z1 直接开售,Reachy Mini 开源并接受预定,伯克利 ViTacFormer 提升灵巧手稳定性;Meta 发布 40 页报告提出“心智世界模型”。AI+机器人硬件结合进入小批量落地,家庭服务、餐饮制作、科研教育等场景出现商业化案例,产业链聚焦“大脑+小脑+本体”一体化平台。
07 | 人才与资本高烈度争夺
Meta 斥资 2 亿美元挖角苹果 AI 负责人,OpenAI 反手从特斯拉、xAI、Meta 挖走 4 名核心成员;亚马逊拟追加投资 Anthropic 并共建全球最大 AI 数据中心。顶级人才与算力资源同步集中,头部公司用“现金+算力”锁定下一波模型突破,创业公司与高校面临更大流失压力。
【展望】
当“开源”成为巨头共识,模型能力迅速商品化,竞争焦点将转向成本控制、场景深耕与数据飞轮。视频、浏览器、端侧、医疗、机器人等赛道已出现可规模化的商业闭环,预计下半年会看到更多“小模型+大生态”的打法;与此同时,顶级人才与算力继续向头部集中,留给创业公司的窗口期正在收窄,差异化数据与垂直场景将成为突围关键。