2025-06-16 AI简报 - AI快开门

【概览】CVPR 2025颁奖周引爆多模态开源潮，SAM 2.0、混元3D 2.1、图中心RDB等模型集中发布，“分割-生成-推理”一体化成为视觉语言新基线；与此同时，百度、Meta、OpenAI掀起史上最大规模AGI人才与算力争夺战，行业格局面临重塑。

01 | 多模态大模型突破

SAM 2.0、混元3D 2.1、图中心RDB基础模型在同一周相继开源，首次实现视觉-语言-3D统一架构，在分割、生成与推理任务上全面刷新SOTA。CVPR 2025将最佳论文授予相关研究，标志着多模态基础模型正式迈入“一个模型搞定图像视频3D”的一体化时代，工业界已同步启动落地。

百度宣布史上最大规模AI校招，岗位同比扩容60%；Meta豪掷143亿美元挖角Scale AI创始人，OpenAI则引入记忆与人格方向顶尖研究员。头部机构围绕“顶尖人才+算力资源”展开全面军备竞赛，为下一代AGI储备关键筹码，行业势力版图或将重新划定。

康奈尔Eso-LM将扩散模型与自回归架构融合，推理速度最高提升65倍，英伟达已提前下注。Transformer“混血”方案引发对纯自回归路线的再思考，被视作通往AGI的又一技术选项，学术与资本同步加注。

清华团队发布OneTwoVLA通用视觉-语言-动作大模型，实现“边想边做”的实时机器人控制，在火锅、炒菜、调酒等复杂任务中完成场景级验证。VLA方案从实验室走向真实服务场景，家庭与商业机器人有望加速成熟。

国科大等机构提出多模态黑箱诊断工具，可精准定位模型犯错源头；首次系统揭示大模型“可逆遗忘”规律，为隐私合规与机器遗忘提供理论支撑；美团成立外部算法顾问委员会，推动算法透明与骑手权益保护，AI安全治理进入实操阶段。

Comet、Dia、Fellou、豆包等“Agentic Browser”集中亮相，内置多模态Agent可自主比价、写高考作文、跨网页执行任务。传统浏览器厂商被迫跟进，人机交互入口或迎来新一轮洗牌。

我国完成首例侵入式脑机接口临床试验，关键工艺指标超越Neuralink；厦门大学开源GastritisMIL模型，实现慢性胃炎组织学可解释评估。高端医疗器械与病理诊断双线突破，AI医疗进入临床实用快车道。

【展望】多模态开源与人才争夺同步升温，预示AGI竞赛已进入“技术+组织”双轮驱动阶段；混合架构与VLA落地为模型效率与机器人商业化提供新路径，而AI安全、浏览器入口和医疗场景的突破则凸显应用与治理并重。未来六个月，模型一体化、人才流动和场景落地速度将决定行业新格局。