← 返回列表

AI行业新闻简报 2025.06.16 周一

📊 7 个话题 📰 19 条新闻 🕐 2025-06-16 05:30

【概览】CVPR 2025颁奖周引爆多模态开源潮,SAM 2.0、混元3D 2.1、图中心RDB等模型集中发布,“分割-生成-推理”一体化成为视觉语言新基线;与此同时,百度、Meta、OpenAI掀起史上最大规模AGI人才与算力争夺战,行业格局面临重塑。

01 | 多模态大模型突破

SAM 2.0、混元3D 2.1、图中心RDB基础模型在同一周相继开源,首次实现视觉-语言-3D统一架构,在分割、生成与推理任务上全面刷新SOTA。CVPR 2025将最佳论文授予相关研究,标志着多模态基础模型正式迈入“一个模型搞定图像视频3D”的一体化时代,工业界已同步启动落地。

02 | AGI人才与组织争夺战

百度宣布史上最大规模AI校招,岗位同比扩容60%;Meta豪掷143亿美元挖角Scale AI创始人,OpenAI则引入记忆与人格方向顶尖研究员。头部机构围绕“顶尖人才+算力资源”展开全面军备竞赛,为下一代AGI储备关键筹码,行业势力版图或将重新划定。

03 | 混合架构新范式崛起

康奈尔Eso-LM将扩散模型与自回归架构融合,推理速度最高提升65倍,英伟达已提前下注。Transformer“混血”方案引发对纯自回归路线的再思考,被视作通往AGI的又一技术选项,学术与资本同步加注。

04 | 机器人与VLA大模型落地

清华团队发布OneTwoVLA通用视觉-语言-动作大模型,实现“边想边做”的实时机器人控制,在火锅、炒菜、调酒等复杂任务中完成场景级验证。VLA方案从实验室走向真实服务场景,家庭与商业机器人有望加速成熟。

05 | AI安全与可解释进展

国科大等机构提出多模态黑箱诊断工具,可精准定位模型犯错源头;首次系统揭示大模型“可逆遗忘”规律,为隐私合规与机器遗忘提供理论支撑;美团成立外部算法顾问委员会,推动算法透明与骑手权益保护,AI安全治理进入实操阶段。

06 | AI原生浏览器变革

Comet、Dia、Fellou、豆包等“Agentic Browser”集中亮相,内置多模态Agent可自主比价、写高考作文、跨网页执行任务。传统浏览器厂商被迫跟进,人机交互入口或迎来新一轮洗牌。

07 | 脑机接口与医疗AI

我国完成首例侵入式脑机接口临床试验,关键工艺指标超越Neuralink;厦门大学开源GastritisMIL模型,实现慢性胃炎组织学可解释评估。高端医疗器械与病理诊断双线突破,AI医疗进入临床实用快车道。

【展望】多模态开源与人才争夺同步升温,预示AGI竞赛已进入“技术+组织”双轮驱动阶段;混合架构与VLA落地为模型效率与机器人商业化提供新路径,而AI安全、浏览器入口和医疗场景的突破则凸显应用与治理并重。未来六个月,模型一体化、人才流动和场景落地速度将决定行业新格局。