2026-04-16

具身智能数据基建

京东、蚂蚁、腾讯等集中发布具身数据采集、重建与训练闭环方案,降低机器人与3D场景建模门槛,标志行业从算法竞赛转向“数据+硬件”标准化新阶段,为规模化落地奠基。
2026-04-16

世界模型开源潮

阿里Happy Oyster、腾讯混元3D 2.0、World Labs Spark 2.0等相继开源,支持文本/图像一键生成可交互3D世界,打通游戏与AR工作流,预示“AI造世界”进入免费工具时代。
2026-03-30

AI视频/3D创作平民化

Runway Multi-Shot一键电影级短片、Claude手搓3D建筑编辑器、爱奇艺纳逗Pro打通剧本到成片,降低专业创作门槛,年费数万美金软件面临免费网页工具冲击,AI重塑影视与建筑工业化流程。
2026-03-12

AI医疗与科学模型落地

斯坦福发布首个原生3D腹部CT视觉语言模型Merlin,浙大提出量子精度生物力场模型LiTEN-FF,谷歌Groundsource用AI预测山洪,显示大模型正深入医疗影像、生物制造、灾害预警等科学场景,提升专业决策效率。
2026-03-06

具身智能与 3D 大模型融资热

极佳视界获 10 亿元 Pre-B 轮,VAST 获阿里领投 5000 万美元 A 轮,具身智能与 3D 生成赛道资本狂飙,加速构建物理世界 AI 底座。
2026-02-02

AI视频/3D生成进入720p量产时代

xAI Grok Imagine 1.0率先实现10秒720p高清视频一键生成,谷歌Project Genie支持草图秒变可玩3D世界,叠加何恺明“一步像素直出”扩散新框架,内容创作门槛被大幅降低,短视频、游戏资产生态将迎来生产力革命。
2026-01-16

AI视频生成再升级

Google Veo 3.1、Higgsfield、腾讯混元动作大模型等同步迭代,多图一致性、4K超分、竖版原生、3D动作生成成为新卖点,推动AI视频从“演示”走向“生产”,广告、短剧、动画等内容产业将率先受益。
2026-01-08

物理AI与具身智能爆发

Mobileye 9亿美元收购Mentee Robotics、小鹏/FF/Arm齐推“物理AI”战略,阿里开源3D动画模型,割草机器人海外落地。资本、整车厂、芯片巨头同步押注“具身智能”,2026年被视为量产元年,硬件载体与AI模型深度融合。
2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先,国产商汤、豆包、Qwen3-VL紧随其后;阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型,显示中美在视觉-语言-动作一体化赛道进入密集迭代期,直接决定下一代交互与内容生成标准。
2025-12-25

具身智能与机器人升级

京东物流“智狼”机器人海外仓规模化落地,原力灵机发布GeoVLA赋予机器人3D视觉,清华-开创电气联合研究中心揭牌,亚马逊整合芯片+模型+机器人转向实体AI,显示具身智能正走出实验室进入产业闭环。
2025-12-12

视频/3D生成与多模态应用

Runway发布通用世界模型GWM-1,智谱开源视频生成核心技术,港大ViMax实现AI自编自导自演,谷歌升级虚拟试穿,Medeo AI推视频Agent一键改剧本,多模态生成从2D图像迈向可推理、可交互的3D世界,内容生产门槛进一步降低。
2025-12-09

多模态大模型突破

原生多模态架构NEO、Gemini 3、GPT-5.2等新一代模型密集发布,实现视觉-语言-3D统一生成与推理,推动“零门槛”创作与交互,标志生成式AI进入全模态时代。
2025-12-07

谷歌Gemini 3高价争议

谷歌发布迄今最强Gemini 3 Deep Think,草图秒变可交互3D场景,创意能力惊艳业界,但付费定价在DeepSeek等开源冲击下被批“太贵”。该事件凸显闭源巨头与开源社区之间的性价比鸿沟,或加速企业客户转向更具成本优势的替代方案,倒逼谷歌调整商业策略。
2025-11-23

具身智能融资与低成本硬件

蚂蚁投资腾讯系具身智能公司、范浩强凭5000元“丐版硬件”获10亿融资,显示资本对高性价比机器人方案的追捧;同时3D仿真生成技术降低训练门槛,推动具身智能从Demo走向落地。
2025-11-22

多模态大模型激战升级

谷歌连发 Nano Banana Pro、Gemini 3 融合 Veo 3,一键 UI 与 3D 重建引爆设计圈;Meta SAM 3D 单图生成可遮挡 3D 模型;xAI Grok 4.1 推理版反超 Gemini,马斯克同步启动 150 亿美元融资,多模态军备赛再提速。
2025-11-21

多模态大模型军备竞赛

OpenAI、谷歌、腾讯、Meta 72 小时内连环发布 GPT-5.1/Codex-Max、Gemini 3 系、HunyuanVideo 1.5、SAM-3D 等旗舰模型,上下文窗口、视频生成、3D 理解同步刷新 SOTA。巨头以「周」为单位迭代,标志生成式 AI 进入多模态长序列新战场,直接决定云算力需求与开发者生态归属。
2025-11-19

视频/3D 生成进入实时时代

AI 视频生成提速 30% 并支持细节随手编辑,字节 Seed 发布单 Transformer 任意视角 3D 重建模型 DA3,影眸 Rodin 获头部游戏大单,30 秒即可输出可交互 3D 资产,UGC 二创与粉丝经济迎来全新内容供给范式。
2025-11-15

多模态决策机制与3D视觉突破

研究首次揭示多模态大模型在冲突信息下“振荡”决策的内部机制,为提升可靠性提供理论依据;字节Depth Anything 3用极简自回归方案刷新3D视觉指标,获谢赛宁点赞,预示多模态技术正从性能走向可解释与高效。
2025-11-14

世界模型3D生成大众化

李飞飞World Labs推出Marble公测,单图+一句话即可生成可交互3D世界,Pro版月费仅7元;华为投资极佳视界,国内首家物理AI世界模型公司再获亿元融资,3D内容生产门槛被彻底打穿,元宇宙基建迎来“GPT时刻”。
2025-11-13

空间智能与世界模型商用化

李飞飞World Labs发布首款3D世界模型Marble并开放免费版,可灵2.5Turbo上线“首尾帧”可控视频生成,宇树G1-D工作站实现人形机器人采集-训练-部署闭环,显示AI正从语言空间走向三维物理世界,空间智能进入可商用落地拐点。