4D - AI话题 - AI快开门

2026-04-08

AI视频生成黑马竞速

爱诗PixVerse C1、神秘Happy Horse、Netflix“重写物理”模型相继登场，15秒1080P、物理一致性、4D动态等成为新赛点，视频生成从“能看”迈向“可用”，影视、广告、短视频内容工业或迎颠覆式重塑。

2025-12-14

世界模型与多模态生成

Runway发布通用世界模型GWM系列，可同步模拟环境、人物与机器人操作；谷歌升级Gen-4.5，SIGGRAPH Asia亦展示30→200FPS的4D重建方案。生成式AI正从“出图”走向“出世界”，为影视、机器人和元宇宙提供可交互的物理一致场景，重新定义内容生产管线。

世界模型视频生成 4D重建 Runway 多模态

2025-04-30

多模态与4D视觉突破

TesserAct提出4D场景理解框架，谷歌Genie 2生成可交互3D环境，Luma Ray2 API实现电影级镜头控制，阶跃发布开源图像编辑SOTA，显示多模态正从“看得清”走向“看得懂+控制得了”，为机器人、影视及XR应用打开新空间。

多模态 4D视觉 Genie 2 Luma 图像编辑

2025-03-23

具身智能突破

宇树G1完成全球首次机器人“鲤鱼打挺”，追觅扫地机加机械臂化身3D家庭助手，CVPR2025多篇布料抓取与4D语义场研究亮相，感知-决策-执行闭环加速落地，家庭与工业场景商业化临界点临近。

具身智能机器人机械臂 4D语义家庭场景

2024-12-19

多模态与物理仿真突破

Genesis Project、BlueQubit、PaliGemma2等新品发布，4D生成式物理引擎、量子+AI、视觉语言多模态能力显著提升，为机器人、XR内容创作提供高保真训练与交互环境。

多模态AI 生成式物理引擎量子AI PaliGemma2 4D仿真

2024-10-28

超长视频理解大模型突破

智源Video-XL、极佳DriveDreamer4D及清华VERIFIED等研究，把单卡理解电影级长视频、4D场景重建与细粒度片段标注推向新高度，为自动驾驶、媒体生产解锁小时级甚至电影级AI理解能力，长视频赛道进入可用阶段。

长视频理解 Video-XL DriveDreamer4D 片段标注 4D重建

2024-08-13

多模态与3D内容生成新工具

开源视频工具Clapper、SV4D、快手「飞船」等让“零拍摄”生成多帧一致的视频、3D动态内容成为现实，配合TTS方言模型，大幅降低短视频、虚拟人、元宇宙内容创作门槛。

视频生成 3D内容 Clapper SV4D 方言TTS

2024-07-25

开源模型军备竞赛

Mistral Large2、Llama3.1-8B中文版、Open-Sora Plan v1.2、Stable Video 4D等密集开源，参数效率与多模态能力双提升，降低开发者门槛，预示“开源即标准”的新格局正在形成。

开源模型 Mistral Large2 Llama3.1 Stable Video 4D Open-Sora

2024-07-25

多模态与3D生成突破

上海科大CLAY文字图像生成3D物体、Stable Video 4D单视频转多视角、PixVerse V2时长提升至40秒，标志AI生成正式迈入“3D+长视频”时代，为游戏、影视、XR内容生产降本增效。

3D生成多模态 CLAY Stable Video 4D PixVerse

2024-07-08

视频生成进入“可灵时刻”

快手可灵Web端上线，支持首尾帧、运镜控制，已生成700万条短视频；达摩院“寻光”一站式平台发布；北大-DG4D实现分钟级4D内容生成。国产DiT架构让视频生成从可用走向好用，开启AIGC短剧与广告新范式。

视频生成可灵 DiT 4D内容 AIGC短剧

2024-06-03

多模态与4D生成突破

清华Vidu4D实现高保真4D时空重构，谷歌Zipper提出“先分训后压缩”的多模态架构，3视图45秒快速优化的高斯重建框架亦亮相。生成模型从2D升维到4D，将重塑数字孪生、自动驾驶与影视制作的内容生产管线。

多模态 4D重建高斯重建 Zipper Vidu4D

# 4D