2026-04-08
AI视频生成黑马竞速
爱诗PixVerse C1、神秘Happy Horse、Netflix“重写物理”模型相继登场,15秒1080P、物理一致性、4D动态等成为新赛点,视频生成从“能看”迈向“可用”,影视、广告、短视频内容工业或迎颠覆式重塑。
2025-12-14
世界模型与多模态生成
Runway发布通用世界模型GWM系列,可同步模拟环境、人物与机器人操作;谷歌升级Gen-4.5,SIGGRAPH Asia亦展示30→200FPS的4D重建方案。生成式AI正从“出图”走向“出世界”,为影视、机器人和元宇宙提供可交互的物理一致场景,重新定义内容生产管线。
2025-04-30
多模态与4D视觉突破
TesserAct提出4D场景理解框架,谷歌Genie 2生成可交互3D环境,Luma Ray2 API实现电影级镜头控制,阶跃发布开源图像编辑SOTA,显示多模态正从“看得清”走向“看得懂+控制得了”,为机器人、影视及XR应用打开新空间。
2025-03-23
具身智能突破
宇树G1完成全球首次机器人“鲤鱼打挺”,追觅扫地机加机械臂化身3D家庭助手,CVPR2025多篇布料抓取与4D语义场研究亮相,感知-决策-执行闭环加速落地,家庭与工业场景商业化临界点临近。
2024-12-19
多模态与物理仿真突破
Genesis Project、BlueQubit、PaliGemma2等新品发布,4D生成式物理引擎、量子+AI、视觉语言多模态能力显著提升,为机器人、XR内容创作提供高保真训练与交互环境。
2024-10-28
超长视频理解大模型突破
智源Video-XL、极佳DriveDreamer4D及清华VERIFIED等研究,把单卡理解电影级长视频、4D场景重建与细粒度片段标注推向新高度,为自动驾驶、媒体生产解锁小时级甚至电影级AI理解能力,长视频赛道进入可用阶段。
2024-08-13
多模态与3D内容生成新工具
开源视频工具Clapper、SV4D、快手「飞船」等让“零拍摄”生成多帧一致的视频、3D动态内容成为现实,配合TTS方言模型,大幅降低短视频、虚拟人、元宇宙内容创作门槛。
2024-07-25
开源模型军备竞赛
Mistral Large2、Llama3.1-8B中文版、Open-Sora Plan v1.2、Stable Video 4D等密集开源,参数效率与多模态能力双提升,降低开发者门槛,预示“开源即标准”的新格局正在形成。
2024-07-25
多模态与3D生成突破
上海科大CLAY文字图像生成3D物体、Stable Video 4D单视频转多视角、PixVerse V2时长提升至40秒,标志AI生成正式迈入“3D+长视频”时代,为游戏、影视、XR内容生产降本增效。
2024-07-08
视频生成进入“可灵时刻”
快手可灵Web端上线,支持首尾帧、运镜控制,已生成700万条短视频;达摩院“寻光”一站式平台发布;北大-DG4D实现分钟级4D内容生成。国产DiT架构让视频生成从可用走向好用,开启AIGC短剧与广告新范式。