长视频 - AI话题 - AI快开门

2025-10-24

多模态长视频生成与创意生产力

中国科大&字节MoGA分钟级多镜头短片一键生成、蚂蚁「灵光」AGI相机内测、Meta在Instagram Stories嵌入AI梦幻特效，EA携手Stability AI把生成式AI搬进游戏管线，显示多模态长内容生成正从Demo走向消费级与工业级量产。

多模态生成长视频游戏管线消费级工具创意生产力

2025-10-07

长视频生成突破

字节与UCLA联合提出Self-Forcing++，无需改架构即可一次性生成1分40秒乃至4分钟连贯高清视频，显著超越Sora2仅5秒时长，解决时序一致性与视觉质量难题；同时Sora2 Pro上线即登顶美区App Store，15秒好莱坞级短片引爆C端创作热潮，长视频生成进入分钟级可用阶段。

长视频生成 Self-Forcing++ Sora2 字节跳动 AI创作

2025-09-06

AI视频与3D生成提速

牛津VMem用3D记忆索引替代长上下文，长视频生成速度提升12倍；同期国内团队在多模态生成框架上持续迭代，为影视、元宇宙等内容产业降本增效。

长视频生成 3D记忆索引 VMem 内容生产 AIGC

2025-09-03

端侧与消费级AI加速落地

苹果开源FastVLM、MobileCLIP2实现85倍速度提升，Liquid AI推出手机视觉语言模型LFM2-VL，字节Seed新注意力机制让长视频生成计算量降85%，端侧算力与模型协同优化进入实用阶段。

端侧模型 MobileCLIP2 LFM2-VL 长视频生成计算优化

2025-06-29

长视频理解技术进展

HoPE混合位置编码方法显著提升视觉-语言模型在长视频上的长度泛化能力，为安防、教育、直播等场景的大模型落地扫清关键障碍。

HoPE 长视频 VLM 位置编码

2025-06-03

超长视频理解模型突破

智源研究院开源Video-XL-2，单卡即可处理万帧级超长视频，刷新轻量级视频理解极限，为实时剪辑、安防、教育等场景降本增效，标志长视频AI进入普惠阶段。

超长视频 Video-XL-2 智源开源单卡万帧轻量级模型

2025-05-12

端侧视觉-语言模型突破

苹果FastVLM、腾讯混元T1-Vision等模型把多模态能力压缩到手机端，实现本地实时看图聊天；谷歌Gemini 2.5 Pro一次看懂6小时视频，标志视觉理解进入长视频时代，将重塑移动交互与内容生态。

端侧VLM 视觉理解长视频移动AI 多模态

2025-05-04

长视频理解突破

Video-XL-Pro仅用3B参数在长视频大海捞针任务中准确率超98%，性能反超7B级模型，证明轻量模型通过架构创新可解决长时序依赖与显存瓶颈，为实时视频分析、监控、教育等场景落地打开空间。

长视频理解 3B模型 Video-XL-Pro 大海捞针轻量模型

2025-04-21

视频/3D生成进入无限时长时代

昆仑万维SkyReels-V2、VAST新框架相继开源，实现“无限时长”电影级视频与即时3D模型生成，扩散模型+RLHF突破时长与分辨率瓶颈，降低影视、游戏、元宇宙内容成本一个量级；标志着AIGC从“秒级Demo”走向“分钟级商用”，将冲击万亿数字内容市场。

无限时长视频 SkyReels-V2 3D生成扩散模型 AIGC

2025-04-04

多模态生成与理解再升级

V²Flow实现视觉Token与LLM词表无缝对齐，高保真自回归图像生成刷新多模态统一框架；港理工+新国立VideoMind借角色化推理+链式LoRA在27分钟长视频理解上超越GPT-4o；Neural LightRig单图秒变3D影棚。生成与理解双向突破，推动多模态应用落地。

多模态自回归图像生成 VideoMind 长视频理解 3D影棚

2025-02-26

多模态Agent与机器人

微软开源多模态AI Agent“Magma”可同时操控网页下单与机器人动作，智元发布AgiBot Digital World仿真框架，宇树机器人秀中国功夫，MIT扩散算法突破千帧长视频，AI开始打通数字与物理世界边界。

多模态Agent 机器人长视频数字物理融合 MIT

2025-02-22

AI视频超长理解突破

港大联合百度推出VideoRAG，可在单张RTX 3090上实时理解数百小时长视频；清华Migician实现任意数量图片间的跨图定位；复旦发布视频扩散模型综述，覆盖300+文献，为长视频与多图场景理解提供新范式。

VideoRAG Migician 长视频多图定位视频扩散

2024-12-03

多模态长上下文理解突破

清华、智谱6000亿交错语音文本预训练将语音问答提升3倍；智源Video-XL实现小时级视频理解；Cohere Rerank 3.5支持百种语言精准搜索，多模态长输入进入可用时代。

多模态长视频语音文本检索增强上下文

2024-11-12

多模态长视频理解突破

李飞飞团队发布 HourVideo 基准，推动 1 小时长视频多模态理解；谷歌“重拍”视频 AI、字节 SeedEdit 等工具同步升级，标志视觉-语言模型从单图迈向长时序、高分辨率、可编辑的新阶段。

HourVideo 长视频理解多模态视频编辑 SeedEdit

2024-10-29

超长视频理解大模型突破

智源研究院联合高校推出Video-XL，单卡可理解小时级视频，95%“大海捞针”准确率刷新纪录，标志长视频理解进入实用阶段，为AGI补齐多模态长时序能力短板。

Video-XL 长视频理解多模态 AGI 智源

2024-10-28

超长视频理解大模型突破

智源Video-XL、极佳DriveDreamer4D及清华VERIFIED等研究，把单卡理解电影级长视频、4D场景重建与细粒度片段标注推向新高度，为自动驾驶、媒体生产解锁小时级甚至电影级AI理解能力，长视频赛道进入可用阶段。

长视频理解 Video-XL DriveDreamer4D 片段标注 4D重建

2024-08-20

多模态长视频理解技术突破

阿里mPLUG-Owl3以4秒看完2小时电影，浙大ScanFormer迭代消除视觉冗余刷新指代表达理解，Salesforce开源xGen-MM加码视觉推理，Luma v1.5挑战Sora带来更快更真视频生成，多模态模型正在同时向“看得快、看得细、做得出”三重极限突进。

多模态长视频理解视觉生成开源模型效率优化

2024-07-19

多模态长视频理解突破

Goldfish 模型实现任意长度长视频精准理解，VoCoT 引入视觉思维链多步推理，谷歌 Gemini 将贯穿巴黎奥运直播，显示多模态大模型正向长时序、复杂事件与实时转播场景延伸，打开体育、娱乐、教育等全新交互体验。

长视频理解多模态视觉CoT Gemini 实时转播

2024-06-26

长视频生成技术突破

Video-Infinity通过多GPU并行将95秒长视频生成时间压缩至5分钟，标志AIGC从“短视频玩具”迈入“长内容生产工具”阶段，为影视、广告、教育等行业带来可商用的高效管线，并倒逼显存优化与分布式推理框架成为基础设施新赛道。

长视频生成多GPU并行 AIGC 影视管线分布式推理

2024-04-29

世界模型与长视频生成热潮

OpenAI Sora引爆“世界模型”概念，国产团队快速跟进16秒1080P生成，人大系多模态模型自称写真视频力压Sora，但幕后人工特效争议也凸显技术仍处GPT-1阶段，商业化尚早。

Sora 世界模型长视频生成多模态内容创作

# 长视频

多模态长视频生成与创意生产力

长视频生成突破

AI视频与3D生成提速

端侧与消费级AI加速落地

长视频理解技术进展

超长视频理解模型突破

端侧视觉-语言模型突破

长视频理解突破

视频/3D生成进入无限时长时代

多模态生成与理解再升级

多模态Agent与机器人

AI视频超长理解突破

多模态长上下文理解突破

多模态长视频理解突破

超长视频理解大模型突破

超长视频理解大模型突破

多模态长视频理解技术突破

多模态长视频理解突破

长视频生成技术突破

世界模型与长视频生成热潮