视频理解 - AI话题

2025-11-12

多模态与长文本理解突破

MMCTAgent支持小时级视频推理，清华&智谱Glyph压缩图像文本，DeepSeek-OCR极致Token效率，多模态RAG框架UltraRAG 2.1用YAML即可搭系统，长上下文战争进入“视觉+结构化”阶段。

多模态长文本 RAG 视频理解 OCR

2025-09-07

多模态视频理解突破

快手开源Keye-VL 1.5，以128k上下文、0.1秒级定位刷新Video-MME榜单，SceneSplat把3D高斯与语言对齐，表明视频-3D-语言统一模型正快速逼近商用门槛。

视频理解多模态 128k上下文 3D高斯快手

2025-06-04

算力与训练效率革新

华为MoE训练提速70%、智源Video-XL-2单卡万帧理解、英伟达RL Scaling翻倍推理能力，算法-系统协同优化显著降低大模型训练与推理成本，为行业规模扩张提供可持续算力方案。

MoE优化视频理解 RL Scaling 算力效率训练提速

2025-05-04

长视频理解突破

Video-XL-Pro仅用3B参数在长视频大海捞针任务中准确率超98%，性能反超7B级模型，证明轻量模型通过架构创新可解决长时序依赖与显存瓶颈，为实时视频分析、监控、教育等场景落地打开空间。

长视频理解 3B模型 Video-XL-Pro 大海捞针轻量模型

2025-04-23

多模态大模型技术突破

字节Vidi、xAI Grok Vision、阿里VACE等密集发布，统一文本-图像-视频理解与生成，标志超长视频、3D、视觉交互进入可用级，将重塑内容生产、广告、教育、自动驾驶等场景，开启“全模态”竞争新阶段。

多模态视频理解 3D生成内容生产模态统一

2025-04-04

多模态生成与理解再升级

V²Flow实现视觉Token与LLM词表无缝对齐，高保真自回归图像生成刷新多模态统一框架；港理工+新国立VideoMind借角色化推理+链式LoRA在27分钟长视频理解上超越GPT-4o；Neural LightRig单图秒变3D影棚。生成与理解双向突破，推动多模态应用落地。

多模态自回归图像生成 VideoMind 长视频理解 3D影棚

2025-03-22

轻量级多模态模型

HuggingFace推出SmolVLM2，提供2.56亿-22亿参数三档模型，支持MLX框架与手机-服务器全场景部署，让视频理解能力首次在边缘设备上“跑得快、用得起”，加速多模态AI普惠。

SmolVLM2 视频理解边缘部署轻量级模型 MLX

2025-02-15

多模态与Agent框架创新

VideoLLaMA3以7B参数拿下视频理解SOTA，MakeAnything用DiT首次生成多任务过程视频；CAMEL直播展示多智能体协作框架。小参数强性能、多模态融合与自主Agent成为学术与产业共同焦点，为端侧和复杂系统提供新基座。

多模态视频理解 Agent框架小参数 DiT

2024-11-12

多模态长视频理解突破

李飞飞团队发布 HourVideo 基准，推动 1 小时长视频多模态理解；谷歌“重拍”视频 AI、字节 SeedEdit 等工具同步升级，标志视觉-语言模型从单图迈向长时序、高分辨率、可编辑的新阶段。

HourVideo 长视频理解多模态视频编辑 SeedEdit

2024-10-29

超长视频理解大模型突破

智源研究院联合高校推出Video-XL，单卡可理解小时级视频，95%“大海捞针”准确率刷新纪录，标志长视频理解进入实用阶段，为AGI补齐多模态长时序能力短板。

Video-XL 长视频理解多模态 AGI 智源

2024-10-28

超长视频理解大模型突破

智源Video-XL、极佳DriveDreamer4D及清华VERIFIED等研究，把单卡理解电影级长视频、4D场景重建与细粒度片段标注推向新高度，为自动驾驶、媒体生产解锁小时级甚至电影级AI理解能力，长视频赛道进入可用阶段。

长视频理解 Video-XL DriveDreamer4D 片段标注 4D重建

2024-08-31

多模态大模型竞速

阿里开源Qwen2-VL在视频理解上超越GPT-4o，谷歌Imagen 3开放人物生成，人大等提出Ref-AVS视听分割新方法，多模态能力成为开源与闭源模型争夺用户和开发者的核心战场，预示AI交互进入“看听说”一体化阶段。

多模态开源模型视频理解 Imagen3 Ref-AVS

2024-08-30

国产多模态大模型爆发

阿里Qwen2-VL、智谱GLM-4-Plus、百度文心一言等国产模型在视频理解、多模态交互、移动端体验上集体升级，部分指标超越GPT-4o，标志国产大模型进入“可用+好用”阶段，为C端应用和出海奠定技术基础。

多模态国产大模型视频理解 GPT-4o

2024-08-20

多模态长视频理解技术突破

阿里mPLUG-Owl3以4秒看完2小时电影，浙大ScanFormer迭代消除视觉冗余刷新指代表达理解，Salesforce开源xGen-MM加码视觉推理，Luma v1.5挑战Sora带来更快更真视频生成，多模态模型正在同时向“看得快、看得细、做得出”三重极限突进。

多模态长视频理解视觉生成开源模型效率优化

2024-08-19

多模态大模型突破

阿里mPLUG-Owl3、MiniCPM-V 2.6等国产多模态模型在视频理解、端侧部署实现SOTA，4秒解析2小时电影，8B参数对标GPT-4V，标志端侧多模态进入可用时代。

多模态端侧视频理解 GPT-4V

2024-07-19

多模态长视频理解突破

Goldfish 模型实现任意长度长视频精准理解，VoCoT 引入视觉思维链多步推理，谷歌 Gemini 将贯穿巴黎奥运直播，显示多模态大模型正向长时序、复杂事件与实时转播场景延伸，打开体育、娱乐、教育等全新交互体验。

长视频理解多模态视觉CoT Gemini 实时转播

2024-07-14

视频理解大模型突破

谷歌发布通用视频模型VideoPrism，实现视频分类、定位、检索一体化，标志着多模态AI在视频理解领域迈出关键一步，为内容审核、智能剪辑、安防监控等场景带来全新可能，有望重塑视频产业链。

VideoPrism 视频理解多模态谷歌内容检索

2024-07-11

视频/3D生成与理解新工具

字节Depth Anything V2入选苹果Core ML，RodinHD高保真3D头像、EchoMimic音频对口型、FoleyCrafter自动配音、ControlNet作者Paints-Undo绘画过程反演等工具集中亮相，Twelve Labs获英伟达5000万美元押注视频理解，标志着生成与理解双向成熟。

视频生成 3D头像对口型视频理解 Core ML

2024-04-07

多模态理解与生成新SOTA

MiniGPT4-Video实现复杂视频诗意配文，刷新视频理解SOTA；国产天工SkyMusic采用Sora同款DiT架构，推出中文音乐版“ChatGPT”，补齐中文发音与情感表现力短板；腾讯AniPortrait让照片一键唱歌说话，多模态AIGC从理解到生成全面开花，预示短视频、广告、UGC内容生产流程将被重塑。

MiniGPT4-Video 天工SkyMusic AniPortrait 视频理解音乐生成

2024-01-21

多模态视觉理解突破

V* 视觉搜索算法显著增强大模型图像推理能力，Midjourney V6 生成质量逼近照片，字节&中科院提出视频“高能时刻”自动定位，显示多模态 AI 正快速逼近人类级视觉理解。

多模态 GPT-4V Midjourney V6 视觉搜索视频理解

AI快开门

发现AI的无限可能

# 视频理解

多模态与长文本理解突破

多模态视频理解突破

算力与训练效率革新

长视频理解突破

多模态大模型技术突破

多模态生成与理解再升级

轻量级多模态模型

多模态与Agent框架创新

多模态长视频理解突破

超长视频理解大模型突破

超长视频理解大模型突破

多模态大模型竞速

国产多模态大模型爆发

多模态长视频理解技术突破

多模态大模型突破

多模态长视频理解突破

视频理解大模型突破

视频/3D生成与理解新工具

多模态理解与生成新SOTA

多模态视觉理解突破