Video-XL - AI话题 - AI快开门

2025-06-05

开源生态全面突围

清华、华为、智源、日本Shisa等相继开源超长视频、MoE训练优化、数学证明及日语大模型，叠加NVIDIA Llama-Nemotron系列，开源模型在性能、效率、多模态上正面抗衡闭源，全球AI创新重心向开源倾斜。

开源模型 Video-XL-2 Shisa V2 Llama-Nemotron 华为MoE

2025-06-03

超长视频理解模型突破

智源研究院开源Video-XL-2，单卡即可处理万帧级超长视频，刷新轻量级视频理解极限，为实时剪辑、安防、教育等场景降本增效，标志长视频AI进入普惠阶段。

超长视频 Video-XL-2 智源开源单卡万帧轻量级模型

2025-05-06

多模态大模型技术突破

谷歌、苹果、英伟达及国内高校密集发布多模态新架构与SOTA模型：Gemini 2.5 Pro升级网页交互，苹果提出早融合+MoE Scaling Law，Video-XL-Pro以3B参数超越7B长视频理解，Perception-R1纯多模态检测超越YOLOv3，显示通用感知与多模态融合正快速逼近商用临界点。

多模态 Gemini 苹果 Video-XL 感知

2025-05-04