2025-06-05
开源生态全面突围
清华、华为、智源、日本Shisa等相继开源超长视频、MoE训练优化、数学证明及日语大模型,叠加NVIDIA Llama-Nemotron系列,开源模型在性能、效率、多模态上正面抗衡闭源,全球AI创新重心向开源倾斜。
2025-06-03
超长视频理解模型突破
智源研究院开源Video-XL-2,单卡即可处理万帧级超长视频,刷新轻量级视频理解极限,为实时剪辑、安防、教育等场景降本增效,标志长视频AI进入普惠阶段。
2025-05-06
多模态大模型技术突破
谷歌、苹果、英伟达及国内高校密集发布多模态新架构与SOTA模型:Gemini 2.5 Pro升级网页交互,苹果提出早融合+MoE Scaling Law,Video-XL-Pro以3B参数超越7B长视频理解,Perception-R1纯多模态检测超越YOLOv3,显示通用感知与多模态融合正快速逼近商用临界点。
2025-05-04
长视频理解突破
Video-XL-Pro仅用3B参数在长视频大海捞针任务中准确率超98%,性能反超7B级模型,证明轻量模型通过架构创新可解决长时序依赖与显存瓶颈,为实时视频分析、监控、教育等场景落地打开空间。
2024-10-29
超长视频理解大模型突破
智源研究院联合高校推出Video-XL,单卡可理解小时级视频,95%“大海捞针”准确率刷新纪录,标志长视频理解进入实用阶段,为AGI补齐多模态长时序能力短板。
2024-10-28
超长视频理解大模型突破
智源Video-XL、极佳DriveDreamer4D及清华VERIFIED等研究,把单卡理解电影级长视频、4D场景重建与细粒度片段标注推向新高度,为自动驾驶、媒体生产解锁小时级甚至电影级AI理解能力,长视频赛道进入可用阶段。