视觉定位 - AI话题 - AI快开门

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

多模态安全音频越狱视觉定位评测基准鲁棒性

2025-04-08

多模态大模型技术突破潮

Vision-R1、SkyReels-A2、Sync Labs Lipsync-2 等新框架在视觉定位、可控视频生成、零样本嘴型同步等方向刷新 SOTA；谷歌、Runway、亚马逊亦升级多模态模型，显示生成式 AI 正向更细粒度、跨模态对齐与实时交互快速演进。

多模态视频生成视觉定位零样本