2025-04-25
多模态统一编码突破
复旦与美团提出UniToken,一次编码同时完成图文理解与图像生成,在多项基准夺SOTA;腾讯InstantX亦开源角色一致图像生成框架,可媲美GPT-4o效果,显示多模态统一表征正快速收敛,降低模型与数据冗余。
2025-04-23
多模态大模型技术突破
字节Vidi、xAI Grok Vision、阿里VACE等密集发布,统一文本-图像-视频理解与生成,标志超长视频、3D、视觉交互进入可用级,将重塑内容生产、广告、教育、自动驾驶等场景,开启“全模态”竞争新阶段。