视觉生成 - AI话题

2026-06-26

多模态大模型与3D视觉技术取得关键进展。NVIDIA提出PiD像素扩散架构实现4K生成，Mistral OCR4支持170种语言识别，影石开源UniSHARP突破单目3DGS难题，谷歌Gemini获得Computer use能力。这些进展推动AI在图像、视频及终端交互领域边界持续拓展。

多模态视觉生成 3DGS OCR PiD

2026-01-03

NEPA 提出「下一嵌入预测」自回归框架，谢赛宁团队参与，验证无需扩散也能做强视觉模型；同期多项研究探索自回归图像/视频生成，有望重塑生成式 AI 技术路线与算力需求。

2025-06-08

清华与智源联合推出DrugCLIP，虚拟筛选速度提升百万倍，打通AlphaFold到新药发现；同时AI修图3.0、Eleven v3情感TTS、ComfyMind一站式视觉生成等工具密集升级，显示AI在科研、创意、内容生产全线进入可用级。

2025-03-30

OverLoCK“复活”卷积网络作为视觉基础模型；浙大团队提出“下一邻域”视觉生成范式，吞吐提升13.8倍；无标注调优将Llama 3.3 70B推至GPT-4o水平，显示架构创新与训练策略正重塑模型性能边界。

2025-01-29

北大VARGPT与阿里、DeepSeek相继发布统一视觉理解-生成框架，实现单模型端到端多模态任务，预示“一个模型同时看与画”的新范式正在形成，降低落地成本。

VARGPT 多模态统一视觉生成北大

2024-11-23

Meta开源7B Spirit LM实现情感保留语音-文本统一，DeepSeek等提出JanusFlow 1.3B模型统一视觉理解与生成，谷歌、阿里相继发布Gemini-Exp、Marco-o1等实验模型，多模态能力成为大模型竞争新焦点，推动AI向更自然的人机交互迈进。

2024-08-20

阿里mPLUG-Owl3以4秒看完2小时电影，浙大ScanFormer迭代消除视觉冗余刷新指代表达理解，Salesforce开源xGen-MM加码视觉推理，Luma v1.5挑战Sora带来更快更真视频生成，多模态模型正在同时向“看得快、看得细、做得出”三重极限突进。

2024-07-13

MSRA系统总结当前视觉生成领域六大核心技术问题，为科研与产业界提供明确攻坚方向，有望加速高保真、可控图像/视频生成落地，降低下游应用研发成本。

AI快开门