扩散模型 - AI话题

2026-07-11

学术前沿与基础理论研究

学术界在模型机理与评测基准上持续深耕：ICML 2026杰出论文揭示扩散语言模型存在灵活性陷阱，限制其推理能力；MIT提出FrontierOR工业级优化算法基准，为大模型设下实战考场；世界模型概念在泛化使用中亟待精确定义与统一标准。这些研究为AI技术健康发展提供理论基础与评估标尺。

学术研究扩散模型评测基准世界模型 ICML

2026-07-06

AI内容生成与多媒体技术

AIGC技术在可控生成与产业化上持续进阶，Midjourney与好莱坞陷入版权互诉，字节Seedance进军影视产业；CVPR与ECCV等顶会在图像空间控制、3D高斯分布、极简扩散模型推理等方面取得突破，UGC数字人等消费级应用加速普及。

AIGC 版权扩散模型 3DGS 数字人

2026-07-05

多模态与大模型基础技术演进

多模态与基础模型技术持续迭代，研究揭示现有架构瓶颈。VisNec实现数据高效筛选，CUHK-X七模态数据集暴露235B参数模型在非RGB信号上的感知盲区；扩散语言模型T*破解推理难题；LeCun团队推动世界模型持续学习。为下一代架构与训练范式提供关键科学依据。

多模态大模型扩散模型世界模型 VisNec 持续学习

2026-02-26

英伟达业绩再破纪录

英伟达季度营收680-681亿美元、年利润1200亿美元，数据中心占九成；扩散模型新芯片每秒千token推理，股价重返200美元。财报击碎“AI泡沫”质疑，算力龙头继续定义行业天花板。

英伟达数据中心财报算力扩散模型

2026-02-16

像素级生成新突破

李飞飞团队提出Latent Forcing，用“生成顺序”而非更大模型破解保真与效率矛盾，在扩散模型上实现像素级细节跃升。方法简洁通用，为实时高清AIGC、数字人、工业视觉打开新空间。

Latent Forcing 扩散模型像素生成李飞飞保真

2026-02-10

端侧模型极致压缩

腾讯混元发布0.3B 2Bit产业级端侧模型，内存<600MB；华为推出扩散语言模型Agent，部分场景提速8倍；清华&千问重塑归一化让Transformer深度回归，推动大模型在消费级硬件与边缘场景落地，端侧智能迎来“可用”拐点。

端侧量化 2Bit 扩散模型 Transformer优化边缘AI

2026-01-31

多模态大模型新范式

Emu3在Nature发文，仅用“预测下一Token”统一视觉-语言任务，挑战扩散模型霸权；阿里2步扩散提速40倍，SkyReels-V3开源一张图生成2K视频，标志多模态生成进入“快、统一、开源”新阶段，为AGI探路。

Emu3 多模态 Token 扩散模型视频生成

2026-01-13

扩散模型并行推理革新

腾讯微信AI团队提出WeDLM，首次用因果注意力重构扩散语言模型，兼容KV缓存，实现并行生成与高效推理兼得，突破GPT类自回归模型速度瓶颈，为大模型端侧部署提供新范式。

扩散模型并行推理 WeDLM 因果注意力 KV缓存

2026-01-03

视觉生成新范式

NEPA 提出「下一嵌入预测」自回归框架，谢赛宁团队参与，验证无需扩散也能做强视觉模型；同期多项研究探索自回归图像/视频生成，有望重塑生成式 AI 技术路线与算力需求。

NEPA 自回归视觉生成下一嵌入预测扩散模型

2025-12-28

AI医疗跨界再思辨

清华百川楼启用圆桌中，王小川提出AI医疗应摆脱“医生复刻”思维，强调技术自主性；AI制药领域亦见扩散模型用于柔性蛋白-配体对接的新成果。学界与产业界共同呼吁AI在医疗、药物研发中突破传统框架，独立探索创新路径。

AI医疗 AI制药扩散模型技术自主跨界创新

2025-11-20

小模型逆袭与架构革新

微博15亿参数VibeThinker数学基准反超6710亿DeepSeek-R1；何恺明团队提出无Tokenizer扩散范式，Just Image Transformers简化生成链路；蚂蚁OceanBase三行代码构建AI应用，显示“小即美”与架构简化正成为新趋势。

小模型扩散模型 Tokenizer 架构简化 OceanBase

2025-11-09

AI科研范式革命

谷歌“联合科学家”AI两天破解人类十年难题，字节量子化学模拟登Nature子刊，蛋白轨迹扩散模型PTraj-Diff高效生成动力学，显示生成式AI正从辅助工具升级为科研合作者，显著缩短试错周期，推动医药、材料、化学等领域进入AI驱动发现新时代。

AI4Science 谷歌联合科学家量子化学蛋白扩散模型科研加速

2025-11-05

超级模型与多模态突破

llama.cpp 实现本地多模态革命，360 FG-CLIP2 拿下 29 项中英双语第一，谷歌 Gemini Nano Banana2 升级图像生成，北大&兔展 Uniworld V2 刷新中文细节 SOTA，扩散语言模型推理效率大幅提升。端侧与云侧同步跨越，多模态能力正成为下一代模型标配。

多模态 llama.cpp CLIP 扩散模型 Gemini

2025-11-01

Transformer架构再突破

月之暗面开源Kimi Linear注意力，首次在同等训练下超越全注意力，长文KV缓存降75%、推理加速6倍；上海AI Lab混合扩散语言模型SDAR突破6600 tgs。新机制冲击传统Transformer垄断，为长上下文、实时交互与端侧部署打开全新可能。

Linear Attention Transformer 推理加速长上下文扩散模型

2025-09-12

开源大模型技术突破

阿里Qwen3-Next、字节HuMo、阿里妈妈SDH等多款开源大模型密集发布，MoE与扩散架构成为新主流，训练成本骤降90%，性能逼近GPT-5，标志国产开源进入全球第一梯队，将加速行业落地与生态繁荣。

开源大模型 MoE 扩散模型 Qwen3 训练降本

2025-08-13

国产大模型技术突围

华人团队用扩散模型将上下文潜力提升3倍，商汤发布国内首个“图文交错”多模态大模型日日新6.5，腾讯混元3D、52B视觉模型及阿里Qwen Code相继开源或免费，显示国产模型在3D生成、代码、多模态等细分赛道加速追赶并局部领先。

扩散模型国产大模型多模态开源 3D生成

2025-08-10

生成模型与多模态创新

腾讯X-Omini用强化学习复兴离散自回归生成，扩散模型被证数据效率3倍于自回归且可重复训练数百次仍提升，显示生成式AI在图像-文本统一、长序列建模上仍有巨大潜力，为内容创作、长文本多模态应用提供新基座。

扩散模型自回归多模态强化学习内容生成

2025-08-02

3D与多模态生成突破

Ultra3D、Nexus-Gen V2、腾讯MixGRPO等模型在3D资产、图像生成/编辑/理解三合一方向取得SOTA，训练时间减半、成本降至几分钱，为游戏、影视、XR内容生产带来即时可用的新流水线。

3D生成多模态扩散模型内容创作

2025-08-01

国产大模型技术突破

DeepSeek 联合北大提出原生稀疏注意力 NSA 获 ACL 2025 最佳论文，推理提速 11 倍；字节发布扩散语言模型 Seed-Diffusion，推理速度达 2.1k tokens/s；阶跃星辰开源 Step-3、通义开源 Qwen3-Coder-Flash，国产模型在架构、效率与代码能力上集体跃升。

稀疏注意力 DeepSeek 字节扩散模型开源大模型 ACL最佳论文

2025-07-19

实时扩散视频生成革命

Karpathy站台投资的“实时、无限时长”扩散视频模型首次亮相，可实现直播零延迟转换，被视为AIGC走向实时媒体生产的关键节点，有望重塑短视频、直播与元宇宙内容生态。

实时视频扩散模型 Karpathy AIGC 零延迟

AI快开门

发现AI的无限可能

# 扩散模型