Diffusion - AI话题 - AI快开门

2026-06-11

大模型架构突破

谷歌发布开源模型DiffusionGemma，首次将图像扩散机制引入文本生成，打破自回归范式，经英伟达优化单卡推理提速4倍。OpenAI透露GPT-5.6已在路上并计划明年上市。大模型在架构创新、推理效率与资本化路径上同步突破，技术竞争进入新阶段。

大模型扩散架构 DiffusionGemma GPT-5.6 推理加速

2026-01-01

AI+生物与医疗新进展

RNA预训练大模型基准发布，DNA-Diffusion生成式框架设计合成调控元件，UniCardio扩散Transformer统一生成多模态心血管信号，AI正成为基因组学与可穿戴医疗的核心生产力工具。

AI生物 RNA基准 DNA-Diffusion 心血管信号

2025-12-25

AI视频生成提速200倍

清华与生数科技开源TurboDiffusion框架，通过稀疏注意力与SageAttention把扩散模型推理提速100-200倍，消费级显卡即可秒级生成高分辨率视频，成本与门槛骤降，有望引爆短视频、广告、游戏等UGC内容生态。

视频生成 TurboDiffusion 清华开源实时推理

2025-11-08

AI for Science突破频现

中科大“乾坤网络”用Transformer求解多电子薛定谔方程，David Baker团队发布PLACER与RFdiffusion实现原子级蛋白-小分子及抗体设计，DeepMind提前5天精准预测飓风路径，显示AI在量子化学、药物发现、气象灾害预警等基础科研领域正带来范式级变革。

AI4Science 乾坤网络蛋白质设计 RFdiffusion 气象预报

2025-11-06

AI安全与版权分水岭

伦敦高院裁定Stable Diffusion训练不侵权，Getty败诉；南洋理工WebCloak可屏蔽AI爬虫；Ilya证词再揭OpenAI安全内斗。法律与伦理框架开始追赶技术，直接影响模型训练数据合法性。

版权 AI安全 Stable Diffusion OpenAI 数据合规

2025-08-21

AI视频生成与3D内容革命

百度蒸汽机2.0行业首创“多人有声视频生成”，Tinker Diffusion实现单图到多视角3D编辑，清华IDEA 0.1秒生成上半身3D化身。生成式AI正从文本、图像走向视频与3D，降低影视、短视频、游戏制作成本，为UGC与元宇宙供给工具链。

视频生成 3D编辑 Tinker Diffusion 蒸汽机2.0 内容创作

2025-07-05

扩散模型颠覆自回归

苹果-港大DiffuCoder、谷歌Gemini Diffusion等扩散式文本/代码模型相继亮相，以非自回归并行采样实现速度-性能双升，挑战Transformer自回归范式，预示大模型架构进入多元竞争阶段。

扩散模型自回归并行采样 Gemini Diffusion DiffuCoder

2025-03-16

学术前沿算法突破

MetaGPT团队提出“Atom of Thoughts”将推理链原子化，4o-mini在多项推理任务上反超专用模型；Block Diffusion把自回归与扩散模型统一为“逐块生成”，提升长序列质量；ConFIG、SiT等方法分别解决无冲突训练与视觉预训练迁移难题。多项算法创新为下一代模型架构提供新基线。

原子化思考 Block Diffusion ConFIG SiT 算法创新

2025-03-11

AI for Science再突破

David Baker团队RFdiffusion实现原子级抗体设计，最大开源生物学模型Evo 2携400亿参数登场，可跨物种设计遗传密码；3DMolFormer双通道加速药物发现，显示AI正重塑生命科学研发范式。

RFdiffusion Evo2 AI药物发现抗体设计 3DMolFormer

2024-12-20

多模态生成大爆发

Stable Diffusion 3.5、UniReal、MagicDriveDiT、Krea AI等图像/视频生成模型升级，支持中间帧控制、秒级产品合成、自动驾驶街景等场景，降低内容创作与数据生产成本，推动营销、影视、自动驾驶仿真快速落地。

多模态生成视频模型 StableDiffusion 自动驾驶内容创作

2024-11-29

多模态大模型爆发

文本-图像-视频一体化生成成为新战场：Stability AI升级SD3.5L ControlNet，Rhymes AI推出Allegro-TI2V，腾讯发布“最懂镜头”的Sora级模型；vivo与港中文把3B多模态模型塞进手机。生成式AI正从“能说话”走向“能拍片”，内容创作门槛将被进一步抹平，影视、广告、社交等行业面临重塑。

多模态生成视频模型 StableDiffusion Allegro-TI2V 手机端大模型

2024-11-07

生成式AI模型爆发

Stable Diffusion 3.5、FLUX 1.1 Pro Ultra、字节X-Portrait 2等新一代文生图、图生视频模型密集发布，在4兆像素超清、10秒级生成、单图驱动动画等维度刷新SOTA，标志AIGC进入高分辨率、低成本、多模态并行时代，将重塑设计、影视、电商内容管线。

Stable Diffusion FLUX 文生图图生视频 AIGC

2024-10-23

开源视频/图像生成大战

Genmo开源Mochi 1、谷歌DeepMind推出Fluid、Stability AI发布SD3.5，免费可商用模型在画质、一致性上直追Runway、Midjourney，降低创作门槛，引爆AIGC内容生态。

开源视频生成 Genmo Mochi Stable Diffusion 3.5 Fluid AI创作

2024-10-22

多模态大模型技术突破

智源Emu3、DeepSeek Janus、Stable Diffusion 3.5等原生多模态模型相继开源或发布，统一文本-图像-视频token预测，无需扩散即可生成高质量内容，标志着“下一个token”范式向AGI再进一步，降低创作与开发者门槛。

Emu3 多模态 Stable Diffusion Janus token预测

2024-08-30

AI生成内容版权争议

晋江文学城指控博主偷录小说训练AI，Runway疑似删库引发Stable Diffusion v1.5版权归属讨论，凸显生成式AI在训练数据合法性、模型权重归属上的法律空白，版权将成为AI产业下一枚“定时炸弹”。

版权训练数据 Runway Stable Diffusion

2024-08-04

AI生成模型新爆发

Stable Diffusion原班人马创立Black Forest Lab并获2.3亿元融资，Midjourney V6.1摄影级细节再进化，阿里推出轨迹可控版“Sora”，多模态生成进入“高精度+可控”新阶段。

AI绘画视频生成 Stable Diffusion Midjourney 阿里Sora

2024-06-18

开源生态与数据基础设施

智源开源千万级InfinityInstruct、苹果一次性发布20个Core ML模型、DeepSeek-Coder-V2、Stable Diffusion 3入Diffusers，显示高质量数据集与开源模型正成为AI创新“水电煤”，降低创业门槛并加速应用落地。

开源数据集 Core ML InfinityInstruct Stable Diffusion DeepSeek

2024-06-16

开源大模型军备赛升级

英伟达开源3400亿参数Nemotron-4，Stable Diffusion 3 Medium、智源Tele-FLM等重磅模型同期发布，标志开源社区进入“万亿参数+多模态”新阶段，直接对标GPT-4o，降低行业数据与训练成本，重塑模型供应链格局。

开源万亿参数多模态英伟达 Stable Diffusion