注意力 - AI话题 - AI快开门

2026-02-07

模型效率与架构创新

小米MiMo混合稀疏注意力减负KV-Cache 80%，DeepMind“算力矿场”暴力搜出超越ReLU的新激活函数，人大附中邓明扬提出单步生成的漂移模型。架构微创新正带来大模型效率跃迁。

稀疏注意力激活函数单步生成模型效率架构创新

2026-01-16

AI for Science与科研范式变革

DeepMind CEO肯定中国模型仅落后数月，清华团队揭示AI导致“群体登山”效应，AlphaFold 3挑战共价药物结构预测，AI在提升个体效率与抑制集体创新间引发新讨论。

AI4Science 科研范式 AlphaFold 集体注意力中美差距

2026-01-13

扩散模型并行推理革新

腾讯微信AI团队提出WeDLM，首次用因果注意力重构扩散语言模型，兼容KV缓存，实现并行生成与高效推理兼得，突破GPT类自回归模型速度瓶颈，为大模型端侧部署提供新范式。

扩散模型并行推理 WeDLM 因果注意力 KV缓存

2025-12-03

开源大模型井喷升级

DeepSeek V3.2、Mistral 3、商汤NEO等密集发布，性能对标GPT-4o/Gemini-3.0-Pro，稀疏注意力、原生多模态等架构创新显著降低训练与推理成本，推动开源阵营进入第一梯队，加速闭源模型压力与行业技术普惠。

开源大模型 DeepSeek Mistral NEO 稀疏注意力

2025-11-28

顶会最佳论文与算法突破

NeurIPS 2025 揭晓，阿里通义千问“门控注意力”成为唯一中国最佳论文；清华、MIT 等同步刷新扩散模型、强化学习理论，显示华人团队连续占领算法高地，奠定下一代大模型核心架构。

NeurIPS 门控注意力最佳论文算法创新

2025-10-31

线性注意力架构革新

月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型，KV缓存降低75%、推理速度提升6倍，首次在性能上超越传统全注意力，标志着大模型架构从“平方代价”向“线性扩展”的关键拐点，为端侧部署与实时交互打开新空间。

线性注意力 Kimi Linear Emu3.5 推理加速架构革新

2025-10-25

Transformer架构颠覆

Meta发布“自由Transformer”打破8年自注意力铁律，模型首次具备“潜意识”打腹稿能力；同时Transformer作者Llion Jones公开批评领域僵化。双重信号预示大模型底层架构进入换代窗口，可能重塑训练范式与硬件需求。

自由Transformer Meta 注意力机制架构换代

2025-10-01

开源多模态与稀疏注意力

腾讯开源 80B 参数 HunyuanImage 3.0，宣称开源最强生图模型；DeepSeek 发布 V3.2，引入 DSA 稀疏注意力并 API 五折。两大开源项目推动图像与长文本生成成本骤降，加速下游应用落地，并挑战闭源模型性价比。

HunyuanImage 3.0 DeepSeek V3.2 稀疏注意力开源多模态

2025-09-30

硬件格局与成本拐点

Flash Attention作者预言英伟达GPU三年内终结统治，DeepSeek稀疏注意力+国产GPU适配将API成本砍半，寒武纪、华为Day0即完成模型适配，算法-硬件协同优化推动推理成本再降10倍，AI算力生态进入多元竞争时代。

GPU统治终结稀疏注意力国产适配推理成本寒武纪

2025-09-29

DeepSeek V3.2 稀疏注意力突破

DeepSeek 连续发布 V3.2-Exp 并开源 DSA 稀疏注意力机制，华为云、寒武纪第一时间完成适配，推理成本再降，国产大模型生态集体跟进，标志国产大模型从参数竞赛转向架构与系统级协同优化，对全球闭源模型形成技术对冲。

DeepSeek 稀疏注意力国产大模型推理优化开源

2025-08-16

算法机制可解释进展

斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变，为理解大模型推理、涌现与幻觉提供理论框架，有望指导更安全可控的模型设计。

可解释性注意力机制相变推理理论框架

2025-08-01

国产大模型技术突破

DeepSeek 联合北大提出原生稀疏注意力 NSA 获 ACL 2025 最佳论文，推理提速 11 倍；字节发布扩散语言模型 Seed-Diffusion，推理速度达 2.1k tokens/s；阶跃星辰开源 Step-3、通义开源 Qwen3-Coder-Flash，国产模型在架构、效率与代码能力上集体跃升。

稀疏注意力 DeepSeek 字节扩散模型开源大模型 ACL最佳论文

2025-07-09

视频生成效率革命

MIT、Vidu、Moonvalley、谷歌Veo3同步公布新架构或产品，长视频生成提速3.7倍、成本降4.4倍，支持多图参考、原生1080P及静态图驱动，AI影视工业化再进一步。

视频生成径向注意力成本下降 1080P 多图参考

2025-07-08

模型架构与训练效率革新

清华SageAttention3实现5倍注意力提速，循环模型500步突破256k长度泛化，基于能量Transformer提升35%性能，后训练与量化技术成为缓解算力瓶颈的关键路径。

注意力机制循环模型量化长文本训练效率

2025-06-19

模型效率与数据优化

谷歌DataRater自动筛除75%低质数据，弗吉尼亚理工LensLLM选型框架降本90%，普林斯顿&Meta线性注意力机制提速15倍，共同指向“更少数据、更低算力、更高性能”的新训练范式。

数据筛选模型选型效率优化注意力机制训练范式

2025-06-17

模型架构与推理优化

谷歌承认Transformer注意力机制瓶颈，计划重写架构；R-KV把KV Cache压至10%无损推理；CMU&英伟达Multiverse实现原生并行出token；多路径创新共同追求更长上下文、更低功耗、更高吞吐。

Transformer 注意力 KV Cache 并行推理架构革新

2025-06-08

后Transformer架构革新

谷歌提出“注意力+保留门”新架构，清华团队三连击改进注意力机制，参数减少40%、训练速度提升5-8倍，显示Transformer统治地位首次遭遇系统性挑战，底层范式换代窗口已开启。

新架构注意力机制 Transformer 训练效率模型范式

2025-06-02

大模型高效推理与量化

微软BitNet v2实现原生4bit量化几乎无损，Mamba作者提出Grouped-Tied Attention专为推理加速，两条路线同步把大模型部署成本砍半，为端侧和云端规模化落地扫清算力障碍，行业进入“低价高密”新阶段。

量化推理加速 BitNet 注意力机制部署成本

2025-04-04

Transformer架构革新与多Token注意力

Meta FAIR提出多Token注意力（MTA）一次关注多线索，将简单任务错误率压至近0；同期谷歌Gemini 2.5 Pro换帅加速迭代，国产即梦3.0亦借MTA思路登顶中文海报生成。注意力机制从“单点”到“多焦”演进，有望重塑大模型基础架构。

多Token注意力 Transformer Gemini 即梦3.0 架构革新

2025-02-24

国产大模型训练降本

月之暗面开源改进版Muon优化器，算力需求较AdamW锐减48%，已被用于DeepSeek架构新模型；华为诺亚提出高效稀疏注意力ESA，进一步降低长文本训练与推理成本，国产大模型进入“低成本、高效率”新阶段。

Muon 优化器稀疏注意力降本

# 注意力