2026-01-13
扩散模型并行推理革新
腾讯微信AI团队提出WeDLM,首次用因果注意力重构扩散语言模型,兼容KV缓存,实现并行生成与高效推理兼得,突破GPT类自回归模型速度瓶颈,为大模型端侧部署提供新范式。
2025-12-03
开源大模型井喷升级
DeepSeek V3.2、Mistral 3、商汤NEO等密集发布,性能对标GPT-4o/Gemini-3.0-Pro,稀疏注意力、原生多模态等架构创新显著降低训练与推理成本,推动开源阵营进入第一梯队,加速闭源模型压力与行业技术普惠。
2025-11-28
顶会最佳论文与算法突破
NeurIPS 2025 揭晓,阿里通义千问“门控注意力”成为唯一中国最佳论文;清华、MIT 等同步刷新扩散模型、强化学习理论,显示华人团队连续占领算法高地,奠定下一代大模型核心架构。
2025-10-31
线性注意力架构革新
月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型,KV缓存降低75%、推理速度提升6倍,首次在性能上超越传统全注意力,标志着大模型架构从“平方代价”向“线性扩展”的关键拐点,为端侧部署与实时交互打开新空间。
2025-10-25
Transformer架构颠覆
Meta发布“自由Transformer”打破8年自注意力铁律,模型首次具备“潜意识”打腹稿能力;同时Transformer作者Llion Jones公开批评领域僵化。双重信号预示大模型底层架构进入换代窗口,可能重塑训练范式与硬件需求。
2025-10-01
开源多模态与稀疏注意力
腾讯开源 80B 参数 HunyuanImage 3.0,宣称开源最强生图模型;DeepSeek 发布 V3.2,引入 DSA 稀疏注意力并 API 五折。两大开源项目推动图像与长文本生成成本骤降,加速下游应用落地,并挑战闭源模型性价比。
2025-09-30
硬件格局与成本拐点
Flash Attention作者预言英伟达GPU三年内终结统治,DeepSeek稀疏注意力+国产GPU适配将API成本砍半,寒武纪、华为Day0即完成模型适配,算法-硬件协同优化推动推理成本再降10倍,AI算力生态进入多元竞争时代。
2025-09-29
DeepSeek V3.2 稀疏注意力突破
DeepSeek 连续发布 V3.2-Exp 并开源 DSA 稀疏注意力机制,华为云、寒武纪第一时间完成适配,推理成本再降,国产大模型生态集体跟进,标志国产大模型从参数竞赛转向架构与系统级协同优化,对全球闭源模型形成技术对冲。
2025-08-16
算法机制可解释进展
斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变,为理解大模型推理、涌现与幻觉提供理论框架,有望指导更安全可控的模型设计。
2025-08-01
国产大模型技术突破
DeepSeek 联合北大提出原生稀疏注意力 NSA 获 ACL 2025 最佳论文,推理提速 11 倍;字节发布扩散语言模型 Seed-Diffusion,推理速度达 2.1k tokens/s;阶跃星辰开源 Step-3、通义开源 Qwen3-Coder-Flash,国产模型在架构、效率与代码能力上集体跃升。
2025-07-09
视频生成效率革命
MIT、Vidu、Moonvalley、谷歌Veo3同步公布新架构或产品,长视频生成提速3.7倍、成本降4.4倍,支持多图参考、原生1080P及静态图驱动,AI影视工业化再进一步。
2025-07-08
模型架构与训练效率革新
清华SageAttention3实现5倍注意力提速,循环模型500步突破256k长度泛化,基于能量Transformer提升35%性能,后训练与量化技术成为缓解算力瓶颈的关键路径。
2025-06-19
模型效率与数据优化
谷歌DataRater自动筛除75%低质数据,弗吉尼亚理工LensLLM选型框架降本90%,普林斯顿&Meta线性注意力机制提速15倍,共同指向“更少数据、更低算力、更高性能”的新训练范式。
2025-06-17
模型架构与推理优化
谷歌承认Transformer注意力机制瓶颈,计划重写架构;R-KV把KV Cache压至10%无损推理;CMU&英伟达Multiverse实现原生并行出token;多路径创新共同追求更长上下文、更低功耗、更高吞吐。
2025-06-08
后Transformer架构革新
谷歌提出“注意力+保留门”新架构,清华团队三连击改进注意力机制,参数减少40%、训练速度提升5-8倍,显示Transformer统治地位首次遭遇系统性挑战,底层范式换代窗口已开启。
2025-06-02
大模型高效推理与量化
微软BitNet v2实现原生4bit量化几乎无损,Mamba作者提出Grouped-Tied Attention专为推理加速,两条路线同步把大模型部署成本砍半,为端侧和云端规模化落地扫清算力障碍,行业进入“低价高密”新阶段。
2025-04-04
Transformer架构革新与多Token注意力
Meta FAIR提出多Token注意力(MTA)一次关注多线索,将简单任务错误率压至近0;同期谷歌Gemini 2.5 Pro换帅加速迭代,国产即梦3.0亦借MTA思路登顶中文海报生成。注意力机制从“单点”到“多焦”演进,有望重塑大模型基础架构。
2025-02-24
国产大模型训练降本
月之暗面开源改进版Muon优化器,算力需求较AdamW锐减48%,已被用于DeepSeek架构新模型;华为诺亚提出高效稀疏注意力ESA,进一步降低长文本训练与推理成本,国产大模型进入“低成本、高效率”新阶段。
2025-01-31
端侧扩散模型新架构
线性扩散模型LiT提出极简线性注意力机制,把计算复杂度从O(n²)降至O(n),可在AIPC端侧无显卡环境实时生成512×512图像,为消费级设备普及生成式AI提供可行路径,有望重塑边缘AI芯片与软件栈需求。