稀疏激活 - AI话题

2025-09-14

Qwen3-Next、openPangu-DeepDiver等开源模型通过稀疏激活、多Agent协作等创新，训练成本砍至1/10，长文本推理提速10倍，打破“闭源越大越强”神话，重塑全球大模型竞争格局。

2025-06-03

英伟达联合MIT、港大推出Fast-dLLM，通过稀疏激活与并行调度把大模型推理速度提升27倍，显著降低延迟与算力成本，为端侧部署和实时交互打开新空间。

2025-04-13

面壁&清华提出神经元级稀疏激活，手机可跑GPT级模型；上海AI Lab与西工大用4090实现大场景几何重建，显示端侧算力瓶颈正被算法创新打破。轻量化与稀疏化成为大模型落地新范式，为IoT、移动AR等应用打开空间。

2024-07-18

微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制，在8B甚至更小参数下逼近7B+模型性能，挑战传统Scaling Law，为端侧和低成本训练提供新路径。

2024-07-10

谷歌百万专家 Mixture、斯坦福 TTT 等新架构集中亮相，通过稀疏激活或测试时训练替代传统注意力，显著降低算力并提升长文本与多模态能力，可能重塑大模型扩展路径。

2024-01-24

从Mixtral-8x7B、DeepSeek-MoE到Medusa，稀疏激活与多分支解码将推理延迟最高压缩3.6倍，同等算力下参数可扩展10倍，成为2024开年最主流的“大模型瘦身”方案，云服务与端侧部署同步受益。

AI快开门