2025-11-01
Transformer架构再突破
月之暗面开源Kimi Linear注意力,首次在同等训练下超越全注意力,长文KV缓存降75%、推理加速6倍;上海AI Lab混合扩散语言模型SDAR突破6600 tgs。新机制冲击传统Transformer垄断,为长上下文、实时交互与端侧部署打开全新可能。
2025-10-31
线性注意力架构革新
月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型,KV缓存降低75%、推理速度提升6倍,首次在性能上超越传统全注意力,标志着大模型架构从“平方代价”向“线性扩展”的关键拐点,为端侧部署与实时交互打开新空间。
2025-10-22
长文本与推理效率突破
DeepSeek-OCR用视觉压缩颠覆分词器,北大华为LouisKV将长序列推理提速4.7倍,复旦Game-RL用游戏数据增强VLM推理,长上下文与推理成本难题出现新解法。
2025-10-13
扩散语言模型推理突破
蚂蚁集团开源dInfer框架,首次将扩散语言模型推理速度提升10倍,超越自回归范式,为大模型高效落地奠定新基座,被视为后Transformer时代的重要里程碑。
2025-09-29
AI 基础设施与算力成本革命
浪潮信息实现 8.9 ms 推理、1 元/百万 token 新纪录;华为 CloudMatrix384 超节点第一时间支持 DeepSeek V3.2;FlashAttention 作者预言 GPU 垄断三年内终结,硬件-软件协同优化正把 AI 推理推向“白菜价”时代。
2025-09-27
多模态与推理效率优化
华为诺亚ViSpec实现多模态大模型推理3.2倍加速;谷歌DeepMind让机器人具备“思考”能力,推理侧硬件需求骤降。算法级优化正打破“堆卡”迷信,为端侧部署与实时应用打开空间,推动大模型从云端走向边缘。
2025-09-11
开源模型与推理加速突破
阿联酋K2 Think以320亿参数实现2000 tokens/秒刷新开源速度纪录;月之暗面开源Checkpoint Engine可在20秒内热更新万亿模型;清华提出ReST-RL统一强化学习范式,显著改善LLM推理一致性,开源生态正从“可用”迈向“高效”与“可信”。
2025-07-27
国产芯片+大模型性能突破
国产GPU在WAIC现场跑通“满血”DeepSeek,推理速度达100 tokens/s,两倍于海外旗舰卡,验证国产算力已可支撑千亿级模型部署;结合百元级端侧方案与“磐石”科学大模型,硬件-模型协同进入可用、好用阶段,降低AI算力成本与供应链风险。
2025-07-05
多模态效率优化
腾讯AI Lab VScan剪除视觉冗余Token、上交EEdit削减扩散时空冗余,免训练即可加速多模态推理,反映行业对低成本高效能大模型落地的迫切需求。
2025-06-03
AI推理加速新框架
英伟达联合MIT、港大推出Fast-dLLM,通过稀疏激活与并行调度把大模型推理速度提升27倍,显著降低延迟与算力成本,为端侧部署和实时交互打开新空间。
2025-06-02
大模型高效推理与量化
微软BitNet v2实现原生4bit量化几乎无损,Mamba作者提出Grouped-Tied Attention专为推理加速,两条路线同步把大模型部署成本砍半,为端侧和云端规模化落地扫清算力障碍,行业进入“低价高密”新阶段。
2025-05-30
大模型推理与效率突破
华为、DeepSeek、斯坦福等接连发布推理加速、长思维链涌现、低延迟内核等新技术,显著降低算力消耗并提升准确率,标志着后训练优化成为大模型落地关键路径,为端侧部署与实时交互打开空间。
2025-05-22
AI硬件与芯片突围
OpenAI 65亿美元收购io打造1亿台AI伴侣设备,华为昇腾FlashComm+OptiQuant推理提速80%,小米玄戒O1旗舰处理器商用,软硬件协同成为新焦点,边缘算力、低延迟推理与消费级AI终端进入落地冲刺期。
2025-05-05
推理效率新范式
伯克利Letta提出“睡眠时计算”,让LLM在空闲期预先生成推理链,显著降低在线延迟;若与边缘小模型结合,有望打造“随时可用”的低功耗智能体。
2025-04-28
模型压缩与推理优化
莱斯大学DFloat11实现30%无损压缩且推理速度最高提升39倍,字节QuaDMix统一数据质量与多样性框架,ChatDLM提出扩散式语言模型新架构,共同指向大模型“瘦身”与“提速”成为继Scaling Law之后的新赛场,降低端侧与中小企业部署门槛。
2024-12-03
模型架构与训练效率革新
Liquid STAR、MoT、Nous分布式训练、vLLM推理框架等新架构与系统层创新集体出现,打破Transformer与超级集群垄断,小参数模型亦可逼近GPT-4o,预示“效率优先”的新竞赛周期。
2024-11-08
大模型效率与成本革命
NeurIPS 2024 Oral提出DuQuant 4-bit量化新SOTA,50秒完成7B模型压缩;无问芯穹MoA稀疏注意力长文本吞吐提升8倍;Meta免训练AdaCache让DiT视频生成快2.6倍,大模型“又快又小”成为新赛场。
2024-11-03
大模型推理效率突破
中科大提出Ada-KV自适应缓存压缩,微软清华借降噪思路升级注意力,RAG引入块状注意力,显著降低延迟与显存,为千亿级模型落地铺平道路。
2024-10-19
端侧小模型与推理加速
Mistral发布3B/8B端侧专用模型Ministral,以3B参数超7B性能;英特尔与Hugging Face推出动态推测解码,最高2.7倍速生成;清华8比特量化Attention实现2倍于FlashAttention-2的加速,标志着边缘AI进入高效可用新阶段。