2026-01-13
扩散模型并行推理革新
腾讯微信AI团队提出WeDLM,首次用因果注意力重构扩散语言模型,兼容KV缓存,实现并行生成与高效推理兼得,突破GPT类自回归模型速度瓶颈,为大模型端侧部署提供新范式。
2025-03-07
端侧与低成本推理
FP8训练显存省40%、速度提1.4倍,两台512G M3 Ultra即可跑满血DeepSeek-R1,阿里QwQ-32B笔记本可部署,Q-Filters无训练压缩KV缓存,端侧与消费级硬件正成为大模型推理新常态,边缘AI门槛快速降低。
2024-11-03
大模型推理效率突破
中科大提出Ada-KV自适应缓存压缩,微软清华借降噪思路升级注意力,RAG引入块状注意力,显著降低延迟与显存,为千亿级模型落地铺平道路。
2024-06-14
高效推理与内存优化突破
PyramidKV、Depth Anything V2等研究把大模型KV缓存压缩至2.5%仍保持90%性能,深度估计与推理能耗同步下降,为端侧部署和实时应用打开新空间。