KV缓存 - AI话题 - AI快开门

2026-01-13

腾讯微信AI团队提出WeDLM，首次用因果注意力重构扩散语言模型，兼容KV缓存，实现并行生成与高效推理兼得，突破GPT类自回归模型速度瓶颈，为大模型端侧部署提供新范式。

2025-03-07

FP8训练显存省40%、速度提1.4倍，两台512G M3 Ultra即可跑满血DeepSeek-R1，阿里QwQ-32B笔记本可部署，Q-Filters无训练压缩KV缓存，端侧与消费级硬件正成为大模型推理新常态，边缘AI门槛快速降低。

2024-11-03

中科大提出Ada-KV自适应缓存压缩，微软清华借降噪思路升级注意力，RAG引入块状注意力，显著降低延迟与显存，为千亿级模型落地铺平道路。

KV缓存注意力机制推理加速 RAG

2024-06-14

PyramidKV、Depth Anything V2等研究把大模型KV缓存压缩至2.5%仍保持90%性能，深度估计与推理能耗同步下降，为端侧部署和实时应用打开新空间。

2024-03-29

CPU即可跑大模型推理、KV缓存与分段注意力机制、钉钉RAG长文本无上限等方案集中出现，显示在GPU短缺背景下，产业正通过算法-系统协同降低部署成本，推动AI应用规模化落地。

# KV缓存