AI快开门

发现最好的AI工具

2026-01-13

扩散模型并行推理革新

腾讯微信AI团队提出WeDLM,首次用因果注意力重构扩散语言模型,兼容KV缓存,实现并行生成与高效推理兼得,突破GPT类自回归模型速度瓶颈,为大模型端侧部署提供新范式。
2025-03-07

端侧与低成本推理

FP8训练显存省40%、速度提1.4倍,两台512G M3 Ultra即可跑满血DeepSeek-R1,阿里QwQ-32B笔记本可部署,Q-Filters无训练压缩KV缓存,端侧与消费级硬件正成为大模型推理新常态,边缘AI门槛快速降低。
2024-11-03

大模型推理效率突破

中科大提出Ada-KV自适应缓存压缩,微软清华借降噪思路升级注意力,RAG引入块状注意力,显著降低延迟与显存,为千亿级模型落地铺平道路。
2024-06-14

高效推理与内存优化突破

PyramidKV、Depth Anything V2等研究把大模型KV缓存压缩至2.5%仍保持90%性能,深度估计与推理能耗同步下降,为端侧部署和实时应用打开新空间。
2024-03-29

推理优化与硬件降本

CPU即可跑大模型推理、KV缓存与分段注意力机制、钉钉RAG长文本无上限等方案集中出现,显示在GPU短缺背景下,产业正通过算法-系统协同降低部署成本,推动AI应用规模化落地。