CPU推理 - AI话题 - AI快开门

2024-08-02

LLMC、Gemma 2 2B等工具与模型让405B参数大模型可在单卡甚至iPhone上运行，CPU服务器也能跑千亿模型，显著降低硬件门槛，推动大模型在边缘与中小企业的普及。

2024-03-29

CPU即可跑大模型推理、KV缓存与分段注意力机制、钉钉RAG长文本无上限等方案集中出现，显示在GPU短缺背景下，产业正通过算法-系统协同降低部署成本，推动AI应用规模化落地。

# CPU推理