AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
CPU推理
相关话题
2024-08-02
大模型压缩与端侧部署
LLMC、Gemma 2 2B等工具与模型让405B参数大模型可在单卡甚至iPhone上运行,CPU服务器也能跑千亿模型,显著降低硬件门槛,推动大模型在边缘与中小企业的普及。
模型压缩
端侧部署
CPU推理
千亿模型
低门槛
2024-03-29
推理优化与硬件降本
CPU即可跑大模型推理、KV缓存与分段注意力机制、钉钉RAG长文本无上限等方案集中出现,显示在GPU短缺背景下,产业正通过算法-系统协同降低部署成本,推动AI应用规模化落地。
推理优化
CPU推理
KV缓存
RAG
成本降低