AI快开门
发现AI的无限可能
首页
工具
模型
模型历史
模型排名
模型价格
话题
简报
搜索
首页
工具
模型
话题
简报
搜索
← 返回话题列表
#
OneDiff
相关话题
2024-04-19
模型效率与推理优化
GPU短缺背景下,vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段,显著降低大模型推理成本;产业界将“效率”视为与“参数”同等重要的核心竞争力,推动端侧部署与云边协同。
推理加速
vLLM
OneDiff
MambaByte
显存优化