AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
Medusa
相关话题
2024-01-24
MoE架构加速大模型推理
从Mixtral-8x7B、DeepSeek-MoE到Medusa,稀疏激活与多分支解码将推理延迟最高压缩3.6倍,同等算力下参数可扩展10倍,成为2024开年最主流的“大模型瘦身”方案,云服务与端侧部署同步受益。
MoE
推理加速
Medusa
稀疏激活
参数扩展