AI快开门

发现最好的AI工具

2024-01-24

MoE架构加速大模型推理

从Mixtral-8x7B、DeepSeek-MoE到Medusa,稀疏激活与多分支解码将推理延迟最高压缩3.6倍,同等算力下参数可扩展10倍,成为2024开年最主流的“大模型瘦身”方案,云服务与端侧部署同步受益。