Medusa - AI话题 - AI快开门

2024-01-24

从Mixtral-8x7B、DeepSeek-MoE到Medusa，稀疏激活与多分支解码将推理延迟最高压缩3.6倍，同等算力下参数可扩展10倍，成为2024开年最主流的“大模型瘦身”方案，云服务与端侧部署同步受益。

# Medusa