JeMoE - AI话题 - AI快开门

2024-04-07

大模型架构与效率突破

谷歌DeepMind连续抛出Mixture-of-Depths（MoD）Transformer与ReadAgent长文本框架，通过动态计算分配和“先摘要后回忆”策略，将推理速度提升50%、有效上下文扩展20倍；MIT/普林斯顿JetMoE则以10万美元成本逼近Llama-2性能，验证MoE+开源数据的小模型路线，为行业降本增效提供可复现范式。

# JeMoE

大模型架构与效率突破