上下文扩展 - AI话题 - AI快开门

2024-04-07

大模型架构与效率突破

谷歌DeepMind连续抛出Mixture-of-Depths（MoD）Transformer与ReadAgent长文本框架，通过动态计算分配和“先摘要后回忆”策略，将推理速度提升50%、有效上下文扩展20倍；MIT/普林斯顿JetMoE则以10万美元成本逼近Llama-2性能，验证MoE+开源数据的小模型路线，为行业降本增效提供可复现范式。

MoD ReadAgent JeMoE 上下文扩展训练成本

2024-03-01

国产大模型技术突破

国内团队在上下文扩展、多模态及评测体系上连续取得进展：陈丹琦团队将Llama-2上下文扩至128k且内存降低83%；阿里EMO实现单图+音频驱动肖像视频；国家队评测显示国产模型数学能力跻身前三。

Llama-2 上下文扩展 EMO 多模态大模型评测

2024-02-29

开源模型激战升级

谷歌开源Gemma刷新同体量SOTA，Meta LLaMA 3剑指GPT-4却推迟至7月，国内团队基于Llama-2上下文扩展、加速训练与推理优化持续跟进，开源生态成为大模型创新主战场。

开源大模型 Gemma LLaMA 3 上下文扩展技术竞争

2024-01-18

位置编码与长文本外推

RoPE 及其长度外推方法成为大模型标配，社区图解其特性并总结多种改进方案，为低成本扩展上下文、提升长文档理解与代码仓库级推理提供关键技术支撑。

RoPE 位置编码长文本外推上下文扩展大模型

2024-01-08

大模型推理与架构优化

聚焦2024年初大模型在推理速度、上下文长度、参数效率等核心瓶颈上的突破，涵盖LoRA压缩、RAG召回、多轮对话加速、上下文扩展四行代码等方案，为端侧部署与企业降本提供关键支撑。

大模型推理 LoRA 上下文扩展 RAG 多轮对话加速