2024-04-07
大模型架构与效率突破
谷歌DeepMind连续抛出Mixture-of-Depths(MoD)Transformer与ReadAgent长文本框架,通过动态计算分配和“先摘要后回忆”策略,将推理速度提升50%、有效上下文扩展20倍;MIT/普林斯顿JetMoE则以10万美元成本逼近Llama-2性能,验证MoE+开源数据的小模型路线,为行业降本增效提供可复现范式。
2024-03-01
国产大模型技术突破
国内团队在上下文扩展、多模态及评测体系上连续取得进展:陈丹琦团队将Llama-2上下文扩至128k且内存降低83%;阿里EMO实现单图+音频驱动肖像视频;国家队评测显示国产模型数学能力跻身前三。
2024-02-29
开源模型激战升级
谷歌开源Gemma刷新同体量SOTA,Meta LLaMA 3剑指GPT-4却推迟至7月,国内团队基于Llama-2上下文扩展、加速训练与推理优化持续跟进,开源生态成为大模型创新主战场。
2024-01-18
位置编码与长文本外推
RoPE 及其长度外推方法成为大模型标配,社区图解其特性并总结多种改进方案,为低成本扩展上下文、提升长文档理解与代码仓库级推理提供关键技术支撑。