AI快开门

发现最好的AI工具

2024-04-07

大模型架构与效率突破

谷歌DeepMind连续抛出Mixture-of-Depths(MoD)Transformer与ReadAgent长文本框架,通过动态计算分配和“先摘要后回忆”策略,将推理速度提升50%、有效上下文扩展20倍;MIT/普林斯顿JetMoE则以10万美元成本逼近Llama-2性能,验证MoE+开源数据的小模型路线,为行业降本增效提供可复现范式。
2024-03-01

国产大模型技术突破

国内团队在上下文扩展、多模态及评测体系上连续取得进展:陈丹琦团队将Llama-2上下文扩至128k且内存降低83%;阿里EMO实现单图+音频驱动肖像视频;国家队评测显示国产模型数学能力跻身前三。
2024-02-29

开源模型激战升级

谷歌开源Gemma刷新同体量SOTA,Meta LLaMA 3剑指GPT-4却推迟至7月,国内团队基于Llama-2上下文扩展、加速训练与推理优化持续跟进,开源生态成为大模型创新主战场。
2024-01-18

位置编码与长文本外推

RoPE 及其长度外推方法成为大模型标配,社区图解其特性并总结多种改进方案,为低成本扩展上下文、提升长文档理解与代码仓库级推理提供关键技术支撑。
2024-01-08

大模型推理与架构优化

聚焦2024年初大模型在推理速度、上下文长度、参数效率等核心瓶颈上的突破,涵盖LoRA压缩、RAG召回、多轮对话加速、上下文扩展四行代码等方案,为端侧部署与企业降本提供关键支撑。