2026-03-08
多模态与高效推理创新
Yann LeCun、谢赛宁联合强调多模态预训练是后LLM时代主路径;Parallel-Probe破解无效并行,推理提速35.8%;30B参数REDSearcher以低成本实现深度搜索Agent,高效能与多模态并进。
2026-01-13
扩散模型并行推理革新
腾讯微信AI团队提出WeDLM,首次用因果注意力重构扩散语言模型,兼容KV缓存,实现并行生成与高效推理兼得,突破GPT类自回归模型速度瓶颈,为大模型端侧部署提供新范式。
2025-06-17
模型架构与推理优化
谷歌承认Transformer注意力机制瓶颈,计划重写架构;R-KV把KV Cache压至10%无损推理;CMU&英伟达Multiverse实现原生并行出token;多路径创新共同追求更长上下文、更低功耗、更高吞吐。
2024-11-10
超长上下文技术突破
清华、厦大等提出LLMxMapReduce框架,让Llama、Qwen等主流模型实现“无限长”上下文,百万token大海捞针全召回,为长文档理解、法律、金融等场景扫清记忆瓶颈。