并行推理 - AI话题

2026-03-08

Yann LeCun、谢赛宁联合强调多模态预训练是后LLM时代主路径；Parallel-Probe破解无效并行，推理提速35.8%；30B参数REDSearcher以低成本实现深度搜索Agent，高效能与多模态并进。

2026-01-13

腾讯微信AI团队提出WeDLM，首次用因果注意力重构扩散语言模型，兼容KV缓存，实现并行生成与高效推理兼得，突破GPT类自回归模型速度瓶颈，为大模型端侧部署提供新范式。

2025-06-17

谷歌承认Transformer注意力机制瓶颈，计划重写架构；R-KV把KV Cache压至10%无损推理；CMU&英伟达Multiverse实现原生并行出token；多路径创新共同追求更长上下文、更低功耗、更高吞吐。

2024-11-10

清华、厦大等提出LLMxMapReduce框架，让Llama、Qwen等主流模型实现“无限长”上下文，百万token大海捞针全召回，为长文档理解、法律、金融等场景扫清记忆瓶颈。

AI快开门