2026-01-03
Transformer 架构革新
LSTM 之父推出 PoPE 极坐标位置编码,终结 RoPE 长度外推难题;同期「去 KV Cache」研究把长上下文压入权重,使持续学习成为可能。两项工作分别从位置机制与记忆机制突破 Transformer scaling 瓶颈。
2025-09-14
硬件与训练范式革新
英伟达推出视频生成专用GPU、进化算法压缩KV Cache至1.5%,TiM新范式原生支持FSDP+Flash Attention,硬件与算法协同优化,为大模型低成本实时推理铺平道路。
2025-06-17
模型架构与推理优化
谷歌承认Transformer注意力机制瓶颈,计划重写架构;R-KV把KV Cache压至10%无损推理;CMU&英伟达Multiverse实现原生并行出token;多路径创新共同追求更长上下文、更低功耗、更高吞吐。