AI快开门

发现最好的AI工具

2026-01-03

Transformer 架构革新

LSTM 之父推出 PoPE 极坐标位置编码,终结 RoPE 长度外推难题;同期「去 KV Cache」研究把长上下文压入权重,使持续学习成为可能。两项工作分别从位置机制与记忆机制突破 Transformer scaling 瓶颈。