Transformer替代 - AI话题

2025-12-06

腾讯混元2.0、阿里千问办公全家桶、华为新注意力架构集中亮相，国产大模型在性能、场景落地与底层创新上全面提速，标志中国从跟随转向并跑甚至领跑，重塑全球基础模型竞争格局。

2025-01-16

谷歌Titans、MiniMax Lightning Attention、姚期智团队TPA等新架构通过引入长期记忆、动态张量分解或线性注意力，把上下文窗口推高至400万token，同时显存降低90%，为长文档、多轮对话及科学计算打开新空间。

2024-04-13

RWKV新架构Eagle/Finch、谷歌Infini-attention“无限上下文”及GPT-4 Turbo引入Q*，共同掀起Transformer替代与上下文长度革命，显著降低计算与内存成本，为长文档、多轮对话及推理任务打开新天花板，被视作迈向下一代基础模型的关键拐点。

2024-01-02

2024年初，华为盘古π、Mamba等新架构相继亮相，试图以线性复杂度替代Transformer，解决特征塌陷与长序列瓶颈；同时MoE+FlashAttention2、LoRA等工程优化让10行代码即可实现千亿级模型的高效推理与微调，标志大模型进入“后Transformer”竞争时代。

AI快开门