AI快开门

发现最好的AI工具

2024-01-02

大模型架构革新

2024年初,华为盘古π、Mamba等新架构相继亮相,试图以线性复杂度替代Transformer,解决特征塌陷与长序列瓶颈;同时MoE+FlashAttention2、LoRA等工程优化让10行代码即可实现千亿级模型的高效推理与微调,标志大模型进入“后Transformer”竞争时代。