AI快开门

发现最好的AI工具

2024-06-05

Mamba-2架构突破

普林斯顿与CMU团队发布Mamba-2,用统一数学框架将Transformer与SSM合二为一,状态空间扩大8倍、训练提速50%,为后Transformer时代提供新基座,可能重塑大模型底层架构。
2024-06-04

大模型架构革新

Mamba-2、DCFormer等新架构在训练效率与性能上挑战Transformer;Meta多token训练将推理提速3倍,上下文学习研究探索无需微调的新范式,推动大模型底层技术进入新一轮迭代。