AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
Mamba架构
相关话题
2024-07-18
模型架构革新与高效训练
微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制,在8B甚至更小参数下逼近7B+模型性能,挑战传统Scaling Law,为端侧和低成本训练提供新路径。
稀疏激活
Mamba架构
数据筛选
高效训练