AI快开门

发现最好的AI工具

2024-07-18

模型架构革新与高效训练

微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制,在8B甚至更小参数下逼近7B+模型性能,挑战传统Scaling Law,为端侧和低成本训练提供新路径。