数据筛选 - AI话题

2026-06-28

英伟达开源NeMo AutoModel实现MoE模型微调3.7倍加速；清华UDS通过智能样本筛选降低SFT算力；北大与智源提出机理数据归因；华为关键帧选择破解长视频算力瓶颈。从训练数据优化到推理框架加速，全链条效率提升成为行业焦点，推动大模型在学术与工业场景更易部署。

2025-06-19

谷歌DataRater自动筛除75%低质数据，弗吉尼亚理工LensLLM选型框架降本90%，普林斯顿&Meta线性注意力机制提速15倍，共同指向“更少数据、更低算力、更高性能”的新训练范式。

2025-05-16

DeepSeek-V3 论文公开低成本训练细节，MiniMax Speech-02 登顶 TTS 榜单，字节 Seed 提出 AttentionInfluence 数据筛选，港科大-vivo PreSelect 提升数据效率 10 倍，共同推高大模型性能天花板并降低算力门槛。

2024-07-18

微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制，在8B甚至更小参数下逼近7B+模型性能，挑战传统Scaling Law，为端侧和低成本训练提供新路径。

AI快开门