2025-11-12
模型效率与训练范式之争
NeurIPS满分论文质疑RLVR,阿里、清华、月之暗面用异步PPO、图像压缩、低成本H800训练证明“数据工程+基座”优于堆算力,开源社区加速复现o1级推理。
2025-10-29
模型效率与小型化突破
清华&快手SVG扩散模型训练提速6200%、生成提速3500%,IBM Granite 4.0 Nano刷新小模型性能极限,中科院PARO用1/10思维链数据达全量效果,后训练时代“小而快”成为新赛道。
2025-09-07
物理与数据效率革命
Nature综述提出物理神经网络,微软亚研提出数据顺序优化DELT,二者共同指向“不靠堆GPU、不增数据量”的新训练范式,有望破解算力瓶颈并降低AI能耗。
2025-08-03
3D生成与效率优化
Ultra3D框架实现“一键精细到毛发”的3D资产生成,腾讯混元开源MixGRPO将训练时间减半而性能提升,显示AIGC在高质量内容与训练效率两端同步突破,加速影视、游戏落地。
2025-07-11
模型架构与训练新范式
北大/华为开源纯卷积DiC,速度超DiT 5倍;Inception Labs推扩散式语言模型Mercury,写代码快10倍;上交团队凭DeepSeek-R1外挂刷新“人类最后考试”国内纪录。后Transformer创新进入爆发期,训练效率与推理质量双升。
2025-07-08
模型架构与训练效率革新
清华SageAttention3实现5倍注意力提速,循环模型500步突破256k长度泛化,基于能量Transformer提升35%性能,后训练与量化技术成为缓解算力瓶颈的关键路径。
2025-06-08
后Transformer架构革新
谷歌提出“注意力+保留门”新架构,清华团队三连击改进注意力机制,参数减少40%、训练速度提升5-8倍,显示Transformer统治地位首次遭遇系统性挑战,底层范式换代窗口已开启。
2024-10-14
大模型训练与推理新范式
REPA、OpenR、LightRAG等研究提出全新训练与检索框架,扩散模型与RAG成本骤降,推理能力显著增强,为行业降本增效提供关键支撑。
2024-07-11
大模型训练与评测突破
DeepMind提出JEST数据筛选法,训练时间缩短13倍、算力降90%;牛津语义熵登Nature,可零改动检测LLM幻觉;SemiKong开源芯片设计大模型,五年或重塑5000亿美元半导体业,显示基础模型在效率、可信度与垂直领域全面提速。
2024-07-10
训练效率与算力节省
DeepMind JEST、谷歌百万专家及智源 Triton 算子库等方法,将训练时间缩短 13 倍、算力降低 90%,缓解万亿参数时代 GPU 饥渴,为中小团队参与大模型竞争打开窗口。
2024-04-21
模型架构与训练效率突破
谷歌提出带反馈注意力的新型Transformer,实现工作记忆;Megalodon用0.5天训练15亿参数模型支持无限长文本;状态空间模型与组合世界模型COMBO也亮相。系列创新在计算效率、长上下文与多智能体协作上展现新思路。
2024-03-11
大模型架构与训练效率创新
DenseMamba、分治Prompt、字节级模型、扩散决策智能体等研究从架构、数据、训练策略多维度提升大模型性能与效率,降低算力门槛,为中小团队参与大模型竞争提供新路径。
2024-03-02
国产AI基础设施突破
字节跳动联合北大发布MegaScale万卡集群系统,2天完成GPT-3训练,算力利用率超英伟达Megatron-LM;知乎实现90% GPU利用率的大模型训练/部署一体化方案,展示国产工程优化在超大规模预训练中的竞争力。