AI快开门

发现最好的AI工具

2025-11-12

模型效率与训练范式之争

NeurIPS满分论文质疑RLVR,阿里、清华、月之暗面用异步PPO、图像压缩、低成本H800训练证明“数据工程+基座”优于堆算力,开源社区加速复现o1级推理。
2025-10-29

模型效率与小型化突破

清华&快手SVG扩散模型训练提速6200%、生成提速3500%,IBM Granite 4.0 Nano刷新小模型性能极限,中科院PARO用1/10思维链数据达全量效果,后训练时代“小而快”成为新赛道。
2025-09-07

物理与数据效率革命

Nature综述提出物理神经网络,微软亚研提出数据顺序优化DELT,二者共同指向“不靠堆GPU、不增数据量”的新训练范式,有望破解算力瓶颈并降低AI能耗。
2025-08-03

3D生成与效率优化

Ultra3D框架实现“一键精细到毛发”的3D资产生成,腾讯混元开源MixGRPO将训练时间减半而性能提升,显示AIGC在高质量内容与训练效率两端同步突破,加速影视、游戏落地。
2025-07-11

模型架构与训练新范式

北大/华为开源纯卷积DiC,速度超DiT 5倍;Inception Labs推扩散式语言模型Mercury,写代码快10倍;上交团队凭DeepSeek-R1外挂刷新“人类最后考试”国内纪录。后Transformer创新进入爆发期,训练效率与推理质量双升。
2025-07-08

模型架构与训练效率革新

清华SageAttention3实现5倍注意力提速,循环模型500步突破256k长度泛化,基于能量Transformer提升35%性能,后训练与量化技术成为缓解算力瓶颈的关键路径。
2025-06-08

后Transformer架构革新

谷歌提出“注意力+保留门”新架构,清华团队三连击改进注意力机制,参数减少40%、训练速度提升5-8倍,显示Transformer统治地位首次遭遇系统性挑战,底层范式换代窗口已开启。
2024-10-14

大模型训练与推理新范式

REPA、OpenR、LightRAG等研究提出全新训练与检索框架,扩散模型与RAG成本骤降,推理能力显著增强,为行业降本增效提供关键支撑。
2024-07-11

大模型训练与评测突破

DeepMind提出JEST数据筛选法,训练时间缩短13倍、算力降90%;牛津语义熵登Nature,可零改动检测LLM幻觉;SemiKong开源芯片设计大模型,五年或重塑5000亿美元半导体业,显示基础模型在效率、可信度与垂直领域全面提速。
2024-07-10

训练效率与算力节省

DeepMind JEST、谷歌百万专家及智源 Triton 算子库等方法,将训练时间缩短 13 倍、算力降低 90%,缓解万亿参数时代 GPU 饥渴,为中小团队参与大模型竞争打开窗口。
2024-04-21

模型架构与训练效率突破

谷歌提出带反馈注意力的新型Transformer,实现工作记忆;Megalodon用0.5天训练15亿参数模型支持无限长文本;状态空间模型与组合世界模型COMBO也亮相。系列创新在计算效率、长上下文与多智能体协作上展现新思路。
2024-03-11

大模型架构与训练效率创新

DenseMamba、分治Prompt、字节级模型、扩散决策智能体等研究从架构、数据、训练策略多维度提升大模型性能与效率,降低算力门槛,为中小团队参与大模型竞争提供新路径。
2024-03-02

国产AI基础设施突破

字节跳动联合北大发布MegaScale万卡集群系统,2天完成GPT-3训练,算力利用率超英伟达Megatron-LM;知乎实现90% GPU利用率的大模型训练/部署一体化方案,展示国产工程优化在超大规模预训练中的竞争力。
2024-01-30

MoE与高效训练新框架

Hugging Face开源MakeMoE完整教程,降低混合专家模型门槛;阿里云PAI-ChatLearn支持175B+175B级RLHF全流程训练;微软SliceGPT实现LLAMA-2无损压缩,大模型训练与推理效率再升级。