训练加速 - AI话题

2025-02-07

资本与算力竞赛

亚马逊宣布2025年AI投入超1000亿美元，百度自研万卡集群点亮并三折售卖DeepSeek算力，Cerebras、Mistral联手刷新训练速度纪录，算力军备赛再升级。

资本开支算力军备万卡集群训练加速

2024-11-27

Scaling Law争议与训练提速

OpenAI高调反驳“Scaling Law撞墙”论，同时北大、复旦等团队提出FAN、Two-Player架构及C-AdamW优化器，在保持性能前提下实现1.47倍训练加速，为大模型继续扩展提供新路径，直接影响算力需求与研发成本。

Scaling Law 训练加速 C-AdamW FAN Two-Player

2024-11-17

大模型训练与推理效率提升

谷歌DeepMind提出过程奖励模型PRM+PAV，将数学推理准确率提升8%；同时“删除冗余token”策略让视频大模型训练时间减少30%，显示后训练与模型压缩正成为性能与成本优化关键路径。

过程奖励训练加速模型压缩推理优化

2024-06-24

国产大模型生态提速

零一万物、月之暗面、小米、字节等国产团队相继发布新底座或开源工具：Yi系列登陆阿里云百炼API，Kimi聚焦生产力场景，小米提效框架训练推理双提速，字节豆包Tokenizer把图像生成提速410倍，显示国产模型在效率、成本、易用性上加速追赶国际前沿。

国产大模型 API生态训练加速推理加速 Tokenizer

2024-05-11

高效训练与推理框架

Unsloth×Qwen2宣称训练提速47%、显存节省39%，国产开源方案将8GB级显存门槛打穿；Jacobi解码+一致性损失的新LLM并行生成方法再提速2.4-3.4倍；Medusa2级高效解码框架亦在跟进，大模型落地成本有望进一步腰斩。

Unsloth 高效解码 Jacobi解码显存优化训练加速

2024-04-02

端侧与推理框架提速

Google JAX 在七项基准中超越 PyTorch/TF，成为 GPU 训练推理新标杆；Transformer-Lite 实现手机 GPU 高效运行 LLM；苹果发布设备端模型性能超 GPT-4。框架与硬件协同优化，让大模型离线和边缘部署进入实用阶段。

JAX 端侧推理手机GPU 苹果模型训练加速

2024-02-25

模型训练与部署加速

YOLOv9以可编程梯度信息刷新实时检测SOTA，Karpathy亲自拆解GPT分词器并开源全流程，Hugging Face与谷歌合作上线Gemma微调方案，Stable Diffusion 3展示文字级细节控制——从算法、框架到硬件协同优化，AI工程化进入“分钟级”微调与“秒级”推理时代，显著降低开发者门槛。

YOLOv9 训练加速 Gemma 分词器工程化

AI快开门

发现AI的无限可能

# 训练加速