2024-03-02
国产AI基础设施突破
字节跳动联合北大发布MegaScale万卡集群系统,2天完成GPT-3训练,算力利用率超英伟达Megatron-LM;知乎实现90% GPU利用率的大模型训练/部署一体化方案,展示国产工程优化在超大规模预训练中的竞争力。
2024-02-21
超长上下文与多模态理解竞赛
Gemini 1.5 Pro将上下文扩至1M tokens,支持视频、音频、代码统一输入,实测可秒判Sora伪造;同期知乎93% GPU利用率优化揭示数据访问瓶颈,长文本与多模态融合成为下一阶段核心战场。
2024-01-03
国产大模型架构与训练优化
华为盘古-π、百度GPU利用率90%训练宝典及知乎PyTorch调优实践,显示国产团队在Transformer改进、高效训练与推理加速上的持续突破,为追赶GPT-4提供工程化底座,降低大模型落地成本。