2024-11-30
算力与模型效率优化
清华&OpenBMB Delta-CoMe增量压缩在80G显存加载50个7B模型,人大PageRank算法理论最优,MoE图解科普,共同指向大模型训练与推理成本下降路径,缓解算力焦虑。
2024-07-12
Transformer核心优化突破
FlashAttention-3与LowMemoryBP相继发布,H100利用率飙至75%,显存与速度兼得;训练GPT-2成本跌破700美元,反向传播效率再升级,为大模型普及与端侧部署奠定工程基础。
2024-05-11
高效训练与推理框架
Unsloth×Qwen2宣称训练提速47%、显存节省39%,国产开源方案将8GB级显存门槛打穿;Jacobi解码+一致性损失的新LLM并行生成方法再提速2.4-3.4倍;Medusa2级高效解码框架亦在跟进,大模型落地成本有望进一步腰斩。