显存优化 - AI话题

2024-11-30

清华&OpenBMB Delta-CoMe增量压缩在80G显存加载50个7B模型，人大PageRank算法理论最优，MoE图解科普，共同指向大模型训练与推理成本下降路径，缓解算力焦虑。

2024-07-12

FlashAttention-3与LowMemoryBP相继发布，H100利用率飙至75%，显存与速度兼得；训练GPT-2成本跌破700美元，反向传播效率再升级，为大模型普及与端侧部署奠定工程基础。

2024-05-11

Unsloth×Qwen2宣称训练提速47%、显存节省39%，国产开源方案将8GB级显存门槛打穿；Jacobi解码+一致性损失的新LLM并行生成方法再提速2.4-3.4倍；Medusa2级高效解码框架亦在跟进，大模型落地成本有望进一步腰斩。

2024-04-19

GPU短缺背景下，vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段，显著降低大模型推理成本；产业界将“效率”视为与“参数”同等重要的核心竞争力，推动端侧部署与云边协同。

AI快开门