AI快开门

发现最好的AI工具

2024-11-30

算力与模型效率优化

清华&OpenBMB Delta-CoMe增量压缩在80G显存加载50个7B模型,人大PageRank算法理论最优,MoE图解科普,共同指向大模型训练与推理成本下降路径,缓解算力焦虑。
2024-07-12

Transformer核心优化突破

FlashAttention-3与LowMemoryBP相继发布,H100利用率飙至75%,显存与速度兼得;训练GPT-2成本跌破700美元,反向传播效率再升级,为大模型普及与端侧部署奠定工程基础。
2024-05-11

高效训练与推理框架

Unsloth×Qwen2宣称训练提速47%、显存节省39%,国产开源方案将8GB级显存门槛打穿;Jacobi解码+一致性损失的新LLM并行生成方法再提速2.4-3.4倍;Medusa2级高效解码框架亦在跟进,大模型落地成本有望进一步腰斩。
2024-04-19

模型效率与推理优化

GPU短缺背景下,vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段,显著降低大模型推理成本;产业界将“效率”视为与“参数”同等重要的核心竞争力,推动端侧部署与云边协同。