2026-05-12

芯片-模型协同优化提速

AMD发布vLLM-ATOM插件,国产DeepSeek-R1、Kimi-K2在Instinct GPU上推理显著提速;百度Ernie5.1以6%成本实现1223分Search榜全球第四。硬件适配与弹性训练框架双轮驱动,国产大模型进入“高性价比”窗口期。
2026-01-23

AI推理效率革命:vLLM团队创业

全球主流开源推理引擎vLLM核心成员成立Inferact,获a16z与光速1.5亿美元种子轮、估值80亿美元,剑指AI推理成本压缩。同期北大团队发布模拟计算芯片,能效比提升228倍,显示“后训练”推理优化与硬件创新正成为AI实用化的新战场。
2024-04-19

模型效率与推理优化

GPU短缺背景下,vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段,显著降低大模型推理成本;产业界将“效率”视为与“参数”同等重要的核心竞争力,推动端侧部署与云边协同。