vLLM - AI话题 - AI快开门

2026-05-12

AMD发布vLLM-ATOM插件，国产DeepSeek-R1、Kimi-K2在Instinct GPU上推理显著提速；百度Ernie5.1以6%成本实现1223分Search榜全球第四。硬件适配与弹性训练框架双轮驱动，国产大模型进入“高性价比”窗口期。

2026-01-23

全球主流开源推理引擎vLLM核心成员成立Inferact，获a16z与光速1.5亿美元种子轮、估值80亿美元，剑指AI推理成本压缩。同期北大团队发布模拟计算芯片，能效比提升228倍，显示“后训练”推理优化与硬件创新正成为AI实用化的新战场。

2024-04-19

GPU短缺背景下，vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段，显著降低大模型推理成本；产业界将“效率”视为与“参数”同等重要的核心竞争力，推动端侧部署与云边协同。

# vLLM