AI快开门
发现AI的无限可能
首页
工具
模型
模型历史
模型排名
模型价格
话题
简报
搜索
首页
工具
模型
话题
简报
搜索
← 返回话题列表
#
Decoder-Only
相关话题
2024-05-13
模型压缩与推理优化
字节开源2-bit量化保持FP16精度,斯坦福新框架百行代码让H100提速30%,微软打破Decoder-Only架构把Llama3-70B塞进20 GB GPU,集体推动大模型端侧与低成本部署,加速商业化落地。
2-bit量化
推理加速
H100
Decoder-Only
低成本部署