AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
Decoder-Only
相关话题
2024-05-13
模型压缩与推理优化
字节开源2-bit量化保持FP16精度,斯坦福新框架百行代码让H100提速30%,微软打破Decoder-Only架构把Llama3-70B塞进20 GB GPU,集体推动大模型端侧与低成本部署,加速商业化落地。
2-bit量化
推理加速
H100
Decoder-Only
低成本部署