AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
推测解码
相关话题
2024-10-19
端侧小模型与推理加速
Mistral发布3B/8B端侧专用模型Ministral,以3B参数超7B性能;英特尔与Hugging Face推出动态推测解码,最高2.7倍速生成;清华8比特量化Attention实现2倍于FlashAttention-2的加速,标志着边缘AI进入高效可用新阶段。
端侧模型
推测解码
量化Attention
Ministral
推理加速