AI快开门

发现最好的AI工具

2024-10-19

端侧小模型与推理加速

Mistral发布3B/8B端侧专用模型Ministral,以3B参数超7B性能;英特尔与Hugging Face推出动态推测解码,最高2.7倍速生成;清华8比特量化Attention实现2倍于FlashAttention-2的加速,标志着边缘AI进入高效可用新阶段。