模型量化 - AI话题 - AI快开门

2025-12-11

中国模型轻量化与落地

北大提出2比特复数量化框架，手机端流畅运行大模型；阿里妈妈生成式召回模型为搜索广告带来8%营收增长；美图、美团、蚂蚁数科成立AI创新工作室或引入前字节大模型负责人，聚焦多模态、智能体及行业解决方案。国产模型在压缩效率、场景落地、人才流动上形成闭环，加速边缘部署与商业变现。

模型量化边缘部署搜索广告人才流动商业落地

2025-08-17

大模型轻量化与量化突破

北大提出首个复数域2比特大模型iFairy，把权重压缩到1/8且推理仅需加减法，手机可跑；Meta开源70亿参数DINOv3，自监督视觉模型刷新SOTA。两者共同标志“大模型小型化”进入实用拐点，为端侧部署、低成本落地打开空间。

模型量化端侧部署自监督学习复数网络轻量化

2025-01-19

扩散模型极限量化突破

MPQ-DM团队把扩散模型权重压缩至2-4位，在W2A4精度下FID再降58%，生成质量仍媲美全精度，为端侧超高清文生图、视频生成铺平道路；同期NYU/MIT/谷歌提出“测试时计算”新Scaling Law，扩散模型推理阶段可动态加码，性能直冲天花板，标志着生成式AI进入“后训练+后推理”双轮时代。

扩散模型模型量化测试时计算 Scaling Law 端侧生成

2025-01-11

模型效率与知识蒸馏新思路

大连理工提出Wasserstein距离替代KL散度进行知识蒸馏，更好保留样本几何结构，在NeurIPS 2024引发关注；北航等首次把扩散模型全量化至1bit，存储压缩28倍、推理加速52倍，为端侧部署提供极致效率方案。

知识蒸馏 Wasserstein距离模型量化 1bit扩散模型端侧部署

2024-12-29

大模型极限压缩与低精度训练

腾讯提出LLM量化scaling laws，指出低精度仅对未充分训练模型有效；同期1.58-bit训练GPT-3级模型仅20MB存储、算力降97%，引爆边缘部署与成本革命，预示“超小模型”时代或提前到来。

模型量化低精度训练边缘部署 scaling laws 存储压缩

2024-11-08

大模型效率与成本革命

NeurIPS 2024 Oral提出DuQuant 4-bit量化新SOTA，50秒完成7B模型压缩；无问芯穹MoA稀疏注意力长文本吞吐提升8倍；Meta免训练AdaCache让DiT视频生成快2.6倍，大模型“又快又小”成为新赛场。

模型量化稀疏注意力 AdaCache DuQuant 推理加速

2024-08-10

垂直领域模型与数据

阿里Qwen2-Audio在多项语音任务超越OpenAI Whisper，德州大学联合NIH发布21.5万张X光问答数据集Medical-CXR-VQA，Fireworks提出可解释量化评估框架，显示大模型正快速向医疗、语音、数学等垂直场景深化，数据与评测方法同步升级。

Qwen2-Audio 医疗VQA 模型量化语音模型数据集

2024-06-09

大模型幻觉与量化难题破解

DeepMind首次解耦LLM认知与偶然不确定性，显著降低幻觉；ETH&北航提出Q-BERT量化微调新范式，解决量化后性能退化，为可信、低成本部署大模型提供关键技术支撑。

幻觉检测不确定性量化 Q-BERT 模型量化 ICML2024

2024-06-01

Scaling Law与模型效率前沿

最新论文揭示观测缩放定律，为复杂现象提供可预测框架；神经网络量化白皮书聚焦边缘端功耗与延迟优化，结合Transformer生成模型提升蛋白-蛋白构象采样效率，显示大模型在“更大”与“更轻”两极同步进化。

Scaling Law 模型量化边缘计算 Transformer 蛋白质采样

2024-05-07

大模型轻量化与端侧落地

Phi-3-mini、Llama-3 1M上下文、量化压缩等突破，让百亿级模型在手机、PC端实时运行，端侧AI进入可用时代，将重塑应用生态与成本结构。

端侧大模型模型量化长上下文 Phi-3 Llama-3