模型压缩 - AI话题

2026-07-15

端侧AI与轻量化部署

大模型轻量化与端侧部署加速突破。全球首款手机级27B模型Bonsai 27B问世，苹果推进iPhone本地大模型压缩技术；阿里Qwen-Audio-3.0、谷歌Chrome移动端Gemini、Xmax实时交互模型等推动端侧多模态体验；MacWhisper等工具持续降低本地AI应用门槛。

端侧AI 模型压缩手机大模型实时语音轻量化部署

2026-05-25

模型优化与AI基础设施

面壁智能联合清华发布中国首个1.58-bit大模型BitCPM-CANN，实现低比特训练突破；清华联合腾讯混元获MLSys MoE推理挑战赛冠军，NPU推理提速4.1倍；得州拟建2.5吉瓦核电燃气混合电站应对AI用电激增；EdgeRazor实现解码加速15倍。模型压缩、推理优化与能源基础设施成为AI规模化关键支撑。

模型压缩推理优化能源基础设施 MoE架构边缘计算

2026-05-03

端侧AI轻量化落地

腾讯混元开源440M手机离线翻译模型，通过极致量化在低端芯片上实现超谷歌的翻译质量，标志着大模型“瘦身”技术成熟，将加速出境、IoT、隐私敏感场景的端侧AI普及。

端侧AI 离线翻译模型压缩腾讯混元

2026-04-22

长上下文与模型效率突破

DeepSeek API升级至百万Token上下文，蚂蚁百灵发布104B参数却仅激活7.4B的Ling-2.6-flash，兼顾性能与成本，显示国产大模型在“长记忆”与“高效推理”两端同步取得关键进展，为复杂任务落地扫清障碍。

长上下文模型压缩 DeepSeek 百灵 Token效率

2026-03-26

大模型高效压缩突破

谷歌TurboQuant将KV缓存压缩6倍实现模型瘦身而不掉点，引发内存股大跌；苹果同步用知识蒸馏把Gemini浓缩进iPhone端侧，蚂蚁F2LLM-v2以1/10参数横扫MTEB十一项冠军，显示“大模型小型化”正成为性能与成本的新战场。

TurboQuant 知识蒸馏模型压缩 F2LLM-v2 端侧AI

2026-03-18

后Scaling时代模型效率革命

OpenAI、MiniMax、月之暗面等密集发布轻量化或自迭代模型，标志行业从堆算力转向拼Token效率与自我进化，降低门槛并加速落地。

小模型自进化 Token效率后Scaling 模型压缩

2026-03-09

小模型逆袭大模型

阿里通义千问Qwen3.5-4B仅用2%参数（40亿）在第三方评测中打平甚至超越千亿级GPT-4o，开启“以小博大”新范式；BOSS直聘3B模型海外病毒式传播，性能对标32B；UniPat AI开源30B科研模型硬刚Gemini、Claude，48小时GitHub揽星9.5k。参数效率革命降低本地部署成本，为端侧和中小企业带来普惠AI能力。

小模型参数效率端侧部署通义千问模型压缩

2026-03-07

多模态高效推理与模型压缩

CVPR’26 MoDES跳过88%冗余专家保97%性能；ICLR’26类特定压缩让ViT瘦身一半准确率反升15%，显示大模型“跳专家”与“小而专”策略成为落地新范式。

MoDES 专家跳过模型压缩 ViT

2026-03-05

端侧AI与硬件融合

华为将发AI眼镜支持拍摄+同声传译；高通推“胸针级”20亿参数本地模型；苹果M5 MacBook续航破24小时。端侧算力与模型压缩并进，让AI无缝融入穿戴、PC、家居，宣告“离线也能大模型”时代逼近，将重塑交互与数据隐私模式。

端侧AI AI眼镜模型压缩续航隐私

2026-02-25

算力多元化突围

Meta 与 AMD 签订 1000 亿美元巨额订单，引入 6 吉瓦 AMD 算力以对冲英伟达依赖；谷歌 TPU 元老创业 MatX 获 5 亿美元融资，宣称要将 LLM 吞吐提升 10 倍；西班牙 Multiverse 借“量子压缩”技术把模型体积减半，挑战 OpenAI。巨头与初创同步寻求 GPU 替代方案，预示 AI 算力从“英伟达单极”走向“多架构并存”。若新芯片/压缩方案量产顺利，将显著降低大模型训练与推理成本，加速 AI 应用下沉。

算力多元化 AMD MatX 模型压缩 AI芯片

2026-01-06

大模型开源与推理新范式

DeepSeek-R1、Falcon H1R 7B、华为openPangu-VL-7B等轻量级开源模型轮番登顶榜单，以7B-30B参数实现千亿级性能，打破“唯规模论”；字节DLCM、清华LingoEDU提出概念级推理与结构化预处理，准确率最高提升51%，推动低成本、高可靠的行业微调落地，开源生态进入“小而强”时代。

开源大模型推理优化 DeepSeek 模型压缩概念级推理

2025-12-30