端侧部署 - AI话题

2025-12-30

端侧AI模型瘦身与离线部署

腾讯混元1.5、三星Exynos2600、WitNote等集中展示“模型压缩+端侧落地”路径：翻译、笔记、芯片级优化把大模型塞进手机与PC，无需联网即可运行，既降本又解决隐私与延迟痛点，标志着AI从云端走向普惠硬件的关键拐点。

2025-10-18

轻量化模型与端侧OCR

百度0.9B PaddleOCR-VL横扫4项SOTA并登顶Hugging Face，证明“小模型+多模态”在文档解析场景已可替代大模型，实现PC级本地部署。端侧轻量化趋势将降低开发者门槛，推动OCR、文档理解在政企、教育、金融场景快速渗透。

轻量化模型 OCR 端侧部署百度PaddleOCR 多模态

2025-10-05

推理效率优化新进展

Meta提出新方法将大模型思维链推理token减少46%，显著降低长链推理成本，为端侧部署和实时应用打开空间。

思维链推理优化 token压缩 Meta 端侧部署

2025-08-26

国产多模态大模型爆发

阿里国际Ovis2.5、通义万相Wan 2.2、面壁MiniCPM-V4.5、DeepSeek-V3.1等国产多模态模型密集发布，在视觉推理、视频音频同步、端侧部署等方向刷新SOTA，标志国产大模型进入“多模态+垂直场景”深水区，为AI原生应用奠定新基座。

多模态国产大模型视觉推理端侧部署 SOTA

2025-08-17

大模型轻量化与量化突破

北大提出首个复数域2比特大模型iFairy，把权重压缩到1/8且推理仅需加减法，手机可跑；Meta开源70亿参数DINOv3，自监督视觉模型刷新SOTA。两者共同标志“大模型小型化”进入实用拐点，为端侧部署、低成本落地打开空间。

模型量化端侧部署自监督学习复数网络轻量化

2025-06-27

开源多模态小模型潮

谷歌Gemma 3n、腾讯混元-A13B、北大RewardAnything等密集开源，2B-13B参数即可本地部署，多模态+工具调用+长文本能力逼近云端大模型，标志“边缘AI”进入可用阶段，降低开发者门槛，催化端侧应用爆发。

开源多模态端侧部署轻量级模型

2025-06-03

AI推理加速新框架

英伟达联合MIT、港大推出Fast-dLLM，通过稀疏激活与并行调度把大模型推理速度提升27倍，显著降低延迟与算力成本，为端侧部署和实时交互打开新空间。

Fast-dLLM 推理加速英伟达稀疏激活端侧部署

2025-05-02

超长上下文与高效推理突破

英伟达与UIUC把Llama上下文扩至400万token创SOTA；微软Phi-4系列以小参数量逼近GPT-4o推理表现；LoRA冗余研究称可剪枝95%参数不降性能，推动端侧与低成本部署。

超长上下文 Phi-4 LoRA剪枝高效推理端侧部署

2025-04-06

端侧与推荐模型新进展

中科大&华为发布生成式推荐大模型，可在昇腾NPU端侧高效部署，公开完整认知框架；英伟达开源双目深度估计大模型FoundationStereo获CVPR满分，推动机器人与AR/VR端侧感知能力升级。

端侧部署推荐模型昇腾NPU FoundationStereo

2025-02-20

DeepSeek生态爆发

国产开源大模型DeepSeek-V3/R1引爆产业链，联想、微博、钉钉、腾讯、Opera等头部厂商48小时内密集完成端侧或云端接入，政务、金融、消费、搜索全场景落地，标志中国大模型首次形成“芯片-模型-终端-应用”闭环，直接挑战海外闭源阵营。

DeepSeek 端侧部署开源生态国产大模型全场景落地

2025-01-17

国产大模型与端侧AI突破

DeepSeek V3、MiniCPM-o 2.6、Vidu 2.0 等国产模型在性能、速度、成本上实现全球领先，8B 参数即可在 iPad 端侧跑通 GPT-4o 级多模态能力，标志中国 AI 从追赶到并跑甚至领跑。

国产大模型端侧部署多模态成本颠覆全球爆火

2025-01-11

模型效率与知识蒸馏新思路

大连理工提出Wasserstein距离替代KL散度进行知识蒸馏，更好保留样本几何结构，在NeurIPS 2024引发关注；北航等首次把扩散模型全量化至1bit，存储压缩28倍、推理加速52倍，为端侧部署提供极致效率方案。

知识蒸馏 Wasserstein距离模型量化 1bit扩散模型端侧部署

2024-12-14

小模型逆袭与大模型效率战

微软 Phi-4（14B）数学击败 GPT-4o，Cohere 推出可跑低端设备的 Command R7B，显示“小模型+数据/训练算法创新”正在挑战“唯参数论”。效率竞赛降低算力门槛，利好端侧部署与中小企业，可能重塑云端订阅商业模式。

小模型 Phi-4 Command R7B 端侧部署训练新范式

2024-09-26

开源多模态模型爆发

Molmo、Llama 3.2 等新一代开源多模态模型在图像理解、生成速度及端侧部署上全面逼近甚至超越 GPT-4o、Claude 3.5 等闭源标杆，显著降低开发者门槛，加速 AI 应用落地，并倒逼闭源厂商升级迭代。

开源多模态 Llama 3.2 Molmo 端侧部署

2024-09-17

高效微调与硬件革新

上交&哈佛提出LoRA-Dash，把特定任务微调参数量再降8-16倍；Nature研究发布新型忆阻器，能效达Haswell CPU的460倍，为昂贵LLM的端侧部署与节能训练提供新路径。

LoRA-Dash 忆阻器高效微调能效端侧部署

2024-08-19

端侧AI与硬件协同

苹果Apple Intelligence被曝安全缺陷，Gemini Live抢跑52亿终端，硬件级混合矩阵乘法研究出炉，端侧大模型在性能、安全、能耗三维度同步承压。

端侧部署 Apple Intelligence Gemini Live 硬件加速

2024-08-02

大模型压缩与端侧部署

LLMC、Gemma 2 2B等工具与模型让405B参数大模型可在单卡甚至iPhone上运行，CPU服务器也能跑千亿模型，显著降低硬件门槛，推动大模型在边缘与中小企业的普及。

模型压缩端侧部署 CPU推理千亿模型低门槛

2024-08-01

端侧小模型与开源生态

谷歌开源2B Gemma 2，性能越级对标GPT-3.5-Turbo，苹果端侧流畅运行；国产开源模型24K多模态上下文、Llama 7B自对齐等方案涌现，降低落地门槛，推动边缘AI与开发者生态繁荣。

Gemma 2 端侧部署开源小模型 24K上下文自对齐

2024-07-19

GPT-4o mini 轻量模型潮

OpenAI 发布 GPT-4o mini，API 降价 60%，性能与速度兼顾，引发轻量级大模型竞赛；微软 Azure、Mistral-NVIDIA 12B 等迅速跟进，降低门槛、加速端侧与低成本应用落地，成为 2024 年模型降本增效风向标。

GPT-4o mini 模型压缩 API降价端侧部署成本优化

2024-06-26

小模型推理能力跃升

颜水成团队联合南洋理工发布Q*算法，让7B模型推理能力最高提升百倍，已开源；同期Deepseek Coder v2在代码任务上超越Gemini Pro，显示通过算法创新即可打破“参数至上”迷信，为端侧部署与私有化应用提供新范式。

小模型 Q*算法推理能力开源端侧部署

AI快开门

发现AI的无限可能

# 端侧部署