边缘部署 - AI话题

2025-12-14

小模型高效革命

英伟达80亿参数Orchestrator以30%预算在困难任务获37%成绩，阶跃星辰8B框架解锁百万token测试时计算，苹果、OpenAI亦开源稀疏化小模型。通过“小脑指挥大脑”与动态推理，小参数模型在边缘与实时场景逼近大模型性能，显著降低算力与能耗门槛。

小模型稀疏化测试时计算边缘部署降本增效

2025-12-11

中国模型轻量化与落地

北大提出2比特复数量化框架，手机端流畅运行大模型；阿里妈妈生成式召回模型为搜索广告带来8%营收增长；美图、美团、蚂蚁数科成立AI创新工作室或引入前字节大模型负责人，聚焦多模态、智能体及行业解决方案。国产模型在压缩效率、场景落地、人才流动上形成闭环，加速边缘部署与商业变现。

模型量化边缘部署搜索广告人才流动商业落地

2025-09-27

多模态与推理效率优化

华为诺亚ViSpec实现多模态大模型推理3.2倍加速；谷歌DeepMind让机器人具备“思考”能力，推理侧硬件需求骤降。算法级优化正打破“堆卡”迷信，为端侧部署与实时应用打开空间，推动大模型从云端走向边缘。

ViSpec 推理加速多模态边缘部署算法优化

2025-03-22

轻量级多模态模型

HuggingFace推出SmolVLM2，提供2.56亿-22亿参数三档模型，支持MLX框架与手机-服务器全场景部署，让视频理解能力首次在边缘设备上“跑得快、用得起”，加速多模态AI普惠。

SmolVLM2 视频理解边缘部署轻量级模型 MLX

2024-12-29

大模型极限压缩与低精度训练

腾讯提出LLM量化scaling laws，指出低精度仅对未充分训练模型有效；同期1.58-bit训练GPT-3级模型仅20MB存储、算力降97%，引爆边缘部署与成本革命，预示“超小模型”时代或提前到来。

模型量化低精度训练边缘部署 scaling laws 存储压缩

2024-12-16

多模态小模型爆发

DeepSeek-VL2、Megrez-3B-Omni、Stable Zero123等3B-27B参数级模型在端侧实现图文音3D全模态理解与生成，速度提升3倍+，显存减半。标志着“大模型做小”成为新赛道，将加速手机、机器人、车载等边缘场景落地。

端侧模型多模态开源边缘部署

2024-07-17

移动端与边缘小模型

Hugging Face推出SmolLM，Meta发布Codestral Mamba，快手开源LivePortrait，显示轻量模型在手机端实时推理、长文本处理、表情迁移等任务上已可媲美大模型，为边缘部署与隐私计算提供新路径。

小模型边缘部署手机推理 Mamba

2024-06-11

模型效率与架构创新

Yandex开源LLM训练工具节省20%GPU；研究提出无矩阵乘法LLM，10亿参数FPGA推理逼近大脑功耗；神经架构搜索给大模型瘦身反而提升精度，反映行业在算力紧缺背景下对高效训练与边缘部署的迫切需求。

模型压缩无矩阵乘法 GPU节省边缘部署架构搜索

2024-01-22

AI芯片与算力基建新战事

奥特曼筹数十亿美元自建全球晶圆厂网络，欲打破英伟达垄断；国内傅盛展示百亿参数模型单卡3060可跑，边缘部署门槛骤降。算力成本已成大模型普及最大瓶颈，从芯片设计、代工到模型压缩，全栈式算力竞赛决定未来AI入口格局。

AI芯片晶圆厂算力成本边缘部署

2024-01-01

大模型性能与部署优化

2023年，大模型压缩、微调与边缘部署技术集中突破：MIT提出无需重训即可提升30%性能的层剪枝方法；美图/浙大发布骁龙888端侧实时多模态大模型MobileVLM；NVIDIA分享生产级部署技巧；Hugging Face总结开源LLM爆发趋势。这些进展显著降低算力门槛，加速大模型在端侧和中小企业的落地。

模型压缩边缘部署微调优化开源LLM 端侧推理

AI快开门

发现AI的无限可能

# 边缘部署