AI快开门

发现最好的AI工具

2025-12-30

端侧AI模型瘦身与离线部署

腾讯混元1.5、三星Exynos2600、WitNote等集中展示“模型压缩+端侧落地”路径:翻译、笔记、芯片级优化把大模型塞进手机与PC,无需联网即可运行,既降本又解决隐私与延迟痛点,标志着AI从云端走向普惠硬件的关键拐点。
2025-10-18

轻量化模型与端侧OCR

百度0.9B PaddleOCR-VL横扫4项SOTA并登顶Hugging Face,证明“小模型+多模态”在文档解析场景已可替代大模型,实现PC级本地部署。端侧轻量化趋势将降低开发者门槛,推动OCR、文档理解在政企、教育、金融场景快速渗透。
2025-10-05

推理效率优化新进展

Meta提出新方法将大模型思维链推理token减少46%,显著降低长链推理成本,为端侧部署和实时应用打开空间。
2025-08-26

国产多模态大模型爆发

阿里国际Ovis2.5、通义万相Wan 2.2、面壁MiniCPM-V4.5、DeepSeek-V3.1等国产多模态模型密集发布,在视觉推理、视频音频同步、端侧部署等方向刷新SOTA,标志国产大模型进入“多模态+垂直场景”深水区,为AI原生应用奠定新基座。
2025-08-17

大模型轻量化与量化突破

北大提出首个复数域2比特大模型iFairy,把权重压缩到1/8且推理仅需加减法,手机可跑;Meta开源70亿参数DINOv3,自监督视觉模型刷新SOTA。两者共同标志“大模型小型化”进入实用拐点,为端侧部署、低成本落地打开空间。
2025-06-27

开源多模态小模型潮

谷歌Gemma 3n、腾讯混元-A13B、北大RewardAnything等密集开源,2B-13B参数即可本地部署,多模态+工具调用+长文本能力逼近云端大模型,标志“边缘AI”进入可用阶段,降低开发者门槛,催化端侧应用爆发。
2025-06-03

AI推理加速新框架

英伟达联合MIT、港大推出Fast-dLLM,通过稀疏激活与并行调度把大模型推理速度提升27倍,显著降低延迟与算力成本,为端侧部署和实时交互打开新空间。
2025-05-02

超长上下文与高效推理突破

英伟达与UIUC把Llama上下文扩至400万token创SOTA;微软Phi-4系列以小参数量逼近GPT-4o推理表现;LoRA冗余研究称可剪枝95%参数不降性能,推动端侧与低成本部署。
2025-04-06

端侧与推荐模型新进展

中科大&华为发布生成式推荐大模型,可在昇腾NPU端侧高效部署,公开完整认知框架;英伟达开源双目深度估计大模型FoundationStereo获CVPR满分,推动机器人与AR/VR端侧感知能力升级。
2025-02-20

DeepSeek生态爆发

国产开源大模型DeepSeek-V3/R1引爆产业链,联想、微博、钉钉、腾讯、Opera等头部厂商48小时内密集完成端侧或云端接入,政务、金融、消费、搜索全场景落地,标志中国大模型首次形成“芯片-模型-终端-应用”闭环,直接挑战海外闭源阵营。
2025-01-17

国产大模型与端侧AI突破

DeepSeek V3、MiniCPM-o 2.6、Vidu 2.0 等国产模型在性能、速度、成本上实现全球领先,8B 参数即可在 iPad 端侧跑通 GPT-4o 级多模态能力,标志中国 AI 从追赶到并跑甚至领跑。
2025-01-11

模型效率与知识蒸馏新思路

大连理工提出Wasserstein距离替代KL散度进行知识蒸馏,更好保留样本几何结构,在NeurIPS 2024引发关注;北航等首次把扩散模型全量化至1bit,存储压缩28倍、推理加速52倍,为端侧部署提供极致效率方案。
2024-12-14

小模型逆袭与大模型效率战

微软 Phi-4(14B)数学击败 GPT-4o,Cohere 推出可跑低端设备的 Command R7B,显示“小模型+数据/训练算法创新”正在挑战“唯参数论”。效率竞赛降低算力门槛,利好端侧部署与中小企业,可能重塑云端订阅商业模式。
2024-09-26

开源多模态模型爆发

Molmo、Llama 3.2 等新一代开源多模态模型在图像理解、生成速度及端侧部署上全面逼近甚至超越 GPT-4o、Claude 3.5 等闭源标杆,显著降低开发者门槛,加速 AI 应用落地,并倒逼闭源厂商升级迭代。
2024-09-17

高效微调与硬件革新

上交&哈佛提出LoRA-Dash,把特定任务微调参数量再降8-16倍;Nature研究发布新型忆阻器,能效达Haswell CPU的460倍,为昂贵LLM的端侧部署与节能训练提供新路径。
2024-08-19

端侧AI与硬件协同

苹果Apple Intelligence被曝安全缺陷,Gemini Live抢跑52亿终端,硬件级混合矩阵乘法研究出炉,端侧大模型在性能、安全、能耗三维度同步承压。
2024-08-02

大模型压缩与端侧部署

LLMC、Gemma 2 2B等工具与模型让405B参数大模型可在单卡甚至iPhone上运行,CPU服务器也能跑千亿模型,显著降低硬件门槛,推动大模型在边缘与中小企业的普及。
2024-08-01

端侧小模型与开源生态

谷歌开源2B Gemma 2,性能越级对标GPT-3.5-Turbo,苹果端侧流畅运行;国产开源模型24K多模态上下文、Llama 7B自对齐等方案涌现,降低落地门槛,推动边缘AI与开发者生态繁荣。
2024-07-19

GPT-4o mini 轻量模型潮

OpenAI 发布 GPT-4o mini,API 降价 60%,性能与速度兼顾,引发轻量级大模型竞赛;微软 Azure、Mistral-NVIDIA 12B 等迅速跟进,降低门槛、加速端侧与低成本应用落地,成为 2024 年模型降本增效风向标。
2024-06-26

小模型推理能力跃升

颜水成团队联合南洋理工发布Q*算法,让7B模型推理能力最高提升百倍,已开源;同期Deepseek Coder v2在代码任务上超越Gemini Pro,显示通过算法创新即可打破“参数至上”迷信,为端侧部署与私有化应用提供新范式。