VLM - AI话题 - AI快开门

2025-12-13

多模态小模型与端侧AI

Jina-VLM、AutoGLM、GLM-4.6V等轻量多模态模型相继开源，可在笔记本甚至手机端运行，兼顾视觉理解、语音交互与自动操作，降低高分辨率推理成本。端侧AI走向实用，预示“AI手机”与本地智能体生态将加速普及。

多模态端侧AI AutoGLM Jina-VLM 开源

2025-11-14

具身智能资本与技术双突破

Dexmal原力灵机两轮融近10亿元获阿里、蔚来加码；北大&BeingBeyond零样本人形机器人DemoHLM登NeurIPS；北京人形机器人开源超大参数量VLM，具身智能从实验室走向产线，商业化窗口期全面打开。

具身智能人形机器人融资零样本 VLM

2025-08-08

开源与端侧模型提速

小红书开源dots.vlm1、Qwen推4B端侧推理模型、GPT-oss社区版等相继亮相，在树莓派可跑的256k长文本模型与多模态能力逼近SOTA，反映“小型化+开源”正成为对冲闭源旗舰的新趋势。

开源模型端侧大模型 Qwen dots.vlm1 小型化

2025-06-29

长视频理解技术进展

HoPE混合位置编码方法显著提升视觉-语言模型在长视频上的长度泛化能力，为安防、教育、直播等场景的大模型落地扫清关键障碍。

HoPE 长视频 VLM 位置编码

2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM，在iPhone端实现85倍速视觉问答，证明高压缩视觉Token方案可行，为移动端AR/VR、实时翻译等场景打开落地窗口，或改变“云端大模型”垄断格局。

端侧AI FastVLM 视觉语言模型苹果移动推理

2025-05-12

端侧视觉-语言模型突破

苹果FastVLM、腾讯混元T1-Vision等模型把多模态能力压缩到手机端，实现本地实时看图聊天；谷歌Gemini 2.5 Pro一次看懂6小时视频，标志视觉理解进入长视频时代，将重塑移动交互与内容生态。

端侧VLM 视觉理解长视频移动AI 多模态

2025-03-29

视觉-语言模型幻觉治理

谷歌联合哥大发布 HaloQuest 框架，用三类视觉陷阱动态评估并降低 VLM 幻觉，在自动驾驶、医疗诊断等关键场景实现 30% 错误率下降。该方法提供可扩展的在线评测接口，已被 Waymo、梅奥诊所试点，推动行业从“能用”到“敢用”。

VLM 幻觉评估谷歌安全

2025-03-22

轻量级多模态模型

HuggingFace推出SmolVLM2，提供2.56亿-22亿参数三档模型，支持MLX框架与手机-服务器全场景部署，让视频理解能力首次在边缘设备上“跑得快、用得起”，加速多模态AI普惠。

SmolVLM2 视频理解边缘部署轻量级模型 MLX

2025-02-20

多模态模型突破

视觉-语言模型密集升级：DeepSeek-R1推理框架首次迁移到视觉领域，谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家，VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA，降低创作与研究门槛。

多模态视觉语言模型 VLM-R1 VideoRoPE Gemini2.0

2024-12-07

物理世界模型与代码测评新工具

PhysVLM用游戏bug教模型学物理，准确率超GPT-4o近4个百分点；字节开源最全代码大模型测评工具，填补通用评测空白。两者分别推进多模态物理常识与编程能力评估，为下一代世界模型和开发者选型提供基准。

PhysVLM 物理常识代码评测世界模型开源工具

2024-11-27

终端与边缘AI落地

HuggingFace推2B SmolVLM、英特尔在印建AI PC中心、阿里通义适配鸿蒙多端，显示大模型正向边缘侧轻量化迁移，降低对云端算力依赖，为IoT、PC、手机带来新交互与商业空间。

边缘AI SmolVLM AI PC 鸿蒙轻量化

2024-05-23

国产大模型技术突破

华为-中科院“田字塔”在SuperCLUE基准首次击败GPT-4 Turbo，智谱开源CogVLM2多模态模型性能超GPT-4v，字节跳动启动Top Seed博士计划加码大模型，标志着国产大模型在中文理解与多模态能力上进入全球第一梯队，对自主生态与产业安全具有战略意义。

国产大模型 SuperCLUE CogVLM2 田字塔技术突破

2024-03-15

多模态大模型激战

苹果MM1 300亿参数多模态MoE模型亮相，华人作者过半；零一万物开放34B多模态API及200K长上下文；复旦开源SoMeLVLM专攻社交媒体多模态分析。巨头与创企同步推进“看得懂、记得住”的大模型，多模态能力成为下一赛点。

多模态 MM1 零一万物 SoMeLVLM 长文本

# VLM