视觉语言模型 - AI话题

2026-06-14

具身智能与机器人

具身智能技术取得重要突破，人形机器人与自动驾驶系统深度融合视觉-语言大模型，在复杂场景下的感知与决策能力显著增强。技术方案日趋成熟，产业化落地进程明显加速，成为AI应用新热点，受到资本市场与产业界高度关注。

2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先，国产商汤、豆包、Qwen3-VL紧随其后；阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型，显示中美在视觉-语言-动作一体化赛道进入密集迭代期，直接决定下一代交互与内容生成标准。

多模态 Gemini 国产大模型视觉语言模型 3D生成

2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成，谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录，开源LLaVA-OneVision-1.5登顶多模态榜单，显示视觉-语言-动作统一模型正快速走向实用化，为下一代交互与内容生产奠定基础。

多模态实时3D OCR 开源视觉语言模型

2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM，在iPhone端实现85倍速视觉问答，证明高压缩视觉Token方案可行，为移动端AR/VR、实时翻译等场景打开落地窗口，或改变“云端大模型”垄断格局。

端侧AI FastVLM 视觉语言模型苹果移动推理

2025-03-24

多模态大模型技术突破

谷歌Gemini Live上线屏幕共享与实时视频交互，伯克利TULIP、腾讯混元-T1、阿里LHM等视觉-语言-动作模型集中发布，标志着多模态理解与生成交互进入可用阶段，为机器人、自动驾驶、3D内容创作打开新空间。

多模态实时交互视觉语言模型 3D重建

2025-02-20

多模态模型突破

视觉-语言模型密集升级：DeepSeek-R1推理框架首次迁移到视觉领域，谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家，VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA，降低创作与研究门槛。

多模态视觉语言模型 VLM-R1 VideoRoPE Gemini2.0

2025-01-20

AI安全与幻觉治理

MIT等揭示视觉语言模型无法理解否定表达，淘天提出新对齐方法抑制视觉幻觉，ChatGPT API被曝DDoS漏洞，凸显大模型安全与可信研究紧迫性。

AI安全幻觉视觉语言模型漏洞

2024-05-18

视觉-语言与开源生态

Google开源PaliGemma多分辨率VLM家族，HuggingFace发布视觉大模型训练 cookbook，腾讯光子开源ID-Animator实现照片+文字生成定制视频，降低多模态门槛并丰富开源工具链。

视觉语言模型开源 PaliGemma ID-Animator

2024-04-17

多模态大模型爆发

GPT-4、Mini-Gemini、MM1等视觉-语言大模型密集发布，图像、视频、文本统一理解生成能力逼近商用临界点，Adobe、亚马逊等平台级集成加速落地，标志AI进入“看听说写”一体化时代。

多模态视觉语言模型 GPT-4 Adobe 商用落地

2024-01-04

多模态大模型爆发

2023年底至2024年初，LLaVA、CogAgent、MobileVLM、清华-NUS分割模型等国产开源方案密集发布，在视觉-语言理解、边缘端实时推理、对话式图像标注等场景逼近GPT-4V水平，标志多模态能力从实验室走向落地，大幅降低开发者门槛，将加速教育、车载、安防等垂直应用爆发。

多模态视觉语言模型开源 GPT-4V 边缘计算

AI快开门

发现AI的无限可能

# 视觉语言模型

具身智能与机器人

多模态大模型竞速

多模态大模型突破

端侧轻量视觉语言模型

多模态大模型技术突破

多模态模型突破

AI安全与幻觉治理

视觉-语言与开源生态

多模态大模型爆发

多模态大模型爆发