AI快开门

发现最好的AI工具

2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先,国产商汤、豆包、Qwen3-VL紧随其后;阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型,显示中美在视觉-语言-动作一体化赛道进入密集迭代期,直接决定下一代交互与内容生成标准。
2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成,谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录,开源LLaVA-OneVision-1.5登顶多模态榜单,显示视觉-语言-动作统一模型正快速走向实用化,为下一代交互与内容生产奠定基础。
2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM,在iPhone端实现85倍速视觉问答,证明高压缩视觉Token方案可行,为移动端AR/VR、实时翻译等场景打开落地窗口,或改变“云端大模型”垄断格局。
2025-03-24

多模态大模型技术突破

谷歌Gemini Live上线屏幕共享与实时视频交互,伯克利TULIP、腾讯混元-T1、阿里LHM等视觉-语言-动作模型集中发布,标志着多模态理解与生成交互进入可用阶段,为机器人、自动驾驶、3D内容创作打开新空间。
2025-02-20

多模态模型突破

视觉-语言模型密集升级:DeepSeek-R1推理框架首次迁移到视觉领域,谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家,VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA,降低创作与研究门槛。
2025-01-20

AI安全与幻觉治理

MIT等揭示视觉语言模型无法理解否定表达,淘天提出新对齐方法抑制视觉幻觉,ChatGPT API被曝DDoS漏洞,凸显大模型安全与可信研究紧迫性。
2024-05-18

视觉-语言与开源生态

Google开源PaliGemma多分辨率VLM家族,HuggingFace发布视觉大模型训练 cookbook,腾讯光子开源ID-Animator实现照片+文字生成定制视频,降低多模态门槛并丰富开源工具链。
2024-04-17

多模态大模型爆发

GPT-4、Mini-Gemini、MM1等视觉-语言大模型密集发布,图像、视频、文本统一理解生成能力逼近商用临界点,Adobe、亚马逊等平台级集成加速落地,标志AI进入“看听说写”一体化时代。
2024-01-04

多模态大模型爆发

2023年底至2024年初,LLaVA、CogAgent、MobileVLM、清华-NUS分割模型等国产开源方案密集发布,在视觉-语言理解、边缘端实时推理、对话式图像标注等场景逼近GPT-4V水平,标志多模态能力从实验室走向落地,大幅降低开发者门槛,将加速教育、车载、安防等垂直应用爆发。