GPT-4V - AI话题 - AI快开门

2024-08-19

多模态大模型突破

阿里mPLUG-Owl3、MiniCPM-V 2.6等国产多模态模型在视频理解、端侧部署实现SOTA，4秒解析2小时电影，8B参数对标GPT-4V，标志端侧多模态进入可用时代。

多模态端侧视频理解 GPT-4V

2024-08-08

国产多模态大模型突破

腾讯混元、面壁MiniCPM-V等国产模型在图文、视频多模态理解上刷新SOTA，部分指标超越GPT-4V/Claude-3.5，标志着国产大模型从单模态追赶转向多模态领跑，为端侧落地与行业应用打开新空间。

多模态国产大模型 GPT-4V 端侧AI SOTA

2024-06-27

多模态大模型突破

LeCun团队Cambrian-1、阿里Qwen-2、Claude-3.5等新一代多模态模型集中发布，在视觉理解、图文一致性等指标上全面超越GPT-4V，标志着开源阵营首次在通用多模态能力上反超闭源标杆，将加速下游应用落地并重塑模型格局。

多模态开源视觉理解 GPT-4V

2024-05-11

搜索与多模态幻觉拷问

OpenAI灰度版ChatGPT Search速度惊艳但多语言准确性欠佳，官方突然跳票转向GPT-4升级；同日14项任务评测显示GPT-4V、Gemini等多模态大模型视觉感知能力远低于宣传，提示“搜索+多模态”落地仍受幻觉与评测体系双重挑战。

ChatGPT搜索多模态幻觉 GPT-4V 评测 OpenAI

2024-03-11

AI搜索与前端自动化

谷歌、微软、Perplexity等巨头加码AI搜索，字节级模型、GPT-4V前端设计自动化亮相，显示搜索和开发工具正被大模型重塑，有望颠覆传统流量入口与软件工程流程。

AI搜索前端自动化 GPT-4V 字节级模型流量入口

2024-02-03

多模态大模型评测与升级

谷歌Bard集成Imagen2并支持中文与40+语言；商汤日日新4.0抢先发布跨模态Assistant API；华科大等推出新基准全面测评14款多模态模型，显示GPT-4V并非绝对王者，中外模型竞争进入“多模态工具调用”新阶段。

多模态 GPT-4V Bard 商汤评测基准

2024-01-31

多模态大模型评测与稀疏化

Mementos 漫画序列基准暴露 GPT-4V/Gemini 推理短板；MoE-LLaVA 以 3B 稀疏模型媲美 7B 稠密效果，多模态 LLM 在评测体系与模型压缩两端同步进化。

多模态基准测试 MoE 稀疏化 GPT-4V

2024-01-26

多模态大模型竞速

阿里通义千问视觉版对标GPT-4V、谷歌Chrome三连AI功能、Dify上线多模型Agent平台，国内厂商在视觉-语言一体化、端侧场景落地加速追赶OpenAI。

多模态 GPT-4V 通义千问 Agent 端侧AI

2024-01-21

多模态视觉理解突破

V* 视觉搜索算法显著增强大模型图像推理能力，Midjourney V6 生成质量逼近照片，字节&中科院提出视频“高能时刻”自动定位，显示多模态 AI 正快速逼近人类级视觉理解。

多模态 GPT-4V Midjourney V6 视觉搜索视频理解

2024-01-04

多模态大模型爆发

2023年底至2024年初，LLaVA、CogAgent、MobileVLM、清华-NUS分割模型等国产开源方案密集发布，在视觉-语言理解、边缘端实时推理、对话式图像标注等场景逼近GPT-4V水平，标志多模态能力从实验室走向落地，大幅降低开发者门槛，将加速教育、车载、安防等垂直应用爆发。

多模态视觉语言模型开源 GPT-4V 边缘计算

# GPT-4V

多模态大模型突破

国产多模态大模型突破

多模态大模型突破

搜索与多模态幻觉拷问

AI搜索与前端自动化

多模态大模型评测与升级

多模态大模型评测与稀疏化

多模态大模型竞速

多模态视觉理解突破

多模态大模型爆发