2024-08-19
多模态大模型突破
阿里mPLUG-Owl3、MiniCPM-V 2.6等国产多模态模型在视频理解、端侧部署实现SOTA,4秒解析2小时电影,8B参数对标GPT-4V,标志端侧多模态进入可用时代。
2024-08-08
国产多模态大模型突破
腾讯混元、面壁MiniCPM-V等国产模型在图文、视频多模态理解上刷新SOTA,部分指标超越GPT-4V/Claude-3.5,标志着国产大模型从单模态追赶转向多模态领跑,为端侧落地与行业应用打开新空间。
2024-06-27
多模态大模型突破
LeCun团队Cambrian-1、阿里Qwen-2、Claude-3.5等新一代多模态模型集中发布,在视觉理解、图文一致性等指标上全面超越GPT-4V,标志着开源阵营首次在通用多模态能力上反超闭源标杆,将加速下游应用落地并重塑模型格局。
2024-05-11
搜索与多模态幻觉拷问
OpenAI灰度版ChatGPT Search速度惊艳但多语言准确性欠佳,官方突然跳票转向GPT-4升级;同日14项任务评测显示GPT-4V、Gemini等多模态大模型视觉感知能力远低于宣传,提示“搜索+多模态”落地仍受幻觉与评测体系双重挑战。
2024-03-11
AI搜索与前端自动化
谷歌、微软、Perplexity等巨头加码AI搜索,字节级模型、GPT-4V前端设计自动化亮相,显示搜索和开发工具正被大模型重塑,有望颠覆传统流量入口与软件工程流程。
2024-02-03
多模态大模型评测与升级
谷歌Bard集成Imagen2并支持中文与40+语言;商汤日日新4.0抢先发布跨模态Assistant API;华科大等推出新基准全面测评14款多模态模型,显示GPT-4V并非绝对王者,中外模型竞争进入“多模态工具调用”新阶段。
2024-01-31
多模态大模型评测与稀疏化
Mementos 漫画序列基准暴露 GPT-4V/Gemini 推理短板;MoE-LLaVA 以 3B 稀疏模型媲美 7B 稠密效果,多模态 LLM 在评测体系与模型压缩两端同步进化。
2024-01-26
多模态大模型竞速
阿里通义千问视觉版对标GPT-4V、谷歌Chrome三连AI功能、Dify上线多模型Agent平台,国内厂商在视觉-语言一体化、端侧场景落地加速追赶OpenAI。
2024-01-21
多模态视觉理解突破
V* 视觉搜索算法显著增强大模型图像推理能力,Midjourney V6 生成质量逼近照片,字节&中科院提出视频“高能时刻”自动定位,显示多模态 AI 正快速逼近人类级视觉理解。