2025-11-30
多模态感知与文档智能升级
腾讯混元开源1B参数HunyuanOCR,统一检测+识别+理解端到端架构,ICDAR 2025夺冠;视觉CoT新范式让VLM具备人类-like思考链;Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代,文档、图像、3D场景一网打尽。
2025-11-25
国产全模态/多模态模型加速开源
昆仑元发布BaiZe-Omni-14b-a2b全模态融合模型;哈深Uni-MoE-2.0-Omni实现文本、图像、音频统一SOTA;腾讯开源1B参数HunyuanOCR刷新多项记录。国产模型以轻量参数、全模态能力、开源策略快速迭代,降低行业落地门槛,对下游应用与开发者生态形成强支撑。
2025-11-12
多模态与长文本理解突破
MMCTAgent支持小时级视频推理,清华&智谱Glyph压缩图像文本,DeepSeek-OCR极致Token效率,多模态RAG框架UltraRAG 2.1用YAML即可搭系统,长上下文战争进入“视觉+结构化”阶段。
2025-11-08
开源大模型军备赛升级
月之暗面开源1万亿参数Kimi K2 Thinking,英伟达9B OmniVinci全模态模型上线即破万下载,两人团队两周复刻DeepSeek-OCR,标志开源阵营在参数规模、多模态、效率与成本上全面逼近甚至超越闭源模型,显著缩小生态差距,降低行业门槛。
2025-10-21
多模态大模型突破
DeepSeek-OCR、Sa2VA、Veo 3.1等模型在视觉-语言融合、视频编辑、文档解析上实现阶跃,视觉输入成LLM新范式,国产模型Kimi K2号称准确率超GPT-5 50%,标志多模态进入可用级拐点。
2025-10-18
轻量化模型与端侧OCR
百度0.9B PaddleOCR-VL横扫4项SOTA并登顶Hugging Face,证明“小模型+多模态”在文档解析场景已可替代大模型,实现PC级本地部署。端侧轻量化趋势将降低开发者门槛,推动OCR、文档理解在政企、教育、金融场景快速渗透。
2025-10-17
多模态大模型突破
李飞飞团队RTFM实现单卡实时3D世界生成,谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录,开源LLaVA-OneVision-1.5登顶多模态榜单,显示视觉-语言-动作统一模型正快速走向实用化,为下一代交互与内容生产奠定基础。
2025-08-08
多模态应用与数据管理
dots.ocr 1.7B多语言文档解析挑战Doubao/Gemini,知网AIKBase V2.0多模态数据管理系统接入产品矩阵,PrimeGen利用LLM智能体加速引物设计,显示垂直场景多模态能力正快速商品化。
2025-05-31
多模态生成与编辑技术跃迁
FLUX.1 Kontext、可灵2.1、Gemini视频OCR等新架构同时接受文本+图像输入,流匹配与上下文内生成带来8倍速率和物理真实感提升;RISEBench揭示现有模型编辑准确率不足30%,倒逼新基准与算法同步进化。
2025-03-08
多模态与OCR技术跃迁
Mistral发布“世界最好”OCR模型,1美元处理2000页多语言文档,中文准确率97%;港大团队提出编码率正则化重构视觉自监督范式,多模态3D小样本分割登ICLR Spotlight,文档与3D感知进入低价高精度时代。