OCR - AI话题 - AI快开门

2026-06-26

多模态与视觉生成技术突破

多模态大模型与3D视觉技术取得关键进展。NVIDIA提出PiD像素扩散架构实现4K生成，Mistral OCR4支持170种语言识别，影石开源UniSHARP突破单目3DGS难题，谷歌Gemini获得Computer use能力。这些进展推动AI在图像、视频及终端交互领域边界持续拓展。

多模态视觉生成 3DGS OCR PiD

2026-06-02

大模型技术突破与多模态演进

国内外大模型技术持续突破，百度发布PaddleOCR-VL-1.6刷新文档解析SOTA，阿里推出Qwen3.7-Plus多模态智能体模型，MiniMax M3提升推理效率，字节开源Bernini视频编辑框架。英伟达联合清华发布Gamma-World多智能体世界模型，推动多模态大模型向复杂场景理解迈进。

多模态大模型 PaddleOCR Qwen3.7 文档解析视频生成

2025-11-30

多模态感知与文档智能升级

腾讯混元开源1B参数HunyuanOCR，统一检测+识别+理解端到端架构，ICDAR 2025夺冠；视觉CoT新范式让VLM具备人类-like思考链；Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代，文档、图像、3D场景一网打尽。

OCR 多模态视觉CoT Spatial-SSRL 文档智能

2025-11-25

国产全模态/多模态模型加速开源

昆仑元发布BaiZe-Omni-14b-a2b全模态融合模型；哈深Uni-MoE-2.0-Omni实现文本、图像、音频统一SOTA；腾讯开源1B参数HunyuanOCR刷新多项记录。国产模型以轻量参数、全模态能力、开源策略快速迭代，降低行业落地门槛，对下游应用与开发者生态形成强支撑。

全模态模型国产开源 HunyuanOCR Uni-MoE BaiZe-Omni

2025-11-12

多模态与长文本理解突破

MMCTAgent支持小时级视频推理，清华&智谱Glyph压缩图像文本，DeepSeek-OCR极致Token效率，多模态RAG框架UltraRAG 2.1用YAML即可搭系统，长上下文战争进入“视觉+结构化”阶段。

多模态长文本 RAG 视频理解 OCR

2025-11-08

开源大模型军备赛升级

月之暗面开源1万亿参数Kimi K2 Thinking，英伟达9B OmniVinci全模态模型上线即破万下载，两人团队两周复刻DeepSeek-OCR，标志开源阵营在参数规模、多模态、效率与成本上全面逼近甚至超越闭源模型，显著缩小生态差距，降低行业门槛。

开源大模型 Kimi K2 OmniVinci DeepOCR 参数规模

2025-10-21

多模态大模型突破

DeepSeek-OCR、Sa2VA、Veo 3.1等模型在视觉-语言融合、视频编辑、文档解析上实现阶跃，视觉输入成LLM新范式，国产模型Kimi K2号称准确率超GPT-5 50%，标志多模态进入可用级拐点。

多模态 OCR 视频编辑视觉记忆国产模型

2025-10-18

轻量化模型与端侧OCR

百度0.9B PaddleOCR-VL横扫4项SOTA并登顶Hugging Face，证明“小模型+多模态”在文档解析场景已可替代大模型，实现PC级本地部署。端侧轻量化趋势将降低开发者门槛，推动OCR、文档理解在政企、教育、金融场景快速渗透。

轻量化模型 OCR 端侧部署百度PaddleOCR 多模态

2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成，谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录，开源LLaVA-OneVision-1.5登顶多模态榜单，显示视觉-语言-动作统一模型正快速走向实用化，为下一代交互与内容生产奠定基础。

多模态实时3D OCR 开源视觉语言模型

2025-08-08

多模态应用与数据管理

dots.ocr 1.7B多语言文档解析挑战Doubao/Gemini，知网AIKBase V2.0多模态数据管理系统接入产品矩阵，PrimeGen利用LLM智能体加速引物设计，显示垂直场景多模态能力正快速商品化。

多模态OCR 数据管理 AI引物设计垂直应用文档解析

2025-05-31

多模态生成与编辑技术跃迁

FLUX.1 Kontext、可灵2.1、Gemini视频OCR等新架构同时接受文本+图像输入，流匹配与上下文内生成带来8倍速率和物理真实感提升；RISEBench揭示现有模型编辑准确率不足30%，倒逼新基准与算法同步进化。

FLUX.1 可灵2.1 视频OCR 图像编辑流匹配

2025-03-08

多模态与OCR技术跃迁

Mistral发布“世界最好”OCR模型，1美元处理2000页多语言文档，中文准确率97%；港大团队提出编码率正则化重构视觉自监督范式，多模态3D小样本分割登ICLR Spotlight，文档与3D感知进入低价高精度时代。

OCR 多模态 3D分割自监督学习文档智能

2025-03-07

多模态文档与视频理解突破

Mistral OCR API号称全球最强，千页7元即可解析；腾讯混元开源图生视频模型，Runway上线首帧风格迁移；智源BGE-VL、IDEA DINO-XSeek在图文检索、自然语言目标检测刷新SOTA，多模态能力正从“看得清”走向“看得懂”。

OCR 图生视频多模态文档理解风格迁移

# OCR

多模态与视觉生成技术突破

大模型技术突破与多模态演进

多模态感知与文档智能升级

国产全模态/多模态模型加速开源

多模态与长文本理解突破

开源大模型军备赛升级

多模态大模型突破

轻量化模型与端侧OCR

多模态大模型突破

多模态应用与数据管理

多模态生成与编辑技术跃迁

多模态与OCR技术跃迁

多模态文档与视频理解突破