视觉CoT - AI话题 - AI快开门

2025-11-30

腾讯混元开源1B参数HunyuanOCR，统一检测+识别+理解端到端架构，ICDAR 2025夺冠；视觉CoT新范式让VLM具备人类-like思考链；Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代，文档、图像、3D场景一网打尽。

2024-07-19

Goldfish 模型实现任意长度长视频精准理解，VoCoT 引入视觉思维链多步推理，谷歌 Gemini 将贯穿巴黎奥运直播，显示多模态大模型正向长时序、复杂事件与实时转播场景延伸，打开体育、娱乐、教育等全新交互体验。

# 视觉CoT