AI快开门

发现最好的AI工具

2025-11-30

多模态感知与文档智能升级

腾讯混元开源1B参数HunyuanOCR,统一检测+识别+理解端到端架构,ICDAR 2025夺冠;视觉CoT新范式让VLM具备人类-like思考链;Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代,文档、图像、3D场景一网打尽。
2024-07-19

多模态长视频理解突破

Goldfish 模型实现任意长度长视频精准理解,VoCoT 引入视觉思维链多步推理,谷歌 Gemini 将贯穿巴黎奥运直播,显示多模态大模型正向长时序、复杂事件与实时转播场景延伸,打开体育、娱乐、教育等全新交互体验。