AI快开门

发现最好的AI工具

2025-11-30

多模态感知与文档智能升级

腾讯混元开源1B参数HunyuanOCR,统一检测+识别+理解端到端架构,ICDAR 2025夺冠;视觉CoT新范式让VLM具备人类-like思考链;Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代,文档、图像、3D场景一网打尽。
2025-03-08

多模态与OCR技术跃迁

Mistral发布“世界最好”OCR模型,1美元处理2000页多语言文档,中文准确率97%;港大团队提出编码率正则化重构视觉自监督范式,多模态3D小样本分割登ICLR Spotlight,文档与3D感知进入低价高精度时代。