2025-03-07
多模态文档与视频理解突破
Mistral OCR API号称全球最强,千页7元即可解析;腾讯混元开源图生视频模型,Runway上线首帧风格迁移;智源BGE-VL、IDEA DINO-XSeek在图文检索、自然语言目标检测刷新SOTA,多模态能力正从“看得清”走向“看得懂”。