AI快开门

发现最好的AI工具

2025-03-07

多模态文档与视频理解突破

Mistral OCR API号称全球最强,千页7元即可解析;腾讯混元开源图生视频模型,Runway上线首帧风格迁移;智源BGE-VL、IDEA DINO-XSeek在图文检索、自然语言目标检测刷新SOTA,多模态能力正从“看得清”走向“看得懂”。
2024-09-04

多模态生成大爆发

MiniMax、Luma、Runway、谷歌、阶跃星辰相继升级或开源视频/图像/语音大模型,实现镜头控制、风格迁移、表情编辑等电影级功能,生成式AI正从“可用”走向“好用”,重塑内容生产工业流程。