AI快开门

发现最好的AI工具

2025-08-15

视觉大模型开源竞速

Meta开源DINOv3,自监督性能首次全面超越弱监督,成为视觉新基座;Midjourney升级全民高清视频生成,国内字节DreamVVT商用换装,多模态视觉进入“开源+消费级”双轨爆发。
2025-06-08

多模态慢思考与评估基准

复旦等发布首个多模态逻辑推理基准,Gemini 2.5 Pro仅得60分;VL-Rethinker框架让视觉模型学会“三思后行”,超GPT-o1近7个百分点,揭示多模态推理仍是短板,慢思考成提升核心路径。
2025-03-06

多模态大模型技术突破

Cohere发布Aya Vision 8B/32B、智源开源BGE-VL多模态向量模型,谷歌推出Whisk Animate图生8秒视频,腾讯混元图生视频全面开源,显示多模态理解与生成在视觉、语音、视频多域同步跃进,为内容创作、搜索、机器人提供新基座。
2024-06-25

多模态大模型突破

苹果4M-21、微软Florence-2等模型实现20+模态统一处理,标志视觉-语言一体化进入新阶段,将重塑内容生产、机器人交互与行业解决方案,成为AGI关键基础设施。