AI快开门

发现最好的AI工具

2025-02-10

多模态与端侧模型

Meta推出MILS让LLM零样本处理多媒体;谷歌Imagen3 API降至0.03美元/张;微软LLaVA-Rad仅小参数量即可生成精准放射报告;北航TinyLLaVA-Video在受限算力下超越部分7B模型,多模态能力快速下沉到边缘设备。
2025-02-08

视频生成新玩法

Pika推出Pikadditions可一键把任意图片主体无缝植入视频,Meta VideoJAM强化物理运动模拟,Imagen 3 API开放0.03美元/张,多模态生成进入“廉价+高可控”阶段,降低广告与短视频创作门槛。
2024-10-10

谷歌Imagen 3全球开放

谷歌将最强文生图模型Imagen 3面向所有Gemini用户开放,生成质量与安全性显著提升,但免费层禁用人像,凸显巨头在版权与合规上的谨慎,加速AIGC应用竞争。
2024-08-31

多模态大模型竞速

阿里开源Qwen2-VL在视频理解上超越GPT-4o,谷歌Imagen 3开放人物生成,人大等提出Ref-AVS视听分割新方法,多模态能力成为开源与闭源模型争夺用户和开发者的核心战场,预示AI交互进入“看听说”一体化阶段。
2024-07-15

巨头产品矩阵升级

谷歌将推Gemini五大新功能含Imagen3,Eureka模型提前曝光文本能力;百度发布文小言数字人社交App,阿里妈妈赛题入选NeurIPS 2024。大厂围绕多模态、个性化、广告场景加速迭代。