2025-02-10
多模态与端侧模型
Meta推出MILS让LLM零样本处理多媒体;谷歌Imagen3 API降至0.03美元/张;微软LLaVA-Rad仅小参数量即可生成精准放射报告;北航TinyLLaVA-Video在受限算力下超越部分7B模型,多模态能力快速下沉到边缘设备。
2025-02-08
视频生成新玩法
Pika推出Pikadditions可一键把任意图片主体无缝植入视频,Meta VideoJAM强化物理运动模拟,Imagen 3 API开放0.03美元/张,多模态生成进入“廉价+高可控”阶段,降低广告与短视频创作门槛。
2024-10-10
谷歌Imagen 3全球开放
谷歌将最强文生图模型Imagen 3面向所有Gemini用户开放,生成质量与安全性显著提升,但免费层禁用人像,凸显巨头在版权与合规上的谨慎,加速AIGC应用竞争。
2024-08-31
多模态大模型竞速
阿里开源Qwen2-VL在视频理解上超越GPT-4o,谷歌Imagen 3开放人物生成,人大等提出Ref-AVS视听分割新方法,多模态能力成为开源与闭源模型争夺用户和开发者的核心战场,预示AI交互进入“看听说”一体化阶段。