Imagen - AI话题 - AI快开门

2026-05-31

基础模型架构与数据创新

涵盖清华LMNet语言模型组网架构创新和李飞飞团队超越ImageNet的数据集工作，从模型架构和数据基础两个维度推动AI能力边界拓展，为下一代模型训练奠定基础。

2025-10-28

多模态大模型突破

英伟达开源OmniVinci刷新SOTA，美团开源13.6B视频模型LongCat-Video，北大&小红书Uni-Instruct把ImageNet单步生图FID压到1.0，多模态理解与生成同步跃迁，标志通用视觉语言模型进入“可用即开源”阶段，将加速影视、广告、教育等内容产业工业化。

多模态开源视频生成 ImageNet FID

2025-08-26

超长语音与视频生成突破

微软开源VibeVoice系列TTS模型，支持90分钟多人对话级中文合成；谷歌Imagen 4登陆Gemini API；港大&可灵提出“记忆检索”实现长视频一致性；GPT-5视频Agent一句话生成商业广告，多模态生成进入“长时高清”新阶段。

超长语音视频一致性 Imagen4 VibeVoice Agent生成

2025-07-30

AI视频/图像生成再升级

谷歌Imagen 4、阿里通义万相Wan2.2、豆包图像编辑3.0、马斯克xAI Imagine、国产HYPIR 8K修复模型等密集发布，覆盖电影级视频、高精度图像编辑、老照片超分等场景，生成质量与可控性显著提升，标志着AIGC进入“消费级可用+工业级落地”并行爆发期。

AIGC 视频生成图像编辑 Imagen4 Wan2.2

2025-07-24

多模态内容生成新范式

谷歌Gemini直连Imagen、YouTube Shorts照片秒变视频、Google Photos一键动漫化，加上国内90秒精准音效生成，多模态AIGC进入“零门槛”创作阶段，重塑短视频与影像生产力。

多模态生成 Imagen 短视频音效合成 AIGC

2025-05-21

谷歌I/O全家桶升级

Google I/O 2025一次性发布Gemini 2.5 Pro/Flash、Veo 3、Imagen 4、Project Astra/Mariner等20+新品，覆盖视频生成、多模态推理、AI搜索、虚拟试衣、3D通话全场景，确立目前最完整的大模型产品矩阵，并推出249美元/月的AI Ultra订阅，将顶级生成式能力直接商业化。

Gemini 2.5 Veo 3 Imagen 4 AI Ultra Project Astra

2025-05-20

多模态生成与视频超分SOTA

谷歌Imagen 4系列登陆GCP，腾讯混元游戏视觉生成平台“边画边出图”，KEEP提出融合卡尔曼滤波的视频人脸超分SOTA，B站开源二次元动画模型Index-AniSora，多模态生成进入高保真、高一致性时代。

多模态生成视频超分 Imagen 腾讯混元二次元

2025-02-10

多模态与端侧模型

Meta推出MILS让LLM零样本处理多媒体；谷歌Imagen3 API降至0.03美元/张；微软LLaVA-Rad仅小参数量即可生成精准放射报告；北航TinyLLaVA-Video在受限算力下超越部分7B模型，多模态能力快速下沉到边缘设备。

多模态端侧模型 Imagen3 LLaVA-Rad MILS

2025-02-08

视频生成新玩法

Pika推出Pikadditions可一键把任意图片主体无缝植入视频，Meta VideoJAM强化物理运动模拟，Imagen 3 API开放0.03美元/张，多模态生成进入“廉价+高可控”阶段，降低广告与短视频创作门槛。

视频生成 Pika Imagen3 VideoJAM 多模态

2024-10-10

谷歌Imagen 3全球开放

谷歌将最强文生图模型Imagen 3面向所有Gemini用户开放，生成质量与安全性显著提升，但免费层禁用人像，凸显巨头在版权与合规上的谨慎，加速AIGC应用竞争。

Imagen3 Gemini 文生图 AIGC 谷歌

2024-08-31

多模态大模型竞速

阿里开源Qwen2-VL在视频理解上超越GPT-4o，谷歌Imagen 3开放人物生成，人大等提出Ref-AVS视听分割新方法，多模态能力成为开源与闭源模型争夺用户和开发者的核心战场，预示AI交互进入“看听说”一体化阶段。

多模态开源模型视频理解 Imagen3 Ref-AVS

2024-07-21

数学AI与竞赛生态

中国队IMO五连冠被美终结，陶哲轩为AI数学挑战团队颁奖并倡议打造“数学ImageNet”，预示AI在定理证明、自动解题等方向将复制ImageNet式突破，数学或成AI下一个竞技与数据高地。

IMO 数学AI 陶哲轩 ImageNet 自动定理

2024-07-15

巨头产品矩阵升级

谷歌将推Gemini五大新功能含Imagen3，Eureka模型提前曝光文本能力；百度发布文小言数字人社交App，阿里妈妈赛题入选NeurIPS 2024。大厂围绕多模态、个性化、广告场景加速迭代。

Gemini新功能 Imagen3 文小言阿里妈妈大厂升级

2024-04-11

谷歌Cloud Next 2024大爆发

谷歌一次性发布自研Arm CPU Axion、Gemini 1.5 Pro公测、Imagen 2.0视频生成、TPU v5p超算平台等全栈升级，直接对标微软、英伟达，宣告云+AI硬战全面开打，标志巨头争霸进入“芯片+模型+云”三位一体新阶段。

Gemini 1.5 Pro Axion CPU Imagen 2.0 Cloud Next 2024

# Imagen