2025-10-28
多模态大模型突破
英伟达开源OmniVinci刷新SOTA,美团开源13.6B视频模型LongCat-Video,北大&小红书Uni-Instruct把ImageNet单步生图FID压到1.0,多模态理解与生成同步跃迁,标志通用视觉语言模型进入“可用即开源”阶段,将加速影视、广告、教育等内容产业工业化。
2025-08-26
超长语音与视频生成突破
微软开源VibeVoice系列TTS模型,支持90分钟多人对话级中文合成;谷歌Imagen 4登陆Gemini API;港大&可灵提出“记忆检索”实现长视频一致性;GPT-5视频Agent一句话生成商业广告,多模态生成进入“长时高清”新阶段。
2025-07-30
AI视频/图像生成再升级
谷歌Imagen 4、阿里通义万相Wan2.2、豆包图像编辑3.0、马斯克xAI Imagine、国产HYPIR 8K修复模型等密集发布,覆盖电影级视频、高精度图像编辑、老照片超分等场景,生成质量与可控性显著提升,标志着AIGC进入“消费级可用+工业级落地”并行爆发期。
2025-07-24
多模态内容生成新范式
谷歌Gemini直连Imagen、YouTube Shorts照片秒变视频、Google Photos一键动漫化,加上国内90秒精准音效生成,多模态AIGC进入“零门槛”创作阶段,重塑短视频与影像生产力。
2025-05-21
谷歌I/O全家桶升级
Google I/O 2025一次性发布Gemini 2.5 Pro/Flash、Veo 3、Imagen 4、Project Astra/Mariner等20+新品,覆盖视频生成、多模态推理、AI搜索、虚拟试衣、3D通话全场景,确立目前最完整的大模型产品矩阵,并推出249美元/月的AI Ultra订阅,将顶级生成式能力直接商业化。
2025-05-20
多模态生成与视频超分SOTA
谷歌Imagen 4系列登陆GCP,腾讯混元游戏视觉生成平台“边画边出图”,KEEP提出融合卡尔曼滤波的视频人脸超分SOTA,B站开源二次元动画模型Index-AniSora,多模态生成进入高保真、高一致性时代。
2025-02-10
多模态与端侧模型
Meta推出MILS让LLM零样本处理多媒体;谷歌Imagen3 API降至0.03美元/张;微软LLaVA-Rad仅小参数量即可生成精准放射报告;北航TinyLLaVA-Video在受限算力下超越部分7B模型,多模态能力快速下沉到边缘设备。
2025-02-08
视频生成新玩法
Pika推出Pikadditions可一键把任意图片主体无缝植入视频,Meta VideoJAM强化物理运动模拟,Imagen 3 API开放0.03美元/张,多模态生成进入“廉价+高可控”阶段,降低广告与短视频创作门槛。
2024-10-10
谷歌Imagen 3全球开放
谷歌将最强文生图模型Imagen 3面向所有Gemini用户开放,生成质量与安全性显著提升,但免费层禁用人像,凸显巨头在版权与合规上的谨慎,加速AIGC应用竞争。
2024-08-31
多模态大模型竞速
阿里开源Qwen2-VL在视频理解上超越GPT-4o,谷歌Imagen 3开放人物生成,人大等提出Ref-AVS视听分割新方法,多模态能力成为开源与闭源模型争夺用户和开发者的核心战场,预示AI交互进入“看听说”一体化阶段。
2024-07-21
数学AI与竞赛生态
中国队IMO五连冠被美终结,陶哲轩为AI数学挑战团队颁奖并倡议打造“数学ImageNet”,预示AI在定理证明、自动解题等方向将复制ImageNet式突破,数学或成AI下一个竞技与数据高地。
2024-07-15
巨头产品矩阵升级
谷歌将推Gemini五大新功能含Imagen3,Eureka模型提前曝光文本能力;百度发布文小言数字人社交App,阿里妈妈赛题入选NeurIPS 2024。大厂围绕多模态、个性化、广告场景加速迭代。
2024-04-11
谷歌Cloud Next 2024大爆发
谷歌一次性发布自研Arm CPU Axion、Gemini 1.5 Pro公测、Imagen 2.0视频生成、TPU v5p超算平台等全栈升级,直接对标微软、英伟达,宣告云+AI硬战全面开打,标志巨头争霸进入“芯片+模型+云”三位一体新阶段。