AI快开门

发现最好的AI工具

2025-10-28

多模态大模型突破

英伟达开源OmniVinci刷新SOTA,美团开源13.6B视频模型LongCat-Video,北大&小红书Uni-Instruct把ImageNet单步生图FID压到1.0,多模态理解与生成同步跃迁,标志通用视觉语言模型进入“可用即开源”阶段,将加速影视、广告、教育等内容产业工业化。
2025-08-26

超长语音与视频生成突破

微软开源VibeVoice系列TTS模型,支持90分钟多人对话级中文合成;谷歌Imagen 4登陆Gemini API;港大&可灵提出“记忆检索”实现长视频一致性;GPT-5视频Agent一句话生成商业广告,多模态生成进入“长时高清”新阶段。
2025-07-30

AI视频/图像生成再升级

谷歌Imagen 4、阿里通义万相Wan2.2、豆包图像编辑3.0、马斯克xAI Imagine、国产HYPIR 8K修复模型等密集发布,覆盖电影级视频、高精度图像编辑、老照片超分等场景,生成质量与可控性显著提升,标志着AIGC进入“消费级可用+工业级落地”并行爆发期。
2025-07-24

多模态内容生成新范式

谷歌Gemini直连Imagen、YouTube Shorts照片秒变视频、Google Photos一键动漫化,加上国内90秒精准音效生成,多模态AIGC进入“零门槛”创作阶段,重塑短视频与影像生产力。
2025-05-21

谷歌I/O全家桶升级

Google I/O 2025一次性发布Gemini 2.5 Pro/Flash、Veo 3、Imagen 4、Project Astra/Mariner等20+新品,覆盖视频生成、多模态推理、AI搜索、虚拟试衣、3D通话全场景,确立目前最完整的大模型产品矩阵,并推出249美元/月的AI Ultra订阅,将顶级生成式能力直接商业化。
2025-05-20

多模态生成与视频超分SOTA

谷歌Imagen 4系列登陆GCP,腾讯混元游戏视觉生成平台“边画边出图”,KEEP提出融合卡尔曼滤波的视频人脸超分SOTA,B站开源二次元动画模型Index-AniSora,多模态生成进入高保真、高一致性时代。
2025-02-10

多模态与端侧模型

Meta推出MILS让LLM零样本处理多媒体;谷歌Imagen3 API降至0.03美元/张;微软LLaVA-Rad仅小参数量即可生成精准放射报告;北航TinyLLaVA-Video在受限算力下超越部分7B模型,多模态能力快速下沉到边缘设备。
2025-02-08

视频生成新玩法

Pika推出Pikadditions可一键把任意图片主体无缝植入视频,Meta VideoJAM强化物理运动模拟,Imagen 3 API开放0.03美元/张,多模态生成进入“廉价+高可控”阶段,降低广告与短视频创作门槛。
2024-10-10

谷歌Imagen 3全球开放

谷歌将最强文生图模型Imagen 3面向所有Gemini用户开放,生成质量与安全性显著提升,但免费层禁用人像,凸显巨头在版权与合规上的谨慎,加速AIGC应用竞争。
2024-08-31

多模态大模型竞速

阿里开源Qwen2-VL在视频理解上超越GPT-4o,谷歌Imagen 3开放人物生成,人大等提出Ref-AVS视听分割新方法,多模态能力成为开源与闭源模型争夺用户和开发者的核心战场,预示AI交互进入“看听说”一体化阶段。
2024-07-21

数学AI与竞赛生态

中国队IMO五连冠被美终结,陶哲轩为AI数学挑战团队颁奖并倡议打造“数学ImageNet”,预示AI在定理证明、自动解题等方向将复制ImageNet式突破,数学或成AI下一个竞技与数据高地。
2024-07-15

巨头产品矩阵升级

谷歌将推Gemini五大新功能含Imagen3,Eureka模型提前曝光文本能力;百度发布文小言数字人社交App,阿里妈妈赛题入选NeurIPS 2024。大厂围绕多模态、个性化、广告场景加速迭代。
2024-04-11

谷歌Cloud Next 2024大爆发

谷歌一次性发布自研Arm CPU Axion、Gemini 1.5 Pro公测、Imagen 2.0视频生成、TPU v5p超算平台等全栈升级,直接对标微软、英伟达,宣告云+AI硬战全面开打,标志巨头争霸进入“芯片+模型+云”三位一体新阶段。