AI快开门

发现最好的AI工具

2026-01-07

开源追赶闭源差距缩小

黄仁勋称开源大模型与闭源顶流仅差6个月,DeepSeek、Qwen、Kimi等中国模型在CES被老黄“点名验货”;Lightricks开源LTX-2可本地生成20秒4K同步音视频,开源生态加速缩小性能与体验差距。
2025-12-29

多模态与视频生成创新

字节开源StoryMem框架以“视觉记忆”实现多镜头一分钟叙事视频,角色场景一致不“变脸”;Insta360推出全景深度模型DAP,200万360°数据刷新空间智能;NVIDIA发布游戏基础模型NitroGen,视频-动作多模态应用持续拓宽内容创作与交互边界。
2025-12-26

多模态内容生成与交互体验升级

ChatGPT新增富文本块、小红书开源InstanceAssemble精准排版、快看AI互动漫画上线、TurboDiffusion单卡2秒出视频,显示多模态生成正从“能出图”走向“可控、可交互、可商用”的新阶段。
2025-12-25

AI视频生成提速200倍

清华与生数科技开源TurboDiffusion框架,通过稀疏注意力与SageAttention把扩散模型推理提速100-200倍,消费级显卡即可秒级生成高分辨率视频,成本与门槛骤降,有望引爆短视频、广告、游戏等UGC内容生态。
2025-12-24

AI for Science与视频生成效率革命

深势科技8亿融资、TurboDiffusion 200倍加速、VTP视觉分词器开源等进展,显示AI在科学计算与视频生成两大高算力场景实现“低成本秒级”跃迁,科研与创意内容生产门槛被快速抹平,AI正从“可用”走向“好用、敢用”。
2025-12-21

多模态与生成控制新范式

浙大ContextGen、CineCtrl、DualCamCtrl等研究实现布局-身份一致、相机运镜精准控制,把“生成”推向“可控工业级”,降低视频、图像创作门槛,支撑下一代内容生产管线。
2025-12-18

多模态视频生成升级

阿里通义万相2.6、字节Seedance 1.5 Pro等模型新增音画同步、多镜头叙事、角色一致性等功能,国产视频生成综合体验超越Sora 2,推动AIGC内容工业化生产。
2025-12-14

世界模型与多模态生成

Runway发布通用世界模型GWM系列,可同步模拟环境、人物与机器人操作;谷歌升级Gen-4.5,SIGGRAPH Asia亦展示30→200FPS的4D重建方案。生成式AI正从“出图”走向“出世界”,为影视、机器人和元宇宙提供可交互的物理一致场景,重新定义内容生产管线。
2025-12-12

视频/3D生成与多模态应用

Runway发布通用世界模型GWM-1,智谱开源视频生成核心技术,港大ViMax实现AI自编自导自演,谷歌升级虚拟试穿,Medeo AI推视频Agent一键改剧本,多模态生成从2D图像迈向可推理、可交互的3D世界,内容生产门槛进一步降低。
2025-12-08

多模态内容生成突破

苹果STARFlow-V、可灵AI主体库、阿里Qwen3-TTS、美团LongCat-Image等集中发布,实现30秒稳定视频、角色一致记忆、49种音色及中文图文编辑SOTA,多模态AIGC进入可用级时代。
2025-12-03

AI视频生成进入有声电影时代

Runway Gen-4.5、快手可灵O1、Kling 2.6等模型实现物理光影、重量感、多主体参考及原生音频同步生成,Elo评分登顶Video Arena,标志着AI视频从“无声短片”跃迁至可商用影视级制作,冲击传统内容工业。
2025-12-02

AI视频生成升级战

Runway Gen-4.5、PixVerse V5.5、可灵O1、爱诗科技等模型在光影物理、导演级分镜、音画同步上集体突破,120人团队盲测夺冠,宣告“秒级出片”进入工业可用阶段,冲击影视广告传统流程。
2025-11-17

多模态生成新范式

Google Flow、Gemini Veo 3.1、DeepEyesV2等实现一键抠图、多图合成视频、轻量超大规模模型,多模态生成进入“秒级可用”阶段,内容创作门槛被进一步抹平。
2025-11-15

AI Coding工具链竞速

Cursor再获23亿美元D轮,估值破160亿元,谷歌英伟达同时加码;字节Infinit论文挑战DiT视频生成,AI编程与内容生成工具在效率、成本、商业化三线激战,成为生成式AI最快变现场景。
2025-11-10

多模态大模型升级战

Grok支持文本生成带音效视频、Grok 4上下文扩至200万token,谷歌Veo-3可生成逼真手术视频,百度小度AI眼镜落地,多模态能力从实验室走向消费级与专业场景,开启“空间超感知”新范式。
2025-11-08

多模态视频生成与评测

Utopai联手LG及中东资本发布颠覆性视频模型,ICCV提出统一世界模型VLA剑指L4自动驾驶,同时MME-CoF基准揭示主流视频模型在因果推理维度仍显薄弱,推动行业从“看得清”走向“想得白”。
2025-10-31

多模态视频生成爆发

LTX-2、VAFlow等新模型实现一键高清叙事视频与声画同步生成;Sora缩减免费额度并启动创作者分成,视频生成从“demo”走向“商业化深水区”,内容生产、广告及短视频生态将被重塑。
2025-10-28

多模态大模型突破

英伟达开源OmniVinci刷新SOTA,美团开源13.6B视频模型LongCat-Video,北大&小红书Uni-Instruct把ImageNet单步生图FID压到1.0,多模态理解与生成同步跃迁,标志通用视觉语言模型进入“可用即开源”阶段,将加速影视、广告、教育等内容产业工业化。
2025-10-27

多模态生成大爆发

本周视频、语音、图像、音乐等多模态模型密集升级:Sora新增宠物主角与社交剪辑,豆包视频生成提速3倍并降价72%,美团开源5分钟级LongCat-Video,字节联合港中大发布DreamOmni2图像编辑框架,OpenAI联手茱莉亚学院推出视频智能配乐模型,美图上线“边聊边P图”修图Agent,生成式内容进入低成本、高可用、全模态并行时代。
2025-10-17

视频生成商业化加速

OpenAI Sora 2上线Azure并定价0.1美元/秒,Pro版可生成25秒视频;谷歌Veo 3.1跟进升级,爱诗科技ARR超4000万美元、融资1亿元。巨头与初创共同推高视频AIGC产能,标志长时长、高一致性视频生成进入付费商用阶段。