图像编辑 - AI话题

2025-12-17

多模态生成与编辑新范式

OpenAI连发GPT Image 1.5、ChatGPT Images，速度提升4倍，主打精准编辑与视觉一致性；字节Seedance 1.5 Pro实现100%音画同步；Canvas-to-Image统一画布支持多条件组合生成；Meta开源SAM Audio分割一切声音。生成式AI进入“所见即所得、所听即所得”的细粒度操控阶段。

多模态生成图像编辑音画同步 Canvas-to-Image SAM Audio

2025-12-08

多模态内容生成突破

苹果STARFlow-V、可灵AI主体库、阿里Qwen3-TTS、美团LongCat-Image等集中发布，实现30秒稳定视频、角色一致记忆、49种音色及中文图文编辑SOTA，多模态AIGC进入可用级时代。

视频生成 TTS 图像编辑多模态 AIGC

2025-10-27

多模态生成大爆发

本周视频、语音、图像、音乐等多模态模型密集升级：Sora新增宠物主角与社交剪辑，豆包视频生成提速3倍并降价72%，美团开源5分钟级LongCat-Video，字节联合港中大发布DreamOmni2图像编辑框架，OpenAI联手茱莉亚学院推出视频智能配乐模型，美图上线“边聊边P图”修图Agent，生成式内容进入低成本、高可用、全模态并行时代。

视频生成图像编辑 AI配乐多模态降价提速

2025-08-27

多模态创意与AIGC普惠

谷歌“nano banana”单图3毛钱、字节Waver 1.0、百度MuseSteamer 2.0、美图全能修复等把视频、图像、动画生成成本打到消费级；腾讯VISVISE让游戏动画效率提升8倍。AIGC进入“平价创意”阶段，将冲击传统设计、广告与短视频产业链。

AIGC 视频生成图像编辑成本骤降创意普惠

2025-07-30

AI视频/图像生成再升级

谷歌Imagen 4、阿里通义万相Wan2.2、豆包图像编辑3.0、马斯克xAI Imagine、国产HYPIR 8K修复模型等密集发布，覆盖电影级视频、高精度图像编辑、老照片超分等场景，生成质量与可控性显著提升，标志着AIGC进入“消费级可用+工业级落地”并行爆发期。

AIGC 视频生成图像编辑 Imagen4 Wan2.2

2025-05-31

多模态生成与编辑技术跃迁

FLUX.1 Kontext、可灵2.1、Gemini视频OCR等新架构同时接受文本+图像输入，流匹配与上下文内生成带来8倍速率和物理真实感提升；RISEBench揭示现有模型编辑准确率不足30%，倒逼新基准与算法同步进化。

FLUX.1 可灵2.1 视频OCR 图像编辑流匹配

2025-04-30

多模态与4D视觉突破

TesserAct提出4D场景理解框架，谷歌Genie 2生成可交互3D环境，Luma Ray2 API实现电影级镜头控制，阶跃发布开源图像编辑SOTA，显示多模态正从“看得清”走向“看得懂+控制得了”，为机器人、影视及XR应用打开新空间。

多模态 4D视觉 Genie 2 Luma 图像编辑

2025-03-23

多模态大模型激战

谷歌Gemini、xAI Grok、腾讯混元T1等接连上线图像编辑、混合架构等新能力，OpenAI CEO透露免费GPT-5计划，模型迭代速度空前，正重塑内容生产与交互范式，传统软件与创意行业面临颠覆。

多模态图像编辑混合架构模型迭代范式转移

2024-11-11

多模态生成大爆发

字节SeedEdit、谷歌Vids、昆仑SkyReels、即梦Seaweed等密集上线“一句话改图/生视频”功能，4K、多比例、带音效成标配，标志AIGC进入零门槛、秒级产出时代，内容产业生产力将被重塑。

AIGC 视频生成图像编辑 SeedEdit 多模态

2024-08-21

AI内容创作工具爆发

AI内容创作领域迎来工具爆发期，从Hotshot 10秒视频生成到LivePortrait肖像动画，从AI舞王Viggle到TurboEdit即时图像编辑，再到《黑神话》AI宣传片制作。这些工具极大降低了创作门槛，月访问量激增，正在重塑数字内容生产生态。

AIGC 内容创作视频生成图像编辑创作工具

2024-07-29

多模态生成与编辑爆发

谷歌Alchemist精准编辑图片材质，Diffree实现文字驱动无痕加物，ViPer记住用户审美生成个性化图像，LiblibAI获数亿元融资创国内纪录，多模态AIGC正从“能生成”走向“可商用”。

多模态生成图像编辑个性化AIGC LiblibAI

2024-05-30

多模态与物理世界编辑

北大&天工利用GPT-3.5生成世界指令数据集，推出EditWorld实现物理一致图像编辑；MIT&Google Alchemist细粒度调控材料属性；厦大&腾讯优图开源多模态CoT架构，无需额外训练即可提升推理准确率，多模态AI正突破感知与编辑边界。

多模态图像编辑 CoT 物理世界材料属性

2024-04-01

多模态生成与编辑技术爆发

Long-CLIP、Mini-Gemini、PixVerse、可编辑DALL·E 3等成果同时亮相，实现长文本驱动细粒度图像/视频生成、角色一致性视频及一句话PS，多模态AIGC正式迈入“可控+高一致性”时代。

多模态生成 CLIP 视频生成图像编辑一致性

AI快开门

发现AI的无限可能

# 图像编辑

多模态生成与编辑新范式

多模态内容生成突破

多模态生成大爆发

多模态创意与AIGC普惠

AI视频/图像生成再升级

多模态生成与编辑技术跃迁

多模态与4D视觉突破

多模态大模型激战

多模态生成大爆发

AI内容创作工具爆发

多模态生成与编辑爆发

多模态与物理世界编辑

多模态生成与编辑技术爆发