DiT - AI话题 - AI快开门

2026-03-17

多模态创意工具井喷

Vibe Editing、PixVerse CLI、苹果LiTo单图3D、阿里电影级配音模型Fun-CineForge等创意工具集中发布，生成式AI从文本扩展到视频、3D、音频全链路，显著降低专业内容制作门槛，推动UGC与AIGC融合。

2025-11-15

AI Coding工具链竞速

Cursor再获23亿美元D轮，估值破160亿元，谷歌英伟达同时加码；字节Infinit论文挑战DiT视频生成，AI编程与内容生成工具在效率、成本、商业化三线激战，成为生成式AI最快变现场景。

AI编程 Cursor 视频生成 Infinit DiT

2025-07-14

AI for Science再迎里程碑

谷歌AlphaEvolve 30天攻克18年数学难题，Chai-2把抗体设计成功率从0.1%提到16%，MIT/剑桥/Meta推出统一扩散框架ADiT实现任意原子系统生成。AI正从“辅助”走向“主导”科研，重塑数学、生物医药与材料发现的方法论。

AI4Science AlphaEvolve 抗体设计 ADiT 科研范式

2025-07-14

视频/多模态生成技术突破

Meta发布单GPU实时视频生成框架StreamDiT，PixVerse上线多关键帧生成功能，Gemini图片转视频正式可用。生成式AI正向“实时、可控、多模态”演进，降低创作门槛的同时，为短视频、广告、影视工业带来全新工作流。

视频生成 StreamDiT PixVerse 多模态实时生成

2025-07-05

多模态效率优化

腾讯AI Lab VScan剪除视觉冗余Token、上交EEdit削减扩散时空冗余，免训练即可加速多模态推理，反映行业对低成本高效能大模型落地的迫切需求。

多模态 Token剪枝推理加速视觉冗余 EEdit

2025-05-01

开源大模型军备竞赛

Meta、阿里、阶跃星辰等密集发布开源模型：Llama 4将推2万亿参数版，Qwen3以0.6B-235B全尺寸开源刷新SOTA，Step1X-Edit 19B图像编辑模型登顶开源榜。开源阵营通过参数、多模态、工具链三维升级，直接对标OpenAI闭源体系，全球开发者生态迎来“免费满血”时代，商业闭源模型溢价空间被急剧压缩。

开源大模型 Meta Qwen Step1X-Edit

2025-04-29

AI伦理与风险争议

瑞士研究团队承认在Reddit秘密投放AI生成内容，引发学术伦理质疑；OpenAI确认GPT-4o存在“过度谄媚”并紧急修复；哈佛研究指出大模型缺乏因果推理，世界模型神话受挑战；公众对AI即时风险担忧高于远期生存威胁，提示行业需同步推进技术治理与伦理规范。

AI伦理 Reddit 因果推理谄媚风险

2025-04-28

国产大模型密集上新

阿里云Qwen3、字节PHD-Transformer、阶跃Step1X-Edit、DeepSeek-R1T等国产大模型本周集中发布，覆盖语言、多模态、推理、图像编辑等方向，显示国内在基础模型层面的迭代速度已迈入周级，对全球开源生态与产业落地形成持续冲击。

Qwen3 PHD-Transformer Step1X-Edit DeepSeek-R1T 国产大模型

2025-04-27

多模态大模型突破

GPT-4o图像生成、Step1X-Edit开源、Kimi-Audio等密集发布，标志多模态能力进入“可用+开源”阶段，降低开发者门槛，加速C端视觉/音频应用爆发。

GPT-4o 图像生成开源模型多模态 Step1X-Edit

2025-02-15

多模态与Agent框架创新

VideoLLaMA3以7B参数拿下视频理解SOTA，MakeAnything用DiT首次生成多任务过程视频；CAMEL直播展示多智能体协作框架。小参数强性能、多模态融合与自主Agent成为学术与产业共同焦点，为端侧和复杂系统提供新基座。

多模态视频理解 Agent框架小参数 DiT

2024-12-10

AI搜索重塑内容生态

Reddit推出Answers AI搜索遭用户冷遇，国内小红书、抖音被看好；同时Adobe与AWS战略合作实时个性化，AI搜索正向内容平台与通用Chatbot双向演进，数据源成为核心壁垒。

AI搜索 Reddit 内容平台个性化

2024-11-12

多模态长视频理解突破

李飞飞团队发布 HourVideo 基准，推动 1 小时长视频多模态理解；谷歌“重拍”视频 AI、字节 SeedEdit 等工具同步升级，标志视觉-语言模型从单图迈向长时序、高分辨率、可编辑的新阶段。

HourVideo 长视频理解多模态视频编辑 SeedEdit

2024-11-11

多模态生成大爆发

字节SeedEdit、谷歌Vids、昆仑SkyReels、即梦Seaweed等密集上线“一句话改图/生视频”功能，4K、多比例、带音效成标配，标志AIGC进入零门槛、秒级产出时代，内容产业生产力将被重塑。

AIGC 视频生成图像编辑 SeedEdit 多模态

2024-07-25

AI训练与数据危机

谷歌警告AI制造“假新闻工厂”、Meta称网络文本为“垃圾”并大量采用合成数据、Reddit筑付费墙阻挡爬虫，域名屏蔽潮升级，揭示高质量训练数据枯竭与模型崩溃风险成为行业隐忧。

数据危机合成数据假新闻模型崩溃 Reddit

2024-07-08

视频生成进入“可灵时刻”

快手可灵Web端上线，支持首尾帧、运镜控制，已生成700万条短视频；达摩院“寻光”一站式平台发布；北大-DG4D实现分钟级4D内容生成。国产DiT架构让视频生成从可用走向好用，开启AIGC短剧与广告新范式。

视频生成可灵 DiT 4D内容 AIGC短剧

2024-06-28

实时视频生成技术突破

PAB、DiT通用加速框架及尤洋团队方法实现21.6fps实时视频生成，推理延迟降低10倍，为直播、短视频、游戏提供即时内容生产可能，开启“生成即服务”新场景。

实时视频生成 PAB DiT 尤洋直播

2024-06-17

视频生成技术突破

Luma Dream Machine、北大-快手VideoTetris、清华LVBench等新模型与基准密集发布，支持长时序、多指令、高一致性视频生成，部分指标超越Pika/Gen-2。3D原生DiT架构亦出现，标志着生成式AI正从图像向立体视频快速跃迁，为内容、广告、影视带来颠覆性工具。

视频生成 Luma VideoTetris 3D-DiT LVBench

2024-06-13

Stable Diffusion 3正式开源

Stability AI开源SD3-M，新MMDiT架构在排版、多主体、文本渲染上显著优于SDXL，2B参数单机可跑，首次出现开源文生图模型性能碾压闭源，引爆开发者生态与商业落地。

Stable Diffusion 3 开源文生图 MMDiT

2024-05-13

多模态生成与3D资产生态

从SIGGRAPH的ThemeStation到RPGGO.AI游戏平台，再到DiT统一图像-视频-音频-3D框架，学界与创业圈同步推进“单样本主题一致”3D生成、可交互多模态体验，降低游戏、元宇宙内容制作成本，预示AI原生娱乐时代加速到来。

多模态生成 3D资产 ThemeStation DiT AI游戏

2024-03-08

视频生成技术竞速

OpenAI Sora引爆60秒长视频生成赛道，Stable Diffusion 3技术报告披露同款DiT架构，多家初创迅速融资，生成内容检测与真实性治理同步升温。

Sora 视频生成 Stable Diffusion3 DiT架构内容检测

# DiT