2025-11-15
AI Coding工具链竞速
Cursor再获23亿美元D轮,估值破160亿元,谷歌英伟达同时加码;字节Infinit论文挑战DiT视频生成,AI编程与内容生成工具在效率、成本、商业化三线激战,成为生成式AI最快变现场景。
2025-07-14
AI for Science再迎里程碑
谷歌AlphaEvolve 30天攻克18年数学难题,Chai-2把抗体设计成功率从0.1%提到16%,MIT/剑桥/Meta推出统一扩散框架ADiT实现任意原子系统生成。AI正从“辅助”走向“主导”科研,重塑数学、生物医药与材料发现的方法论。
2025-07-14
视频/多模态生成技术突破
Meta发布单GPU实时视频生成框架StreamDiT,PixVerse上线多关键帧生成功能,Gemini图片转视频正式可用。生成式AI正向“实时、可控、多模态”演进,降低创作门槛的同时,为短视频、广告、影视工业带来全新工作流。
2025-07-05
多模态效率优化
腾讯AI Lab VScan剪除视觉冗余Token、上交EEdit削减扩散时空冗余,免训练即可加速多模态推理,反映行业对低成本高效能大模型落地的迫切需求。
2025-05-01
开源大模型军备竞赛
Meta、阿里、阶跃星辰等密集发布开源模型:Llama 4将推2万亿参数版,Qwen3以0.6B-235B全尺寸开源刷新SOTA,Step1X-Edit 19B图像编辑模型登顶开源榜。开源阵营通过参数、多模态、工具链三维升级,直接对标OpenAI闭源体系,全球开发者生态迎来“免费满血”时代,商业闭源模型溢价空间被急剧压缩。
2025-04-29
AI伦理与风险争议
瑞士研究团队承认在Reddit秘密投放AI生成内容,引发学术伦理质疑;OpenAI确认GPT-4o存在“过度谄媚”并紧急修复;哈佛研究指出大模型缺乏因果推理,世界模型神话受挑战;公众对AI即时风险担忧高于远期生存威胁,提示行业需同步推进技术治理与伦理规范。
2025-04-28
国产大模型密集上新
阿里云Qwen3、字节PHD-Transformer、阶跃Step1X-Edit、DeepSeek-R1T等国产大模型本周集中发布,覆盖语言、多模态、推理、图像编辑等方向,显示国内在基础模型层面的迭代速度已迈入周级,对全球开源生态与产业落地形成持续冲击。
2025-04-27
多模态大模型突破
GPT-4o图像生成、Step1X-Edit开源、Kimi-Audio等密集发布,标志多模态能力进入“可用+开源”阶段,降低开发者门槛,加速C端视觉/音频应用爆发。
2025-02-15
多模态与Agent框架创新
VideoLLaMA3以7B参数拿下视频理解SOTA,MakeAnything用DiT首次生成多任务过程视频;CAMEL直播展示多智能体协作框架。小参数强性能、多模态融合与自主Agent成为学术与产业共同焦点,为端侧和复杂系统提供新基座。
2024-12-10
AI搜索重塑内容生态
Reddit推出Answers AI搜索遭用户冷遇,国内小红书、抖音被看好;同时Adobe与AWS战略合作实时个性化,AI搜索正向内容平台与通用Chatbot双向演进,数据源成为核心壁垒。
2024-11-12
多模态长视频理解突破
李飞飞团队发布 HourVideo 基准,推动 1 小时长视频多模态理解;谷歌“重拍”视频 AI、字节 SeedEdit 等工具同步升级,标志视觉-语言模型从单图迈向长时序、高分辨率、可编辑的新阶段。
2024-11-11
多模态生成大爆发
字节SeedEdit、谷歌Vids、昆仑SkyReels、即梦Seaweed等密集上线“一句话改图/生视频”功能,4K、多比例、带音效成标配,标志AIGC进入零门槛、秒级产出时代,内容产业生产力将被重塑。
2024-07-25
AI训练与数据危机
谷歌警告AI制造“假新闻工厂”、Meta称网络文本为“垃圾”并大量采用合成数据、Reddit筑付费墙阻挡爬虫,域名屏蔽潮升级,揭示高质量训练数据枯竭与模型崩溃风险成为行业隐忧。
2024-07-08
视频生成进入“可灵时刻”
快手可灵Web端上线,支持首尾帧、运镜控制,已生成700万条短视频;达摩院“寻光”一站式平台发布;北大-DG4D实现分钟级4D内容生成。国产DiT架构让视频生成从可用走向好用,开启AIGC短剧与广告新范式。
2024-06-28
实时视频生成技术突破
PAB、DiT通用加速框架及尤洋团队方法实现21.6fps实时视频生成,推理延迟降低10倍,为直播、短视频、游戏提供即时内容生产可能,开启“生成即服务”新场景。
2024-06-17
视频生成技术突破
Luma Dream Machine、北大-快手VideoTetris、清华LVBench等新模型与基准密集发布,支持长时序、多指令、高一致性视频生成,部分指标超越Pika/Gen-2。3D原生DiT架构亦出现,标志着生成式AI正从图像向立体视频快速跃迁,为内容、广告、影视带来颠覆性工具。
2024-06-13
Stable Diffusion 3正式开源
Stability AI开源SD3-M,新MMDiT架构在排版、多主体、文本渲染上显著优于SDXL,2B参数单机可跑,首次出现开源文生图模型性能碾压闭源,引爆开发者生态与商业落地。
2024-05-13
多模态生成与3D资产生态
从SIGGRAPH的ThemeStation到RPGGO.AI游戏平台,再到DiT统一图像-视频-音频-3D框架,学界与创业圈同步推进“单样本主题一致”3D生成、可交互多模态体验,降低游戏、元宇宙内容制作成本,预示AI原生娱乐时代加速到来。
2024-03-08
视频生成技术竞速
OpenAI Sora引爆60秒长视频生成赛道,Stable Diffusion 3技术报告披露同款DiT架构,多家初创迅速融资,生成内容检测与真实性治理同步升温。
2024-03-06
Stable Diffusion 3与Sora技术揭秘
Stability AI发布Stable Diffusion 3技术报告,采用DiT架构刷新文生图SOTA;同期OpenAI Sora论文合集流出,同款DiT结构成复现关键,推动多模态生成进入视频时代。