2026-01-03
视觉生成新范式
NEPA 提出「下一嵌入预测」自回归框架,谢赛宁团队参与,验证无需扩散也能做强视觉模型;同期多项研究探索自回归图像/视频生成,有望重塑生成式 AI 技术路线与算力需求。
2025-10-13
扩散语言模型推理突破
蚂蚁集团开源dInfer框架,首次将扩散语言模型推理速度提升10倍,超越自回归范式,为大模型高效落地奠定新基座,被视为后Transformer时代的重要里程碑。
2025-08-10
生成模型与多模态创新
腾讯X-Omini用强化学习复兴离散自回归生成,扩散模型被证数据效率3倍于自回归且可重复训练数百次仍提升,显示生成式AI在图像-文本统一、长序列建模上仍有巨大潜力,为内容创作、长文本多模态应用提供新基座。
2025-07-05
扩散模型颠覆自回归
苹果-港大DiffuCoder、谷歌Gemini Diffusion等扩散式文本/代码模型相继亮相,以非自回归并行采样实现速度-性能双升,挑战Transformer自回归范式,预示大模型架构进入多元竞争阶段。
2025-06-15
混合架构新范式崛起
康奈尔Eso-LM将扩散模型与自回归融合,速度提升65倍,英伟达下注;Transformer“混血”引发对自回归范式的再思考,或成通往AGI的又一技术路线,学术与资本同时加注。
2025-04-22
视频生成进入自回归时代
Swin Transformer团队开源全球首个自回归视频大模型MAGI-1,支持无限时长、电影级理解,Sand AI、Vidu Q1同步跟进,2025 TOP20榜单中国产品占六成,预示视频AIGC从“片段”跃迁到“长剧”生产力。
2025-04-04
多模态生成与理解再升级
V²Flow实现视觉Token与LLM词表无缝对齐,高保真自回归图像生成刷新多模态统一框架;港理工+新国立VideoMind借角色化推理+链式LoRA在27分钟长视频理解上超越GPT-4o;Neural LightRig单图秒变3D影棚。生成与理解双向突破,推动多模态应用落地。
2025-03-30
多模态与Agent治理热议
GPT-4o生图机制被港中文团队“扒开”,确认原生自回归+可手动编辑;OpenAI闭门会聚焦Agent落地难点,提出对齐-监控-反馈治理框架;OPPO研究院OThink-MR1突破多模态泛化推理,显示多模态与Agent技术仍处快速迭代与规范建立期。
2025-01-04
自回归图像生成突破
字节开源Infinity模型,以无矢量量化、无限词表自回归方式刷新文生图SOTA,标志扩散模型之后的新范式可能确立,对AIGC工具链、算力需求及商业落地有深远影响。