Emu3 - AI话题 - AI快开门

2026-02-04

2025全球中文大模型榜单显示海外闭源模型仍领先，但国产模型在细分领域实现超车；Emu3登上《自然》标志底层架构创新获国际认可，Kimi K2.5登顶开源榜，彰显国产大模型从技术追赶到局部领跑的跃迁。

2026-01-31

Emu3在Nature发文，仅用“预测下一Token”统一视觉-语言任务，挑战扩散模型霸权；阿里2步扩散提速40倍，SkyReels-V3开源一张图生成2K视频，标志多模态生成进入“快、统一、开源”新阶段，为AGI探路。

2025-10-31

月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型，KV缓存降低75%、推理速度提升6倍，首次在性能上超越传统全注意力，标志着大模型架构从“平方代价”向“线性扩展”的关键拐点，为端侧部署与实时交互打开新空间。

2025-10-30

Emu3.5、GigaBrain-0、WorldVLA等原生多模态/具身模型密集发布，统一视觉-语言-动作空间，实现“下一状态预测”与世界模型生成数据，推动机器人与数字人向通用智能跃迁。

2024-10-22

智源Emu3、DeepSeek Janus、Stable Diffusion 3.5等原生多模态模型相继开源或发布，统一文本-图像-视频token预测，无需扩散即可生成高质量内容，标志着“下一个token”范式向AGI再进一步，降低创作与开发者门槛。

2024-10-21

智源研究院发布Emu3，仅凭“下一个token预测”统一完成文本、图像、视频的理解与生成，无需扩散或组合架构，验证Ilya“统一生成”猜想，被视为多模态新范式。开源权重与代码，已获社区数千星标，有望降低多模态研发门槛并加速下游应用落地。

2024-09-27

Emu3、GPT-4o审核模型等展现统一视觉-语言架构，OpenAI o1强化推理链，谷歌NotebookLM升级音频播客化，多模态能力正从实验室走向生产力工具，奠定下一代AI基座。

# Emu3