2025-10-31
线性注意力架构革新
月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型,KV缓存降低75%、推理速度提升6倍,首次在性能上超越传统全注意力,标志着大模型架构从“平方代价”向“线性扩展”的关键拐点,为端侧部署与实时交互打开新空间。
2025-10-30
多模态大模型爆发
Emu3.5、GigaBrain-0、WorldVLA等原生多模态/具身模型密集发布,统一视觉-语言-动作空间,实现“下一状态预测”与世界模型生成数据,推动机器人与数字人向通用智能跃迁。
2024-10-22
多模态大模型技术突破
智源Emu3、DeepSeek Janus、Stable Diffusion 3.5等原生多模态模型相继开源或发布,统一文本-图像-视频token预测,无需扩散即可生成高质量内容,标志着“下一个token”范式向AGI再进一步,降低创作与开发者门槛。
2024-10-21
原生多模态世界模型Emu3
智源研究院发布Emu3,仅凭“下一个token预测”统一完成文本、图像、视频的理解与生成,无需扩散或组合架构,验证Ilya“统一生成”猜想,被视为多模态新范式。开源权重与代码,已获社区数千星标,有望降低多模态研发门槛并加速下游应用落地。
2024-09-27
多模态大模型突破
Emu3、GPT-4o审核模型等展现统一视觉-语言架构,OpenAI o1强化推理链,谷歌NotebookLM升级音频播客化,多模态能力正从实验室走向生产力工具,奠定下一代AI基座。