视觉Transformer - AI话题

2026-05-17

视觉与多模态大模型在架构创新与生成质量上持续突破。World-R1通过强化学习赋予视频生成模型3D空间理解能力，ViT³架构突破Transformer复杂度瓶颈，LVLM幻觉检测技术提升模型可信度，多模态训练策略优化推动视觉语言模型实用化。

2026-04-12

CARE Transformer以非对称解耦架构在iPhone/iPad实现超低延迟高精度，突破端侧视觉Transformer效率瓶颈，为移动AI落地提供新范式，入选CVPR'25。

AI快开门