2026-05-17
多模态与视觉生成技术
视觉与多模态大模型在架构创新与生成质量上持续突破。World-R1通过强化学习赋予视频生成模型3D空间理解能力,ViT³架构突破Transformer复杂度瓶颈,LVLM幻觉检测技术提升模型可信度,多模态训练策略优化推动视觉语言模型实用化。
2026-04-12
端侧高效视觉Transformer
CARE Transformer以非对称解耦架构在iPhone/iPad实现超低延迟高精度,突破端侧视觉Transformer效率瓶颈,为移动AI落地提供新范式,入选CVPR'25。