像素级 - AI话题 - AI快开门

2025-10-04

多模态精细视觉突破

华中科大白翔团队提出 LIRA 框架，仅增两个轻量模块便将多模态大模型的分割与理解能力同时推至 SOTA，显著抑制幻觉并提升复杂场景下的像素级精度。该方法为自动驾驶、医疗影像等需要高精度视觉任务的行业提供了即插即用的新范式。

LIRA 多模态图像分割幻觉像素级

2024-07-30

Meta SAM 2 视觉分割革命

Meta开源Segment Anything 2.0，实现零样本实时视频任意对象追踪与分割，代码权重全开放，一键完成像素级视频编辑，被视为CV领域“GPT时刻”，将重塑影视、广告、自动驾驶标注流程。

SAM 2 视频分割 Meta开源零样本像素级

2024-04-26

视觉多模态大一统模型登场

颜水成团队发布Vitron，实现像素级理解、生成、分割、编辑四合一，奠定通用视觉多模态大模型终极形态，为机器人、自动驾驶、内容创作提供一站式视觉基座，有望降低多任务开发成本并加速场景落地。

Vitron 视觉多模态像素级统一模型开源