AI快开门

发现最好的AI工具

2025-10-04

多模态精细视觉突破

华中科大白翔团队提出 LIRA 框架,仅增两个轻量模块便将多模态大模型的分割与理解能力同时推至 SOTA,显著抑制幻觉并提升复杂场景下的像素级精度。该方法为自动驾驶、医疗影像等需要高精度视觉任务的行业提供了即插即用的新范式。
2024-07-30

Meta SAM 2 视觉分割革命

Meta开源Segment Anything 2.0,实现零样本实时视频任意对象追踪与分割,代码权重全开放,一键完成像素级视频编辑,被视为CV领域“GPT时刻”,将重塑影视、广告、自动驾驶标注流程。
2024-04-26

视觉多模态大一统模型登场

颜水成团队发布Vitron,实现像素级理解、生成、分割、编辑四合一,奠定通用视觉多模态大模型终极形态,为机器人、自动驾驶、内容创作提供一站式视觉基座,有望降低多任务开发成本并加速场景落地。