你说不出来的话,大模型替你说了。
图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。
虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。
这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
为了解决上述问题,来自英伟达、UC 伯克利等机构的研究者推出了「描述一切模型」 (DAM,Describe Anything Model)。这是一个强大的多模态大语言模型,可以生成图像或视频中特定区域的详细描述。用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域丰富的上下文描述。
论文标题: Describe Anything: Detailed Localized Image and Video Captioning
论文地址:pdf/2504.16072
论文主页:
我们先来看效果。
DAM 对视频中指定对象的描述:「一头身披深棕色皮毛、臀部有一块浅色斑块的母牛,正以一系列动作展现其姿态。起初,母牛略微低着头,展现出平静的神态。随着画面的推进,母牛开始向前移动,双腿舒展,步态稳健而有节奏。其尾端有簇毛,每走一步都会轻轻摆动,为其动作增添一丝流畅感。母牛的身体基本保持直立,背部略微拱起,展现出一种放松的姿态。结实而轮廓分明的双腿,带着母牛坚定地向前迈进。在整个画面中,母牛保持着均匀的步伐,动作流畅而从容,展现出一种宁静沉稳的气质。」
「一只浅棕色皮毛、面部稍深的猴子在一系列动态动作中被捕捉到。最初,它似乎用右手伸进一个容器中,手里拿着一块黄色的食物。猴子的姿势稍微前倾,表明它在与食物互动时的专注和意图。随着动作的进行,猴子将食物靠近嘴边,用双手操作。它的面部表情显示出专注和享受,眼睛半闭。猴子的身体轻微移动,保持平衡,继续进食。在整个过程中,猴子的动作流畅而有目的,展示了它的灵巧和敏捷。最后的画面描绘了猴子用双手拿着食物,将其靠近脸部,然后稍微降低,可能准备再咬一口。」
DAM 对图片的描述「一只白色的猫,有着浅橙色的耳朵和粉红色的鼻子。这只猫表情放松,眼睛微微闭合,身上覆盖着柔软的白色毛发。」
机器之心也上手测试了一下,看起来是鼠标指到哪个对象,该对象就会被自动分割,最后我们选择了拉布拉多幼犬,模型回答的快且准确,
测试地址:spaces/nvidia/describe-anything-model-demo
详细局部描述
DLC(Detailed Localized Captioning)与传统图像描述不同,传统图像描述对整个场景的总结比较粗略,而 DLC 则更深入地挖掘用户指定区域的细微细节。其目标不仅是捕捉对象的名称或类别,还包括微妙的属性,如纹理、颜色图案、形状、特点以及任何视觉上独特的特征。
不仅是图片,DLC 可以自然地扩展到视频领域,描述特定区域的外观和上下文如何随时间变化。达到这种目的,模型必须跨帧跟踪目标,捕捉不断变化的属性、交互和细微的变化。
DAM 比较擅长生成图像和视频中物体的详细描述。通过平衡焦点区域的清晰度和全局上下文,该模型可以突出细微的特征(例如复杂的图案或变化的纹理),这远远超出了一般图像级描述所能提供的范围。
用户还可以引导模型生成不同细节和风格的描述。无论是简短的摘要,还是冗长复杂的叙述,模型都能调整输出。这种灵活性使其适用于各种用例,从快速标记任务到深入的专家分析。
除了生成描述之外, DAM 模型无需额外的训练数据即可回答有关特定区域的问题。例如用户可以询问该区域的属性,模型会利用其对局部区域的理解,提供准确的、基于上下文的答案。
方法介绍
为了解决指定区域特征中细节丢失问题,本文提出了 DAM,该模型既保留了局部细节也保留了全局上下文。DAM 通过两个关键创新实现这一点:
1)焦点提示(focal prompt),它对感兴趣区域进行编码;
2)局部视觉骨干网络(localized vision backbone),它确保精确定位的同时整合全局上下文。
这些组件使 DAM 能够生成详细准确的描述,即使是对于复杂场景中的小物体。
具体而言:
焦点提示,可以提供完整图像和目标区域的放大视图。这种方法确保模型能够捕捉精细细节,同时保留全局背景。最终呈现的描述细致准确,既能反映全局,又能捕捉细微之处。
局部视觉主干网络,引入了一个集成全局特征和局部特征的局部视觉主干网络。图像和掩码在空间上对齐,门控交叉注意力层将局部细节线索与全局上下文融合。此外,新参数初始化为零,从而保留预训练的能力。这种设计能够产生更丰富、更具有上下文感知能力的描述。
此外,由于现有的数据集缺乏详细的局部化描述,该研究设计了一个两阶段流程。
首先,他们使用视觉语言模型(VLM)将数据集中的简短类别标签扩展为丰富的描述。
其次,在未标记的图像上应用自训练,作为一种半监督学习方法,并使用 DAM 模型生成和优化新的描述。
这种可扩展的方法可以在不依赖大量人工注释的情况下构建大型、高质量的训练数据集。
实验及结果
DAM 在局部图像与视频描述任务中表现卓越,能够支持多粒度输出(包括关键词、短语及详细描述),并在 7 个领域内基准测试和零样本基准测试中均达到 SOTA。
在 object-level LVIS 和 part-level PACO 数据集上进行测试,本文方法取得了最佳性能。
在表 4 中的 Ref-L4 基准测试中,本文方法在基于短语言的描述指标上平均比之前的最好方法相对提高了 33.4% ,在基于长语言的描述指标上平均比之前的最好方法相对提高了 13.1%。
如表 5 所示,DAM 显著优于现有的通用和基于特定区域的 VLM。
在表 6 中, DAM 在 HC-STVG 上比之前的最佳成绩相对提升了 19.8%。在表 7 中, DAM 在零样本和域内设置中均超越了之前的最佳成绩。
了解更多内容,请参考原论文。
0 条