NVIDIA新模型DAM-3B:图像视频局部描述新突破

业界
2025
04/24
15:34
IT之家
分享
评论

4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。

独特架构与高效设计

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪,确保细节不失真,同时保留整体背景。

局部视觉骨干网络则通过嵌入图像和掩码输入,运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。

DAM-3B-Video 进一步扩展至视频领域,通过逐帧编码区域掩码并整合时间信息,即便面对遮挡或运动也能生成准确描述。

数据与评估双管齐下

为解决训练数据匮乏问题,NVIDIA 开发了 DLC-SDP 半监督数据生成策略,利用分割数据集和未标注的网络图像,构建了包含 150 万局部描述样本的训练语料库。

通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出 DLC-Bench 评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先,平均准确率达 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不仅填补了局部描述领域的技术空白,其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。

【来源:IT之家

THE END
广告、内容合作请点击这里 寻求合作
Nvidia
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

4月22日消息,NVIDIA日前放出了重量级的GeForce 576.02版驱动,一口气修复了多达41个不同Bug,包括困扰已久的各种黑屏,以及大范围的日常和游戏异常、崩溃问题,但没想到又惹出一个让人崩溃的新Bug。
业界
4月15日消息,NVIDIA官方宣布,第一次在美国本土制造其Blackwell GPU芯片,并第一次打造完全在美国本土制造的AI计算机。
业界
3月28日消息,刚刚上任,Intel新任CEO陈立武(Lip-Bu Tan)就向外界传达了一个明确信息——在AI硬件领域跟NVIDIA一较高下。
业界
3月28日消息,据媒体报道,瑞银分析师Timothy Arcuri近日发布的研究报告指出,Intel可能会改变战略,重新聚焦芯片设计业务,同时其晶圆代工业务也在积极争取NVIDIA、博通等头部客户的订单。
业界
3月23日消息,光线追踪技术既离不开GPU硬件的基础,也离不开操作系统化和API接口的支持,这就是微软的DirectX Raytracing,简称DXR,现在它升级到了1.2版本。
业界

相关推荐

1
3
Baidu
map