苹果AI团队发布新模型Depth Pro，能快速从2D图像推理生成3D深度图像

文章来源：Allmetas

近日，据海外媒体报道，苹果公司的人工智能研究团队发布了一款全新的模型Depth Pro，该模型能够在几分之一秒内从单个2D图像中生成详细的3D深度图像，从而无需依赖传统相机数据预测。

在研究论文中，研究人员提到这是单目深度估计（monocular depth estimation）领域的一次重大飞跃，单目深度估计是一种仅使用一张图像深度推测的过程。研究人员也认为，这是同类系统中最快，最准确的系统之一。

Depth Pro、Marigold、Depth Anything v2和Metric3D的深度图像生成比较。Depth Pro擅长捕捉皮毛和鸟笼线条等细节，仅需0.3秒就能生成清晰、高分辨率的深度图，在准确性和细节上优于其他模型。

单目深度估计一直是一项具有挑战性的任务，需要多个图像或像焦距这样的元数据来准确测量深度。

但Depth Pro绕过了这些要求，在标准GPU上仅需0.3秒即可生成高分辨率深度图。该模型可以创建225万像素的地图，具有出色的清晰度，甚至可以捕捉到其他方法经常忽略的微小细节，如头发和植被。

研究人员在论文中解释道，这些特征是由许多技术贡献实现的，包括用于密集预测的高效多尺度视觉transformer。这种结构使模型能够同时处理图像的整体背景和更精细的细节．与之前速度较慢、精度较低的模型相比，这是一个巨大的飞跃。

真正让Depth Pro与众不同的是它能够估计相对和绝对深度，这种能力被称为“度量深度”（metric depth）。这意味着该模型可以提供真实世界的测量，这对于增强现实（AR）等应用至关重要，虚拟对象需要放置在物理空间中的精确位置。

而且Depth Pro不需要对特定领域的数据集进行广泛的训练就能做出准确的预测，这是一种被称为“zero-shot learning”的功能。这使得该模型具有很强的通用性。它可以应用于广泛的图像，而不需要深度估计模型中通常需要的相机特定数据。

研究人员称，Depth Pro在任意图像上生成具有绝对比例尺的深度图，而不需要诸如相机特性之类的元数据。从增强增强现实体验到提高自动驾驶汽车探测和导航障碍的能力，这种灵活性开辟了一个充满可能性的世界。

Visited 7 times, 1 visit(s) today