文章来源:Allmetas

近日,据海外媒体报道,苹果公司的人工智能研究团队发布了一款全新的模型Depth Pro,该模型能够在几分之一秒内从单个2D图像中生成详细的3D深度图像,从而无需依赖传统相机数据预测。

在研究论文中,研究人员提到这是单目深度估计(monocular depth estimation)领域的一次重大飞跃,单目深度估计是一种仅使用一张图像深度推测的过程。研究人员也认为,这是同类系统中最快,最准确的系统之一。

Depth Pro、Marigold、Depth Anything v2和Metric3D的深度图像生成比较。Depth Pro擅长捕捉皮毛和鸟笼线条等细节,仅需0.3秒就能生成清晰、高分辨率的深度图,在准确性和细节上优于其他模型。

单目深度估计一直是一项具有挑战性的任务,需要多个图像或像焦距这样的元数据来准确测量深度。

但Depth Pro绕过了这些要求,在标准GPU上仅需0.3秒即可生成高分辨率深度图。该模型可以创建225万像素的地图,具有出色的清晰度,甚至可以捕捉到其他方法经常忽略的微小细节,如头发和植被。

研究人员在论文中解释道,这些特征是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉transformer。这种结构使模型能够同时处理图像的整体背景和更精细的细节.与之前速度较慢、精度较低的模型相比,这是一个巨大的飞跃。

真正让Depth Pro与众不同的是它能够估计相对和绝对深度,这种能力被称为“度量深度”(metric depth)。这意味着该模型可以提供真实世界的测量,这对于增强现实(AR)等应用至关重要,虚拟对象需要放置在物理空间中的精确位置。

而且Depth Pro不需要对特定领域的数据集进行广泛的训练就能做出准确的预测,这是一种被称为“zero-shot learning”的功能。这使得该模型具有很强的通用性。它可以应用于广泛的图像,而不需要深度估计模型中通常需要的相机特定数据。

研究人员称,Depth Pro在任意图像上生成具有绝对比例尺的深度图,而不需要诸如相机特性之类的元数据。从增强增强现实体验到提高自动驾驶汽车探测和导航障碍的能力,这种灵活性开辟了一个充满可能性的世界。

Source

Visited 7 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x