CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

ChatGPT

科技新闻

2023-04-07 06:04

机器之心报道

机器之心编辑部

CV 研究者接下来的路要怎么走？

640-132

「这下 CV 是真不存在了。< 快跑 >」这是知乎网友对于一篇 Meta 新论文的评价。

如标题所述，这篇论文只做了一件事情：（零样本）分割一切。类似 GPT-4 已经做到的「回答一切」。

640-606

Meta 表示，这是第一个致力于图像分割的基础模型。自此，CV 也走上了「做一个统一某个（某些？全部？）任务的全能模型」的道路。

640-607

在此之前，分割作为计算机视觉的核心任务，已经得到广泛应用。但是，为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作，此外，该项任务还需要大量的领域标注数据，种种因素限制了图像分割的进一步发展。

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说，「SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。」在深度学习领域，这种能力通常被称为零样本迁移，这也是 GPT-4 震惊世人的一大原因。

640-608

论文地址：https://arxiv.org/abs/2304.02643
项目地址：https://github.com/facebookresearch/segment-anything
Demo 地址：https://segment-anything.com/

除了模型，Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B)，据称这是有史以来最大的分割数据集。该数据集可用于研究目的，并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

我们先来看看效果。如下面动图所示，SAM 能很好的自动分割图像中的所有内容：

640-133

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词，SAM 会在照片中的几只猫周围绘制框并实现分割：

640-134

SAM 还能用交互式点和框的方式进行提示：

640-135

640-136

此外，SAM 还能为不明确的提示生成多个有效掩码：

640-137

英伟达人工智能科学家 Jim Fan 表示：「对于 Meta 的这项研究，我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况下也能进行很好的图像分割。最重要的是，模型和数据都是开源的。恕我直言，Segment-Anything 已经把所有事情（分割）都做的很好了。」

640-609 推特地址：https://twitter.com/DrJimFan/status/1643647849824161792

还有网友表示，NLP 领域的 Prompt 范式，已经开始延展到 CV 领域了，可以预想，今年这类范式在学术界将迎来一次爆发。

640-610

更是有网友表示蚌不住了，SAM 一出，CV 是真的不存在了。投稿 ICCV 的要小心了。

640-611

不过，也有人表示，该模型在生产环境下的测试并不理想。或许，这个老大难问题的解决仍需时日？

640-612

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割，该方法允许分割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法。第二种，自动分割，允许分割提前定义的特定对象类别（例如，猫或椅子），但需要大量的手动注释对象来训练（例如，数千甚至数万个分割猫的例子）。这两种方法都没有提供通用的、全自动的分割方法。

SAM 很好的概括了这两种方法。它是一个单一的模型，可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它，只需为模型设计正确的提示（点击、boxes、文本等），就可以完成范围广泛的分割任务。

总而言之，这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

Meta 表示，他们受到语言模型中提示的启发，因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码，其中提示可以是前景、背景点、粗框或掩码、自由格式文本，或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象（例如，衬衫上的一个点可能表示衬衫或穿着它的人），输出也应该是一个合理的掩码（就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示）。此任务用于预训练模型并通过提示解决一般的下游分割任务。

如下图所示，图像编码器为图像生成一次性嵌入，而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后，SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。

640-613 在 web 浏览器中，SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码