当前位置：首页 > 专题 > 正文

多模态GPT的号角：SAM

2023-04-09 08:40:37来源：国盛证券有限责任公司

(资料图片)

Meta 发布SAM，零样本分割图像中一切对象。4 月6 号，Meta 发布SegmentAnything Model（SAM），该模型可以用于分割图像中的一切对象，即使是训练数据中没有见过的对象。SAM 可以使用各种输入提示包括点击，框选和文字，指定要在图像中分割的内容，并且可以灵活集成其他系统，比如将AR/VR 头盔的用户视线作为提示来选择对象，也可以将分割输出用作其他AI 系统的输入，用于3D 建模等任务。模型设计高效灵活，每个提示只需要几毫秒就能在浏览器中运行，并且Meta 开源了SAM 的模型和包含1100 万张图像和11 亿个掩码的训练数据集。

SAM 初步验证了多模态技术路径及其泛化能力，相当于计算机视觉领域的GPT-3。英伟达人工智能科学家Jim Fan 认为Meta 的这项研究是计算机视觉领域的“GPT-3 时刻”之一。SAM 是通用的分割方法，已经学会了物体是什么的一般概念，可以对不熟悉的物体和图像进行零样本泛化，而无需额外的训练。GPT-3 系列模型可以使用“提示”技术对新数据集和任务执行零样本和少样本学习，SAM 从中获得灵感将提示技术用于图像分割。展望将来，SAM 可以成为更大的AI 系统的一个组成部分，用于对世界做更通用的多模态理解，例如，理解网页的视觉和文本内容；在AR/VR 领域，SAM 可以根据用户的目光选择对象，然后将其“提升”到3D 中；对于内容创作者，SAM可以提取图像区域以进行拼贴或视频编辑；SAM 还可通过定位动物或物体在视频中进行研究和跟踪。

多模态提升空间巨大，技术进步速度超预期，将落地千行百业。当前多模态的输入输出主要是文本、图像和音频，应用场景包括智能办公和，如智能PPT 和其他office 套件，此外多模态在AI 绘画、AI 音乐创作以及看图写稿等AIGC 方向也有广泛应用。预计1~5 年内，随着多模态的发展带来AI 泛化能力提升，通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居有望进入生活。预计5～10 年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

建议关注：

模型及应用：大华股份、海康威视、云从科技、千方科技、商汤科技等。

工具厂商：当虹科技、万兴科技、星环科技等。

算力：英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通信产业链等。

风险提示：AI 技术迭代不及预期；经济下行超预期；行业竞争加剧。

关键词：