当前位置: 首页 > 专题 > 正文

多模态GPT的号角:SAM

2023-04-09 08:40:37来源:国盛证券有限责任公司


(资料图片)

Meta 发布SAM,零样本分割图像中一切对象。4 月6 号,Meta 发布SegmentAnything Model(SAM),该模型可以用于分割图像中的一切对象,即使是训练数据中没有见过的对象。SAM 可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容,并且可以灵活集成其他系统,比如将AR/VR 头盔的用户视线作为提示来选择对象,也可以将分割输出用作其他AI 系统的输入,用于3D 建模等任务。模型设计高效灵活,每个提示只需要几毫秒就能在浏览器中运行,并且Meta 开源了SAM 的模型和包含1100 万张图像和11 亿个掩码的训练数据集。

SAM 初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3。英伟达人工智能科学家Jim Fan 认为Meta 的这项研究是计算机视觉领域的“GPT-3 时刻”之一。SAM 是通用的分割方法,已经学会了物体是什么的一般概念,可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练。GPT-3 系列模型可以使用“提示”技术对新数据集和任务执行零样本和少样本学习,SAM 从中获得灵感将提示技术用于图像分割。展望将来,SAM 可以成为更大的AI 系统的一个组成部分,用于对世界做更通用的多模态理解,例如,理解网页的视觉和文本内容;在AR/VR 领域,SAM 可以根据用户的目光选择对象,然后将其“提升”到3D 中;对于内容创作者,SAM可以提取图像区域以进行拼贴或视频编辑;SAM 还可通过定位动物或物体在视频中进行研究和跟踪。

多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公和,如智能PPT 和其他office 套件,此外多模态在AI 绘画、AI 音乐创作以及看图写稿等AIGC 方向也有广泛应用。预计1~5 年内,随着多模态的发展带来AI 泛化能力提升,通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居有望进入生活。预计5~10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。

建议关注:

模型及应用:大华股份、海康威视、云从科技、千方科技、商汤科技等。

工具厂商:当虹科技、万兴科技、星环科技等。

算力:英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通信产业链等。

风险提示:AI 技术迭代不及预期;经济下行超预期;行业竞争加剧。

关键词: