人工智能行业点评:SAM模型带来图像分割的GPT-3时刻,机器视觉和多模态AI迎突破

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2023年04月10日超 配1人工智能行业点评SAM 模型带来图像分割的 GPT-3 时刻,机器视觉和多模态 AI 迎突破 行业研究·行业快评 计算机 投资评级:超配(维持评级)证券分析师:熊莉021-61761067xiongli1@guosen.com.cn执证编码:S0980519030002证券分析师:胡剑021-60893306hujian1@guosen.com.cn执证编码:S0980521080001证券分析师:库宏垚021-60875168kuhongyao@guosen.com.cn执证编码:S0980520010001事项:2023 年 4 月 6 日 Meta 宣布推出 Segment Anything Model 工具,可准确识别图像中的对象。该项目包括模型、数据集,并以较为宽松的 Apache 2.0 许可下允许他人使用。该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图,有望对人工智能 CV 领域产生重大影响。国信计算机观点:1)Meta 推出 SAM 模型,图像分割效果卓群,SAM 允许用户以灵活的方式进行图像分割。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM 模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比 ChatGPT 在语言领域的应用和突破。2)Meta 发布有史以来最大的分割数据集 SA-1B,得益于基础模型中 prompt 的引入,SAM 模型数据集的收集速度和体量均有大幅提升。3)SAM 开源将大幅提升 CV 产业能力,机器视觉产业将全面受益于 SAM 模型发展;同时结合大语言模型的快速发展,多模态 AI 应用有望加速。5)投资建议:建议关注机器视觉、多模态 AI 产业,包括视觉内容生成、VR、AR 等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。5)风险提示:国内 AI 技术和应用发展不及预期;宏观经济下滑影响 IT 支出;AI 应用相关政策和法律推进缓慢。评论: Meta 发布 SAM 模型,CV 领域迎来迎来 GPT-3 时刻Meta 推出 SAM 模型,图像分割效果卓群。分割作为计算机视觉的核心任务,已经得到广泛应用,但是以往该任务需要大量数据标注和高度专业化的工作。Meta 发布的 SAM 可以识别图像和视频中的任何物体,即使是在此前的训练过程中从未遇到过。目前 SAM 能很好的自动分割图像中的所有内容,还能根据提示词进行图像分割。Meta 内部已经使用了与 SAM 类似的技术,用于标记照片、审核违禁内容以及确定向 Facebook和 Instagram 用户推荐哪些帖子等活动。图1:SAM 对图像的分割图2:SAM 根据提示词进行图像分割资料来源:机器之心,国信证券经济研究所整理资料来源:机器之心,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2SAM 对图像分割技术形成突破。图像分割主要有 2 种解决方法:第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法;第二种是自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(如数万个分割猫的例子)。SAM很好的结合了两种方法,以一个单一的模型,实现交互式分割和自动分割。SAM 允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务,这种灵活性在图像分割领域尚属首创。在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM 能够在 50 毫秒内根据网络浏览器中的任意提示生成相应分割。图3:SAM 的通用分割模型资料来源:Meta,国信证券经济研究所整理 Meta 发布有史以来最大的分割数据集 SA-1B数据集同样是 SAM 模型成的关键。Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion mask(SA-1B),该数据集包含超 11 亿个掩码,据称是同类数据集中最大的。得益于当前基础模型中 prompt的引入,Meta AI 团队也将该技术应用于对新数据集和任务执行零样本和少样本学习。本次数据收集是由SAM 完成,标注者使用 SAM 以交互方式标记图像,之后使用新标注的数据依次更新 SAM。通过多次重复此循环,以迭代方式改进模型和数据集。SAM 收集分割掩码的速度大幅提升,只需约 14 秒即可以交互方式标注掩码;与之前的大规模分割数据收集工作相比,SAM 模型速度提升了数倍。SAM 数据集包含从约 1100万许可和隐私保护图像上收集到的超 11 亿个分割掩码。SA-1B 的掩码比任何现有分割数据集都多出 400倍;且经过评估,这些掩码的质量和多样性均保持较高水平。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告3图4:SAM 收集分割掩码的速度大幅提升图5:资料来源:Meta,国信证券经济研究所整理资料来源:Meta,国信证券经济研究所整理 Meta 开源 SAM 模型,多模态 AI 应用可期SAM 开源将大幅提升 CV 产业能力。Meta 对 SAM 模型从数据集到训练代码和预训练结果完全开源,有望大幅提升产业应用生态。英伟达人工智能科学家 Jim Fan 表示,SAM 的能力可类比为计算机视觉领域的 GPT-3时刻,SAM 已经了解物体的一般概念,即使对于未知对象、不熟悉的场景和模棱两可的情况下也能进行很好的图像分割。SAM 已经足够通用,可以覆盖广泛的用例,具备零样本千亿能力,在新的图像领域实现即开即用,而无需额外训练。SAM 的开源将带动 CV 产业再次跃升。机器视觉产业将全面受益于 SAM 模型发展。图像分割即识别出图像中的哪些像素隶属于同一对象,是计算机视觉领域的一项核心任务。当前智能摄像机的人脸、车牌、物体的识别均是图像分割的应用。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM 模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比 ChatGPT 在语言领域的应用和突破。机器视觉产业能力有望大幅提升。SAM 将推动多模态 AI 应用发展。多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。多模态研究的就是这些不同类型的数据的融合的问题,例如通过 NLP 的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示。当前发展火热的 GPT-4,主要是基于大语言模型的语言和文字维度;结合当前 SAM 模型的视频和图像维度,多模态 AI 融合可期。SAM 模型各类应用有望逐步爆发。Meta 仍在持续提升图像分割的能力,尤其是可提示的分割模型,Meta希望基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。目前除了 Meta 在内部标记照片等使用场景外,SAM 还可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组

立即下载
综合
2023-04-10
国信证券
熊莉,胡剑,库宏垚
6页
2.39M
收藏
分享

[国信证券]:人工智能行业点评:SAM模型带来图像分割的GPT-3时刻,机器视觉和多模态AI迎突破,点击即可下载。报告格式为PDF,大小2.39M,页数6页,欢迎下载。

本报告共6页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共6页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
主要指数换手率(%)
综合
2023-04-10
来源:周度策略:科技股持续强势,市场放量上攻
查看原文
主要指数换手率变化(%)
综合
2023-04-10
来源:周度策略:科技股持续强势,市场放量上攻
查看原文
A 股市盈率(倍)和 10 年国债收益率倒数对比
综合
2023-04-10
来源:周度策略:科技股持续强势,市场放量上攻
查看原文
股债相对回报率
综合
2023-04-10
来源:周度策略:科技股持续强势,市场放量上攻
查看原文
申万行业市盈率对比
综合
2023-04-10
来源:周度策略:科技股持续强势,市场放量上攻
查看原文
申万创业板市盈率(倍)
综合
2023-04-10
来源:周度策略:科技股持续强势,市场放量上攻
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起