人工智能行业:阿里达摩院通义大模型概述

阿里达摩院通义大模型概述证券研究报告行业简评报告发布日期:2023年3月23日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博yufangbo@csc.com.cnSAC编号:S1440522030001分析师:金戈jinge@csc.com.cnSAC编号:S1440517110001SFC 中央编号:BPD352分析师:阎贵成yanguicheng@csc.com.cnSAC编号:S1440518040002SFC 中央编号:BNS315仅供内部参考,请勿外传• 核心观点:阿里推出“通义”系列大模型,以统一学习范式和模块化设计理念统一架构、模态、训练、应用等方面,使用开源社区“魔搭”进行模型服务共享,推出“飞天智算平台”提升AI训练效率。目前阿里“通义”大模型已广泛用于电商、设计、医疗等领域,助力其降本增效。我们建议关注阿里产业链相关公司,特别是阿里通义大模型合作厂商。• 2022年9月2日,阿里发布 “通义”大模型系列,通义打造了AI统一底座,并构建了大小模型协同的层次化人工智能体系,将为AI从感知智能迈向知识驱动的认知智能提供先进基础设施。通义大模型体系由统一底座层、通用模型层、行业模型层组成,其中统一底座是由统一学习范式和模块化设计理念构成;通用模型层主要包括通义-M6、通义-AliceMind和通义-CV三大模型体系。2022年1月,阿里发布M6-OFA模型,成为业界首个通用的统一大模型,在架构、模态、任务上实现统一;通义-AliceMind模型体系包含了通用语言模型StructBERT、生成式语言模型PALM、结构化语言模型StructuralLM等八个语言模型,在多个下游语言任务中实现最优结果,达到了中文语言理解水平新高度;通义-视觉大模型底层由两个基础模型构成,能够实现视频处理、视觉问答、视觉算数等多种算法,在电商、交通、自动驾驶等领域发挥作用。• 2022年11月,阿里推出AI开源社区“魔搭”(ModelScope),旨在打造下一代开源的模型即服务共享平台,致力降低AI应用门槛,目前,“魔搭”社区首批上架超300个模型,从多维度帮助开发者解决实际在模型使用和开发遇到的难题,推动 AI 应用发展。• 2023年3月,阿里在“魔搭”上线了“文本到视频生成扩散模型”,实现视频生成功能。该模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿,扩散结构采用典型的U-Net网络架构,通过反向扩散过程,实现视频生成的功能。• 大模型算力方面,阿里云推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,张北智算中心与乌兰察布智算中心,为科研、公共服务和企业机构提供强大的智能计算服务,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。• 阿里推出“通义”系列大模型,以统一学习范式和模块化设计理念统一架构、模态、训练、应用等方面,使用开源社区“魔搭”进行模型服务共享,推出“飞天智算平台”提升AI训练效率。目前阿里“通义”大模型已广泛用于电商、设计、医疗等领域,助力其降本增效。我们建议关注阿里产业链相关公司,特别是阿里通义大模型合作厂商。核心观点仅供内部参考,请勿外传通义大模型:既通用多种任务,又容易落地应用图表:阿里巴巴通义大模型系列发布资料来源:阿里达摩院,中信建投• 多年来,阿里巴巴达摩院一直深耕多模态预训练,并率先探索通用统一大模型。自2021年起,阿里达摩院先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破,引领了中文大模型的发展。2022年9月2日,阿里发布 “通义”大模型系列,核心模型通过“魔搭”社区向全球开发者开源开放。面对大模型通用性与易用性仍欠缺的难题,通义打造了业界首个AI统一底座,并构建了大小模型协同的层次化人工智能体系,将为AI从感知智能迈向知识驱动的认知智能提供先进基础设施。• 在技术层面,通义大模型不仅在NLP等单模态场景实现SOTA,在部分多模态任务场景也实现了引领与突破,例如VQA challenge的准确率首超人类表现;在落地层面,通义大模型的资源消耗相对较低,运行速度也进一步加快,以M6大模型为例,相同参数规模下训练能耗仅是GPT-3的1%;在应用层面,目前“通义”大模型已经深入到电商、设计、医疗、法律、金融等行业,服务超过200个场景。仅供内部参考,请勿外传阿里通义大模型主要包括M6/AliceMind/视觉资料来源:阿里达摩院,中信建投图表:阿里巴巴通义大模型架构• 具体来看,通义-大模型整体分为三个层次,分别为行业模型、通用模型与模型底座。1) 模型底座层:统一学习范式与模块化设计;2)通用模型层:NLP模型“通义–AliceMind”;CV模型“通义-视觉”;多模态模型“通义 - M6”。 3)行业模型层:深入电商、医疗、娱乐、设计、金融、工业、制造业等行业。仅供内部参考,请勿外传通义-M6发展历程:较早布局,短时间内实现高速发展• 纵向来看,通义-M6已经从2020年6月的3 亿参数基础模型逐渐发展到2021年10月的10万亿参数全球最大预训练模型再到2022年1月的业界首个通用统一大模型 M6-OFA。2020年1月,阿里巴巴达摩院启动中文多模态预训练模型M6项目,同年6月推出3亿参数的基础模型。2021年1月,模型参数规模到达百亿,已经成为世界上最大的中文多模态模型。2021年3月,千亿参数模型KDD2021发布,与10B模型相比:①训练损失减少37%,在许多下游任务实现SOTA结果;②混合精度提亮90%的效率;③仅需32张v100GPU即可完成训练。2021年5月,具有万亿参数规模的模型正式投入使用,追上了谷歌的发展脚步.2021年10月,M6的参数规模扩展到10万亿,成为当时全球最大的AI预训练模型。2022年1月,业界首个通用的统一大模型M6-OFA发布。图表:通义-M6发展历史2020.01正式启动2020.06基础模型(3亿)2021.01发布百亿参数多模态预训练模型2021.03千亿参数模型,与10B模型相比:①训练损失减少37%,在许多下游任务实现SOTA结果;②混合精度提亮90%的效率;③仅需32卡v100GPU即可完成训练2021.05万亿参数模型,绿色低碳训练/文本到图生成/商业化一流结果2021.10十万亿参数模型,全球最大预训练模型。①10万亿参数模型仅需512张V100GPU;②Pseudo-to-Real机制将训练速度提高了7倍以上;③粒度级控制的CPU Offload模块2022.01业界首个通用的统一大模型M6-OFA(模态、任务和架构)资料来源:阿里达摩院,中信建投仅供内部参考,请勿外传M6-OFA模型实现架构、模态和任务统一图表:M6-OFA模型-任务完成模式(架构统一)图表:M6-OFA模型-预训练模式(模态统一)• 在架构统一方面,M6-OFA整体采用了经典的Trans

立即下载
信息科技
2023-03-24
中信建投
18页
2.12M
收藏
分享

[中信建投]:人工智能行业:阿里达摩院通义大模型概述,点击即可下载。报告格式为PDF,大小2.12M,页数18页,欢迎下载。

本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
NVIDIA BioNemo 服务
信息科技
2023-03-24
来源:电子行业专题研究:从英伟达GTC看AI工厂的投资机会
查看原文
NVIDIA Picasso 输入文本,输出图片、视频、3D 模型
信息科技
2023-03-24
来源:电子行业专题研究:从英伟达GTC看AI工厂的投资机会
查看原文
NVIDIA Picasso 服务
信息科技
2023-03-24
来源:电子行业专题研究:从英伟达GTC看AI工厂的投资机会
查看原文
Nemo 服务基础模型
信息科技
2023-03-24
来源:电子行业专题研究:从英伟达GTC看AI工厂的投资机会
查看原文
NVIDIA Nemo 服务
信息科技
2023-03-24
来源:电子行业专题研究:从英伟达GTC看AI工厂的投资机会
查看原文
NVIDIA Al Foundations
信息科技
2023-03-24
来源:电子行业专题研究:从英伟达GTC看AI工厂的投资机会
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起