计算机行业AI前沿系列(一):混合专家模型技术(MoE)
AI前沿系列(一):混合专家模型技术(MoE)证券研究报告行业动态报告发布日期:2023年8月18日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博yufangbo@csc.com.cnSAC编号:S1440522030001分析师:金戈jinge@csc.com.cnSAC编号:S1440517110001SFC 中央编号:BPD352分析师:阎贵成yanguicheng@csc.com.cnSAC编号:S1440518040002SFC编号:BNS315• 核心观点:混合专家模型技术(MoE)是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE通过门控网络实现任务/训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。随着大模型参数量的持续提升,MoE在提升计算效率方面展现出强大的能力。同时,近年来MoE逐渐与不同领域的模型相结合,包括自然语言、图像、推荐系统、多模态等,并展现出优秀的性能。后续MoE技术将在提升训练及推理效率、优化模型性能和边缘&端侧AI应用等方面发挥重要作用, 建议关注相关研究进展。• 混合专家模型技术(MoE)让模型具有稀疏性,进而提高模型计算效率。在传统的密集模型中,输入的内容要在整个模型中进行计算,而MoE 通过门控模型将输入内容分配至一个或多个专家模型,保证在单次处理中只有少数专家模型被激活或使用,而大部分专家模型处于未被激活状态,从而实现模型的稀疏性。这一性质大幅提高了模型的计算效率,例如Switch Transformer的训练速度最高可以达到T5模型(参数量相近情况下)的7倍, 而V-MoE相较于ViT模型,达到相同性能的情况下节省了2.5倍的算力消耗。• 混合专家模型(MoE)技术目前在多个AI细分领域中有所应用,性能提升显著。近年来随着MoE技术的不断突破,其在自然语言处理、计算机视觉、多模态、推荐系统等丰富场景中有所应用。相较于密集模型而言,稀疏的MoE模型在性能和计算效率上都有显著提升,例如NLP领域的GLaM模型在零样本、单样本和少样本学习任务上相较于GPT-3分别实现了平均10.2%、6.3%和4.4%的性能提升,多模态领域的LIMoE在零样本、少样本的图像分类任务中的绝对平均性能相较于CLIP分别实现了10.1和12.2%的提升。• 展望未来,混合专家模型(MoE)技术将成为AI技术革新和AI应用落地的强大推动力。AI技术革新方面,MoE技术将从计算效率、模型性能和模型可解释性方面提供发展助力,相关论文发表数量呈现明显上升趋势;AI应用落地方面,MoE将推动训练门槛降低、更新迭代速度加快、推理速度加快、推理算力需求降低、应用领域拓展等方面的进度,相关科技巨头都已对这一技术展开布局,相关应用领域如机器人、计算机视觉等将加速发展。核心观点目录一、混合专家模型(MoE)介绍二、MoE技术在不同领域中的应用三、MoE最新研究进程及未来展望1.1 混合专家模型(MoE)发展历程资料来源: Web of science,Google scholar,中信建投199020101991MoE架构首次被提出早期MoE主要用于机器学习领域MoE逐渐应用于深度学习,但后续研究有所停滞2020随着模型规模的不断扩大,MoE成为高效的训练和推理计算的重要发展方向。门控网络/通信算法等核心技术的持续革新,推动着MoE在NLP、CV、多模态、推荐系统等领域中广泛应用并取得优异性能2020.6Gshard2022.1DeepSpeed-MoEGLaM2023.7-8FLAN-MoESoftMoE2022.10-11EC-CFMegaBlocks自然语言处理计算机视觉其他应用领域MoE技术2022.6-7LIMoEUFO2023.2SparseMoE2017MoE(Sparse)2013DMoE(Dense)2018MMoE2021GPT-3TransformerViTChatGPTGPT-4MoE(2017):在两个 LSTM 层之间插入一个 MoE 层,在机器翻译中实现 SOTA 202220232021.8-9Z-code MoETHOR2021.1-3FastMoESwitch Transformer2021.5-7SpeechMoEV-MoEHash LayerGshard(2020):将MoE应用于Transformer架构中,并提供了高效的分布式并行计算架构。V-MoE(2021):V-MoE可以在保持性能的同时减少计算资源的使用,从而实现更高效的模型训练和推理。Switch Transformer(2021):模型整体参数量扩大至1.6万亿,通过MoE实现了更为高效率的模型训练,相同计算资源的情况下训练速度是T5的7倍SoftMoE(2023):提出了SoftMoE的token处理方式,实现了训练稳定性和可拓展性的提升。2022.3-4FasterMoEST-MoE1.2 混合专家模型思想基础:集成学习•MoE前身--集成学习(Ensemble Learning):集成学习是通过训练多个模型(基学习器)来解决同一问题,并且将它们的预测结果简单组合(例如投票或平均)。集成学习的主要目标是通过减少过拟合,提高泛化能力,以提高预测性能。常见的集成学习方法包括Bagging,Boosting和Stacking。•集成学习流程介绍:在训练过程中,利用训练数据集训练基学习器,基学习器的算法可以是决策树、SVM、线性回归、KNN等,在推理过程中对于输入的X,在每个基学习器得到相应的答案后将所有结果有机统一起来,例如通过求均值的方法解决数值类问题,通过投票方式解决分类问题。图:集成学习技术示意图不同的学习策略数据集训练集X测试集LinRegSVMKNN决策树模型2模型3模型1模型4训练训练训练训练XXXX投票方式求均值方式…… Y不同的基学习器资料来源: 机器之心,Leovan,中信建投集成学习方法基学习器种类介绍Bagging同质相互独立地并行学习这些弱学习器,并按照某种确定性的过程将它们组合起来。Boosting同质它以一种高度自适应的方法线性学习这些弱学习器(每个基础模型都依赖于前面的模型),并按照某种确定性的策略将它们组合起来。Stacking异质并行地学习它们,并通过训练一个「元模型」将它们组合起来,根据不同弱模型的预测结果输出一个最终的预测结果。图:集成学习技术方法介绍1.3 混合专家模型的主要组成部分•基本概念:混合专家模型(MoE)是一种稀疏门控制的深度学习模型,主要由一组专家模型和一个门控模型组成。MoE的基本理念是将输入分割成多个区域,并对每个区域分配一个或多个专家模型。每个专家模型可以专注于处理输入的一部分,从而提高模型的整体性能。•门控模型:稀疏门网络是混合专家模型的一部分,它接收单个数据元素作为输入,然后输出一个权重,这些权重表示每个专家模型对处理输入数据的贡献。例如,如果模型有两个专家,输出的概率可能为0.7和0.3,这
[中信建投]:计算机行业AI前沿系列(一):混合专家模型技术(MoE),点击即可下载。报告格式为PDF,大小3.91M,页数24页,欢迎下载。
