开源Llama 3.1发布,对端云AI的影响
请务必阅读正文之后的免责声明及其项下所有内容2024年07月31日开源Llama 3.1发布:对端云AI的影响行业研究 · 行业专题 计算机 · 人工智能投资评级:优于大市(维持)证券分析师:熊莉021-61761067xiongli1@guosen.com.cnS0980519030002证券研究报告 | 请务必阅读正文之后的免责声明及其项下所有内容摘要•Llama 3.1发布,开源大模型王者易主。7月24日报道,美国科技巨头Meta推出迄今为止性能最强大的开源大模型——Llama 3.1 405B(4050亿参数),同时发布了全新升级的Llama 3.1 70B和8B模型版本;Meta评估了超150个基准数据集的性能,Llama 3.1 405B在代码生成和评估、数学推理、长上下文处理、工具使用和多语言支持等一系列任务中,可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美;在其他场景中,Llama 3.1 405B进行了与人工评估的比较,其总体表现优于GPT-4o和Claude 3.5 Sonnet。•开源引领,加速构建META生态。与闭源模型不同,Llama 3.1是公开可用的模型,模型的权重可供下载;Llama 3.1开源使得更广泛的开发者及社区可以为其应用程序定制模型,并在任何环境中运行,包括本地服务器、云端、笔记本电脑、甚至手机等,同时无需将数据分享给Meta。同时,Meta透露,其更新了许可证,允许开发人员首次使用包括405B参数规模的Llama模型的输出来改进其他模型。•未来预期:转向MOE结构,落地三种商业模式。MoE(混合专家模型)是一种基于Transformer架构的模型,旨在提高模型的计算效率和性能。其基本思想是通过多个“专家”网络(子模型)协同工作,根据输入数据的特征动态选择最合适的专家,从而优化计算资源的使用和模型的预测精度。基于Meta的商业模式,我们认为Llama 3.1在未来将有以下商业化落地模式: 1)云厂商使用费用:谷歌、亚马逊等下游云服务商提供基于Llama 3.1模型的服务,Meta将从中收取部分费用; 2)通过Meta生态间接变现:在Meta开发的Facebook、Instagram等软硬件产品上使用基于Llama 3.1模型的AI助手,从而吸引用户在软件内消费; 3)广告服务:基于Llama 3.1模型提供广告开发以及精准投放服务,并收取费用。•风险提示:大模型研发进展不及预期,AI应用落地不及预期,AI算力投入不及预期。请务必阅读正文之后的免责声明及其项下所有内容图2:Llama 3.1 405B模型人类评估测试资料来源:Meta官网,国信证券经济研究所整理Llama 3.1发布:开源模型王者易主•7月24日报道,美国科技巨头Meta推出迄今为止性能最强大的开源大模型——Llama 3.1 405B(4050亿参数),同时发布了全新升级的Llama 3.1 70B和8B模型版本。•Meta评估了超150个基准数据集的性能,Llama 3.1 405B在代码生成和评估、数学推理、长上下文处理、工具使用和多语言支持等一系列任务中,可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。•在其他场景中,Llama 3.1 405B进行了与人工评估的比较,其总体表现优于GPT-4o和Claude 3.5 Sonnet。另外,升级后的Llama 3.1 8B和70B模型,相比于同样参数大小的模型性能表现也更好。•Llama 3.1 405B支持上下文长度为128K Tokens,增加了对八种语言的支持,在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练,这也是Meta有史以来第一个以这种规模进行训练的Llama模型。•与之前的Llama版本相比,Llama 3.1提高了用于训练前和训练后的数据数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。•截至目前,已经有超过25个企业推出了基于Llama 3.1开源版本的新模型。其中,亚马逊AWS、Databricks和英伟达正在推出全套服务,AI芯片创企Groq等为Meta此次发布的所有新模型构建了低延迟、低成本的推理服务,Scale AI、戴尔等公司已准备好帮助企业采用Llama模型并使用自己的数据训练定制模型。国内方面,阿里云、腾讯云已上架 Llama 3.1模型,并支持精调和推理。图1:Llama 3.1与主流大模型测试对比资料来源:Meta官网,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容开源引领:加速构建META生态•与闭源模型不同,Llama 3.1是公开可用的模型,模型的权重可供下载。Meta在llama.meta.com以及Hugging Face上提供下载途径,开发者可以完全根据他们的需求和应用定制这些模型,能够在新的数据集上进行训练,并进行额外的微调。•Llama 3.1开源使得更广泛的开发者及社区可以为其应用程序定制模型,并在任何环境中运行,包括本地服务器、云端、笔记本电脑、甚至手机等,同时无需将数据分享给Meta。•同时,Meta透露,其更新了许可证,允许开发人员首次使用包括405B参数规模的Llama模型的输出来改进其他模型。Meta的商业模式基于为客户打造体验和服务,基于Meta的商业模式,我们认为本次Llama 3.1开源主要由于以下原因:•1)不同于闭源模型厂商,Meta的商业模式主要通过在生态里的应用、广告盈利,因此公开发布Llama不会影响Meta的收入、可持续性或研究投资能力,而这些对闭源模型厂商则会有影响;•2)Meta的商业模式决定了其必须确保不被锁定在竞争对手的封闭生态系统中,以免限制自身的开发。通过开源吸引大量开发者使用,Llama将发展成完整的生态系统,包括工具创新、效率改进、硬件优化和其他集成,基于Llama开发的AI助手将部署在Meta的软件当中,为用户带来全新体验,从而增加用户粘性,为自身其他产品打造护城河;•3)Meta有着长期开源项目的成功经验。曾通过开源数据中心设计从而引领行业标准,从而在建设数据中心时节省数十亿美元,Meta同样希望Llama将成为开源大模型行业的标准,使自身生态系统在未来受益。图3:Llama 3.1对Meta生态的影响资料来源:Meta官网,Github官网,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容图5:MoE相关研究增长强劲资料来源:《A Survey on Mixture of Experts》,国信证券经济研究所整理未来预期:转向MOE结构,落地三种商业模式•为训练Llama 3.1模型,Meta做出了以下设计:•1)选择了标准的仅解码器的Transformer模型架构,并进行了一些微小调整,而不是使用专家混合模型,以最大化训练的稳定性;•2)采用了迭代的后训练程序,每轮使用监督微调和直接偏好优化。这使Meta能够为每轮创建最高质量的合成数据,并提高每项能力的性能;•3)与之前的Llama版本相比,Meta改进了用于前训练和后训练的数
[国信证券]:开源Llama 3.1发布,对端云AI的影响,点击即可下载。报告格式为PDF,大小1.5M,页数11页,欢迎下载。
