互联网行业:中国公有云和互联网创新实践
1英特尔中国公有云和互联网创新实践2Large Language Model (LLM) 大语言模型Traditional Deep Learning 传统深度学习技术篇:英特尔 AI 产品组合英特尔 AI 实战视频课程英特尔中国 AI 实战资源库基于英特尔® 架构的 AI 软件工具组合031015303637CONTENT目录Large Language Model (LLM)大语言模型34阿里云引入第五代至强® 可扩展处理器,实现 ECS g8i 算力再升级,为大模型 AI 推理加速添新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。• 使用处理器内置的 AI 加速引擎 -- 英特尔® AMX 和英特尔® AVX-512,提升并行计算和浮点运算能力;• 受益于第五代至强® 可扩展处理器显著提升的内存带宽和三级缓存共享容量,化解 AI 大模型吞吐性能挑战;• 利用第五代至强® 可扩展处理器内置的英特尔® SGX 和英特尔® TDX 安全引擎,实现端到端的数据全流程保护。CPU 也能玩转 AI - 为 AI 提速,给安全加码挑战解决方案云服务器升级解决方案企业云服务第五代英特尔® 至强® 可扩展处理器具备更强通用计算和 AI 加速能力阿里云 ECS g8i 集群可支撑 72B 参数级别的大语言模型分布式推理文生图创意辅助工具AI 生成代码虚拟助手1.2.3 数据来源于阿里云未公开的内部测试,如欲了解更多详情,请联系阿里云:https://www.aliyun.com英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。算力需求激增:视频、数据库等场景算力需求激增智能化应用普及:大模型推理需求爆炸式增长数据安全挑战:数据隐私及安全需求增强85%整机性能提升高达17 倍AI 推理性能提升高达250%中小参数模型起建成本降低34白皮书 | 用友采用第五代英特尔® 至强® 可扩展处理器加速自然语言处理 (NLP) 应用 助力企业服务数智化转型图 3. 第五代英特尔® 至强® 可扩展处理器具备强大性能为 AI 加速而生的处理器 以针对工作负载优化的性能实现业务增长和飞跃 以高效节能的计算助力降低成本与碳排放 值得信赖的优质解决方案和安全功能 21%整体性能提升42%推理性能提升2.7 倍三级缓存提升10 倍每瓦性能提升16%内存速度提升用友的测试数据如图 4 所示,相较于第四代英特尔® 至强® 可扩展处理器,第五代英特尔® 至强® 可扩展处理器在 NLP (YonMaster Dialogue Bot) 工作负载中实现了 1.2 倍的代际吞吐性能提升6。收益• 提升 NLP 应用的性能显著化解 NLP 中频繁的向72B最大可支持参数规模eRDMA 集群batchsize>32内存资源丰富eRDMA 集群化部署g8ig8ig8ig8ig8ig8i5千帆大模型平台利用百度智能云平台中丰富的英特尔® 至强® 可扩展处理器资源,加速 LLM 模型推理,满足 LLM 模型实际部署需求。• 基于至强® 可扩展处理器不断提升的算力和内存带宽,有效支持 LLM 实现端到端加速;• 采用第四代 / 第五代至强® 可扩展处理器内置的 AI 加速引擎 – 英特尔® AMX, 最大限度地利用计算资源,显著增加 AI 应用程序的每时钟指令数 (IPC);• 利用大模型推理软件解决方案 xFasterTransformer(xFT), 进一步加速 LLM 推理。让更加可及、经济的 AI 算力资源,在千行百业扬“千帆”挑战解决方案大模型推理优化解决方案AI 服务平台2.32 倍相较于第三代至强® 可扩展处理器,基于第五代至强® 可扩展处理器的 Llama-2-7b 模型输出 Token 吞吐提升达175%相较于第三代至强® 可扩展处理器 ,基于第五代至强® 可扩展处理器的 Llama-2-7b 模型首 Token 时延降低达²利用充足的 CPU 资源,降低 LLM 推理服务 TCO百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择扫码获取全文英特尔® AMX 可以更高效地实现 AI 加速85 int8 ops/cycle/corewith 2 FMA256 int8 ops/cycle/corewith 2 FMAs2048 int8 ops/cycle/coreMulti-fold MACs in one instructionLLM 推理中大量矩阵及向量矩阵乘法对硬件的较高需求满足行业离线 LLM 应用需求,并支持用户快速部署 LLM解决 30B 等规模的 LLM 使用高端 GPU 成本较高等问题Intel® AVX-512vpmaddubswvpmaddwdvpadddClock cycle 1Clock cycle 2Clock cycle 316-bitconstant16-bitconstant16-bitoutput32-bitacc output32-bitacc output8-bitinput8-bitinputIntel® AVX-512 (VNNI)Intel® AMX8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc output8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructiontdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc outputFP32 s8 bit exp 23 bit mantissaBF16s8 bit exp7 bit mantissaFP16s5 bit exp10 bit mantissaINT16 s15 bit mantissaINT8s7 bit
[英特尔]:互联网行业:中国公有云和互联网创新实践,点击即可下载。报告格式为PDF,大小12.31M,页数38页,欢迎下载。
