李锴:通过总线技术实现数据中心级“先进封装
演讲人:李锴演讲单位:中国移动研究院图片来源:AMD 在Chiplet条件下,Intel、AMD、Arm、Hygon等处理器的核心数量不断增加,通用服务器算存比没有大幅波动情况下,对服务器内存容量需求大幅提升;Intel Sapphire Rapids 提供多达60个内核,120线程,8个内存通道AMD Genoa 提供多达128个内核,256线程,12个内存通道图片来源:Intel不断增加的核心数量进一步提升了算力能力,与此匹配的服务器内存需求也同步匹配•新一代人工智能依赖数据、算法和算力,然而,当前AI硬件的算力增长远远超过内存发展速度,导致原有内存的分层架构效果无法完全满足现在业务需求;•在边缘场景下,海量、高维模型、稀疏特征数据需要强大的内存支持系统来实现更好的在线推理能力;在大模型的训练和推理场景,GPU/AI卡的显存或内存容量不足,呈现出明显的「内存墙」问题。这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战,隐藏层大小可能就是数百万的量级,总参数量甚至能达到十万亿的量级,对显存/内存需求大训练、推理场景在应用需求对大内存迫切性增加•需要通过芯片层级的架构改进来缓解内存墙瓶颈,例如将内存堆叠在逻辑芯片上,使内存更靠近处理器,从而更近、更快且更容易访问数据,无论在是通用计算还是智算都殊途同归;来源:AMD来源:NVIDIA来源:TSMC处理器内存加速器传统计算架构处理器内存加速器芯片级共封装内存内存芯片内部正在使内存更接近逻辑和加速器,内存将不是通过 PCB 连接的,而是放在封装之中,CPU和加速器的速度更快、性能更高同封装同封装•面向大模型的训练、推理场景,单机8卡已经不能单纯作为单台服务器的边界,需要构建更大型的超级计算机提高计算效率和能力,通过实现计算架构的改进,以确保其满足算、存要求,使数百级别处理器进行总线级互联;•做为另外一种“先进的封装技术”,其规模已扩大至数据中心,总线连接可被视为中介层;传统数据中心S²架构数据中心处理器内存a-b加速器处理器内存b-c加速器处理器内存c-d加速器处理器内存d-e加速器交换机、路由器处理器内存a-e加速器处理器内存a-e加速器处理器内存a-e加速器处理器内存a-e加速器总线总线总线总线总线互联Server1Server2Server3Server4Super Server(S²)实现总线互联的数据中心“先进封装”PCIe连接CXL连接•当前业界有多种通过总线技术实现拓展带宽的技术,并将CPU、GPU、存储介质等异构部件实现全连接,增加缓存一致性、纳秒级时延、百处理器级别的技术能力,力争通过总线技术将大规模的存、算融为一体;•PCIe/CXL、Nvlink、CCIX、AMBA等技术正在加速演进;总线协议CXL/PCIe 5.0NVLINK 4.0速率PCIe 5.0 32GT;PCIe 6.0 64GT;100Gbps;开放性开放封闭•中国移动正在密切探索包括CXL在内的多种总线技术,目的统一异构部件的算力和存储资源,实现大带宽芯片连接;•当总线可以实现多种应用场景,从现实需求的优先级来说,建议在构建统一内存池和GPU/AI芯片层级的总线互联进行同步推进;•内存池可以实现处理器和内存设备之间的缓存一致性访问,扩大内存容量和带宽;012345...N一组有N张GPU/AI卡012345...N一组有N张GPU/AI卡计算总线总线 Switch总线 Switch总线Switch总线 Switch总线 Switch总线 Switch总线 Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接推进GPU/AI芯片层级的总线互联通过探索包括CXL在内的总线级内存池;新型总线的卡间互联模式,形成技术突破和应用推进总线互联的内存池012345...N多Server共享存储资源012345...N多Server共享存储资源总线 Switch总线 Switch总线 Switch总线 Switch计算总线ServerServerServer更灵活的存储结构更高效应用开发更多样的存储介质本次项目关注点SSDSSDSSDSSDSSDDDRDDRDDRHBMHBMHBM•Type 1:主要用于连接处理器和SmartNic等加速器,以提高处理器的转发效率性能;•Type 2:主要用于连接处理器、GPU等加速器和内存,以提高多处理器对内存的使用,提升多处理器协同效率。•Type 3:主要用于连接处理器和扩展内存,以满足内存带宽和容量的拓展加速器主机CXL.ioCXL.cacheDDRDDRDDRCache加速器主机CXL.ioCacheCXL.memCXL.cacheDDRDDRDDR加速器主机CXL.ioCacheCXL.memType1Type2Type3允许加速器访问和缓存主机连接的DDR内存允许加速器访问和缓存主机连接的DDR内存允许主机访问加速器的易失性(RAM)和持久性非易失性(闪存)存储允许主机访问加速器的易失性(RAM)和持久性非易失性(闪存)存储SmartNICGPU/AIExpandor•提供新型计算模型的解决方案,为云计算和数据中心提供更高的数据速率、更高的带宽和容量•适用于多种类型存储器的通用标准接口,可以为系统灵活的利用DRAM、LPDDR等不同内存介质性能增强容量增大寄存器CacheDDR通过总线技术实现拓展MemorySSDHDDü可以灵活地添加各种内存,而不会影响本机连接的 DIMMü内存可以针对系统成本、容量、功率、带宽进行独立优化NVMe1ns10ns100ns250ns400ns10-40us3-10ms附加到CPU独立于CPU磁盘CPUDRAMDRAMDRAMDRAMDRAMDRAMDRAMDRAM(a) 非总线场景CPUDRAMDRAMDRAMLPDDRNVMe(b) 总线场景内存技术…CXL等•以CXL等总线级技术不仅提供了高速传输,还支持内存共享和虚拟化,使设备之间的协作更加紧密和高效。•通过带宽提升、多样性存储介质有助于满足现代数据中心对大规模处理和分析的需求,同时也能够为 AI、机器学习等新兴应用提供更好的支持,从整体上降低TCO带宽•当前CXL 基于PCIe 5.0接口,支持32GB/s 的双向传输速率;•通过利用主机处理器通过总线连接到各种内存接口来实现内存介质独立性;•内存控制器可以设计为支持不同的内存类型,DDR4、DDR5 甚至持久内存或存储类内存;内存带宽提升01多样•运行程序可在持久存储中,服务器断电内存数据不丢失;•总线级互联可直接连接CPU和设备,共享内存空间,避免了多个接口之间的通信开销;•可实现内存扩展和内存共享,包括非易失性存储介质,使得业务可以快速恢复;多样性存储介质02成本•通过内存扩展器(Memory Expander)来增加 DRAM 的容量,可以在不改变系统结构的情况下,提高内存的可用性和灵活性。•内存控制器提供的灵活性为提供比传统 DIMM 更精细的容量粒度提供了选择,允许系统实施者调整内存容量以适应其应用并降低成本;内存成本降低03主机CPU总线内存扩展器内存控制器内存一、本地内存主机0Multi Port内存扩展器内存控制器1二、内存池化内存控制器
李锴:通过总线技术实现数据中心级“先进封装,点击即可下载。报告格式为PDF,大小10.61M,页数16页,欢迎下载。
