关于人工智能大模型的几点思考

清华大学郑纬民报告内容AI基础大模型输入小标题人工智能进入大模型时代从单模态向多模态发展ChatGPT实现真正像人类一样来聊天交流文本交互Midjourney AIGC 画作《太空歌剧院》获得人类艺术比赛冠军图像创作阿里云视频生成大模型 I2VGen-XL，上传1张图后2分钟生成高清视频视频生成行业 + AI加速行业智能化升级，开始创造更大价值AI+金融企业财务异常识别准确率提升20%AI+医疗药物研发周期从数年缩短到1个月AI+智能制造工业质检准确率提升14% AI+司法智慧司法系统AI+汽车自动驾驶智能网络AI+气象比传统天气预报提速10000倍+报告内容，数据预处理频繁、随机小样本读取对文件系统提出挑战随机读取训练样本进行预处理大数据模型训练训练GPT4:一万块A100 x 11月大量数据经过模型需要海量算力模型微调垂域模型: 基座模型精调需要算力精调垂域模型需要可控算力模型推理实时的用户请求对算力需求强劲实时处理用户请求需要稳定可靠算力数据获取海量小文件存储对文件系统提出需求获取不同类型的原始数据并存储，数据预处理频繁、随机小样本读取对文件系统提出挑战随机读取训练样本进行预处理大数据模型训练训练GPT4:一万块A100 x 11月大量数据经过模型需要海量算力模型微调垂域模型: 基座模型精调需要算力精调垂域模型需要可控算力模型推理实时的用户请求对算力需求强劲实时处理用户请求需要稳定可靠算力数据获取海量小文件存储对文件系统提出需求获取不同类型的原始数据并存储120亿图像文件(< 20 KB)Dall-E数据集1亿音频文件(< 2 MB)Youtube大模型训练需要收集海量多模态小文件多模态：文本、音频、图像、视频特点：任一模态的数据集包含多达数亿至数百亿个小文件海量小文件的存储挑战——元数据管理难扩展性要求高：存储100亿的小文件需要管理7TB 元数据延迟要求高：典型要求百微秒级读取延迟，以满足数据分析、模型训练等应用的需求因元数据瓶颈，现有系统延迟在毫秒级, 如 Ceph0%50%100%大文件小文件数据部分元数据部分10%65%小文件读取，元数据开销成瓶颈500亿网页文件(< 8 KB)Common Crawl[1] https://help.aliyun.com/zh/oss/support/apsara-file-storage-nas问题：现有分布式文件系统无法同时满足可扩展和低延迟的需求—元数据集中式管理架构 (HDFS、Lustre)：访问延迟低，但无法横向扩展—元数据分布式管理架构 (CephFS) ：可横向扩展，但访问延迟高采用元数据集中式管理架构的文件系统最大文件数HDFS1 亿Lustre40 亿能存储的最大文件数受限，无法支持AI场景的海量文件目录树元数据服务器目录树data/homellmcvbobalicef1 f2… f3f4f5f6…f7元数据服务器2元数据服务器1元数据服务器3路径解析需跨多台元数据服务器，导致元数据延迟高，超过数据延迟两倍data/homellmcvbobalicef1 f2… f3f4f5f6f7 …低延迟：将目录元数据集中在一台目录元数据服务器中，实现路径解析的低延迟路径解析在目录元数据服务器本地完成，无跨网开销可扩展：将文件元数据分布到多台文件元数据服务器中，支持文件数目横向可扩展文件元数据服务器之间无共享，扩展性好文件元数据服务器1目录元数据文件元数据目录元数据服务器文件元数据服务器𝑛/图例路径解析低延迟data/homellmcvbobalicef1 f2… f3f4f5f6f7…f8f1 f2 f3f4 f5 f6…解耦文件数目可扩展f目录树1101001000File CreateFile StatFile Delete16452031平均延迟 (us)51x59x文件操作延迟文件操作1080[1] SingularFS: A Billion-Scale Distributed File System Using a Single Metadata Server, USENIX ATC’ 23 2023年5月 (ISC 23): IO 500总分全球第一 2023年11月 (SC 23): IO 500总分全球第一 2024年5月 (ISC 24): IO 500总分全球第一数据预处理频繁、随机小样本读取对文件系统提出挑战随机读取训练样本进行预处理大数据模型训练训练GPT4:一万块A100 x 11月大量数据经过模型需要海量算力模型微调垂域模型: 基座模型精调需要算力精调垂域模型需要可控算力模型推理实时的用户请求对算力需求强劲实时处理用户请求需要稳定可靠算力数据获取海量小文件存储对文件系统提出需求获取不同类型的原始数据并存储[1] Murray D G, Simsa J, Klimovic A, et al. tf. data: A machine learning data processing framework. VLDB 2021.[2] Mohan J, Phanishayee A, Raniwala A, et al. Analyzing and mitigating data stalls in DNN training. arXiv 2020.据谷歌数据中心统计，30% 的训练时间用于数据预处理[1]微软分析了9种常见模型，数据预处理最多占用65% 的模型训练时间[2]数据解码变换…随机采样模型计算NVMeSSDHDD缓存数据预处理挑战：预处理需要从分布式文件系统读取数据，开销大解决方法：提出以数据为中心，将计算任务搬到数据节点上需要处理的数据分散在多个节点上，读远端节点的数据会引入极大的网络开销已有的方法通常以计算为中心，将需要处理的数据搬移到进行计算任务的节点将计算任务动态地根据其需要的数据调度到数据所在的节点上从分布式系统的数据读入转换成从本地文件系统读入管理节点计算节点输入数据计算节点输入数据计算节点输入数据1. 调度任务2. 反馈结果诸葛弩大数据处理引擎的设计理念：兼容PySpark编程接口：对PySpark用户没有额外的学习成本采用大量编译优化技术：通过静态分析、算子融合、向量化、紧凑化数据排布等编译技术，降低数据处理开销提供良好的编程接口：提供基于C++ RDD编程接口，供性能工程师编写高性能计算模块，嵌入端到端PySpark数据预处理管线中领域支持层高效能底座层MinHash诸葛弩运行时诸葛弩SDK (基于C++ RDD的扩展接口)诸葛弩PySpark API编译优化层诸葛弩Python UDF编译器诸葛弩Catalyst插件……CCNet以数据为中心的执行模式：数据读入开销低，动态负载均衡解析将JSON文件从文件系统中读入并解析成关系表格式哈希计算MinHashLSH算法计算文档在各条带下的MinHash值GroupBy按照条带与哈希值进行分组生成边每个条带下，相同MinHash值的文档被视为相似，并生成边Join将文档编号与文档属性关联写回将表数据以JSON格式写回文件系统删冗前的文本数据（JSON）文档的相似关系（JSON）SQL流程RDD流程MinHash 流程102.5

立即下载

信息科技

2025-05-14

70页

6.55M

关于人工智能大模型的几点思考，点击即可下载。报告格式为PDF，大小6.55M，页数70页，欢迎下载。

本报告共70页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共70页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

关于人工智能大模型的几点思考

关于我们

联系我们

关于人工智能大模型的几点思考

关于我们

联系我们

小程序

公众号