腾讯云TI平台的大模型精调解决方案

腾讯云 TI 平台的大模型精调解决方案胡哲优图实验室高级AI技术专家行业知识、模型训练稳定性、资源利用率、国产化适配大模型精调全生命周期的方法论与全流程陪跑自研大模型、大规模预训练、自研加速、国产化适配大模型摘要;大模型问答大模型落地痛点TI 大模型精调解决方案TI精调的核心优势案例分享大模型在业务场景落地的痛点大规模训练不稳定大 模 型 训 练 需 耗 费 大 量GPU 资源且训练周期长,对训练平台的稳定性、故障隔离性、自动容错性等底座能力,以及断点续训能力考验极大模型欠缺行业知识通用领域大模型百花齐放,但都不具备特定行业的独有知识,欠缺行业属性导致无法落地实际业务需国产化适配响应国家政策,摆脱国外资源限制,需要从硬件服务器芯片、操作系统、模型等多个层面完成国产化适配大模型落地业务场景的痛点需提高资源利用率分布式训练需要高效的资源调度管理系统,减少节点资源碎片提高调度成功率;支持虚拟 GPU 调度提高容器资源利用率TI 的大模型精调解决方案MaaS客户专属大模型传媒行业大模型精调解决方案TI平台技术底座平台&工具TI-DataTruth数据标注平台TI-ONE  训练平台TI-Matrix应用平台太极Angel 加速组件基础设施高性能计算集群HCC高性能网络:自研星脉计算网络架构向量数据库行业大模型传媒大模型政务大模型文旅大模型金融大模型教育大模型……TI 的一站式大模型精调解决方案模型选型训练共建部署应用应用场景资源采购业务形态数据评估资源评估环境搭建服务开通交付方案项目排期训练数据准备模型训练知识挖掘+增强数据清洗+切块向量库建设+维护训练平台搭建无监督训练有监督训练人工反馈强化学习训练框架加速脱敏合规模型评测模型管理服务发布性能评测效果评测模型注册模型发布推理框架加速推理服务部署内容安全应用联调需要客户深度参与TI 对大模型开发全生命周期的一体化方法论TI精调的核心优势核心优势1 —自研模型:混元大模型超千亿参数规模(蒸馏出百亿级模型),全链路自主研发,从零训练自主创新AngelHCF 推理框架推理速度相比业界主流框架提升 1.3 倍AngelPTM 训练框架相比业界主流框架提升 1 倍训练速度预训练超 2 万亿token语料优化预训练算法及策略精调及强化学习改进注意力机制开发思维链新算法知识增强逻辑推理内容创作自研机器学习框架创新大模型训练四大核心能力多轮对话共测试29个能力项综合评级 级当前最高分共测试37个能力项综合评级 级当前最高分模型开发信通院测评模型能力C-EvalMMLUAGlEval总集AGlEval中文AGlEval英文混元GPT-3.5GPT-4VS腾讯混元大模型 主流大模型010203040506070GPT-4GPT-3.5混元代码子项01020304050607080GPT-4GPT-3.5混元STEM子项HumanEval分数Ceval-STEMAGlEval-高考0102030405060GPT-4GPT-3.5混元高考题子项051015202530354045GPT-4GPT-3.5混元数学子项AGlEval-数学核心优势1 —自研模型:混元大模型核心优势1 —自研模型:行业大模型降低不同行业数据彼此干扰提升垂类任务性能应用层舆情助手 写作助手 营销助手 访谈助手 客服助手 ... 大模型层平台层自研行业大模型训练支撑:TI-ONE 训练平台行业阅读理解行业数值计算行业知识问答行业文案生成行业信息抽取行业情感分析行业术语增强行业合规安全基础大模型金融行业大模型 医疗行业大模型 文旅行业大模型 ...通用大模型PT&SFT行业大模型传媒文旅金融医疗……大规模通用数据无监督:数T文本有监督:数亿条数据大规模行业数据无监督:百G文本有监督:数百万条数据核心优势1 —自研模型:行业大模型在有行业数据精调的情况下:行业大模型(10亿参数)可以比通用大模型(千亿参数)用小得多的训练资源,训练后得到差不多性能的应用阅读理解API调用问答对生成新闻摘要核心优势2 —大规模训练:简单最快仅需 5 步即可完成大模型精调落地1. 一键启动平台内置精调物料 快速启动精调任务2. 训练监控实时监测资源利用率、训练指标3. 任务管理 模型评估管理任务版本 记录超参、指标快照 4. 模型发布平台内置推理加速镜像 快速部署服务5. 服务调用可视化网页、API接口调用模型服务核心优势2 —大规模训练:稳定NodeNodeNodeNodeTrainOperator1. 机器故障迁移云原生监控2. 异常POD驱逐重新调度3. 断点续训NodeNodeTaskManger节点发生故障时:• 主动发现• 屏蔽节点• 自动扩容• 故障迁移网络/系统等异常时:• 任务管理自动重启训练任务• 恢复历史checkpoint继续训练自底向上 3 层机制保障大模型稳定训练节点/磁盘等突发故障时:• 训练operator感知pod运行状态• 将异常pod重新调度到其他节点• 恢复训练任务核心优势2 —大规模训练:高效开发效率用户仅需聚焦训练任务本身,TI 平台自动注入分布式训练网络通信配置、RDMA、网络拓扑、训练节点相关参数资源利用率问题排查效率支持一键登陆训练容器便捷查看日志、事件、监控管理任务队列,支持高优任务抢占低优任务•AI 批量任务使用 gang 调度策略(要么都成功,要么都失败)•GPU任务使用 binpack 调度策略(优先填满一个节点,避免多卡任务启动失败)•GPU 任务使用拓扑感知调度,提升通信效率•支持虚拟 GPU 调度(0.1-1.0卡)1. 提高容器对资源的利用率2. 减少资源碎片,提高调度成功率3. 支持任务排队,合理分配调度资源1. 异步调度优化CPU&GPU异步调用提高吞吐2. 显存优化缓存定长+池化,提升参数支持规模3. 计算优化Attention及MLP Block块算子融合优化AddLayernormTensorQ GemmK GemmV GemmFusedAddNormFusedBatchGemm核心优势3 —自研加速:Angel 三重优化Bloom 7B行业方案太极Angel8.9 example/s19.1 example/s加速比2.14ChatGLM行业方案太极Angel19.8 example/s33.3 example/s加速比1.7Llama 2行业方案太极Angel48.6 example/s66.8 example/s加速比1.4训练加速效果对比(系统吞吐,越大越好)Bloom 7B行业方案太极Angel17.7 ms/token12.9 ms/token加速比1.37ChatGLM行业方案太极Angel加速比2.4Llama 2行业方案太极Angel加速比1.4推理加速效果对比(输出token速度,越小越好)30 ms/token12.5 ms/token46 ms/token26ms/token核心优势4 —国产化适配:全生命周期腾讯云TI平台信创芯片算力可分配底层软件信创CPU芯片信创AI加速卡(NPU芯片)信创容器平台信创数据库信创操作系统硬件服务器训练任务可运行模型服务可部署信创芯片算

立即下载
综合
2024-06-11
23页
6.51M
收藏
分享

腾讯云TI平台的大模型精调解决方案,点击即可下载。报告格式为PDF,大小6.51M,页数23页,欢迎下载。

本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共23页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关报告
热门报告
加入社群
回顶部
报告群
公众号
小程序
在线客服
收起