云智算底座,加速释放出行行业AI生产力
腾讯云智算底座加速释放出⾏AI⽣产⼒宋丹丹##腾讯云异构计算产品副总经理数据产⽣速度智驾级别L2L2.5L3L4L5280GB/⼩时1.6TB/⼩时5.8TB/⼩时智驾提升需要更⾼效的AI中台,实现数据价值环境数据天⽓/岔路/传感器位置数据位置/地图/交通车辆数据位置/地图/交通⽤户数据动作/驾驶习惯智能汽车时代,数据体量指数级增长从算法为核⼼到数据为核⼼• ⾃动驾驶级别提升,数据产⽣速度量级激增• 数据种类多、实时性强• 数据的采集、存储、计算、发布形成闭环,推动智驾能⼒迭代数据⾼效利⽤为AI基建带来新的挑战数据体量更⼤海量弹性存储能⼒Data数据类型更多⾼效检索和标注能⼒数据来源更⼴灵活健壮的传输⽹络数据⽣产更快算法训练和仿真能⼒智驾云智算,为智能汽车提供⾼效引擎腾讯云智算服务矩阵云智算能⼒解决⾏业关注点算法训练/仿真⾼性能计算集群HCC机器学习平台TI数据标注/清洗数据万象CI云函数SCF数据合规地图合规专区数据存储对象存储COS数据湖仓TurboCFS数据采集云联⽹CCN⽹络加速AIASD-Wan⾼效长稳的AI计算能⼒灵活的资源配置能⼒合规环境及地图能⼒海量存储及⾼速IO能⼒⾼带宽⼴覆盖的传输能⼒智驾模型迭代加速优化算法弹性错峰为智驾训练提供数据源专业的数据合规处理⽅案⽀持多样化类型的数据读写⼀站式数据采集⽅案数据闭环的五个关键阶段全球⽹络加速:随时随地⾼速接⼊,轻松应对数据井喷数据预处理算法训练仿真测试稳定可靠• 云联⽹跨地域互联平稳畅⾏• 专线多线互备,智能切换超⼤带宽• 全链路⼤吞吐访问• 适配5G通信低时延接⼊节点腾讯云加速⽹络专线接⼊国内车辆IPV4海外车辆CNAME腾讯云接⼊节点接⼊节点就近接⼊点加速通道源站国内车辆域名四层监听七层监听回源节点智能路由技术⾃有IDC源站IP源站域名源站IP源站域名内⽹同城免流避免关键数据丢失丢包降低99%确保OTA升级包完整刷写抖动降低99%公⽹就近接⼊就近接⼊• 依托全球超50个加速节点• 提供任意位置车辆数据接近接⼊⾼性能存储:超⼤容量与智能数据,加速释放数据潜能Tencent/Cloud/Data/Platform就近接⼊• 单集群超⼤存储规模• 可管理超百EB级数据量AI检索与标注• ⽀持⽂搜图/视频• 场景数据⾃动打标样本⾼并发处理提升数据存储及预处理效率数据上报效率90%智能识图/视频⾃动数据标注数据打标效率50%数据采集/路测数据预处理算法训练仿真测试OTA升级云函数SCF:国内⾸发GPU混合调度,数据预处理成本可控超⾼可⽤• ⾃动跨Zone容灾• 多集群部署容灾机制弹性扩缩• 毫秒级⾃动弹性扩缩容• 上不封顶,下可到零每秒最⾼⽀持10万并发请求数并发数10万z单集群⽀持100QPS运⾏QPS100万按量付费• 毫秒级精确计费,⽆访问不收费• 最⾼成本节省超70%⾼度兼容车企已有触发器,⽀持MQTT、COS、Kafka等错峰调度资源复⽤数据采集/路测数据预处理算法训练仿真测试OTA升级案例1:某头部车企数据合规脱敏业务痛点• 数据吞吐⼤:百万量级车辆,数据峰值吞吐带宽⾼达649.5Gbps• 时效要求⾼:数据必须在T+1⼩时内完成处理• 合规要求⾼:存在国家相关法律法规要求,数据端到端安全诉求⾼⽅案成效• 云函数SCF:多任务共享算⼒资源,提⾼GPU利⽤率,单卡可每秒处理30MB视频⽂件,成本降低50%• ⾃动驾驶专区:数据安全可信服务覆盖数据采集、数据配送、数据注⼊,以及注⼊⾄云端专区后的数据与算法训练、数据存储等⽅⾯⽅案介绍上海⾃动驾驶专区1、获取临时秘钥AKSK……秘钥服务3、COS触发器5、下载原⽇志/视频⽂件2、⽇志/⾳视频上传8、上传脱敏视频⽂件COSCARSCFSCFðPASSMQ4、根据COS请求弹性扩容7、根据任务调度不同函数5、处理结果阶段性回写MQJAVAD服务A函数JAVAD服务A函数JAVAD服务B函数JAVAD服务C函数CAR6、MQ触发器MQ数据采集/路测数据预处理算法训练仿真测试OTA升级⾼性能计算集群:z训练稳定性领先,z拥抱全场景AI模型启动时间「短」基于腾讯云服务内外部客户经验沉淀,设备到位到开始训练从30天缩短⾄1天故障率「低」星星海⾃研AI服务器针对AI场景定制优化,千卡单⽇故障率低⾄0.16星星海⾃研AI服务器故障恢复「快」集群⼀致性检测,任务及节点异常发现恢复机制。故障恢复时间仅需5分钟数据采集/路测数据预处理算法训练仿真测试OTA升级丰富算⼒⽀持⽀持CPU、GPU等多种算⼒3.2?TbpS?RDIA⽹络全⾯搭载腾讯⾃研星脉⽹络基础设施层“零”改造适配轻松接⼊,业务代码⽆侵⼊框架独家优化软硬协同,针对腾讯云硬件定制适配加速框架层训练⼀键部署⽀持主流AI框架、训练作业模板推理混布调度推理混布调度算⼒编排层⽹络故障⽆感知基于5DHП实现硬件故障隔离5%超细粒度切分⽀持qGPU对单卡进⾏算⼒隔离软件定义层低成本⾼性能• ⽆额外硬件成本,实现us级⽹络低延时,200Gbps加速⽹络带宽深度适配智驾场景• ⽀持RDMA原⽣协议,业务零适配⼯作量;适配市⾯上智能驾驶场景所有算法模型训练• 多系列实例可⽀持vRDMA能⼒,标准型搭配vRDMA⽀持HPC流体仿真等场景集群算⼒近⽆损扩展,⽐肩传统RDMA集群训练扩展⽐98%z⼤幅节省业务训练成本训练成本节省20%全栈⾃研• 基于腾讯云⾃研智能⽹卡实现的全新⾃研⽹络加速技术,RDMA弹性扩展⾃研vRDMA⽹络:z全新多机互联⽹络,z助⼒出⾏降本增效端到端⾼⽹运营系统部署、验收⾼可⽤性问题巡检、定位10%~25%NCCL模式集合通讯提升TensorflowNCCLEFIDDriverD(Verbs)PyTorchLibfabricRDMA协议栈封装银衫智能⽹卡payloadOS⽹卡及⽹络数据采集/路测数据预处理算法训练仿真测试OTA升级案例2:某主流⾃动驾驶模型训练业务痛点• 数据吞吐⼤:业务训练模型参数规模较⼩,⼤规模⾼带宽组⽹存在⼀定冗余,需要提供⾼性价⽐解决⽅案• 数据增长快:数据量达100PB+量级,需要较⾼的读写效率,以提升训练效率⽅案成效• vRDMA:200Gbps多机互联⽀持⾼效训练,⽆需额外⽹卡硬件成本,为客户业务节省20%成本,性价⽐最⾼提升20%• COS+GooseFSI:为⽤户提供海量、低成本存储服务,解决客户100PB+数据快速增长需求;提供⾼性能存储缓存服务,I⾃动驾驶训练性能提升30%⽅案介绍OTA对象存储CO5原始数据GPU云服务器实例对象存储CO5预处理后的数据通过远程在线升级系统(OTA)将新算法投放⾄智能汽车模型训练TKED容器集群管理HCC-GPU⾼性能集群200GbpsDvRDITA100GbpsDVPC本地数据管理路测车采集数据数据标注模型训练平台模型评测通过⾃研训练平台统⼀调度分配任务路采数据专线接⼊本地数据中⼼数据采集/路测数据预处理算法训练仿真测试OTA升级极致性价⽐• 机型规格灵活切分• 满⾜不同环节算⼒需要软件兼容⼴• 适配主流仿真平台与场景⽣成模型• 快速调整场景天⽓、光照、街道环境等通过最佳实例搭配,显著降低仿真成本仿真成本30%z多任务共享GPU,精准隔离,性能⽆损GPU利⽤率60%仿
云智算底座,加速释放出行行业AI生产力,点击即可下载。报告格式为PDF,大小13.19M,页数31页,欢迎下载。