从数据工程化来看AI-Ready数据架构建设

IDC 李浩然主讲人数据架构建设• 数据底座升级是2025年企业最关心的问题之一• 33.3%的亚太企业(top1)表示将IT预算用于数据PaaS投资,包括数据库、数仓、分析没有数据就没有人工智能•2025年全球将产生213.56ZB数据,;其中,中国市场2025年将产生51.78ZB数据,到2029年增长至136.12ZB,CAGR达到26.9%。•云端数据生成量将大幅增长,2029年约有43%的数据直接在云端生成,高于2024年的24%和2019年的13%,•截至2025年,IDC估计每年生成的新数据总量中只有不到1%可直接归因于GenAI,当前GenAI主要作用为重塑内容的创建和处理方式。IDC Global DataSphere最新数据,全球数据量明显增长IDC 中国数据生成量预测,2024-2029Petabytes per SecondPetabytes per Second20252029数据生成速度到底有多快?数据的价值、状态或可用性会随着时间的推移而发生快速且不可预测的变化54%的受访者表示其组织内部的数据流不稳定复杂的数据架构和源系统数量金融系统平均从32个分析源中获取数据时间和性能限制45%受访者表示缺少时间分析多样数据数据更快过时数据平均保质期是3.3天转向实时数据运营和分析66%受访者表示,企业工作流程中的数据流动正在不断加快AI加速数据量增长超过90%在使用GenAI后管理数据量增大,其中有19%认为企业生成数据量增长了超过50%,同时有62%的受访者认为企业数据量增长超过10%缺少工具来大规模管理数据59%受访者表示数据增长太快,超出了他们现有管理能力Source: IDC, IDC PlanScape: Data Productization to Unlock the Potential of AI, #EUR153636525企业面临一系列新的数据管理挑战Life Cycle数据工程师数据科学家/ 深度学习AI工程师软件工程师业务PipelineData/Feature领导支持---•ETL•数据整理与准备•特征提取•标签Design Model/Architecture支持领导支持--•深度学习算法•模型参数•GPT/TPU 规模Train/TuneModel-领导支持--•训练与测试•超参数•微调Validate/Evaluate-领导支持--•指标设计•验证Deploy/MonitorModel支持-领导--•模型版本•模型监控Plan/Design(Biz Logic, UI)-支持-领导联合领导•UI/业务设计•快速工程•代理工作流程Develop/Integrate---领导-•AI 应用集成•RAG 和模型 APITest支持--领导支持•单元测试•集成测试Deploy/Operate支持--领导-•AI服务监控•App版本具体任务MLOps/LLMOps Life Cycle(Model, Data)DevOps Life Cycle(Biz Logic, System Design) Workload数据部门要求和定位也在不断变化Source: Future Enterprise Resiliency & Spending Survey Wave 1, February 2025, N=353AI-Ready Data Architectures: 轻松、可控地访问整个数据资产40%2025年认为搭建AI-Ready数据架构是AI实现重点应用的受访者百分比与AI-Ready 数据架构领域重点相关的投资建设方向:v数据智能--数据质量、目录、血缘、元数据和主数据数据治理和隐私--对敏感数据进行标记和应用策略数据现代化--混合/云数据湖、湖仓、仓库或数据库数据合成--清洗、标记、转换、分析和向量嵌入52%38%38%31%Source: Office of the CDO Survey 2024, IDC, August 2024 (n = 848; initial testing: n = 170; enterprise: n = 378) •如果用于训练 AI 模型的数据不准确、质量不高、容量不大,并且与目标问题缺乏紧密联系,那么该模型在决策或业务辅助方面很可能几乎毫无用处。•从AI战略的角度来思考企业为建设AI,需要什么样的数据,以及数据如何持续供给AI,然后再来思考数据治理政策和规范、数据创建、数据发现、数据资产所有权、数据质量、数据工具和流程等问题。AI-Ready数据架构带来明显价值数据产品边界更加模糊•Unity Interface,Data+AI机会场景在于以数据价值为主导零售、供应链、数据要素等•AgentOps、API管理是下一步重点•数据工程Agent,缩短链路,下一代治理、AI开发、指标BI一体化•MCP影响仍较弱、超级入口、跨平台流动•各厂商加大投入力度:批/流/图/向量/AI训推,从性能和成本两方面突破•数据集成、统一元数据/主数据目录•实时需求增长20%•全托管湖仓需求增加/分布式云•数据统一检索•数据存储趋于统- 数据库vs数据湖•Iceberg/Paimon+Flink+SR/Doris、大数据一体机(湖/库+软件+AI)AI应用数据管理平台分散→统一计算引擎存储治理数据治理AI模型治理和数据治理并无不同AI数据管理分析与GenAI发展技术趋势Agentic正在重塑数据流程DataOps/AgentOps并不过时:可观察性和民主化的数据旅程对于已公开发布市场份额的市场,市场份额前3-5的厂商已经被展示;对于IDC未公开发布市场份额的领域,所展示的厂商是由分析师自行决定的。中国数据智能市场生态图谱V6.0企业必须支持事件驱动的数据架构,确保实时数据的可用性和可访问性,以持续提供高质量、多模态和场景化的数据产品,同时可适当培养数据产品经理。必须支持数据产品的开发和集成,以实现AI Agent之间的无缝切换;必须公开与应用程序数据和数据处理相关的元数据,作为唯一标识,以确保统一数据目录和知识管理。计算引擎、开源策略将影响厂商落地,Data Agent尚未在国内落地,Data Flow Architecture在面对不同场景、数据就绪度以及需求时都不尽相同。数据就是数据,数据之间格式界限正在消失,模型算法也是如此。技术供应商和客户需要考虑的IDC建议THANKS

立即下载
综合
2025-10-10
16页
17.93M
收藏
分享

从数据工程化来看AI-Ready数据架构建设,点击即可下载。报告格式为PDF,大小17.93M,页数16页,欢迎下载。

本报告共16页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共16页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
表 4 人工智能规则重点议题分布
综合
2025-10-10
来源:全球数字经贸规则年度观察报告(2025年)
查看原文
图 7)。产业发展利益和国内监管政策是支撑各国数字经贸规则构建
综合
2025-10-10
来源:全球数字经贸规则年度观察报告(2025年)
查看原文
图 2 2014-2024 年全球数字服务贸易规模、增速及占比
综合
2025-10-10
来源:全球数字经贸规则年度观察报告(2025年)
查看原文
图 4: 经过对话对齐后的 LLaMA 模型输出
综合
2025-10-10
来源:2025年智能之光:⼈机协作的经济管理研究新时代报告
查看原文
表 4 智能客服资源负载
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
图 15 智能客服工作流
综合
2025-10-10
来源:OTII-E边缘AI推理一体机
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起