模型时代金融大数据构建
大模型时代金融大数据构建宋企皋腾讯云大数据首席架构师GenAI时代数据分析方式发生极速变化数据分析师终端用户AI Agent内部IT应用数据平台使用对象的演进路径是一种数据分析过程,通过在Data-to-Insight的工作流程中应用AI Agent,以半自主或自主的方式协调任务,朝着AI主动洞察 & 决策的目标推进。预测,2028年 33%的企业会将Agentic AI用于分析和决策,而2024年这个占比不及1%现在Analytic tools help people and business make decisions.未来AI-powered analytics makes decisions that help people and business.每年初的开门红活动中,当一个分析师希望优化库存管理…① 手动提取销售数据、运行分析脚本并生成报告② 基于报告,及个人专业经验,判断该如何优化库存① “分析最近三个月的销售趋势并预测下季度的库存需求。”② Agent自动连接到销售数据库,调用AI模型生成预测,并以可视化图表的形式呈现结果。③ Agent还能主动提出建议,比如“根据趋势,建议增加A产品的库存,同时减少B产品的采购量。”Agentic Analytics 传统数据生产业务需求需求分析业务人员建模工程师存在资产数据开发数据工程师使用原资产表新增资产存在标准使用原标准新增标准需求验收数据管理员评审新增资产和标准需求交付人完成的Task人无感知的后台是否是否需要一份数据,尽快提供需求变化快,口径对齐难数据增长快,数据类型多又要加班了GenAI时代数据生产GenAI时代数据应用场景发生变化传统数据平台AI时代的数据平台大数据+AI 融合典型应用场景传统数据工程离线数据处理+交互式一体化在一份数据基础上,支持离线处理和AD-Hoc 业务负载自然语言交互分析自然语言理解生成分析SQL,提高数据开发的生产力BI 看板&离线报表分析师精心处理、分析而形成的“固定“数据洞察离线数据处理(ETL)数仓分层 & 数据预处理交互式分析毫秒级实时数据 AD-Hoc 分析智能体(Agent)应用企业内业务数据融合LLM,产生更好的GenAI应用AI Search(RAG)可提供一站式的高精度全文检索+向量检索RAG方案DataOps+AIOps一体化一体化数据分析和AI应用,降低运维与开发成本Data+AIData+AIData+AI一体化场景延伸大数据自治系统AI-Driven 的数据平台资源管理与运维管理,极大简化超大规模数据平台的系统运维工作批流一体增量计算增量计算框架实现批处理+实时处理一体化高效实时智能化GenAI时代数据平台的变革Data Driven LLM 应用:基于企业私域数据增强 GenAI智能客服智能决策内容生成...示例:基于用户购物数据的创意推荐创意内生成容趋势一“更一体化”“Data+LLM应用”面向数据工程+数据科学的一体化平台趋势二智能化大数据自治系统趋势三一份数据 For 数据分析和AI应用“更智能”AI Driven 的方式提升运营效率和系统效率传统数据平台LLMX趋势1:数据分析进入3.0时代问答式分析小白都会用秒级响应出结果随时随地便捷分析定制式自助式智能化(3.0)提出定制式需求交付定制式报表业务部门数据部门根据需求自助拖拽自助化交付报表数据分析师自助式BI根据需求自助问数实时获取数据结果基层业务人员ChatBI月级别需求响应时间:周级别秒级别适用人群:老板、业务负责人等数据分析师基层业务人员学习成本:定制高0门槛用户数量:个位数10人左右大量业务人员核心能力:自然语言查询NL2SQL交互方式从 SQL 到自然语言交互分析用户可通过自然语言描述,快速查询分析数据,无需SQL相关的专业培训与学习QueryRewrite自然语言问题混Knowledge BaseContent-basedSchema basedSchema LinkingSQL GenerationSQL RefinementSQLNL2SQL 核心技术架构多轮对话接着上文继续提问,能结合上下文回答智能追问提问太模糊时智能追问,澄清意图输入联想简单输入关键词,快速找到想要的提问猜你想问智能推荐相关问题,持续分析不间断核心能力:AI Search用户可通过自然语言描述,快速查询分析数据,无需SQL相关的专业培训与学习•企业知识文档格式多样需良好多模态处理能力•严谨场景应用下,知识问答要求准确率要求高知识检索难度大,包括多文档组合知识检索、大表格、不规则表格检索等业界难题严肃场景,对模型判断模糊知识、无关知识能力要求高关键需求【企业级AI Search需求】挑战一:多模态检索难度大挑战二:准确率要求高解决方案:一站式 AI Search您的业务数据最佳答案用户搜索词+公共互联网数据转换后的问题上下文窗口企业私域数据文档图片书籍ES分布式数据节点一体化数据平台文本文本检索向量检索自定义模型上传CPUCPUCPUDeepSeek + RAG 方案,全链路解决复杂文档解析、切分、检索、阅读理解与生成趋势2:以Data-Centric AI重新定义数智融合训练数据开发评测数据开发数据维护数据不仅仅是AI的 “燃料”,更是决定模型质量的关键因素。从专注于模型改进向确保数据质量和可靠性实现根本性转变,围绕训练数据开发、评估数据开发以及数据维护来提升数据质量以提高模型性能。数据收集数据标注数据准备数据降维数据增强样本分布内样本分布外数据切片数据合成算法资源数据嫁接对抗扰动分布偏移数据理解数据验证数据可视化数据质量质量检测质量改进数据加速资源分配查询加速ML模型训练评测评测训练微调配置用户用户Model-Centric AIData-Centric AI模型设计核心能力:新一代数智开发平台在一份数据基础上,支持多种大数据及AI业务负载,帮助企业有效简化架构,提升数据分析效率现在:多种工作负载下的烟囱式架构未来:Data+AI一体化架构批处理交互式查询流式处理数据科学LLM数据拷贝数据拷贝数据湖存储数仓存储机器学习平台存储开发成本高系统复杂度高挑战统一Lakehouse存储优势简化架构降低使用成本更易运维Virtual WarehouseStream Ingestion Virtual WarehouseBatch ExecutionVirtual WarehousePipeline ExecutionCompactionBlock cacheBlock cacheVirtual WarehouseML ExecutionBlock cache............统一开发平台批处理|交互式查询|流式处理|数据科学|LLM多元异构高性能计算引擎...统一元数据趋势3:智能化大数据自治系统AI-Driven 的系统交互、资源管理与运维管理功能,显著提升 数据平台易用性、系统效率与运维效率智能查询优化用户查询分析预测模型智能资源预测智能负载感知多虚拟集群计算资源弹性资源池资源调度基于 AI 的负载感知与弹性资源规划AIOps 实现运维“自动驾驶”资源利用率最大化,降低客户资源成本更智能的资源管理基于传统ML模型与D
模型时代金融大数据构建,点击即可下载。报告格式为PDF,大小2.14M,页数16页,欢迎下载。
