云智能体开发平台:⾮结构化⽂档精准解析

腾讯云智能体开发平台⾮结构化⽂档精准解析韦昭南主讲人:⽂档解析原⼦能⼒介绍与实战01 应⽤OCR⼤模型对⽂档进⾏预处理把企业五花⼋门的知识库喂给⼤模型,没那么简单!有线表格无线表格少线表格横向多栏纵向多栏图/图注群组表/表注群组跨栏段落跨图段落图表文环绕跨表段落复杂的表格结构复杂的⼦元素识别复杂排版的阅读顺序段落内图像表格内图像段落内公式表格内公式传统OCR技术局限:识别精度低、元素易丢失⽂档解析⽂档输⼊解析输出DocLM解析MLLM⼯程解析Ø PDF,PPT,EXCEL,DOCX,URL,HTML等多种⽂件格式Ø 多种版式:双栏,单双栏混排,三栏等Ø 图⽂,公式,段落,表格,页眉,页脚等多种版⾯元素Ø 论⽂,书籍,试卷等多种使⽤场景的内容Ø ⽂字,图⽚,表格,公式等⽂档元信息提取Ø ⽂档元信息按照阅读顺序排序,归类Ø 序号,坐标,章节树状结构返回,⽅便灵活扩展markdownjsonhtml基于OCR解析⼤模型,⽀持论⽂,说明书,试卷,PPT等多种场景复杂版⾯的解析复杂的图⽂混排⽂档,常常包含⽆明显边界的图形组合,且易重叠,错误,解析难度⾼⽂档解析能准确定位版⾯元素位置、类型、顺序,识别不同元素内容,最后组装成markdown格式输出⽂档解析-复杂⽂档的准确抽取⽂档解析-复杂⽂档的准确抽取OCR⼤模型解析效果传统解析效果原理:基于⽂档元素及位置信息,“定制化”进⾏重组和排版问题:图⽚解析遗漏、阅读顺序改变源⽂⽚段难点:图⽂并茂、排版复杂常常包含⽆明显边界的组合图形,且易重叠、错位,极⼤影响模型阅读理解准确率图⽚解析遗漏阅读顺序改变图、表等关键元素准确识别阅读顺序正确原理:将复杂⽂档图⽚表格转换成可编辑的markdown⽂本问题:图表等关键元素准确识别、阅读顺序正确基于OCR解析⼤模型,对图⽂混排复杂⽂档解析准确率提升约3x%⽂档解析-复杂⽂档的准确抽取基于多阶段⽅案:Ø 阶段①定位版⾯元素的位置、类型、顺序,Ø 阶段②识别不同类型元素的内容,Ø 阶段③将各元素识别结果整合为Markdown。⾃研多模态⼤模型,⽀持⽂档中的多种元素类型进⾏解析,效果处于⾏业领先地位场景描述⽰例图⽰例问题⽰例答案数据图表理解⽀持对折线图、饼状图、柱状图、单/多表格等进⾏以下任务:K-V问答、Chart2Table、数值计算、指定颜⾊/位置取值将6点到18点的数据制作成表格|`时间(⼩时)`|`拜访账号数 |`拜访次数 ||--- |--- |--- ||`6``|`13`|`19`||`7``|`90`|`123`||`8``|`228`|`366`||`9``|`311`|`581`||`10`|`307`|`566`||`11`|`241`|`432`||`12`|`269`|`519`||`13`|`346`|`347`||`14`|`353`|`712`||`15`|`353`|`678`||`16`|`|``||`17`|``|``||`18`|`16`|`26`|混合图表理解⽀持对图上存在多类数据图表进⾏综合理解,输出答案,主要任务有:常规提问、对⽐性提问第三季度的收⼊⽀出和利润分别是多少第三季度的收⼊是215万元,⽀出是47万元,利润是168万元。⽂字信息提取结构化信息提取(包括门头、曲⽂等)监控拍摄时间是?监控拍摄时间是2017年12⽉26⽇,10:30。⽂档解析-优势场景说明(1/2)场景描述示例图示例问题示例答案文档阅读理解版面元素类型、版面排序、文字识别相关、多语种识别、公式识别、表格识别图3所在的位置是图3显示了一个相机的顶部界面,重点展示了ISO设置屏幕。具体位置解释如下:1. **图3在相机顶部的右侧位置**:显示一个LCD面板,上面有ISO数值。2. **镜头靠后的部分**:可以看到相机手柄的一部分,表现出用户面朝相机顶部的视角。3. **ISO按钮的旁边**:在这个界面中,ISO按键已经被按下,显示屏上正在闪烁ISO值(正被调整)。通过图3的指示,可以看到如何调整ISO,通过上下推杠杆选择不同ISO数值。OCR&结构化全文识别、结构化信息提取收听的目的是什么收听的目的是听音乐、娱乐以及获取新闻信息。⽂档解析-优势场景说明(2/2)⾃研多模态⼤模型,⽀持⽂档中的多种元素类型进⾏解析,效果处于⾏业领先地位某头部⼤模型公司,主要产品为⼀款长⽂本处理能⼒极强的AI对话类产品,在⾦融,法律科研等领域有⼤量的应⽤在⽤户上传的⽂档中包含⼤量的数学公式和表达式,公式符号复杂多样,布局不规则,对⽂档解析能⼒要求很⾼例1例2原文档原方案解析结果腾讯云方案解析结果采⽤腾讯云⽂档解析⽅案,复杂公式解析成功率达到Ô9x%⽂档解析-典型案例⽂档解析-典型案例某LLM⼤模型底座,利⽤腾讯云⽂档解析能⼒⽣成丰富的结构化语料,帮助LLM模型底座预训练优化⽂档类型多样,其中的复杂图⽂样式,公式类型数据较多,依赖⽂档解析能识别并解析各类⽂档元素例1例2例3例4原文档解析结果文档切分大模型Ø业内⾸个语义切分⼤模型,保障⽂档切分⽚段的语义完整性Ø采⽤多级⽂档切分⽅式,将⽂档切分成适合检索和⼤模型问答的⽚段Ø传统切分⽅式⽂档类型受限,缺乏通⽤性,且容易截断语义,模型切分⽅式可有效解决该类型问题,端到端检索准确度⼤幅提升Ø输⼊:各种问答;输出:json格式,包括⼆级⽚段以及⼀级⽚段多级切分准确率和召回率指标:层次准确率召回率⼀级⽚段8x%9x%⼆级⽚段9x%8x%⽬前仅⽀持解析+拆分整体接⼝,输⼊⽂件,输出解析结果和拆分结果⽂档切分⼤模型⽂档切分-效果展⽰原始⽂档切分效果⼀级标题⼆级标题⼀级标题⼆级标题MLLM原⼦能⼒介绍与实战02 应⽤多模态⼤模型对图⽚进⾏理解mllm多模态模型Ø对数据图、架构图、思维导图等图⽚进⾏精调,能够⽀持图⽚解读MLLM多模态⼤模型mllm多模态模型Ø对数据图、架构图、思维导图等图⽚进⾏精调,能够⽀持图⽚解读MLLM多模态⼤模型THANKS

立即下载
综合
2025-06-25
18页
15.15M
收藏
分享

云智能体开发平台:⾮结构化⽂档精准解析,点击即可下载。报告格式为PDF,大小15.15M,页数18页,欢迎下载。

本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
重点公司盈利预测及估值(20250620)
综合
2025-06-25
来源:机械设备行业制造成长周报(第19期):杭州召开国际人形机器人展览会,蚂蚁集团首次投资灵巧手
查看原文
相关标的近一周(6.16-6.20)市场表现
综合
2025-06-25
来源:机械设备行业制造成长周报(第19期):杭州召开国际人形机器人展览会,蚂蚁集团首次投资灵巧手
查看原文
信用债、城投债利差进一步压缩8
综合
2025-06-25
来源:发行规模腰斩净融持续为负,经开区改革鼓励园区城投上市融资——2025年5月城投债市场运行分析
查看原文
年内城投债到期及回售规模近三万亿元 图 17:年内江苏城投债到期规模最大
综合
2025-06-25
来源:发行规模腰斩净融持续为负,经开区改革鼓励园区城投上市融资——2025年5月城投债市场运行分析
查看原文
涉及异常交易的区县级主体最多 图 15:涉及异常交易的 AA 级主体最多
综合
2025-06-25
来源:发行规模腰斩净融持续为负,经开区改革鼓励园区城投上市融资——2025年5月城投债市场运行分析
查看原文
1 年期、3 年期、5 年期各等级城投债利差均收窄
综合
2025-06-25
来源:发行规模腰斩净融持续为负,经开区改革鼓励园区城投上市融资——2025年5月城投债市场运行分析
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起