大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow原理篇
敬请参阅最后一页特别声明 1 RAG 架构的意义及痛点 DeepSeek-R1 模型以开源方式问世带来广泛影响,LLM 大模型发展由基础设置转向模型应用,但同时大模型仍面临模型“幻觉”、过时信息以及专业知识匮乏三个困境。RAG 架构可以通过搭建存储知识信息的数据库,并从中检索具有及时性、专业性的信息补充大语言模型的文本生成与逻辑思考过程。 但在 RAG 的工作流程中,存在多个痛点问题影响其使用效果:在文档解析入库的流程中存在如何高质量完成文本识别与分块、如何对分块信息进一步处理、如何选择合适的 Embedding 模型等痛点问题;在信息检索输出的流程中存在如何高质量进行内容检索、如何选择合适的重排序模型以及如何进行合适的 Prompt 处理衔接 RAG 与大模型等痛点问题。 追求高质量的 RAGFlow 开源解决方案 由于大模型的快速发展,市面上已经存在 FastGPT、Dify、RAGFlow 等多种开源 RAG 架构解决方案。其中,由于 RAGFlow追求“Quality in,Quality out”的高质量要求,故将 RAGFlow 作为我们的最终选择。 针对 RAG 架构中可能存在的痛点问题,RAGFlow 努力给出自己的解决方案。在文本解析入库的流程中,RAGFlow 使用自己开发的 DeepDoc 组件实现复杂文档的解析与分块,并针对分块后的文本信息引入 Raptor 召回增强策略和知识图谱策略进行进一步处理,同时提供了丰富的 Embedding 模型方便用户选型;在信息检索输出流程中,RAGFlow 采用关键词搜索+向量搜索的双路召回策略,并针对检索到的文本块,使用关键词相似度+Rerank 模型相似度两种方法计算加权平均相似度进行文本块的重排序,从而保证信息检索质量,并使用合适的 Prompt 将知识信息传递给大模型。 值得注意的是,RAGFlow 同样支持结构化解析与检索,传入 xlsx 或 csv/txt 格式的文件后,选择“Table”模式进行解析,RAGFlow 会将数据的每行解析为一个文本块,以列名对应单元格值的方式组织,并高质量得保留了重要信息。 RAGFlow 效果评估与检验 在厘清 RAGFlow 整体实施方案的基础上,进行其效果的评估检验,整个评估流程基于 RAGAs 评估框架进行,并选定 15篇金融领域不同方向的研究报告作为评估样本,同时针对样本进行问题与答案的设计;后续评估基于此进行。 具体而言,首先针对不同的文档解析入库、不同的信息检索输出配置方案进行评估对比,并最终得到较优的配置方案搭配;其次评估不同 Embedding 与 Reranker 模型搭配的具体表现,并选择较优的模型搭配方案;最终,针对 General文档解析、Raptor 召回增强以及信息检索配置这三个过程中涉及到的具体参数进行寻优。 最终,通过对 RAGFlow 效果的评估与检验,可以认为 RAGFlow 优于 Dify(默认配置)的检索输出效果,并汇总整体的评估流程,可得较优的 RAGFlow 全流程配置方案:Embedding 模型选择 SFR-Embedding-Mistral、Reranker 模型选择bce-reranker-base_v1;在解析入库时使用 General 方法、设置最大 token 数为 512 或 1024 进行文档解析,同时选择开启社区摘要的知识图谱功能;在检索输出时,开启多轮优化、不开启知识推理功能。若想要减少文档解析时间,可以选择关闭知识图谱,开启 Raptor 召回增强策略,同样可以获得较有的解析与检索质量。 风险提示 对于 RAGFlow 的分析基于 v0.17.2 版本进行,未来更新可能导致项目细节发生变换;本文所进行的评估基于小样本集、并使用 DeepSeek chat 模型作为 LLM 模型进行,更换测试样本、更换大语言模型可能导出 RAGFlow 的具体表现与本文结果存在出入;RAG 架构不能完全消除大模型“幻觉”等弊端,使用 RAGFlow 得到的输出结果存在随机性和准确性风险,使用时应加以辨别。 金融工程专题报告 敬请参阅最后一页特别声明 2 内容目录 一、RAG:大模型应用中的重要架构................................................................. 6 1.1 RAG or 微调?RAG 架构为何如此重要 ....................................................... 6 1.2 知识库 + LLM?RAG 如何辅助大模型落地 .................................................... 6 1.3 检索增强+逻辑推理!解锁 RAG 应用场景..................................................... 7 二、RAG 广阔前景下隐藏的痛点问题 ................................................................ 8 2.1 索引入库:如何存入高质量文档信息?...................................................... 8 2.2 检索输出:如何获取强匹配搜索结果?...................................................... 9 2.3 中枢结点:如何得到高效数据库支持?...................................................... 9 三、注重质量的 RAGFlow 开源解决方案.............................................................. 9 3.1 高质量要求:“Quality in, Quality out” .................................................. 9 3.2 RAGFlow 方案对痛点解决的努力与实现 ..................................................... 10 四、高质量的 RAG 知识库需要什么?............................................................... 11 4.1 好的开始:文本识别与分块............................................................... 11 4.1.1 DeepDoc 功能与效果对比 ............................................................... 11 4.1.2 DeepDoc 解析分块策略分析 .................................................
[国金证券]:大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow原理篇,点击即可下载。报告格式为PDF,大小3.94M,页数36页,欢迎下载。
