>> 国金证券-大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow原理篇-250420
上传日期: |
2025/4/21 |
大小: |
4732KB |
格式: |
pdf 共36页 |
来源: |
国金证券 |
评级: |
-- |
作者: |
高智威,许坤圣 |
下载权限: |
无限制-登录即可下载 |
|
RAG架构的意义及痛点 DeepSeek-R1模型以开源方式问世带来广泛影响,LLM大模型发展由基础设置转向模型应用,但同时大模型仍面临模型“幻觉”、过时信息以及专业知识匮乏三个困境。RAG架构可以通过搭建存储知识信息的数据库,并从中检索具有及时性、专业性的信息补充大语言模型的文本生成与逻辑思考过程。 但在RAG的工作流程中,存在多个痛点问题影响其使用效果:在文档解析入库的流程中存在如何高质量完成文本识别与分块、如何对分块信息进一步处理、如何选择合适的Embedding模型等痛点问题;在信息检索输出的流程中存在如何高质量进行内容检索、如何选择合适的重排序模型以及如何进行合适的Prompt处理衔接RAG与大模型等痛点问题。 追求高质量的RAGFlow开源解决方案 由于大模型的快速发展,市面上已经存在FastGPT、Dify、RAGFlow等多种开源RAG架构解决方案。其中,由于RAGFlow追求“Quality in,Quality out”的高质量要求,故将RAGFlow作为我们的最终选择。 针对RAG架构中可能存在的痛点问题,RAGFlow努力给出自己的解决方案。在文本解析入库的流程中,RAGFlow使用自己开发的DeepDoc组件实现复杂文档的解析与分块,并针对分块后的文本信息引入Raptor召回增强策略和知识图谱策略进行进一步处理,同时提供了丰富的Embedding模型方便用户选型;在信息检索输出流程中,RAGFlow采用关键词搜索+向量搜索的双路召回策略,并针对检索到的文本块,使用关键词相似度+Rerank模型相似度两种方法计算加权平均相似度进行文本块的重排序,从而保证信息检索质量,并使用合适的Prompt将知识信息传递给大模型。 值得注意的是,RAGFlow同样支持结构化解析与检索,传入xlsx或csv/txt格式的文件后,选择“Table”模式进行解析,RAGFlow会将数据的每行解析为一个文本块,以列名对应单元格值的方式组织,并高质量得保留了重要信息。 RAGFlow效果评估与检验 在厘清RAGFlow整体实施方案的基础上,进行其效果的评估检验,整个评估流程基于RAGAs评估框架进行,并选定15篇金融领域不同方向的研究报告作为评估样本,同时针对样本进行问题与答案的设计;后续评估基于此进行。 具体而言,首先针对不同的文档解析入库、不同的信息检索输出配置方案进行评估对比,并最终得到较优的配置方案搭配;其次评估不同Embedding与Reranker模型搭配的具体表现,并选择较优的模型搭配方案;最终,针对General文档解析、Raptor召回增强以及信息检索配置这三个过程中涉及到的具体参数进行寻优。 最终,通过对RAGFlow效果的评估与检验,可以认为RAGFlow优于Dify(默认配置)的检索输出效果,并汇总整体的评估流程,可得较优的RAGFlow全流程配置方案:Embedding模型选择SFR-Embedding-Mistral、Reranker模型选择bce-reranker-base_v1;在解析入库时使用General方法、设置最大token数为512或1024进行文档解析,同时选择开启社区摘要的知识图谱功能;在检索输出时,开启多轮优化、不开启知识推理功能。若想要减少文档解析时间,可以选择关闭知识图谱,开启Raptor召回增强策略,同样可以获得较有的解析与检索质量。 风险提示 对于RAGFlow的分析基于v0.17.2版本进行,未来更新可能导致项目细节发生变换;本文所进行的评估基于小样本集、并使用DeepSeek chat模型作为LLM模型进行,更换测试样本、更换大语言模型可能导出RAGFlow的具体表现与本文结果存在出入;RAG架构不能完全消除大模型“幻觉”等弊端,使用RAGFlow得到的输出结果存在随机性和准确性风险,使用时应加以辨别。
|
|