填写网站信息wordpress 4.3.1 漏洞-沈阳市网站建设公司-Seo优化

填写网站信息,wordpress 4.3.1 漏洞,网站空间过期,wordpress 物流主题文章深入解析RAG系统从50分提升至90分的优化策略#xff0c;详述七大关键环节#xff1a;知识提取#xff08;PDF/图片处理难点#xff09;、知识分块逻辑、嵌入模型选择、向量数据库与索引技术、检索优化技巧、回答生成及效果评估。强调真正高质量RAG需结合业务场景#…文章深入解析RAG系统从50分提升至90分的优化策略详述七大关键环节知识提取PDF/图片处理难点、知识分块逻辑、嵌入模型选择、向量数据库与索引技术、检索优化技巧、回答生成及效果评估。强调真正高质量RAG需结合业务场景在每环节选择合适策略并持续迭代而非依赖低代码工具。适合开发者掌握企业级知识库构建核心技术。前排提示文末有大模型AGI-CSDN独家资料包哦像Dify、Coze这样的低代码Agent搭建工具通过将RAG内的各类能力进行封装供用户在GUI界面上点击几下即可进行配置。这却给很多用户造成了一种假象——好像拖拉拽一下就能配置好一个知识库问答工具打造一个企业级的知识库助手。图源ChatGPT帮忙生成从实际落地上来看上层封装好的能力有其局限性低代码平台能够达到的问答精准度上限明显可能50、60分都算很不错的了但这个分数对于企业级场景是完全不可用的。你会允许AI在回答一些公司财务问题、行政问题上有一丝一毫的偏差吗因此从50分到90分的过程才是RAG真正大显神威之处。但这个过程并不是一蹴而就的即搞定1处就全盘皆赢从知识的提取、向量化、分块、索引、检索到最终生成每一步都有各种各样的优化策略可供选择不同的策略适应不同的场景、数据的质量和生成的要求等。可以说真正的RAG工作是由一系列复杂、细致的优化策略叠加而来这不仅要求你随时更新自己的知识体系、掌握最新的优化方向进程更需要你了解数据形态和业务场景能够结合最终生成诉求来倒推如何去选择这一系列策略的配合。之前在一文了解RAG到底是什么一文中浅介绍了RAG核心技术。那么本文将分享下各个环节上的核心选型和优化思路作为一张RAG策略地图供大家交流学习。01知识提取Extracting知识的形态可以分为结构化表格、半结构化网页、非结构化PDF、Word等。和数据库这样结构化数据不同的是知识库往往存在大量非结构化数据如视频、音频、PDF、网页等这虽然极大地扩展了知识面但也为准确的识别带来了技术难题。像Dify、Langchain、LlamaIndex这些框架都自带了一些提取器但同时也支持丰富的其他loader器的能力集成。以Dify为例它不仅支持自研的文件抽取方案同时也支持了Unstructured的抽取方案。目前市面上较为常见的一些外部抽取工具有其中Unstructured是目前较火的一种通用抽取工具支持常见各种丰富的文档格式适合作为一种基础通用的抽取工具选型。抽取阶段的难点其实在于——PDF和图片文字提取上。PDF的难点在于其灵活、丰富的布局本质上蕴含和嵌套了大量的关系例如图片插在一堆文字中间它可能是上一段话的一个示意图同时PDF这种格式又把标题、小标题、第一点/第二点等这样的布局拍平了难以通过像读取网页里的title、body那样能够很轻易的读取到内容结构。而企业的大多数正式流通的文件都是PDF格式不能随意被篡改和编辑因此这里就需要应用PDF类抽取工具Pymupdf、MinerU、PyPDF等对PDF文件做专门的处理这些工具的特点是会对PDF格式文件做单独的适配和处理类似于一个元素解析器能够清晰的读取不同元素是什么——如标题、正文、页眉、页脚、插图等。另外企业内大量还存在的一类文档为图片图片的精准识别尤其在金融行业应用极多。以某基金公司为例其需要对新设管理人提交的资料进行审核资料中包含大量的管理人学历、简历等照片另外针对中期监管诉求需要定期收集基金的银行电子回单去进行监管审核等。这些都对从图片中提取和识别文字的精准度有极高要求例如上图中纳税人识别号这种比较小的字母直接使用大模型效果较差通常我们会借助OCR光学字符识别Optical Character Recognition来进行实现。目前我们自己应用过的产品中闭源工具Textin和开源工具百度飞浆整体效果和性价比还算可控大家也可以结合自己的业务去试试平衡下准确度和费用的关系。02知识分块Chunking将知识抽取完成后我们就拥有了大量的知识信息这些信息可能是文字、图片等这些知识以文档集合整理在一起。但在交给大模型进行向量化处理之前需要进行分块处理。为什么需要分块而不是一整个文档扔给大模型呢这是因为大模型一次吞吐的上下文有限。例如Qwen3的上下文长度为32768tokens约5万字左右这些上下文不只是查询知识库召回的内容块长度还有用户问题query、提示词prompt等。另外即使有段时间各家的大模型都在努力加长上下文长度但足够的上下文并不代表着精确性也有可能会召回干扰性的内容块从而更容易造成模型的幻觉。因此在有限上下文长度背景下分块技术相对能更精准检索从而降低模型幻觉和算力成本。那么该按照什么逻辑进行分块呢常见的分块方式有如下几种当然实际按照什么逻辑分块是需要渐进式调整后得出的。例如最开始可以先按照最常规的固定字符数分块通过查看分块和召回测试看看效果如果效果不佳再调整字符数大小或是增加分隔符递归分块甚至手动调整分块内容等。另外分块本身是为了服务于检索这就避不开要面向索引去进行分块逻辑的处理了。常见的几种在分块阶段就要为后续索引进行逻辑呼应的分块技巧有这几种混合生成父子文本块先生成粒度较大的文本块再切分成更小的子文本块父子文本块用ID进行映射关联。在检索阶段先检索到子文本块再通过ID找出其父文本块从而将2者一并传递给大模型提升更加丰富和准确的回答。生成文本块元数据分块后同步为该文本块生成对应的元数据如标题、页码、创建时间、文件名等从而在检索时能够结合元数据作为过滤器来更高效进行检索该功能目前Dify v1.1.0版本已经开始支持做配置了生成摘要细节文本块类似于父子关系摘要则是由粗及浅为文档生成概要性摘要信息再将摘要和细节文本块关联起来生成递归型多层级索引类似于父子、摘要细节递归型则是划分了更多层级的索引树自上而下是逐渐由粗到细的信息量后续还会专门展开索引相关内容这里先抛砖引玉带一下分块、索引、检索这3块技术应当整合在一起进行整体考虑。03知识嵌入Embedding分块好后下一步则需要对这些不同块的知识进行语义理解和编码了这也是整个RAG过程中第一次需要使用到大模型的场景。常见的嵌入方式有2种——稀疏嵌入和稠密嵌入而我们通常讨论较多的都是稠密嵌入。简而言之稠密嵌入能够更好的捕捉语义关系而稀疏嵌入在计算存储上更高效。稠密嵌入是一种将离散符号如词、句子、用户、物品等映射到低维连续向量空间中的表示方法。在这个向量中大部分元素都是非零的实数每个维度都隐式地表达某种语义或特征。稀疏嵌入是一种将数据映射到高维向量空间中的表示方法其中大多数维度的值为0只有少数维度有非零值。目前应用较多的方式是2者进行结合实现混合检索稠密嵌入负责捕捉语义关系稀疏嵌入则更多应用如BM25基于词的重要性对文档和查询进行匹配这样的方法既做到了语义上的相关性也做到了关键词匹配的精准性。常见的稠密嵌入大模型有OpenAI、Jina、Cohere、Voyage、阿里Qwen这几家公司的可以在https://huggingface.co/spaces/mteb/leaderboard去查看全球目前较新的Embedding模型排名。截至当日多语言embedding模型中排名第一的为gemini-embedding-001第二三四名竟然都是阿里的Qwen-Embedding系列这还挺让人惊喜的。不过排名仅供参考还是要根据自己实际任务类型去做测量。另外不止生成模型可以做微调我们往往说的大模型微调都是指偏生成响应侧侧大模型其实嵌入模型也是支持做微调的但很少有公司涉及。如果有一些高度专业化的知识如医学、律师、有特定的格式要求或者文化本地化需求则最后一步再可以考虑嵌入模型的微调。通过微调可以生成更优质的文本嵌入使语义相似的文本在嵌入空间中的距离更加接近。04知识存储索引经过embedding后我们会生成大量的嵌入数据这些数据当然不能以我们常见的关系型/非关系型数据库进行存储了而是需要特定的向量数据库来以嵌入形式存储向量。存储的目标是为了更好更快的检索因此这一部分我们会将存储和索引一起来展开。先来看有哪些向量数据库目前比较火的有Milvus、Faiss、Chroma、Weaviate、Qdrant、Pinecone、ElasticSearch当然国内各家大厂如腾讯也都建立了向量数据库的生态。如果你想轻量级测试和小项目应用可以首选FaissFacebook开源的向量数据库如果你是企业商用则可以考虑Milvus如果你之前在用ElasticSearch的搜索/数据库功能也可以继续考虑使用他们的向量数据库功能。另外Dify官方默认的向量数据库则是Weaviate说明该组件在企业商用上也是ok的。图源黄佳《RAG实战课》当我们将向量存入数据库后则需要对应建立索引。索引是有效组织数据的过程就像我们去一家医院后的指南图一样它通过显著降低对大型数据集的耗时查询在相似度检索上起到重要作用。常见的索引方式有如下几类图源黄佳《RAG实战课》这里核心讲解3种索引思想FLAT精确搜索对所有数据进行暴力性遍历当然只适合小批量数据啦IVF_FLAT倒排文件索引精确搜索将向量数据划分为若干个簇计算查询向量与每个簇中心的距离找出相似度最高的n个簇再在这些簇里面检索目标向量。就像你要找到「猫」在哪里先快速找到「动物类」的簇在哪里。HNSW基于图结构的近似最近邻搜索目前性能最好的ANN近似最近邻搜索算法之一它通过构建一个多层导航图如顶层、中层、底层不同层级的密度逐步变大让查询时能像坐地铁一样“跳跃式”地快速接近目标点。目前Dify中Weaviate的默认索引方式就是HNSW。05知识检索Retrieval前面准备了这么多之后才来到最后的检索部分而这也是RAGRetrieval-Augmented Generation 中RRetrieval真正起作用的开始。检索前常见的处理方式有如下几种其中查询结构转化和查询翻译是常用的一些检索前优化方式查询路由应用相对没那么多查询结构转化查询翻译查询路由检索前处理处理说明逻辑路由根据用户问题选择合适的数据源或检索方式语义路由根据用户问题选择合适的提示词模板通过上述处理完成检索后对应也有一些可以优化的策略上述提供了一些检索前后的优化思路其中像查询结构转化、查询翻译、重排基本都是相对必须的一些优化点查询路由、压缩、校正等是否需要可以根据问答效果再考虑是否选用。还有一些新兴方向如Self-RAG让大模型自我决策是否要搜索、搜什么、搜到的够不够、是否要需要搜索让大模型自己对检索效果进行优化目前成本和响应时间上还不甚理想但这未来注定会是一个长期会进化的方向可能会通过微调多个特定的小模型来进行实现可以持续关注。06回答生成Generation当我们检索到了相关知识分块后最后一步就是将用户查询、检索到的知识库文本块一并喂给大模型让大模型利用自身的能力来回答用户的问题了。到这一步其实知识库RAG的工作就结束了。那么为了更好的生成结果我们还能做的有什么呢这里就不过多展开了。07效果评估Evaluation评估某种程度上对整个系统的价值起着决定性的作用假设我们要给客户去交付一款知识库问答产品到底用什么指标去衡量效果就成为了验收的关键卡点。但事实上不同的客户和场景对应进行效果评估的评测集、评测模型都是不一样的。这里先推荐几种市面上常见的通用评估指标或框架检索评估评估框架关注指标RAG TRIAD RAG三角上下文相关性忠实度答案相关性RAGAS上下文精确率上下文召回率上下文实体召回率噪声敏感度DeepEval上下文精确率召回率相关性等生成评估评估框架关注指标RAGAS答案相关性忠实度多模态忠实度多模态相关性DeepEval答案相关性忠实度等 ps同时支持检索和生成进行组合评估实际上在我们自己业务交付过程中这个评测集往往是我们结合客户业务先写一个初版让客户参考后整理出自己最常询问的一些问题和期望答案以此作为初始评测集后续可按需对评测集进行AI智能的扩展等。但这个过程仍旧存在一定的问题即客户是否真正了解自己的用户会问什么问题很可能出现在交付时客户认可了但实际使用过程中的真实用户并不会这样问的情况。因此评估的过程注定也是一个渐进式不断完善的过程。以上就是本文对于RAG更全面策略的一个指南实际企业应用中只会用到其中的部分。通过上述内容其实我们会发现RAG真正想做好并不是一件易事有非常多的策略和实现方式可供选择这都会影响到最终的生成质量。读者福利倘若大家对大模型感兴趣那么这套大模型学习资料一定对你有用。针对0基础小白如果你是零基础小白快速入门大模型是可行的。大模型学习流程较短学习内容全面需要理论与实践结合学习计划和方向能根据资料进行归纳总结包括大模型学习线路汇总、学习阶段大模型实战案例大模型学习视频人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】AI大模型学习路线汇总大模型学习路线图整体分为7个大的阶段全套教程文末领取哈第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。大模型实战案例光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。大模型视频和PDF合集这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一跟着老师的思路由浅入深从理论到实操其实大模型并不难。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

填写网站信息wordpress 4.3.1 漏洞

河南省住房城乡建设厅网站烟台做网站推广的公司

门户网站的类型电脑做网站服务器WIN7 买个域名

中国做机床的公司网站烟台有哪些网站建站推广公司

玉溪市规划建设局网站网站开发如何进行管理

潭州学院网站建设报名如何分析竞争对手的网站

获得网页源码怎么做网站网站开发工具枫子科技

填写网站信息wordpress 4.3.1 漏洞

河南省住房城乡建设厅网站烟台做网站推广的公司

门户网站的类型电脑做网站服务器WIN7 买个域名

中国做机床的公司网站烟台有哪些网站建站推广公司

玉溪市规划建设局网站网站开发如何进行管理

潭州学院网站建设报名如何分析竞争对手的网站

获得网页源码怎么做网站网站开发工具 枫子科技

获得网页源码怎么做网站网站开发工具枫子科技