环保公司网站建设石家庄信息门户网站定制-沈阳市网站建设公司-Seo优化

环保公司网站建设,石家庄信息门户网站定制,儿童网站设计模板,母婴网站建设初衷深度复盘#xff1a;如何构建一个“能看懂图”的 RAG Agent #xff1f; 既然要做#xff0c;就不能只是个“玩具”。从 PDF 乱码到精准还原图文上下文#xff0c;从简单的关键词匹配到 HyDE Rerank 混合检索#xff0c;这篇文章记录了我在构建 Multimodal Agent RAG过程…深度复盘如何构建一个“能看懂图”的 RAG Agent 既然要做就不能只是个“玩具”。从 PDF 乱码到精准还原图文上下文从简单的关键词匹配到 HyDE Rerank 混合检索这篇文章记录了我在构建 Multimodal Agent RAG过程中的技术选型与踩坑实录。前言为什么传统的 RAG 像个“盲人”在做这个项目之前我测试过市面上很多 RAG 系统。它们处理纯文本很溜但一旦扔进去一份图文混排的研报或技术手册体验就断崖式下跌。最典型的场景用户“这款芯片的架构图是怎样的”RAG“根据文档第 12 页该芯片采用 4nm 工艺包含 8 个核心…”用户“图呢我要看图”RAG“沉默或胡说八道”这种“上下文割裂”的痛点让我决定自己动手写一个Multimodal Agent RAG。我的目标很明确它不仅要能读懂文字还要能“看见”图片并且理解图片在文档中的位置和含义。一、为什么要搞多模态 Agent其实理由特别简单 —— 为了 “偷懒” 嘛你想啊如果每次都要手动把图片里的信息提取出来告诉 AI那得多累啊咱们的目标是让 AI 自己去“看”。而且现在的 AI Agent 这么火如果一个 Agent 只能看文字那它就像缺了一只眼睛能力大打折扣。所以这个项目的核心亮点就在于多模态 RAG不仅索引文字连图片也一起向量化问图也能答。全流程 Agent不仅仅是搜索还引入了 LangGraph 构建的智能工作流。Agent 会先识别意图是闲聊还是查资料如果查资料它还会自动进行查询改写 (Query Rewrite) 和任务拆解让检索更精准。HyDE 假设性文档嵌入针对用户问题太短如 “推荐几款”导致语义缺失或多跳问题需跨文档推理导致检索断层的痛点Agent 会先“脑补”一个包含完整逻辑链条的虚拟答案。用这个虚拟答案去检索不仅能填补语义鸿沟还能把分散在不同文档中的线索“串联”起来极大提升了召回的全面性。精准图文还原这可不是简单的 OCR而是保留了文档原本的排版逻辑哪段文字配哪张图清清楚楚。二、灵魂拷问Embedding 模型选对了没很多人在做 RAG 时把精力全放在了 Prompt Engineering 上却忽视了最基础的向量模型。对于多模态 RAG 来说Embedding 模型就是系统的“眼睛”。如果用传统的 BERT 类或者文本embeding模型它们只能看懂文本。图片怎么办只能把图片转成文字OCR再向量化。但这样做会丢失大量的视觉信息颜色、布局、风格。2.1 豆包多模态 Embedding 的降维打击在这个项目中我果断选择了豆包 (Doubao) 多模态 Embedding 模型。为什么是它因为它是真正的 Native Multimodal。它能把文本和图片映射到同一个高维向量空间。也就是说在它的“脑子”里“一只柯基的照片”和“柯基犬”这三个字的向量距离是非常近的。这意味着什么以文搜图搜“可爱的狗”直接召回柯基的照片。以图搜图丢进去一张猫的照片它能找到相关的文档。跨模态对齐它真正理解了图文之间的语义关联而不是生硬的拼接。没有这个多模态底座多模态 Agent 流程也只是空中楼阁。三、深度解析Agent 模式 vs 普通 RAG 模式很多朋友可能会问“Agent RAG 和普通的 RAG 到底有啥区别”咱们来打个比方3.1 普通模式 (Traditional RAG)就像一个 “只会查字典的实习生”。流程用户问什么 - 直接拿去数据库搜 - 搜到什么给大模型 - 大模型总结回答。缺点如果你问得不清楚比如只问 “它多少钱”或者问题很复杂它就傻眼了搜出来的东西往往风马牛不相及。3.2 Agent 模式 (Agentic RAG)这是一个 “有经验的研究员”。**思考 (Reasoning)**它收到问题后不会急着去搜。意图识别它会先想“老板这是在跟我闲聊还是在问正经事”**查询改写 (Rewrite)**如果你问 “它多少钱”它会结合上下文自动补全为 “iPhone 15 Pro 多少钱”。HyDE 增强如果你问得很简略它会先写一篇 “假设性的标准答案”用这个答案去库里比对。**规划 (Planning)**面对复杂问题它会将任务拆解成多个子任务分头行动。**精准筛选 (Filtering)**检索回来后它还会调用 Cross-Encoder 进行 Rerank (重排序)像漏斗一样把不相关的结果踢出去确保喂给大模型的都是精华。在这个项目中我通过 LangGraph 实现了这套完整的思考回路让系统真的“活”了起来。四、揭秘Agent 的完整思考链路 (Workflow)在做这个项目的时候我一直在想如果只是用户搜什么我就查什么那不就只是个 “高级搜索引擎” 吗这哪行啊真正的 Agent应该是有思考能力的。所以我给它装上了一个 “大脑”让它学会了自主规划。下面就是它处理一个复杂问题时的完整心路历程4.1 用户输入用户发来一条消息比如“帮我查一下 A 产品的价格并对比一下 B 产品。”4.2 意图识别 (Intent Recognition)Agent 首先会判断“这是在闲聊还是在查资料”闲聊模式如果用户只是说 “你好”直接调用大模型回复不浪费资源。RAG 模式如果涉及知识库内容则进入下一步。4.3 任务拆解 (Decomposition)面对复杂问题Agent 不会一股脑去搜。它会把问题拆解成多个子问题子问题 1A 产品的价格是多少子问题 2B 产品的价格是多少4.4 假设性回答 (HyDE)这是最关键的一步对于每个子问题Agent 会先 “脑补” 一个假设性的标准答案。为什么要这么做因为用户的提问可能很短比如 “价格”但文档里的答案是很长的句子。用 “生成的答案” 去匹配 “文档里的答案”相似度会比直接用 “问题” 去匹配高得多4.5 混合检索策略 (Hybrid Search)在召回阶段我没有单纯依赖一种方式而是采用了 “广撒网精筛选” 的策略。**向量检索 (Dense Retrieval)**擅长捕捉语义。比如搜“苹果”它知道你想找的是“水果”还是“手机”而不仅仅是匹配关键词。我使用了 Embedding 模型将文本和图片映射到同一个高维向量空间计算余弦相似度。**关键词检索 (Sparse Retrieval)**虽然语义很重要但有时候精确匹配更关键比如专有名词、产品型号。如果用户搜具体的报错代码或型号 ID向量检索可能会“跑偏”这时候关键词检索就是最好的补充。Agent 会同时执行这两路召回取长补短初步召回 Top-K 个相关文档片段。4.6 精准筛选 (Filtering Rerank)所有子问题召回回来的文档片段可能有几十个会被汇总在一起。Agent 会调用 Cross-Encoder 模型对它们进行精细打分把不相关的杂质剔除只保留最精准的几条。4.7 最终生成最后大模型结合这些经过层层筛选的高质量素材生成最终的回答图文并茂地呈现在你面前。流程图总结用户输入 - 意图识别 - (如果是 RAG) 子问题拆解 - HyDE 生成 - Embedding 召回 - 精准筛选 (Rerank) - 最终回答Agent 思考过程可视化五、 “上下文”的救赎重写 PDF 解析器很多人做 RAG 第一步就挂在了数据清洗上。我也一样起初我直接用了 langchain 自带的 PDF loader结果解析出来的东西惨不忍睹图片全丢了或者图片堆在文件末尾完全失去了上下文关联。5.1 真正的图文混排我需要的不是“提取图片”而是“在文字流中保留图片位置”。经过反复查阅 PyMuPDF (fitz) 的文档我发现了一个关键参数 sortTrue。它可以强制解析器按照人类阅读顺序从上到下、从左到右返回内容块Block。我重写了解析逻辑核心思路就像是在“织布”# backend/app/services/parser.py 核心逻辑复盘def _parse_pdf(self, file_path: str) - List[ParsedChunk]: # ... for page in doc: # 关键点sortTrue 保证了 blocks 是按阅读顺序排列的 blocks page.get_text(dict, sortTrue)[blocks] for block in blocks: if block[type] 0: # 文本块 # 遇到文字先暂存到 buffer不急着切片 current_text_buffer extract_text(block) elif block[type] 1: # 图片块 # 遇到图片说明之前的文字段落结束了 # 1. 先结算Flush之前的文字 buffer if current_text_buffer: save_text_chunk(current_text_buffer) current_text_buffer # 2. 插入图片占位符保持上下文位置 # [图片: images/kb_id/uuid.png] save_image_chunk(block)这几十行代码看似简单却解决了 RAG 中最头疼的多模态对齐问题。现在的 Agent 在读取数据时能清晰地知道“这段文字下面紧接着就是这张图。”5.2 “黑图”的诅咒跑通解析后向量库里突然多了几千张“垃圾图”。排查发现PDF 里的分割线、背景色块、甚至页眉的小图标在底层都是 Image 对象。为了不让这些噪点污染向量空间我不得不加了一层“安检”# 过滤掉 99% 的无效图片if img_size 3072: continue # 忽略小于 3KB 的图标if width / height 20: continue # 忽略分割线做工程就是这样80% 的时间都在处理这 20% 的脏数据。六、最后一公里的精度Rerank向量检索Bi-Encoder很快但它对精确匹配往往不够敏感。为了提升 Top-k 的准确率我在系统中预留了 Cross-Encoder Rerank 的位置。在 backend/app/services/rerank.py 中我设计了一个有趣的混合模式本地模式加载本地的 BGE-Reranker 模型推理速度快数据不出域。云端模式利用 LLM 的推理能力进行打分。这种设计保证了系统的灵活性在显存充足的服务器上跑本地模型在轻量级部署时切到云端 API。七、成果展示与总结这个项目 multimodal-agent-rag 目前已经实现了精准的 PDF 图文解析与对齐基于 LangGraph 的动态工作流多模态向量检索文字图片基于豆包多模态 Embedding 的跨模态召回现在它不再是一个只会瞎编的“盲人”了。当你问它关于图片的问题时它能真切地把那张图找出来摆在你面前。这大概就是工程师最幸福的时刻吧。Agent 精准回答问题召回详情展示系统整体界面后端架构设计完整对话测试结果致谢作者知乎用户Q.原文https://zhuanlan.zhihu.com/p/1986887816366548563欢迎你的加入学习群关注公众号「关于NLP那些你不知道的事」添加小编[yzyykm666]备注**【昵称-学校-想加入的学习群名称】加入「AIGC面试宝典」群聊**一起交流讨论涉及RAG学习群、LLMs九层妖塔、NLP推荐系统学习群、KBQA学习群、AiGC面试准备群、对话系统学习群、知识图谱学习群、多模态学习群、文生图学习群、animate动作迁移学习群《大模型面试宝典》欢迎你的加入「大模型面试宝典」星球主要是作者的一些学习成果和资料分享。2025年Stable Diffusion 面经deepseek r1 面试宝典deepseek r1 实战帖ms-swift 学习帖2024年十月 AIGC面经准备发稿八-九月 AiGC 实践教程 —AiGC摩天大楼争取把所有AiGC任务都刷一遍七月大模型推理加速教程六月 Agent实战教程— Agent千机变六月大模型训练系列五月 RAG实战教程— RAG潘多拉宝盒四月 AiGC实战训练营—非一般程序猿2023年NLP实践教程 —NLP菜鸟逆袭LLMs实践教程—LLMs九层妖塔LLMs面经— LLMs千面郎君NLP面经— NLP面无不过推荐系统入门—推荐系统入门推荐系统面经—推荐系统百面百搭如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

环保公司网站建设石家庄信息门户网站定制

已经有域名，如何建设网站个人网站需要多少钱

学习做网站可以吗做网址的公司

做系统软件的网站企业信息查询官网入口

茌平做创建网站公司wordpress设置免审核

贵州建设工程招标协会网站wordpress js跳转

网站内容建设和运营工作内容猪八戒兼职平台