淄博网站建设开发学做网站卖东西去哪学

张小明 2026/1/1 9:03:38
淄博网站建设开发,学做网站卖东西去哪学,湖北企业响应式网站建设价位,清晰化网站文章提出了一种大模型应用研发框架#xff0c;通过多智能体系统(MultiAgent System)降低模型应用研发成本和技术门槛#xff0c;让非专业人员也能开发大模型应用。该框架覆盖从建模、数据准备、模型调试到部署的全流程#xff0c;实现了研发效率提升和成本下降#xff0c;推…文章提出了一种大模型应用研发框架通过多智能体系统(MultiAgent System)降低模型应用研发成本和技术门槛让非专业人员也能开发大模型应用。该框架覆盖从建模、数据准备、模型调试到部署的全流程实现了研发效率提升和成本下降推动大模型的领域化应用建立更开源的开发模式。自 “Prompt工作手册” 发布以来我持续研究大模型能力的应用及研发方法结合产业发展在研发框架和模型应用上有了新的思考并形成了新的方法论希望我们的能力不仅仅停留在模型研发的某一阶段而能贯穿在研发全流程之上。本文介绍了我们近半年的工作成果通过对研发框架的工程化我们大幅降低了模型应用研发的成本让人人都能开发大模型应用。一、写在前面1.1. 大模型应用是未来也是现在“大模型” 爆发至今已有 2 年的时间行业持续火热模型基础能力持续升级。2024.9. OpenAI 发布的 “O1” 模型为领域再一次带来了新的突破期间多模态也持续展现了令人惊喜的发展。于此同时成本的降低与效率的提升也在持续进行让大模型融入到了更多的场景之上。但相对的在模型基础能力突飞猛进的背景下“模型应用” 的发展就显得相形见绌从 “领域模型” 到 “AI原生应用” 再到 “AI-Agent”这些应用层的概念均获得了极高的热度但时至今日人们也没有看到新时代的到来AI应用并没有如人们预期的一样爆发其原因是什么呢我们可以从 “2024 Gartner AI 技术成熟度曲线” 中得到一些启发“Generative AI” 即如今大模型使用的底层技术已经到了 “期望膨胀期” 和 “泡沫破裂期” 的边界点上。这个敏感的节点表明在前期的发展中领域已经积累了大量的 “伪创新”且在未来的一段时间里伪创新会被大量的清洗留下那些真的“金子”稳步爬升直至成熟。从这个角度“AI应用” 对曲线来说似乎还是一个 “过早” 的话题“稳步爬升” 期才是应用会大量爆发的时期这在其他科技领域的发展中也可以被观察到PC互联网移动互联网。而这与大多数人的感受似乎有所差异我们可以很明显的感知到大模型能力的强大并且实际上我们也已经在很多场景中使用它了那为什么现在 “AI应用” 似乎还是为时过早还是有些没到时候呢上面这张趋势图中除了 “Generative AI” 还有包含很多技术点代表了AI各个领域的发展状态其中不乏和大模型相关的领域如发展期AI EngineeringModel OpsPrompt Engineering 萌芽期Multiagent SystemsDecision IntelligenceAI-Ready DataFirst-Principles AIAGI我们稍加观察就可以发现这些与 “AI应用” 相关的领域大多还处于 “发展期” 和 “萌芽期”。这些技术都是模型应用开发的关键节点对模型的应用效果起到了决定性的影响。例如我们最熟悉的 “Prompt Engineering”一个几乎和大模型同时诞生的概念在领域发展期间得到了持续的关注和研究但直至今日依然处于发展的早期阶段。再如近期火热的 “Multiagent System”对于模型的应用效果尤其是工业化的应用效果至关重要在2023年就被认为是未来最重要的技术之一但时至今日依然处于 “萌芽期”。如果我们综合观察这些技术的现状不难得到一个结论应用技术的落后成为了模型应用的关键阻碍。在领域的发展中持续有一种声音存在模型的效果的根本取决于模型的基础能力在模型基础能力的高速发展时期不应该过多做应用层的事基于当前模型能力做的工作可能被一次模型升级彻底推翻。这种想法不无道理但站在今天的视角下我们看到模型基础能力的发展速度在明显衰减人们对模型应用的需求持续增长各项模型应用的基础能力仍待增强。所以要做出更好的模型应用不能再像以前一样仅仅依靠模型能力的升级而是要把尽力投入到模型应用技术的建设当中。以上我从领域发展的角度阐述了应用侧技术的不成熟是大模型难以应用的关键并引出了我们希望通过模型应用层的工作让模型能力更好的落地。下面我就来具体分析应用侧技术的不成熟对模型能力的应用产生了哪些阻碍我们具体想做什么1.2. 什么阻碍了模型应用首先我们再来重新看看前文中提到的这些应用层能力我们可以大致把他们划分为2种一种是帮助开发者更好的完成模型能力的研发和部署另一种是更好的利用模型能力产生更好的应用效果。模型应用的研发部署AI EngineeringModel OpsPrompt Engineering 模型应用效果 1. 综合行为能力AgentMultiAgent Systems 2. 推理能力Decision IntelligenceFirst-Principles AI 3. 数据能力AI-Ready Data这也就对应了模型在实际应用阶段的问题开发成本高应用效果差。1.2.1. 模型研发成本高昂首先需要对我们所说的模型应用加以说明。一方面看即便不使用任何技术今天的大模型依然可以产生令人惊喜的效果但当我们要将其应用到工作中时就会发现其存在的各种问题例如稳定性准确性可控性以及 “对齐” 问题等等而我们讨论的也正是这种场景。为了解决这些问题我们就需要使用一些技术例如Prompt工程通过优化Prompt框架影响模型的输入获得更好的效果。 模型训练通过数据训练的方式影响模型的参数获得更好的效果。 RAG 知识库赋予模型检索外部数据的能力以补充模型知识不足的问题获得更好的效果。 Agent系统通过拓展模型的能力记忆插件多模型调度以及构建由多个模型组成的系统获得更好的输出。这些技术即便有对应的工具支持也都有较高的使用门槛需要使用者具备一定的专业能力这也就对模型的研发造成了不小的成本。即便是其中技术难度相对较低的 “Prompt 工程”也已经不断发展中积累了不少的技巧还包含不同模型之间的分别“非技术人员” 想要掌握并不简单。其次即便开发者掌握了一些技术可以完成Prompt的编写也很难独立完成模型应用的研发。整体的研发流程不仅是单一模块的工作涉及 “数据”“算法”“工程” 等多个模块包含 “数据准备”“数据标注”“问题建模”“能力研发”“效果评测”“模型调试”“上线部署”“落地应用”“优化迭代” 等多个阶段是一项系统化的工程这也对模型的应用造成极大的成本。因此即便人人都可以在和模型 “聊天” 的时候感受到模型能力的强大但并非人人都能真的应用模型。1.2.2 模型效果优化困难前文说了模型的开发成本此处还需要说明模型的应用效果两者有所关联但不完全一致。由于大模型的基础能力所限即便模型能力在不断更新迭代其依然存在若干无法根治的问题例如知识不足模型并非知识库在很多时候会展现出知识上的不足尤其是在应对 “高时效性知识” “专业领域知识” “业务领域知识”。 推理能力不足目前的大多数模型都存在推理能力不足的问题尤其是在面对数理问题时甚至无法完成最基础的数理逻辑即便是在 “O1“ 发布以来推理能力仍然被认为是如今大模型最需提升的能力之一。 稳定性不足自大模型诞生以来“不稳定性” 就是被人们谈论最多的问题今天我们可以看到“幻觉”问题已经大幅减少但效果上的不稳定依然存在并且实际影响到了模型的“可控性”目前还没有得到很好的解决。当然我们有一些技术手段来应对这些问题例如RAG从行业的趋势慢慢长成了行业的共识很好的解决了 “知识不足” 的问题 时至今日已经演化出多中类型的方法已应对不同种类的数据并且知识应用的效果也得到了大幅的提升。 Hidden COTO1 模型的发布在模型推理上带来的新的突破从OpenAI官网的文章及各种的采访中我们可以大致了解到 O1 使用了 Hidden COT 的技术。如果分析OpenAI官网给出的例子的话会发现它确实能通过这样逐步拆分提升其推理能力并在这样逐步的思考中意识到之前犯的错误并自动进行修正。这种问题切分和错误修正的能力对于模型能做长链条思考及解决复杂任务非常重要。 Agent MultiAgent要让模型真的在应用中发挥效果仅仅让模型 “聊天” 是远远不够的。我们可以赋予模型更多的能力让他帮我们去完成实际的任务让他有记忆会计划能执行。同时我们可能还需要更多的模型加入组建一个由Agent组成的团队去完成更加复杂的任务这些技术可以帮助我们更好的应用模型的能力让他发挥出更好的效果。然而这些技术还都处于“萌芽期”还在不断的产生和迭代。换句话说只有用好这些“技术”模型才能在应用中展现出令人满意的“效果”即便是对专业的技术人员这也是一项不太容易的工作。这些技术中的存在的专业壁垒也对模型应用的研发造成了不小的困难。1.3. 模型应用研发的痛点痛点模型效果难优化成本高技术挑战大如前文所述模型应用的开发成本高应用效果差。这使得即便大模型的基础能力十分强大大家也无法真的把他应用起来。大模型的能力本是通用的大家对未来的畅想也是希望他是通往AGI的道路。但由于他极高的研发成本和不可靠的应用效果模型应用从通用走向了定制开发模式也变成了集中化的闭源模式并且这并不是一两个模块的改进就可以解决的而是整个研发流程都需要进行的优化。目前市场上也不乏有一些单一环节的研发工具如Prompt工具模型训练工具模型调度工具。这些工具无疑是降低了研发环节的成本并提供了一定的效果保障。但如果我们要让每个人都能完成模型的应用这还远远不够。单一环节工具带来的降本增效往往是面向开发人员的并没有起到降低专业壁垒的作用。要降低应用模型的成本首先要降低研发流程的成本让每个人都能较低成本的完成这个研发过程比单一环节的优化更为重要。尤其是对于大模型的领域化应用而言依赖算法专业人员集中式的构建领域能力不仅与大模型通用化的发展趋势不符也不能满足领域的诉求。只有让领域内的专家非算法开发人员自己完成模型的应用搭建类似开源的能力研发生态才能真的做到模型能力的领域化毕竟领域最重要的价值是领域内的人而并非纸面上的知识和技术。二、让人人都能开发大模型应用前文分析了我们希望解决的问题以及我们想达到的效果。我们希望可以降低模型的研发成本提升模型研发的效率和应用的效果让每个人都能完成模型能力的应用。近 1 年多的时间里我一直在探索大模型和“质效”领域的结合希望可以将模型能力融入到业务的质效工作当中在 “测试用例”“缺陷”“需求”“代码” 等领域中完成了若干尝试其中也有不少能力在业务落地并取得成效。但在工作中也遇到了一些明显的阻碍模型研发效率无法匹配领域诉求质效领域是一个贯穿产品研发周期的领域其中包含大量的领域诉求仅仅“测试用例”相关的模型能力点就可以做到上百个。并且在领域和业务常年的积累下诉求的定制化严重可复用性差。而在这种情况下模型能力从研发到应用落地的周期为“1个/人月”与领域诉求存在巨大差距。模型研发人员无法掌握领域专业质效领域的每个模块都包含着大量的专业知识和专家经验结合复杂的业务知识模型研发人员很难完全掌握而这些领域往往又不具备大量的数据在模型研发过程中就十分依赖研发者的专业能力而这些复杂的专业能力又不是非领域人员可以轻松掌握的这无论是对模型能力的研发效率还是应用效果都造成了极大的苦难。无法与领域专家建立高效的协作模式领域专家提供专业知识和指导是模型重要的输入之一但由于算法与领域均包含较高的专业壁垒且模型研发流程不规范导致很难建立高效的协作模型领域专家的知识很难传导至模型。这些问题并不专属“质效”领域对于大多数模型应用的场景都存在类似的问题领域专家无法应用模型模型开发人员不了解领域知识。因此我们希望降低模型应用的研发成本降低专业壁垒提高模型的研发效率。让领域内的人都能完成模型应用的研发都能完成模型能力的应用。以此让模型能力更好的在领域内落地持续推进大模型的领域化。目标让人人都能完成大模型应用人人对大模型AI不了解的人领域专家 完成低成本的满足自己的诉求并达到稳定的效果 大模型应用能在实际场景中落地并产生应用效果三、大模型研发框架为了达到前文中阐述的目标我们希望打造一个模型应用的研发工具可以帮助大家降低模型研发的成本提升模型研发的效率。与目前市场上的模型研发的工具不同目前的研发框架在效率和效果上可以提供一定的帮助但并未降低模型研发的专业比例大多还是面向技术人员对用户提出了不小的技术门槛。我们希望通过大模型能力的加持对整体研发流程进行改进让用户仅需处理“任务”维度的信息即可完成研发。类似于 “2024百度世界大会” 上发布的“秒哒”工具一款不用写代码就能实现任意想法输入自然语言或PRD即可生成应用无需技术与设计经验的无代码开发工具。我们也希望研发一个针对模型能力的 “MultiAgent” 系统通过简单的输入即可完成模型应用的生成。与现有模型研发工具的差异面向所有人我们希望可以让所有人都可以低成本的实现一项模型能力而非仅仅针对专业人员 我们本身就是一个多智能体系统我们希望搭建由多智能体组成的系统具备各个环节的模型研发能力尽可能降低各个环节的成本 不仅仅是针对单一模块我们并不想成为某一单一环节的增效工具而是希望从目标出发作用于研发全流程上。3.1. 从 “Prompt工程” 到 “模型研发框架”正如我们之前论述的我们希望赋能在研发全流程上而非单一的研发环节。但实际上最初我们想做的和很多人一样仅仅是一个 “Prompt工具”这里的心路历程是怎样的呢“Prompt” 是影响模型效果最直接的变量领域中充斥了大量对Prompt的研究我也并不例外。在大模型应用的探索中为了更好的让Prompt产生稳定的效果为了提升对Prompt的管理能力以及Prompt生成的效率我花了不少时间聚焦在Prompt框架的研究上、。对于 “Prompt工程” 的框架化进而产生了工程化的想法是否可以通过将“Prompt工程”工具化帮助开发者自动完成Prompt的编写和优化呢事实上无论是方法框架产品这类工具在市场上都并不少见for这些产品都可以帮助用户完成Prompt的生产他们了解各类大模型的特点善于使用各种Prompt技巧性并可以通过算法结合数据不断对Prompt进行优化。这无疑对 Prompt 的生产和管理提供了极大的帮助在大模型日新月异的今天即便是Prompt专家也很难熟悉每种模型的特点和每一种Prompt技巧这些工具是一个很好的帮手可以显著提升Prompt编写的效率和效果。但如果我们进一步思考即便Prompt工程对模型效果十分重要但他只是一种技巧并非模型研发的 “第一性”。甚至在很多场景下人们会对该使用什么技巧产生争论例如 “Prompt” 和 “模型训练” 的争论。基于目前大模型自身强大的能力我们认为模型研发的 “第一性” 就是 “提升应用效果”用户不需要也不应该了解模型研发背后的技术只需要对当下的任务负责对当前的效果负责即可而比起提供若干的Prompt技巧对“提升应用效果”更有帮助的问题或许是1.**如何评估效果**目前的Prompt好不好效果怎么样2.**如何 debug**模型犯了某种错误我该如何调试3.**如何优化模型**模型某些方面的能力不够强我该怎么办4.**如何应用模型**我怎么把模型用到工作中这些问题均不指向某个单一的研发模块而是更全面的指向整个研发流程。大家需要的不仅是一段段的Prompt而是一个可以帮助我们不断提升模型应用效果的工具。因此我们最终把目标转向了模型研发流程的工具化希望这个工具能让每个人能具备应用模型的能力。3.2. 模型研发流程简单来说我们就是希望在“大模型应用研发”的过程中用AI的方式帮助用户做一些工作首先我们先来看看大模型应用研发的过程结合我在模型应用研发上的探索目前的模型应用研发工作可以大致分为如下几个环节建模首先我们要对问题进行定义明确需要模型为我们做什么。从业务视角看我们要把模型能力引入到业务中首先要把问题定义清楚这是模型应用的关键类似传统研发中需求的产出只有明确了需求和目标才能进行后续的研发和调试。同时我们需要将业务问题翻译为技术语言用AI思路对问题进行转换也就是完成问题建模的过程。这个过程往往容易被忽略但对后续研发十分重要最简单的模型输入什么模型输出什么数据数据是大模型的3大关键要素之一算法算力数据与任务对应的数据是模型的主要输入是模型训练和调试的主要依据应尽可能覆盖任务的假设空间。数据标注任务是其中最苦难的环节很多情况下我们仅能找到数据的 “输入” 部分而无法得到数据的 “输出”此时就需要我们进行标注在今天的大模型时代AI标注成为了常用的解决方案后文还会展开介绍。模型在前面的两个步骤中我们准备好了模型的输入下面就需要根据这些输入进行具体的模型调试优化模型在任务中的效果。这是模型研发过程的主要工作可能会分为多个部分a.**模型选型**首先我们需要依据任务类型以及我们对应用的要求选择合适的大模型进行调试。通常我们会进行一些轻量的实验辅助初步的选择。b.**Prompt工程**在选择好模型后我们就需要根据我们的任务对Prompt进行调试。随着领域的不断发展Prompt工程已经积累的大量技巧也产生了一些方法框架以及相应的工具。理论上如果模型能力足够强大我们仅仅通过 “Prompt工程” 即可完成效果的调试。c.其他优化技术“Prompt 模型” 已经构成了模型应用的最小单元但实际上这往往并不能产生令人满意的效果。因此在这个基础上我们还需要增加一些额外的调试手段例如“RAG”“训练”“CoT” 等等以此进一步提升模型的效果。d.**Agent MultiAgent**当我们处理的问题更加复杂时单纯的模型语言能力无法满足我们的诉求我们需要赋予模型环境感知、自主理解、决策制定执行行动等能力让其处理更加复杂的任务。同时我们的任务也可能包含多个推理阶段需要我们引入多个Agent的能力通过系统级的模型调度来完成模型的调试方法很多且在不断的更新迭代当中这里仅仅罗列其中最主要的一些方法。是否需要使用以及如何使用往往需要结合任务的具体情况以及模型现状来进行判断这往往依赖模型研发人员的经验也是模型研发过程中专业壁垒最高的部分。效果评测在我们调试模型的过程中以及初步完成模型调试后我们都需要对模型的效果进行评测。通常的方法就是应用模型在我们实现准备的数据上尽性推理并计算模型推理结果和实际结果的差异。对于不同的任务会应用不同的评估指标但总体来看均是度量两者间的相似度。比起量化的指标结果模型在评测过程中出现的问题更加重要针对badcase的分析是模型进一步提升效果的关键。持续优化调试模型调试不是一个一蹴而就的单向过程在领域持续发展的今天即便基础模型都会持续更新其中的若干优化方法更是在不断的迭代当中。即便是模型上线应用以后分析badcase并不断提升模型效果也是一个持续不断的过程。部署运维当模型效果达到应用标准后我们就需要进行模型的部署将其融入到我们的应用场景当中。无论是通过接口定时任务还是通过定制的工程开发我们需要让模型能力尽可能的贴合我们的应用场景让模型在应用中产生效果。在过去1年多的时间里我们一直在业务中探索大模型和质效领域的结合尝试应用大模型能力解决业务的质效问题完成了多项能力研发并在业务落地下面用一个实际例子更直观的解释模型研发的过程。在业务质效能力的建设中“用例检查” 任务通过大模型能力的引入发现“测试用例”中存在的问题辅助“测试用例”质量提升缓解业务因用例导致的漏测问题。在 “用例检查” 要发现的具体问题上“二义性” 问题是其中最典型的问题之一也是目前应用最广成效最多的能力之一。我们希望引入大模型能力对用例进行检查发现 “测试用例” 中存在的二义性问题建模a.**问题定义**对用例中存在的 “二义性” 问题进行分析并对其引起的漏侧问题进行分析找到其中的典型案例确定 “二义性” 定义补充必要的业务知识和专业知识。b.**问题建模**用技术语言对问题进行描述检查问题实际是一个 “分类任务” 我们需要根据用例的“标题”“步骤”“预期结果”对用例进行分类将用例分为2类“存在二义性问题” 和 “不存在二义性问题”。数据a.**原始数据采集**我们的数据输入就是用例内容目前业务有近20w的用例数据数据储备充足b.**数据清洗/计算**任务聚焦在对用例内容的检查因此无需做过多的计算仅需对数据格式进行统一并筛选出适合用于模型调试的数据即可。c.**数据标注**虽然业务的用例储备充足但由于过往没有经历系统化的检查因此没有充足的标注信息。因此我们引入了 AI 标注的手段应用 GPT4 对用例进行了粗标并人工进行确认获得了 500条 左右的标注数据模型a.**模型选型**由于任务的敏感性和成本的要求我们无法直接使用闭源的外部模型而是选择了在公司内部私有部署的 qpilot-chat底层是ChatGLM由Qpilot团队微调得到。b.**Prompt工程**结合我们的任务定义和数据我们进行了多轮的 Prompt调试 工作在“定义”“任务描述”“要求”“限制条件” 等多个方面对进行了多次的优化产出了多版 Prompt反复提升模型效果。c.**RAG**测试用例不仅与领域专业结合紧密与业务知识也有很大的关联因此我们引入RAG技术结合知识库对 “业务专用词””领域专用词“ 进行解释提升能力的应用效果以及在各个业务的适应度。d.**CoT稳定性提升**为了提升能力的稳定性引入了CoT模块拆分思维链并增加“反思”等机制缓解小模型的幻觉问题提升能力的稳定性。e.**格式限制条件限制**抽象模型的各类“限制模块”作为单独的推理环节结合模型调度能力在任务推理的各个环节提升模型的可控性和稳定性。f.**Agent MultiAgent**对整体系统而言我们为模型增加“记忆调度”“插件调度”“条件限制” 等多项能力尤其是在格式限制和条件限制方面抽象模型的各类“限制模块”作为单独的推理环节结合模型调度能力在任务推理的各个环节提升模型的可控性和稳定性。效果评测在模型调试过程中我们进行了多次的模型效果评测计算模型在数据集上的“准确率”“精确率”“召回率”等指标。并持续对badcase进行分析指导模型的优化方向。部署运维为了让模型能力更好的在业务中落地我们提供了多种应用方式api接口定时检查任务以及我们结合业务的实际应用场景进行了专项的工程化开发研发智能用例平台承载用例的检查和问题的修复。同时我们为了让检查问题得到更好的闭环解决我们将检查问题和Tapd打通并制作质量看板对数据进行分析通过推送等方式进行业务触达切实推动问题闭环解决。3.3. 我们要做什么前文中我们结合示例叙述了模型应用的研发流程我们希望引入大模型能力为用户承担这个流程中的部分工作以此提升模型研发的效率降低模型研发的成本和技术壁垒让人人都可以完成模型能力的应用。因此我们需要进一步分析具体要在哪些环节提供帮助。下图用3中颜色进行了标识分别表示研发流程中需要用户负责的系统负责的以及共同负责的部分。建模a.**问题定义**问题定义是与具体任务最为相关的部分用户需要明确希望大模型为自己做什么并进行清晰的定义此步重点在用户需求的定义由用户独立负责。b.**问题建模**把问题定义转换为技术语言对于非技术人员并不简单但由于是模型研发的基础输入且依然属于用户需求的范畴知识表现形式有所差异因此也需要用户独立负责。工具会根据任务类型通过清晰的模版定义帮助用户但内容的编写还是由用户完成。数据a.**原始数据采集**除了问题的建模用户还需要提供一定量级的输入数据此处指的是原始数据并不包含标注信息因此仅与任务内容相关需要用户独立负责。工具会以插件的形式提供一定的数据获取能力例如从Tapd腾讯文档读取数据。b.**数据清洗/计算**我们可能还需要在原始数据的基础上进行一定的清洗/计算但并非必要环节工具会提供一定的能力支持如格式解析格式整理但主体由用户独立负责。c.**数据标注**标注是数据准备阶段最困难的工作我们往往仅能批量获取任务输入部分的数据而无法获取任务的输出部分若依赖人工标注则往往会产生较高的成本。工具会提供一定的AI标注能力事前应用能力较强的闭源模型混元GPT4对数据进行粗标再结合人工确认低成本的和用户共同完成数据标注工作模型模型阶段的所有工作都可以由系统自动处理但为了提升用户的定制化程度在某些环节用户可以进行一定程度的干预a.**模型选型**工具会结合业务的实际情况数据类型复杂程度成本推荐合适的模型用户也可以手动选择进行更改b.**Prompt工程**工具具备强大的Prompt编写和优化能力可以根据用户的前序输入自动进行Prompt的生成。c. 其他模型调试技术“基础模型 Prompt” 已经构成了模型应用的最小单元但我们往往为了达到更好的效果需要引入更多的技术模块进行优化。工具会结合任务的实际情况进行技术的选取和使用自动完成效果的优化工作。效果评测在完成一次模型调试后模型就会对事前提供的数据进行推理产出每条数据的推理结果并结合具体的任务类型产出评测指标如准确率精确率召回率F1-score 等。持续优化调试理根据评测的实际结果我们需要对模型的效果进行持续的优化迭代在工具的帮助下这是一个半自动化的过程a.**数据驱动的自动优化**工具会对评测数据中的badcase进行分析并基于分析结果调用模型调试环节中的各个模块对模型效果进行优化Prompt优化RAGreflection等等b.**人为驱动的半自动优化**对于评测结果中的共性问题可以人为进行分析和抽象形成对应的限制目标如“输出格式需满足 xxx ”“过滤输入中的url”“xxx 情况不属于类别 A ”等等。通过自然语言对优化目标进行描述工具即可完成相应的优化。部署运维为了让研发的模型能力得到实际应用我们提供了多种应用方式希望可以尽量贴近模型的应用场景。最基础的我们对所有能力均提供a.**API接口**提供统一的API接口能力方便在各种场景中即成。b.**定时任务**仅需要简单的脚本编写即可部署定时任务定期批量对模型能力进行应用。同时我们还在探索各种其他的能力集成方式如c.**智能用例平台**对于质效域能力尤其是测试用例的相关的能力我们已经自主研发了智能用例平台作为承载用户可以将各项子能力一键在平台中完成上线。d.**聊天驱动的agent能力**通过 “聊天机器人” 的方式对能力进行部署用户可以通过聊天对搭建的能力进行调用。e.**Tapd 看板**用户可以将模型输出的结果直接连通至Tapd并结合数据看板进行结果的查看和处理。3.4. 总结前文中已经详细阐述了为了达到目标我们希望在模型研发流程中提供哪些帮助。实际上我们自身就是一个 “MultiAgent” 系统让用户只需要 “明确需求”“提供数据” 就可以无代码的完成模型应用的研发。并通过这种方式不断积累领域能力推进模型应用在领域中的发展建立类似开源的研发环境真正实现模型能力的领域化。四、构建模型能力的Agent系统前文中介绍了我们希望达成的目标以及我们具体要做的事。下面我就针对工具的几个关键模块从技术角度简单阐述我们是如何做到的。4.1. 建模建模部分是模型调试阶段最重要的信息输入相当于功能的需求文档只有将需求定义清洗才能保证模型的效果符合预期。与前文中介绍的一致建模由2个环节组成问题定义问题建模。对问题定义而言用户可以根据业务应用的视角进行任意问题的定义但对问题建模而言就需要增加一定的限制。两者在内容上并无差异但在视角上有所差别。首先是要区分任务的类型将任务首先映射到对应到常见的AI任务类型上如基础任务类型分类聚类生成回归 综合任务类型信息抽取文本总结问答关键词抽取这其中的每种任务类型都可以在应用层演化出多种任务例如前文中提到的 “用例检查”就是 “分类” 任务的一种。而每种任务类型内是有共性存在的这也就在一定程度上构成工具可以成立的底层基础。工具对每种任务类型的共性部分进行封装每种任务类型对应相应的研发流程通过这种封装和复用降低应用任务的研发成本。例如所有分类任务在 Prompt 上有共性的成分可以应用相似的Prompt结构。由于这个阶段十分重要为了确保建模的过程可以提供足够的信息工具为每种任务类型定义了相应的模版辅助用户完成问题的建模例如分类的模版如下用户需要根据任务的实际情况确定任务类型并填写相应的模版完成对任务的建模。在模版的填写上由于此处是用户唯一的输入方式目前没有引入任何的智能填写手段可能会涉及多处的描述和定义也是后期调试模型需要重点修改优化的地方是影响模型效果的重要因素之一。此处内容的具体填写标准与任务复杂程度和模型能力均有关系无法产出统一的标准考虑到可能存在的不确定性和填写的成本用户可以通过先简单填写再在后续调试过程中逐步优化的方式完成填写工作。4.2. 数据数据也是任务的关键输入之一在后续的多个调试训练评测步骤中均会得到应用。由于数据与任务定义强相关的特性数据准备工作也需要用户完成。工具中的所有对象均以任务维度进行管理用户在模型调试前需要上传任务对应的数据集以完成准备工作。工具对数据并没有过多的要求每种任务类型会有相应的数据格式要求。但总体上看数据集仅需简单的包含模型的 “输入-输出” 即可。同时尽量保证对任务假设空间的覆盖以保证更好的效果。此处还会涉及数据标注的工作通常会造成较高的人力成本。工具支持使用大型模型对数据进行标注并应用这些数据训练小模型这种方式已经逐渐成为了共识的做法其有效性也在有多篇论文中得到了论证。其中最有代表性的S3框架通过使用大型语言模型来缩小小型模型在合成数据集和真实任务数据分布之间的差距。实验结果表明S3框架在多个自然语言处理NLP任务上均取得了显著的性能提升相较于其他基线方法如ZeroGen和GoldGenS3能够显著提高小型模型的性能相比ZeroGen提高了9.48%相比GoldGen提高了2.73%且最多能比基于人工标注的数据训练的小型模型提高15.17%。FreeAL框架该框架通过大模型时代的主动学习技术实现大小模型协同工作达到Human-Free的数据标注。在协同训练期间LLM作为主动标注者灌输其粗粒度知识而下游SLM则作为学生过滤出高质量的上下文样本以反馈LLM以供后续标签精炼。对八个基准数据集的大量实验表明FreeAL在没有任何人工监督的情况下极大地增强了SLM和LLM的零样本性能我们也在工具中集成了这种AI标注的能力即应用大型模型混元GPT4帮助用户进行粗标再由人工确认后完成标注工作。4.3. 模型模型效果调试是模型研发流程中成本最大技术壁垒最高的阶段也是工具最主要的价值。理论上用户只需完成“建模”和“数据”的相关工作工具就可以自主完成模型应用的研发并通过多个模块的方法保证应用的效果。下面我就具体介绍一下其中几个重要模块的实现方法。4.3.1. MultiAgent System相对于大语言模型智能体Agent是一个更广泛的概念是一个能够独立做出决策并实际执行任务的实体而大语言模型仅仅是一种通过分析大量的文本数据来学习语言模式和结构从而能够执行文本任务的模型。大语言模型自身不具备执行任务的能力却可以很好为智能体做出决策并驱动智能体完成交互任务。显然在大多数任务中我们仅仅拥有语言模型是远远不够的对我们的工具而言也是如此我们需要智能体帮助我们完成一个个任务的执行。对于由多个智能体组成的系统我们可以称为 “多智能体系统”MultiAgent System在这些系统中多个智能体可以协同工作以完成复杂的任务。这项技术自2023年底至今持续获得了学术界和产业界的关注诞生了大量的研究比如MetaGPT一种新颖的元编程框架将高效的人工工作流融入到基于LLM的多智能体协作中。其将复杂的开发任务分解为分配给不同角色的特定可操作过程例如Product Manager, Architect, Engineer等等。AutoGen通过Multi-agent框架设置各类完成各种复杂任务如论文中列举的解数学题检索增强问答代码生成国际象棋等等。我们的工具也是一个 “多智能体系统”通过多个“智能体”的协作完成模型应用的开发。同时产出的每项模型能力也都是基于多智能体的系统帮助用户在各种复杂场景中完成任务。上图展示了系统的大致结构整体分为6个Agent模块每个模块包含多项模型能力覆盖从模型能力研发到优化迭代的完整研发过程综合调度Agent系统的决策中心负责对输入进行理解并对任务进行分析和拆解制定执行计划并调度各个模块。Prompt Agent负责 Prompt 的编写和管理工作结合Prompt框架完成编写并结合效果不断优化。模型训练Agent负责模型的训练调度各类模型训练脚本处理训练数据集串联模型训练流程完成模型训练。能力调度Agent负责根据实际情况调度各种能力优化模型效果如RaGCoT Reflection 等每种子能力也作为执行Agent且支持横向扩展插件调度Agent负责在各个环节调用外部插件如数据获取格式转换。插件独立于模型研发过程为系统提供额外的能力加持。意见理解Agent负责理解评测结果根据BadCase和认为修改意见给出修改建议提供给综合调度Agent进行持续的优化迭代。为了让 Agent 模块内部以及多个 Agent 之间可以高效协作我们采用了4层的职责划分框架也在底层构成了 Agent 的统一结构。如上图所示我们将Agent职责划分为了Decison决策Plan规划Action执行Result结果。Decision 决策负责分析当前任务理解输入和上下文觉定要应用的系统能力以及各项能力的具体应用方式。Plan 规划负责规划能力的具体实施方式规划工作流程并指导执行层有序开展工作。Action 执行负责具体任务的实施完成每个原子单元的任务并串联各个模块的工作产生最终的执行结果。Result 结果负责汇集执行层的结果并反馈至决策层作为决策层下一步工作的主要输入。为了帮助大家更直观的理解各个层级的实际作用我们在上图中以 “Prompt 编写” 环节为例展示了各个环节的工作。这个框架构成了Agent的最小工作单元不仅是单一模块的工作对于多个Agent的组成的复杂系统也同样是由这样的结构组成的。以上我们描绘了系统的整体框架下面为了让大家更好的了解系统的运作方式对其中的几个关键的 Agent 模块进行进一步介绍。4.3.2. Prompt AgentPrompt Agent 负责 Prompt 的编写工作是模型调试环节最重要的模块之一对模型效果起到了很关键的作用。自探索大模型应用以来就在Prompt工程上进行了若干探索结合应用经验构建了Prompt框架。把一个Prompt拆分成了 “立角色 述问题 定目标 补要求” 这四个部分并在其之上引入了统一的研发流程实现了Prompt编写的框架化。我们基于这套统一的的研发流程建立了Prompt Agent可以根据用户需求自动完成 Prompt 的编写。包含Prompt模版中各个部分的编写和整体Prompt的优化重写在内容和格式上均对Prompt提供质量保障。要说明的是Prompt 是模型效果提升的一种方式即通过影响模型的输入让模型获得更好的应用效果而并非仅仅是一段“文本”。我们前文中所有的描述都是以 “任务” 维度进行的而一个 “任务” 可能不止包含一次模型推理可能由多次模型推理构成而每次模型推理都有对应的输入也就对应着各自推理阶段的 Prompt。因此Prompt的数量应该与模型推理的次数一致而并非一个任务只包含一个。任务的拆分则与 “CoT” 技术相关与传统的直接输入到输出的映射不同CoT通过将任务拆分为多个环节提升模型的效果即输入 ——思维链—— 输出。这种方式是目前证实提升模型推理能力最有效的手段之一GPT-o1 就是通过强化学习与CoT的结合实现了模型在推理能力上的巨大提升。而这一过程可能是隐含与模型单次推理内的也可能是显性表现在多次模型推理的编排上的。我们应用这种思想首先对任务的思维链进行拆分将任务拆分为多个推理环节并针对各个推理环节生成prompt以此提升模型在任务中整体的应用效果同时提升模型的稳定性和可控性。为了不造成额外的成本并保证工具在任务上的通用性任务拆分同样会由Agent完成不需要用户额外介入。在Agent将任务拆分为多个阶段后会完成各个阶段的Prompt编写最终产生任务的整体Prompt及调度流程。4.3.3. 能力调度 Agent除Prompt的编写外对模型效果影响最大的就是各种额外能力的引入了。这类能力在定位上与模型自身的推理相独立但可以在模型推理的各个环节产生作用其中最具代表性的就是 “RAG” 技术。“RAG” 已经从行业的发展趋势变成的行业的共识通过对文档的检索和生成为大模型补充来自外部的相关数据与上下文通过数据的方式引导大模型生成正确的回答并弥补大模型知识的不足。类似这样的技术还在不断的发展当中且针对具体的业务场景用户可能需要用到更加定制的外部能力因此我们对这一层进行了抽象将各个能力作为 “子Agent” 作用于模型推理的各个阶段并通过调度Agent进行能力的调用通过这种方式提升工具的可扩展性。目前的能力调度主要作用于模型能力的3个阶段前处理阶段事前对用户输入的数据进行处理以便让大模型更好的理解并在其之上完成推理包含的能力类型有a.**数据解析**对于特别复杂的数据或包含内容较多的数据需要事先对数据进行理解如需求文档多模态数据大段长文本。通过文本理解文本总结关键词理解 等方法对数据进行分析以便让模型更好的理解。b.**数据格式化**按照指定格式对数据进行整理可以结合Prompt让模型更有针对行的利用数据提升模型效果c.**异常数据检查**事先发现异常的输入数据避免对模型造成误导提升模型的稳定性模型推理阶段影响模型的推理过程以求获得更好的推理效果包含的能力类型有a.**Prompt修改**在 prompt 中增加额外的补充信息或修改 prompt 内容提升模型的效果。RAG 就是这类能力的典型代表通过引入额外的知识数据或上下文数据弥补模型在数据上的不足。b.**要求限制**通过认为的限制条件提升模型效果的可控型典型的黑/白名单输出字数限制就属于这项能力的范畴。后处理阶段对模型的输出结果进行处理在格式和内容上贴合应用的需求并进一步提升输出结果的稳定性包含的能力类型有a.**结果格式转换**对输出结构的格式进行限制例如转换成规定的json格式以便在业务场景中应用。b.**结果内容转换**模型输出的内容可能包含不需要的部分或不直接包含我们预期的内容分类任务就是其中的典型场景我们需要将模型输出的内容转换为对应的类别。c.**结果校验**为了提升模型输出的准确率可以引入额外的测试/校验逻辑例如常用的反思机制可以有效的提升模型输出的稳定性。这其中的每项能力我们均当作一个agent对待在底层结构上进行统一由决策规划执行结果组成如前文中介绍规范各项能力的开发方式和应用方式提升能力的可拓展性。在能力的应用上我们具备 “Agent自主调度” 的能力也支持人为干预的方式可以在各个环节内调用对应的能力。用户可以根据需求自己完成各个类型能力的定义在某种程度上每一个可服用的“模型应用”都可以成为一个通用的外部能力被应用在其他的模型能力上这些能力的增加也构成了工具成长的潜力也是我们后续要继续探索的重点方向之一。4.4. 调试 优化模型效果提升不是一个一蹴而就的单向工程需要我们在实验的应用中不断优化提升其依据大多来自BadCase 数据实验和应用数据是优化最主要的输入尤其是其中的 BadCase是模型效果提升的关键依据通过对Bad Case 的分析和修复不断提升模型的应用效果。规则要求除数据外我们可能还会引入一些规则或要求基于人为经验对模型效果进行分析并进行干预以此提升模型效果。基础能力升级除任务维度的优化外模型系统基础能力的提升也会影响模型的应用效果尤其是在领域快速发展的时期底层模型或技术的迭代可能会对应用效果带来质的改变。如前文所述为了提升模型研发效率降低模型研发成本我们同样采用Agent驱动的方式辅助完成调试优化工作。如上图所示调试模型效果的途径有 2 种Agent驱动的半自动方式将自然语言和数据输入给 AgentAgent将进行分析和理解形成修改意见传递至任务的“综合调度Agent”再传递至模型的各个环节进行修正其输入主要有2类a.**BadCase 数据**在一轮模型研发完成后系统会在数据集上进行评测产出BadCase数据BadCase 数据会作为模型调试的主要输入传递至下一轮迭代当中。模型上线应用后产生的数据同样会进入这个自迭代的闭环当中用数据自驱动的方式完成模型优化。b.**人为规则要求**除数据自迭代外用户可以自行对模型效果进行分析并依据经验对模型的要求或规则为了提升这些要求对模型效果的可控性我们依据要求类型提供了填写模版如输出格式类要求特殊处理类要求过滤类要求并研发了单独的模块进行处理以提升模型的可控性。这些要求和规则仅需通过自然语言描述即可。同时在规则的实现上我们依旧沿用前文中提到的agent架构让要求独立可插拔以此支持要求的拓展及上下线等操作。修改输入的人工方式在本章的前几节中我们介绍了任务的主要输入包含建模部分的定义及任务相关的数据集这些内容由用户负责是用户控制任务的主要途径。同时在 “能力调度” 模块中部分能力agent也需要用户额外的输入例如与RAG能力相关的知识库。在调试模型效果的过程中用户可以通过修改这些输入来直接完成对模型的影响可能包含a.**修改定义**定义会直接影响任务Prompt以及整体的推理流程可以帮助模型理解任务规范模型的行为是非常重要的输入之一。b.**增加数据**数据是模型调试和训练的依据结合模型现有的问题补充对应的数据是很有效的优化手段。c.**扩充知识库**在外部能力调度中RAG对模型效果起到了很大的影响尤其是在专业领域内应用时可以弥补模型专业知识不足业务知识不足的问题并可以进一步约束模型的输出根据任务补充相应的知识库可以很好的提升模型在任务上的应用效果。我们可以通过以上方法尽量低成本的进行模型效果的调试但即便我们引入了相应的Agent能力和数据驱动的方法这一步骤也十分依赖开发人员的经验和专业能力如何帮助用户更好的完成这一过程是我们还需长期摸索的话题。五、最佳实践目前我们的工具已经完成了初版研发并在实际工作中应用落地。结合近1年多时间里我们在质效领域的探索我们应用工具完成了多项模型能力的研发落地在保证效果的前提下获得了大幅的效率提升和成本降低下面我详细介绍一下我们目前的应用成果。5.1. 研发效率提升最佳实践5.1.1. 效率低带来的痛点在过去一年多里我们在业务中持续探索模型能力和质效工作的结合已完成了8项模型能力的研发落地覆盖了 “用例域”“缺陷域”“代码域” 中的多个痛点场景。即便各项模型能力都在业务得到的应用落地并切实取得成效我们距离业务的质效诉求还是有较大差距。业务质效诉求贯穿产研的各个环节需求量大能力繁杂业务分隔度高仅 “用例域” 的单项任务就可能产生几十个模型能力点。相比之下目前 1 项模型能力从研发到落地就需要 “1人月” 的研发成本造成了产能和需求的巨大差距。面对这种现状我们急需提升模型研发的效率提升对业务需求的覆盖度。5.1.2. 实践成效在大模型和 “缺陷域” 质效问题结合的探索中业务希望可以引入模型能力对 “用户反馈” 进行检查发现 “用户反馈” 中存在的严重问题并进行特殊关注确保严重问题的跟进解决。通常 “用户反馈” 问题的严重程度由 2 方面判断“反馈量”“反馈内容”。反馈量可以很直观的获得但反馈内容的严重程度则依赖人为经验判断这就存在 “反馈量小反馈内容严重” 的问题被遗漏的风险。根据业务经验在业务中目前已确定了 “10” 种需要监控的严重问题如隐私相关问题白屏相关问题消息无法导入问题聊天记录损坏问题等等。我们需要构建模型能力对这些检查点进行覆盖。通过工具的引入我们在 “2周” 内就完成了 “2项” 模型能力的研发“隐私相关问题”“白屏相关问题”并通过工具完成了能力的部署应用成功将模型能力从0到1的拓展到了“用户反馈”相关的问题中。每 1 项模型能力的研发成本从 “1人月” 降低至 “1人周”且准确率均保持在 80% 以上效率提升数倍。5.1.3. 效率提升详情通过工具的应用我们将本需要 “1人月” 完成的工作压缩至了 “1人周”这得益于工具对模型研发环节的框架化和工具化具体表现在建模框架化通过前文中提到的 “建模” 模版我们明确了定义任务所需要填写的内容指导完成研发前的定义和数据准备工作通过明确目标的工作流程提升这个阶段的工作效率由 “2天” 提升至 “1天”辅助数据标注系统具备借助强大闭源模型混元GPT辅助数据标注的能力通过模型进行数据粗标再人工进行确认大幅提升了数标注的效率“2天” 提升至 “0.5天”Prompt 编写通过对 Prompt 编写环节的工具化以及Agent能力的建设我们无需人工进行编写和反复调试仅需输入 “建模定义” 和 “数据” 即可应用 Agent 完成prompt的编写工作。由 “3天” 提升至 “0.5天”能力调用工具对多种能力进行了封装并通过Agent能力完成各项能力的自主调用省去了能力开发和引入的成本。在本项任务中工具引入了RAG 知识库CoT格式标准化反思专用词解释等多项能力并结合任务状况进行调用无需进行二次开发由 “1周” 提升至 “1天”插件调用除了模型能力外工具内还封装了一些插件可在研发流程的各个阶段进行调用。在本项任务中只用了 “腾讯文档读写插件”“Tapd数据读写插件”“数据格式转换插件”避免了二次开发的成本。“1天” 提升至 “1小时”上线部署工具提供模型能力的自动部署能力可通过配置产生接口供用户调用。此外我们还提供多种部署方式如结合用户提供的脚本完成定时任务的部署在本项任务中我们通过工具将能力部署为定时任务定期对用户反馈数据进行检查。由 “3天” 提升至 “1天”流程串联研发框架除提升各个单一模块的效率外还对模型研发的整体了流程进行了规范化和串联提升了研发过程的流程效率由 “3天” 提升至 “1天”效果调试优化系统支持多种调试方法并引入了相应的Agent能力和数据驱动的方法半自动的辅助完成模型效果的调试。相较于传统基于评测结果的人工调试方法大幅提升了调试效率由 “1周” 提升至 “2天”5.2. 研发成本下降最佳实践5.2.1. 成本高带来的痛点在我们探索大模型和质效工作的结合中大多模型研发工作均有开发人员承担但质效领域具备较高专业深度和广度且与业务关系紧密具备很高的业务复杂度。模型开发人员在专业和业务上均存在不足导致模型开发与领域人员的诉求存在差距不仅增加了模型开发的成本还降低了模型实现的效果。如前文所述大模型能力的领域化不应当仅仅局限于能力的开发而应当赋予领域专业人员应用模型的能力是一个 “授之以渔” 的过程。为了更好进行模型能力的领域化我们希望通过工具让领域内的专业人员也可以完成模型能力的研发。5.2.2. 实践成效在大模型和 “用例域” 质效问题结合的探索中“用例检查” 是其中应用最广效果最显著的能力通过对测试用例的检查发现测试用例中存在的问题以此提升用例质量解决因用例原因导致漏侧引发的线上问题。目前我们已经完成了6个检查点的建设可以有效发现用例中存在的问题并推动修复切实保证已覆盖的检查点无相关线上问题。但测试用例的检查点众多且存在业务区分结合 “用例checklist”业务已经积累了200个检查点若持续采用集中式的孵化模式难以满足业务诉求。因此希望通过工具的引入让业务的质量同学也可以完成检查点的开发共同在领域中建设模型能力。通过工具的引入我们与质量同学合作在 “2周” 内就完成了 “2项” 用例检查能力的研发“杀进程用例缺失检查”“写操作用例缺失检查”。在没有模型开发人员介入的情况下仅由 “质量同学” 进行输入即完成了能力的研发准确率均在 80% 以上。通过如上定义及少量数据 即可完成模型能力的研发。在调试过程中结合模型的评测结果也可低成本的通过 “修改定义” 和 “补充数据” 完成模型效果的提升。同时我们还针对用例检查的应用场景提供了更方便的部署方式除提供 API 接口外检查能力可以一键上线至 “智能用例平台”用例检查的应用平台并可自动创建定时任务定期对用例进行检查。通过这种方式我们全链路的降低了模型能力的研发成本在保证质量的前提下让质量人员也可以完成模型能力的研发。5.2.3. 成本降低详情如上图中所示的模型研发流程工具为用户自助完成了大量的研发工作用户仅需完成任务维度的输入即可完成模型能力的研发从而大幅降低了模型研发过程的成本和技术比例其中用户负责a. 问题定义确定检查点定义b. 问题建模将检查任务翻译为分类任务并填写对应的建模模版c. 原始数据采集采集任务需要用到的 “测试用例” 数据d. 数据清洗/计算统一 “测试用例” 数据结构无需额外的清洗/计算工具与用户协同负责a. 数据标注应用 “混元” 模型对数据进行粗标再有人工确认完成标注工作b. 调试优化工具利用 badcase 数据 及 人为归纳的问题 自主对模型系统进行优化最终保证准确率达到应用标准80%。工具负责a. 模型调试模型阶段的所有工作均有工具负责在保证效果的前提下调度工具中的多个Agent系统完成模型能力建设b. 效果评测在数据集上自动产出评测结果计算 准确率召回率精确率 等指标。c. 部署运维工具自动完成模型能力的上线除提供 API 接口外检查能力可以一键上线至 “智能用例平台”用例检查的应用平台并可自动创建定时任务定期对用例进行检查。六、写在最后6.1. 从 “Prompt框架” 到 “模型研发工具”在一年多的模型应用探索当中我们进行了多项模型能力的研发和应用期间持续对模型的应用效果提升和研发流程进行研究和实践。此前的很长时间里我们都认为 Prompt 是模型应用的钥匙对模型的应用效果起到决定性的作用如何又快又好的完成Prompt是模型应用研发的关键。但随着领域的发展和研究的深入我们越来越能感受到 Prompt 并不是模型的全部虽然依然很重要尤其是在 AgentMultiAgent 技术持续发展的今天Prompt在模型效果中所占的比重越来越小。就如本文开篇提到的模型应用相关的技术对模型应用效果是否重要但 “Prompt工程” 只是众多应用技术的其中之一。于是我们把目光放大到了整个 “模型研发流程” 当中而不仅仅关注某项单一的技术模型研发的 “第一性” 就是 “提升应用效果”而非不断的优化单一环节的能力通过对研发框架的优化不断提升模型的应用效果才是我们应当做的正确的事。6.2. 总结 后续规划目前我们初步完成了工具的研发和应用尝试希望可以通过工具带来的效率提升和成本下降进一步推动大模型的领域化。大模型被认为是通往 AGI 的道路但现存的模型开发模式不仅没有像通用化发展反而在近一步限制模型的通用性以求得其在领域中的稳定性这种偏闭源的开发模式无论是在效果上还是在效率上都不符合大模型发展的趋势。我们希望可以通过我们的工具让领域中的人都可以加入到模型能力的研发上建立更开源的开发模式让领域中的人具备使用大模型的能力才是真的领域化。在技术上本文开篇论述了一些对趋势的观察这些曲线未必都正确但模型应用层技术的发展一定是领域中不可或缺的一部分且对于模型的应用效果而言会起到越来越重要的作用。而目前我们应用层建设的成熟度还远远不够持续提升 “MultiAgent System” 的能力不断引入更多的模型能力丰富应用插件并和用户形成更好的协作模式都是未来要努力的方向。本文中叙述的观点多有主观判断的成分仅是个人结合应用研发经验的若干想法大模型相关技术还在持续的高速发展当中非常期待和大家交流。​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

做采集网站wordpress如何添加封面

还在为暗黑破坏神II中漫长的练级过程而烦恼吗?Diablo Edit2角色编辑器就是你的完美解决方案!这款强大的工具让你能够全方位定制角色属性、技能配置和装备参数,无论是新手玩家想要快速上手,还是资深玩家追求极致体验,都…

张小明 2025/12/31 18:33:49 网站建设

美食网站制作代码瑞安公司网站建设

TensorFlow-GPU 环境配置实战:从零搭建稳定高效的深度学习开发平台 在当前深度学习项目中,训练速度直接决定了迭代效率。哪怕是最精巧的模型设计,如果每次实验都要等待数小时甚至数天才能看到结果,那研发过程将变得极其低效。这时…

张小明 2025/12/31 17:27:49 网站建设

如何制作企业的网站免费开店的外贸平台

突破STM32 CANopen开发瓶颈:这个开源协议栈让工业通信如此简单 【免费下载链接】CanOpenSTM32 CANopenNode on STM32 microcontrollers. 项目地址: https://gitcode.com/gh_mirrors/ca/CanOpenSTM32 在工业自动化领域,CANopen协议以其稳定可靠而闻…

张小明 2026/1/1 2:02:28 网站建设

海南海口网站建设东莞招聘信息

OpenModScan:重新定义工业通讯测试体验的开源利器 【免费下载链接】OpenModScan Open ModScan is a Free Modbus Master (Client) Utility 项目地址: https://gitcode.com/gh_mirrors/op/OpenModScan 在现代工业自动化领域,通讯协议测试工具扮演着…

张小明 2026/1/1 2:34:17 网站建设

网站设计的专业流程微网站的图标怎么做

网络安全防护:psad与fwsnort的应用与集成 一、psad应对网络攻击的机制 1.1 FIN扫描响应 当攻击者确认目标运行着可访问的TCP服务器后,可能会测试主动响应软件对TCP的严格程度,例如发送盲FIN数据包。使用Nmap进行FIN扫描时: [ext_scanner]# nmap -sF -P0 -p 80 -n 71.1…

张小明 2026/1/1 4:25:46 网站建设

石家庄网站制作找谁曲靖网站制作一条龙

第一章:Open-AutoGLM 日程安排提醒Open-AutoGLM 是一个基于 AutoGLM 架构的开源日程管理与智能提醒系统,旨在通过自然语言理解能力自动解析用户输入的任务内容,并生成结构化日程安排。该系统支持多平台同步、语音输入解析以及基于上下文的智能…

张小明 2025/12/31 12:46:53 网站建设