网站开发后 怎么换前端中国商标买卖网站

张小明 2026/1/1 11:17:26
网站开发后 怎么换前端,中国商标买卖网站,工业设计之父,网站推广的目标本文详细解析了大模型的基础算法流程#xff0c;从文本分词、词嵌入到Transformer处理#xff0c;并深入介绍了BPE分词、DeepNorm、FlashAttention、GQA和RoPE等关键技术#xff0c;帮助读者理解大模型的工作原理和优化方法#xff0c;适合小白和程序员系统学习大模型基础知…本文详细解析了大模型的基础算法流程从文本分词、词嵌入到Transformer处理并深入介绍了BPE分词、DeepNorm、FlashAttention、GQA和RoPE等关键技术帮助读者理解大模型的工作原理和优化方法适合小白和程序员系统学习大模型基础知识。这个系列讲述大模型相关的一些基础算法首先要对大模型去魅它并不是一种横空出世的新结构而是在基于过往Transformer模型结构之上结合大规模预训练预料自监督/强化学习对齐人类输出偏好的一种模型与以往我们使用的Faster RNN、GRU等深度学习模型没有本质上的区别。在阅读之前先了解一下我们输入给大模型的一句话比如“今天天气真好啊”是如何被大模型处理的。1)对于“今天天气真好啊”进行分词分词会将一句话分解为具有最小语义单元的序列“今天天气真好啊”可能被分割为“[今天天气真好啊]”,序列中的每个元素我们称之为一个token大多数人只关注大模型结构本身其实分词才是整个大模型处理的开始分词结果的好坏会直接影响大模型处理能力的上限从直观上来讲中文分词的规则就肯定不同于英文分词如何让分词算法能够尽可能保证分割出来的每个序列元素都包含确定的语义如何解决没见过词语的分词识别这些都是一个分词算法要考虑的事情我们将某种分词算法在某个语料上得到的具体分词结果叫词表对于大模型要处理的语言比如中文、英文等都会预先通过分词算法在训练语料上建立一个词表这样每个词语会对应一个唯一词表ID构建完词表后对于输入的一句话就可以使用最长贪心匹配进行分词假设根据某种分词算法预先构建的词表是词表ID词语0我1今天2天气3真好啊对于输入的“今天天气真好啊”采取最长贪心匹配查找最长的、存在于词表中的词语作为分词结果流程如下“今天天气真好啊”是否在词表中-否“今天天气真好”是否在词表中-否“今天天气真”是否在词表中-否“今天天气”是否在词表中-否“今天天”是否在词表中-否“今天”是否在词表中-是切取出“今天”产生一个分词结果对于剩下的“天气真好啊”继续上面的流程最终得到分词结果:[今天、天气、真好啊]敏锐的人一定会问① 为什么要从整个句子开始分割而不从第一个字开始② 如此遍历非常耗时有没有更快的分词流程这些问题会放在后续“大模型面试常见问题”中进行说明2)“今天天气真好啊”已经被分词为“[今天天气真好啊]”,查找对应的词表ID“今天天气真好啊”对应[1,2,3]这个词表ID向量3)将[1,2,3]词表向量输入到大模型嵌入层准确说是查找大模型嵌入层得到词表向量对应的嵌入矩阵表示WW是3行d列的一个矩阵d是词嵌入向量的维度是人工预先设置的一般为4096、512等嵌入层的意义是将词语从词表向量空间映射到统一的语义空间中便于大模型进行接下来的处理。嵌入层具体的数值是随着大模型训练而得到的初始化为随机值。一定要注意嵌入层的大小是词表大小,词嵌入向量长度嵌入层中的参数训练完之后每一行就是词表ID对应的词嵌入向量所以输入[1,2,3]是获取第1行、2行、3行的向量组合起来形成它对应的嵌入矩阵表示是一种基于查找的映射而不是像其它模型层一样是通过矩阵乘法得到的4)现在“今天天气真好啊”-[今天天气真好啊]-[1,2,3]-W(3行d列词嵌入矩阵)大模型会开始利用自己的Transformer结构对W进行特征提取最终也会输出一个3行d列的矩阵H只不过H现在每一行表示对应位置词语的上下文特征提取信息取出H的最后一行h将h反向投影到词表大小维度(一般这个反向投影矩阵就是嵌入层矩阵的转置)反向投影结果中每个位置就是大模型预测出来的“今天天气真好啊”这句话下一个词语的概率找概率最大位置所对应的词表中的词语就是大模型对于这句话的输出这种输出方法叫Greedy Search,为了避免大模型的复读机问题会使用Beam Search、Top K等这个后续再说将大模型的输出和“今天天气真好啊”结合再输入到大模型中重复1)~4)过程循环直到大模型输出结束标志人工预先在训练时候规定的比如等大模型对于“今天天气真好啊”的回答完毕。那么结合以上流程就有几个关键性的问题① 如何设计分词算法使得分词效果更好、更准② 如何设计大模型的Transformer架构让它特征提取能力更强如何训练大模型让它更准③ 如何让大模型的输出更加符合我们人类的预期。比如两个正常人类对话。“今天天气真好啊”的回应一般为“是啊比昨天暖和”、“对啊要不我们出去走走”而肯定不会是“你去死吧”、“跟我有关系吗”等一 BPE分词BPE分词算法可以说是大模型的标配了现有大模型分词都是在BPE分词思想的基础上进行改进的原论文《Neural Machine Translation of Rare Words with Subword Units》中的算法描述如下BPE解决未登录词分词算法在语料上进行分词时没见到过的词语问题效果很好会提升大模型对稀有词和新词的泛化能力其核心思想是通过迭代合并语料中最频繁出现的相邻符号对逐步地构建一个固定大小的子词词典。BPE被广泛应用于GPT系列等主流大语言模型中。BPE的词典构建过程是一个自底向上、贪心迭代合并的过程。以下是详细步骤步骤1预处理语料-将每个单词按字符拆分并在词尾添加特殊结束符如以保留词语的边界信息。示例 “low” → l o ww “lower” → l o w e rw步骤2初始化基础词典-词典初始化为包含所有语料库中出现的单个字符包括预先设置的特殊字符如步骤1中设置的。步骤3统计所有相邻字符对的出现频率迭代合并最高频出现的字符对重复操作直到词典达到预设大小如 30,000示例找出当前语料中频率最高的相邻符号对如 o w。 将该符号对合并为一个新子词单元如 ow。 在整个语料中用新单元‘ow’替换所有‘ o w ’。 更新词典和符号对频率统计。步骤 4生成最终词典与分词规则-最终词典包含原始字符 所有合并生成的子词。二 DeepNorm我们知道深度学习如果模型层数更多一般效果会更好ResNet解决了如何训练更深卷积神经网络的问题DeepNorm要解决的问题是如何训练更深的Transformer。那么首先要问的问题就是究竟是什么阻碍了训练更深层的Transformer是像ResNet发现的那样梯度更新的问题阻碍了训练更深层Transformer吗DeepNorm作者通过实验发现并不是梯度爆炸的问题而是模型更新过大阻碍了构建更深层的Transformer。在Transformer模型结构中存在两种层归一化(Layer Normalization, LN)方式Pre-LN,Post-LN。什么是LNPre-LN和Post-LN的区别Post-LN计算公式为先对输入x进行注意力提取(Attention)/前馈神经网络变换(FFN)然后和自身进行残差连接最后进行LN最初Transforer使用的就是这种方式。而Pre-LN计算公式为先对输入进行LN然后再进行注意力提取、前馈神经网络变换、残差连接操作。Pre-LN因为先对输入进行LN相比于Post-LN训练会更稳定而Post-LN是在获取到所有信息之后再进行LN大部分信息被保留相比于Pre-LN性能更高。DeepNorm通过构建“模型更新幅度”估计的计算方法分析了不同Transformer结构模型更新幅度的上界这样就可以通过调整相应参数控制Transformer的更新幅度基于以上分析提出了一种新的LN方式-DeepNormDeepNorm利用α放大残差连接输入、β缩小Tranformer层的输出达到减小模型更新幅度的效果从而可以训练更深的Transformer。三 FlashAttentionDeepNorm解决的是训练更深的TransformerFlashAttention解决的是如何让Transformer的输入更长也就是处理更长的输入序列。那么还是一样的问个问题为什么Transformer无法处理过长的输入序列在标准的Transformer中注意力计算的复杂度和输入序列的平方成正比FlashAttention将注意力计算进行分块利用GPU高速片内缓存(SRAM)进行每一分块注意力的计算最后进行整体汇总得到最终的结果避免对GPU显存(HBM)的读写加速计算时间。但是分块计算注意力有个障碍注意力权重SoftMax操作需要看到完整QKT的一整行才能得到最终结果但是现在对Q、K分块计算后看到的只是一整行中的一部分得到的SoftMax结果不准所以论文中提出了一种适配分块注意力计算的增量式SoftMax计算方法简单解释一下上面的增量SoftMax计算过程可能乍看的时候会看不懂但是一定要强迫自己理解因为增量SoftMax就是理解FlashAttention分块计算的核心理解增量SoftMax的关键点是这是高中数学指数函数性质的内容但却是理解FlashAttention的核心。FlashAttention整体流程如下看着很复杂但整体分为三部分1)将Q、K、V沿着行的方向分割为指定的块数这个步骤体现的是分块2)计算每块的注意力结果增量更新注意力权重SoftMax这个步骤是上面所说的核心3)更新注意力输出结果更新增量SoftMax中需要维护的全局最大值和整体归一化分母对于步骤3)的理解要注意diag()表示对角阵对角阵和一个矩阵进行乘法相当于矩阵每一行除以对角阵对应行的对角元素可以自己手动推导一下。那么FlashAttention中的分块大小是如何计算出来的呢在论文中FlashAttention相比于普通Attention的访问显存效率对比如下四 GQAFlashAttention从GPU显存、片内缓存高效利用的角度实现了注意力机制的高效计算而GQA则从注意力计算方式的角度重新思考注意力机制。标准的多头注意力(MHA)无论是训练还是推理都非常吃显存改进的多查询注意力(MQA)虽然不吃显存但是效果较差论文中对MHA、MQA、GQA的对比如下图所示简单理解就是将传统多头注意力中的Q进行分组每组共用一个K、V这个共用的K、V是原对应的K、V求均值而得到的五 RoPERoPE是一种位置编码策略大模型中的位置编码Positional Encoding 是 Transformer 架构的核心组件之一用于向模型注入 输入token 的顺序信息因为原始 Attention 机制本身是置换不变的。随着大模型向超长上下文如 128K、1M tokens演进位置编码的设计成为了影响模型性能的关键因素。RoPE的想法是在注意力内积计算过程中直接引入序列的相对位置关系而不是通过人为添加到序列的信息强行进行规定论文原意如下在具体的工程实现中注意到旋转矩阵是稀疏的所以序列旋转过程可以简化RoPE同样也是大模型标配的位置编码方式。​最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站域名注册步骤软件开发培训学校porin

Miniconda vs Anaconda:为什么选择 Python 3.9 轻量镜像做 AI 开发? 在人工智能项目日益密集的今天,你是否经历过这样的场景?刚跑通一个 PyTorch 模型,准备切换到 TensorFlow 实验时,却因 CUDA 版本冲突导致…

张小明 2026/1/1 11:17:25 网站建设

seo网站改版方案怎么写农产品电商网站建设的总体目标

Docker本地部署AutoGPT详细教程 你有没有想过,AI 不只是被动地回答问题?当你说“帮我写一份关于2025年AI趋势的PPT提纲”,现在的 ChatGPT 会立刻动笔——但它不会主动查资料、不会判断信息是否全面、更不会回头反思:“我是不是漏…

张小明 2026/1/1 11:16:51 网站建设

某企业集团网站建设方案常用的软件开发平台

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 python基于Vue的在线学生作业管理系统…

张小明 2026/1/1 11:16:18 网站建设

郑州市做网站的公公司做网站

5分钟快速解决Arduino ESP32 3.0.6版本下载失败问题 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 还在为Arduino ESP32 3.0.6版本下载失败而烦恼吗?别担心,这篇文…

张小明 2026/1/1 11:15:44 网站建设

网站搭建系统都有哪些sem广告

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

张小明 2026/1/1 11:15:09 网站建设

青岛网站建设seo优化制作设计个人做网站还是公众号赚钱好

1、不要修改迭代中的列表 在使用for循环遍历列表时,千万不要尝试修改列表中的元素,因为这可能会导致意想不到的结果。如果需要修改列表中的元素,可以创建一个新的列表,然后将修改后的元素添加到新列表中。 # 错误的示例:尝试在迭代中修改列表 my_list = [1, 2, 3, 4, 5]…

张小明 2026/1/1 11:14:36 网站建设