东莞市建设局门户网站徐州苏视在线-沈阳市网站建设公司-Seo优化

东莞市建设局门户网站,徐州苏视在线,淘宝联盟做网站,德尔普网络做网站怎么样以LLaMA 为代表的模型是大模型主流架构Decoder-only的典型代表#xff0c;相对于基础Transformer中的decoder模块#xff0c;本文主要围绕LLaMA 结构的核心组成和主要变化点#xff0c;介绍以下内容#xff1a; 1#xff09;LLaMA架构的核心组成部分模块MHA和FFN的结构拆解…以LLaMA 为代表的模型是大模型主流架构Decoder-only的典型代表相对于基础Transformer中的decoder模块本文主要围绕LLaMA 结构的核心组成和主要变化点介绍以下内容1LLaMA架构的核心组成部分模块MHA和FFN的结构拆解。2每个模块的归一化和激活函数相对于基础transformer变化原因。3LLaMA系列模型发展及衍生模型介绍1LLaMA 架构介绍LLaMA Large Language Model Meta AI是Meta 发布的一款开源模型和 GPT 系列一样LLaMA 模型也是 Decoder-only 架构其主要的改进如下• Pre-norm。为了提高训练稳定性LLaMA 对每个 Transformer 子层的输入进行归一化使用 RMSNorm归一化函数好处是不用计算样本的均值速度提升了40%• FFN_SWiGLU 。结构上使用门控线性单元且为了保持 FFN 层参数量不变将隐藏单元的数量调整为原来的三分之二而不是论文中的 4d同时将 ReLU 替换为 SiLU 激活以提高性能。• Rotary Embeddings 。模型的输入不再使用 positional embeddings而是在网络的每一层添加了 positional embeddings (RoPE)。架构图如下2归一化位置和类型变化2.1由post-norm 到 pre-norm图中的post和pre是指归一化相对于残差的位置。post 是指在残差之后做归一化而pre是在残差之前做归一化。一般认为Post-Norm在残差之后做归一化对参数正则化的效果更强进而模型的收敛性也会更好而Pre-Norm有一部分参数直接加在了后面没有对这部分参数进行正则化可以在反向时防止梯度爆炸或者梯度消失大模型的训练难度大。相同的深度条件下Post-Norm的效果要优于Pre-Norm因为Pre-Norm实际上相当于通过了一个更宽的网络而非更深的网络所以在同等深度下Pre-Norm的实际效果相当于一个更浅却更宽的网络然而在LLaMA中却采用了Pre-Norm或许是因为模型够深7B13B30B65B的模型transformer layer数量分别为32406080而Pre-Norm的恒等分支更加明显有利于梯度的传播2.2由Layer-norm 到 RMS-norm层归一化 LayerNorm 通过对输入以及权重矩阵进行重新中心化和重新缩放re-centering 和re-scaling即减均值和除方差也称平移不变性和缩放不变性来帮助稳定训练并加速模型收敛。•Layer Norm作用对特征张量按照某一维度或某几个维度进行均值为0方差为1的归一化操作。其中表示均值均方值e为一个极小值防止分母为0 可以认为是一个可以训练的参数。Layer Norm 的作用方式可以理解为张量中具体某一维度的所有元素比如对于 shape 为 (2,2,8) 的张量 input若指定归一化的操作为第三个维度则会对第三个维度中的四个张量(2,2,1) 即第一维度和第二维共四个元素各进行上述的一次计算。nn.LayerNorm(normalized_shape, eps1e-05, elementwise_affineTrue, deviceNone, dtypeNone) “”“ - normalized_shape归一化的维度int最后一维listlist里面的维度。以2,2,4为例如果输入是int则必须是4如果是list则可以是[4], [2,4], [2,2,4]即最后一维倒数两维和所有维度 - eps加在分母方差上的偏置项防止分母为0 - elementwise_affine是否使用可学习的参数前者开始为1后者为0设置该变量为True则二者均可学习随着训练过程而变化 ”“”•RMS NormRMS NormRoot Mean Square Layer Normalization是一般Layer Norm的一种变体可以在梯度下降时令损失更加平滑。与layerNorm 相比RMS Norm的主要区别在于去掉了减去均值的部分re-centering只保留方差部分re-scaling从归一化的表达式上可以直观地看出。其中均方值表示为一个直观的猜测是center操作类似于全连接层的bias项储存到的是关于数据的一种先验分布信息而把这种先验分布信息直接储存在模型中反而可能会导致模型的迁移能力下降。所以T5模型中不仅去掉了Layer Norma的center操作它把每一层的bias项也都去掉了。3 FFN激活函数前馈网络 FFN Feed Forward Normal原版的激活函数为ReLU引入激活函数的目的是为了增加神经网络的非线性拟合能力。3.1ReLU 线性整流函数ReLURectified Linear Unit通常意义下其指代数学中的斜坡函数即在神经网络中使用ReLU激活函数作为非线性变换得到的输出结果是Transformer架构采用了ReLU激活函数的函数表达式如下•ReLU 死亡单元问题一般参数的更新公式为当学习率过大时导致参数更新后的值为负值此时输入网络的正值会和权重相乘后也会变为负值负值通过relu后就会输出0。如果权重w在后期有机会被更新为正值也不会出现大问题但是当relu函数输出值为0时relu的导数也为0因此会导致后边Δw一直为0进而导致权重w一直不会被更新因此会导致这个神经元永久性死亡3.2Sigmoid 逻辑函数和Swish激活函数•Sigmoid 逻辑函数Sigmoid是常用的连续、平滑的s型激活函数也被称为逻辑Logistic函数。可以将一个实数映射到01的区间用来做二分类。其函数定义为:Sigmoid 存在一定梯度消失问题即在训练深度神经网络时随着反向传播过程的深入当输入值过大或过小时函数的导数梯度会变得非常小接近零。这会导致梯度在向网络的前层传播时逐渐变小导致网络的前层几乎无法更新。注意死亡单元和梯度消失不是同一个问题具体解释参考[4]。•Swish 激活函数Swish 又被称为 SiLUSigmoid Linear Unit是Sigmoid 和线性函数的组合x 是输入值β 是一个可学习参数。Swish 激活函数具有以下优点1在某些情况下Swish 的梯度更加平稳可以减少梯度消失问题。2Swish 可以通过学习参数 β 来适应不同的问题从而提高模型的泛化能力比如在图像分类、自然语言处理等领域变现优秀。3.3GLU 及其变体GLUGated Linear Units其实不算是一种激活函数而是一种神经网络层。它是一个线性变换后面接门控机制的结构。其中门控机制是一个sigmoid函数用来控制信息能够通过多少。其中的激活函数就是sigmod 函数通过改变激活函数可以得到 GLU 的各种变体。比如SwiGLU就是采用Swish作为激活函数的GLU变体。SwiGLU本质上是对Transformer的FFN前馈传播层的第一层全连接和ReLU进行了替换原生的FFN中采用两层全连接第一层升维第二层降维回归到输入维度两层之间使用ReLU激活函数。SwiGLU也是全连接配合激活函数的形式不同的是SwiGLU采用两个权重矩阵和输入分别变换再配合Swish激活函数做哈达马积的操作因为FFN本身还有第二层全连接所以带有SwiGLU激活函数的FFN模块一共有三个权重矩阵用公式表达如下其中W1V为SwiGLU模块的两个权重矩阵W2为原始FFN的第二层全连接权重矩阵。这种方式使得FFN中的权重矩阵从2个变为了3个为了使得模型的参数大体不变因此中间层的向量维度需要削减为原始维度的三分之二。4位置编码在 Transformer 等序列模型中位置编码用于向模型注入词元的位置信息以帮助模型理解序列的顺序关系。4.1Sinusoidal 位置编码定义基于正弦和余弦函数的数学公式生成位置编码• 偶数维度• 奇数维度其中pos 为词元位置i 为维度索引为词向量维度。优势• 天然的长度外推性正弦和余弦函数的周期性使其可生成任意长度的位置编码无需预定义最大长度适合处理超长序列。• 隐含相对位置信息通过三角函数的性质两个位置的编码差值可部分反映相对位置关系缓解了绝对位置编码对相对位置感知的不足。• 计算高效无需训练直接通过公式生成节省显存和训练成本。4.2RoPERotary Position Embedding定义通过对词向量进行旋转操作注入绝对位置信息同时实现对相对位置的感知。其核心是使位置为m的查询向量与位置为n的键向量的内积仅依赖于相对位置m−n即。优势• 兼顾绝对位置编码的简洁性和相对位置编码的有效性通过绝对位置旋转的方式自然引入相对位置信息解决了传统绝对位置编码无法感知词元间距离的问题。• 支持长度外推优化旋转角度的周期性与 base 参数相关通过调整 base如放大至 1000000可扩展序列长度。• 数学性质稳定旋转操作不改变向量模长避免了位置编码对词向量本身的干扰。总结LLaMA 架构作出的主要改变有三点层归一化从post-norm 到pre-normFFN中的激活函数最终选择了SwiReLU位置编码选择了稳定性更强的 RoPR。LLaMA模型架构取得成功为其变体提供了可参考的范式目前国内流行的Qwen架构基本为LLaMA架构。千问Qwen大模型与标准transformer的主要区别如下1使用untied embedding嵌入2使用旋转位置嵌入-即RoPE相对位置编码3normalization实现–即 RMSNorm 代替 LayerNorm4FFN激活函数-即 SwiGLU 代替 ReLU5attention中除 QKV 外无bias–采用flash attention加速训练普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用大模型作为其中的重要组成部分正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力广泛应用于自然语言处理、计算机视觉、智能推荐等领域为各行各业带来了革命性的改变和机遇。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发

东莞市建设局门户网站徐州苏视在线

贵阳做网站的网站开发过程知乎

大兴区网站建设xmlrpc wordpress

如何分析网站关键词php学校网站模板

优衣库网站建设的目的福田做网站报价

在那个网站上做设计赚钱上海企业网站优化

服装商店的网站建设要求胡芦娃app软件下载网站

东莞市建设局门户网站徐州苏视在线

贵阳做网站的网站开发过程 知乎

大兴区网站建设xmlrpc wordpress

如何分析网站关键词php学校网站模板

优衣库网站建设的目的福田做网站报价

在那个网站上做设计赚钱上海企业网站优化

服装商店的网站建设要求胡芦娃app软件下载网站

贵阳做网站的网站开发过程知乎