人是用什么做的视频网站吗求推荐公司网站建设

张小明 2026/1/1 13:46:47
人是用什么做的视频网站吗,求推荐公司网站建设,wordpress轮播图能换吗,开网店要建网站 一起的吗这个“最低山谷”#xff0c;就是我们模型的最佳状态——损失函数的最小值。 问题来了#xff1a;你看不见全局地图#xff0c;只能靠脚下的坡度来判断方向。下一步该往哪走#xff1f;步子迈多大#xff1f; 这就是优化器 (Optimizer) 要解决的核心问题。它就像你的智能登…这个“最低山谷”就是我们模型的最佳状态——损失函数的最小值。问题来了你看不见全局地图只能靠脚下的坡度来判断方向。下一步该往哪走步子迈多大 这就是优化器 (Optimizer) 要解决的核心问题。它就像你的智能登山杖指导你如何高效地“下山”。一个好的优化器能带你快速、稳定地到达目的地而一个差的可能会让你在某个小山坡上来回打转甚至迷失方向。在这篇文章里我们就来一场优化器的进化之旅。从最简单直接的“凭感觉走”——随机梯度下降SGD出发一步步看它如何变得更聪明、更强大最终进化成当今大模型训练普遍采用的优化算法——Adam 和 AdamW。SGD随机梯度下降最初的梯度下降法需要一次性把所有数据都扔给模型通过遍历所有训练数据计算模型在整个数据集上的总损失计算出所有样本的损失再计算平均值然后再计算出梯度这意味着每一次更新参数都需要遍历整个数据集虽然说这样计算出来的梯度方向非常准确但当今数据集普遍都非常庞大这种方法对算力和内存都有非常高的需求。SGD的改进方向是每次只遍历一部分的数据每次只根据这一部分数据计算出来的梯度来更新参数其中是参数是学习率是梯度。因为每次只遍历一部分数据这一部分数据的大小我们称为batch_size所以梯度的计算会非常快并且对内存也会更加友好。这个遍历的过程会一直重复直到遍历完所有数据这里称作一个Epoch。但这种方法也会有一定的缺点每次只遍历一部分数据意味着充满随机性和噪音损失函数会有一定的上下波动收敛过程较慢。话又说回来噪音和随机性有时候反而会跳出局部最优解。Momentum上面说到在使用SGD算法时我们有事会遇到震荡的问题导致模型收敛较慢这种现象是由于每次迭代后梯度变化较大导致的。想像一下我们的损失函数像是一个被拉得很长的、像峡谷或椭圆形山谷一样的地形在这个峡谷里两侧的峭壁非常陡峭梯度很大。而沿着峡谷底部走向最低点的坡度却非常平缓梯度很小。我们的目标是让小球代表模型参数从峡谷的一端平稳地滚动到谷底的最低点。现在我们把 SGD 控制的小球放在峡谷的一侧峭壁上。会发生什么第一步 小球只看脚下它发现通往对面峭壁的方向是最陡的下坡路梯度最大。于是砰 的一下它朝着对面冲了过去。用力过猛 由于峭壁方向的梯度很大这一步的步长可能也很大导致小球不仅冲到了对面甚至可能冲到了比起始点更高的位置。第二步 在新的位置小球再次环顾四周发现“回头”的方向又是最陡的。于是砰 的一下它又朝着原来的方向冲了回去。这个过程会不断重复。小球就在峡谷的两侧峭壁之间来回“之”字形地反弹、震荡。虽然它整体上确实在向着谷底移动但这种移动是极其低效和缓慢的。大部分能量都浪费在了这种无意义的左右摇摆上。这就是 SGD 的核心困境在梯度变化剧烈的方向上峭壁方向它会剧烈震荡难以稳定。在梯度变化平缓的方向上谷底方向它又因为梯度太小而前进缓慢。我们陷入了一个两难境地如果调大学习率想让它在谷底走快点它在峭壁上的震荡就会失控如果调小学习率来抑制震荡它在谷底的前进速度又会变得遥遥无期。如何解决引入“惯性”的力量 —— 动量 (Momentum)我们该如何让这个小球变得更“聪明”一点呢问一个简单的问题一个真实世界里的重铁球会这样来回反弹吗不会。一个有质量的铁球会带有惯性或者说动量。在峭壁方向垂直于峡谷 铁球冲向对面峭壁时峭壁会给它一个反作用力。这样一来一回它在这个方向上的速度会因为反复的碰撞和转向而被抵消掉。在谷底方向沿着峡谷 在这个方向上重力始终在稳定地拉着它前进。这个方向上的力是持续不断的所以铁球的速度会不断累积越滚越快。这就是动量法 (Momentum) 的核心思想我们给小球增加一个“速度”变量 v它会累积过去的梯度信息抵消震荡 在来回震荡的方向上梯度方向一正一负反复变化。当把这些梯度加权平均后它们会相互抵消使得这个方向上的更新幅度变小。加速前进 在方向一致的梯度上如峡谷底部梯度方向始终不变。当把它们加权平均后会不断累积使得这个方向上的更新速度越来越快。看看在数学上如何实现动量法其中代表当前时刻的梯度参数用于指数加权移动平均该方法可以减小更早时刻梯度对当前梯度的影响通常取值为 0.9。如果说上一时刻的梯度比较陡也就是梯度是一个较大的负数那么当前时刻的梯度会被减去一个较大的值导致参数不会发生太大的变化就好像小球在冲向谷底时会慢慢刹车从而减小震荡的程度。RMSProp前面提到的优化器中的学习率均是一个固定的参数但在复杂的、高维的损失函数空间中不同参数对最终损失的“敏感度”和“重要性”是截然不同的一个“一刀切”的更新步长会对优化过程造成极大的阻碍。依旧把损失函数空间比做一个山谷这个山谷的宽度方向非常陡峭但长度方向非常平缓理想的策略是在宽度方向用小步子在长度方向上用大步子对应来说就是在损失函数空间在梯度比较大的参数上的学习率比较小在梯度比较小的参数上的学习率比较大。RMSProp最核心的优点就是自适应学习率其中代表着历史中所有梯度的平方和代表指数加权移动平均法的参数它控制了历史梯度信息被遗忘的速度是全局学习率是一个非常小的数防止分母为0。RMSprop 通过对每个参数的更新进行了归一化。这使得每个参数都有一个量身定制的学习率非常适合处理特征稀疏或者不同参数梯度尺度差异巨大的情况例如在自然语言处理中某些词的词向量很少被更新。Adam动量法是在梯度上做文章RMSProp是在学习率上做文章那能不能把这两种方法结合起来呢Adam就是二者结合起来的一种优化器其中。AdamW虽然理论上Adam算法的性能更优但人民发现Adam有时的表现并不如动量法尤其是在模型泛化能力上。我们知道L2 正则化的目标是防止模型过拟合通过在损失函数中增加一个惩罚项惩罚过大的权重。其中是正则化强度是模型的权重。L2 正则化如何变成“权重衰减”当计算总损失的梯度时这个惩罚项会引入一个新的梯度项在更新权重时以 SGD 为例看到这一项了吗它意味着在每次应用梯度更新之前权重自身都会被乘以一个小于 1 的系数进行“衰减”。这就是权重衰减的由来。对于 SGD 来说L2 正则化和权重衰减是等价的。再看看L2正则化在Adam中是怎么样的我们可以看到这个旨在让权重衰减的项本身也被Adam的自适应分母给缩放了这样的后果是对于那些历史梯度比较大的权重它们的有效权重衰减强度会变得非常小。通常梯度较大的权重往往是模型中比较重要的、需要被好好正则化的权重。但 Adam 的实现方式反而减小了对这些权重的正则化力度。它将正则化强度和梯度的历史大小错误地耦合在了一起。AdamW的作者在论文中指出了上述问题并提出了一种简单而优雅的解决方案将权重衰减与梯度更新解耦在实际实现过程中还需要进行偏置矫正image
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

外贸免费开发网站模板wordpress主题导入Demo

还在为B站API认证问题而烦恼吗?🤔 每次调用接口时都要反复确认SESSDATA、buvid3等cookie值是否正确?现在,bilibili-api项目推出的自定义Credential Cookies功能将彻底改变这一现状,让API认证变得更加灵活和可控&#x…

张小明 2025/12/30 11:04:51 网站建设

建一个网站要多少钱高密市住房和城乡建设局网站

ComfyUI动态参数调节:实现实时预览生成效果 在AI图像生成工具日益普及的今天,越来越多创作者发现,传统的“输入提示词→等待结果”模式已经无法满足对细节控制和快速迭代的需求。尤其是在概念设计、影视可视化或工业建模这类高精度场景中&…

张小明 2025/12/31 14:29:43 网站建设

南宁网站制作建设提升学历补贴政策

导语 【免费下载链接】Kimi-Dev-72B 探索开源编程新境界,Kimi-Dev-72B模型惊艳亮相!基于大规模强化学习优化,此编码LLM在软件工程任务中表现出色,勇夺开源模型新标杆。真实仓库自主修复,严格遵循开发标准,成…

张小明 2025/12/25 17:40:19 网站建设

餐饮公司网站模板下载本地app软件制作公司

1. 玉米籽粒质量检测与分类:基于YOLO13-C3k2-StripCGLU模型的高精度检测方法 1.1. 引言 🌽 农产品质量检测一直是农业现代化进程中的重要环节,尤其是玉米作为全球主要粮食作物,其籽粒质量直接关系到产量和经济效益。传统的人工检…

张小明 2025/12/22 23:58:44 网站建设

网站运营外包电商网站建设

Lumafly模组管理器:空洞骑士玩家的智能管理伙伴 【免费下载链接】Lumafly A cross platform mod manager for Hollow Knight written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/lu/Lumafly 还在为《空洞骑士》模组安装的繁琐流程而烦恼吗&…

张小明 2025/12/22 23:57:42 网站建设

wordpress实例站哪个购物网站最便宜

你,宇宙唯一的中心:在无限复刻中活出绝对的存在 一、宣言:你的坐标是(0,0,0) 此刻,当你阅读这些文字时,请暂停一秒——无论你身处拥挤的地铁、深夜的书房,还是异国街头的咖啡馆——请深深地感受&#xff1a…

张小明 2025/12/29 12:16:55 网站建设