济阳做网站多少钱龙岩网站建设亿网行-沈阳市网站建设公司-Seo优化

济阳做网站多少钱,龙岩网站建设亿网行,什么是网络营销它的特点有哪些,用什么网站可以做链接Abstract在计算机视觉领域#xff0c;“预训练—再微调”#xff08;pretrain-then-finetune#xff09;范式被广泛采用。然而#xff0c;随着 Vision Transformer#xff08;ViT#xff09;规模呈指数级增长#xff0c;完整微调因巨大的存储开销而变得不可行。受到语言…Abstract在计算机视觉领域“预训练—再微调”pretrain-then-finetune范式被广泛采用。然而随着 Vision TransformerViT规模呈指数级增长完整微调因巨大的存储开销而变得不可行。受到语言模型中参数高效迁移学习PETL的启发近期研究尝试在预训练的 ViT 中插入轻量级的适配模块如 adapter 层或 prompt token并仅微调这些模块同时冻结预训练权重。然而这些模块最初是为微调语言模型设计的尽管在 ViT 上移植效果不错但它们的设计缺乏针对视觉任务的先验知识。在本文中我们提出在 ViT 中构建卷积旁路Convolutional Bypasses简称 Convpass作为适配模块仅引入极少量不到模型参数的 0.5%的可训练参数来适配大型 ViT。与其他 PETL 方法不同Convpass 受益于卷积层硬编码的归纳偏置因此更适合视觉任务尤其是在低数据场景下。在 VTAB-1k 基准和小样本学习数据集上的实验结果表明Convpass 的性能优于当前面向语言模型的适配模块这展示了为视觉模型量身定制视觉导向的适配模块的必要性。1 Introduction在大规模数据集如 ImageNet上进行预训练然后在下游任务上进行完整微调已经成为获得视觉任务最新最优SOTA性能的事实标准范式Kolesnikov et al. 2020。然而这一范式在存储方面并不高效——它要求为每个下游任务存储一个完整的模型。近期随着 Vision TransformerViTDosovitskiy et al. 2021逐渐主导视觉领域视觉模型的规模呈指数级增长例如 ResNet-152 的 5800 万参数He et al. 2016对比 ViT-G 的 18.43 亿参数Zhai et al. 2022这进一步催生了在 ViT 上开展参数高效迁移学习PETL的需求。幸运的是由于 Transformer 最初应用于自然语言处理NLPVaswani et al. 2017基于大型预训练语言模型的 PETL 已经得到了充分研究Houlsby et al. 2019Hu et al. 2022Li and Liang 2021He et al. 2022a并且这些方法可以很容易地移植到 ViT 中。具体而言这些 PETL 方法通过在预训练模型中插入轻量级适配模块、冻结预训练权重并对这些模块进行端到端微调从而适配下游任务。近期工作已经验证了这些 PETL 方法在 ViT 上的有效性Jia et al. 2022Zhang, Zhou, and Liu 2022但我们提出一个问题这些最初为语言模型设计的模块对视觉模型来说也是最优的吗众所周知NLP 和视觉任务需要不同的归纳偏置而归纳偏置会深刻影响模型架构的设计。通过从一种“解耦”的视角分析当前的 PETL 方法我们认为这些方法——可称为“面向语言的模块”——也隐含了语言任务的归纳偏置例如弱空间关系以及对可变长度输入的支持。因此更适合 ViT 的适配模块应当体现视觉归纳偏置例如空间局部性和二维邻域结构我们将其称为“面向视觉的模块”。当一个模型例如 ViT本身具有较弱的归纳偏置时它可能需要大量数据从零开始学习这些偏置。这在预训练阶段或许不是严重问题因为我们可以利用易获取的无标注数据进行自监督预训练Bao, Dong, and Wei 2022He et al. 2022b或采用多模态预训练Radford et al. 2021Yu et al. 2022。然而下游任务的数据通常来自特定领域往往昂贵或难以收集。尽管模型在预训练中已学习到部分视觉归纳偏置但一个设计良好的、面向视觉的 PETL 模块能够进一步显著提升数据效率。在本文中我们提出在 ViT 中构建卷积旁路Convolutional BypassesConvpass作为适配模块。Convpass 是一个插入于 MHSA 或 MLP 块并与其并行的卷积瓶颈结构能够“旁路”原始的 ViT 模块。它重构 token 序列的空间结构并对图像 token 与 [cls] token 分别进行卷积操作。在微调过程中仅这些 Convpass 模块和分类头会被更新。由于卷积层中硬编码的局部性归纳偏置Convpass 能够更高效地捕获视觉信息特别是在下游数据有限的情况下。正如图 1 所示对于一个参数量为 86M 的 ViT-BConvpass 仅引入并训练约 0.33M 新参数却在 19 个任务组成的 VTAB 基准Zhai et al. 2019上取得优于全量微调和当前 SOTA 语言导向方法的表现。更多小样本学习的实验也表明Convpass 在低数据场景下同样优于其他基线方法并且可以直接用于视觉-语言模型Radford et al. 2021获得良好的领域泛化性能。我们总结如下贡献我们指出了当前 PETL 方法中视觉归纳偏置的不足。我们提出了 Convpass这是一种简单但高效的 PETL 方法通过可训练的卷积旁路模块来适配预训练 ViT 到视觉下游任务。实验结果显示 Convpass 超越了以往语言导向的方法强调了为视觉模型设计视觉导向适配模块的必要性。3 Methodology3.1 Rethinking Adapters from an Unraveled View由于 Adapters 与 MHSA/MLP 模块都包含跳跃连接skip connections我们可以将 ViT“解耦”为多个路径的集合。Veit, Wilber, and Belongie2016指出原始网络可以被视为这些解耦路径的集成因此我们在此通过观察这些路径来分析原始网络的性质。如图 2 所示配备 Adapter 的 ViT 可以被视为由三种类型路径组成的集成类型 I冻结路径Frozen paths仅包含 ViT 的 MHSA/MLP 模块。这些路径不可训练它们输出的总和与预训练 ViT 的输出严格一致。类型 IIMHSA–Adapter 路径所有 MHSA 模块都位于第一个 Adapter 之前。类型 IIIAdapter–MHSA 路径至少有一个 MHSA 模块位于某个 Adapter 之后。微调 Adapter 等价于通过类型 II 与 III 的路径来拟合输出的变化。在类型 II 路径中对于相同的输入最后一个 MHSA 模块的输出 token 是不变的且之后不存在 token 之间的信息交换。因此实际上只有类型 III 路径会改变预训练 ViT 的 token mixingtoken 混合行为。在类型 III 路径中我们可以将所有位于某个 MHSA 模块之前的 Adapter 和 MLP 视为其 query/key/value 变换的一部分即将这些变换从线性映射复杂化为Q/K/V f_q/k/v(X)其中f是一个逐通道的 MLP。因此微调类型 III 路径可以被看作是在微调具有复杂 Q/K/V 变换的 MHSA。与此同时由于 LoRA 是在低秩子空间中微调 Wq/vW_{q/v}Wq/v而 VPT 可被视为并行且带门控的 AdapterHe et al. 2022a这些面向语言的 PETL 方法本质上都是依赖于调整 MHSA以使其在下游任务中执行 token mixer 的功能。然而MHSA 缺乏视觉归纳偏置因此在下游任务数据有限时可能表现不佳。3.2 Adapting ViT via Convolutional Bypasses近期关于修改 ViT 架构的研究表明当训练数据不足时在 ViT 中引入卷积操作能够提升性能Dosovitskiy et al. 2021Wu et al. 2021。由于下游任务的数据通常有限甚至是小样本数据我们也可以在 PETL 的适配模块中引入卷积操作。如图 3 所示Convpass 模块由三层卷积组成一个 1×1 卷积用于降低通道数一个 3×3 卷积输入和输出通道数相同一个 1×1 卷积用于恢复通道数。由于 ViT 会将图像展平为一维token序列我们在卷积前需要恢复其二维空间结构。其中[cls] token被视为单独的一张图像。Convpass 模块与 MHSA/MLP 模块并行放置其形式可以表示为其中s为超参数LN为Layer Normalization ( Ba , Kiros , and Hinton 2016)。注意Convpass模块类似于ResNet ( He et al.2016)的残差瓶颈块。如果忽略MHSA / MLP块ViT将变为ResNet - like CNN。从解耦的视角来看我们可以发现在每一层 Transformer 中除了冻结路径之外还有可训练的路径这些路径要么仅包含 Convpass要么同时包含 Convpass 和 MHSA它们充当 token 混合器的角色。因此原始的 Transformer 层被转换为 Transformer、类似 ResNet 的卷积神经网络CNN以及混合模型的集合。由于所有可训练路径都包含 Convpass 模块微调过程能够充分利用 3×3 卷积固有的二维邻域结构。4 Experiments4.1 Transfer Learning on VTAB-1k Benchmark首先我们的方法在基本的迁移学习场景上进行了评估- -在各种数据流任务上微调预训练的模型。Datasets.为了评估我们的方法在迁移学习上的性能我们使用VTAB - 1k (翟志刚等2019)作为基准。VTAB - 1k基准测试集包含19个来自不同领域的图像分类任务大致可分为自然图像、专业图像和结构化图像三类。每个分类任务只有1 000个训练样本在超参数搜索时将其拆分为训练集( 800个)和验证集( 200个)。报告的测试集结果由在所有1 000个训练样本上训练的模型产生。Baselines .我们将方法与两类传统微调方法进行了对比全量微调Full finetuning端到端优化所有参数线性评估Linear evaluation冻结预训练主干网络仅训练分类头。此外我们还对比了四种 PETL 方法VPT、Adapter、LoRA 和 NOAH。对于我们的方法Convpass我们还报告了一个简化变体Convpass-attn该变体仅在 MHSA 模块旁插入 Convpass 模块。为了清晰比较我们进一步将 PETL 方法分为两类同质 PETLHomogeneous PETLVPT、Adapter、LoRA 和 Convpass仅包含一种 PETL 模块网络架构在所有任务中保持一致异质 PETLHeterogeneous PETLNOAH专注于架构搜索以组合现有 PETL 模块因此网络架构是动态的。为了充分探索 Convpass 的能力我们使用一个简单的模型选择策略构建了一个异质 PETL 方法与 NOAH 进行对比。具体来说对于每个任务我们使用验证集从以下三个候选中选择一个Convpass、Convpass-attn以及Convpass-hybrid在每个 MLP 模块旁的 Convpass 模块被 Adapter 模块替代详情见第 4.4 节。当使用 Convpass-attn 或 Convpass-hybrid 时由于 3×3 卷积较少模型会更多依赖 MHSA这可能有利于形状主导的任务如 SVHN因为 MHSA 偏向形状shape-bias而卷积偏向纹理texture-biasPark and Kim 2022。因此模型选择实际上是在调整 MHSA 与卷积的比例。在模型选择后我们在完整训练集上重新训练模型并报告测试集结果。我们将该异质 PETL 方法称为Convpass-MS。Setup.对于所有的方法我们使用了在ImageNet - 21k ( Deng et al 2009)上有监督预训练的ViT - B / 16 ( Dosovitskiy et al 2021)。对于除NOAH外的所有方法对网络进行100个历元的微调。此外NOAH还训练了一个超网络500个历元。Adapter和Convpass的隐藏维数h以及LoRA的秩r均设置为8。VPT的瞬间长度l遵循原纸中的最佳配方。Convpass的超参数s大致在{ 0.010.0 }内搜索。1110100 }。在该场景下Adapter和Convpass - attn的可训练参数数量相近而Convpass的可训练参数数量略多于LoRA但少于VPT。

济阳做网站多少钱龙岩网站建设亿网行

wordpress京东客源码合肥网站推广优化

视频链接生成网站大连关键词优化服务

网站注册商标河北建设秦皇岛分公司

深圳做外贸的公司狼雨seo网站排名查询

建站宝盒建站系统wordpress 4.3.9 漏洞

精能集团有限公司两学一做网站小程序什么样才能移到微信上