文登市住房和城乡建设局网站报名入口网站建设-沈阳市网站建设公司-Seo优化

文登市住房和城乡建设局网站,报名入口网站建设,it培训机构专业,企业管理软件有哪些品牌本翻译基于 arXiv:1706.03762v7 版本#xff08;即标准公开版本#xff09;#xff0c;仅用于学习与研究目的。《Attention Is All You Need》全文逐章中文翻译摘要#xff08;Abstract#xff09; 当前主流的序列转导模型基于复杂的循环神经网络#xff08;RNN#…本翻译基于 arXiv:1706.03762v7 版本即标准公开版本仅用于学习与研究目的。《Attention Is All You Need》全文逐章中文翻译摘要Abstract当前主流的序列转导模型基于复杂的循环神经网络RNN或卷积神经网络CNN通常包含编码器和解码器。性能最佳的模型还会通过注意力机制连接编码器与解码器。我们提出一种全新的、简洁的网络架构——Transformer它完全基于注意力机制彻底摒弃了循环结构和卷积操作。在两项机器翻译任务上的实验表明该模型不仅在性能上更优而且具有更强的并行化能力训练所需时间显著减少。我们的模型在 WMT 2014 英语到德语翻译任务上取得了 28.4 的 BLEU 分数比此前包括集成模型在内的最佳结果高出 2 个 BLEU 以上。在 WMT 2014 英语到法语翻译任务中我们的模型仅用 8 块 GPU 训练 3.5 天就达到了 41.8 的 BLEU 分数创下当时单模型的新纪录且训练成本仅为文献中最佳模型的一小部分。我们还通过将其成功应用于英语成分句法分析无论是在大规模还是小规模训练数据下验证了 Transformer 在其他任务上的良好泛化能力。1 引言Introduction循环神经网络RNN、长短期记忆网络LSTM[13] 和门控循环单元GRU[7] 已被广泛确立为序列建模与转导问题如语言建模和机器翻译[35, 2, 5] 中的最先进方法。此后大量研究工作持续推动循环语言模型和编码器-解码器架构的发展边界 [38, 24, 15]。循环模型通常沿着输入和输出序列的符号位置依次进行计算。将位置对齐到计算时间步它们会生成一系列隐藏状态h t h_tht该状态是前一隐藏状态h t − 1 h_{t-1}ht−1和当前位置输入的函数。这种固有的顺序性导致无法在单个训练样本内部进行并行化当序列较长时这一问题尤为关键——因为内存限制使得跨样本批处理也受到制约。近期的一些工作通过因子分解技巧 [21] 和条件计算 [32] 显著提升了计算效率后者甚至同时改善了模型性能。然而顺序计算的根本限制依然存在。注意力机制已成为各类序列建模与转导任务中不可或缺的组成部分它能够建模任意距离的依赖关系而不受输入或输出序列中位置距离的限制 [2, 19]。不过除少数例外 [27] 外这些注意力机制通常与循环网络结合使用。在本工作中我们提出了Transformer——一种摒弃循环结构、完全依赖注意力机制来建立输入与输出之间全局依赖关系的模型架构。Transformer 允许更高程度的并行化并且在仅使用 8 块 P100 GPU 训练约 12 小时后即可在翻译质量上达到新的最先进水平。2 背景Background减少顺序计算的目标同样构成了 Extended Neural GPU [16]、ByteNet [18] 和 ConvS2S [9] 的基础。这些模型均以卷积神经网络作为基本构建模块能够并行地为所有输入和输出位置计算隐藏表示。然而在这些模型中关联两个任意输入或输出位置信号所需的操作数量随其距离增长而增加ConvS2S 中呈线性增长ByteNet 中呈对数增长。这使得模型更难学习远距离位置之间的依赖关系 [12]。而在 Transformer 中这一操作数量被降低为常数尽管由于对注意力加权位置进行平均有效分辨率有所下降——我们通过第 3.2 节所述的多头注意力机制来抵消这一影响。自注意力self-attention有时也称为内部注意力intra-attention是一种用于关联单个序列中不同位置以计算该序列表示的注意力机制。自注意力已成功应用于多种任务包括阅读理解、抽象式摘要、文本蕴含以及学习任务无关的句子表示 [4, 27, 28, 22]。端到端记忆网络则基于循环注意力机制而非序列对齐的循环结构在简单语言问答和语言建模任务上表现良好 [34]。据我们所知Transformer 是首个完全依赖自注意力来计算输入和输出表示、而不使用序列对齐的 RNN 或卷积的转导模型。在接下来的章节中我们将描述 Transformer 架构阐明自注意力的动机并讨论其相较于 [17, 18, 9] 等模型的优势。3 模型架构Model Architecture大多数具有竞争力的神经序列转导模型采用编码器-解码器结构 [5, 2, 35]。其中编码器将输入符号序列的表示( x 1 , . . . , x n ) (x_1, ..., x_n)(x1,...,xn)映射为连续表示序列z ( z 1 , . . . , z n ) z (z_1, ..., z_n)z(z1,...,zn)。给定z zz解码器则逐个生成输出符号序列( y 1 , . . . , y m ) (y_1, ..., y_m)(y1,...,ym)。在每一步模型都是自回归的auto-regressive[10]即在生成下一个符号时会将先前已生成的符号作为额外输入。Transformer 遵循这一整体架构其编码器和解码器分别由堆叠的自注意力层和逐位置全连接前馈网络构成见图 1 左右两半。3.1 编码器与解码器堆栈Encoder and Decoder Stacks编码器由N 6 N 6N6个相同的层堆叠而成。每一层包含两个子层第一个是多头自注意力机制第二个是简单的逐位置全连接前馈网络。我们在每个子层周围使用残差连接residual connection[11]并紧接层归一化layer normalization[1]。即每个子层的输出为LayerNorm ( x Sublayer ( x ) ) \text{LayerNorm}(x \text{Sublayer}(x))LayerNorm(xSublayer(x))其中 (\text{Sublayer}(x)) 是子层本身实现的函数。为便于残差连接模型中所有子层及嵌入层的输出维度均为d model 512 d_{\text{model}} 512dmodel512。解码器同样由N 6 N 6N6个相同的层堆叠而成。除编码器中的两个子层外解码器每层还插入第三个子层用于对编码器堆栈的输出执行多头注意力。与编码器类似我们也对每个子层使用残差连接和层归一化。此外我们修改了解码器堆栈中的自注意力子层防止其关注后续位置即“向左看”。这种掩码masking结合输出嵌入向右偏移一位的设计确保位置i ii的预测仅依赖于位置小于i ii的已知输出。3.2 注意力机制Attention注意力函数可描述为将一个查询query和一组键-值对key-value pairs映射为一个输出其中查询、键、值和输出均为向量。输出是值的加权和每个值的权重由查询与对应键的兼容性函数计算得出。3.2.1 缩放点积注意力Scaled Dot-Product Attention我们称所采用的注意力为“缩放点积注意力”见图 2 左。输入包含维度为d k d_kdk的查询和键以及维度为d v d_vdv的值。我们计算查询与所有键的点积将每个结果除以d k \sqrt{d_k}dk再对结果应用 softmax 函数以获得对值的权重。实践中我们将多个查询打包成矩阵Q QQ键和值也分别打包为矩阵K KK和V VV。输出矩阵计算如下Attention ( Q , K , V ) softmax ( Q K T d k ) V (1) \text{Attention}(Q, K, V) \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V \tag{1}Attention(Q,K,V)softmax(dkQKT)V(1)最常见的两种注意力函数是加性注意力 [2] 和点积乘性注意力。点积注意力与我们的算法相同只是缺少1 d k \frac{1}{\sqrt{d_k}}dk1的缩放因子。加性注意力使用带单隐层的前馈网络计算兼容性函数。理论上两者复杂度相近但点积注意力在实践中更快、更节省内存因为它可利用高度优化的矩阵乘法代码。当d k d_kdk较小时两种机制表现相似但当d k d_kdk较大时未缩放的点积注意力性能下降 [3]。我们推测这是因为点积结果幅值过大导致 softmax 函数进入梯度极小的区域。为此我们引入1 d k \frac{1}{\sqrt{d_k}}dk1缩放因子以缓解此问题。3.2.2 多头注意力Multi-Head Attention我们发现与其使用d model d_{\text{model}}dmodel维的查询、键和值执行单一注意力函数不如用不同的、可学习的线性投影将它们分别投影到d k , d k , d v d_k, d_k, d_vdk,dk,dv维共h hh次。然后在每个投影版本上并行执行注意力函数得到d v d_vdv维的输出。最后将这些输出拼接并再次投影得到最终结果见图 2 右。多头注意力使模型能够从不同表示子空间中联合关注不同位置的信息。而单头注意力因平均操作会抑制这种能力。具体公式如下MultiHead ( Q , K , V ) Concat ( head 1 , . . . , head h ) W O \text{MultiHead}(Q, K, V) \text{Concat}(\text{head}_1, ..., \text{head}_h) W^OMultiHead(Q,K,V)Concat(head1,...,headh)WO其中head i Attention ( Q W i Q , K W i K , V W i V ) \text{head}_i \text{Attention}(Q W_i^Q, K W_i^K, V W_i^V)headiAttention(QWiQ,KWiK,VWiV)投影矩阵维度为W i Q ∈ R d model × d k W_i^Q \in \mathbb{R}^{d_{\text{model}} \times d_k}WiQ∈Rdmodel×dkW i K ∈ R d model × d k W_i^K \in \mathbb{R}^{d_{\text{model}} \times d_k}WiK∈Rdmodel×dkW i V ∈ R d model × d v W_i^V \in \mathbb{R}^{d_{\text{model}} \times d_v}WiV∈Rdmodel×dvW O ∈ R h d v × d model W^O \in \mathbb{R}^{h d_v \times d_{\text{model}}}WO∈Rhdv×dmodel本文中设h 8 h 8h8且d k d v d model / h 64 d_k d_v d_{\text{model}} / h 64dkdvdmodel/h64。由于每个头的维度降低总计算成本与全维度的单头注意力相近。3.2.3 模型中注意力的应用Transformer 在三种场景中使用多头注意力编码器-解码器注意力查询来自解码器上一层键和值来自编码器输出。这使解码器每个位置都能关注输入序列的所有位置模拟典型 seq2seq 模型中的注意力机制。编码器自注意力键、值、查询均来自编码器上一层的输出。每个位置可关注前一层的所有位置。解码器自注意力类似地但需通过掩码将非法连接对应的 softmax 输入设为− ∞ -\infty−∞阻止信息向左流动以保持自回归特性。3.3 逐位置前馈网络Position-wise Feed-Forward Networks除注意力子层外编码器和解码器每层还包含一个逐位置应用的全连接前馈网络。该网络包含两个线性变换中间夹一个 ReLU 激活函数FFN ( x ) max ⁡ ( 0 , x W 1 b 1 ) W 2 b 2 (2) \text{FFN}(x) \max(0, xW_1 b_1) W_2 b_2 \tag{2}FFN(x)max(0,xW1b1)W2b2(2)虽然各位置共享同一网络结构但不同层使用不同参数。也可将其视为两个核大小为 1 的卷积。输入/输出维度为d model 512 d_{\text{model}} 512dmodel512内层维度d f f 2048 d_{ff} 2048dff2048。3.4 嵌入与 SoftmaxEmbeddings and Softmax与其他序列转导模型类似我们使用可学习的嵌入将输入和输出 token 转换为d model d_{\text{model}}dmodel维向量。解码器输出通过常规的线性变换和 softmax 转换为下一 token 的概率分布。本模型中输入嵌入、输出嵌入与 pre-softmax 线性变换共享同一权重矩阵[30]。此外在嵌入层中我们将权重乘以d model \sqrt{d_{\text{model}}}dmodel。3.5 位置编码Positional Encoding由于模型不含循环或卷积为利用序列顺序信息我们必须注入 token 的相对或绝对位置信息。为此我们在编码器和解码器底部的输入嵌入上加上位置编码。位置编码维度也为d model d_{\text{model}}dmodel以便相加。本文使用不同频率的正弦和余弦函数P E ( pos , 2 i ) sin ⁡ ( pos 1000 0 2 i / d model ) P E ( pos , 2 i 1 ) cos ⁡ ( pos 1000 0 2 i / d model ) \begin{aligned} PE_{(\text{pos}, 2i)} \sin\left( \frac{\text{pos}}{10000^{2i/d_{\text{model}}}} \right) \\ PE_{(\text{pos}, 2i1)} \cos\left( \frac{\text{pos}}{10000^{2i/d_{\text{model}}}} \right) \end{aligned}PE(pos,2i)PE(pos,2i1)sin(100002i/dmodelpos)cos(100002i/dmodelpos)其中 pos 为位置i 为维度。每个维度对应一个正弦波波长从2 π 2\pi2π到10000 ⋅ 2 π 10000 \cdot 2\pi10000⋅2π成几何级数变化。选择此函数是因为对任意固定偏移k kkP E pos k PE_{\text{pos}k}PEposk可表示为P E pos PE_{\text{pos}}PEpos的线性函数有利于模型学习相对位置关系。我们也尝试过可学习的位置嵌入 [9]结果几乎相同见表 3 行 E。最终选择正弦版本因其可能支持外推至训练中未见的更长序列。当然可以以下是《Attention Is All You Need》论文中第 4 节 “Why Self-Attention”的完整、准确且流畅的中文翻译保留技术细节与逻辑结构4 为何使用自注意力Why Self-Attention在本节中我们从多个角度将自注意力层与常用于序列建模的循环层recurrent layers和卷积层convolutional layers进行比较。这些层通常用于将一个变长的符号表示序列( x 1 , … , x n ) (x_1, \dots, x_n)(x1,…,xn)映射为另一个等长的序列表示( z 1 , … , z n ) (z_1, \dots, z_n)(z1,…,zn)其中x i , z i ∈ R d x_i, z_i \in \mathbb{R}^dxi,zi∈Rd——例如典型序列转导模型如编码器或解码器中的某一层隐藏状态。我们基于以下三个关键考量来论证采用自注意力机制的合理性每层的总计算复杂度Total computational complexity per layer可并行化的计算量以网络中所需的最小顺序操作数minimum number of sequential operations来衡量网络中长程依赖关系的信号路径长度Path length between long-range dependencies。学习长程依赖是许多序列转导任务的核心挑战。影响模型学习此类依赖能力的一个关键因素是前向和反向信号在网络中必须经过的路径长度输入与输出序列中任意两个位置之间的路径越短模型就越容易学习长程依赖关系[12]。因此我们还比较了由不同类型层构成的网络中任意两个输入/输出位置之间的最大路径长度。如表 1 所示自注意力层仅需常数次O(1)顺序操作即可连接所有位置而循环层则需要O(n)次顺序操作。表 1不同类型层的最大路径长度、每层计算复杂度及最小顺序操作数。其中n nn为序列长度d dd为表示维度k kk为卷积核大小r rr为受限自注意力中邻域的大小。层类型Layer Type每层计算复杂度Complexity per Layer最小顺序操作数Sequential Operations最大路径长度Maximum Path Length自注意力Self-AttentionO ( n 2 ⋅ d ) O(n^2 \cdot d)O(n2⋅d)O ( 1 ) O(1)O(1)O ( 1 ) O(1)O(1)循环层RecurrentO ( n ⋅ d 2 ) O(n \cdot d^2)O(n⋅d2)O ( n ) O(n)O(n)O ( n ) O(n)O(n)卷积层ConvolutionalO ( k ⋅ n ⋅ d 2 ) O(k \cdot n \cdot d^2)O(k⋅n⋅d2)O ( 1 ) O(1)O(1)O ( log ⁡ k n ) O(\log_k n)O(logkn)受限自注意力Self-Attention, restrictedO ( r ⋅ n ⋅ d ) O(r \cdot n \cdot d)O(r⋅n⋅d)O ( 1 ) O(1)O(1)O ( n / r ) O(n / r)O(n/r)在计算复杂度方面当序列长度n nn小于表示维度d dd时自注意力层比循环层更快。这一条件在当前最先进的机器翻译模型中普遍成立例如使用 word-piece [38] 或 byte-pair [31] 表示的句子其d dd通常远大于n nn。对于涉及极长序列的任务未来可通过限制自注意力仅关注输出位置附近大小为r rr的局部邻域来提升计算效率。这种做法会将最大路径长度增加至O ( n / r ) O(n/r)O(n/r)我们计划在后续工作中进一步探索该方向。另一方面单个卷积层核宽度k n k nkn。要实现全连接若使用连续卷积核需堆叠O ( n / k ) O(n/k)O(n/k)层若使用空洞卷积dilated convolutions[18]则需O ( log ⁡ k n ) O(\log_k n)O(logkn)层——这都会显著增加网络中最长路径的长度。通常卷积层的计算开销比循环层更高约为其k kk倍。然而可分离卷积separable convolutions[6] 能大幅降低复杂度降至O ( k ⋅ n ⋅ d n ⋅ d 2 ) O(k \cdot n \cdot d n \cdot d^2)O(k⋅n⋅dn⋅d2)。即便如此即使取k n k nkn可分离卷积的计算复杂度也恰好等于我们模型中所采用的“自注意力层逐位置前馈网络”的组合。此外自注意力还能带来一个附带优势更强的可解释性。我们检查了模型中学到的注意力分布见附录中的示例与讨论发现各个注意力头明显学会了执行不同的任务其中许多头的行为与句子的句法和语义结构密切相关。5 训练Training5.1 训练数据与批处理英德WMT 2014450 万句对BPE 分词37k 共享词表。英法WMT 20143600 万句对32k word-piece 词表。每批约含 25k 源 token 和 25k 目标 token。5.2 硬件与训练计划8 块 NVIDIA P100 GPU。基础模型10 万步约 12 小时每步 0.4 秒。大模型30 万步3.5 天每步 1.0 秒。5.3 优化器使用 Adam [20]β 1 0.9 , β 2 0.98 , ϵ 1 0 − 9 \beta_10.9, \beta_20.98, \epsilon10^{-9}β10.9,β20.98,ϵ10−9。学习率按以下公式调整lrate d model − 0.5 ⋅ min ⁡ ( step_num − 0.5 , step_num ⋅ warmup_steps − 1.5 ) \text{lrate} d_{\text{model}}^{-0.5} \cdot \min(\text{step\_num}^{-0.5}, \text{step\_num} \cdot \text{warmup\_steps}^{-1.5})lratedmodel−0.5⋅min(step_num−0.5,step_num⋅warmup_steps−1.5)前 4000 步线性增大学习率之后按步数的平方根倒数衰减。5.4 正则化残差 Dropout每个子层输出在加残差前应用 dropout基础模型P drop 0.1 P_{\text{drop}} 0.1Pdrop0.1嵌入与位置编码之和也应用 dropout。标签平滑Label Smoothing设ϵ l s 0.1 \epsilon_{ls} 0.1ϵls0.1[36]虽降低困惑度但提升准确率和 BLEU。6 实验结果Results6.1 机器翻译Machine Translation在WMT 2014 英语→德语翻译任务上我们提出的大型 Transformer 模型即表 2 中的Transformer (big)取得了28.4 的 BLEU 分数比此前所有已发表的模型包括集成模型高出超过 2.0 BLEU刷新了该任务的最先进水平。该模型的具体配置见表 3 最后一行训练过程在 8 块 P100 GPU 上耗时3.5 天。值得一提的是即便是我们的基础模型base model其性能也已超越此前所有已发布的单模型乃至集成模型而训练成本仅为这些竞争模型的一小部分。表 2Transformer 在英德与英法 newstest2014 测试集上的 BLEU 分数及训练成本显著优于此前最先进模型且训练开销大幅降低模型Model英→德EN-DEBLEU英→法EN-FRBLEU训练成本FLOPs英→德训练成本FLOPs英→法ByteNet [18]23.75———Deep-Att PosUnk [39]—39.2—1.0 × 1 0 20 1.0 \times 10^{20}1.0×1020GNMT RL [38]24.639.922.3 × 1 0 19 2.3 \times 10^{19}2.3×10191.4 × 1 0 20 1.4 \times 1 0^{20}1.4×1020ConvS2S [9]25.1640.469.6 × 1 0 18 9.6 \times 10^{18}9.6×10181.5 × 1 0 20 1.5 \times 10^{20}1.5×1020MoE [32]26.0340.562.0 × 1 0 19 2.0 \times 10^{19}2.0×10191.2 × 1 0 20 1.2 \times 10^{20}1.2×1020Deep-Att PosUnk 集成 [39]—40.4—8.0 × 1 0 20 8.0 \times 10^{20}8.0×1020GNMT RL 集成 [38]26.3041.161.8 × 1 0 20 1.8 \times 10^{20}1.8×10201.1 × 1 0 21 1.1 \times 10^{21}1.1×1021ConvS2S 集成 [9]26.3641.297.7 × 1 0 19 7.7 \times 10^{19}7.7×10191.2 × 1 0 21 1.2 \times 10^{21}1.2×1021Transformer基础模型27.338.13.3 × 1 0 18 3.3 \times 10^{18}3.3×10183.3 × 1 0 18 3.3 \times 10^{18}3.3×1018Transformer大模型28.441.82.3 × 1 0 19 2.3 \times 10^{19}2.3×10192.3 × 1 0 19 2.3 \times 10^{19}2.3×1019在WMT 2014 英语→法语翻译任务上大型 Transformer 模型取得了41.8 的 BLEU 分数显著优于此前所有已发表的单模型且训练计算量不到此前最先进模型的四分之一。该英法模型使用了P drop 0.1 P_{\text{drop}} 0.1Pdrop0.1而非英德模型中的 0.3。对于基础模型我们在推理时采用最后 5 个检查点每 10 分钟保存一次对于大型模型则平均了最后 20 个检查点。解码均使用束搜索beam search束宽beam size设为 4长度惩罚系数α 0.6 \alpha 0.6α0.6—— 这些超参数均在开发集上通过实验确定。推理时最大输出长度设为输入长度 50但若提前生成结束符则立即终止 [38]。表 2 汇总了我们的结果并与文献中其他模型架构在翻译质量与训练成本方面进行了对比。我们通过以下方式估算模型训练所消耗的浮点运算量FLOPsFLOPs ≈ 训练时间 × GPU 数量 × 每块 GPU 的持续单精度浮点算力 \text{FLOPs} \approx \text{训练时间} \times \text{GPU 数量} \times \text{每块 GPU 的持续单精度浮点算力}FLOPs≈训练时间×GPU数量×每块GPU的持续单精度浮点算力注对 K80、K40、M40 和 P100 GPU分别采用 2.8、3.7、6.0 和 9.5 TFLOPS 的估算值 [5]。6.2 模型变体分析Model Variations为评估 Transformer 各组件的重要性我们对基础模型进行了多种修改并在WMT 2014 英德翻译开发集newstest2013上测量其性能变化。所有变体均使用与前述相同的束搜索策略但不进行检查点平均。结果汇总于表 3。表 3Transformer 架构的多种变体对比未列出的超参数均与基础模型一致。所有指标均在英德翻译开发集 newstest2013 上评估。所列困惑度PPL为按字节对编码byte-pair encoding的每词片段per-wordpiece计算不可与按词per-word困惑度直接比较。表 3 行 (A)我们在保持总计算量不变的前提下调整注意力头数h hh以及键/值维度 $d_k d_v)参见第 3.2.2 节。结果显示单头注意力single-head比最优设置低 0.9 BLEU但头数过多也会导致性能下降。表 3 行 (B)减小键维度d k d_kdk会损害模型性能表明点积可能不足以充分建模查询与键之间的兼容性未来或许可引入更复杂的兼容性函数。表 3 行 © 与 (D)如预期所示更大的模型表现更好且Dropout 对防止过拟合非常有效。表 3 行 (E)我们将正弦位置编码替换为可学习的位置嵌入learned positional embeddings[9]结果与基础模型几乎一致验证了两种位置编码方式的有效性相当。6.3 英语成分句法分析English Constituency Parsing为验证 Transformer 在其他任务上的泛化能力我们在英语成分句法分析任务上进行了实验。该任务具有特殊挑战性输出需满足严格的结构约束且输出序列通常远长于输入序列。此外在小规模数据场景下传统的 RNN 序列到序列模型尚未能达到最先进水平 [37]。我们在Penn Treebank的 Wall Street JournalWSJ部分约 4 万训练句上训练了一个4 层的 Transformer 模型d model 1024 d_{\text{model}} 1024dmodel1024。此外我们还在半监督设定下进行了训练额外使用了约 1700 万句的高置信度自动解析语料来自 BerkeleyParser[37]。词表大小分别为WSJ 单独训练时用 16K tokens半监督训练时用 32K tokens。除在 WSJ 开发集Section 22上对 Dropout 率包括注意力和残差连接、学习率及束宽进行了少量调参外其余超参数均沿用英德翻译的基础模型设置。推理时我们将最大输出长度设为输入长度 300束宽设为 21长度惩罚系数α 0.3 \alpha 0.3α0.3。表 4 展示了结果尽管未针对该任务做专门优化我们的模型仍表现出色——在仅使用 WSJ 数据的情况下F1 分数达91.3优于此前几乎所有判别式模型仅略低于 Dyer et al. (2016) 的 91.7在半监督设定下F1 分数进一步提升至92.7显著超越此前同类方法如 Vinyals Kaiser et al., 2014 的 92.1。值得注意的是与 RNN 序列到序列模型 [37] 不同Transformer 即使仅用 4 万句的 WSJ 数据训练也能超越经典的 BerkeleyParser[29]充分体现了其在小数据和结构化预测任务中的强大泛化能力。7 结论Conclusion在本工作中我们提出了Transformer——首个完全基于注意力机制的序列转导模型。它用多头自注意力机制multi-headed self-attention取代了编码器-解码器架构中最常使用的循环层。在翻译任务上Transformer 的训练速度显著快于基于循环或卷积层的架构。在WMT 2014 英语→德语和WMT 2014 英语→法语两项翻译任务中我们都取得了新的最先进state-of-the-art结果。在前者任务中我们最好的模型甚至超越了此前所有已报道的集成模型ensembles。我们对基于注意力的模型在未来的发展充满期待并计划将其应用于更多任务。我们打算将 Transformer 扩展到非文本模态如图像、音频和视频的输入与输出问题并探索局部受限的注意力机制local, restricted attention mechanisms以高效处理大规模输入和输出。此外减少生成过程的顺序依赖性making generation less sequential也是我们的另一项研究目标。用于训练和评估我们模型的代码已开源地址为https://github.com/tensorflow/tensor2tensor致谢Acknowledgements我们衷心感谢 Nal Kalchbrenner 和 Stephan Gouws 所提供的富有启发性的评论、修正与灵感。

文登市住房和城乡建设局网站报名入口网站建设

家装设计网站开发常州互联网公司

库车县建设网站百度域名地址

为什么百度没有收录我的网站怎样创建个人视频号

怎么可以做网站wordpress更改上传

dw制作企业网站zencart 网站

建设部网站合并o2o