所在的位置： html >> html前景 >> 所有你要知道的BERT模型压缩方法,都在

所有你要知道的BERT模型压缩方法,都在

模型压缩可减少受训神经网络的冗余，由于几乎没有BERT或者BERT-Large模型可直接在GPU及智能手机上应用，因此模型压缩方法对于BERT的未来的应用前景而言，非常有价值。软件工程师MitchellA.Gordon在本文中总结了所有的BERT压缩模型的方法，并对该领域的论文进行罗列及分类，我们下面来看：一、压缩方法1、剪枝——即训练后从网络中去掉不必要的部分。这包括权重大小剪枝、注意力头剪枝、网络层以及其他部分的剪枝等。还有一些方法也通过在训练期间采用正则化的方式来提升剪枝能力（layerdropout）。2、权重因子分解——通过将参数矩阵分解成两个较小矩阵的乘积来逼近原始参数矩阵。这给矩阵施加了低秩约束。权重因子分解既可以应用于输入嵌入层（这节省了大量磁盘内存），也可以应用于前馈/自注意力层的参数（为了提高速度）。3、知识蒸馏——又名「StudentTeacher」。在预训练/下游数据上从头开始训练一个小得多的Transformer，正常情况下，这可能会失败，但是由于未知的原因，利用完整大小的模型中的软标签可以改进优化。一些方法还将BERT蒸馏成如LSTMS等其他各种推理速度更快的架构。另外还有一些其他方法不仅在输出上，还在权重矩阵和隐藏的激活层上对Teacher知识进行更深入的挖掘。4、权重共享——模型中的一些权重与模型中的其他参数共享相同的值。例如，ALBERT对BERT中的每个自注意力层使用相同的权重矩阵。5、量化——截断浮点数，使其仅使用几个比特（这会导致舍入误差）。模型可以在训练期间，也可以在训练之后学习量化值。6、预训练和下游任务——一些方法仅仅在涉及到特定的下游任务时才压缩BERT，也有一些方法以任务无关的方式来压缩BERT。二、论文一览（原英文标题见文章尾部）三、结果比较在这里将尽我所能的对这些论文的观点进行解读，同时主要

转载请注明：http://www.aierlanlan.com/cyrz/9177.html

上一篇文章：对seo有用的标签网站标签的优化技巧

下一篇文章：中西医结合combine还是int