所在的位置： html >> html发展 >> BERT大火却不懂Transformer

BERT大火却不懂Transformer

北京中科白癜风医院热心公益 http://weifang.dzwww.com/cj/201711/t20171127_16268082.htm

大数据文摘与百度NLP联合出品

编译：张驰、毅航、Conrad、龙心尘

编者按：前一段时间谷歌推出的BERT模型在11项NLP任务中夺得STOA结果，引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务，当时达到了STOA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率。在本文中，我们将研究Transformer模型，把它掰开揉碎，理解它的工作原理。

以下是正文，请欣赏：

Transformer由论文《AttentionisAllYouNeed》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。

在本文中，我们将试图把模型简化一点，并逐一介绍里面的核心概念，希望让普通读者也能轻易理解。

AttentionisAllYouNeed：

转载请注明：http://www.aierlanlan.com/tzrz/1362.html

上一篇文章： Ionic接近原生的Html5移动App

下一篇文章：可视化少儿编程软件Scratch介绍