所在的位置： html >> html资源 >> Hinton胶囊网络代码正式开源,你也能

Hinton胶囊网络代码正式开源,你也能

北京儿童扁平疣医院 http://pf.39.net/bdfyy/zjdy/210404/8812944.html

万众期待中，Hinton胶囊网络论文《DynamicRoutingbetweenCapsules》的代码正式公布，仅仅5天，Github上fork数量就超过了1.4万。Capsule真能取代CNN吗？接下来是你动手的时间了。

Hinton胶囊网络论文《DynamicRoutingbetweenCapsules》的一作SaraSabour日前在GitHub公布了代码，使用TensorFlow和NumPy实现，只有一台GPU也行，仅仅5天，fork的数量就超过了1.4万。

实际上，在官方代码公布前，已经有很多其他版本和实现。新智元也对胶囊网络的概念做过详细介绍：

[1]深度学习要另起炉灶，彻底抛弃反向传播

[2]Hinton大神Capsule论文首次公布，深度学习基石CNN或被取代

[3]Reddit讨论：Hinton的Capsule网络真的比CNN效果更好吗？

[4]CNN有两大缺陷，要用capsule做下一代CNN

[5]CNN未来向何处去

[6]胶囊网络9大优势4大缺陷（视频+PPT)

不过，在看代码前，还是有必要再次回顾这篇Hinton革新CNN的论文，JonathanHui在他的博客上对这篇论文做过拆解，从基本概念开始，读来非常友好。

用“Capsule”作为下一代CNN的理由

在深度学习中，神经元的激活水平通常被解释为检测特定特征的可能性。

但是，CNN善于检测特征，却在探索特征（视角，大小，方位）之间的空间关系方面效果较差。例如，下面这张图片可能会骗过一个简单的CNN模型，让CNN模型相信这是一张真实的人脸。

一个简单的CNN模型可以正确提取鼻子、眼睛和嘴巴的特征，但会错误地激活神经元进行人脸检测。如果不了解空间方向，大小不匹配，那么对于人脸检测的激活将会太高，比如下图95%。

现在，假设每个神经元都包含特征的可能性和属性。例如，神经元输出的是一个包含[可能性，方向，大小]的向量。利用这种空间信息，就可以检测鼻子、眼睛和耳朵特征之间的方向和大小的一致性，因此对于人脸检测的激活输出就会低很多。

在Hinton的胶囊网络的论文中，就使用“胶囊”（capsule）来指代这样的神经元。

从概念上讲，我们可以将CNN看成是训练神经元来处理不同方向的视角，并在最顶层有一层人脸检测神经元。

如上所述，为了CNN能够处理不同的视角或变体，我们添加了更多的卷积图层和特征图。尽管如此，这种方法倾向于记忆数据集，而不是得出一个比较通用的解决方案，它需要大量的训练数据来覆盖不同的变体，并避免过拟合。MNIST数据集包含55,个训练数据，也即每个数字都有5,个样本。但是，儿童看过几次就能记住数字。现有的包括CNN在内的深度学习模式在利用数据方面效率十分低下。引用GeoffreyHinton的一句话：

It(convolutionalnetwork)worksdepressinglywell.

胶囊网络不是训练来捕捉特定变体的特征，而是捕捉特征及其变体的可能性。所以胶囊的目的不仅在于检测特征，还在于训练模型来学习变体。

这样，相同的胶囊就可以检测不同方向的同一个物体类别（例如，顺时针旋转）：

其中，Invariance对应特征检测，特征是不变的。例如，检测鼻子的神经元不管什么方向，都检测鼻子。但是，神经元空间定向的损失最终会损害这种invariance模型的有效性。

而Equivariance对应变体检测，也即可以相互转换的对象（例如检测不同方向的人脸）。直观地说，胶囊网络检测到脸部旋转了20°，而不是实现与旋转了20°的变体相匹配的脸。通过强制模型学习胶囊中的特征变体，我们可以用较少的训练数据，更有效地推断可能的变体。此外，也可以更有效地防止对抗攻击。

计算一个Capsule网络的输出：不同维度的参数

胶囊是一组神经元，不仅捕捉特征的可能性，还捕捉具体特征的参数。

例如，下面的第一行表示神经元检测到数字“7”的概率。2-D胶囊是组合了2个神经元的网络。这个胶囊在检测数字“7”时输出2-D矢量。对于第二行中的第一个图像，它输出一个向量v=(0,0.9)v=(0,0.9)。矢量的大小0.9对应于检测“7”的概率。每行的第二个图像看起来更像是“1”而不是“7”。因此，其相应的可能性为“7”较小。

在第三行，旋转图像20°。胶囊将产生具有相同幅度但不同方向的矢量。这里，矢量的角度表示数字“7”的旋转角度。最后，还可以添加2个神经元来捕捉大小和笔画的宽度（见下图）。

我们称胶囊的输出向量为活动向量，其幅度代表检测特征的概率，其方向代表其参数（属性）。

在计算一个胶囊网络输出的时候，首先看一个全连接的神经网络：

其中每个神经元的输出是从前一层神经元的输出计算而来的：

其中

、

和

都是标量

对于capsule网络，一个capsule的输入

和输出

都是向量。

我们将一个变换矩阵（transformationmatrix）

应用到前一层的capsule输出

。例如，用一个

矩阵，我们把一个k-D

变换成一个m-D

。然后计算

和

的加权和：

其中，

是迭代动态路由过程（iterativedynamicroutingprocess）训练的耦合系数（couplingcoefficients），

被设计来求和到1。

我们不使用ReLU函数，而是使用一个挤压函数（squashingfunction）来缩短0和单位长度之间的向量。

它将短向量缩小到接近0，将长向量缩小为接近单位向量（unitvectors）。因此，每个capsule的似然性在0到1之间。

迭代动态路由规则与重要性

在深度学习中，我们使用反向传播来训练模型参数。转换矩阵Wij在胶囊中仍然用反向传播训练。不过，耦合系数cij用新的迭代动态路由方法进行计算。

以下是动态路由的最终伪代码：

在深度学习中，我们使用反向传播来训练基于成本函数的模型参数。这些参数（权重）控制信号从一层到另一层的路由。如果两个神经元之间的权重为零，则神经元的激活不会传播到该神经元。

迭代动态路由提供了如何根据特征参数来路由信号的替代方案。通过利用特征参数，理论上，可以更好地将胶囊分组，形成一个高层次的结构。例如，胶囊层可能最终表现为探索“部分-整体”关系的分析树。例如，脸部由眼睛、鼻子和嘴组成。迭代动态路由利用变换矩阵、可能性和特征的性质，控制向上传播到上面胶囊的信号的多少。

最后，就到了应用胶囊构建CapsNet，进而对MNIST数字进行分类和重构的时候了。下面是CapsNet的架构。一个CapsNet共有3层，两个卷积层和一个全连接层。

论文提到的MNIST数字重构任务：

Github代码

Capsule模型代码在以下论文中使用：

DynamicRoutingbetweenCapsules”（胶囊间的动态路由）bySaraSabour,NickolasFrosst,GeoffreyE.Hinton.要求：

TensorFlow（请参阅

转载请注明：http://www.aierlanlan.com/rzgz/4192.html

上一篇文章：如何做一个CSS3音乐播放器百度经验

下一篇文章：分享一个火遍全网的Python框架,爆赞