如何发现「将死」的ReLu？可视化工具TensorBoard助你一臂之力

admin 2024-11-08 19:01:0183 61

选自Medium

作者：JithinJayan机器之心编译参与：魔王、张倩

本文介绍了如何利用可视化工具TensorBoard发现「DyingReLU问题」。

什么是ReLU？

ReLU即修正线性单元（RectifiedLinearUnit），是人工神经网络中的一种激活函数。通常情况下，ReLU是最常使用的激活函数。其主要原因在于ReLU不会遇到梯度消失问题。ReLU的数学公式为：

另外一种表达式为：

其函数图像如下所示：

注意，该函数并非线性，其输出是非线性的。

ReLU的导数是：

当x=0时，ReLU的导数是未定义的。

什么是DyingReLU问题？

ReLU的主要优势在于：其输出为0和1，（无需在反向传播过程中乘以非常小的值，）从而解决了梯度消失问题。然而，它也存在缺陷。由于它对每个负值的输出均为0，ReLU神经元可能陷入负值中，持续输出0，且无法恢复。这叫做DyingReLU问题。这个问题非常严重，因为一旦神经元死亡，它基本上学不到任何信息，从而导致网络的大部分无法工作。

利用TensorBoard检测DyingReLU问题

使用以下代码创建随机样本：

x表示大小为200kx4的数组，其数值均从(-1,0)区间内均匀采样得到。该数组内绝大部分数值为负，是ReLU最不喜欢的一类输入。将该数据按照7:3的比例分割为训练集和测试集。

使用一个具备ReLU激活函数的一层简单网络。随机初始化权重，将偏差初始化为0。

现在，初始化TensorBoard变量。每个epoch都需要梯度，因此将write_grads初始化为True。

最后拟合模型，在callbacks参数中使用TensorBoard变量。

绘制训练损失和验证损失的图像。

所有epoch的验证损失（上）和训练损失（下）。

从上图中，我们可以清晰地看到模型损失没有降低，这意味着模型停止了学习。现在使用TensorBoard对密集层的梯度和输出进行可视化。

密集层输出（左）和密集层梯度（右）。

从上图中我们可以看到，对于所有epoch，密集层梯度都为0，输出也均为0。梯度图显示出，一旦梯度变成0，模型试图挣脱这种情况，但它已经完全死亡，这从损失图中也能看出，因为损失没有随时间发生变化，说明模型停止学习或者学不到任何信息。

添加层

现在，使用具备同样ReLU函数的三层网络，看看上述问题是否解决。本文使用如下网络：

这是一个三层网络，所有层的激活函数均为ReLU。

现在，通过TensorBoard观察所有层的梯度：

Dense_3梯度（左）、Dense_2梯度（中）、Dense_1梯度（右）。

从上图中可以看到，添加层并没有解决dyingReLU问题，所有层的梯度仍然为0，这些梯度被反向传播至模型其他层，从而影响模型的性能。

解决方案

1.增加数据规模会有帮助吗？

不会！如果新数据与原有数据属于同一分布，则在训练集中添加这些新数据是无用的。不过，为同样的问题收集一个新数据集可能是一种解决方案。

2.添加Dropout会有帮助吗？

Dropout与ReLU的输出没有任何关系，因此添加或者更改Dropout对dyingReLU没有影响。

3.添加层会有帮助吗？

不会。如上所述，添加层对解决dyingReLU问题没有帮助。

4.增加训练epoch会有帮助吗？

不会，虽然每个epoch结束后都会更新权重，但是由于神经元死亡，梯度为0，使得权重无法得到更新。权重一直不变，使用相同的权重计算梯度只能得到0，因此这对解决dyingReLU问题没有帮助。

5.改变权重初始化会有帮助吗？

我们先来尝试不同的权重初始化器，并绘制其梯度和输出。下图是为使用ReLU激活函数的密集层梯度绘制的图，这四个网络使用的权重初始化器分别是：he_normal、he_uniform、ecun_normal和random_uniform。

he_normal（左）和he_uniform（右）。

lecun_uniform（左）和random_uniform（右）。

从上图中我们可以看到，权重初始化对解决dyingReLU问题没有帮助。从he_normal、he_uniform和lecun_normal的图示中可以看到，在初始化阶段有轻微的改善，但是随着epoch数量的增加，导数趋向于0。

由于输入多为负值，我们使用以下代码将权重初始化为负值：

分配给权重的值均从(-1,0)区间内随机均匀采样得到，这与输入的分布相同。该网络的梯度和输出如下图所示：

dense_1输出（左）、dense_1梯度（右）。

从上图中同样可以观察到，随着epoch数量的增加，梯度变为0，输出也集中于0。因此我们可以认为改变初始权重是解决dyingReLU问题的一种办法，但是需要确保模型不要运行太多epoch，因为这又会导致dyingReLU问题。事实上，从这些图中可以看出，改变初始权重对解决dyingReLU问题并没有太大帮助。

6.改变激活函数会有帮助吗？

可能会。那么要用哪种函数替代ReLU呢？我们可以使用tanh和Sigmoid函数。使用ReLU的变体LeakyReLU也可以避开该问题。但是，在为该实验创建的示例中，以上所有函数均失败了，因为它们都遭遇了梯度消失问题。当我们需要在梯度消失和DyingReLU中进行权衡时，有动静总比没有好。遇到梯度消失问题后，模型仍在学习，而在DyingReLU中没有学习，学习过程被中断了。

这时候，LeakyReLU的加强版SELU(ScaledExponentialLinearUnits)就派上用场了。SELU激活函数可以自行归一化神经网络，即归一化后网络权重和偏差的均值为0，方差为1。SELU的主要优势是不会遭遇梯度消失和梯度爆炸，同时也不会出现激活函数死亡现象。关于SELU的更多信息，参见论文《Self-NormalizingNeuralNetworks》。

注意：SELU必须与lecun_normal初始化一起使用，且将AlphaDropout作为dropout。对于以上数据集，我们可以使用以下网络：

该网络密集层的梯度和输出如下图所示：

从梯度图中可以看出，梯度有所改善，逐渐远离0。从输出图中可以看出，具备SELU激活函数的密集层输出值很小，但也不像之前示例那样输出为0。因此，即使在最糟糕的情况下，SELU也比ReLU效果好。

结论

训练和使用深度神经网络时，实时监控损失和梯度情况是一种不错的做法，有助于发现深度学习模型训练过程中的大部分问题。如果你不知道如何发现和解决问题，那么写深度网络是没有意义的。本文只涉及了众多问题的冰山一角。每个使用深度学习和人工神经网络的人总会遇到激活函数死亡问题，一着不慎就要浪费数个小时重新训练模型，因为这时只改变模型参数已经没用了。由于ReLU是大部分深度学习问题中最常用的激活函数，因此大家一定要谨慎地避免该问题。而有了TensorBoard之后，你可以轻松发现该问题。

本文地址： https://bc.zzxfkm.com.cn/905820318041.html

上一个射频锁相环介绍射频锁相环介绍

下一个关于Word脚注问题一些解决办法关于Word脚注问题一些解决办法