源码先锋

源码先锋

如何发现「将死」的ReLu?可视化工具TensorBoard助你一臂之力

admin 167 10

选自Medium

作者:JithinJayan机器之心编译参与:魔王、张倩

本文介绍了如何利用可视化工具TensorBoard发现「DyingReLU问题」。

什么是ReLU?

ReLU即修正线性单元(RectifiedLinearUnit),是人工神经网络中的一种激活函数。通常情况下,ReLU是最常使用的激活函数。其主要原因在于ReLU不会遇到梯度消失问题。ReLU的数学公式为:

另外一种表达式为:

其函数图像如下所示:

注意,该函数并非线性,其输出是非线性的。

ReLU的导数是:

当x=0时,ReLU的导数是未定义的。

什么是DyingReLU问题?

ReLU的主要优势在于:其输出为0和1,(无需在反向传播过程中乘以非常小的值,)从而解决了梯度消失问题。然而,它也存在缺陷。由于它对每个负值的输出均为0,ReLU神经元可能陷入负值中,持续输出0,且无法恢复。这叫做DyingReLU问题。这个问题非常严重,因为一旦神经元死亡,它基本上学不到任何信息,从而导致网络的大部分无法工作。

利用TensorBoard检测DyingReLU问题

使用以下代码创建随机样本:

x表示大小为200kx4的数组,其数值均从(-1,0)区间内均匀采样得到。该数组内绝大部分数值为负,是ReLU最不喜欢的一类输入。将该数据按照7:3的比例分割为训练集和测试集。

使用一个具备ReLU激活函数的一层简单网络。随机初始化权重,将偏差初始化为0。

现在,初始化TensorBoard变量。每个epoch都需要梯度,因此将write_grads初始化为True。

最后拟合模型,在callbacks参数中使用TensorBoard变量。

绘制训练损失和验证损失的图像。

所有epoch的验证损失(上)和训练损失(下)。

从上图中,我们可以清晰地看到模型损失没有降低,这意味着模型停止了学习。现在使用TensorBoard对密集层的梯度和输出进行可视化。

密集层输出(左)和密集层梯度(右)。

从上图中我们可以看到,对于所有epoch,密集层梯度都为0,输出也均为0。梯度图显示出,一旦梯度变成0,模型试图挣脱这种情况,但它已经完全死亡,这从损失图中也能看出,因为损失没有随时间发生变化,说明模型停止学习或者学不到任何信息。

添加层

现在,使用具备同样ReLU函数的三层网络,看看上述问题是否解决。本文使用如下网络:

这是一个三层网络,所有层的激活函数均为ReLU。

现在,通过TensorBoard观察所有层的梯度:

Dense_3梯度(左)、Dense_2梯度(中)、Dense_1梯度(右)。

从上图中可以看到,添加层并没有解决dyingReLU问题,所有层的梯度仍然为0,这些梯度被反向传播至模型其他层,从而影响模型的性能。

解决方案

1.增加数据规模会有帮助吗?

不会!如果新数据与原有数据属于同一分布,则在训练集中添加这些新数据是无用的。不过,为同样的问题收集一个新数据集可能是一种解决方案。

2.添加Dropout会有帮助吗?

Dropout与ReLU的输出没有任何关系,因此添加或者更改Dropout对dyingReLU没有影响。

3.添加层会有帮助吗?

不会。如上所述,添加层对解决dyingReLU问题没有帮助。

4.增加训练epoch会有帮助吗?

不会,虽然每个epoch结束后都会更新权重,但是由于神经元死亡,梯度为0,使得权重无法得到更新。权重一直不变,使用相同的权重计算梯度只能得到0,因此这对解决dyingReLU问题没有帮助。

5.改变权重初始化会有帮助吗?

我们先来尝试不同的权重初始化器,并绘制其梯度和输出。下图是为使用ReLU激活函数的密集层梯度绘制的图,这四个网络使用的权重初始化器分别是:he_normal、he_uniform、ecun_normal和random_uniform。

he_normal(左)和he_uniform(右)。

lecun_uniform(左)和random_uniform(右)。

从上图中我们可以看到,权重初始化对解决dyingReLU问题没有帮助。从he_normal、he_uniform和lecun_normal的图示中可以看到,在初始化阶段有轻微的改善,但是随着epoch数量的增加,导数趋向于0。

由于输入多为负值,我们使用以下代码将权重初始化为负值:

分配给权重的值均从(-1,0)区间内随机均匀采样得到,这与输入的分布相同。该网络的梯度和输出如下图所示:

dense_1输出(左)、dense_1梯度(右)。

从上图中同样可以观察到,随着epoch数量的增加,梯度变为0,输出也集中于0。因此我们可以认为改变初始权重是解决dyingReLU问题的一种办法,但是需要确保模型不要运行太多epoch,因为这又会导致dyingReLU问题。事实上,从这些图中可以看出,改变初始权重对解决dyingReLU问题并没有太大帮助。

6.改变激活函数会有帮助吗?

可能会。那么要用哪种函数替代ReLU呢?我们可以使用tanh和Sigmoid函数。使用ReLU的变体LeakyReLU也可以避开该问题。但是,在为该实验创建的示例中,以上所有函数均失败了,因为它们都遭遇了梯度消失问题。当我们需要在梯度消失和DyingReLU中进行权衡时,有动静总比没有好。遇到梯度消失问题后,模型仍在学习,而在DyingReLU中没有学习,学习过程被中断了。

这时候,LeakyReLU的加强版SELU(ScaledExponentialLinearUnits)就派上用场了。SELU激活函数可以自行归一化神经网络,即归一化后网络权重和偏差的均值为0,方差为1。SELU的主要优势是不会遭遇梯度消失和梯度爆炸,同时也不会出现激活函数死亡现象。关于SELU的更多信息,参见论文《Self-NormalizingNeuralNetworks》。

注意:SELU必须与lecun_normal初始化一起使用,且将AlphaDropout作为dropout。对于以上数据集,我们可以使用以下网络:

该网络密集层的梯度和输出如下图所示:

从梯度图中可以看出,梯度有所改善,逐渐远离0。从输出图中可以看出,具备SELU激活函数的密集层输出值很小,但也不像之前示例那样输出为0。因此,即使在最糟糕的情况下,SELU也比ReLU效果好。

结论

训练和使用深度神经网络时,实时监控损失和梯度情况是一种不错的做法,有助于发现深度学习模型训练过程中的大部分问题。如果你不知道如何发现和解决问题,那么写深度网络是没有意义的。本文只涉及了众多问题的冰山一角。每个使用深度学习和人工神经网络的人总会遇到激活函数死亡问题,一着不慎就要浪费数个小时重新训练模型,因为这时只改变模型参数已经没用了。由于ReLU是大部分深度学习问题中最常用的激活函数,因此大家一定要谨慎地避免该问题。而有了TensorBoard之后,你可以轻松发现该问题。