激活函数的“3W”

2020-09-22

图书推荐：《数据准备和特征工程》

学习神经网络，必然会遇到激活函数，那么：

什么是激活函数？What
为什么要用激活函数？Why
应该选择哪个激活函数？Which

本文尝试对此进行探讨。

神经网络的基本思想

人工神经网络是仿照了大脑的神经网络系统来处理数据的，它由节点组成了层，通常一个网络又有多个层（除了输入层和输出层之外，有多个隐藏层），每个节点就是一个神经元。信息从输入层进入，传到隐藏层（如图所示），按照简化的模型，输入数据乘以权重（weight）加上一个偏置（bias），然后应用激活函数得到该神经元的输出，再将此输出传给下一层的神经元。

此流程在各个层的神经元中不断重复，直到最后一层输出层。寻找隐藏层的权重参数和偏置的过程，就是常说的“学习”过程，其遵循的基本原则就是使得网络最终的输出误差最小化。

激活函数

可以将激活函数理解为控制当前层的神经元与下一层的神经元之间的信息传递的“门”，它决定当前的神经元是否被激活，可以用下图帮助理解。

为什么要用激活函数

参考上面的图示，如果没有激活函数，该神经元的输入和输出之间就是线性变换。线性函数虽然容易求解，但是它所能解决的问题有限，特别是针对复杂问题的时候。由此推广，如果神经网络没有激活函数，它也就变成了线性回归模型。所以，需要一个激活函数。

那么，需要什么样的激活函数呢？

激活函数的类型

激活函数可以分为两种类型：

线性激活函数
非线性激活函数

线性激活函数

图示的是一个线性激活函数和一个常函数，通过线性激活函数所得到的输出，相对于输入而言，只是比例的变化。

函数式：$f(x) = x$
导数：$f’(x) = 1$
值域：$(-\infty, +\infty)$

从上面的函数示例可知，线性函数求导数之后得到了常数，也就是与输入数据无关，这样就无法通过反向传播算法更新权重参数。另外，如果用线性函数作为激活函数，不论网络有多少层，最后的输出与第一层的输入都是线性关系。

非线性激活函数

现代神经网络使用的都是非线性激活函数，这样可以创建输入与输出键的复杂映射关系，网络也能通过“学习”来更新参数。并且，因为非线性函数的导数与输入有关，从而可以通过向后传播算法计算梯度，也可以构建多层神经网络，以处理复杂问题。

常用的非线性激活函数

Sigmoid函数/Logistic函数

Sigmoid函数是S形函数，当以概率形式表示预测值时，我们使用这个函数。

函数式：$f(x)=\sigma = \frac{1}{1+e^{-x}}$
导数：$f’(x) = \sigma(1-\sigma)$
值域：$(0, 1)$

Sigmoid函数的优点在于它可导，并且值域在0到1之间，使得神经元的输出标准化。也正是这些优点，让它成为了神经网络最早采用的激活函数。它的不足也很明显，首先就是在 $x$ 增加或减少到一定程度时，函数值变化很小，这就是所谓的“梯度消失”，致使网络的收敛速度变慢，进而耗费更多的计算资源。另外，输出值不是以 $0$ 为中心，而是 $0.5$。

Tanh/双曲正切函数

Tanh函数，即双曲正切函数，也是“S”形，但是Sigmoid函数仅冠名给了上面的那个函数。

函数式：$f(x) = a =tanh(x) = \frac{e^x-e^{-x}}{e^x+e^{-x}}$
导数：$1-a^2$
值域：$(-1, 1)$

Tanh函数的最大优点是输出值以 $0$ 为中心，分属为正数和负数两大类别，另外此函数及其导数都是单调的，这使得它具有了Sigmoid函数的优势，又克服了某些不足。当然，Tanh的不足与Sigmoid一样，“梯度消失”的问题都还存在，进而导致收敛速度变慢。

ReLU ( Rectified Linear Unit)

Rectified Linear Unit，译为“线性整流函数”或者“修正线性单元”，通常我们就直接称为 ReLU 函数。

函数式：$f(x)=a=max(0, x)$
导数：$f’(x)=\begin{cases}1,\quad&(x \ge 0)\0, \quad&(x \lt0)\end{cases}$
值域：$(0, +\infty)$

ReLU函数的明显优点在于收敛速度快，当然，不要觉得它看起来是线性的（在大于 $0$ 的部分），这个函数其实是非线性函数，它可导，因此可以用于反向传播算法。它的不足在于当输入趋近于零或为负时，函数的梯度变为零，网络无法执行反向传播，无法学习。

Leaky ReLU

Leaky ReLU函数式 ReLU函数的特殊化，就如同名称中的 Leaky（漏水）那样，如图所示，当 $x \lt 0$ 时，其函数值不再等于 $0$，而是有一个小小的坡度（水可以沿着斜坡流下去）。

函数式：$f(x)=a=max(0.01x, x)$
导数：$f’(x)=\begin{cases}0.01,\quad &(x\lt 0)\1, \quad &(x\ge 0)\end{cases}$
值域：$(0.01, +\infty)$

Leaky ReLU函数相对于ReLU函数而言，变化的主要是 $x \lt 0$ 区域，其值不再是一个固定数值，导数也不为0了，于是就可以应用于反向传播算法。也是因为这个修正，使得Leaky ReLU函数不再针对输入值小于零的时候有固定的值了，从而会导致正向传播的时候，如果学习率设置的比较大，会出现较大数量的神经元未激活现象，真乃“成也萧何败萧何”。

Leaky ReLU函数的这种思想，还可以进一步扩展，比如不将 $x$ 与常数项相乘，可以将其与超参数相乘，所得到的的函数称为“参数ReLU”函数。