Skip to content

Commit

Permalink
Update 深度学习面试题.md
Browse files Browse the repository at this point in the history
  • Loading branch information
HarleysZhang committed Jul 15, 2019
1 parent 9861cec commit 001c482
Showing 1 changed file with 4 additions and 4 deletions.
8 changes: 4 additions & 4 deletions 深度学习面试题.md
Original file line number Diff line number Diff line change
Expand Up @@ -123,10 +123,10 @@ ReLU激活函数公式如下:
relu函数方程
ReLU 的输出要么是 0, 要么是输入本身。虽然方程简单,但实际上效果更好。在网上看了很多版本的解释,有从程序实例分析也有从数学上分析,我找了个相对比较直白的回答,如下:

(1). ReLU函数计算简单,可以减少很多计算量。反向传播求误差梯度时,涉及除法,计算量相对较大,采用ReLU激活函数,可以节省很多计算量;
(2). **避免梯度消失问题**。对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失问题(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失),从而无法完成深层网络的训练。
(3). 可以缓解过拟合问题的发生。Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
(4). 相比`sigmoid`型函数,`ReLU`函数有助于随机梯度下降方法收敛。
1. ReLU函数计算简单,可以减少很多计算量。反向传播求误差梯度时,涉及除法,计算量相对较大,采用ReLU激活函数,可以节省很多计算量;
2. **避免梯度消失问题**。对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失问题(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失),从而无法完成深层网络的训练。
3. 可以缓解过拟合问题的发生。Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
4. 相比`sigmoid`型函数,`ReLU`函数有助于随机梯度下降方法收敛。

#### 参考链接
[ReLU为什么比Sigmoid效果好](https://www.twblogs.net/a/5c2dd30fbd9eee35b21c4337/zh-cn)
Expand Down

0 comments on commit 001c482

Please sign in to comment.