Merge pull request lartpang#5 from LarT2P/master

更改部分内容
WAMAWAMA · Nov 2, 2018 · 220ad90 · 220ad90
2 parents ba0e043 + dd1dcc6
commit 220ad90
Show file tree

Hide file tree

Showing 45 changed files with 1,408 additions and 143 deletions.
diff --git a/Net-Paper/AlexNet总结(2012).md b/Net-Paper/AlexNet总结(2012).md
@@ -99,7 +99,9 @@ $a^{i}_{(x,y)}$表示在这个输出结构(输出的feature map)中的一个位
 
 论文公式中的**N表示通道数(channel)**。
 
-**$a,n/2,k,α,β$分别表示函数中的input, depth_radius, bias, alpha, beta**，其中$n/2,k,α,β$都是自定义的，特别注意一下$∑$叠加的方向是沿着通道方向的，即每个点值的平方和是沿着feature map的中对应第a批数据的结果的三个维度中的channel方向的，也就是**一个点同channel方向的前面n/2个通道（最小为第0个通道）和后n/2个通道（最大为第d-1个通道）的点的平方和(共n+1个点)**。
+**$a,n/2,k,α,β$分别表示函数中的input, depth_radius, bias, alpha, beta**，其中$n/2,k,α,β$都是自定义的，特别注意一下$∑$叠加的方向是沿着通道方向的，即每个点值的平方和是沿着feature map的中对应第a批数据的结果的三个维度中的channel方向的，也就是**一个点同channel方向的前面n/2个通道（最小为第0个通道）和后n/2个通道（最大为第d-1个通道）的点的平方和(共n+1个点)**。
+
+> 这个公式作用的结果就是导致: 若是当前通道的值偏大, 那么就会相对的减弱相邻通道的值的大小. 大值会抑制相邻通道的结果.
 
 ![1537589241131](../assets/1537589241131.png)
 
@@ -140,6 +142,18 @@ $26/(0+1*(25^2+26^2+27^2+28^2))^1$
 
 这是我们的网络里使用的参数，s=2, z=3。这个机制减小了top1错误率0.4%，top5错误率0.3%，和不重叠机制s=2,z=2比较起来,它**减小了等效面积的输出**。我们观察并发现，在训练有重叠池化的模型时, 不易过拟合。
 
+### 分组卷积
+
+群卷积最早出现于AlexNet中。是为了解决显存不够的问题，将网络部署在两张GTX 580显卡上训练，Alex认为group conv的方式能够增加 filter之间的对角相关性，而且能够减少训练参数，不容易过拟合，这类似于正则的效果。
+
+我们假设上一层的输出feature map有N个，即通道数channel=N，也就是说上一层有N个卷积核。再假设群卷积的群数目M。那么该群卷积层的操作就是，先将channel分成M份。每一个group对应N/M个channel，与之独立连接。然后各个group卷积完成后将输出叠在一起（concatenate），作为这一层的输出channel。
+
+> https://blog.csdn.net/hhy_csdn/article/details/80030468 
+>
+> https://www.leiphone.com/news/201709/AzBc9Sg44fs57hyY.html
+>
+> [变形卷积核、可分离卷积？卷积神经网络中十大拍案叫绝的操作。 - 知乎](https://zhuanlan.zhihu.com/p/28749411)
+
 ## 整体架构
 
 ![1537580096580](../assets/1537580096580.png)
@@ -207,7 +221,9 @@ $26/(0+1*(25^2+26^2+27^2+28^2))^1$
 
 ### 细节
 
-我们用随机梯度下降来训练模型，每一个批量有128个样本，动量为0.9，权值衰减为0.0005。我们发现小权值衰减对模型的训练是很重要的。也就是说，**权值衰减在模型中不单单起到正则化作用；它还协助降低模型的训练错误率**。
+我们用随机梯度下降来训练模型，每一个批量有128个样本，动量为0.9，权值衰减为0.0005。
+
+我们发现小权值衰减对模型的训练是很重要的。也就是说，**权值衰减在模型中不单单起到正则化作用；它还协助降低模型的训练错误率**。
 
 权重的更新方法如下：![\begin{equation} v_{i+1} := 0.9\cdot v_{i}-0.0005\cdot\epsilon \cdot w_{i}-\epsilon\cdot\left< \frac{\partial L}{\partial w}|_{w_{i}} \right>_{D_{i}} \end{equation}](https://www.zhihu.com/equation?tex=%5Cbegin%7Bequation%7D+v_%7Bi%2B1%7D+%3A%3D+0.9%5Ccdot+v_%7Bi%7D-0.0005%5Ccdot%5Cepsilon+%5Ccdot+w_%7Bi%7D-%5Cepsilon%5Ccdot%5Cleft%3C+%5Cfrac%7B%5Cpartial+L%7D%7B%5Cpartial+w%7D%7C_%7Bw_%7Bi%7D%7D+%5Cright%3E_%7BD_%7Bi%7D%7D+%5Cend%7Bequation%7D)![\begin{equation} w_{i+1} := w_i + v_{i+1} \end{equation}](https://www.zhihu.com/equation?tex=%5Cbegin%7Bequation%7D+w_%7Bi%2B1%7D+%3A%3D+w_i+%2B+v_%7Bi%2B1%7D+%5Cend%7Bequation%7D)
 

diff --git a/Net-Paper/InceptionV2总结(2015).md → Net-Paper/BN-GoogLeNet总结(2015).md b/Net-Paper/InceptionV2总结(2015).md → Net-Paper/BN-GoogLeNet总结(2015).md
@@ -1,4 +1,4 @@
-# Inception V2
+# BN-GoogLeNet
 
 ## 前言
 
@@ -37,7 +37,7 @@ Batch-normalized层归一化计算图层输出处所有特征图的平均值和
 
 ### 直接使用SGD存在的问题
 
-使用SGD,训练将逐步进行,在每一步中,我们考虑一个大小为m的*小批量数据*$x_{1…m}$。通过计算$1/m∑_{m_i=1}∂ℓ(xi,Θ)/∂Θ$,使用小批量数据来近似损失函数关于参数的梯度。
+使用SGD,训练将逐步进行,在每一步中,我们考虑一个大小为m的*小批量数据*$x_{1…m}$。通过计算$1/m∑_{m_i=1}∂ℓ(xi,Θ)/∂Θ$,使用小批量数据来近似损失函数关于参数的梯度。
 
 使用小批量样本,而不是一次一个样本,在一些方面是有帮助的。
 

diff --git a/Net-Paper/GoogLeNet(InceptionV1)总结(2014).md b/Net-Paper/GoogLeNet(InceptionV1)总结(2014).md
@@ -54,6 +54,8 @@ Christian在思**考如何才能够减少深度神经网络的计算量，同时
 
 这些分类器采用较小卷积网络的形式，放置在Inception (4a)和Inception (4b)模块的输出之上。在训练期间，它们的损失以折扣权重（辅助分类器损失的权重是0.3）加到网络的整个损失上。在推断时，这些辅助网络被丢弃。后面的控制实验表明**辅助网络的影响相对较小（约0.5），只需要其中一个就能取得同样的效果**。
 
+> 可以在前面的几个层得到更多的梯度训练。这些辅助分类输出，并不是为了让类获得更好的分类性能所需要的，这是一种可以将额外的梯度直接注入到网络下层的方法，这是在批量标准化出现之前。一旦网络有了BN，就不需要这样技巧来让这些深层的模型收敛。
+
 ## 构思
 
 提高深度神经网络性能**最直接的方式是增加它们的尺寸**。这不仅包括增加深度——网络层次的数目——也包括它的宽度：每一层的单元数目。这是一种训练更高质量模型容易且安全的方法，尤其是在可获得大量标注的训练数据的情况下。但是这个简单方案有两个主要的缺点。