Skip to content

Commit

Permalink
Merge pull request lartpang#5 from LarT2P/master
Browse files Browse the repository at this point in the history
更改部分内容
  • Loading branch information
lartpang committed Nov 2, 2018
2 parents ba0e043 + dd1dcc6 commit 220ad90
Show file tree
Hide file tree
Showing 45 changed files with 1,408 additions and 143 deletions.
20 changes: 18 additions & 2 deletions Net-Paper/AlexNet总结(2012).md
Original file line number Diff line number Diff line change
Expand Up @@ -99,7 +99,9 @@ $a^{i}_{(x,y)}$表示在这个输出结构(输出的feature map)中的一个位

论文公式中的**N表示通道数(channel)**

**$a,n/2,k,α,β​$分别表示函数中的input, depth_radius, bias, alpha, beta**,其中$n/2,k,α,β​$都是自定义的,特别注意一下$∑​$叠加的方向是沿着通道方向的,即每个点值的平方和是沿着feature map的中对应第a批数据的结果的三个维度中的channel方向的,也就是**一个点同channel方向的前面n/2个通道(最小为第0个通道)和后n/2个通道(最大为第d-1个通道)的点的平方和(共n+1个点)**
**$a,n/2,k,α,β$分别表示函数中的input, depth_radius, bias, alpha, beta**,其中$n/2,k,α,β$都是自定义的,特别注意一下$∑$叠加的方向是沿着通道方向的,即每个点值的平方和是沿着feature map的中对应第a批数据的结果的三个维度中的channel方向的,也就是**一个点同channel方向的前面n/2个通道(最小为第0个通道)和后n/2个通道(最大为第d-1个通道)的点的平方和(共n+1个点)**

> 这个公式作用的结果就是导致: 若是当前通道的值偏大, 那么就会相对的减弱相邻通道的值的大小. 大值会抑制相邻通道的结果.
![1537589241131](../assets/1537589241131.png)

Expand Down Expand Up @@ -140,6 +142,18 @@ $26/(0+1*(25^2+26^2+27^2+28^2))^1$
这是我们的网络里使用的参数,s=2, z=3。这个机制减小了top1错误率0.4%,top5错误率0.3%,和不重叠机制s=2,z=2比较起来,它**减小了等效面积的输出**。我们观察并发现,在训练有重叠池化的模型时, 不易过拟合。

### 分组卷积

群卷积最早出现于AlexNet中。是为了解决显存不够的问题,将网络部署在两张GTX 580显卡上训练,Alex认为group conv的方式能够增加 filter之间的对角相关性,而且能够减少训练参数,不容易过拟合,这类似于正则的效果。

我们假设上一层的输出feature map有N个,即通道数channel=N,也就是说上一层有N个卷积核。再假设群卷积的群数目M。那么该群卷积层的操作就是,先将channel分成M份。每一个group对应N/M个channel,与之独立连接。然后各个group卷积完成后将输出叠在一起(concatenate),作为这一层的输出channel。

> https://blog.csdn.net/hhy_csdn/article/details/80030468
>
> https://www.leiphone.com/news/201709/AzBc9Sg44fs57hyY.html
>
> [变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作。 - 知乎](https://zhuanlan.zhihu.com/p/28749411)
## 整体架构

![1537580096580](../assets/1537580096580.png)
Expand Down Expand Up @@ -207,7 +221,9 @@ $26/(0+1*(25^2+26^2+27^2+28^2))^1$

### 细节

我们用随机梯度下降来训练模型,每一个批量有128个样本,动量为0.9,权值衰减为0.0005。我们发现小权值衰减对模型的训练是很重要的。也就是说,**权值衰减在模型中不单单起到正则化作用;它还协助降低模型的训练错误率**
我们用随机梯度下降来训练模型,每一个批量有128个样本,动量为0.9,权值衰减为0.0005。

我们发现小权值衰减对模型的训练是很重要的。也就是说,**权值衰减在模型中不单单起到正则化作用;它还协助降低模型的训练错误率**

权重的更新方法如下:![\begin{equation} v_{i+1} := 0.9\cdot v_{i}-0.0005\cdot\epsilon \cdot w_{i}-\epsilon\cdot\left< \frac{\partial L}{\partial w}|_{w_{i}} \right>_{D_{i}} \end{equation}](https://www.zhihu.com/equation?tex=%5Cbegin%7Bequation%7D+v_%7Bi%2B1%7D+%3A%3D+0.9%5Ccdot+v_%7Bi%7D-0.0005%5Ccdot%5Cepsilon+%5Ccdot+w_%7Bi%7D-%5Cepsilon%5Ccdot%5Cleft%3C+%5Cfrac%7B%5Cpartial+L%7D%7B%5Cpartial+w%7D%7C_%7Bw_%7Bi%7D%7D+%5Cright%3E_%7BD_%7Bi%7D%7D+%5Cend%7Bequation%7D)![\begin{equation} w_{i+1} := w_i + v_{i+1} \end{equation}](https://www.zhihu.com/equation?tex=%5Cbegin%7Bequation%7D+w_%7Bi%2B1%7D+%3A%3D+w_i+%2B+v_%7Bi%2B1%7D+%5Cend%7Bequation%7D)

Expand Down
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# Inception V2
# BN-GoogLeNet

## 前言

Expand Down Expand Up @@ -37,7 +37,7 @@ Batch-normalized层归一化计算图层输出处所有特征图的平均值和

### 直接使用SGD存在的问题

使用SGD,训练将逐步进行,在每一步中,我们考虑一个大小为m的*小批量数据*$x_{1…m}$。通过计算$1/m∑_{m_i=1}∂ℓ(xi,Θ)/∂Θ$,使用小批量数据来近似损失函数关于参数的梯度。
使用SGD,训练将逐步进行,在每一步中,我们考虑一个大小为m的*小批量数据*$x_{1…m}$。通过计算$1/m∑_{m_i=1}∂ℓ(xi,Θ)/∂Θ$,使用小批量数据来近似损失函数关于参数的梯度。

使用小批量样本,而不是一次一个样本,在一些方面是有帮助的。

Expand Down
2 changes: 2 additions & 0 deletions Net-Paper/GoogLeNet(InceptionV1)总结(2014).md
Original file line number Diff line number Diff line change
Expand Up @@ -54,6 +54,8 @@ Christian在思**考如何才能够减少深度神经网络的计算量,同时

这些分类器采用较小卷积网络的形式,放置在Inception (4a)和Inception (4b)模块的输出之上。在训练期间,它们的损失以折扣权重(辅助分类器损失的权重是0.3)加到网络的整个损失上。在推断时,这些辅助网络被丢弃。后面的控制实验表明**辅助网络的影响相对较小(约0.5),只需要其中一个就能取得同样的效果**

> 可以在前面的几个层得到更多的梯度训练。这些辅助分类输出,并不是为了让类获得更好的分类性能所需要的,这是一种可以将额外的梯度直接注入到网络下层的方法,这是在批量标准化出现之前。一旦网络有了BN,就不需要这样技巧来让这些深层的模型收敛。
## 构思

提高深度神经网络性能**最直接的方式是增加它们的尺寸**。这不仅包括增加深度——网络层次的数目——也包括它的宽度:每一层的单元数目。这是一种训练更高质量模型容易且安全的方法,尤其是在可获得大量标注的训练数据的情况下。但是这个简单方案有两个主要的缺点。
Expand Down
Loading

0 comments on commit 220ad90

Please sign in to comment.