Skip to content

Commit

Permalink
13.4 is okay
Browse files Browse the repository at this point in the history
Former-commit-id: 508ab7270ac031e59be0550fad3167a2db145e93
  • Loading branch information
futianfan committed Jan 24, 2017
1 parent d3c7bec commit 3d5f08c
Show file tree
Hide file tree
Showing 2 changed files with 50 additions and 39 deletions.
79 changes: 40 additions & 39 deletions Chapter13/linear_factor_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -300,12 +300,12 @@ \section{\glsentrytext{sparse_coding}}
% 486


\firstgls{sparse_coding}\citep{Olshausen+Field-1996}是一个\gls{linear_factor},已作为\gls{unsupervised}特征学习和特征提取机制进行了大量研究
严格地说,术语``\gls{sparse_coding}''是指在该模型中推断$\Vh$的值的过程,而``稀疏建模''是指设计和学习模型的过程,但是通常这两个概念都可以用术语``\gls{sparse_coding}''描述。
\firstgls{sparse_coding}~\citep{Olshausen+Field-1996}是一个\gls{linear_factor},已作为一种\gls{unsupervised}特征学习和特征提取机制得到了广泛研究
严格地说,术语``\gls{sparse_coding}''是指在该模型中推断$\Vh$值的过程,而``稀疏建模''是指设计和学习模型的过程,但是通常这两个概念都可以用术语``\gls{sparse_coding}''描述。
% 486

像其他的\gls{linear_factor}一样,它使用了线性的\gls{decoder}加上噪音的方式获得一个$\Vx$的重构,就像\eqnref{eqn:132}描述的一样。
更具体的说\gls{sparse_coding}模型通常假设线性因子有一个各向同性的精度为$\beta$的高斯噪音:
像大多数其他\gls{linear_factor}一样,它使用了线性的\gls{decoder}加上噪音的方式获得一个$\Vx$的重构,就像\eqnref{eqn:132}描述的一样。
更具体地说\gls{sparse_coding}模型通常假设线性因子有一个各向同性的精度为$\beta$的高斯噪音:
\begin{align}
\label{eqn:1312}
p(\Vx\mid \Vh) = \CalN
Expand All @@ -314,7 +314,7 @@ \section{\glsentrytext{sparse_coding}}
% 486


关于$p(\Vh)$分布通常选择一个峰值很尖锐且接近$0$的分布\citep{Olshausen+Field-1996}。
关于$p(\Vh)$分布通常选择一个峰值很尖锐且接近$0$的分布~\citep{Olshausen+Field-1996}。
常见的选择包括了可分解的Laplace,Cauchy或者可分解的Student-t分布。
例如,以稀疏惩罚系数$\lambda$为参数的Laplace先验可以表示为
\begin{align}
Expand All @@ -328,9 +328,9 @@ \section{\glsentrytext{sparse_coding}}
\end{align}
% 487 head

使用\gls{MLE}的方法来训练\gls{sparse_coding}模型是不可行的。
使用\gls{maximum_likelihood}的方法来训练\gls{sparse_coding}模型是不可行的。
相反,为了在给定编码的情况下更好地重建数据,训练过程在编码数据和训练\gls{decoder}之间交替进行。
稍后在\secref{sec:map_inference_and_sparse_coding}中,这种方法将被进一步证明为解决似然最大化问题的一种通用的近似方法
稍后在\secref{sec:map_inference_and_sparse_coding}中,这种方法将被进一步证明为解决\gls{maximum_likelihood}问题的一种通用的近似方法
% 487

对于诸如\glssymbol{PCA}的模型,我们已经看到使用了预测$\Vh$的参数化的\gls{encoder}函数,并且该函数仅包括乘以权重矩阵。
Expand All @@ -353,49 +353,50 @@ \section{\glsentrytext{sparse_coding}}
其中,我们扔掉了与$\Vh$无关的项,除以一个正的伸缩因子来简化表达。
% 487

由于在$\Vh$上施加$L^1$范数,这个过程将产生稀疏的$\Vh^*$\secref{sec:l1_regularization})。
由于在$\Vh$上施加$L^1$范数,这个过程将产生稀疏的$\Vh^*$详见\secref{sec:l1_regularization})。
% 487


为了训练模型而不仅仅是进行推断,我们交替迭代关于$\Vh$$\MW$的最小化过程。
在本文中,我们将$\beta$视为超参数。
通常将其设置为$1$因为其在此优化问题中的作用与$\lambda$类似,没有必要使用两个超参数。
通常将其设置为$1$因为其在此优化问题中$\lambda$的作用类似,没有必要使用两个超参数。
原则上,我们还可以将$\beta$作为模型的参数,并学习它。
我们在这里已经放弃了一些不依赖于$\Vh$但依赖于$\beta$的项。
要学习$\beta$,必须包含这些项,否则$\beta$将退化为$0$
% 487


不是所有的\gls{sparse_coding}方法都显式地构建了$p(\Vh)$$p(\Vx\mid\Vh)$
通常我们只是对学习一个带有激活值的特征的字典感兴趣,当使用这个推断过程时,这个激活值通常为$0$
不是所有的\gls{sparse_coding}方法都显式地构建了一个$p(\Vh)$和一个$p(\Vx\mid\Vh)$
通常我们只是对学习一个带有激活值的特征的字典感兴趣,当特征是由这个推断过程提取时,这个激活值通常为$0$
% 487 end

如果我们从Laplace先验中采样$\Vh$$\Vh$的元素实际上为零是一个零概率事件
\gls{generative_model}本身并不稀疏,只有特征提取器是
\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}描述了不同模型族中的近似推断,和\gls{ss}\gls{sparse_coding}模型,其中先验的样本通常包含许多0
如果我们从Laplace先验中采样$\Vh$$\Vh$的元素实际上为$0$是一个零概率事件
\gls{generative_model}本身并不稀疏,只有\gls{feature_extractor}是
\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}描述了不同模型族中的近似推断,和\gls{ss}\gls{sparse_coding}模型,其中先验的样本通常包含许多$0$
% 488 head

与非参数化\gls{encoder}结合的\gls{sparse_coding}方法原则上可以比任何特定的参数化\gls{encoder}更好地最小化重构误差和对数先验的组合。
另一个优点是\gls{encoder}没有泛化误差
与非参数\gls{encoder}结合的\gls{sparse_coding}方法原则上可以比任何特定的参数化\gls{encoder}更好地最小化重构误差和对数先验的组合。
另一个优点是\gls{encoder}没有\gls{generalization_error}
参数化的\gls{encoder}必须泛化地学习如何将$\Vx$映射到$\Vh$
对于与训练数据差异很大的异常的$\Vx$所学习的参数化的\gls{encoder}可能无法找到对应精确重建的$\Vh$或稀疏的编码。
对于\gls{sparse_coding}模型的绝大多数形式,推断问题是凸的,优化过程将总是找到最优值(除非出现退化的情况,例如重复的权重向量)。
对于与训练数据差异很大的异常$\Vx$所学习的参数化\gls{encoder}可能无法找到对应精确重建的$\Vh$或稀疏的编码。
对于\gls{sparse_coding}模型的绝大多数形式,推断问题是凸的,优化过程将总是找到最优编码(除非出现退化的情况,例如重复的权重向量)。
显然,稀疏和重构成本仍然可以在不熟悉的点上升,但这归因于\gls{decoder}权重中的\gls{generalization_error},而不是\gls{encoder}中的\gls{generalization_error}。
\gls{sparse_coding}用作分类器的特征提取器时,而不是使用参数化的函数来预测时,基于优化的\gls{sparse_coding}模型的编码过程中\gls{generalization_error}的减小可导致更好的泛化能力
\citet{Coates2011b}证明了在对象识别任务中\gls{sparse_coding}特征比基于参数化的\gls{encoder}(如线性\gls{sigmoid}\gls{AE})的特征拥有更好的泛化能力。
受他们的工作启发,\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}表明\gls{sparse_coding}的变体在其中极少标签(每类20个或更少标签)的情况中比其他特征提取器拥有更好的泛化能力
\gls{sparse_coding}用作分类器的\gls{feature_extractor}时,而不是使用参数化的函数来预测编码值时,基于优化的\gls{sparse_coding}模型的编码过程中较小的\gls{generalization_error}可导致更好的泛化能力
\citet{Coates2011b}证明了在\gls{object_recognition}任务中\gls{sparse_coding}特征比基于参数化的\gls{encoder}(线性-\gls{sigmoid}\gls{AE})的特征拥有更好的泛化能力。
受他们的工作启发,\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}表明一种\gls{sparse_coding}的变体在其中极少标签(每类20个或更少标签)的情况中比相同情况下的其他\gls{feature_extractor}拥有更好的泛化能力
% 488



非参数\gls{encoder}的主要缺点是在给定$\Vx$的情况下需要大量的时间来计算$\Vh$,因为非参数方法需要运行迭代算法。
\chapref{chap:autoencoders}中讲到的参数化的\gls{AE}方法仅使用固定数量的层,通常只有一层。
另一个缺点是它不直接通过非参数\gls{encoder}进行反向传播,这使得我们很难采用先使用\gls{unsupervised}方式预训练\gls{sparse_coding}模型然后使用\gls{supervised}方式对其进行微调的方法
允许近似导数的\gls{sparse_coding}模型的修改版本确实存在但未被广泛使用\citep{Bradley+Bagnell-2009-small}。
\chapref{chap:autoencoders}中讲到的参数化\gls{AE}方法仅使用固定数量的层,通常只有一层。
另一个缺点是它不直接通过非参数\gls{encoder}进行\gls{back_propagate},这使得我们很难采用先使用\gls{unsupervised}方式\gls{pretraining}\gls{sparse_coding}模型然后使用\gls{supervised}方式对其进行\gls{fine_tuning}的方法
允许近似导数的\gls{sparse_coding}模型的修改版本确实存在但未被广泛使用~\citep{Bradley+Bagnell-2009-small}。
% 488 end

像其他\gls{linear_factor}一样,\gls{sparse_coding}经常产生糟糕的样本,如\figref{fig:s3c_samples}所示。
即使当模型能够很好地重构数据并为分类器提供有用的特征时,也会发生这种情况。
<bad>这种现象原因是每个单独的特征可以很好地被学习到,但是隐含结点\gls{factorial}先验会导致模型包括每个生成的样本中的所有特征的随机子集
<bad>这种现象原因是每个单独的特征可以很好地被学习到,但是隐含编码值的\gls{factorial}先验会导致模型包括每个生成的样本中所有特征的随机子集
这促使人们在深度模型中的最深层以及一些复杂成熟的浅层模型上施加一个非\gls{factorial}分布。

\begin{figure}[!htb]
Expand All @@ -405,18 +406,18 @@ \section{\glsentrytext{sparse_coding}}
\centerline{\includegraphics[width=\figwidth]{Chapter13/figures/s3c_samples}}
\fi
\caption{\gls{ss}\gls{sparse_coding}模型上在MNIST数据集训练的样例和权重。
(左)这个模型中的样本和训练样本相差很大。
第一眼看来,我们可以认为模型拟合得很差。
(右)这个模型的权重向量已经学习到了如何表示笔迹,有时候还能写完整的数字。
因此这个模型也学习到了有用的特征。
问题在于特征的\gls{factorial}先验会导致特征子集合随机的组合。
一些这样的子集能够合成可识别的MNIST集上的数字。
这也促进了拥有更强大的\gls{latent}编码的\gls{generative_model}的发展。
此图是从\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}中拷贝来的,并获得允许。}
\label{fig:s3c_samples}
(左)这个模型中的样本和训练样本相差很大。
第一眼看来,我们可以认为模型拟合得很差。
(右)这个模型的权重向量已经学习到了如何表示笔迹,有时候还能写完整的数字。
因此这个模型也学习到了有用的特征。
问题在于特征的\gls{factorial}先验会导致特征子集合随机的组合。
一些这样的子集能够合成可识别的MNIST集上的数字。
这也促进了拥有更强大\gls{latent}编码分布的\gls{generative_model}的发展。
此图是从\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}中拷贝来的,并获得允许。}
\label{fig:s3c_samples}
\end{figure}

这促进了更深层模型的发展,可以在最深层上施加non-factorial分布,以及开发更复杂的浅层模型。
%这促进了更深层模型的发展,可以在最深层上施加non-factorial分布,以及开发更复杂的浅层模型。
% 489 head


Expand All @@ -438,10 +439,10 @@ \section{\glssymbol{PCA}的\glsentrytext{manifold}解释}
\else
\centerline{\includegraphics{Chapter13/figures/PPCA_pancake_color}}
\fi
\caption{平坦的高斯能够描述一个低维\gls{manifold}附近的概率密度。
此图表示了``\gls{manifold}平面''上的``馅饼''的上半部分并且穿过了它的中心。
正交于\gls{manifold}方向(指出平面的箭头)的方差非常小,可以被视作是``噪音'',其他方向(平面内的箭头)的方差则很大,对应了``信号''以及低维数据的坐标系统。}
\label{fig:PPCA_pancake}
\caption{平坦的高斯能够描述一个低维\gls{manifold}附近的概率密度。
此图表示了``\gls{manifold}平面''上的``馅饼''的上半部分并且穿过了它的中心。
正交于\gls{manifold}方向(指出平面的箭头)的方差非常小,可以被视作是``噪音'',其他方向(平面内的箭头)的方差则很大,对应了``信号''以及低维数据的坐标系统。}
\label{fig:PPCA_pancake}
\end{figure}


Expand Down
10 changes: 10 additions & 0 deletions terminology.tex
Original file line number Diff line number Diff line change
Expand Up @@ -3282,6 +3282,16 @@
sort={back propagation},
}


\newglossaryentry{back_propagate}
{
name=反向传播,
description={back propagate},
sort={back propagate},
}



\newglossaryentry{BP}
{
name=反向传播,
Expand Down

0 comments on commit 3d5f08c

Please sign in to comment.