13.0 13.1 13.2 are okay

Former-commit-id: 561e07ed62dd10b1b0401184e791671b3d0c123f
DMSGUO · Jan 23, 2017 · c4da083 · c4da083
1 parent be75b4b
commit c4da083
Show file tree

Hide file tree

Showing 2 changed files with 66 additions and 50 deletions.
diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -10,12 +10,12 @@ \chapter{\glsentrytext{linear_factor}}
 原则上说，给定任何其他变量的情况下，这样的模型可以使用概率推断来预测其环境中的任何变量。
 许多这样的模型还具有\gls{latent_variable} $\Vh$，其中$p_{\text{model}}(\Vx) = \SetE_{\Vh} p_{\text{model}}(\Vx\mid\Vh)$。
 这些\gls{latent_variable}提供了表示数据的另一种方式。
- 基于\gls{latent_variable}的分布式表示可以有很多优点，这些我们在\gls{deep_feedforward_network}和\gls{RNN}中已经发现。
+我们在\gls{deep_feedforward_network}和\gls{recurrent_network}中已经发现，基于\gls{latent_variable}的分布式表示继承了\gls{representation_learning}的所有优点。
 % 479
 
 
 在本章中，我们描述了一些带有\gls{latent_variable}的最简单的概率模型：\firstgls{linear_factor}。
-这些模型有时被用来构建混合块模型\citep{Hinton-nips95,ghahramani96em,Roweis+Saul+Hinton-2002}或者更大的深度概率模型\citep{tang2012deep}。
+这些模型有时被用来构建混合块模型~\citep{Hinton-nips95,ghahramani96em,Roweis+Saul+Hinton-2002}或者更大的深度概率模型~\citep{tang2012deep}。
 他们还展示了构建\gls{generative_model}所需的许多基本方法，更先进的深层模型也将在此基础上进一步扩展。
 % 479
 
@@ -25,12 +25,12 @@ \chapter{\glsentrytext{linear_factor}}
 
 
 这些模型很有趣，因为它们使得我们能够发现一些拥有简单联合分布的解释性因子。 
-<bad>线性\gls{decoder}的简单性使得这些对\gls{latent_variable}建模的模型能够被广泛研究。
+线性\gls{decoder}的简单性使得它们成为了最早被广泛研究的对\gls{latent_variable}建模的模型。
 % 479
 
 
 \gls{linear_factor}描述如下的数据生成过程。 
-首先，我们从一个分布中抽取解释性因子
+首先，我们从一个分布中抽取解释性因子$\Vh$
 \begin{align}
 \label{eqn:131}
 \RVh \sim p(\Vh),
@@ -51,31 +51,31 @@ \chapter{\glsentrytext{linear_factor}}
 \else
 	\centerline{\includegraphics{Chapter13/figures/linear_factors}}
 \fi
-    \caption{描述\gls{linear_factor}族的\gls{directed_graphical_model}，其中我们假设一个观察到的数据向量$\Vx$是通过独立的\gls{latent}因子$\Vh$的线性组合获得的，加上一定的噪音。
-		不同的模型，比如\gls{PPCA}，\gls{FA}或者是\glssymbol{ICA}，都是选择了不同形式的噪音以及先验$p(\Vh)$。}
-	\label{fig:linear_factors}
+\caption{描述\gls{linear_factor}族的\gls{directed_graphical_model}，其中我们假设一个观察到的数据向量$\Vx$是通过独立的\gls{latent}因子$\Vh$的线性组合再加上一定的噪音获得的。
+不同的模型，比如\gls{PPCA}，\gls{FA}或者是\glssymbol{ICA}，都是选择了不同形式的噪音以及先验$p(\Vh)$。}
+\label{fig:linear_factors}
 \end{figure}
 
 
 \section{\glsentrytext{PPCA}和\glsentrytext{FA}}
 \label{sec:probabilistic_PCA_and_factor_analysis}
 % 480
 
-\firstgls{PPCA}，\gls{FA}和其他\gls{linear_factor}是上述等式（\eqnref{eqn:131},\eqnref{eqn:132}）的特殊情况，并且仅在对观测到$\Vx$之前的噪声分布和\gls{latent_variable} $\Vh$的先验的选择上不同。
+\firstgls{PPCA}，\gls{FA}和其他\gls{linear_factor}是上述等式（\eqnref{eqn:131},\eqnref{eqn:132}）的特殊情况，并且仅在对观测到$\Vx$之前的噪声分布和\gls{latent_variable} $\Vh$先验的选择上有所不同。
 % 480
 
-\firstgls{FA}\citep{Bartholomew-1987,Basilevsky94}中，\gls{latent_variable}的先验是一个方差为单位矩阵的\gls{gaussian_distribution}
+\firstgls{FA}~\citep{Bartholomew-1987,Basilevsky94}中，\gls{latent_variable}的先验是一个方差为单位矩阵的\gls{gaussian_distribution}
 \begin{align}
 \label{eqn:133}
 \RVh \sim \CalN(\Vh; \mathbf{0},\MI),
 \end{align}
-同时，假定观察值$x_i$在给定$\Vh$的条件下是\gls{conditional_independent}的。
-具体的说，噪声可以被假设为是从对角的协方差矩阵的高斯分布中抽出的，\gls{covariance_matrix}为$\Vpsi = \text{diag}(\Vsigma^2)$，其中$\Vsigma^2 = [\sigma_1^2,\sigma_2^2,\ldots,\sigma_n^2]^{\top}$表示一个向量。
+同时，假定观察值$x_i$在给定$\Vh$的条件下是\firstgls{conditional_independent}的。
+具体的说，噪声可以被假设为是从对角协方差矩阵的高斯分布中抽出的，\gls{covariance_matrix}为$\Vpsi = \text{diag}(\Vsigma^2)$，其中$\Vsigma^2 = [\sigma_1^2,\sigma_2^2,\ldots,\sigma_n^2]^{\top}$表示一个向量，每个元素表示一个变量的方差。
 % 480
 
 
-因此，\gls{latent_variable}的作用是捕获不同观测变量$x_i$之间的依赖关系。
-实际上，可以容易地看出$\Vx$是多变量正态分布，并满足
+因此，\gls{latent_variable}的作用是\emph{捕获}不同观测变量$x_i$之间的\emph{依赖关系}。
+实际上，可以容易地看出$\Vx$服从\gls{multivariate_normal_distribution}，并满足
 \begin{align}
 \label{eqn:134}
 \RVx \sim \CalN(\Vx; \Vb, \MW\MW^{\top}+\Vpsi).
@@ -86,7 +86,7 @@ \section{\glsentrytext{PPCA}和\glsentrytext{FA}}
 
 % 481 head
 为了将\glssymbol{PCA}引入到概率框架中，我们可以对\gls{FA}模型进行轻微修改，使条件方差$\sigma_i^2$等于同一个值。
-在这种情况下，$\Vx$的协方差是$\MW\MW^{\top}+\sigma^2\MI$，这里的$\sigma^2$是一个标量。
+在这种情况下，$\Vx$的协方差简化为$\MW\MW^{\top}+\sigma^2\MI$，这里的$\sigma^2$是一个标量。
 由此可以得到条件分布，如下：
 \begin{align}
 \label{eqn:135}
@@ -102,12 +102,12 @@ \section{\glsentrytext{PPCA}和\glsentrytext{FA}}
 % 481
 
 
-\gls{PPCA}模型利用了这样一种观察的现象：除了一些小的\gls{reconstruction_error} $\sigma^2$，数据中的大多数变化可以由\gls{latent_variable} $\Vh$描述。
-通过\citet{tipping99mixtures}的研究可以发现，当$\sigma \xrightarrow{} 0$的时候，\gls{PPCA}等价于\glssymbol{PCA}。
-在这种情况下，给定$\Vx$情况下的$\Vh$的条件期望等于将$\Vx - \Vb$投影到$\MW$的$d$列的生成空间，与\glssymbol{PCA}一样。
+这个\firstgls{PPCA}模型利用了这样一种观察到的现象：除了一些小且剩余的至多为$\sigma^2$的\firstgls{reconstruction_error} ，数据中的大多数变化可以由\gls{latent_variable} $\Vh$描述。
+通过\citet{tipping99mixtures}的研究可以发现，当$\sigma \xrightarrow{} 0$的时候，\gls{PPCA}退化为\glssymbol{PCA}。
+在这种情况下，给定$\Vx$情况下$\Vh$的条件期望等于将$\Vx - \Vb$投影到$\MW$的$d$列的生成空间，与\glssymbol{PCA}一样。
 % 481
 
-当$\sigma\xrightarrow{} 0$的时候，\gls{PPCA}所定义的密度函数在$\MW$的$d$维列生成空间周围非常尖锐。
+当$\sigma\xrightarrow{} 0$时， \gls{PPCA}所定义的密度函数在$\MW$的$d$维列生成空间周围非常尖锐。
 这导致模型会为没有在一个超空间附近聚集的数据分配非常低的概率
 %如果某些数据实际上没有集中在超平面附近，这会导致模型为数据分配非常低的可能性。
 % 481
@@ -118,76 +118,76 @@ \section{\glsentrytext{ICA}}
 % 481
 
 
-\firstall{ICA}是最古老的\gls{representation_learning}算法之一\citep{Herault+Ans-1984,Jutten+Herault-91,Comon94,Hyvarinen-1999,Hyvarinen-2001,Hinton-ICA-2001,Teh-2003}。
-它是一种建模线性因子的方法，旨在分离观察到的信号，并转换为许多基础信号的叠加。
+\firstall{ICA}是最古老的\gls{representation_learning}算法之一~\citep{Herault+Ans-1984,Jutten+Herault-91,Comon94,Hyvarinen-1999,Hyvarinen-2001,Hinton-ICA-2001,Teh-2003}。
+它是一种建模线性因子的方法，旨在将观察到的信号分离成许多潜在信号，这些潜在信号通过伸缩并叠加可以恢复成观察数据。
 这些信号是完全独立的，而不是仅仅彼此不相关\footnote{\secref{sec:expectation_variance_and_covariance}讨论了不相关变量和独立变量之间的差异。}。
 % 481
 
 
-许多不同的具体方法被称为\gls{ICA}。
-与我们本书中描述的其他\gls{generative_model}最相似的\gls{ICA}变种是训练完全参数化的\gls{generative_model}\citep{Pham-et-al-1992}。
-\gls{latent}因子$\Vh$的先验$p(\Vh)$，必须由用户给出并固定。
+许多不同的具体方法被称为\glssymbol{ICA}。
+与我们本书中描述的其他\gls{generative_model}最相似的\glssymbol{ICA}变种~\citep{Pham-et-al-1992}训练了完全参数化的\gls{generative_model}。
+\gls{latent}因子$\Vh$的先验$p(\Vh)$，必须由用户提前给出并固定。
 接着模型确定性地生成$\Vx = \MW \Vh$。
 我们可以通过非线性变化（使用\eqnref{eqn:3.47}）来确定$p(\Vx)$。
-然后通过一般的方法比如\gls{MLE}进行学习。
+然后通过一般的方法比如最大化似然进行学习。
 % 482 head
 
 
-这种方法的动机是，通过选择一个独立的$p(\Vh)$，我们可以尽可能恢复接近独立的\gls{latent}因子。
-这是一种常用的方法，它并不是用来捕捉高级别的抽象的因果因子，而是恢复已经混合在一起的低级别信号。
-在该设置中，每个训练样本对应一个时刻，每个$x_i$是一个传感器的对混合信号的观察值，并且每个$h_i$是单个原始信号的一个估计。
+这种方法的动机是，通过选择一个独立的$p(\Vh)$，我们可以尽可能恢复接近独立的潜在因子。
+这是一种常用的方法，它并不是用来捕捉高级别的抽象因果因子，而是恢复已经混合在一起的低级别信号。
+在该设置中，每个训练样本对应一个时刻，每个$x_i$是一个传感器对混合信号的观察值，并且每个$h_i$是单个原始信号的一个估计。
 例如，我们可能有$n$个人同时说话。 
-如果我们具有放置在不同位置的$n$个不同的麦克风，则\gls{ICA}可以检测每个麦克风的音量变化，并且分离信号，使得每个$h_i$仅包含一个人清楚地说话。
+如果我们具有放置在不同位置的$n$个不同的麦克风，则\glssymbol{ICA}可以检测每个麦克风的音量变化，并且分离信号，使得每个$h_i$仅包含一个人清楚地说话。
 这通常用于脑电图的神经科学，一种用于记录源自大脑的电信号的技术。
 放置在对象的头部上的许多电极传感器用于测量来自身体的许多电信号。
 实验者通常仅对来自大脑的信号感兴趣，但是来自受试者的心脏和眼睛的信号强到足以混淆在受试者的头皮处进行的测量。
-信号到达电极，并且混合在一起，因此\gls{ICA}是必要的，以分离源于心脏与源于大脑的信号，并且将不同脑区域中的信号彼此分离。
+信号到达电极，并且混合在一起，因此为了分离源于心脏与源于大脑的信号，并且将不同脑区域中的信号彼此分离\glssymbol{ICA}是必要的。
 % 482 mid 
 
 
-如前所述，\gls{ICA}存在许多变种。
+如前所述，\glssymbol{ICA}存在许多变种。
 一些版本在$\Vx$的生成中添加一些噪声，而不是使用确定性的\gls{decoder}。
-大多数方法不使用\gls{MLE}准则，而是旨在使$\Vh = \MW^{-1}\Vx$的元素彼此独立。
+大多数方法不使用\gls{maximum_likelihood}准则，而是旨在使$\Vh = \MW^{-1}\Vx$的元素彼此独立。
 许多准则能够达成这个目标。
 \eqnref{eqn:3.47}需要用到$\MW$的行列式，这可能是昂贵且数值不稳定的操作。
-\gls{ICA}的一些变种通过将$\MW$约束为正交来避免这个有问题的操作。
+\glssymbol{ICA}的一些变种通过将$\MW$约束为正交来避免这个有问题的操作。
 % 482 mid
 
 
-\gls{ICA}的所有变种要求$p(\Vh)$是非高斯的。
+\glssymbol{ICA}的所有变种要求$p(\Vh)$是非高斯的。
 这是因为如果$p(\Vh)$是具有高斯分量的独立先验，则$\MW$是不可识别的。
 对于许多$\MW$值，我们可以在$p(\Vx)$上获得相同的分布。 
-这与其他\gls{linear_factor}有很大的区别，例如\gls{PPCA}和\gls{FA}，通常要求$p(\Vh)$是高斯的，以便使模型上的许多操作具有闭式解。
-在用户明确指定分布的\gls{MLE}方法中，一个典型的选择是使用$p(h_i) = \frac{d}{dh_i}\sigma(h_i)$。
+这与其他\gls{linear_factor}有很大的区别，例如\gls{PPCA}和\gls{FA}通常要求$p(\Vh)$是高斯的，以便使模型上的许多操作具有\gls{closed_form_solution}。
+在用户明确指定分布的\gls{maximum_likelihood}方法中，一个典型的选择是使用$p(h_i) = \frac{d}{dh_i}\sigma(h_i)$。
 这些非高斯分布的典型选择在$0$附近具有比高斯分布更高的峰值，因此我们也可以看到\gls{ICA}经常在学习稀疏特征时使用。
 % 483 head
 
 
 
 
-按照我们对\gls{generative_model}的定义\gls{ICA}的许多变种不是\gls{generative_model}。
- 在本书中，\gls{generative_model}可以直接表示$p(\Vx)$，也可以认为是从$p(\Vx)$中抽取样本。
-\gls{ICA}的许多变种仅知道如何在$\Vx$和$\Vh$之间变换，但没有任何表示$p(\Vh)$的方式，因此也无法确定$p(\Vx)$。
-例如，许多\gls{ICA}变量旨在增加$\Vh = \MW^{-1}\Vx$的样本峰度，因为高峰度说明了$p(\Vh)$是非高斯的，但这是在没有显式表示$p(\Vh)$的情况下完成的。
-这是为什么\gls{ICA}被常用作分离信号的分析工具，而不是用于生成数据或估计其密度。
+按照我们对\gls{generative_model}这个术语的定义\glssymbol{ICA}的许多变种不是\gls{generative_model}。
+在本书中，\gls{generative_model}可以直接表示$p(\Vx)$，也可以认为是从$p(\Vx)$中抽取样本。
+\glssymbol{ICA}的许多变种仅知道如何在$\Vx$和$\Vh$之间变换，但没有任何表示$p(\Vh)$的方式，因此也无法确定$p(\Vx)$。
+例如，许多\glssymbol{ICA}变量旨在增加$\Vh = \MW^{-1}\Vx$的样本峰度，因为高峰度说明了$p(\Vh)$是非高斯的，但这是在没有显式表示$p(\Vh)$的情况下完成的。
+这是为什么\glssymbol{ICA}更多用作分离信号的分析工具，而不是用于生成数据或估计其密度。
 % 483 head
 
 
-正如\glssymbol{PCA}可以推广到\chapref{chap:autoencoders}中描述的非线性\gls{AE}，\gls{ICA}可以推广到非线性\gls{generative_model}，其中我们使用非线性函数$f$来生成观测数据。
-关于非线性\gls{ICA}最初的工作可以参考\citet{hyvarinen1999nonlinear}，它和\gls{ensemble_learning}的成功结合可以参见\citet{roberts2001independent,lappalainen2000nonlinear}。
-\gls{ICA}的另一个非线性扩展是\firstall{NICE}方法\citep{Dinh-et-al-arxiv2014}，这个方法堆叠了一系列可逆变换（\gls{encoder}），从而能够高效地计算每个变换的\gls{jacobian}行列式。
-这使得我们能够精确地计算似然，并且像\glssymbol{ICA}一样，\glssymbol{NICE}尝试将数据变换到具有可分解的边缘分布的空间。
+正如\glssymbol{PCA}可以推广到\chapref{chap:autoencoders}中描述的非线性\gls{AE}，\glssymbol{ICA}可以推广到非线性\gls{generative_model}，其中我们使用非线性函数$f$来生成观测数据。
+关于非线性\glssymbol{ICA}最初的工作可以参考\citet{hyvarinen1999nonlinear}，它和\gls{ensemble_learning}的成功结合可以参见\citet{roberts2001independent,lappalainen2000nonlinear}。
+\glssymbol{ICA}的另一个非线性扩展是\firstall{NICE}方法~\citep{Dinh-et-al-arxiv2014}，这个方法堆叠了一系列可逆变换（在\gls{encoder}阶段），从而能够高效地计算每个变换的\gls{jacobian}行列式。
+这使得我们能够精确地计算似然，并且像\glssymbol{ICA}一样，\glssymbol{NICE}尝试将数据变换到具有可分解边缘分布的空间。
 由于非线性\gls{encoder}的使用\footnote{译者注：相比于\glssymbol{ICA}}，这种方法更可能成功。
-因为\gls{encoder}和一个与其（\gls{encoder}）完美逆作用的\gls{decoder}相关联，所以可以直接从模型生成样本（通过首先从$p(\Vh)$采样，然后应用\gls{decoder}）。
+因为\gls{encoder}和一个与其（\gls{encoder}）完美逆作用的\gls{decoder}相关联，所以可以直接从模型生成样本（通过首先从$p(\Vh)$采样，然后使用\gls{decoder}）。
 % 483
 
 
-\gls{ICA}的另一个推广是通过在组内鼓励统计依赖关系在组之间抑制依赖关系来学习一组特征。
-当相关单元的组不重叠时，这被称为\firstgls{ISA}。
-还可以向每个\gls{hidden_unit}分配空间坐标，并且空间上相邻的单元形成一定程度的重叠。
+\glssymbol{ICA}的另一个推广是通过在组内鼓励统计依赖关系在组之间抑制依赖关系来学习特征组。
+当相关单元的组被选为不重叠时，这被称为\firstgls{ISA}。
+还可以向每个\gls{hidden_unit}分配空间坐标，并且空间上相邻的单元组形成一定程度的重叠。
 这能够鼓励相邻的单元学习类似的特征。
-当应用于自然图像时，这种拓扑\gls{ICA}方法学习Gabor滤波器，从而使得相邻特征具有相似的定向，位置或频率。
-在每个区域内出现类似Gabor函数的许多不同相位偏移，使得在小区域上的合并产生了平移不变性。
+当应用于自然图像时，这种\firstgls{tICA}方法学习Gabor滤波器，从而使得相邻特征具有相似的定向、位置或频率。
+在每个区域内出现类似Gabor函数的许多不同相位存在抵消作用，使得在小区域上的\gls{pooling}产生了平移不变性。
 % 483 end
 
 

diff --git a/terminology.tex b/terminology.tex
@@ -1200,6 +1200,13 @@
   symbol={ICA}
 }
 
+\newglossaryentry{tICA}
+{
+	name=地质ICA,
+	description={topographic ICA},
+	sort={topo independent component analysis},
+}
+
 \newglossaryentry{sparse_coding}
 {
   name=稀疏编码,
@@ -1919,6 +1926,15 @@
   sort={maximum likelihood estimation},
 }
 
+
+
+\newglossaryentry{maximum_likelihood}
+{
+	name=最大似然,
+	description={maximum likelihood},
+	sort={maximum likelihood},
+}
+
 \newglossaryentry{kernel_trick}
 {
   name=核技巧,