adjust 13, 16.2.3 is okay

Former-commit-id: cd743fbb40878fd5d0ed28be30159c48571e4c39
DMSGUO · Jan 16, 2017 · b6ff17b · b6ff17b
1 parent 55ad735
commit b6ff17b
Show file tree

Hide file tree

Showing 2 changed files with 31 additions and 26 deletions.
diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -25,7 +25,7 @@ \chapter{\glsentrytext{linear_factor}}
 
 
 这些模型很有趣，因为它们使得我们能够发现一些拥有简单联合分布的解释性因子。 
-线性\gls{decoder}的简单性使得这些模型（含有\gls{latent_variable}的模型）能够被广泛研究。
+<bad>线性\gls{decoder}的简单性使得这些对\gls{latent_variable}建模的模型能够被广泛研究。
 % 479
 
 
@@ -107,9 +107,11 @@ \section{\glsentrytext{PPCA}和\glsentrytext{FA}}
 在这种情况下，给定$\Vx$情况下的$\Vh$的条件期望等于将$\Vx - \Vb$投影到$\MW$的$d$列的生成空间，与\glssymbol{PCA}一样。
 % 481
 
-当$\sigma\xrightarrow{} 0$的时候，\gls{PPCA}所定义的密度函数在$\MW$的$d$维列生成空间的坐标周围非常尖锐。
-如果数据实际上没有集中在超平面附近，这会导致模型为数据分配非常低的可能性。
+当$\sigma\xrightarrow{} 0$的时候，\gls{PPCA}所定义的密度函数在$\MW$的$d$维列生成空间周围非常尖锐。
+这导致模型会为没有在一个超空间附近聚集的数据分配非常低的概率
+%如果某些数据实际上没有集中在超平面附近，这会导致模型为数据分配非常低的可能性。
 % 481
+%导致模型会为没有在一个超空间附近聚集的数据分配非常低的概率”
 
 \section{\glsentrytext{ICA}}
 \label{sec:independent_component_analysis_ica}
@@ -140,16 +142,16 @@ \section{\glsentrytext{ICA}}
 放置在对象的头部上的许多电极传感器用于测量来自身体的许多电信号。
 实验者通常仅对来自大脑的信号感兴趣，但是来自受试者的心脏和眼睛的信号强到足以混淆在受试者的头皮处进行的测量。
 信号到达电极，并且混合在一起，因此\gls{ICA}是必要的，以分离源于心脏与源于大脑的信号，并且将不同脑区域中的信号彼此分离。
-% 482
+% 482 mid 
 
 
 如前所述，\gls{ICA}存在许多变种。
 一些版本在$\Vx$的生成中添加一些噪声，而不是使用确定性的\gls{decoder}。
-大多数不使用\gls{MLE}准则，而是旨在使$\Vh = \MW^{-1}\Vx$的元素彼此独立。
+大多数方法不使用\gls{MLE}准则，而是旨在使$\Vh = \MW^{-1}\Vx$的元素彼此独立。
 许多准则能够达成这个目标。
 \eqnref{eqn:3.47}需要用到$\MW$的行列式，这可能是昂贵且数值不稳定的操作。
 \gls{ICA}的一些变种通过将$\MW$约束为正交来避免这个有问题的操作。
-% 482
+% 482 mid
 
 
 \gls{ICA}的所有变种要求$p(\Vh)$是非高斯的。
@@ -163,10 +165,10 @@ \section{\glsentrytext{ICA}}
 
 
 
-按照我们的说法\gls{ICA}的许多变种不是\gls{generative_model}。
+按照我们对\gls{generative_model}的定义\gls{ICA}的许多变种不是\gls{generative_model}。
  在本书中，\gls{generative_model}可以直接表示$p(\Vx)$，也可以认为是从$p(\Vx)$中抽取样本。
 \gls{ICA}的许多变种仅知道如何在$\Vx$和$\Vh$之间变换，但没有任何表示$p(\Vh)$的方式，因此也无法确定$p(\Vx)$。
-例如，许多\gls{ICA}变量旨在增加$\Vh = \MW^{-1}\Vx$的样本峰度，因为高峰度使得$p(\Vh)$是非高斯的，但这是在没有显式表示$p(\Vh)$的情况下完成的。
+例如，许多\gls{ICA}变量旨在增加$\Vh = \MW^{-1}\Vx$的样本峰度，因为高峰度说明了$p(\Vh)$是非高斯的，但这是在没有显式表示$p(\Vh)$的情况下完成的。
 这是为什么\gls{ICA}被常用作分离信号的分析工具，而不是用于生成数据或估计其密度。
 % 483 head
 
@@ -180,7 +182,7 @@ \section{\glsentrytext{ICA}}
 % 483
 
 
-\gls{ICA}的另一个应用是通过在组内鼓励统计依赖关系在组之间抑制依赖关系来学习一组特征。
+\gls{ICA}的另一个推广是通过在组内鼓励统计依赖关系在组之间抑制依赖关系来学习一组特征。
 当相关单元的组不重叠时，这被称为\firstgls{ISA}。
 还可以向每个隐藏单元分配空间坐标，并且空间上相邻的单元形成一定程度的重叠。
 这能够鼓励相邻的单元学习类似的特征。
@@ -214,7 +216,7 @@ \section{\glsentrytext{SFA}}
 \label{eqn:137}
 \lambda \sum_t L(f(\Vx^{(t+1)}),f(\Vx^{(t)})),
 \end{align}
-其中$\lambda$是确定慢度正则化的强度的超参数项，$t$是样本时间序列的索引，$f$是特征提取器，$L$是测量$f(\Vx^{(t)})$和$f(\Vx^{(t+1)})$之间的距离的\gls{loss_function}。
+其中$\lambda$是确定慢度正则化的强度的超参数项，$t$是样本时间序列的索引，$f$是需要正则化的特征提取器，$L$是测量$f(\Vx^{(t)})$和$f(\Vx^{(t+1)})$之间的距离的\gls{loss_function}。
 $L$的一个常见选择是平均误差平方。
 % 484
 
@@ -317,7 +319,7 @@ \section{\glsentrytext{sparse_coding}}
 \label{eqn:1313}
 p(h_i) = \text{Laplace}(h_i;0,\frac{2}{\lambda}) = \frac{\lambda}{4} \text{e}^{ -\frac{1}{2}\lambda \vert h_i\vert},
 \end{align}
-相应的，Student-t分布可以表示为
+相应的，Student-t先验分布可以表示为
 \begin{align}
 \label{eqn:1314}
 p(h_i)\propto \frac{1}{(1+\frac{h_i^2}{\nu})^{\frac{\nu+1}{2}}}.
@@ -374,7 +376,7 @@ \section{\glsentrytext{sparse_coding}}
 另一个优点是\gls{encoder}没有泛化误差。
 参数化的\gls{encoder}必须泛化地学习如何将$\Vx$映射到$\Vh$。
 对于与训练数据差异很大的异常的$\Vx$，所学习的参数化的\gls{encoder}可能无法找到对应精确重建的$\Vh$或稀疏的编码。
-对于\gls{sparse_coding}模型的绝大多数形式，推断问题是凸的，优化过程将总是找到最优值（除非出现简并的情况，例如重复的权重向量）。
+对于\gls{sparse_coding}模型的绝大多数形式，推断问题是凸的，优化过程将总是找到最优值（除非出现退化的情况，例如重复的权重向量）。
 显然，稀疏和重构成本仍然可以在不熟悉的点上升，但这归因于\gls{decoder}权重中的\gls{generalization_error}，而不是\gls{encoder}中的\gls{generalization_error}。
 当\gls{sparse_coding}用作分类器的特征提取器时，而不是使用参数化的函数来预测时，基于优化的\gls{sparse_coding}模型的编码过程中\gls{generalization_error}的减小可导致更好的泛化能力。
 \citet{Coates2011b}证明了在对象识别任务中\gls{sparse_coding}特征比基于参数化的\gls{encoder}（如线性\gls{sigmoid}\gls{AE}）的特征拥有更好的泛化能力。

diff --git a/Chapter16/structured_probabilistic_modelling.tex b/Chapter16/structured_probabilistic_modelling.tex
@@ -425,7 +425,8 @@ \subsection{\glsentrytext{partition_function}}
 
 
 尽管这个\gls{unnormalized_probability_function}处处不为零，我们仍然无法保证它的概率之和或者积分为$1$。
-为了得到一个有效的概率分布，我们需要使用一个归一化的概率分布\footnote{一个通过归一化\gls{clique_potential}的乘积的分布通常被称作是\gls{gibbs_distribution}}：
+为了得到一个有效的概率分布，我们需要使用对应的归一化的概率分布
+\footnote{一个通过归一化\gls{clique_potential}乘积定义的分布也被称作是\firstgls{gibbs_distribution}}：
 \begin{align}
 p(\RVx) = \frac{1}{Z}\tilde{p}(\RVx),
 \end{align}
@@ -435,47 +436,49 @@ \subsection{\glsentrytext{partition_function}}
 \end{align}
 当函数$\phi$固定的时候，我们可以把$Z$当成是一个常数。
 值得注意的是如果函数$\phi$带有参数时，那么$Z$是这些参数的一个函数。
-忽略控制$Z$的变量而直接写$Z$是一个常用的方式。
+在相关文献中为了节省空间忽略控制$Z$的变量而直接写$Z$是一个常用的方式。
 归一化常数$Z$被称作是\gls{partition_function}，一个从统计物理学中借鉴的术语。
 % 559 
 
 
-由于$Z$通常是由对所有可能的$\RVx$的状态的联合分布空间求和或者求积分得到的，它通常是很难计算的。
-为了获得一个\gls{undirected_model}的归一化的概率分布，模型的结构和函数$\phi$的定义通常需要特殊的设计从而使得能够高效地计算$Z$。
+由于$Z$通常是由对所有可能的$\RVx$状态的联合分布空间求和或者求积分得到的，它通常是很难计算的。
+为了获得一个\gls{undirected_model}的归一化概率分布，模型的结构和函数$\phi$的定义通常需要设计为有助于高效地计算$Z$。
 在\gls{DL}中，$Z$通常是难以处理的。
-由于$Z$难以精确的计算出，我们只能使用一些近似的方法。
+由于$Z$难以精确地计算出，我们只能使用一些近似的方法。
 这样的近似方法是\chapref{chap:confronting_the_partition_function}的主要内容。
 % 559 
 
 
 
 %在设计\gls{undirected_model}时我们必须牢记在心的一个要点是设置一些\gls{factor}使得$Z$不存在这样的方法也是有可能的。
-在设计\gls{undirected_model}时我们必须牢记在心的一个要点是一些使得$Z$不存在的\gls{factor}也是有可能的。
-当模型中的一些变量是连续的，且在$\tilde{p}$在其定义域上的积分无法收敛的时候这种情况就会发生。
+在设计\gls{undirected_model}时我们必须牢记在心的一个要点是设定一些使得$Z$不存在的\gls{factor}也是有可能的。
+当模型中的一些变量是连续的，且在$\tilde{p}$在其定义域上的积分发散的时候这种情况就会发生。
 比如说， 当我们需要对一个单独的标量变量$\RSx\in\SetR$建模，并且这个包含一个点的\gls{clique_potential}定义为$\phi(x) = x^2$时。
 在这种情况下，
 \begin{align}
 Z = \int x^2 dx.
 \end{align}
-由于这个积分是发散的，所以不存在一个对应着这个势能函数的概率分布。
-有时候$\phi$函数某些参数的选择可以决定相应的概率分布能否存在。
+
+由于这个积分是发散的，所以不存在一个对应着这个势能函数$\phi(x)$的概率分布。
+有时候$\phi$函数某些参数的选择可以决定相应的概率分布是否能够被定义。
 比如说，对$\phi$函数$\phi(x;\beta) = \text{exp}(-\beta x^2)$来说，参数$\beta$决定了归一化常数$Z$是否存在。
 一个正的$\beta$使得$\phi$函数是一个关于$\RSx$的高斯分布，但是一个非正的参数$\beta$则使得$\phi$不可能被归一化。
 
 
 % P560   
-\gls{directed_model}和\gls{undirected_model}之间的一个重要的区别就是\gls{directed_model}是通过从起始点的概率分布直接定义的，反之\gls{undirected_model}的定义显得更加宽松，通过$\phi$函数转化为概率分布而定义。
-这和我们处理这些建模问题的直觉相反。
-当我们处理\gls{undirected_model}时需要牢记一点，每一个变量的定义域对于$\phi$函数所对应的概率分布有着重要的影响。
+有向建模和无向建模之间一个重要的区别就是\gls{directed_model}是通过从起始点的概率分布直接定义的，
+反之\gls{undirected_model}的定义显得更加宽松，通过$\phi$函数转化为概率分布而定义。
+这改变了我们处理这些建模问题的直觉。
+当我们处理\gls{undirected_model}时需要牢记一点，每一个变量的定义域对于一系列给定的$\phi$函数所对应的概率分布有着重要的影响。
 举个例子，我们考虑一个$n$维向量的随机变量$\RVx$以及一个由偏置向量$\Vb$参数化的\gls{undirected_model}。
 假设$\RVx$的每一个元素对应着一个\gls{clique}，并且满足$\phi^{(i)}(\RSx_i) = \exp(b_i\RSx_i)$。
 在这种情况下概率分布是怎么样的呢？
 答案是我们无法确定，因为我们并没有指定$\RVx$的定义域。
-如果$\RVx$满足$\RVx \in \SetR^n$，那么对于归一化常数$Z$的积分是发散的，这导致了对应的概率分布是不存在的。
+如果$\RVx$满足$\RVx \in \SetR^n$，那么有关归一化常数$Z$的积分是发散的，这导致了对应的概率分布是不存在的。
 如果$\RVx\in\{0,1\}^n$，那么$p(\RVx)$可以被分解成$n$个独立的分布，并且满足$p(\RSx_i=1) = \text{sigmoid}(b_i)$。
 如果$\RVx$的定义域是\gls{ebv} $(\{[1,0,\ldots,0],[0,1,\ldots,0],\ldots,[0,0,\ldots,1]\})$的集合，
 那么$p(\RSx) = \text{softmax}(\Vb)$，因此对于$j\neq i$一个较大的$b_i$的值会降低所有的$p(\RSx_j = 1)$的概率。
-通常情况下，通过特殊设计变量的定义域，能够使得一个相对简单的$\phi$函数可以获得一个相对复杂的表达。
+通常情况下，通过仔细选择变量的定义域，能够使得一个相对简单的$\phi$函数可以获得一个相对复杂的表达。
 我们会在\secref{sec:convolutional_boltzmann_machines}中讨论这个想法的实际应用。
 % P560