merge

Former-commit-id: f436ae1 Former-commit-id: 367b1021ac87782f15dec70c00b408faf63377c3
DMSGUO · Dec 9, 2016 · 9fc9a35 · 9fc9a35
2 parents 32dfdfe + 2268d98
commit 9fc9a35
Show file tree

Hide file tree

Showing 26 changed files with 134 additions and 82 deletions.
diff --git a/Chapter1/introduction.tex b/Chapter1/introduction.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Shenjian Zhao
 \chapter{前言}
 \label{chap:introduction}

diff --git a/Chapter10/sequence_modeling_rnn.tex b/Chapter10/sequence_modeling_rnn.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Shenjian Zhao
 \chapter{序列建模：循环和递归网络}
 \label{chap:sequence_modeling_recurrent_and_recursive_nets}

diff --git a/Chapter11/practical_methodology.tex b/Chapter11/practical_methodology.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Yujun Li 
 \chapter{实用方法}
 \label{chap:practical_methodology}

diff --git a/Chapter12/applications.tex b/Chapter12/applications.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator:
 % Tianfan Fu: 12.1~12. 3
 % Shenjian Zhao: 12.4~12.5

diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Tianfan Fu
 \chapter{\glsentrytext{linear_factor}}
 \label{chap:linear_factor_models}

diff --git a/Chapter14/autoencoders.tex b/Chapter14/autoencoders.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Shenjian Zhao
 \chapter{\glsentrytext{AE}}
 \label{chap:autoencoders}

diff --git a/Chapter15/representation_learning.tex b/Chapter15/representation_learning.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Yujun Li 
 \chapter{\glsentrytext{representation_learning}}
 \label{chap:representation_learning}

diff --git a/Chapter16/structured_probabilistic_modelling.tex b/Chapter16/structured_probabilistic_modelling.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Tianfan Fu
 \chapter{\glsentrytext{DL}中的\glsentrytext{structured_probabilistic_models}}
 \label{chap:structured_probabilistic_models_for_deep_learning}

diff --git a/Chapter17/monte_carlo_methods.tex b/Chapter17/monte_carlo_methods.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Tianfan Fu
 \chapter{\glsentrytext{monte_carlo}方法}
 \label{chap:monte_carlo_methods}

diff --git a/Chapter18/confronting_the_partition_function.tex b/Chapter18/confronting_the_partition_function.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Yujun Li 
 \chapter{面对区分函数}
 \label{chap:confronting_the_partition_function}

diff --git a/Chapter19/approximate_inference.tex b/Chapter19/approximate_inference.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Tianfan Fu 
 \chapter{近似推断}
 \label{chap:approximate_inference}

diff --git a/Chapter2/linear_algebra.tex b/Chapter2/linear_algebra.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Yujun Li 
 \chapter{线性代数}
 \label{chap:linear_algebra}
@@ -56,7 +57,7 @@ \section{标量，向量，矩阵和张量}
     我们通常会赋予矩阵粗体的大写变量名称，比如$\MA$。
     如果一个实数矩阵高度为$m$，宽度为$n$，那么我们说$\MA\in \SetR^{m\times n}$。
     我们在表示矩阵中的元素时，通常使用其名称以不加粗的斜体形式，\gls{index}用逗号间隔。
-    比如，$\SA_{1,1}$表示$\MA$左上的元素，$\MA_{m,n}$表示$\MA$右下的元素。
+    比如，$\SA_{1,1}$表示$\MA$左上的元素，$\SA_{m,n}$表示$\MA$右下的元素。
     我们表示垂直坐标$\Si$中的所有元素时，用“:”来表示水平坐标。
     比如，$\MA_{i,:}$表示$\MA$中垂直坐标$i$上的一横排元素。
     这也被称为$\MA$的第$i$\firstgls{column}。
@@ -306,13 +307,13 @@ \section{线性相关和生成子空间}
 这个特殊的生成子空间被称为$\MA$的\firstgls{column_space}或者$\MA$的\firstgls{range}。
 
 
-为了让方程$\MA \Vx=\Vb$对于任意的向量$\Vb$都有解的话，我们需要要求$\MA$的列空间构成整个$\SetR^{\Sm}$。
+为了让方程$\MA \Vx=\Vb$对于任意的向量$\Vb \in \SetR^m$都有解的话，我们需要要求$\MA$的列空间构成整个$\SetR^{\Sm}$。
 如果$\SetR^m$中的某个点不在$\MA$的列空间中，那么该点对应的$\Vb$会使得该方程没有解。
 矩阵$\MA$的列空间是整个$\SetR^m$的要求，意味着$\MA$至少有$m$列，即$n\geq m$。
 否则，$\MA$列空间的维数会小于$m$。
 例如，假设$\MA$是一个$3\times 2$的矩阵。
-目标$b$是$3$维的，但是$x$只有$2$维。
-所以无论如何修改$x$的值，也只能描绘出$\SetR^3$空间中的二维平面。
+目标$\Vb$是$3$维的，但是$\Vx$只有$2$维。
+所以无论如何修改$\Vx$的值，也只能描绘出$\SetR^3$空间中的二维平面。
 当且仅当向量$\Vb$在该二维平面中时，该方程有解。
 
 
@@ -344,7 +345,7 @@ \section{线性相关和生成子空间}
 综上所述，这意味着该矩阵必须是一个\firstgls{square}，即$m=n$，并且所有列向量都是线性无关的。一个列向量线性相关的方阵被称之为\firstgls{singular}。
 
 
-如果矩阵$A$不是一个方阵或者是一个奇异的方阵，该方程仍然可能有解。
+如果矩阵$\MA$不是一个方阵或者是一个奇异的方阵，该方程仍然可能有解。
 但是我们不能使用逆矩阵去求解。
 
 
@@ -387,7 +388,7 @@ \section{范数}
 当$p=2$时，$L^2$被称为\firstgls{euclidean_norm}。
 它表示从原点出发到向量$\Vx$确定的点的欧几里得距离。
 $L^2$范数十分频繁地出现在机器学习中，它经常被简化表示为$\norm{x}$，略去了下标$2$。
-平方$L^2$范数也经常被用来衡量向量的大小，可以简单地t通过\gls{dot_product}$\Vx^\top\Vx$计算。
+平方$L^2$范数也经常被用来衡量向量的大小，可以简单地通过\gls{dot_product}$\Vx^\top\Vx$计算。
 
 
 平方$L^2$范数在数学和计算上都比$L^2$范数本身更方便。
@@ -423,7 +424,8 @@ \section{范数}
 有时候我们可能也需要衡量矩阵的大小。
 在深度学习中，最常见的做法是使用\firstgls{frobenius_norm}，
 \begin{equation}
-    \norm{A}_F = \sqrt{\sum_{i,j} A_{i,j}^2},
+    \norm{\MA}_F = \sqrt{\sum_{i,j} A_{i,j}^2}, 
+%%lyj 原文是\norm{A}_F ...
 \end{equation}
 类似于向量的$L^2$范数。
 
@@ -472,7 +474,7 @@ \section{特殊类型的矩阵和向量}
 例如，如果$\MA$一个表示距离的矩阵，$\MA_{i,j}$表示点$i$到点$j$的距离，那么$\MA_{i,j}=\MA_{j,i}$，因为距离函数是对称的。
 
 
-\firstgls{unit_vector}是具有\emph{单位范数}的向量：
+\firstgls{unit_vector}是具有\firstgls{unit_norm}的向量：
 \begin{equation}
 \norm{\Vx}_2=1.
 \end{equation}
@@ -526,15 +528,15 @@ \section{\glsentrytext{eigendecomposition}}
 （类似地，我们也可以定义\firstgls{left_Svector}$\Vv^\top\MA=\lambda \Vv^\top$，但是通常我们更关注\firstgls{right_Svector}）。
 
 
-如果$\Vv$是$\MA$的特征向量，那么任何放缩后的向量$s\Vv$($s\in \SetR$)也是$\MA$的特征向量。
+如果$\Vv$是$\MA$的特征向量，那么任何放缩后的向量$s\Vv$($s\in \SetR$，$s\neq 0$)也是$\MA$的特征向量。
 此外，$s\Vv$和$\Vv$有相同的特征值。
 基于这个原因，通常我们只考虑单位特征向量。
 
 
 假设矩阵$\MA$有$n$个线性无关的特征向量$\{\Vv^{(1)}, \dots, \Vv^{(n)}\}$，对应着特征值$\{\lambda_1, \dots , \lambda_n \}$。
 我们将特征向量连接一个矩阵，使得每一列是一个特征向量：$V=[\Vv^{(1)}, \dots, \Vv^{(n)}]$.
 类似地，我们也可以将特征值连接成一个向量$\Vlambda = [\lambda_1, \dots , \lambda_n]^\top$。
-因此$\MA$的\gls{eigendecomposition}可以记作
+因此$\MA$的\firstgls{eigendecomposition}可以记作
 \begin{equation}
     \MA = \MV \text{diag}(\mathbf{\Vlambda}) \MV^{-1}.
 \end{equation}
@@ -636,7 +638,7 @@ \section{\gls{SVD}}
 \MA$的非零特征值是$\MA^\top\MA$特征值的平方根，也是$\MA\MA^\top$特征值的平方根。
 
 
-\firstgls{SVD}最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。我们将在下一节中探讨。
+\glssymbol{SVD}最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。我们将在下一节中探讨。
 
 
 
@@ -782,7 +784,7 @@ \section{实例：\glsentrytext{PCA}}
 在PCA算法中，我们使用$L^2$范数：
 \begin{equation}
 \label{eq:2.52}
-\Vc^* = \underset{\Vc}{\arg\min} \norm{x-g(\Vc)}_2.
+\Vc^* = \underset{\Vc}{\arg\min} \norm{\Vx-g(\Vc)}_2.
 \end{equation}
 
 

diff --git a/Chapter3/probability_and_information_theory.tex b/Chapter3/probability_and_information_theory.tex
@@ -199,10 +199,10 @@ \section{\glsentrytext{conditional_probability}}
 
 在很多情况下，我们感兴趣的是某个事件，在给定其他事件发生时，出现的概率。
 这种概率叫做\gls{conditional_probability}。
-我们将给定$\RSx = x$时$\RSy = y$发生的\gls{conditional_probability}记为$P(\RSy = y| \RSx =x)$。
+我们将给定$\RSx = x$时$\RSy = y$发生的\gls{conditional_probability}记为$P(\RSy = y\mid \RSx =x)$。
 这个\gls{conditional_probability}可以通过下面的公式计算：
 \begin{equation}
-P(\RSy = y| \RSx = x) = \frac{P(\RSy = y, \RSx = x)}{P(\RSx = x)}
+P(\RSy = y\mid \RSx = x) = \frac{P(\RSy = y, \RSx = x)}{P(\RSx = x)}
 \label{eq: 3.5}
 \end{equation}
 \gls{conditional_probability}只在$P(\RSx = x)>0$时有定义。
@@ -218,7 +218,7 @@ \section{\glsentrytext{conditional_probability}的\glsentrytext{chain_rule}}
 
 任何多维\gls{RV}的\gls{joint_probability_distribution}，都可以分解成只有一个变量的\gls{conditional_probability}相乘的形式：
 \begin{equation}
-P(\RSx^{(1)}, \ldots, \RSx^{(n)}) = P(\RSx^{(1)}) \Pi_{i=2}^n P(\RSx^{(i)} | \RSx^{(1)}, \ldots, \RSx^{(i-1)})
+P(\RSx^{(1)}, \ldots, \RSx^{(n)}) = P(\RSx^{(1)}) \Pi_{i=2}^n P(\RSx^{(i)} \mid \RSx^{(1)}, \ldots, \RSx^{(i-1)})
 \end{equation}
 
 % -- 57 --
@@ -227,9 +227,9 @@ \section{\glsentrytext{conditional_probability}的\glsentrytext{chain_rule}}
 它可以直接从公式\ref{eq: 3.5}\gls{conditional_probability}的定义中得到。
 例如，使用两次定义可以得到
 \begin{eqnarray*}
-P(\RSa, \RSb, \RSc) &=& P(\RSa | \RSb, \RSc) P(\RSb, \RSc)\\
-P(\RSb, \RSc) &=& P(\RSb | \RSc) P(\RSc)\\
-P(\RSa, \RSb, \RSc) &=& P(\RSa | \RSb, \RSc) P(\RSb | \RSc) P(\RSc).
+P(\RSa, \RSb, \RSc) &=& P(\RSa \mid \RSb, \RSc) P(\RSb, \RSc)\\
+P(\RSb, \RSc) &=& P(\RSb \mid \RSc) P(\RSc)\\
+P(\RSa, \RSb, \RSc) &=& P(\RSa \mid \RSb, \RSc) P(\RSb \mid \RSc) P(\RSc).
 \end{eqnarray*}
 
 \section{独立性和条件独立性}
@@ -242,11 +242,11 @@ \section{独立性和条件独立性}
 
 两个\gls{RV}$\RSx$和$\RSy$在给定\gls{RV}$z$是\firstgls{conditionally_independent}，如果关于$\RSx$和$\RSy$的\gls{conditional_probability}分布对于$z$的每一个值都可以写成乘积的形式：
 \begin{equation}
-\forall x \in \RSx, y \in \RSy, z \in \RSz, p( \RSx=x, \RSy=y | \RSz=z) =
-p(\RSx = x | \RSz = z) p(\RSy = y | \RSz = z).
+\forall x \in \RSx, y \in \RSy, z \in \RSz, p( \RSx=x, \RSy=y \mid \RSz=z) =
+p(\RSx = x \mid \RSz = z) p(\RSy = y \mid \RSz = z).
 \end{equation}
 
-我们可以采用一种简化形式来表示独立性和条件独立性：$\RSx \bot \RSy$表示$\RSx$和$\RSy$相互独立，$\RSx \bot \RSy | \RSz$表示$\RSx$和$\RSy$在给定$\RSz$时条件独立。
+我们可以采用一种简化形式来表示独立性和条件独立性：$\RSx \bot \RSy$表示$\RSx$和$\RSy$相互独立，$\RSx \bot \RSy \mid \RSz$表示$\RSx$和$\RSy$在给定$\RSz$时条件独立。
 
 \section{\glsentrytext{expectation}，\glsentrytext{variance}和\glsentrytext{covariance}}
 \label{sec:expectation_variance_and_covariance}
@@ -429,7 +429,7 @@ \subsection{\glsentrytext{exponential_distribution}和\glsentrytext{laplace_dist
 
 一个非常相关的\gls{PD}是\firstgls{laplace_distribution}，它允许我们在任意一点$\mu$处设置\gls{PD}的峰值
 \begin{equation}
-\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma}  \right)
+\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma}  \right).
 \end{equation}
 
 \subsection{\glsentrytext{dirac_distribution}和\glsentrytext{empirical_distribution}}
@@ -467,7 +467,7 @@ \subsection{分布的混合}
 混合分布由一些组件(component)分布构成。
 每次实验，样本是由哪个组件分布产生的取决于从一个\gls{multinoulli_distribution}中采样的结果：
 \begin{equation}
-P(\RSx) = \sum_i P(\RSc = i) P(\RSx | \RSc = i)
+P(\RSx) = \sum_i P(\RSc = i) P(\RSx \mid \RSc = i),
 \end{equation}
 这里$P(\RSc)$是对各组件的一个\gls{multinoulli_distribution}。
 
@@ -481,19 +481,19 @@ \subsection{分布的混合}
 混合模型使我们能够一瞥以后会用到的一个非常重要的概念——\firstgls{latent_variable}。
 \gls{latent_variable}是我们不能直接观测到的\gls{RV}。
 混合模型的组件变量$\RSc$就是其中一个例子。
-\gls{latent_variable}在联合分布中可能和$\RSx$有关，在这种情况下，$P(\RSx, \RSc) = P(\RSx | \RSc)P(\RSc)$。
-\gls{latent_variable}的分布$P(\RSc)$以及关联\gls{latent_variable}和观测变量的条件分布$P(\RSx |\RSc)$，共同决定了分布$P(\RSx)$的形状，尽管描述$P(\RSx)$时可能并不需要\gls{latent_variable}。
+\gls{latent_variable}在联合分布中可能和$\RSx$有关，在这种情况下，$P(\RSx, \RSc) = P(\RSx \mid \RSc)P(\RSc)$。
+\gls{latent_variable}的分布$P(\RSc)$以及关联\gls{latent_variable}和观测变量的条件分布$P(\RSx \mid\RSc)$，共同决定了分布$P(\RSx)$的形状，尽管描述$P(\RSx)$时可能并不需要\gls{latent_variable}。
 \gls{latent_variable}会在\ref{sec:learning_about_dependencies}一节中深入讨论。
 
-一个非常强大且常见的混合模型是\firstgls{GMM}，它的组件$p(\RSx | \RSc= i)$是\gls{gaussian_distribution}。
+一个非常强大且常见的混合模型是\firstgls{GMM}，它的组件$p(\RSx \mid \RSc= i)$是\gls{gaussian_distribution}。
 每个组件都有各自的参数，均值$\bm{\mu}^{(i)}$和\gls{covariance_matrix}$\bm{\Sigma}^{(i)}$。
 有一些混合可以有更多的限制。
 例如，\gls{covariance_matrix}可以通过$\bm{\Sigma}^{(i)} = \bm{\Sigma}, \forall i$的形式在组件之间共享参数。
 和单个\gls{gaussian_distribution}一样，\gls{GMM}有时会限制每个组件的\gls{covariance_matrix}是对角的或者各向同性的(标量乘以单位矩阵）。
 
 除了均值和\gls{covariance}以外，\gls{GMM}的参数指明了给每个组件$i$的\firstgls{prior_probability}$\alpha_i = P(\RSc = i)$。
 ``先验''一词表明了在观测到$\RSx$\emph{之前}传递给模型关于$\RSc$的信念。
-作为对比，$P(\RSc | \bm{x})$是\firstgls{posterior_probability}，因为它是在观测到$\RSx$\emph{之后}进行计算的。
+作为对比，$P(\RSc \mid \bm{x})$是\firstgls{posterior_probability}，因为它是在观测到$\RSx$\emph{之后}进行计算的。
 \gls{GMM}是概率密度的\firstgls{universal_approximator}，在这种意义上，任何平滑的概率密度都可以用具有足够多组件的\gls{GMM}以任意精度来逼近。
 
 图\ref{fig:chap3_mog_color}演示了某个\gls{GMM}生成的样例。
@@ -534,7 +534,7 @@ \section{常用函数的一些性质}
 
 另外一个经常遇到的函数是\firstgls{softplus_function}\citep{secondorder:2001:nips}：
 \begin{equation}
-\zeta(x) = \log(1+\exp(x))
+\zeta(x) = \log(1+\exp(x)).
 \end{equation}
 \gls{softplus_function}可以用来产生\gls{normal_distribution}的$\beta$和$\sigma$参数，因为它的范围是$(0,\infty)$。
 当处理包含sigmoid函数的表达式时它也经常出现。
@@ -582,12 +582,12 @@ \section{常用函数的一些性质}
 \section{\glsentrytext{bayes_rule}}
 \label{sec:bayes_rule}
 
-我们经常会需要在已知$P(\RSy | \RSx)$时计算$P(\RSx | \RSy)$。
+我们经常会需要在已知$P(\RSy \mid \RSx)$时计算$P(\RSx \mid \RSy)$。
 幸运的是，如果还知道$P(\RSx)$，我们可以用\firstgls{bayes_rule}来实现这一目的：
 \begin{equation}
-P(\RSx | \RSy) = \frac{P(\RSx) P(\RSy | \RSx)}{P(\RSy)}.
+P(\RSx \mid \RSy) = \frac{P(\RSx) P(\RSy \mid \RSx)}{P(\RSy)}.
 \end{equation}
-注意到$P(\RSy)$出现在上面的公式中，它通常使用$P(\RSy) = \sum_x P(\RSy | x) P(x)$来计算，所以我们并不需要事先知道$P(\RSy)$的信息。
+注意到$P(\RSy)$出现在上面的公式中，它通常使用$P(\RSy) = \sum_x P(\RSy \mid x) P(x)$来计算，所以我们并不需要事先知道$P(\RSy)$的信息。
 
 \gls{bayes_rule}可以从\gls{conditional_probability}的定义直接推导得出，但我们最好记住这个公式的名字，因为很多文献通过名字来引用这个公式。
 这个公式是以Reverend Thomas Bayes来命名的，他是第一个发现这个公式的特例的人。
@@ -691,7 +691,7 @@ \section{信息论}
 
 为了满足上述三个性质，我们定义一个事件$\RSx = x$的\firstgls{self_information}为
 \begin{equation}
-I(x) = -\log P(x)
+I(x) = -\log P(x).
 \end{equation}
 在本书中，我们总是用$\log$来表示自然对数，底数为$e$。
 因此我们定义的$I(x)$单位是\firstgls{nats}。
@@ -704,7 +704,7 @@ \section{信息论}
 \gls{self_information}只处理单个的输出。
 我们可以用\firstgls{Shannon_entropy}来对整个\gls{PD}中的不确定性总量进行量化：
 \begin{equation}
-H(\RSx) = \SetE_{\RSx \sim P}[I(x)] = -\SetE_{\RSx \sim P}[\log P(x)].
+H(\RSx) = \SetE_{\RSx \sim P}[I(x)] = -\SetE_{\RSx \sim P}[\log P(x)],
 \end{equation}
 也记作$H(P)$。
 换言之，一个分布的\gls{Shannon_entropy}是指遵循这个分布的事件所产生的期望信息总量。
@@ -773,7 +773,7 @@ \section{\glsentrytext{structured_probabilistic_models}}
 例如，假设我们有三个\gls{RV}$\RSa, \RSb$和$\RSc$，并且$\RSa$影响$\RSb$的取值，$\RSb$影响$\RSc$的取值，但是$\RSa$和$\RSc$在给定$\RSb$时是条件独立的。
 我们可以把全部三个变量的\gls{PD}重新表示为两个变量的\gls{PD}的连乘形式：
 \begin{equation}
-p(\RSa, \RSb, \RSc) = p(\RSa)p(\RSb| \RSa)p(\RSc|\RSb).
+p(\RSa, \RSb, \RSc) = p(\RSa)p(\RSb\mid \RSa)p(\RSc\mid\RSb).
 \end{equation}
 
 这种因子分解可以极大地减少用来描述一个分布的参数的数量。
@@ -790,7 +790,7 @@ \section{\glsentrytext{structured_probabilistic_models}}
 \firstgls{directed}模型使用带有有向边的图，它们用\gls{conditional_probability}分布来表示因子分解，就像上面的例子。
 特别地，有向模型对于分布中的每一个\gls{RV}$\RSx_i$都包含着一个影响因子，这个组成$\RSx_i$\gls{conditional_probability}的影响因子被称为$\RSx_i$的双亲，记为$Pa_\CalG(\RSx_i)$：
 \begin{equation}
-p(\RVx) = \prod_i p(\RSx_i | Pa_\CalG(\RSx_i)).
+p(\RVx) = \prod_i p(\RSx_i \mid Pa_\CalG(\RSx_i)).
 \end{equation}
 图\ref{fig:chap3_directed}给出了一个有向图的例子以及它表示的\gls{PD}的因子分解。
 \begin{figure}[!htb]
@@ -837,9 +837,9 @@ \section{\glsentrytext{structured_probabilistic_models}}
 它们不是互相排斥的\gls{PD}族。
 有向或者无向不是\gls{PD}的特性；它是\gls{PD}的一种特殊\firstgls{description}所具有的特性，但是任何的\gls{PD}都可以用两种方式进行描述。
 
-在本书第|||c|||部分和第|||c|||部分中， 我们使用\gls{structured_probabilistic_models}仅仅是作为一门语言，来描述不同的机器学习算法选择表示的直接的概率关系。
+在本书第\ref{part:applied_math_and_machine_learning_basics}部分和第\ref{part:deep_networks_modern_practices}部分中， 我们使用\gls{structured_probabilistic_models}仅仅是作为一门语言，来描述不同的机器学习算法选择表示的直接的概率关系。
 一直到研究课题的讨论之前，不会需要用到\gls{structured_probabilistic_models}的深入理解。
-在第|||c|||部分的研究课题中，我们会更为详尽地探讨\gls{structured_probabilistic_models}。
+在第\ref{part:deep_learning_research}部分的研究课题中，我们会更为详尽地探讨\gls{structured_probabilistic_models}。
 
 本章复习了概率论中与深度学习最为相关的一些基本概念。
 还剩下一些基本的数学工具需要讨论：数值方法。

diff --git a/Chapter4/numerical_computation.tex b/Chapter4/numerical_computation.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Shenjian Zhao
 \chapter{数值计算}
 \label{chap:numerical_computation}

diff --git a/Chapter5/machine_learning_basics.tex b/Chapter5/machine_learning_basics.tex
@@ -1,3 +1,4 @@
+% !Mode:: "TeX:UTF-8"
 % Translator: Yujun Li 
 \chapter{\glsentrytext{ML}基础}
 \label{chap:machine_learning_basics}
@@ -1713,7 +1714,7 @@ \section{推动\glsentrytext{DL}的挑战}
 \subsection{\glsentrytext{curse_of_dimensionality}}
 \label{sec:the_curse_of_dimensionality}
 当数据的维数很高时，很多\gls{ML}问题变得相当困难。
-这种现象被称为\firstgls{curse_of_dimensionality} 维数灾难（curse of dimensionality）。
+这种现象被称为\firstgls{curse_of_dimensionality}（curse of dimensionality）。
 特别值得注意的是，一组变量的不同可能配置数量随着变量数目的增加而指数级增长。
 
 维数灾难发生在计算机科学的许多地方，在\gls{ML}中尤其如此。