Skip to content

Commit

Permalink
merge
Browse files Browse the repository at this point in the history
Former-commit-id: f436ae1
Former-commit-id: 367b1021ac87782f15dec70c00b408faf63377c3
  • Loading branch information
SwordYork committed Dec 9, 2016
2 parents 32dfdfe + 2268d98 commit 9fc9a35
Show file tree
Hide file tree
Showing 26 changed files with 134 additions and 82 deletions.
1 change: 1 addition & 0 deletions Chapter1/introduction.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Shenjian Zhao
\chapter{前言}
\label{chap:introduction}
Expand Down
1 change: 1 addition & 0 deletions Chapter10/sequence_modeling_rnn.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Shenjian Zhao
\chapter{序列建模:循环和递归网络}
\label{chap:sequence_modeling_recurrent_and_recursive_nets}
Expand Down
1 change: 1 addition & 0 deletions Chapter11/practical_methodology.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Yujun Li
\chapter{实用方法}
\label{chap:practical_methodology}
Expand Down
1 change: 1 addition & 0 deletions Chapter12/applications.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator:
% Tianfan Fu: 12.1~12. 3
% Shenjian Zhao: 12.4~12.5
Expand Down
1 change: 1 addition & 0 deletions Chapter13/linear_factor_models.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Tianfan Fu
\chapter{\glsentrytext{linear_factor}}
\label{chap:linear_factor_models}
Expand Down
1 change: 1 addition & 0 deletions Chapter14/autoencoders.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Shenjian Zhao
\chapter{\glsentrytext{AE}}
\label{chap:autoencoders}
Expand Down
1 change: 1 addition & 0 deletions Chapter15/representation_learning.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Yujun Li
\chapter{\glsentrytext{representation_learning}}
\label{chap:representation_learning}
Expand Down
1 change: 1 addition & 0 deletions Chapter16/structured_probabilistic_modelling.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Tianfan Fu
\chapter{\glsentrytext{DL}中的\glsentrytext{structured_probabilistic_models}}
\label{chap:structured_probabilistic_models_for_deep_learning}
Expand Down
1 change: 1 addition & 0 deletions Chapter17/monte_carlo_methods.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Tianfan Fu
\chapter{\glsentrytext{monte_carlo}方法}
\label{chap:monte_carlo_methods}
Expand Down
1 change: 1 addition & 0 deletions Chapter18/confronting_the_partition_function.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Yujun Li
\chapter{面对区分函数}
\label{chap:confronting_the_partition_function}
Expand Down
1 change: 1 addition & 0 deletions Chapter19/approximate_inference.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Tianfan Fu
\chapter{近似推断}
\label{chap:approximate_inference}
Expand Down
26 changes: 14 additions & 12 deletions Chapter2/linear_algebra.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Yujun Li
\chapter{线性代数}
\label{chap:linear_algebra}
Expand Down Expand Up @@ -56,7 +57,7 @@ \section{标量,向量,矩阵和张量}
我们通常会赋予矩阵粗体的大写变量名称,比如$\MA$
如果一个实数矩阵高度为$m$,宽度为$n$,那么我们说$\MA\in \SetR^{m\times n}$
我们在表示矩阵中的元素时,通常使用其名称以不加粗的斜体形式,\gls{index}用逗号间隔。
比如,$\SA_{1,1}$表示$\MA$左上的元素,$\MA_{m,n}$表示$\MA$右下的元素。
比如,$\SA_{1,1}$表示$\MA$左上的元素,$\SA_{m,n}$表示$\MA$右下的元素。
我们表示垂直坐标$\Si$中的所有元素时,用“:”来表示水平坐标。
比如,$\MA_{i,:}$表示$\MA$中垂直坐标$i$上的一横排元素。
这也被称为$\MA$的第$i$\firstgls{column}。
Expand Down Expand Up @@ -306,13 +307,13 @@ \section{线性相关和生成子空间}
这个特殊的生成子空间被称为$\MA$\firstgls{column_space}或者$\MA$\firstgls{range}。


为了让方程$\MA \Vx=\Vb$对于任意的向量$\Vb$都有解的话,我们需要要求$\MA$的列空间构成整个$\SetR^{\Sm}$
为了让方程$\MA \Vx=\Vb$对于任意的向量$\Vb \in \SetR^m$都有解的话,我们需要要求$\MA$的列空间构成整个$\SetR^{\Sm}$
如果$\SetR^m$中的某个点不在$\MA$的列空间中,那么该点对应的$\Vb$会使得该方程没有解。
矩阵$\MA$的列空间是整个$\SetR^m$的要求,意味着$\MA$至少有$m$列,即$n\geq m$
否则,$\MA$列空间的维数会小于$m$
例如,假设$\MA$是一个$3\times 2$的矩阵。
目标$b$$3$维的,但是$x$只有$2$维。
所以无论如何修改$x$的值,也只能描绘出$\SetR^3$空间中的二维平面。
目标$\Vb$$3$维的,但是$\Vx$只有$2$维。
所以无论如何修改$\Vx$的值,也只能描绘出$\SetR^3$空间中的二维平面。
当且仅当向量$\Vb$在该二维平面中时,该方程有解。


Expand Down Expand Up @@ -344,7 +345,7 @@ \section{线性相关和生成子空间}
综上所述,这意味着该矩阵必须是一个\firstgls{square},即$m=n$,并且所有列向量都是线性无关的。一个列向量线性相关的方阵被称之为\firstgls{singular}。


如果矩阵$A$不是一个方阵或者是一个奇异的方阵,该方程仍然可能有解。
如果矩阵$\MA$不是一个方阵或者是一个奇异的方阵,该方程仍然可能有解。
但是我们不能使用逆矩阵去求解。


Expand Down Expand Up @@ -387,7 +388,7 @@ \section{范数}
$p=2$时,$L^2$被称为\firstgls{euclidean_norm}。
它表示从原点出发到向量$\Vx$确定的点的欧几里得距离。
$L^2$范数十分频繁地出现在机器学习中,它经常被简化表示为$\norm{x}$,略去了下标$2$
平方$L^2$范数也经常被用来衡量向量的大小,可以简单地t通过\gls{dot_product}$\Vx^\top\Vx$计算。
平方$L^2$范数也经常被用来衡量向量的大小,可以简单地通过\gls{dot_product}$\Vx^\top\Vx$计算。


平方$L^2$范数在数学和计算上都比$L^2$范数本身更方便。
Expand Down Expand Up @@ -423,7 +424,8 @@ \section{范数}
有时候我们可能也需要衡量矩阵的大小。
在深度学习中,最常见的做法是使用\firstgls{frobenius_norm},
\begin{equation}
\norm{A}_F = \sqrt{\sum_{i,j} A_{i,j}^2},
\norm{\MA}_F = \sqrt{\sum_{i,j} A_{i,j}^2},
%%lyj 原文是\norm{A}_F ...
\end{equation}
类似于向量的$L^2$范数。

Expand Down Expand Up @@ -472,7 +474,7 @@ \section{特殊类型的矩阵和向量}
例如,如果$\MA$一个表示距离的矩阵,$\MA_{i,j}$表示点$i$到点$j$的距离,那么$\MA_{i,j}=\MA_{j,i}$,因为距离函数是对称的。


\firstgls{unit_vector}是具有\emph{单位范数}的向量:
\firstgls{unit_vector}是具有\firstgls{unit_norm}的向量:
\begin{equation}
\norm{\Vx}_2=1.
\end{equation}
Expand Down Expand Up @@ -526,15 +528,15 @@ \section{\glsentrytext{eigendecomposition}}
(类似地,我们也可以定义\firstgls{left_Svector}$\Vv^\top\MA=\lambda \Vv^\top$,但是通常我们更关注\firstgls{right_Svector})。


如果$\Vv$$\MA$的特征向量,那么任何放缩后的向量$s\Vv$($s\in \SetR$)也是$\MA$的特征向量。
如果$\Vv$$\MA$的特征向量,那么任何放缩后的向量$s\Vv$($s\in \SetR$$s\neq 0$)也是$\MA$的特征向量。
此外,$s\Vv$$\Vv$有相同的特征值。
基于这个原因,通常我们只考虑单位特征向量。


假设矩阵$\MA$$n$个线性无关的特征向量$\{\Vv^{(1)}, \dots, \Vv^{(n)}\}$,对应着特征值$\{\lambda_1, \dots , \lambda_n \}$
我们将特征向量连接一个矩阵,使得每一列是一个特征向量:$V=[\Vv^{(1)}, \dots, \Vv^{(n)}]$.
类似地,我们也可以将特征值连接成一个向量$\Vlambda = [\lambda_1, \dots , \lambda_n]^\top$
因此$\MA$\gls{eigendecomposition}可以记作
因此$\MA$\firstgls{eigendecomposition}可以记作
\begin{equation}
\MA = \MV \text{diag}(\mathbf{\Vlambda}) \MV^{-1}.
\end{equation}
Expand Down Expand Up @@ -636,7 +638,7 @@ \section{\gls{SVD}}
\MA$的非零特征值是$\MA^\top\MA$特征值的平方根,也是$\MA\MA^\top$特征值的平方根。


\firstgls{SVD}最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。我们将在下一节中探讨。
\glssymbol{SVD}最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。我们将在下一节中探讨。



Expand Down Expand Up @@ -782,7 +784,7 @@ \section{实例:\glsentrytext{PCA}}
在PCA算法中,我们使用$L^2$范数:
\begin{equation}
\label{eq:2.52}
\Vc^* = \underset{\Vc}{\arg\min} \norm{x-g(\Vc)}_2.
\Vc^* = \underset{\Vc}{\arg\min} \norm{\Vx-g(\Vc)}_2.
\end{equation}


Expand Down
50 changes: 25 additions & 25 deletions Chapter3/probability_and_information_theory.tex
Original file line number Diff line number Diff line change
Expand Up @@ -199,10 +199,10 @@ \section{\glsentrytext{conditional_probability}}

在很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时,出现的概率。
这种概率叫做\gls{conditional_probability}。
我们将给定$\RSx = x$$\RSy = y$发生的\gls{conditional_probability}记为$P(\RSy = y| \RSx =x)$
我们将给定$\RSx = x$$\RSy = y$发生的\gls{conditional_probability}记为$P(\RSy = y\mid \RSx =x)$
这个\gls{conditional_probability}可以通过下面的公式计算:
\begin{equation}
P(\RSy = y| \RSx = x) = \frac{P(\RSy = y, \RSx = x)}{P(\RSx = x)}
P(\RSy = y\mid \RSx = x) = \frac{P(\RSy = y, \RSx = x)}{P(\RSx = x)}
\label{eq: 3.5}
\end{equation}
\gls{conditional_probability}只在$P(\RSx = x)>0$时有定义。
Expand All @@ -218,7 +218,7 @@ \section{\glsentrytext{conditional_probability}的\glsentrytext{chain_rule}}

任何多维\gls{RV}的\gls{joint_probability_distribution},都可以分解成只有一个变量的\gls{conditional_probability}相乘的形式:
\begin{equation}
P(\RSx^{(1)}, \ldots, \RSx^{(n)}) = P(\RSx^{(1)}) \Pi_{i=2}^n P(\RSx^{(i)} | \RSx^{(1)}, \ldots, \RSx^{(i-1)})
P(\RSx^{(1)}, \ldots, \RSx^{(n)}) = P(\RSx^{(1)}) \Pi_{i=2}^n P(\RSx^{(i)} \mid \RSx^{(1)}, \ldots, \RSx^{(i-1)})
\end{equation}

% -- 57 --
Expand All @@ -227,9 +227,9 @@ \section{\glsentrytext{conditional_probability}的\glsentrytext{chain_rule}}
它可以直接从公式\ref{eq: 3.5}\gls{conditional_probability}的定义中得到。
例如,使用两次定义可以得到
\begin{eqnarray*}
P(\RSa, \RSb, \RSc) &=& P(\RSa | \RSb, \RSc) P(\RSb, \RSc)\\
P(\RSb, \RSc) &=& P(\RSb | \RSc) P(\RSc)\\
P(\RSa, \RSb, \RSc) &=& P(\RSa | \RSb, \RSc) P(\RSb | \RSc) P(\RSc).
P(\RSa, \RSb, \RSc) &=& P(\RSa \mid \RSb, \RSc) P(\RSb, \RSc)\\
P(\RSb, \RSc) &=& P(\RSb \mid \RSc) P(\RSc)\\
P(\RSa, \RSb, \RSc) &=& P(\RSa \mid \RSb, \RSc) P(\RSb \mid \RSc) P(\RSc).
\end{eqnarray*}

\section{独立性和条件独立性}
Expand All @@ -242,11 +242,11 @@ \section{独立性和条件独立性}

两个\gls{RV}$\RSx$$\RSy$在给定\gls{RV}$z$\firstgls{conditionally_independent},如果关于$\RSx$$\RSy$\gls{conditional_probability}分布对于$z$的每一个值都可以写成乘积的形式:
\begin{equation}
\forall x \in \RSx, y \in \RSy, z \in \RSz, p( \RSx=x, \RSy=y | \RSz=z) =
p(\RSx = x | \RSz = z) p(\RSy = y | \RSz = z).
\forall x \in \RSx, y \in \RSy, z \in \RSz, p( \RSx=x, \RSy=y \mid \RSz=z) =
p(\RSx = x \mid \RSz = z) p(\RSy = y \mid \RSz = z).
\end{equation}

我们可以采用一种简化形式来表示独立性和条件独立性:$\RSx \bot \RSy$表示$\RSx$$\RSy$相互独立,$\RSx \bot \RSy | \RSz$表示$\RSx$$\RSy$在给定$\RSz$时条件独立。
我们可以采用一种简化形式来表示独立性和条件独立性:$\RSx \bot \RSy$表示$\RSx$$\RSy$相互独立,$\RSx \bot \RSy \mid \RSz$表示$\RSx$$\RSy$在给定$\RSz$时条件独立。

\section{\glsentrytext{expectation},\glsentrytext{variance}和\glsentrytext{covariance}}
\label{sec:expectation_variance_and_covariance}
Expand Down Expand Up @@ -429,7 +429,7 @@ \subsection{\glsentrytext{exponential_distribution}和\glsentrytext{laplace_dist

一个非常相关的\gls{PD}是\firstgls{laplace_distribution},它允许我们在任意一点$\mu$处设置\gls{PD}的峰值
\begin{equation}
\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right)
\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right).
\end{equation}

\subsection{\glsentrytext{dirac_distribution}和\glsentrytext{empirical_distribution}}
Expand Down Expand Up @@ -467,7 +467,7 @@ \subsection{分布的混合}
混合分布由一些组件(component)分布构成。
每次实验,样本是由哪个组件分布产生的取决于从一个\gls{multinoulli_distribution}中采样的结果:
\begin{equation}
P(\RSx) = \sum_i P(\RSc = i) P(\RSx | \RSc = i)
P(\RSx) = \sum_i P(\RSc = i) P(\RSx \mid \RSc = i),
\end{equation}
这里$P(\RSc)$是对各组件的一个\gls{multinoulli_distribution}。

Expand All @@ -481,19 +481,19 @@ \subsection{分布的混合}
混合模型使我们能够一瞥以后会用到的一个非常重要的概念——\firstgls{latent_variable}。
\gls{latent_variable}是我们不能直接观测到的\gls{RV}。
混合模型的组件变量$\RSc$就是其中一个例子。
\gls{latent_variable}在联合分布中可能和$\RSx$有关,在这种情况下,$P(\RSx, \RSc) = P(\RSx | \RSc)P(\RSc)$
\gls{latent_variable}的分布$P(\RSc)$以及关联\gls{latent_variable}和观测变量的条件分布$P(\RSx |\RSc)$,共同决定了分布$P(\RSx)$的形状,尽管描述$P(\RSx)$时可能并不需要\gls{latent_variable}。
\gls{latent_variable}在联合分布中可能和$\RSx$有关,在这种情况下,$P(\RSx, \RSc) = P(\RSx \mid \RSc)P(\RSc)$
\gls{latent_variable}的分布$P(\RSc)$以及关联\gls{latent_variable}和观测变量的条件分布$P(\RSx \mid\RSc)$,共同决定了分布$P(\RSx)$的形状,尽管描述$P(\RSx)$时可能并不需要\gls{latent_variable}。
\gls{latent_variable}会在\ref{sec:learning_about_dependencies}一节中深入讨论。

一个非常强大且常见的混合模型是\firstgls{GMM},它的组件$p(\RSx | \RSc= i)$\gls{gaussian_distribution}。
一个非常强大且常见的混合模型是\firstgls{GMM},它的组件$p(\RSx \mid \RSc= i)$\gls{gaussian_distribution}。
每个组件都有各自的参数,均值$\bm{\mu}^{(i)}$\gls{covariance_matrix}$\bm{\Sigma}^{(i)}$
有一些混合可以有更多的限制。
例如,\gls{covariance_matrix}可以通过$\bm{\Sigma}^{(i)} = \bm{\Sigma}, \forall i$的形式在组件之间共享参数。
和单个\gls{gaussian_distribution}一样,\gls{GMM}有时会限制每个组件的\gls{covariance_matrix}是对角的或者各向同性的(标量乘以单位矩阵)。

除了均值和\gls{covariance}以外,\gls{GMM}的参数指明了给每个组件$i$\firstgls{prior_probability}$\alpha_i = P(\RSc = i)$
``先验''一词表明了在观测到$\RSx$\emph{之前}传递给模型关于$\RSc$的信念。
作为对比,$P(\RSc | \bm{x})$\firstgls{posterior_probability},因为它是在观测到$\RSx$\emph{之后}进行计算的。
作为对比,$P(\RSc \mid \bm{x})$\firstgls{posterior_probability},因为它是在观测到$\RSx$\emph{之后}进行计算的。
\gls{GMM}是概率密度的\firstgls{universal_approximator},在这种意义上,任何平滑的概率密度都可以用具有足够多组件的\gls{GMM}以任意精度来逼近。

\ref{fig:chap3_mog_color}演示了某个\gls{GMM}生成的样例。
Expand Down Expand Up @@ -534,7 +534,7 @@ \section{常用函数的一些性质}

另外一个经常遇到的函数是\firstgls{softplus_function}\citep{secondorder:2001:nips}:
\begin{equation}
\zeta(x) = \log(1+\exp(x))
\zeta(x) = \log(1+\exp(x)).
\end{equation}
\gls{softplus_function}可以用来产生\gls{normal_distribution}的$\beta$$\sigma$参数,因为它的范围是$(0,\infty)$
当处理包含sigmoid函数的表达式时它也经常出现。
Expand Down Expand Up @@ -582,12 +582,12 @@ \section{常用函数的一些性质}
\section{\glsentrytext{bayes_rule}}
\label{sec:bayes_rule}

我们经常会需要在已知$P(\RSy | \RSx)$时计算$P(\RSx | \RSy)$
我们经常会需要在已知$P(\RSy \mid \RSx)$时计算$P(\RSx \mid \RSy)$
幸运的是,如果还知道$P(\RSx)$,我们可以用\firstgls{bayes_rule}来实现这一目的:
\begin{equation}
P(\RSx | \RSy) = \frac{P(\RSx) P(\RSy | \RSx)}{P(\RSy)}.
P(\RSx \mid \RSy) = \frac{P(\RSx) P(\RSy \mid \RSx)}{P(\RSy)}.
\end{equation}
注意到$P(\RSy)$出现在上面的公式中,它通常使用$P(\RSy) = \sum_x P(\RSy | x) P(x)$来计算,所以我们并不需要事先知道$P(\RSy)$的信息。
注意到$P(\RSy)$出现在上面的公式中,它通常使用$P(\RSy) = \sum_x P(\RSy \mid x) P(x)$来计算,所以我们并不需要事先知道$P(\RSy)$的信息。

\gls{bayes_rule}可以从\gls{conditional_probability}的定义直接推导得出,但我们最好记住这个公式的名字,因为很多文献通过名字来引用这个公式。
这个公式是以Reverend Thomas Bayes来命名的,他是第一个发现这个公式的特例的人。
Expand Down Expand Up @@ -691,7 +691,7 @@ \section{信息论}

为了满足上述三个性质,我们定义一个事件$\RSx = x$\firstgls{self_information}为
\begin{equation}
I(x) = -\log P(x)
I(x) = -\log P(x).
\end{equation}
在本书中,我们总是用$\log$来表示自然对数,底数为$e$
因此我们定义的$I(x)$单位是\firstgls{nats}。
Expand All @@ -704,7 +704,7 @@ \section{信息论}
\gls{self_information}只处理单个的输出。
我们可以用\firstgls{Shannon_entropy}来对整个\gls{PD}中的不确定性总量进行量化:
\begin{equation}
H(\RSx) = \SetE_{\RSx \sim P}[I(x)] = -\SetE_{\RSx \sim P}[\log P(x)].
H(\RSx) = \SetE_{\RSx \sim P}[I(x)] = -\SetE_{\RSx \sim P}[\log P(x)],
\end{equation}
也记作$H(P)$
换言之,一个分布的\gls{Shannon_entropy}是指遵循这个分布的事件所产生的期望信息总量。
Expand Down Expand Up @@ -773,7 +773,7 @@ \section{\glsentrytext{structured_probabilistic_models}}
例如,假设我们有三个\gls{RV}$\RSa, \RSb$$\RSc$,并且$\RSa$影响$\RSb$的取值,$\RSb$影响$\RSc$的取值,但是$\RSa$$\RSc$在给定$\RSb$时是条件独立的。
我们可以把全部三个变量的\gls{PD}重新表示为两个变量的\gls{PD}的连乘形式:
\begin{equation}
p(\RSa, \RSb, \RSc) = p(\RSa)p(\RSb| \RSa)p(\RSc|\RSb).
p(\RSa, \RSb, \RSc) = p(\RSa)p(\RSb\mid \RSa)p(\RSc\mid\RSb).
\end{equation}

这种因子分解可以极大地减少用来描述一个分布的参数的数量。
Expand All @@ -790,7 +790,7 @@ \section{\glsentrytext{structured_probabilistic_models}}
\firstgls{directed}模型使用带有有向边的图,它们用\gls{conditional_probability}分布来表示因子分解,就像上面的例子。
特别地,有向模型对于分布中的每一个\gls{RV}$\RSx_i$都包含着一个影响因子,这个组成$\RSx_i$\gls{conditional_probability}的影响因子被称为$\RSx_i$的双亲,记为$Pa_\CalG(\RSx_i)$
\begin{equation}
p(\RVx) = \prod_i p(\RSx_i | Pa_\CalG(\RSx_i)).
p(\RVx) = \prod_i p(\RSx_i \mid Pa_\CalG(\RSx_i)).
\end{equation}
\ref{fig:chap3_directed}给出了一个有向图的例子以及它表示的\gls{PD}的因子分解。
\begin{figure}[!htb]
Expand Down Expand Up @@ -837,9 +837,9 @@ \section{\glsentrytext{structured_probabilistic_models}}
它们不是互相排斥的\gls{PD}族。
有向或者无向不是\gls{PD}的特性;它是\gls{PD}的一种特殊\firstgls{description}所具有的特性,但是任何的\gls{PD}都可以用两种方式进行描述。

在本书第|||c|||部分和第|||c|||部分中, 我们使用\gls{structured_probabilistic_models}仅仅是作为一门语言,来描述不同的机器学习算法选择表示的直接的概率关系。
在本书第\ref{part:applied_math_and_machine_learning_basics}部分和第\ref{part:deep_networks_modern_practices}部分中, 我们使用\gls{structured_probabilistic_models}仅仅是作为一门语言,来描述不同的机器学习算法选择表示的直接的概率关系。
一直到研究课题的讨论之前,不会需要用到\gls{structured_probabilistic_models}的深入理解。
在第|||c|||部分的研究课题中,我们会更为详尽地探讨\gls{structured_probabilistic_models}。
在第\ref{part:deep_learning_research}部分的研究课题中,我们会更为详尽地探讨\gls{structured_probabilistic_models}。

本章复习了概率论中与深度学习最为相关的一些基本概念。
还剩下一些基本的数学工具需要讨论:数值方法。
Expand Down
1 change: 1 addition & 0 deletions Chapter4/numerical_computation.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Shenjian Zhao
\chapter{数值计算}
\label{chap:numerical_computation}
Expand Down
3 changes: 2 additions & 1 deletion Chapter5/machine_learning_basics.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
% !Mode:: "TeX:UTF-8"
% Translator: Yujun Li
\chapter{\glsentrytext{ML}基础}
\label{chap:machine_learning_basics}
Expand Down Expand Up @@ -1713,7 +1714,7 @@ \section{推动\glsentrytext{DL}的挑战}
\subsection{\glsentrytext{curse_of_dimensionality}}
\label{sec:the_curse_of_dimensionality}
当数据的维数很高时,很多\gls{ML}问题变得相当困难。
这种现象被称为\firstgls{curse_of_dimensionality} 维数灾难(curse of dimensionality)。
这种现象被称为\firstgls{curse_of_dimensionality}(curse of dimensionality)。
特别值得注意的是,一组变量的不同可能配置数量随着变量数目的增加而指数级增长。

维数灾难发生在计算机科学的许多地方,在\gls{ML}中尤其如此。
Expand Down
Loading

0 comments on commit 9fc9a35

Please sign in to comment.