adjust sentence

Former-commit-id: bee94ccc7d5ba933d89d943c6dcedb03352e87be
DMSGUO · Dec 16, 2016 · e4359ba · e4359ba
1 parent ce65e44
commit e4359ba
Show file tree

Hide file tree

Showing 7 changed files with 84 additions and 82 deletions.
diff --git a/Chapter12/applications.tex b/Chapter12/applications.tex
diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -7,7 +7,7 @@ \chapter{\glsentrytext{linear_factor}}
 
 
 许多深度学习的研究前沿涉及到了建立输入的概率模型$p_{\text{model}}(\Vx)$。
-原则上说，给定任何其他变量的情况下，这样的模型可以使用概率推理来预测其环境中的任何变量。
+原则上说，给定任何其他变量的情况下，这样的模型可以使用概率推断来预测其环境中的任何变量。
 这些模型中的许多还具有隐变量$\Vh$，其中$p_{\text{model}}(\Vx) = \SetE_{\Vh} p_{\text{model}}(\Vx\vert\Vh)$。
 这些隐变量提供了表示数据的另一种方式。
  基于隐变量的分布式表示可以有很多优点，这些我们在\gls{deep_feedforward_network}和\gls{RNN}中已经发现。
@@ -352,7 +352,7 @@ \section{\glsentrytext{sparse_coding}}
 由于在$\Vh$上施加$L^1$范数，这个过程将产生稀疏的$\Vh^*$（\secref{sec:l1_regularization}）。
 % 487
 
-为了训练模型而不仅仅是进行推理，我们交替迭代关于$\Vh$和$\MW$的最小化过程。
+为了训练模型而不仅仅是进行推断，我们交替迭代关于$\Vh$和$\MW$的最小化过程。
 在本文中，我们将$\beta$视为超参数。
 通常将其设置为1，因为其在此优化问题中的作用与$\lambda$类似，没有必要使用两个超参数。 
 原则上，我们还可以将$\beta$作为模型的参数，并学习它。
@@ -368,14 +368,14 @@ \section{\glsentrytext{sparse_coding}}
 
 如果我们从Laplace先验中采样$\Vh$，$\Vh$的元素实际上为零是一个零概率事件。
 \gls{generative_model}本身并不稀疏，只有特征提取器是。
-\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}描述了不同模型族中的近似推理，和spike and slab\gls{sparse_coding}模型，其中先验的样本通常包含许多0。
+\citet{Goodfeli-et-al-TPAMI-Deep-PrePrint-2013-small}描述了不同模型族中的近似推断，和spike and slab\gls{sparse_coding}模型，其中先验的样本通常包含许多0。
 % 488 head
 
 与非参数化的\gls{encoder}结合的\gls{sparse_coding}方法原则上可以比任何特定的参数化的\gls{encoder}更好地最小化重构误差和对数先验的组合。
 另一个优点是\gls{encoder}没有泛化误差。
 参数化的\gls{encoder}必须泛化地学习如何将$\Vx$映射到$\Vh$。
 对于与训练数据差异很大的异常的$\Vx$，所学习的参数化的\gls{encoder}可能无法找到对应精确重建的$\Vh$或稀疏的编码。
-对于\gls{sparse_coding}模型的绝大多数形式，推理问题是凸的，优化过程将总是找到最优值（除非出现简并的情况，例如重复的权重向量）。
+对于\gls{sparse_coding}模型的绝大多数形式，推断问题是凸的，优化过程将总是找到最优值（除非出现简并的情况，例如重复的权重向量）。
 显然，稀疏和重构成本仍然可以在不熟悉的点上升，但这是归因于\gls{decoder}权重中的泛化误差，而不是\gls{encoder}中的泛化误差。
 当\gls{sparse_coding}用作分类器的特征提取器时，而不是使用参数化的函数来预测时，基于优化的\gls{sparse_coding}模型的编码过程中泛化误差的减小可导致更好的泛化能力。
 \citet{Coates2011b}证明了在对象识别任务中\gls{sparse_coding}特征比基于参数化的\gls{encoder}（如线性sigmoid \gls{AE}）的特征拥有更好的泛化能力。

diff --git a/Chapter16/structured_probabilistic_modelling.tex b/Chapter16/structured_probabilistic_modelling.tex
@@ -207,7 +207,7 @@ \subsection{\glsentrytext{directed_model}}
 % 554
 
 
-有一种\gls{structured_probabilistic_models}是\firstgls{directed_graphical_model}，也被叫做\firstgls{BN}或者\firstgls{bayesian_network}\footnote{当我们希望强调从网络中计算出的值的推理本质，尤其是强调这些值代表的是置信的程度大小时，Judea Pearl建议使用\gls{bayesian_network}这个术语。} \citep{pearl85bayesian}。
+有一种\gls{structured_probabilistic_models}是\firstgls{directed_graphical_model}，也被叫做\firstgls{BN}或者\firstgls{bayesian_network}\footnote{当我们希望强调从网络中计算出的值的推断本质，尤其是强调这些值代表的是置信的程度大小时，Judea Pearl建议使用\gls{bayesian_network}这个术语。} \citep{pearl85bayesian}。
 % 554
 
 
@@ -671,7 +671,7 @@ \subsection{在\glsentrytext{directed_model}和\glsentrytext{undirected_model}
 即使在使用单个概率分布时，我们有时可以在不同的建模方式之间切换。
 有时，如果我们观察到变量的某个子集，或者如果我们希望执行不同的计算任务，换一种建模方式可能更合适。
 例如，\gls{directed_model}通常提供了一种高效的从模型中抽取样本（在\secref{sec:sampling_from_graphical_models}中描述）的直接的方法。
-而\gls{undirected_model}公式通常用于近似推理过程（我们将在\chapref{chap:approximate_inference}中看到，\eqnref{eqn:1956}强调了\gls{undirected_model}的作用）。
+而\gls{undirected_model}公式通常用于近似推断过程（我们将在\chapref{chap:approximate_inference}中看到，\eqnref{eqn:1956}强调了\gls{undirected_model}的作用）。
 % 566
 
 
@@ -834,7 +834,7 @@ \section{从\glsentrytext{graphical_models}中采样}
 
 
 不幸的是，\gls{ancestral_sampling}仅适用于\gls{directed_model}。 
-我们可以通过将\gls{undirected_model}转换为\gls{directed_model}来实现从\gls{undirected_model}中抽样，但是这通常需要解决棘手的推理问题（以确定新有向图的根节点上的边缘分布），或者需要引入许多边，从而会使得到的\gls{directed_model}变得难以处理。
+我们可以通过将\gls{undirected_model}转换为\gls{directed_model}来实现从\gls{undirected_model}中抽样，但是这通常需要解决棘手的推断问题（以确定新有向图的根节点上的边缘分布），或者需要引入许多边，从而会使得到的\gls{directed_model}变得难以处理。
 从\gls{undirected_model}抽样，而不首先将其转换为\gls{directed_model}的做法似乎需要解决循环依赖的问题。 
 每个变量与每个其他变量相互作用，因此对于抽样过程没有明确的起点。
 不幸的是，从\gls{undirected_model}模型中抽取样本是一个昂贵的过程。
@@ -867,7 +867,7 @@ \section{结构化建模的优势}
 
 使用\gls{structured_probabilistic_models}的一个较小的益处是它们允许我们明确地将给定的现有的知识与知识的学习或者推断分开。
 这使我们的模型更容易开发和调试。 
-我们可以设计，分析和评估适用于更广范围的学习算法和推理算法。
+我们可以设计，分析和评估适用于更广范围的学习算法和推断算法。
 并且我们可以设计能够捕捉到我们认为重要的关系的模型。
 然后，我们可以组合这些不同的算法和结构，并获得不同可能性的笛卡尔乘积。
 为每种可能的情况设计端到端算法是困难的。
@@ -936,8 +936,8 @@ \section{推断和近似推断}
 所有这些都是\firstgls{inference}问题的例子，其中我们必须预测给定其他变量的情况下一些变量的值，或者在给定其他变量的值的情况下预测一些变量的概率分布。
 % 574
 
-不幸的是，对于大多数有趣的深层模型，这些推理问题都是难以处理的，即使我们使用结构化的\gls{graphical_models}来简化它们。
-图结构允许我们用合理数量的参数来表示复杂的高维分布，但是用于\gls{DL}的\gls{graphical_models}并不满足这样的条件，从而难以实现高效的推理。
+不幸的是，对于大多数有趣的深层模型，这些推断问题都是难以处理的，即使我们使用结构化的\gls{graphical_models}来简化它们。
+图结构允许我们用合理数量的参数来表示复杂的高维分布，但是用于\gls{DL}的\gls{graphical_models}并不满足这样的条件，从而难以实现高效的推断。
 % 574
 
 
@@ -957,8 +957,8 @@ \section{推断和近似推断}
 % 574
 
 
-这促使我们使用近似推理。
-在\gls{DL}中，这通常涉及变分推理，其中通过寻求尽可能接近真实分布的近似分布$q(\RVh\vert\RVv)$来逼近真实分布$p(\RVh\vert\Vv)$。
+这促使我们使用近似推断。
+在\gls{DL}中，这通常涉及变分推断，其中通过寻求尽可能接近真实分布的近似分布$q(\RVh\vert\RVv)$来逼近真实分布$p(\RVh\vert\Vv)$。
 这个技术在\chapref{chap:approximate_inference}中有深入的描述。
 % 574 end
 
@@ -1006,16 +1006,16 @@ \section{结构化概率模型的\glsentrytext{DL}方法}
 另一个明显的区别是\gls{DL}方法中经常使用的连接类型。
 深度图模型通常具有大的与其它单元组全连接的单元组，使得两个组之间的交互可以由单个矩阵描述。
 传统的\gls{graphical_models}具有非常少的连接，并且每个变量的连接的选择可以单独设计。
-模型结构的设计与推理算法的选择紧密相关。
+模型结构的设计与推断算法的选择紧密相关。
 \gls{graphical_models}的传统方法通常旨在保持精确推断的可追踪性。
-当这个约束太强的时候，我们可以采用一种流行的被称为是\firstgls{loopy_belief_propagation}的近似推理算法。
+当这个约束太强的时候，我们可以采用一种流行的被称为是\firstgls{loopy_belief_propagation}的近似推断算法。
 这两种方法通常在连接非常稀疏的图上有很好的效果。
 相比之下，在\gls{DL}中使用的模型倾向于将每个可见单元$\RSv_i$连接到非常多的隐藏单元$\RSh_j$上，从而使得$\RVh$可以获得一个$\RSv_i$的分布式表示（也可能是其他几个可观察变量）。
 分布式表示具有许多优点，但是从\gls{graphical_models}和计算复杂性的观点来看，分布式表示有一个缺点就是对于精确推断和循环信任传播等传统技术来说不能产生足够稀疏的图。
 结果，\gls{graphical_models}和深度图模型的最大的区别之一就是\gls{DL}中从来不会使用\gls{loopy_belief_propagation}。
 相反的，许多\gls{DL}模型可以用来加速\gls{gibbs_sampling}或者变分推断。
 此外，\gls{DL}模型包含了大量的隐含变量，使得高效的数值计算代码显得格外重要。
-除了选择高级推理算法之外，这提供了另外的动机，用于将结点分组成层，相邻两层之间用一个矩阵来描述相互作用。
+除了选择高级推断算法之外，这提供了另外的动机，用于将结点分组成层，相邻两层之间用一个矩阵来描述相互作用。
 这要求实现算法的各个步骤具有高效的矩阵乘积运算，或者专门适用于稀疏连接的操作，例如块对角矩阵乘积或卷积。
 % 576
 

diff --git a/Chapter19/approximate_inference.tex b/Chapter19/approximate_inference.tex
@@ -509,7 +509,7 @@ \subsection{离散隐含变量}
 \end{align}
 % 635  
 
-为了应用固定点更新的推理规则，我们通过令方程~\eqref{eqn:1943}等于0来解$\hat{h}_i$：
+为了应用固定点更新的推断规则，我们通过令方程~\eqref{eqn:1943}等于0来解$\hat{h}_i$：
 
 \begin{align}
 \label{eqn:1944}
@@ -784,12 +784,12 @@ \subsection{学习和推断之间的相互作用}
 % 641 end  19.4.4  
 
 
-%使用近似推理作为学习算法的一部分影响学习过程，反过来这也影响推理算法的准确性。
-在学习算法中使用近似推理会影响学习的过程，反过来这也会影响推理算法的准确性。
+%使用近似推断作为学习算法的一部分影响学习过程，反过来这也影响推断算法的准确性。
+在学习算法中使用近似推断会影响学习的过程，反过来这也会影响推断算法的准确性。
 % 641 end
 
 
-具体来说，训练算法倾向于以使得近似推理算法中的近似假设变得更加真实的方向来适应模型。<bad>
+具体来说，训练算法倾向于以使得近似推断算法中的近似假设变得更加真实的方向来适应模型。<bad>
 当训练参数时，变分学习增加
 \begin{align}
 \label{eqn:1968}
@@ -801,7 +801,7 @@ \subsection{学习和推断之间的相互作用}
 % 642
 
 这种行为使得我们做的近似假设变得合理。 %这种行为使我们的近似假设成为自我实现。
-<bad> 如果我们用单峰值的模型近似后验分布，我们将获得一个真实后验的模型，该模型比我们通过使用精确推理训练模型获得的模型更接近单峰。
+<bad> 如果我们用单峰值的模型近似后验分布，我们将获得一个真实后验的模型，该模型比我们通过使用精确推断训练模型获得的模型更接近单峰。
 % 642
 
 
@@ -838,13 +838,13 @@ \subsection{\glsentrytext{wake_sleep}}
 \firstgls{wake_sleep}算法\citep{Hinton95,Frey96}通过从模型分布中抽取$\Vv$和$\Vh$样本来解决这个问题。
 例如，在\gls{directed_model}中，这可以通过执行从$\Vh$开始并在$\Vv$结束的\gls{ancestral_sampling}来高效地完成。
 然后推断网络可以被训练来执行反向的映射：预测哪一个$\Vh$产生了当前的$\Vv$。
-<bad>这种方法的主要缺点是我们将只能够训练推理网络在模型下具有高概率的v值。
-在学习早期，模型分布将不像数据分布，因此推理网络将不具有学习类似数据的样本的机会。
+<bad>这种方法的主要缺点是我们将只能够训练推断网络在模型下具有高概率的v值。
+在学习早期，模型分布将不像数据分布，因此推断网络将不具有学习类似数据的样本的机会。
 % 643
 
 
 <bad>在\secref{sec:stochastic_maximum_likelihood_and_contrastive_divergence}中，我们看到睡眠在人类和动物中的作用的一个可能的解释是，梦想可以提供\gls{monte_carlo}训练算法用于近似\gls{undirected_model}的对数\gls{partition_function}的负梯度的负相位样本。
-生物作梦的另一个可能的解释是它提供来自$p(\Vh,\Vv)$的样本，这可以用于训练推理网络在给定$\Vv$的情况下预测$\Vh$。
+生物作梦的另一个可能的解释是它提供来自$p(\Vh,\Vv)$的样本，这可以用于训练推断网络在给定$\Vv$的情况下预测$\Vh$。
 在某些意义上，这种解释比\gls{partition_function}的解释更令人满意。
 如果\gls{monte_carlo}算法仅使用梯度的正相位进行几个步骤，然后仅对梯级的负相位进行几个步骤，那么他们的结果不会很好。
 人类和动物通常醒来连续几个小时，然后睡着连续几个小时。
@@ -864,24 +864,24 @@ \subsection{\glsentrytext{learned}推断的其它形式}
 
 这种\gls{learned}近似推断策略已经被应用到了其它模型中。
 \citep{Salakhutdinov+Larochelle-2010}证明了在\gls{learned}推断网络中的单一路径相比于在\gls{DBM}中迭代\gls{mean_field}\gls{fixed_point_equation}能够得到更快的推断。
-训练过程基于运行推理网络，然后应用\gls{mean_field}的一步来改进其估计，并训练推理网络来输出这个精细的估计而不是其原始估计。
+训练过程基于运行推断网络，然后应用\gls{mean_field}的一步来改进其估计，并训练推断网络来输出这个精细的估计而不是其原始估计。
 % 644
 
 
 我们已经在\secref{sec:predictive_sparse_decomposition}中已经看到，预测性的稀疏分解模型训练浅层的\gls{encoder}网络以预测输入的\gls{sparse_coding}。
 这可以被看作是\gls{AE}和\gls{sparse_coding}之间的混合。
 为模型设计概率语义是可能的，其中\gls{encoder}可以被视为执行\gls{learned}近似\gls{MAP}推断。
-由于其浅层的\gls{encoder}，PSD不能实现我们在\gls{mean_field}推理中看到的单元之间的那种竞争。
-然而，该问题可以通过训练深度\gls{encoder}来执行\gls{learned}近似推理来补救，如ISTA技术\citep{Gregor+LeCun-ICML2010}。
+由于其浅层的\gls{encoder}，PSD不能实现我们在\gls{mean_field}推断中看到的单元之间的那种竞争。
+然而，该问题可以通过训练深度\gls{encoder}来执行\gls{learned}近似推断来补救，如ISTA技术\citep{Gregor+LeCun-ICML2010}。
 % 644
 
 
-近来\gls{learned}近似推理已经成为了\gls{VAE}形式的\gls{generative_model}中的主要方法之一\citep{Kingma+Welling-ICLR2014,Rezende-et-al-ICML2014}。
+近来\gls{learned}近似推断已经成为了\gls{VAE}形式的\gls{generative_model}中的主要方法之一\citep{Kingma+Welling-ICLR2014,Rezende-et-al-ICML2014}。
 在这种优美的方法中，不需要为推断网络构造显式的目标。
 反之，推断网络被用来定义$\CalL$，然后调整推断网络的参数来增大$\CalL$。这种模型在\secref{sec:variational_autoencoders}中详细描述。
 % 644
 
-我们可以使用近似推理来训练和使用大量的模型。
+我们可以使用近似推断来训练和使用大量的模型。
 许多模型将在下一章中被描述。
 % 644
 

diff --git a/deep_networks_modern_practices.tex b/deep_networks_modern_practices.tex
@@ -2,12 +2,12 @@
 \part{深层网络：现代实践}
 \label{part:deep_networks_modern_practices}
 
-\input{Chapter6/deep_feedforward_networks.tex}
-\input{Chapter7/regularization.tex}
-\input{Chapter8/optimization_for_training_deep_models.tex} 
-\input{Chapter9/convolutional_networks.tex}
-\input{Chapter10/sequence_modeling_rnn.tex}
-\input{Chapter11/practical_methodology.tex}
+%\input{Chapter6/deep_feedforward_networks.tex}
+%\input{Chapter7/regularization.tex}
+%\input{Chapter8/optimization_for_training_deep_models.tex} 
+%\input{Chapter9/convolutional_networks.tex}
+%\input{Chapter10/sequence_modeling_rnn.tex}
+%\input{Chapter11/practical_methodology.tex}
 \input{Chapter12/applications.tex}
 
 
diff --git a/dlbook_cn.tex b/dlbook_cn.tex
@@ -52,8 +52,8 @@
 breaklinks=true,
 colorlinks=false,
 bookmarks=true,
-%hidelinks=true,
-plainpages=false]{hyperref}
+hidelinks=true,
+plainpages=true]{hyperref}
 
 \usepackage{zref-abspage}
 \setcounter{secnumdepth}{3}
@@ -136,10 +136,10 @@
 \input{notation.tex}
 \mainmatter
 
-\input{Chapter1/introduction.tex}
-\input{applied_math_and_machine_learning_basics.tex}
+%\input{Chapter1/introduction.tex}
+%\input{applied_math_and_machine_learning_basics.tex}
 \input{deep_networks_modern_practices.tex}
-\input{deep_learning_research.tex}
+%\input{deep_learning_research.tex}
 \appendix
 
 \small{

diff --git a/terminology.tex b/terminology.tex
@@ -1872,7 +1872,7 @@
 
 \newglossaryentry{phoneme}
 {
-  name=音位,
+  name=音素,
   description={phoneme},
   sort={phoneme},
 }