change left to \emph{(left)}

DMSGUO · Mar 6, 2017 · 6329c3d · 6329c3d
1 parent 8801281
commit 6329c3d
Show file tree

Hide file tree

Showing 16 changed files with 137 additions and 136 deletions.
diff --git a/Chapter10/sequence_modeling_rnn.tex b/Chapter10/sequence_modeling_rnn.tex
@@ -115,8 +115,8 @@ \section{\glsentrytext{unfolding}\glsentrytext{computational_graph}}
 \fi
 \caption{没有输出的\gls{recurrent_network}。
 此\gls{recurrent_network}只处理来自输入$\Vx$的信息，将其合并到经过时间向前传播的状态$\Vh$。
-(左)回路原理图。 黑色方块表示单个\gls{time_step}的延迟。
-(右)同一网络被视为展开的计算图，其中每个节点现在与一个特定的时间实例相关联。
+\emph{(左)}回路原理图。 黑色方块表示单个\gls{time_step}的延迟。
+\emph{(右)}同一网络被视为展开的计算图，其中每个节点现在与一个特定的时间实例相关联。
 }
 \label{fig:chap10_rnn_circuit_unfolded}
 \end{figure}
@@ -175,8 +175,8 @@ \section{\glsentrytext{RNN}}
 损失$L$内部计算$\hat{\Vy} = \text{softmax}(\Vo)$，并将其与目标$\Vy$比较。
 \glssymbol{RNN}输入到隐藏的连接由权重矩阵$\MU$参数化，隐藏到隐藏的循环连接由权重矩阵$\MW$参数化以及隐藏到输出的连接由权重矩阵$\MV$参数化。
 \eqnref{eq:108a}定义了该模型中的前向传播。
-(左)使用循环连接绘制的\glssymbol{RNN}和它的损失。
-(右)同一网络被视为展开的计算图，其中每个节点现在与一个特定的时间实例相关联。
+\emph{(左)}使用循环连接绘制的\glssymbol{RNN}和它的损失。
+\emph{(右)}同一网络被视为展开的计算图，其中每个节点现在与一个特定的时间实例相关联。
 }
 \label{fig:chap10_hidden_recurrence_rnn}
 \end{figure}
@@ -197,8 +197,8 @@ \section{\glsentrytext{RNN}}
 \fi
 \caption{此类\glssymbol{RNN}的唯一循环是从输出到隐藏层的反馈连接。
 在每个\gls{time_step}~$t$，输入为$\Vx_t$，\gls{hidden_layer}激活为$\Vh^{(t)}$，输出为$\Vo^{(t)}$，目标为$\Vy^{(t)}$，损失为$L^{(t)}$。
-(左)回路原理图。
-(右)展开的计算图。
+\emph{(左)}回路原理图。
+\emph{(右)}展开的计算图。
 这样的\glssymbol{RNN}没有\figref{fig:chap10_hidden_recurrence_rnn}表示的RNN那样强大（只能表示更小的函数集合）。
 \figref{fig:chap10_hidden_recurrence_rnn}中的\glssymbol{RNN}可以选择将其想要的关于过去的任何信息放入隐藏表示$\Vh$中并且将$\Vh$传播到未来。
 该图中的\glssymbol{RNN}被训练为将特定输出值放入$\Vo$中，并且$\Vo$是允许传播到未来的唯一信息。
@@ -301,8 +301,8 @@ \subsection{\glsentrytext{teacher_forcing}和输出\glsentrytext{recurrent_netwo
 \fi
 \caption{\gls{teacher_forcing}的示意图。
 \gls{teacher_forcing}是一种训练技术，适用于输出与下一\gls{time_step}的隐藏状态存在连接的\glssymbol{RNN}。
-(左)训练时，我们将训练集中\emph{正确}的输出$\Vy^{(t)}$反馈到$\Vh^{(t+1)}$。
-(右)当模型部署后，真正的输出通常是未知的。
+\emph{(左)}训练时，我们将训练集中\emph{正确}的输出$\Vy^{(t)}$反馈到$\Vh^{(t+1)}$。
+\emph{(右)}当模型部署后，真正的输出通常是未知的。
 在这种情况下，我们用模型的输出$\Vo^{(t)}$近似正确的输出$\Vy^{(t)}$，并反馈回模型。
 }
 \label{fig:chap10_teacher_forcing}
@@ -696,7 +696,7 @@ \section{深度\glsentrytext{recurrent_network}}
 实验证据与我们需要足够的深度以执行所需映射的想法一致。
 读者可以参考\cite{Schmidhuber96,ElHihi+Bengio-nips8}或\cite{Jaeger2007}了解更早的关于深度\glssymbol{RNN}的研究。
 
-\cite{Graves-arxiv2013}第一个展示了将\glssymbol{RNN}的状态分为多层的显著好处，如\figref{fig:chap10_deep}（左）。
+\cite{Graves-arxiv2013}第一个展示了将\glssymbol{RNN}的状态分为多层的显著好处，如\figref{fig:chap10_deep}~\emph{(左)}。
 我们可以认为，在\figref{fig:chap10_deep}(a)所示层次结构中较低的层起到了将原始输入转化为对更高层的隐藏状态更合适表示的作用。
 \cite{Pascanu-et-al-ICLR2014}更进一步提出在上述三个块中各使用一个单独的\glssymbol{MLP}（可能是深度的），如\figref{fig:chap10_deep}(b)所示。
 考虑表示容量，我们建议在这三个步中都分配足够的容量，但增加深度可能会因为优化困难而损害学习效果。
@@ -1113,9 +1113,9 @@ \subsection{\glsentrytext{clipping_gradient}}
 \gls{gradient_clipping}可以使\gls{GD}在极陡峭的悬崖附近更合理地执行。
 这些陡峭的悬崖通常发生在\gls{recurrent_network}中，位于\gls{recurrent_network}近似线性的附近。
 悬崖在\gls{time_step}的数量上呈指数地陡峭，因为对于每个\gls{time_step}，权重矩阵都自乘一次。
-(左)没有\gls{gradient_clipping}的\gls{GD}越过这个小峡谷的底部，然后从悬崖面接收非常大的梯度。
+\emph{(左)}没有\gls{gradient_clipping}的\gls{GD}越过这个小峡谷的底部，然后从悬崖面接收非常大的梯度。
 大梯度灾难性地将参数推到图的轴外。
-(右)使用\gls{gradient_clipping}的\gls{GD}对悬崖的反应更温和。
+\emph{(右)}使用\gls{gradient_clipping}的\gls{GD}对悬崖的反应更温和。
 当它上升到悬崖面时，步长受到限制，使得它不会被推出靠近解的陡峭区域。
 经\citet{Pascanu+al-ICML2013-small}许可改编此图。
 }

diff --git a/Chapter11/practical_methodology.tex b/Chapter11/practical_methodology.tex
@@ -429,9 +429,9 @@ \subsection{\glsentrytext{grid_search}}
 \fi
 \caption{\gls{grid_search}和\gls{random_search}的比较。
 为了方便地说明，我们只展示两个\gls{hyperparameter}的例子，但是通常我们关注的问题中\gls{hyperparameter}个数会更多。
-（左）为了实现\gls{grid_search}，我们为每个\gls{hyperparameter}提供了一个值的集合。
+\emph{(左)}为了实现\gls{grid_search}，我们为每个\gls{hyperparameter}提供了一个值的集合。
 搜索算法对每一种在这些集合的交叉积中的\gls{hyperparameter}组合进行训练。
-（右）为了实现\gls{random_search}，我们给联合\gls{hyperparameter}赋予了一个概率分布。
+\emph{(右)}为了实现\gls{random_search}，我们给联合\gls{hyperparameter}赋予了一个概率分布。
 通常\gls{hyperparameter}之间是相互独立的。
 常见的这种分布的选择是均匀分布或者是对数均匀（从对数均匀分布中抽样，就是对从均匀分布中抽取的样本进行指数运算）的。
 然后这些搜索算法联合的\gls{hyperparameter}空间中采样，然后运行每一个样本。

diff --git a/Chapter12/applications.tex b/Chapter12/applications.tex
@@ -415,11 +415,11 @@ \subsubsection{对比度归一化}
 	\centerline{\includegraphics{Chapter12/figures/gcn_sphere_color}}
 \fi
 	\caption{\glssymbol{GCN}将样本投影到一个球上。
-（左）原始的输入数据可能拥有任意的范数。
-（中）$\lambda=0$时候的\glssymbol{GCN}可以完美地将所有的非零样本投影到球上。
+\emph{(左)}原始的输入数据可能拥有任意的范数。
+\emph{(中)}$\lambda=0$时候的\glssymbol{GCN}可以完美地将所有的非零样本投影到球上。
 这里我们令$s=1$，$\epsilon = 10^{-8}$。
 由于我们使用的\glssymbol{GCN}是基于归一化\gls{standard_deviation}而不是$L^2$范数，所得到的球并不是单位球。
-（右）$\lambda>0$的\gls{regularization}\glssymbol{GCN}将样本投影到球上，但是并没有完全地丢弃其范数中变化。
+\emph{(右)}$\lambda>0$的\gls{regularization}\glssymbol{GCN}将样本投影到球上，但是并没有完全地丢弃其范数中变化。
 $s$和$\epsilon$的取值与之前一样。}
 \label{fig:gcn_sphere_color}
 \end{figure}

diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -402,9 +402,9 @@ \section{\glsentrytext{sparse_coding}}
     \centerline{\includegraphics[width=\figwidth]{Chapter13/figures/s3c_samples}}
 \fi
 \caption{\gls{ss}\gls{sparse_coding}模型上在MNIST数据集训练的样例和权重。
-（左）这个模型中的样本和训练样本相差很大。
+\emph{(左)}这个模型中的样本和训练样本相差很大。
 第一眼看来，我们可能认为模型拟合得很差。
-（右）这个模型的权重向量已经学习到了如何表示笔迹，有时候还能写完整的数字。
+\emph{(右)}这个模型的权重向量已经学习到了如何表示笔迹，有时候还能写完整的数字。
 因此这个模型也学习到了有用的特征。
 问题在于特征的\gls{factorial}先验会导致特征子集合随机的组合。
 一些这样的子集能够合成可识别的MNIST集上的数字。

diff --git a/Chapter15/representation_learning.tex b/Chapter15/representation_learning.tex
@@ -576,11 +576,11 @@ \section{\glsentrytext{semi_supervised}解释因果关系}
 \caption{
 预测生成网络是一个学习哪些特征重要的例子。
 在这个例子中，预测生成网络已被训练成在特定视角预测人头的3D模型。
-（左）真实情况。
+\emph{(左)}真实情况。
 这是一张网络应该生成的正确图片。
-（中）由具有\gls{mean_squared_error}的预测生成网络生成的图片。
+\emph{(中)}由具有\gls{mean_squared_error}的预测生成网络生成的图片。
 因为与相邻皮肤相比，耳朵不会引起亮度的极大差异，所以它们对于模型学习表示中并不足够突出重要。
-（右）由具有\gls{mean_squared_error}和对抗损失的模型生成的图片。
+\emph{(右)}由具有\gls{mean_squared_error}和对抗损失的模型生成的图片。
 使用这个学习到的\gls{cost_function}，由于耳朵遵循可预测的模式，因此耳朵是显著重要的。
 学习哪些原因对于模型而言是足够重要和相关的，是一个重要的活跃研究领域。
 以上图片由\cite{lotter2015unsupervised}提供。

diff --git a/Chapter16/structured_probabilistic_modelling.tex b/Chapter16/structured_probabilistic_modelling.tex
@@ -102,8 +102,8 @@ \section{非结构化建模的挑战}
      \centerline{\includegraphics[width=0.9\textwidth]{Chapter16/figures/fig-ssrbm_samples}}
 \fi
 	\caption{自然图片的概率建模。
-（上）CIFAR-10数据集\citep{KrizhevskyHinton2009}中的$32\times 32$像素的样例图片。
-（下）从这个数据集上训练的\gls{structured_probabilistic_models}中抽出的样本。
+\emph{(上)}CIFAR-10数据集\citep{KrizhevskyHinton2009}中的$32\times 32$像素的样例图片。
+\emph{(下)}从这个数据集上训练的\gls{structured_probabilistic_models}中抽出的样本。
 每一个样本都出现在与其欧式距离最近的训练样本的格点中。
 这种比较使得我们发现这个模型确实能够生成新的图片，而不是记住训练样本。
 为了方便展示，两个集合的图片都经过了微调。
@@ -777,9 +777,9 @@ \subsection{在\glsentrytext{directed_model}和\glsentrytext{undirected_model}
 \fi
 \caption{\gls{complete_graph}的例子，\gls{complete_graph}能够描述任何的概率分布。
 这里我们展示了一个带有四个随机变量的例子。
-（左）完全无向图。
+\emph{(左)}完全无向图。
 在无向图中，\gls{complete_graph}是唯一的。
-（右）一个完全有向图。
+\emph{(右)}一个完全有向图。
 在有向图中，并不存在唯一的\gls{complete_graph}。
 我们选择一种变量的排序，然后对每一个变量，从它本身开始，向每一个指向顺序在其后面的变量画一条弧。
 因此存在着关于变量数阶乘数量级的不同种\gls{complete_graph}。
@@ -821,16 +821,16 @@ \subsection{在\glsentrytext{directed_model}和\glsentrytext{undirected_model}
 	\centerline{\includegraphics{Chapter16/figures/dm_to_um}}	
 \fi
 \caption{通过构造\gls{moralized_graph}将有向模型（上一行）转化为无向模型（下一行）的例子。
-（左）只需要把有向边替换成无向边就可以把这个简单的链转化为一个\gls{moralized_graph}。
+\emph{(左)}只需要把有向边替换成无向边就可以把这个简单的链转化为一个\gls{moralized_graph}。
 得到的无向模型包含了完全相同的独立关系和\gls{conditional_independent}关系。
-（中）这个图是在不丢失独立性的情况下是无法
+\emph{(中)}这个图是在不丢失独立性的情况下是无法
 %不丢失独立性的情况下无法
 转化为无向模型的最简单的有向模型。
 这个图包含了单个完整的\gls{immorality}结构。
 因为$\RSa$和$\RSb$都是$\RSc$的父节点，当$\RSc$被观察到时，它们之间通过活跃路径相连。
 为了捕捉这个\gls{dependency}，无向模型必须包含一个含有所有三个变量的\gls{clique}。
 这个\gls{clique}无法编码$\RSa \perp \RSb$这个信息。
-（右）一般来说，\gls{moralization}的过程会给图添加许多边，因此丢失了一些隐含的独立性。
+\emph{(右)}一般来说，\gls{moralization}的过程会给图添加许多边，因此丢失了一些隐含的独立性。
 举个例子，这个\gls{sparse_coding}图需要在每一对\gls{hidden_unit}之间添加\gls{moralization}的边，因此也引入了二次数量级的新的直接\gls{dependency}。}
 	\label{fig:dm_to_um}
 \end{figure}
@@ -862,12 +862,12 @@ \subsection{在\glsentrytext{directed_model}和\glsentrytext{undirected_model}
 	\centerline{\includegraphics{Chapter16/figures/um_to_dm}}	
 \fi
 \caption{将一个无向模型转化为一个有向模型。
-（左）这个无向模型无法转化为有向模型，因为它有一个长度为$4$且不带有\gls{chord}的\gls{loop}。
+\emph{(左)}这个无向模型无法转化为有向模型，因为它有一个长度为$4$且不带有\gls{chord}的\gls{loop}。
 具体说来，这个无向模型包含了两种不同的独立性，并且不存在一个有向模型可以同时描述这两种性质：$\RSa\perp \RSc \mid \{\RSb,\RSd\}$和$\RSb \perp \RSd \mid \{\RSa,\RSc\}$。
-（中）为了将无向图转化为有向图，我们必须通过保证所有长度大于$3$的\gls{loop}都有\gls{chord}来\gls{triangulate}图。
+\emph{(中)}为了将无向图转化为有向图，我们必须通过保证所有长度大于$3$的\gls{loop}都有\gls{chord}来\gls{triangulate}图。
 为了实现这个目标，我们可以加一条连接$\RSa$和$\RSc$或者连接$\RSb$和$\RSd$的边。
 在这个例子中，我们选择添加一条连接$\RSa$和$\RSc$的边。
-（右）为了完成转化的过程，我们必须给每条边分配一个方向。
+\emph{(右)}为了完成转化的过程，我们必须给每条边分配一个方向。
 执行这个任务时，我们必须保证不产生任何有向环。
 避免出现有向环的一种方法是赋予节点一定的顺序，然后将每个边从排序较早的节点指向排序稍后的节点。
 在这个例子中，我们根据变量名的字母进行排序。}
@@ -909,10 +909,10 @@ \subsection{\glsentrytext{factor_graph}}
 	\centerline{\includegraphics{Chapter16/figures/factor_graph}}	
 \fi
 \caption{\gls{factor_graph}如何解决无向网络中的模糊性的一个例子。
-（左）一个包含三个变量（$\RSa$、$\RSb$和$\RSc$）的\gls{clique}组成的无向网络。
-（中）对应这个无向模型的\gls{factor_graph}。
+\emph{(左)}一个包含三个变量（$\RSa$、$\RSb$和$\RSc$）的\gls{clique}组成的无向网络。
+\emph{(中)}对应这个无向模型的\gls{factor_graph}。
 这个\gls{factor_graph}有一个包含三个变量的因子。
-（右）对应这个无向模型的另一种有效的\gls{factor_graph}。
+\emph{(右)}对应这个无向模型的另一种有效的\gls{factor_graph}。
 这个\gls{factor_graph}包含了三个因子，每个因子只对应两个变量。
 这个\gls{factor_graph}上进行的表示、推断和学习相比于中图描述的\gls{factor_graph}都要渐进性地廉价，即使它们表示的是同一个无向模型。}
 	\label{fig:factor_graph}
@@ -1242,11 +1242,11 @@ \subsection{实例：\glsentrytext{RBM}}
 	\centerline{\includegraphics[width=0.9\textwidth]{Chapter16/figures/rbm_samples}}	
 \fi
 \caption{训练好的\glssymbol{RBM}的样本及其权重。
-（左）用MNIST训练模型，然后用\gls{gibbs_sampling}进行采样。
+\emph{(左)}用MNIST训练模型，然后用\gls{gibbs_sampling}进行采样。
 每一列是一个单独的\gls{gibbs_sampling}过程。
 每一行表示另一个$1000$步后\gls{gibbs_sampling}的输出。
 连续的样本之间彼此高度相关。
-（右）对应的权重向量。
+\emph{(右)}对应的权重向量。
 将本图结果与图\ref{fig:s3c_samples}中描述的\gls{linear_factor}的样本和权重相比。
 由于\glssymbol{RBM}的先验$p(\Vh)$没有限制为\gls{factorial}，这里的样本表现得好很多。
 采样时\glssymbol{RBM}能够学习到哪些特征需要一起出现。

diff --git a/Chapter17/monte_carlo_methods.tex b/Chapter17/monte_carlo_methods.tex
@@ -395,12 +395,12 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
 	\centerline{\includegraphics{Chapter17/figures/good_bad_really_bad_mixing_color}}
 \fi
 \caption{对于三种分布使用\gls{gibbs_sampling}所产生的路径，所有的分布\gls{markov_chain}初始值都设为\gls{mode}。
-（左）一个带有两个独立变量的\gls{multivariate_normal_distribution}。
+\emph{(左)}一个带有两个独立变量的\gls{multivariate_normal_distribution}。
 由于变量之间是相互独立的，\gls{gibbs_sampling}\gls{mixing}得很好。
-（中）变量之间存在高度相关性的一个\gls{multivariate_normal_distribution}。
+\emph{(中)}变量之间存在高度相关性的一个\gls{multivariate_normal_distribution}。
 变量之间的相关性使得\gls{markov_chain}很难\gls{mixing}。
 因为每一个变量的更新需要相对其他变量求条件分布，相关性减慢了\gls{markov_chain}远离初始点的速度。
-（右）\gls{mode}之间间距很大且不在轴上对齐的混合高斯分布。
+\emph{(右)}\gls{mode}之间间距很大且不在轴上对齐的混合高斯分布。
 \gls{gibbs_sampling}\gls{mixing}得很慢，因为每次更新仅仅一个变量很难跨越不同的\gls{mode}。}
 \label{fig:chap17_good_bad_really_bad_mixing_color}
 \end{figure}
@@ -450,11 +450,11 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
 \fi
 \caption{深度概率模型中一个\gls{mixing}缓慢问题的例证。
 每张图都是按照从左到右从上到下的顺序的。
-（左）\gls{gibbs_sampling}从MNIST数据集训练成的\gls{DBM}中采出的连续样本。
+\emph{(左)}\gls{gibbs_sampling}从MNIST数据集训练成的\gls{DBM}中采出的连续样本。
 这些连续的样本之间非常相似。
 由于\gls{gibbs_sampling}作用于一个深度图模型，相似度更多地是基于语义而非原始视觉特征。
 但是对于吉布斯链来说从分布的一个\gls{mode}转移到另一个仍然是很困难的，比如说改变数字。
-（右）从\gls{generative_adversarial_networks}中抽出的连续原始样本。
+\emph{(右)}从\gls{generative_adversarial_networks}中抽出的连续原始样本。
 因为\gls{ancestral_sampling}生成的样本之间互相独立，所以不存在\gls{mixing}问题。
 {译者注：原书此处左右搞反了。}} %??
 \label{fig:chap17_fig-dbm-bad-mixing}