fix quotes

Former-commit-id: 38c8ecf6c11f569dfa918d54fdbf88018ded3daf
DMSGUO · Dec 10, 2016 · 689f428 · 689f428
1 parent a76c9fb
commit 689f428
Show file tree

Hide file tree

Showing 9 changed files with 58 additions and 58 deletions.
diff --git a/Chapter11/practical_methodology.tex b/Chapter11/practical_methodology.tex
@@ -126,7 +126,7 @@ \section{默认的基准模型}
 根据您问题的复杂性，开始时可能无需使用\gls{DL}。
 如果您的问题有机会只需通过正确选择几个线性权重来解决，那么你可以开始于一个简单的统计模型，如逻辑回归。
 
-如果您知道问题属于“\glssymbol{AI}-完成”类的，如物体识别，\gls{SR}，机器翻译，等等，那么你开始于一个合适的\gls{DL}模型，会做得很好。
+如果您知道问题属于``\glssymbol{AI}-完成''类的，如物体识别，\gls{SR}，机器翻译，等等，那么你开始于一个合适的\gls{DL}模型，会做得很好。
 
 首先，基于数据结构选择一个合适的模型类别。
 如果您想要进行以固定大小的向量作为输入的\gls{supervised_learning}，可以使用全连接的\gls{feedforward_network}。
@@ -393,7 +393,7 @@ \subsection{基于模型的超参数优化}
 比随机搜索更复杂的大部分超参数优化算法的一个共同缺点是在它们能够从实验中提取任何信息之前，它们需要运行完整的训练实验。
 相比于人类实践者手动搜索，对于实验早期可以收集多少信息，这是相当低效的，因为手动搜索收集通常可以很早判断出某组超参数是否是完全病态的。
 \cite{swersky2014freeze}提出了一个可以维护多个实验的早期版本算法。
-在不同的时间点，超参数优化算法可以选择开启一个新实验，“冻结”正在运行但希望不大的实验，或是“解冻”并恢复早期被冻结的，但现在根据更多信息后又有希望的实验。
+在不同的时间点，超参数优化算法可以选择开启一个新实验，``冻结''正在运行但希望不大的实验，或是``解冻''并恢复早期被冻结的，但现在根据更多信息后又有希望的实验。
 
 \section{调试技巧}
 \label{sec:debugging_strategies}
@@ -562,7 +562,7 @@ \section{示例：多位数字识别}
 我们推荐的调试技巧之一是可视化模型最糟糕的错误。
 在这种情况下，这意味着可视化不正确而模型给了最高置信度的训练集转录。
 结果显示，主要是输入图像裁剪得太紧，有些和地址相关的数字被裁剪操作除去了。
-例如，地址“1849”的图片可能裁切得太紧，只剩下“849”是可见的。
+例如，地址``1849''的图片可能裁切得太紧，只剩下``849''是可见的。
 花费几周改进负责确定裁剪区域的地址号码检测系统的精度，或许可以解决这个问题。
 与之不同，该项目团队采取了更实际的决定，简单地系统性扩大裁剪区域的宽度大于地址号码检测系统预测的区域。
 这种单一改变给\gls{transcription_system}的\gls{coverage}增加了$10$个百分点。

diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -297,7 +297,7 @@ \section{\glsentrytext{sparse_coding}}
 
 
 \firstgls{sparse_coding}\citep{Olshausen+Field-1996}是一个\gls{linear_factor}，已作为无监督特征学习和特征提取机制进行了大量研究。
-严格地说，术语“\gls{sparse_coding}”是指在该模型中推断$\Vh$的值的过程，而“稀疏建模”是指设计和学习模型的过程，但是通常这两个概念都可以用术语“\gls{sparse_coding}”描述。
+严格地说，术语``\gls{sparse_coding}''是指在该模型中推断$\Vh$的值的过程，而``稀疏建模''是指设计和学习模型的过程，但是通常这两个概念都可以用术语``\gls{sparse_coding}''描述。
 % 486
 
 像其它的\gls{linear_factor}一样，它使用了线性的\gls{decoder}加上噪音的方式获得一个$\Vx$的重构，就像公式~\eqref{eqn:132}描述的一样。

diff --git a/Chapter15/representation_learning.tex b/Chapter15/representation_learning.tex
@@ -90,7 +90,7 @@ \section{贪心地逐层\glsentrytext{unsupervised_pretraining}}
 
 % -- 519 --
 
-通常而言，“\gls{pretraining}”不仅单指\gls{pretraining}阶段，也指结合\gls{pretraining}和\gls{supervised_learning}的整个两阶段协议。
+通常而言，``\gls{pretraining}''不仅单指\gls{pretraining}阶段，也指结合\gls{pretraining}和\gls{supervised_learning}的整个两阶段协议。
 \gls{supervised_learning}阶段可能会使用\gls{pretraining}阶段得到的顶层特征训练一个简单分类器，或者可能会监督\gls{fine_tune}\gls{pretraining}阶段得到的整个网络。
 不管采用什么类型的\gls{supervised_learning}算法和模型，在大多数情况下，整个训练过程几乎是相同的。
 虽然\gls{unsupervised_learning}算法的选择将明显影响到细节，但是大多数\gls{unsupervised}\gls{pretraining}应用都遵循这一基本方法。
@@ -283,7 +283,7 @@ \section{\glsentrytext{transfer_learning}和\glsentrytext{domain_adaption}}
 
 一个相关的问题是\firstgls{concept_drift}，我们可以将其视为一种\gls{transfer_learning}，因为数据分布随时间而逐渐变化。
 \gls{concept_drift}和\gls{transfer_learning}都可以被视为\gls{multitask_learning}的特定形式。
-短语“\gls{multitask_learning}”通常指\gls{supervised_learning}任务，而\gls{transfer_learning}中更一般的概念也适用于\gls{unsupervised_learning}和\gls{RL}
+短语``\gls{multitask_learning}''通常指\gls{supervised_learning}任务，而\gls{transfer_learning}中更一般的概念也适用于\gls{unsupervised_learning}和\gls{RL}
 
 在所有这些情况下，目标是利用第一个设定下的数据优势，提取在第二种设定中学习时或直接进行预测时可能有用的信息。
 \gls{representation_learning}的核心思想是相同的表示可能在两种设定中都是有用的。
@@ -316,10 +316,10 @@ \section{\glsentrytext{transfer_learning}和\glsentrytext{domain_adaption}}
 只有在训练时使用了额外信息，\gls{zero_data_learning}\citep{Larochelle2008}和\gls{zero_shot_learning}\citep{Palatucci2009,Socher-2013}才是有可能的。
 我们可以认为\gls{zero_data_learning}场景包含三个随机变量：传统输入$\Vx$，传统输出或目标$\Vy$，以及描述任务的附加随机变量，$T$。
 该模型被训练来估计条件分布$p(\Vy | \Vx, T)$，其中$T$是我们希望执行的任务的描述。
-在我们的例子中，读取猫的文本信息然后识别猫，输出是二元变量$y$，$y=1$表示“是”，$y=0$表示“不是”。
-任务变量$T$表示要回答的问题，例如“这个图像中是否有猫？”
+在我们的例子中，读取猫的文本信息然后识别猫，输出是二元变量$y$，$y=1$表示``是''，$y=0$表示``不是''。
+任务变量$T$表示要回答的问题，例如``这个图像中是否有猫？''
 如果训练集包含和$T$在相同空间的无监督对象样本，我们也许能够推断未知的$T$实例的含义。
-在我们的例子中，没有提前看到猫的图像而去识别猫，拥有一些未标记的文本数据包含句子诸如“猫有四条腿”或“猫有尖耳朵”是很重要的。
+在我们的例子中，没有提前看到猫的图像而去识别猫，拥有一些未标记的文本数据包含句子诸如``猫有四条腿''或``猫有尖耳朵''是很重要的。
 
 % -- 529 --
 
@@ -352,7 +352,7 @@ \section{\glsentrytext{transfer_learning}和\glsentrytext{domain_adaption}}
 
 \section{\glsentrytext{semi_supervised}解释因果关系}
 \label{sec:semi_supervised_disentangling_of_causal_factors}
-关于\gls{representation_learning}的一个重要问题是“什么使一个表示比另一个更好？”
+关于\gls{representation_learning}的一个重要问题是``什么使一个表示比另一个更好？''
 一种假设是，理想表示中的特征对应到观测数据的根本原因，特征空间中不同的特征或方向对应着不同的原因，从而表示能够将这些原因区分开。
 这个假设激励我们去寻找比较好地表示$p(\Vx)$的方法。
 如果$\Vy$是产生$\Vx$的重要原因之一，那么这种表示也可能是计算$p(\Vy | \Vx)$的一种良好表示。
@@ -399,8 +399,8 @@ \section{\glsentrytext{semi_supervised}解释因果关系}
 \begin{equation}
 	p(\Vx) = \SetE_{\RVh} p(\Vx \mid \Vh),
 \end{equation}
-从这个直观的观察，我们得出结论，$\RVx$最好可能的模型（从广义的观点）是会表示上述“真实”结构的，其中$\Vh$作为隐变量解释$\Vx$中观察到的变动。
-上文讨论的“理想”的\gls{representation_learning}应该能够反映出这些隐变量。
+从这个直观的观察，我们得出结论，$\RVx$最好可能的模型（从广义的观点）是会表示上述``真实''结构的，其中$\Vh$作为隐变量解释$\Vx$中观察到的变动。
+上文讨论的``理想''的\gls{representation_learning}应该能够反映出这些隐变量。
 如果$\RVy$是其中之一（或是紧密关联于其中之一），那么将很容易从这种表示中预测$\RVy$。
 我们也看到给定$\RVx$下$\RVy$的条件分布通过\gls{bayes_rule}关联到上式中的分量：
 \begin{equation}
@@ -478,7 +478,7 @@ \section{\glsentrytext{semi_supervised}解释因果关系}
 
 正如\cite{Janzing-et-al-ICML2012}指出，学习潜在因素的好处是，如果真实的生成过程中$\RVx$是结果，$\RVy$是原因，那么建模$p(\RVx \mid \RVy)$对于$p(\RVy)$的变化是鲁棒的。
 如果因果关系被逆转，这是不对的，因为根据\gls{bayes_rule}，$p(\RVx \mid \RVy)$将会对$p(\RVy)$的变化十分敏感。
-很多时候，我们考虑不同领域（例如时间不稳定性或是任务性质的变化）上分布的变化时，\emph{因果机制是保持不变的}（“宇宙定律不变”），而潜在原因的边缘分布是会变化的。
+很多时候，我们考虑不同领域（例如时间不稳定性或是任务性质的变化）上分布的变化时，\emph{因果机制是保持不变的}（``宇宙定律不变''），而潜在原因的边缘分布是会变化的。
 因此，通过学习试图恢复因果因素$\RVh$和$p(\RVx \mid \RVh)$的\gls{generative_model}，可以期望对所有种类的变化有更好的泛化和鲁棒性。
 
 % -- 535 --
@@ -533,7 +533,7 @@ \section{\glsentrytext{distributed_representation}}
 	\item 高斯混合和专家混合：模板（聚类中心）或专家关联一个激活的\emph{程度}。
 	和$k$-最近邻算法一样，每个输入用多个值表示，但是这些值不能轻易地彼此分开控制。
 
-	\item 具有高斯核（或其他相似局部核）的核机器：尽管每个“\gls{support_vectors}”或模板样本的激活程度现在是连续值，但仍然会出现和高斯混合相同的问题。
+	\item 具有高斯核（或其他相似局部核）的核机器：尽管每个``\gls{support_vectors}''或模板样本的激活程度现在是连续值，但仍然会出现和高斯混合相同的问题。
 
 	\item 基于\gls{n_gram}的语言或翻译模型：根据后缀的树结构划分上下文集合（符号序列）。
 	例如，叶节点可能对应于最好两个单词$w_1$和$w_2$。
@@ -547,9 +547,9 @@ \section{\glsentrytext{distributed_representation}}
 
 
 将\gls{distributed_representation}和符号表示区分开来的一个重要相关概念是由不同概念之间的\emph{共享属性而产生的泛化}。
-作为纯符号，“猫”和“狗”之间的距离和任意其他两种符号一样。
+作为纯符号，``猫''和``狗''之间的距离和任意其他两种符号一样。
 然而，如果将它们与有意义的\gls{distributed_representation}相关联，那么关于猫的很多特点可以推广到狗，反之亦然。
-例如，我们的\gls{distributed_representation}可能会包含诸如“是否具有皮毛”或是“腿的数目”这类用于“猫”和“狗”的嵌入具有相同值的项。
+例如，我们的\gls{distributed_representation}可能会包含诸如``是否具有皮毛''或是``腿的数目''这类用于``猫''和``狗''的嵌入具有相同值的项。
 正如第12.4节所讨论的，作用于单词\gls{distributed_representation}的神经语言模型比其他直接对单词\gls{one_hot}表示进行操作的模型泛化得更好。
 \gls{distributed_representation}具有丰富的\emph{相似性空间}，语义上相近的概念（或输入）在距离上接近，这是纯粹的符号表示所缺少的属性。
 
@@ -731,7 +731,7 @@ \section{提供发现潜在原因的线索}
 
 
 	\item \emph{稀疏性}：大多数特征应该假定与描述的大多数输入不相关——在表示猫的图像时，没有必要使用检测大象的特征。
-	因此，应该强加一个先验，任何可以解释为“存在”或“不存在”的特征在大多数时间都应该是不存在的。
+	因此，应该强加一个先验，任何可以解释为``存在''或``不存在''的特征在大多数时间都应该是不存在的。
 
 % -- 546 --
 

diff --git a/Chapter16/structured_probabilistic_modelling.tex b/Chapter16/structured_probabilistic_modelling.tex
@@ -500,7 +500,7 @@ \subsection{\glsentrytext{energy_based_model}}
 关于如何从\gls{undirected_model}结构获得\gls{energy_function}的形式的示例参见图\ref{fig:example_undirected_2}。
 人们可以将\gls{energy_function}带有多个项的\gls{energy_based_model}视作是\firstgls{product_of_expert}\citep{Hinton99}。
 \gls{energy_function}中的每一项对应的是概率分布中的一个\gls{factor}。
-\gls{energy_function}中的每一项都可以看作决定一个软约束是否能够满足的“专家”。
+\gls{energy_function}中的每一项都可以看作决定一个软约束是否能够满足的``专家''。
 每个专家可以仅执行仅涉及随机变量的低维投影的一个约束，但是结合概率的乘法时，专家们合理构造了复杂的高维约束。
 % 561
 \begin{figure}[!htb]
@@ -518,7 +518,7 @@ \subsection{\glsentrytext{energy_based_model}}
 \gls{energy_based_model}的定义的一部分无法用\gls{ML}观点来解释：即等式~\eqref{eqn:167}中的负号。
 这个负号的存在主要是为了保持\gls{ML}文献和物理学文献之间的兼容性。
 概率建模的许多研究最初由统计物理学家做出的，其中$E$是指实际的，物理概念的能量，没有任意的符号。
-诸如“能量”和“\gls{partition_function}”这类术语仍然与这些技术相关联，尽管它们的数学适用性比在物理中更宽。
+诸如``能量''和``\gls{partition_function}''这类术语仍然与这些技术相关联，尽管它们的数学适用性比在物理中更宽。
 一些\gls{ML}研究者（例如，\citep{Smolensky86}将负能量称为\firstgls{harmony}）发出了不同的声音，但这些都不是标准惯例。
 % 562
 
@@ -549,7 +549,7 @@ \subsection{\glsentrytext{separation}和d-\glsentrytext{separation}}
 那么我们声称给定变量$\SetS$时，变量$\SetA$与另一组变量$\SetB$\gls{separation}。
 如果两个变量$a$和$b$通过涉及未观察变量的路径连接，那么这些变量不是\gls{separation}的。
 如果它们之间没有路径，或者所有路径都包含可观测的变量，那么它们是\gls{separation}的。
-我们认为仅涉及到未观察到的变量的路径是“活跃”的，将包括观察到的变量的路径称为“非活跃”的。
+我们认为仅涉及到未观察到的变量的路径是``活跃''的，将包括观察到的变量的路径称为``非活跃''的。
 % 563
 
 
@@ -587,7 +587,7 @@ \subsection{\glsentrytext{separation}和d-\glsentrytext{separation}}
 
 
 类似的概念适用于\gls{directed_model}，除了在\gls{directed_model}中，这些概念被称为d-\gls{separation}。
-“d”代表“\gls{dependency}”程度。
+``d''代表``\gls{dependency}''程度。
 有向图的d-\gls{separation}的定义与\gls{undirected_model}的相同：我们认为如果图结构中给定$\SetS$时 $\SetA$与变量集$\SetB$无关，
 那么给定变量集$\SetS$时，变量集$\SetA$d-\gls{separation}于变量集$\SetB$。
 % 563
@@ -878,9 +878,9 @@ \section{学习\glsentrytext{dependency}关系}
 \label{sec:learning_about_dependencies}
 % 572
 
-良好的生成模型需要准确地捕获所观察到的或“可见”变量$\Vv$上的分布。
+良好的生成模型需要准确地捕获所观察到的或``可见''变量$\Vv$上的分布。
 通常$\Vv$的不同元素彼此高度依赖。
-在\gls{DL}中，最常用于建模这些\gls{dependency}关系的方法是引入几个潜在的或“隐藏”变量$\Vh$。
+在\gls{DL}中，最常用于建模这些\gls{dependency}关系的方法是引入几个潜在的或``隐藏''变量$\Vh$。
 然后，该模型可以捕获任何对之间的\gls{dependency}关系（变量$v_i$和$v_j$间接依赖，$v_i$和$\Vh$之间直接依赖，$\Vv$和$h_i$直接依赖)。
 % 572  end 
 
@@ -1049,7 +1049,7 @@ \subsection{实例：\glsentrytext{RBM}}
 其中$\Vb,\Vc$和$\MW$都是无限制的实值的可学习参数。
 我们可以看到，模型被分成两组单元：$\Vv$和$\Vh$，它们之间的相互作用由矩阵$\MW$来描述。
 该模型在图\ref{fig:rbm}中图示。
-如该图所示，该模型的一个重要方面是在任何两个可见单元之间或任何两个隐藏单元之间没有直接的相互作用（因此称为“受限”，一般的\gls{BM}可以具有任意连接）。
+如该图所示，该模型的一个重要方面是在任何两个可见单元之间或任何两个隐藏单元之间没有直接的相互作用（因此称为``受限''，一般的\gls{BM}可以具有任意连接）。
 % 577
 
 

diff --git a/Chapter18/confronting_the_partition_function.tex b/Chapter18/confronting_the_partition_function.tex
@@ -138,7 +138,7 @@ \section{随机最大似然和\glsentrytext{contrastive_divergence}}
 
 因为\gls{negative_phase}涉及到从模型分布中抽取样本，所以我们可以认为它在找模型信任度很高的点。
 因为\gls{negative_phase}减少了这些点的概率，它们一般被认为是代表了模型不正确的信念。
-在文献中，它们经常被称为“幻觉”或“幻想粒子”。
+在文献中，它们经常被称为``幻觉''或``幻想粒子''。
 事实上，\gls{negative_phase}已经被作为人类和其他动物做梦的一种可能解释\citep{CrickMitchison83}。
 这个想法是说，大脑维持着世界的概率模型，并且在醒着经历真实事件时会遵循$\log \tilde{p}$的梯度，在睡觉时会遵循$\log \tilde{p}$的梯度最小化$\log Z$，其经历的样本采样自当前的模型。
 这个视角解释了用于描述具有\gls{positive_phase}和\gls{negative_phase}的算法的大多数语言，但是它没有被神经科学实验证明是正确的。

diff --git a/Chapter19/approximate_inference.tex b/Chapter19/approximate_inference.tex
@@ -309,7 +309,7 @@ \section{变分推断和学习}
 对离散型的隐含变量来说，这意味着我们使用了传统的优化技巧来优化描述$q$分布的有限个数的变量。
 对连续性的变量来说，这意味着我们使用了一个叫做\firstgls{calculus_of_variations}的数学分支来解决对一个空间的函数的优化问题。
 然后决定哪一个函数来表示$q$。
-\gls{calculus_of_variations}是“变分学习”或者“变分推断”这些名字的来历，尽管当隐含变量是离散的时候\gls{calculus_of_variations}并没有用武之地。
+\gls{calculus_of_variations}是``变分学习''或者``变分推断''这些名字的来历，尽管当隐含变量是离散的时候\gls{calculus_of_variations}并没有用武之地。
 当遇到连续的隐含变量的时候，\gls{calculus_of_variations}是一种很有用的工具，只需要设定分布$q$如何分解，而不需要过多的人工选择模型，比如尝试着设计一个特定的能够精确的近似原后验分布的$q$。
 % 630