correct figure

Former-commit-id: 2e456ed5da0ac956b09dd0680a82a35a71577b63
DMSGUO · Jan 8, 2017 · 5629bee · 5629bee
1 parent 27e459c
commit 5629bee
Show file tree

Hide file tree

Showing 16 changed files with 846 additions and 790 deletions.
diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex
@@ -398,7 +398,7 @@ \section{\glsentrytext{sparse_coding}}
 \ifOpenSource
 \centerline{\includegraphics{figure.pdf}}
 \else
-	\centerline{\includegraphics{Chapter13/figures/s3c_samples}}
+    \centerline{\includegraphics[width=\figwidth]{Chapter13/figures/s3c_samples}}
 \fi
 \caption{\gls{ss}\gls{sparse_coding}模型上在MNIST数据集训练的样例和权重。
 	（左）这个模型中的样本和训练样本相差很大。

diff --git a/Chapter17/monte_carlo_methods.tex b/Chapter17/monte_carlo_methods.tex
@@ -435,8 +435,11 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
 \ifOpenSource
 \centerline{\includegraphics{figure.pdf}}
 \else
-	\centerline{\includegraphics{Chapter17/figures/fig-adversarial}}
-	\centerline{\includegraphics{Chapter17/figures/fig-dbm-bad-mixing}}	
+    \centering
+    \begin{tabular}{cc}
+    \includegraphics[width=0.45\figwidth]{Chapter17/figures/fig-adversarial}
+    \includegraphics[width=0.45\figwidth]{Chapter17/figures/fig-dbm-bad-mixing}
+    \end{tabular}
 \fi
 	\caption{深度概率模型中一个\gls{mixing}缓慢问题的实例。
 	每张图都是按照从左到右从上到下的顺序的。

diff --git a/Chapter5/machine_learning_basics.tex b/Chapter5/machine_learning_basics.tex
@@ -1905,6 +1905,17 @@ \subsection{\glsentrytext{manifold_learning}}
 
 % -- 156 --
 
+\begin{figure}[!htb]
+\ifOpenSource
+\centerline{\includegraphics{figure.pdf}}
+\else
+\centerline{\includegraphics[width=0.7\textwidth]{Chapter5/figures/noise}}
+\fi
+\caption{随机地均匀抽取图像（根据均匀分布随机地选择每一个像素）会得到噪音图像。尽管在人工智能应用中生成一个脸或者其它物体的图像是非零概率的，但是实践中我们从来没有观察到这个现象。这也意味着人工智能应用中遇到的图像在所有图像空间中的占比是忽略不计的。}
+\label{fig:chap5_noise}
+\end{figure}
+
+
 数据位于低维流形的假设并不总是对的或者有用的。
 我们认为在人工智能的一些场景中，如涉及到处理图像，声音或者文本，流形假设至少是
 近似对的。
@@ -1919,15 +1930,6 @@ \subsection{\glsentrytext{manifold_learning}}
 因为大部分字母长序列不对应着自然语言序列：
 自然语言序列的分布只占了字母序列的总空间里非常小的一部分。
 
-\begin{figure}[!htb]
-\ifOpenSource
-\centerline{\includegraphics{figure.pdf}}
-\else
-\centerline{\includegraphics[width=0.7\textwidth]{Chapter5/figures/noise}}
-\fi
-\caption{随机地均匀抽取图像（根据均匀分布随机地选择每一个像素）会得到噪音图像。尽管在人工智能应用中生成一个脸或者其它物体的图像是非零概率的，但是实践中我们从来没有观察到这个现象。这也意味着人工智能应用中遇到的图像在所有图像空间中的占比是忽略不计的。}
-\label{fig:chap5_noise}
-\end{figure}
 
 当然，集中的概率分布不足以说明数据位于一个相当小的流形中。
 我们还必须确定，我们遇到的\gls{example:chap5}和其他\gls{example:chap5}相互连接，每个\gls{example:chap5}被其他高度相似的\gls{example:chap5}包围，可以通过变换来遍历该流形。
@@ -1949,13 +1951,13 @@ \subsection{\glsentrytext{manifold_learning}}
 这个一般性原则能够用在很多情况中。
 \figref{fig:chap5_QMUL-facedataset}展示了包含脸的\gls{dataset}的流形结构。
 在本书的最后，我们会介绍一些学习这样的流形结构的必备方法。
-在图20.6中，我们将看到\gls{ML}算法如何成功完成这个\gls{target}。
+在\figref{fig:chap20_kingma-vae-2d-faces-manifold}中，我们将看到\gls{ML}算法如何成功完成这个\gls{target}。
 
 \begin{figure}[!htb]
 \ifOpenSource
 \centerline{\includegraphics{figure.pdf}}
 \else
-\centerline{\includegraphics{Chapter5/figures/QMUL-facedataset}}
+\centerline{\includegraphics[width=0.8\textwidth]{Chapter5/figures/QMUL-facedataset}}
 \fi
 \caption{QMUL Multiview Face数据集中训练样本\citep{Gong-et-al-2000}，其中的物体是移动的从而覆盖对应两个旋转角度的二维\gls{manifold}。我们希望学习算法能够发现并且解决这些\gls{manifold}坐标。图\ref{fig:chap20_kingma-vae-2d-faces-manifold}提供了这样一个例子。}
 \label{fig:chap5_QMUL-facedataset}

diff --git a/docs/_posts/2016-12-02-Chapter2_linear_algebra.md b/docs/_posts/2016-12-02-Chapter2_linear_algebra.md
@@ -80,7 +80,7 @@ share: false
 + 张量：在某些情况下，我们会讨论不只两维坐标的数组。
     一般地，一组数组中的元素分布在若干维坐标的规则网格中，我们将其称之为张量。
     我们使用这种字体$\TSA$来表示张量"A"。
-    张量$\TSA$中坐标为$(i,j,k)$的元素记作$\textsf{\emph{A}}_{i,j,k}$。
+    张量$\TSA$中坐标为$(i,j,k)$的元素记作$\TEA_{i,j,k}$。
 
 
 
@@ -534,7 +534,7 @@ $L^1$范数可以简化如下：
 从这个表示中我们可以获得一些有用的信息，比如$12$不能被$5$整除，或者$12$的倍数可以被$3$整除。
 
 
-正如我们可以通过分解质因数来发现一些关于整数的真实性质，我们也可以通过分解矩阵来获取矩阵表示成数组元素时不明显的函数性质。
+正如我们可以通过分解质因数来发现整数的一些内在性质，我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。
 
 
 特征分解是使用最广的矩阵分解之一，即我们将矩阵分解成一组特征向量和特征值。
@@ -558,7 +558,7 @@ $L^1$范数可以简化如下：
 类似地，我们也可以将特征值连接成一个向量$\Vlambda = [\lambda_1, \dots , \lambda_n]^\top$。
 因此$\MA$的特征分解可以记作
 \begin{equation}
-    \MA = \MV \text{diag}(\mathbf{\Vlambda}) \MV^{-1}.
+    \MA = \MV \text{diag}(\Vlambda) \MV^{-1}.
 \end{equation}
 
 

diff --git a/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md b/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md
@@ -1884,7 +1884,7 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 
 ## 流形学习
 
-在机器学习很多想法背后的一个重要概念是流形。
+流形是一个机器学习中很多想法内在的重要概念。
 
 流形指连接在一起的区域。
 数学上，它是指一组点，且每个点都有其邻域。
@@ -1894,11 +1894,11 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 每个点周围邻域的定义暗示着存在变换能够从一个位置移动到其邻域位置。
 例如在地球表面这个流形中，我们可以朝东南西北走。
 
-尽管术语"流形"有正式的数学定义，机器学习倾向于更松散地定义一组点，使其只需要考虑少数嵌入在高维空间中的自由度或维数就能很好地近似。
+尽管术语"流形"有正式的数学定义，但是机器学习倾向于更松散地定义一组点，只需要考虑少数嵌入在高维空间中的自由度或维数就能很好地近似。
 每一维都对应着局部的变动方向。
 如\fig?所示，训练数据位于二维空间中的一维流形中。
 在机器学习中，我们允许流形的维数从一个点到另一个点有所变化。
-这经常发生于流形和自身相交的情况。
+这经常发生于流形和自身相交的情况中。
 例如，数字"8"形状的流形在大多数位置只有一维，但在中心的相交处有两维。
 
 \begin{figure}[!htb]
@@ -1910,9 +1910,9 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 \caption{从一个聚集在一维流形的二维空间的分布中抽取的数据样本，像一个缠绕的带子一样。实线代表了学习者想要推断的隐含的流形。}
 \end{figure}
 
-如果我们希望机器学习算法学习$\SetR^n$上的所有感兴趣的函数时，很多机器学习问题
+如果我们希望机器学习算法学习$\SetR^n$上的所有感兴趣的函数，那么很多机器学习问题
 看上去都是不可解的。
-流形学习算法，通过假设$\SetR^n$中大部分区域无效的输入，感兴趣的输入只分布在包含少量点的子集构成的一组流形中，而学习函数中感兴趣输出的变动只位于流形中的方向，或者感兴趣的变动只发生在我们从一个流形移动到另一个流形时，克服这个障碍。
+流形学习算法通过一个假设来克服这个障碍，该假设认为$\SetR^n$中大部分区域都是无效的输入，感兴趣的输入只分布在包含少量点的子集构成的一组流形中，而学习函数中感兴趣输出的变动只位于流形中的方向，或者感兴趣的变动只发生在我们从一个流形移动到另一个流形的时候。
 流形学习是在连续数值数据和无监督学习的设定下被引入的，尽管这个概率集中的想法也能够泛化到离散数据和监督学习的设定下：关键假设仍然是概率质量高度集中。
 
 <!-- % -- 156 -- -->
@@ -1926,9 +1926,10 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 概率分布都是高度集中的。
 均匀的噪扰从来没有和这类领域的结构化输入相似过。
 \fig?显示均匀采样的点看上去像是没有信号时模拟电视上的静态模式。
-同样，如果您均匀地随机抽取字母来生成文件，能有多大的概率会得到一个有意义的英语文档？
-几乎是零。因为大部分字母长序列不对应着自然语言序列：
-自然语言序列的分布只占了字母序列的总空间里非常小的体积。
+同样，如果我们均匀地随机抽取字母来生成文件，能有多大的概率得到一个有意义的英语文档？
+几乎是零。
+因为大部分字母长序列不对应着自然语言序列：
+自然语言序列的分布只占了字母序列的总空间里非常小的一部分。
 
 \begin{figure}[!htb]
 \ifOpenSource
@@ -1940,7 +1941,7 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 \end{figure}
 
 当然，集中的概率分布不足以说明数据位于一个相当小的流形中。
-我们还必须确定，我们遇到的样本和其他样本相互连接，每个样本被其他高度相似的样本包围，可以通过应用变换来遍历该流形。
+我们还必须确定，我们遇到的样本和其他样本相互连接，每个样本被其他高度相似的样本包围，可以通过变换来遍历该流形。
 支持流形假设的第二个论点是，我们至少能够非正式地想象这些邻域和变换。
 在图像中，我们当然会认为有很多可能的变换允许我们描绘出图片空间的流形：
 我们可以逐渐变暗或变亮光泽，逐步移动或旋转图中对象，逐渐改变对象表面的颜色，等等。
@@ -1950,16 +1951,16 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 <!-- % -- 157 -- -->
 
 这些支持流形假设的思维试验传递了一些支持它的直观理由。
-更严格的实验{cite?}在人工智能中感兴趣的一大类数据集上支持了这个假设。
+更严格的实验{cite?}在人工智能中受关注的一大类数据集上支持了这个假设。
 
-当数据位于低维流形中，使用流形中的坐标，而非$\SetR^n$中的坐标表示机器学习中的数据更为自然。
+当数据位于低维流形中时，使用流形中的坐标，而非$\SetR^n$中的坐标表示机器学习数据更为自然。
 日常生活中，我们可以认为道路是嵌入在三维空间的一维流形。
-我们用一维道路中的地址号码去明确地址，而非三维空间中的坐标。
-提取这些流形中的坐标是非常具有挑战性的，但是很有希望改进很多机器学习算法。
-这个一般性原则用于很多情况下。
+我们用一维道路中的地址号码确定地址，而非三维空间中的坐标。
+提取这些流形中的坐标是非常具有挑战性的，但是很有希望改进许多机器学习算法。
+这个一般性原则能够用在很多情况中。
 \fig?展示了包含脸的数据集的流形结构。
 在本书的最后，我们会介绍一些学习这样的流形结构的必备方法。
-在图20.6中，我们将看到机器学习算法如何能成功地完成这个目标。
+在图20.6中，我们将看到机器学习算法如何成功完成这个目标。
 
 \begin{figure}[!htb]
 \ifOpenSource
@@ -1971,7 +1972,7 @@ minibatch的数目$m'$通常是一个相对较小的数，从一到几百。
 \end{figure}
 
 第一部分介绍了数学和机器学习中的基本概念，这将用于本书其他章节中。
-至此，您现在已经准备好了开始学习深度学习。
+至此，我们已经完成了开始学习深度学习的准备。
 
 <!-- % -- 159 -- -->
 

diff --git a/docs/_posts/2016-12-07-Chapter7_regularization.md b/docs/_posts/2016-12-07-Chapter7_regularization.md
@@ -30,8 +30,8 @@ share: false
 
 <!-- % -- 221 -- -->
 
-在深度学习的背景下，大多数正则化策略都对估计量进行正则化。
-估计量的正则化以偏差的增加换取方差的减少。
+在深度学习的背景下，大多数正则化策略都对估计进行正则化。
+估计的正则化以偏差的增加换取方差的减少。
 一个有效的正则化是有利的"交易"，也就是能显著减少方差而不过度增加偏差。
 我们在\chap?中讨论泛化和过拟合时，主要侧重模型族训练的3个情形：（1）不包括真实的数据生成过程——对应于欠拟合和偏差引入，（2）匹配真实数据生成过程，（3）除了包含真实的数据生成过程，还包含了许多其他可能的生成过程——方差（而不是偏差）主导的过拟合。
 正则化的目标是使模型从第三种情况进入到第二个情况。