Skip to content

Commit

Permalink
adjust expensive
Browse files Browse the repository at this point in the history
  • Loading branch information
futianfan committed Mar 4, 2017
1 parent 24e70eb commit 0756809
Show file tree
Hide file tree
Showing 4 changed files with 8 additions and 8 deletions.
2 changes: 1 addition & 1 deletion Chapter13/linear_factor_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -150,7 +150,7 @@ \section{\glsentrytext{ICA}}
一些版本在$\Vx$的生成中添加一些噪声,而不是使用确定性的\gls{decoder}。
大多数方法不使用\gls{maximum_likelihood}准则,而是旨在使$\Vh = \MW^{-1}\Vx$的元素彼此独立。
许多准则能够达成这个目标。
\eqnref{eqn:3.47}需要用到$\MW$的行列式,这可能是昂贵且数值不稳定的操作
\eqnref{eqn:3.47}需要用到$\MW$的行列式,这可能是代价很高且数值不稳定的操作
\glssymbol{ICA}的一些变种通过将$\MW$约束为正交来避免这个有问题的操作。
% 482 mid

Expand Down
8 changes: 4 additions & 4 deletions Chapter16/structured_probabilistic_modelling.tex
Original file line number Diff line number Diff line change
Expand Up @@ -59,7 +59,7 @@ \section{非结构化建模的挑战}


我们也可以使用概率模型来完成许多其他的任务。
这些任务通常比分类更加昂贵
这些任务通常相比于分类成本更高
其中的一些任务需要产生多个输出。
大部分任务需要对输入数据整个结构的完整理解,所以并不能舍弃数据的一部分。
这些任务包括了以下几个:
Expand Down Expand Up @@ -945,7 +945,7 @@ \section{从\glsentrytext{graphical_models}中采样}
在这种情况下,我们可以从模型分布指定的局部条件概率分布进行抽样。
否则,我们需要采样的条件分布是给定观测变量的后验分布。
这些后验分布在模型中通常没有明确指定和参数化。
推断这些后验分布的代价可能是昂贵的
推断这些后验分布的代价可能是很高的
在这种情况下的模型中,\gls{ancestral_sampling}不再有效。
% 571

Expand All @@ -955,7 +955,7 @@ \section{从\glsentrytext{graphical_models}中采样}
我们可以通过将\gls{undirected_model}转换为\gls{directed_model}来实现从\gls{undirected_model}中抽样,但是这通常需要解决棘手的推断问题(以确定新有向图的根节点上的边缘分布),或者需要引入许多边从而会使得到的\gls{directed_model}变得难以处理。
\gls{undirected_model}抽样,而不首先将其转换为\gls{directed_model}的做法似乎需要解决循环依赖的问题。
每个变量与每个其他变量相互作用,因此对于抽样过程没有明确的起点。
不幸的是,从\gls{undirected_model}中抽取样本是一个昂贵的多次迭代的过程
不幸的是,从\gls{undirected_model}中抽取样本是一个成本很高的多次迭代的过程
理论上最简单的方法是\firstgls{gibbs_sampling}。
假设我们在一个$n$维向量的随机变量$\RVx$上有一个\gls{graphical_models}。
我们迭代地访问每个变量$x_i$,在给定其他变量的条件下从$p(\RSx_i \mid \RSx_{-i})$中抽样。
Expand Down Expand Up @@ -1004,7 +1004,7 @@ \section{学习\glsentrytext{dependency}关系}
% 572 end

一个好的不包含任何\gls{latent_variable}的 关于$\RVv$的模型需要在\gls{bayesian_network}中的每个节点具有大量父节点或在\gls{markov_network}中具有非常大的\gls{clique}。
仅仅表示这些高阶的相互作用是昂贵的,首先从计算角度上,存储在存储器中的参数数量是\gls{clique}中成员数量的指数级别,接着在统计学意义上,因为这个指数数量的参数需要大量的数据来准确估计。
仅仅表示这些高阶相互作用的成本是很高的,首先从计算角度上,存储在存储器中的参数数量是\gls{clique}中成员数量的指数级别,接着在统计学意义上,因为这个指数数量的参数需要大量的数据来准确估计。
% 573 head


Expand Down
4 changes: 2 additions & 2 deletions Chapter17/monte_carlo_methods.tex
Original file line number Diff line number Diff line change
Expand Up @@ -304,7 +304,7 @@ \section{\glsentrytext{mcmc}方法}
这些样本服从同一分布,但是两个连续的样本之间存在强烈的相关性。
所以一个有限的序列无法完全表达\gls{equilibrium_distribution}。
一种解决这个问题的方法是每隔$n$个样本返回一个样本,从而使得我们对于\gls{equilibrium_distribution}的统计量的估计不会被\glssymbol{mcmc}方法的样本之间的相关性所干扰。
所以\gls{markov_chain}在计算上是非常昂贵的,主要源于达到\gls{equilibrium_distribution}前需要\gls{burn_in}的时间以及在达到\gls{equilibrium_distribution}之后从一个样本转移到另一个完全无关的样本所需要的时间。
所以\gls{markov_chain}在计算上是代价很高的,主要源于达到\gls{equilibrium_distribution}前需要\gls{burn_in}的时间以及在达到\gls{equilibrium_distribution}之后从一个样本转移到另一个完全无关的样本所需要的时间。
如果我们想要得到完全独立的样本,那么我们需要同时并行的运行多个\gls{markov_chain}。
这种方法使用了额外的并行计算来消除潜在因素的干扰。
使用一条\gls{markov_chain}来生成所有样本的策略和(使用多条\gls{markov_chain})每条\gls{markov_chain}只产生一个样本的策略是两种极端。
Expand Down Expand Up @@ -419,7 +419,7 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
% 592

在实际问题中,这种挑战更加地艰巨因为在实际问题中我们不能仅仅关注在两个\gls{mode}之间的转移而是需要关注在多个\gls{mode}之间地转移。
如果由于\gls{mode}之间\gls{mixing}困难导致几个这样的转移是很艰难的,那么得到一些可靠的覆盖大部分\gls{mode}的样本集合的代价是很昂贵的,同时\gls{markov_chain}收敛到它的\gls{stationary_distribution}的过程也会非常缓慢。
如果由于\gls{mode}之间\gls{mixing}困难导致几个这样的转移是很艰难的,那么得到一些可靠的覆盖大部分\gls{mode}的样本集合的代价是很高的,同时\gls{markov_chain}收敛到它的\gls{stationary_distribution}的过程也会非常缓慢。
% 592

通过寻找一些高度依赖变量的组以及分块同时更新块(组)中的变量,这个问题有时候可以被解决的。
Expand Down
2 changes: 1 addition & 1 deletion Chapter19/approximate_inference.tex
Original file line number Diff line number Diff line change
Expand Up @@ -837,7 +837,7 @@ \section{\glsentrytext{learned}\glsentrytext{approximate_inference}}
% 642 end 19.5

我们已经看到了推断可以被视作是一个增加函数$\CalL$值的优化过程。
显式地通过迭代方法比如\gls{fixed_point_equation}或者基于梯度的优化算法来执行优化的过程通常是代价昂贵且耗时巨大的
显式地通过迭代方法比如\gls{fixed_point_equation}或者基于梯度的优化算法来执行优化的过程通常是代价很高且耗时巨大的
通过学习一个近似推断许多推断算法避免了这种代价。
具体地说,我们可以将优化过程视作将一个输入$\Vv$投影到一个近似分布$q^* = \arg\max_q\ \CalL(\Vv,q)$的一个函数$f$
一旦我们将多步的迭代优化过程看作是一个函数,我们可以用一个近似函数为$\hat{f}(\Vv;{\Vtheta})$\gls{NN}来近似它。
Expand Down

0 comments on commit 0756809

Please sign in to comment.