Skip to content

Commit

Permalink
[Doc]: optimize variance's definition
Browse files Browse the repository at this point in the history
  • Loading branch information
HarleysZhang committed Feb 10, 2023
1 parent 116c39c commit a59cf21
Showing 1 changed file with 17 additions and 10 deletions.
27 changes: 17 additions & 10 deletions 4-machine_learning/机器学习基本概念总结.md
Original file line number Diff line number Diff line change
Expand Up @@ -10,6 +10,7 @@
- [2.5,深度学习中的偏差与方差](#25深度学习中的偏差与方差)
- [三,模型容量、过拟合和欠拟合](#三模型容量过拟合和欠拟合)
- [四,样本方差与总体方差](#四样本方差与总体方差)
- [4.1,方差定义](#41方差定义)
- [五,先验概率与后验概率](#五先验概率与后验概率)
- [5.1,条件概率](#51条件概率)
- [5.2,先验概率](#52先验概率)
Expand Down Expand Up @@ -61,8 +62,7 @@ $$d(x,y) = \sqrt {((x_{1}-y_{1})^{2} + (x_{2}-y_{2})^{2} + ... + (x_{n}-y_{n})^{

当我们讨论预测模型时,预测误差可以分解为我们关心的两个主要子成分:“**偏差**”引起的误差和“**方差**”引起的误差。 在模型最小化偏差和方差的能力之间存在权衡。 了解这两类错误可以帮助我们诊断模型结果,避免出现过拟合或欠拟合的错误。

另外,**有两个不同的概念都被称为“方差”**。一种是**理论概率分布的方差**。而另一种方差是一组观测值的特征(**统计意义上的方差**)。观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测,则它们算出的方差称为总体方差;然而,一般情况下我们只使用总体的一个子集(样本),由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。
> 更多名词定义参考 [总体、样本、总体方差、样本方差、抽样方差和标准误差](https://zhuanlan.zhihu.com/p/106706044)
> **有两个不同的概念都被称为“方差”**。一种是**理论概率分布的方差**。而另一种方差是一组观测值的特征(**统计意义上的方差**)。
## 2.1,概念定义

Expand Down Expand Up @@ -96,7 +96,7 @@ $$Error = Bias + Varience$$
- **偏差度量着偏离真实函数或参数的误差期望**
- **方差度量着数据上任意特定采样可能导致的估计期望的偏差**

![模型容量和误差之间的典型关系1](../data/images/ml_concept/model_capacity_under_over_fitting.png)
![模型容量和误差之间的典型关系1](../data/images/ml_concept/model_capacity_bias_varience.png)
### 2.3,数学定义

假设对测试样本 $x$, 令 $y_{D}$ 为 $x$ 在数据集中的标记,$y$ 为 $x$ 的真实标记, $f(x;D)$ 为在训练集 $D$ 上学习到的模型 $f$ 在 $x$ 上的预测输出。
Expand Down Expand Up @@ -130,11 +130,19 @@ $$Error = Bias + Varience$$
模型容量与偏差、方差的关系图如下所示:

![模型容量和误差之间的典型关系2](../data/images/ml_concept/model_capacity_bias_varience.png)
![模型容量和误差之间的典型关系2](../data/images/ml_concept/model_capacity_under_over_fitting.png)

从上图可以看出,当容量增大(x 轴)时,偏差(蓝色虚线)随之减小,而方差(绿色虚线)随之增大,使得泛 化误差(加粗曲线)产生了另一种 U 形。如果我们沿着轴改变容量,会发现**最佳容量**(optimal capacity),当容量小于最佳容量会呈现欠拟合,大于时导致过拟合。这种关系与第一章中讨论的容量、欠拟合和过拟合之间的关系类似。

## 四,样本方差与总体方差
> 本章中样本方差与总体方差概念是统计学意义上的。
### 4.1,方差定义

方差是在**概率论****统计学**中衡量随机变量或一组数据时离散程度的度量,在统计描述和概率分布中各有不同的定义,并有不同的公式。

概率论中,方差(variance)衡量的是当我们对 $\textrm{x}$ 依据它的概率分布进行采样时,随机变量 $\textrm{x}$ 的函数值会呈现多大的差异,简单理解就是用来**度量随机变量和其数学期望之间的偏离程度**

统计学中,方差是一组观测值的特征,观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测,则它们算出的方差称为总体方差;然而,一般情况下我们只使用总体的一个子集(样本),由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。

**1,均方误差(MSE,mean squared error)与均方根误差(RMSE)**

Expand All @@ -145,24 +153,23 @@ $$\frac{1}{n} \sum_{i=1}^{n}[f(x_i)-y_i]^2$$

**2,总体方差**

> 方差是在概率论和统计学中衡量随机变量或一组数据时离散程度的度量,在统计描述和概率分布中各有不同的定义,并有不同的公式。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。*
*统计中的方差(样本方差)是样本实际值与实际值的总体平均值之差的平方和的平均值**,即将各个误差之平方(而非取绝对值,使之肯定为正数)相加之后再除以总数。
**统计中的总体方差 $\sigma^2$ 就是对整个总体运用方差计算方法得到的结果**,即样本实际值与实际值的总体平均值之差的平方和的平均值。
> 另一种定义:各个样本误差之平方(而非取绝对值,使之肯定为正数)相加之后再除以总数。
**总体方差**计算公式如下:
$$\sigma ^2 = \frac{\sum_{i=1}^{N}(X_{i}-\mu)^2}{N}$$
公式解析:
1. 因为和样本数无关,所以分母为样本数
2. 累加每个值和均值差值的平方,对应于每个值相对于均值的偏差,对应于离散程度,平方是对离散程度的加剧,同时能让差值总为正数,以符合偏差的概念意义
3. $\sigma$ 的平方表示总体方差,$X$ 表示变量,$\mu $ 表示总体的均值,$N$ 表示总体样本数量。
3. $\sigma$ 的平方表示总体方差,$X$ 表示变量,$\mu $ 表示总体均值(也叫数学期望),$N$ 表示总体样本数量。

由于方差是数据的平方,与检测值本身相差太大,难以直观的衡量,所以常用方差开根号换算回来,就成了标准差(Standard Deviation)用$\sigma$ 表示。

**3,样本方差**

在实际项目中,总体均值难以得到时,应用样本统计量替代总体参数,经校正后,样本方差的计算公式如下:
> 样本方差是指总体各单位变量值与其算术平均数的离差平方的平均数。样本方差的意义是用来估计总体方差(统计术语:样本方差是对总体方差的无偏估计)。
在实际项目中,总体均值很难获得,所以常**用样本方差来估计总体方差**(统计术语:样本方差是对总体方差的无偏估计)。所谓**样本方差**,是指样本各单位变量值与其算术平均数的离差平方的平均数。

应用样本统计量替代总体参数,经校正后,样本方差的计算公式如下:
$$\sigma ^2 = \frac{\sum_{i=1}^{n-1}(X_{i}-\overline{x_{i}..x_{n}})^2}{n-1}$$
$\overline{x_{i}..x_{n}}$ 表示样本均值公式分母由总体方差的 `N` 变为了 `n-1`,使得样本方差更能反映总体方差。

Expand Down

0 comments on commit a59cf21

Please sign in to comment.