【正态分布】(Normal distribution),也称“常态分布”,又名(Gaussian distribution)
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为。
当μ = 0,σ = 1时的正态分布是。
正态分布有两个参数,即期望(均数)μ 和 标准差σ,σ2为方差。
μ是正态分布的位置参数,描述正态分布的位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为,左右完全对称。正态分布的期望、、、众数相同,均等于μ。
σ(标准差)描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
一个标准差 68%, 两个标准差 95%, 三个标准差 99%。
高斯分布怎么来的,很简单。只要所观察的系统里,各种对象之间关联很弱(相互独立?),那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。
高斯分布的信息熵最大。即,高斯分布是最混乱系统。
自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。
【中心极限定理】——如果一个指标受到若干独立的因素的共同影响,且每个因素不能产生支配性的影响(Lindeberg 条件),那么这个指标就服从中心极限定理,收敛到正态分布,这就是林德伯格-费勒中心极限定理的意思。
很多个因素独立同分布并且可以叠加,那么叠加结果就会接近正态分布。我看的参考书上把这个叫做中心极限定理。
我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。
误差分布导出的极大似然估计 = 算术平均值
【正态标准化】
假设我们有一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score规范化如下:
x(i,j)' = [x(i,j) - E(j)] / S[j],即x(i,j) 减去第j列的均值再除以第j列的标准差。
这样处理之后,原数据就变成了均值为0,方差为1,记作:
X' = [X - E(X)] / S(X),其中,E(X) = 0, S(X) = 1。