如果说分布是统计数据的最简表示,分布特征则是分布的进一步简化,尽管这种简化不同于数据阵对统计数据表与分布对于数据阵的无信息损失的简化,这是一种有信息损失的简化。
分布特征是从一个侧面反映分布的性状即分布的形状特点和其他一些特性。在这样的意义上,样本分布与总体分布除n与N以及抽样调查与全面调查的区别外并无二致,所以我们以下有时对样本分布与总体分布并不进行严格区分。借助这些特征,我们可以方便了解、描述一个分布,并把这一分布与其他分布加以比较。描述分布及其特征就是所谓描述统计的任务和内容。
要实现对分布的进一步简化与重点描述,分布特征的选择须简明扼要并且具有很强的代表性。
假如分布特征限定以一个值表示,且该值对所有个体最有代表性,则不可不谓之经济,因为相对于多个值而言,无疑是最简单最节约的。其中的所谓代表性,可以用该分布特征值到各个个体对应之变量值的距离测度。即以距离反映差异,距离之和最短,反映分布特征值与各个个体对应之变量值差异最小。
而根据几何知识可知,绝对值距离与欧式平方距离两种形式的距离最为简单。不妨以a记分布特征值,则
1)绝对值距离
不难验证,a如果是总体中位数时,则各个个体对应的变量值到a的绝对值距离最短。
2)欧氏平方距离
容易验证, a如果是总体均值时,则各个个体对应的变量值到a的欧氏平方距离最短。之所以用欧氏平方距离而不用欧氏距离,是因为欧氏距离是欧氏平方距离的算术平方根,其计算反而比欧氏距离更简单。
这说明,总体中位数和总体均值确实是符合“简明扼要”标准的最重要的总体分布特征。但总体分布并非唯有总体均值一个分布特征。不同的分布特征具有不同的功能,例如人们用总体方差反映总体均值的代表性大小。
总体方差的算术平方根称为总体标准差,也有同样反映总体均值代表性大小的功能。
假如需要比较几个不同总体分布的各自的总体均值的代表性大小,则可通过标准化方差这样的分布特征实现。
不过,在所有分布特征中总体均值之所以重要性是因为本身既为实际场合所亟需,而总体总量、总体比率以及总体比例等现实中需求极其普遍的指标又往往是其简单函数。
因此,总体均值在统计估计乃至整个推断统计里无疑都是焦点所在,初学者尤其需要对此予以关注。
有一些分布特征不必基于分布表和分布图,只利用原始的n×P数据阵即可计算得到,这些分布特征理应称为代数特征。又因其不能用于分类变量,只能用于变量值具有可加性的数值变量,所以总是以数字表达之,故往往称为数字特征。
1. 总体均值
总体均值为所有观测值相加再除以观测值的个数,又称为算术平均数。均值是对数据所谓集中趋势的反映。
2. 总体方差
总体方差是所有观测值与其均值离差的平方的均值。标准差是所有观测值与其均值离差的平方的均值的平方根。
总体方差定义为各个个体对应之变量值到总体均值的平均欧氏平方距离。
另一种总体方差的定义为
由于统计数据通常规模很大的特性, N与N-1的差异甚微,所以相比,分母上的些微差别,对大小的影响几乎可以忽略不计,区别在于估计量的性质。
3. 总体标准差
总体方差的算术平方根称为总体标准差,是各个个体对应之变量值到总体均值的平均欧氏距离。
另一种总体标准差的定义为
对于标准化变换后的变量所求方差或标准差即标准化方差或标准差也是很有用的分布特征。所谓标准化是标准化变换
的简称,其中分子是各个个体对应之变量值减去总体均值的差值,分母是总体标准差。
标准化总体方差
标准化总体标准差
4. 偏度
偏度是反映分布相对于均值对称轴线的偏离方向和程度的指标。总体偏度
当Skewness=0时对称,意为不偏,Skewness>0时右偏,Skewness<0时左偏,并且Skewness 绝对值越大,偏态程度越大。偏度以总体均值为偏离基准,其偏离方向的简单判别方法是假如均值在中位数之右,则为右偏;均值在中位数之左,则为左偏;假如两者重合,则为对称。
6. 峰度
峰度是对分布曲线尖削程度的测度。
kurtosi>3 尖顶峰,kurtosi =3 正态峰,kurtosi<3 平顶峰。
偏度和峰度都是描述分布形状的分布特征,其设置都是以正态分布为基准,正态分布的偏度为0,峰度为3。
除了上述偏度和峰度指标,由众数与中心对称点值之相对位置和距离形成的偏度指标,以及基于标准化数据分布图观察得到的众数对应频率与极差大小之比形成的峰度指标也都是反映分布形状的数字特征。
上述总体均值、总体方差、总体标准差都可根据原始的数据集或表示法的数据计算得到,然而有些分布特征只能通过图示法中的分布图才能确定。凡需通过分布图才能确定的分布特征称为几何特征
【判断题】凡需通过分布图才能确定的分布特征称为几何特征。(正确)
从来源或获取途经上,分布特征有几何特征与代数特征之分,其中几何特征一方面基于分布图才能获得,另一方面,只有数值变量才存在几何特征,注意几何特征乃源于分布图特别是数值变量的分布图。
1.最小值
最小值是一组数据中变量值最小的值。便宜的不值得维修的产品如灯泡的寿命,贵重或重要的产品的保养时限,电路的串联系统以及经济学木桶理论等都是最小值的应用。
2.最大值
最大值是一组数据中变量值最大的值,如台风洪水地震的历史纪录等。而设计大坝的高度和建筑物的抗震强度以及电路的并联系统等就是最大值指标的应用。
3.众数
众数是一组数据中出现次数最多的变量值。例如在投票过程中,票数最多的当选者,一个地区的常风向等都属于众数,众数未必一定是唯一的,尽管经常是唯一的。众数一般用符号mode表示之。
4.中数
中数是指将变量各观察值按从小到大顺序排列,处于中间位置的数值,故又称中位数。一国或一个地区的人口在一年里的每天是不断变动的,常用7月1日0时0分的人口作为全年的“平均”人口,有人认为工资收入之类也应该以中位数代替平均数。
5.四分位数
四分位数是将变量各观察值按从小到大顺序排序,处于左起累计25%位置上的变量值为上四分位数,处于左起累计75%位置上的值为下四分位数。上下四分位数相当于对总体的个体依变量值自小到大顺序排列,然后分成四等份,三个分界点自左至右依次为上四分位数、中数、下四分位数。
6.极差
极差是最大值与最小值的差值。
7.四分位差
四分位差是下四分位数与上四分位数的差值。
分布特征有两类:一类分布特征用来反映分布的离散性,可称为离散程度分布特征;另一类分布特征用来反映分布的离散基准,可称为离散基准分布特征。
离散程度分布特征(又称为离散趋势指标)反映的是总体中的各个个体之间变量值的整体差异的大小。
离散程度分布特征包括以均值为基准的方差标准差和以中位数为基准的平均差,表面上以边界点为基准实则以均值为基准的极差,和表面上以类边界点为基准实则以中位数为基准的四分位差,变异系数等,还有以众数频率为基准的异众比例和优势比。
离散基准分布特征(又称为集中趋势指标)反映的是总体中的各个个体间之间变量值的差异基准。
离散基准分布特征包括众数、均值和中数。
数值变量的分布比较复杂,大致是离散基准分布特征从均值、中位数二中选其一,但在少数场合也使用众数;对应的离散程度分布特征相应地分别有以均值为基准的平均差、方差、标准差,以中位数为基准的四分位差和极差。注意,数值变量并不存在以众数为基准的离散程度分布特征。此外,虽然峰度和偏度皆以均值为比较基准,但反映的是分布的形状特性,不是离散程度。
分类变量的分布比较简单,由于变量值既不存在顺序,也不可加,所以既不存在中位数,也不存在均值。与此相对应的,平均差、方差标准差无从谈起,同时分类变量既无最小值、也无最大值,因而极差也不存在。
与数值变量比较关注变量值相比,分类变量关注的是频率,所以分类变量作为差异基准的是众数,作为离散程度的是与众数有关的优势比和异众比例。
异众比例越小优势比越大,说明众数的代表性越强,分布的离散程度越大。比较异众比例和优势比可以看出,
优势比与方差是反比关系,而异众比例是正比关系,如果关注点在于众数的代表性强弱,则用优势比是更好的选择,包含较多的信息。
离散标准分布特征 | 离散程度分布特征 |
其他形状特征 |
|
数值变量 | 均值、中数、众数 | 方差、标准差、平均差、极差、四分位差、变异系数 | 偏度、峰度 |
分类变量 | 众数 | 异众比例、优势比 |