在线报名
报名咨询
全站搜索未启用
跳到主要内容

3.1 数据阵和分布

在第2章里出现的统计数据表是统计调查的终点和结果,同时又是统计分析的起点和基础。但在统计学里,统计数据不仅表现为统计数据表的形式,更常见的是另外两种更简洁的表现形式:n×P维数据阵和分布。

一、统计数据表

统计数据表为一个二维的表,在关系数据库理论中这个表也被称为一个关系。统计数据表全面地反映了一次统计调查形成的完整的样本数据,见表1。

表 1 统计数据表

统计数据表的第一列(除最上面一个单元外)的n个单元分别反映n个个体。

第一行(除最左面一个单元外)的P个单元分别反映P个变量(变量值组合的名称)。

n个个体和P个变量交叉形成的其余各个单元,则反映所有n个个体与P个变量所对应的n×P变量值。

仔细观察表1所示统计数据表的结构,可以发现表的最上面一行(第一个单元除外)的行名为变量名称,最左边一列(第一个单元除外)的列名是个体(样本点)的号码。

其余部分,即统计数据表除最上面一行和最左边一列的部分,行数记为n;列数记为P; 单元总数为n×P,正可放置全部抽样调查的结果,故统称之为样本数据阵。样本数据阵又称统计数据阵简称数据阵。数据阵的任意一行称为一个样品,任意一列称为变量值向量。故一个数据阵既可看作是n个样品的集合,又可看作是P个变量值向量的集合。

二、矩阵

在统计学尤其是多元统计分析中,为了行文与数学运算方便,习惯以这样一个由样本数据构成的n×P矩阵代替统计数据表。数据阵相当于将表1的行号和列名省略,同时去掉表的行和列的间隔线而内化的结果,记为Y,有时或称为数据集,见下边的矩阵。

其中表示数据集中第i行第j列的数据,即变量的第i个样品对应的变量值。

需要注意的是,数据阵与统计数据表包含的信息完全一致,只不过数据阵将个体名称和变量名称隐去,它们其实依旧存在且发挥着自己的作用。

三、分布
(一)分布

分布就可看作统计数据的一种极简表达方式。分布是站在总体的视角俯瞰个体的结果。

(二)总体分布和样本分布

对一个变量而言,其总体分布指的是全面调查获得的所有变量值(或组)与其对应频率的一揽子表示。

其样本分布指的是抽样调查获得的所有变量值(或组)与其对应频率的一揽子表示。其中

总体频数:某一变量值(或组)的频数=总体中对应该变量值(或该组)的个体数;

总体频率:某一变量值(或组)的频率=总体中对应该变量值(或该组)的个体数/N;

样本频数:某一变量值(或组)的频数=样本中该变量值(或该组)的个体数;

样本频率:某一变量值(或组)的频率=样本中对应该变量值(或该组)的个体数/n

总体频率也被误称为概率(其原因见第5章相关内容),不过总体频率含义清楚简单,概率则比较难以理解。建议第5章之前即使提到概率,读者也请将其理解为总体频率。

一个分布究竟是总体分布还是样本分布,取决于调查是全面调查(对构成总体的所有个体都采集变量值)还是抽样调查(仅对构成总体的部分个体采集变量值)。

无论总体分布还是样本分布都可以简化相应的数据阵,原理在于一个个体只对应一个变量值,但一个变量值可能对应多个个体,见图3-2。

图3-2分布原理图

(三)条件分布

关于分布,读者要特别重视统计学经常提到的条件这个术语。所谓条件就是变量取特定值。例如,在人口研究时,对人口调查数据所关注的性别为男,年龄在12岁以下者,年龄在65岁以上者;年龄在60岁以上的男性和年龄在55岁以上的女性;60岁以上的人及不超过24岁的女性;被抽中接受调查者等等。

在一个总体之内,依某个变量或某些变量的某个固定取值或某组固定取值的条件,可以分离出一个集合,这个集合是是总体这一集合的子集(或称为子总体),其中的个体都满足上述条件,该子集或子总体之外的其他个体均不满足条件,称之为条件总体。条件总体的规模即其所包含的个体数称为条件总体规模。

例如男性中国人是中国人这个总体的一个条件总体,该条件总体的条件是性别值为男性。

中国男青年则是中国人总体中性别为男性同时年龄段属于青年段的所有中国人构成的一个子总体。

条件变量之外的变量在一个条件总体中的分布称为这些变量的条件分布

例如0到12岁儿童的性别分布或是老年人的身高分布都属于条件分布。

将总体对应的变量定义域按不重不漏原则进行分组,可以获得一系列子总体。将这一系列子总体依其对应变量值在定义域中的位置排列,并将所对应的频数一揽子表示,则可获得这个变量的总体分布。假如在样本中,则可获得这个变量的样本分布。

(四)联合总体分布和边缘分布

如果在几个变量的复合定义域上按不重不漏原则进行分组,也可以获得一系列子总体。将这一系列总体依其对应变量值在定义域中的位置排列,并将所对应的频数一揽子表示,则可获得这几个变量的联合总体分布。例如对中国人这一总体可以给出依汉族少数民族,男性女性,少儿青年壮年老年,获得民族性别年龄段三个变量的联合总体分布。

相对于联合总体分布,其中单个变量的分布称为边缘分布。

无论是总体中还是样本中的一个个体,总有且只有一个变量值(不管是分类变量还是数值变量的值),例如一个人必有且只有一个性别值,必有且只有一个身高值(观测时的固定时点)。但就整个总体或样本中的所有全部个体看,一个变量值所对应的个体数目却未必少于一个,例如虽然每个中国人都有一个性别值和身高值,但在中国人这个总体中,男性人口与女性人口都有几亿多,身高在各个区间如1.6米到1.7米的人都有很多。

最后修改: 2022年01月11日 Tuesday 10:18