第1章 数据的整理与统计分析
大数据时代的到来,使得对数据的管理和应用显得更为重要。数据是对自然现象和社会现象进行计量的结果,对数据的管理和应用主要包括两方面的内容:一是针对日常事务处理的数据管理;二是服务于决策的数据分析。统计数据是利用统计方法进行数据分析的基础,离开了统计数据,数据分析方法也就无从谈起。如何使统计数据符合数据分析的需要,是本章所要解决的主要问题。
1.1 数据整理
1.1.1数据的测量尺度及类型
对于不同的研究对象,人们往往针对其某些性质展开研究,因此能够用来计量或测度的标准和程度也是不同的。有些事物只能对其属性进行分类和研究,如人的性别、婚姻状况、受教育程度,产品的型号和质量等级等;有些事物可以用比较精确的数字进行计量,如产品的重量、长度、价值,收入的多少等。根据计量学的分类方法,按照对研究对象的不同性质和计量的精确程度,可以采取不同的方式将变量分为四个层次:定类变量、定序变量、定距变量和定比变量。它们所采用的计量尺度由低级到高级,由粗略到精确。不同层次的统计数据适用于不同的统计分析方法。
1. 定类变量
定类变量是按照事物的某种属性对其进行平行的分类或分组。定类变量的取值只是测度事物之间的类别差,却无法反映各类之间的其他差别。例如,根据性别将人口分为男、女两类;按照经济性质将企业分为国有企业、集体企业、私营企业、合资企业、独资企业等。使用定类尺度对事物进行分类时,它们必须符合穷尽和互斥的要求。类别穷尽是指在所做的全部分类中,必须保证每一个元素都能归属于某一类别,不能有所遗漏;类别互斥是指每一个元素或个体只能归属于一个类别,而不能在其他类别中重复出现。为了分析上的方便,对于定类变量的取值也可以用数字来表示,但这些数字不能区分大小,也不能进行数学运算。
2. 定序变量
定序变量的取值用于描述事物之间的等级差或顺序差别,该类变量不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序,但不能测量出类别之间的准确差值。例如,产品等级就是对产品质量好坏的一种次序测度。定序变量测量的结果只能比较顺序,不能进行数学运算,尽管它们的取值是用数字表示的。
由定类变量和定序变量形成的数据说明的是事物的品质特征,不能用数值表示,其结果均表现为类别,也称为定性数据或品质数据。
3. 定距变量
定距变量不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少,如收入用人民币元度量、质量用克度量、考试成绩用百分制度量等。定距变量的每一间隔都是相等的,可以进行加减运算。
4. 定比变量
定比变量除了具有上述三种变量尺度的全部特征,还具有一个特性,即可以计算出两个测度值之间的比值。这要求定比尺度中必须有一个绝对固定的“零点”,这也是它与定距变量的唯一差别。
由定距变量和定比变量形成的数据说明的是现象的数量特征,能够用数值来表示,也称为定量数据或数量数据。
区分测量的层次和数据的类型是非常重要的,因为针对不同的数据类型可以采取不同的统计方法进行处理和分析。例如,对于定类变量的数据,通常可以计算出各组的频数或频率,计算众数和变异系数,进行列联表分析和χ2检验等;对于定序变量形成的数据,可以计算中位数和四分位数,进行等级相关系数等非参数分析;对于定距变量和定比变量形成的数据,可以用更多的统计方法如参数估计和检验等进行处理。需要特别指出的是,人们所处理的数据大多为数量数据,适用于低层次测量数据的统计方法同样也适用于较高层次的测量数据,因为后者具有前者的数字特征。例如,在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,同样,对定距数据和定比数据也可以计算众数和中位数。但是,适用于较高层次测量数据的统计方法则不能用于较低层次的测量数据,因为较低层次的数据不具备较高层次测量数据的数字特征。
1.1.2数据的分组和描述
数据分组又称统计分组,它是数据整理的核心。任何数据只有经过分类或分组才能初步显示出数据的基本特征,也才能进行进一步的分析。
1. 频数和频率
资料汇总整理的第一步是将资料分类,并归纳成一张表,这种表称为频数表。频数表中各组所分配到的总体单位数称为频数(frequency);将各组单位数与总体单位数相比,求得的相对数称为频率或比率。相对频数 (relative frequency)是在频数分布中某一给定组的频数占总频数的比例,即用某个单个组的频数除以总频数。累计频数 (cumulative frequency)是频数分布中小于等于该组上限的数的总频数,即将每组的频数加上该组以前的累计频数。
2. 组数和组距
在频数表中,按某个标志将资料加以分类,划分成各个等级,这种方法一般称为分组。划分组数的多少并无一定准则可循,一般取决于频数表的用途。组数越多,则每组包含的范围越窄,则组距越小;相反,组数越少,每组所包含的范围越宽,也就是组距越大。
3. 组限和组中值
在频数表中每组两端的标志值为组限,其中每个组的起点值为组下限,终点值为组上限,组上限与组下限之差为组距。在频数表中,组上限与组下限的中点值称为组中值。
4. 等距分组与异距分组
等距分组是指标志值的变动在各组之间是相等的,即组距相等,否则为异距分组。凡是总体单位标志值变动比较均匀的,可采用等距分组,当总体单位的标志值急剧增长或下降,波动幅度较大时,往往采用异距分组。
1.2单变量数据的描述性统计分析
1.2.1数据集中趋势分布的数字特征
集中趋势分布是指一组数据向某一中心值靠拢的倾向,集中趋势代表了事物的一般水平和总体趋势。常用的描述集中趋势的指标有均值(平均数,mean)、众数 (mode)和中位数(median)三类。
1. 均值
均值是测度数据集中趋势的常用指标,主要用于比较和分析研究对象在不同时空和历史条件下的发展水平。根据数据的不同,均值有算术平均数(arithmetic mean)、加权平均数(weighted mean)和几何平均数(geometric mean)三类。
1) 算术平均数
在统计公式中,习惯上把第一个观察值表示为x1,把第二个观察值表示为 x2,以此类推。 n个不同的数,算术平均数的计算公式为
(1-1)
【例1-1】某学习小组共有学生10人,他们的管理学考试成绩分别为90、85、80、 70、75、80、85、85、80、65,则该小组学生管理学的平均成绩为
2) 加权平均数当数据量比较大时,用算术平均数计算均值比较麻烦,可以将数据进行分组,并用组中值作为一组数据的代表。如前所述,组中值 =(组上限+组下限)/2,则加权平均数的计算公式为
(1-2)
其中,为总次数,表示组的频率或者权系数,k为分组数或者类别数,xi为每一组的组中值。但这种计算方法有一个前提是各组数应为均匀分布或关于组中值对称,否则会产生一定的误差。
【例 1-2】 根据我国某年农民平均纯收入的调查情况(表1-1),计算农民的年平均收入。
表 1-1农民平均纯收入分组分布
当年全国农民平均纯收入为
3) 几何平均数
几何平均数是一种比较特殊的均值,它是为了说明事物在一段时间内的变化情况,需要计算事物发展的变化速度,如几年内的平均增长速度,这时就可以使用几何平均数,其计算公式为
(1-3)
几何平均是均值的一种特殊形式,式(1-3)两边取对数可得
(1-4)
可见几何平均数的对数等于各数值对数的算术平均数,当各数值xi相差不大时,其算术平均数与几何平均数在数值上相差也不大,否则二者在数值上会有明显的差异。
【例1-3】 某省五年来生产总值的年增长速度为7%、8%、10%、12%、18%,计算该省五年平均年增长速度。
根据五年的年增长速度对应的年度增长系数分别是1.07、1.08、1.10、1.12、1.18,则五年以来的平均增长速度为,所以五年平均年增长速度为10.93%。
2. 众数
众数是一组数据中出现次数*多的变量值,一组数据分布的*高峰点所对应的数值即众数,通常用 M0表示。众数通常可以通过观察得到,例如,10个班级的人数分别是28、27、26、25、30、30、24、30、24、30,其中 30出现的次数*多,因此众数为 30。一般来说,众数只有在数据量较大或有某些数据值出现较多时才有意义。
3. 中位数
中位数是指将一组变量值按大小顺序排列起来,处于中间位置的那个数。用Md表示。设n个数据,按从小到大的顺序排列,则它们的中位数为
(1-5)
【例1-4】 某地 11个人的月收入为 5350元、4568元、3900元、2780元、8500元、11230元、4800元、9600元、6700元、5850元、9750元,求中位数。
将数据从小到大排列为2780、3900、4568、4800、5350、5850、6700、8500、9600、9750、11230,其中n=11,为奇数,故其中位数为。
中位数与均值表示的含义是不同的,均值蕴含了“重心”的意思;但中位数是位置的中间数,即有一半或一半以上的数据不大于中位数,一半及一半以上的数据小于中位数。所以,当一组数据中有一些极端数据,即有个别的极大值或极小值时,一般不会影响中位数的变化,也正是由于中位数的这个特点,在进行社会经济领域的数据分析时,将中位数作为中心常常比平均数更具有实际意义。
4. 集中趋势几种度量方法的使用
在使用数据进行集中趋势的描述时,要根据数据的不同特点采用不同的度量方法。一般来说,定类变量的数据可以使用众数;定序变量的数据既可以使用众数,也可以使用中位数,但平均数的效果*好。但当变量值之间的差异比较大时,平均数的代表性就会比较差。
1.2.2数据分散趋势分布的数字特征
分散趋势是数据分布的另一个重要特征,它反映的是各类变量值远离中心值的程度,也称为离散程度。分散趋势与集中趋势是同一问题的两个方面。集中趋势说明事物发展的一般水平,它反映的是各变量值向其中心值聚集的程度;而分散趋势则说明各变量从数据的中央数值向两端分离或离散的程度,是非众数与众数的偏离程度。分散趋势越大,表明数据中的各个变量与集中趋势的偏离越大,集中趋势指标的代表性就越差。测定分散趋势的常用指标有极差(range)、四分位差(interquartile range)、方差(variance)、标准差 (standard deviation)和变异系数(coefficient of variance)。
1. 极差
极差是指一组变量数列中*大值与*小值的差。
设n个数据按照从小到大的顺序排列为为*小值,x为*大值,则极差的计算公式为
(1-6)
极差的意义在于:极差越大,分散趋势越大,集中趋势指标的代表性就越差。极差适用于定距变量和定序变量的数据。极差的计算比较简单,也容易理解,但它的值只取决于数列中两个极端值的数值,忽略了其中大量的信息,且极容易受异常值的影响,很不稳定。因此,极差是一种*为粗略的测量指标,在实际中应用也比较少。
【例1-5】7个班的人数分别为28、32、34、38、42、45、52,计算极差。
2. 四分位差
四分位差也是将 n个数据从小到大的顺序排列,然后用三个点将数列分为四等份,三个点的位置分别是,每个位置上对应的变量值即四分位数,分别用Q1
展开