第一部分现代统计理论概要
第一部分除了介绍一些数理统计的基本概念外,着力阐述估计量的评价标准、区间估计的评价标准以及假设检验方法的评价标准,同时也尽可能地给出得到*优估计方法和检验方法的渠道。具体结构为:第1章介绍数理统计的基本概念,如样本、统计量、充分统计量以及指数型分布族等;第2章介绍随机变量序列的收敛性概念及相关结论,是讨论统计学大样本性质的基础;第3章给出估计量好坏的若干评价标准、一个估计量用于估计参数的误差下限,并介绍了估计方法的一般化理论(Z估计与M估计第4章介绍假设检验的基本概念及假设检验好坏的评价标准;第5章介绍区间估计的基本概念、假设检验好坏的评价标准以及区间估计与假设检验间的联系等;第6章介绍充分利用矩条件进行统计推断的两种方法:广义矩方法与经验似然方法;第7章主要介绍贝叶斯统计推断的基本思想、贝叶斯参数估计和假设检验的基本方法。
数理统计学是利用部分观测资料对未知世界进行推断的学问。统计推断主要是对统计模型及其性质的推断,统计模型也就是刻画总体统计规律性的工具。要对总体规律性进行推断就需要从总体中抽样,然后对样本进行加工。这些加工的手段和方法就是统计方法。统计方法实际上就是利用样本构造统计量的方法,统计推断就是利用构造好的统计量对总体分布规律性给出定量或定性的结论。本章将介绍总体、样本、统计量等数理统计的基本概念,这是学习统计推断理论与方法的重要基础。
1.1总体、样本、统计量与估计量
数理统计解决问题的目标就是对总体进行推断,用数理统计处理问题大致可以分为五步(图1-1):明确表述研究的目标。确定想解决的问题及想了解的内容。②从总体中抽样,即收集数据(带随机性③对样本进行整理和加工,构造合理的统计量。④将样本观测数据代入统计量,得到数值结论。⑤统计推断,对欲解决的问题下统计结论,对未来趋势进行预测。
图1-1统计研究的基本步骤
为了能够对总体给出定量或定性的结论,需要收集数据(样本及其观测值),并对所收集到的数据进行加工(统计量及其观测值)。因此,我们先介绍总体、样本、统计量等这些统计学的基本概念。
1.1.1总体与个体
1.总体(母体)与个体
在数理统计中,要研究对象的全体,称为总体或母体。组成总体的每个成员,称为个体。
例1.1要了解上海市居民家庭的月收入情况。总体为上海市每个家庭的月收入所组成的全体,个体为上海市每个家庭的月收入。
2.总体分布
当我们打算从总体中抽取个体时,在抽到某个个体前,个体的值是不能确定的,因而它是一个随机变量,记为X。因X取值的统计规律性反映了总体中各个个体的取值规律,故把X的分布称为总体分布。我们假设X定义在概率空间上,其中n为样本空间,T为由样本空间的子集所生成的a-代数(域),p为定义在概率空间上的概率测度。直观上,n代表所有试验结果的集合,t代表所有事件的集合,而p是用于度量事件发生可能性大小的尺度。与随机变量一样,总体分布的统计规律离散型用分布律(也称为概率质量函数)刻画,连续型用概率密度函数来刻画。
在数理统计中,总体x的分布永远是未知的。即使有时有足够的理由可以认为总体X服从某种类型的分布,但这个分布的参数仍然未知。如:检验自某生产线上生产出来的零件是正品还是次品,用0表示正品,1表示次品,则X为0-1分布。但0-1分布的参数P仍是未知的。
1.1.2样本与样本观测值
要对总体下结论,需要收集数据进行观测。从总体中抽取一部分个体进行观测的过程,称为抽样。抽样即为收集数据。在抽样前,不知抽到的一部分个体(设为n个)的具体数值为多少,可看作随机变量,称为随机样本或样本。记为(X1, ,Xn)。样本中所含的个体数,称为样本容量。如样本(X1, ,Xn)的样本容量为n。
抽样后,得到样本,(X1, Xn)的一个具体值,记为(x1, ,xn),称为样本观测值。实际工作中,我们手头有一批数据,这相对于站在抽样后的立场上。
1.1.3统计量与估计量
对样本进行整理加工的一种有效方法是构造样本函数T=T(X1, ,Xn),它可以把分散在样本中的总体信息按人们的需要丨某种统计思想)集中在一个函数上,使该函数值能反映总体某方面的信息。这样的样本函数在统计学上称为统计量,具体定义如下。
定义1.1不含任何未知参数的样本函数称为统计量。统计量的分布称为抽样分布。
如为一个统计量。但若未知,就不是一个统计量。
1.2数字特征与数据的经验分布
将样本观测值取代样本代入定义统计量的样本函数中所得的数值称为统计量的观测值。统计量为一随机变量。若为样本的观测值,统计量的观测值就为。
统计量一定是通过观测能够得到其确切数值的,1.2节中的样本数字特征都是常用的重要统计量。
分布中所含的未知参数、分布中的一些重要数字特征、某事件的概率等这些人们关心的量用一个统计量进行估计就称为估计量。严格地讲,就是
定义1.2用于估计未知参数的统计量称为点估计(量),或简称为估计(量)。参数e的估计量常用表示,参数0的可能取值范围称为参数空间,记为。
估计量也是一随机变量,估计量的观测值称为估计值。估计值是一个数。
1.2数字特征与数据的经验分布
1.2.1数字特征
1.常用重要数字特征
设为总体X的样本,为样本的观测值,以下为常见总体数字特征、统计量及统计量的观测值。
1)总体均值与样本均值
称为总体均值。总体均值用于表示总体取值的平均值称为样本均值,其观测值为无=样本均值的观测值表
示数据的集中位置。
2)总体方差与样本方差
称为总体方差。总体方差用于刻画总体取值相对于其均值的平均偏离程度称为样本方差,其观测值为。样本方差的观测值是数据相对于均值的偏差平方的平均。
3)总体标准差与样本标准差
称为总体标准差称为样本标准差,其观测值为总体标准差与样本标准差都是为了保持与数据量纲的一致性而给出的总体或样本观测相对于其均值平均偏离程度的指标。
4)总体k阶(原点)矩与样本k阶(原点)矩
称为总体k阶(原点)矩。称为样本k阶(原点)矩,其观测值为。
5)总体k阶中心矩与样本k阶中心矩
称为总体阶中心矩。称为样本k阶中心矩,其观测值为。
6)总体偏度与样本偏度
称为总体偏度。总体偏度是度量总体分布是否偏向某一侧的指标。对于对称的分布,偏度为0。如正态分布的偏度便为0。若总体分布在右侧更为扩展,偏度为正;若总体分布在左侧更为扩展,偏度为负。图1-2表示了偏度为正和偏度为负的概率密度的图像特点。样本偏度的计算公式为。样本偏度的观测值是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。图1-3表示了偏度为正、为0和为负的数据分布的图像特点。
7)总体峰度与样本峰度
称为总体峰度。总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。当总体分布是正态分布时,总体峰度时,总体分布中极端数值分布范围较广,此种分布称为厚尾分布或重尾分布。当时,两侧极端数据较少,此种分布称为细尾分布或轻尾分布。图1-4给出了峰度等于3、小于3、大于3的概率密度的图像特
展开