第1章试验资料的统计描述
1.1常用术语
1.1.1总体与样本
根据研究目的确定的研究对象的全体称为总体(population)。其中,每个研究单位称为个体(individual);依据一定方法从总体中抽取的部分个体组成的集合称为样本(sample)。例如,某饮料厂某班次生产饮料1000瓶,则这个班次所生产的1000瓶饮料全体就构成研究总体,每一瓶是一个个体;从该总体中抽取100瓶进行测试分析,那么100瓶就为一个研究样本。含有有限个个体的总体称为有限总体(finite population),如上述班次生产的饮料总体为有限总体。包含有无限多个个体的总体称为无限总体(infinite population),如在生物统计理论研究中服从正态分布的总体、服从t分布的总体,包含一切实数,属于无限总体。样本中所包含的个体数目称为样本容量或大小(sample size),用n表示,如上述的研究样本容量n=100。通常把n<30的样本称为小样本,n≥30的样本称为大样本。
统计分析一般是通过样本来了解总体,然而通常能观测到的却是样本,这就需要通过样本来推断总体,这就是统计分析的基本特点。为了能可靠地由样本来推总体,要求样本对于总体具有一定的代表性。如何获取有代表性的样本?在实践中,只有采用随机抽样方法从总体中抽取样本,才能使其具有代表性。所谓随机抽样,就是指总体中的每一个个体都有同等的机会被抽取而组成样本。从总体中随机抽取的部分个体所构成的样本称为随机样本,然而样本毕竟只是总体的一部分,尽管具有一定的含量,也具有代表性,但通过样本来推断总体也不可能是百分之百的正确,虽然有很大的可靠性,但也有一定的错误率。
1.1.2参数与统计量
由总体的全部观测值计算的特征数称为参数(parameter)。参数常用希腊字母表示,如用μ表示总体平均数,用σ表示总体标准差。由样本观测值计算的特征数称为统计量(statistic),常用拉丁字母表示,如用x表示样本平均数,用S表示样本标准差,用R表示极差。由于参数通常无法获得,因此总体参数常由相应的统计量来估计,如用x估计μ,用S估计σ等。
1.1.3准确性与精确性
准确性(accuracy)也称为准确度,指试验指标的观测值与其真值接近的程度。设某一试验指标的真值为μ,观测值为x,x与μ相差的绝对值|x.μ|越小,则观测值x的准确性越高;反之则越低。精确性(precision)也称为精确度,指同一试验指标的重复观测值之间彼此接近的程度。若观测值彼此接近,即任意两个观测值xi、xj相差的绝对值|xi.xj|越小,则观测值精确性越高;反之越低。准确性、精确性的意义如图1-1所示。
图1-1准确性与精确性示意图
图1-1A观测值集中于真值μ两侧,其准确性高、精确性也高;图1-1B观测值稀疏地分布于真值μ两侧,虽然其准确性高,但精确性低;图1-1C观测值密集于远离真值μ的一侧,其准确性低,精确性高;图1-1D观测值稀疏地分布于远离真值μ的一侧,其准确性、精确性都低。
1.1.4随机误差与系统误差
在科学试验中,试验指标除受试验因素影响外,还会受到许多其他非试验因素干扰,从而产生误差。试验中出现的误差可分为随机误差(random error)与系统误差(systematic error)两类。随机误差也称为抽样误差(sampling error),这是由许多无法控制的内在的和外在的偶然因素所造成的。随机误差带有偶然性,在试验中,即使十分小心也难以消除,随机误差不可避免,但可减少,随机误差影响试验的精确性。统计上的试验误差通常指随机误差,这种误差越小,试验的精确性越高。系统误差也称为片面误差(lopsided error),这是由试验材料差异较大、试验周期较长、试验条件控制不一致、测量仪器不准、标准试剂标定不准等所引起。系统误差影响试验的准确性,它可以通过改进试验方法、正确设计试验来避免和消除。图1-1C和D所表示的情况,则是出现了系统误差的缘故。一般来说,只要试验工作细致,系统误差就可以克服。图1-1A表示克服了系统误差的影响,且随机误差较小,因而准确性、精确性高。
1.2数据资料的分类与整理
由调查或试验得到的第一手数据资料称为原始资料。原始资料往往是零乱的,无规律性可循的。只有通过科学的统计整理和分析,才能发现其内在规律性。数据资料的整理是进一步统计分析的基础。数据资料按其性质的不同,一般可以分为数量资料和质量资料。
1.2.1数据资料的分类
1.数量资料
数量资料是指以测量、计量或计数方式获得的数据资料。数量资料又分为计量资料(连续性变数资料)和计数资料(间断性变数资料)两种。
1)计量资料计量资料是指用测量手段得到的数据资料,即用度、量、衡等计量工具直接测定的资料,这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量仪器或工具的精度而定。从理论上讲,观测值数据是连续性的。因此,计量资料也称为连续性变数资料,如食品中各种营养物质的含量、苹果的单果重量等。
2)计数资料计数资料是指用计数方式得到的数据资料。在这类资料中,各个观测值只能以整数表示,在两个相邻整数间不可能有带小数的数值出现,各观测值是不连续的,因此该类资料也称为不连续性变数资料或间断性变数资料,如一箱苹果的腐烂果数、微生物的菌落个数等。
2.质量资料
质量资料是指能观察到但不能直接测量的、只能用文字来描述其特征的资料,如食品颜色、风味、酒的风格等。这类资料本身不能直接用数值来表示,为统计分析方便,需对其观测结果做数量化处理,常用的方法有以下几种。
1)统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究批次产品合格数与次品数时,可以统计其合格与次品个数。这种由质量性状数量化得来的资料可视为次数资料。
2)评分法对某一质量性状,因其类别不同分别给予评分。例如,分析面包的质量时,可以按照国际面包评分细则进行打分,综合评价面包质量。
3)分级法将不同性状分成几级,分别统计不同级别的资料个数,从而进行次数资料分析。
4)秩次法将各种处理按指标性状的好坏排序,即秩次,采用非参数检验的方法对秩次进行统计分析,这在食品感官评定过程中常用到。
5)化学分析法对于某些质量指标,虽然用分级法、统计次数法也能得到数量资料,但得到的多数是计数资料;若借助化学分析手段即可得到计量资料。
除了以上几种方法外,也可以借助必要的先进仪器来评价质量指标,获得数量资料,如质构仪、色差仪、电子鼻、电子舌、质谱仪等。
1.2.2数据资料的整理
根据数据资料中观测值的多少确定是否分组。当观测值较少(n≤30)时,不必分组,可直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可了解资料的集中程度和变异情况。不同类型的资料,其整理方法略有不同。
1.连续性变数资料的整理
连续性资料的整理,需要先确定全距、组数、组距、组限以及组中值,然后将全部观测值计数归组。下面以100听罐头的内容物质量资料为例来说明其整理的方法及步骤。
【例1-1】为分析某食品厂的罐头产品质量,随机抽取100听罐头样品,其净重测定结果见表1-1,试整理成次数分布表。
表1-1 100听罐头样品的净重(g)
(1)求全距。全距是资料中*大值与*小值之差,又称为极差(range),用R表示,即
R=max(xi)-min(xi)
式中,xi为观测值。
表1-1中,罐头样品*大净重为358.2g,*小净重为331.2g,因此
R=358.2-331.2=27.0g
(2)确定组数。组数的多少要根据样本含量及资料的变动范围大小而定,一般以既简化资料又能反映资料的规律性为原则。组数要适当,不宜过多,也不宜过少。若分组过少,不能明显呈现出资料的规律性;但若分组过多,也会影响到资料的统计规律性,甚至会出现锯齿状的次数分布图。一般组数的确定可参考表1-2。
表1-2样本含量与组数
在本例中,n=100,根据表1-2,确定组数为9组。
(3)确定组距。每组*大值与*小值之差称为组距(class interval),记为i。分组时要求各组的组距相等。组距的大小由全距与组数确定,计算公式为
i=全距/组数
本例组距i=27.0/9=3.0。
(4)确定组限及组中值。各组的*大值与*小值称为组限(class limit)。*小值称为下限(lower limit),*大值称为上限(upper limit)。每一组的中点值称为组中值(class value),它是该组的代表值。所以,组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+组距/2=组上限-组距/2
由于相邻两组的组中值间的距离等于组距,因此当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,依此类推。
组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近于或等于资料中的*小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,*末一组的上限应大于资料中的*大值。
如例1-1中,*小值为331.2,第一组的组中值可取331.0,因组距为3.0,因此第一组的下限为
331.0-3.0/2=329.5
第一组的上限也就是第二组的下限,应为
329.5+3.0=332.5
第二组的上限也就是第三组的下限,应为
332.5+3.0=335.5
依此类推分组为329.5~332.5,332.5~335.5,
通常将上限略去,如第一组记为329.5~,第二组记为332.5~,
(5)归组计数,制作次数分布表。将资料中的每一观测值逐一归组,统计每组内所包含的观测值个数,制作次数分布表。一般将正好等于前一组上限和后一组下限的数据归入后一组。
次数分布表不仅便于观察资料的规律性,而且可根据它绘成次数分布图并计算平均数、标准差等统计量。表1-3为100听罐头净重的次数分布表。
表1-3 100听罐头净重的次数分布
从表1-3中可以看出,100听罐头的单听净重多数集中在343.0g左右,约占观测值总个数的1/3,用它来描述罐头单听净重的平均水平,有较强的代表性。每听罐头净重小于332.5g及大于356.5g的为极少数。100听罐头净重分布基本以343.0g为中心,向两边做递减对称分布。
(6)次数分布图。次数分布用图示表示就是次数分布图。次数分布图主要有直方图、折线图两种。次数分布图是以分组组中值为横坐标,次数为纵坐标绘制的。如图1-2和图1-3所示,由次数分布图明显看出100听罐头的净重分布情况以及平均净重量。
图1-2 100听罐头净重次数分布直方图
图1-3 100听罐头净重次数分布折线图
2.间断性变数资料的整理
【例1-2】以50盒鲜枣每盒检出不合格枣数为资料来说明间断性资料的整理分析(表1-4)。
表1-4 50盒鲜枣每盒检出不合格枣数
表1-5 50盒鲜枣不合格枣数次数分布表
有些计数资料,观测值较多,变异范围较大,若以每一观测值为一组,则组数太多,而每组内包含的观测值太少,资料的规律性不明显。对于这样的资料
展开