第1章概论
本章提要
生物统计学是运用数理统计原理和方法来搜集、分析、表述和解释生物界各种现象和试验调查数据的科学。本章主要讨论:
?生物统计学的主要内容:数据的描述统计、推断统计;
?数据类型与特征:数值数据与分类数据,数据分布的集中性与变异程度;
?常用统计术语:总体与样本、参数与统计数、效应与互作等;
?统计学发展史:古典记录统计学、近代描述统计学、现代推断统计学。
第一节生物统计学的概念与作用
一、生物数据的变异性
生物学研究中,会产生大量的数据(data)。例如,生命科学研究者经常会在实验室、温室、野外、农田、诊所等各种场所进行调查和试验。一般情况下,调查和试验的结果总是存在变异性(variability)或差异性。例如,不同基因型的牡丹,花朵会呈现出红色、粉色、绿色等不同的颜色;相同条件下培养的植物细胞会有一定的差别;同一生境不同样方里的物种数量会有所不同。再比如,高血压病患者服用某种降压药后血压产生了不同程度的降低;同一地块种植不同基因型的玉米品种,其产量表现有高有低。
生物学研究的对象是生物有机体,与非生物相比,它具有特殊的变异性、随机性和复杂性。生物有机体的生长发育、生理活动、生化变化及有机体受外界各种随机因素的影响,都使生物学调查和试验结果具有较大的差异性,这种差异性往往会掩盖生物体本身的特殊规律。上述数据的差异性,有的是试验处理(如服用不同药物、采用不同品种)所产生的效应,也有的是调查或取样中产生的误差。通过实践发现,当试验条件尽可能保持相对一致时,其变异度会控制得比较小;但如果试验条件差异比较大,则会使试验结果误差增大。想要认识这些数据的变异性,分析试验结果的效应和误差,就需要通过统计方法进行分析和处理,认识数据变异的内在规律性,避免杂乱无章数据的干扰,厘清外部条件的影响,从而通过调查和试验数据来揭示事物的本质。
二、什么是生物统计学
统计学(statistics)是把数学的语言引入具体的科学研究领域,将所研究的问题抽象为数学问题的过程,是搜集、整理、分析和解释数据的科学。这一定义揭示了统计学是一系列处理数据的方法和技术。开展统计研究,首先必须要获得数据,对数据进行一定的整理,然后对数据进行分析和解释(图1-1)。这个过程可以概括为两个方面:抽样过程和推断过程(图1-2)。抽样过程(sampling process)就是通过抽样调查或试验研究取得反映客观现象的数据,构成数据样本,并通过数据整理、图表表达、计算加工、分布特征描述获得样本特征(如集中性特征、变异性特征)信息。这个过程也称为描述统计(descriptive statistics)。推断过程(inferential process)是指根据概率分布理论,通过样本特征信息来推断总体特征,并对分析结果进行说明和解释的过程,即通过现象认识本质的过程。这个过程也称作推断统计(inferential statistics)。由此可见,统计学就是一门有关统计数据的科学,统计学与统计数据密不可分。统计学是由处理统计数据的一系列方法所组成,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。没有统计数据,统计方法也就失去了它存在的意义。而获得了统计数据,如果不进行统计方法分析,其内在规律不能被认识,统计信息不能被挖掘,统计数据也就是一堆杂乱无章的数据而已。
生物统计学(biostatistics)是数理统计(mathematical statistics)在生物学研究中的应用,
它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调查数据的一门学科,属于应用统计学的一个分支。生物统计学是在生物学研究过程中,逐渐与数学的发展相结合而形成的,它是应用数学的一部分,属于生物数学的范畴。生物统计学是把数学的方法引入具体的生命科学领域,把生命科学领域中具体的研究问题抽象为数学问题,从大量的调查与试验数据中探寻其内在规律的过程。随着生物学研究的不断发展,生物统计学的应用也越来越广泛。因此,在生物学研究中,应用生物统计学就显得特别重要。生物学研究的实践证明,只有正确地应用生物统计学的原理和分析方法,合理制订生物学调查方案,科学设计生物学试验并正确实施,对数据进行客观分析,才能得出科学的结论。
三、生物统计学的内容与作用
生物统计学以概率论和数理统计为基础,将统计学应用于生物学研究过程中,其中涉及数列、排列、组合、矩阵、微积分等知识。作为生物学研究的一门工具课程,生物统计学一般不过多讨论数学原理,而主要偏重统计学原理的介绍和具体分析方法的应用。
生物统计学的基本内容,概括起来主要包括数据的描述统计和推断统计两大部分。描述统计主要是对通过调查与试验获取的数据特征进行描述。推断统计是指应用数理统计的原理与方法对数据进行分析,用样本统计数对总体参数进行推断,主要包括平均数及频率的统计推断、非参数检验、列联分析、方差分析、回归与相关分析、协方差分析等。
如何应用生物统计学合理地制订调查方案、科学地进行试验,并通过大量调查与试验数据来探寻其内在规律,可基本概括为以下4项内容,即生物统计学4个方面的作用。
(一)制订数据搜集的方案,提供调查与试验设计的一些重要原则
为了以较少的人力、物力和财力取得较多的调查与试验资料,获得较好的分析结果,在一些生物学研究中,就需要以统计原理为依据,科学地进行调查方案的制订与试验设计。例如,完整的随机区组试验需要遵循随机、重复与局部(区组、窝组)控制三项原则。以往有一些调查与试验数据,由于方案制订不合理、试验设计不当而丧失了大量的试验信息,究其原因多是缺乏科学的统计方法,从而使调查结果不准,试验的效率大大降低。尽管统计学原理和分析方法对调查与试验设计有着积极的指导意义,但它绝对不可能代替调查方案和试验设计。如果试验目的和要求不明确,设计不合理,试验条件不合适,统计数据不准确,这种试验绝对不会成功,统计学分析方法也不可能挽救试验的这种失败。
(二)提供描述统计的方法,通过数据整理、图形表达、计算加工、分布特征描述确定样本特征
一批调查与试验数据,若不整理则杂乱无章,不能说明任何问题。统计方法提供了整理数据、化繁为简的科学程序,它可以从众多的数据中,归纳出若干特征值,绘制出频数分布表、频数分布图、点线图、箱线图、雷达图等图形,计算出样本平均数、变异数、偏度系数、峰度系数等统计数,描述其集中性、变异程度、偏度、峰度等分布特征,使研究者从少数的特征值或直观表述的图表中了解大批调查与试验数据所蕴藏的内在信息。
(三)解析试验误差产生的原因,判断试验结果的可靠性
一般在试验中要求除试验因素以外,其他条件都应控制一致,但在实践中无论非试验因素的试验条件控制得如何严格,其试验结果总是受试验因素和其他偶然因素的影响。偶然因素的影响是造成试验误差的重要原因。要正确判断一个试验结果是由试验因素造成的还是由试验误差造成的,就必须运用统计分析的方法。如果试验条件比较一致,一般因偶然因素得到的试验数据随机误差就比较小。但是,如果试验条件控制得不好,或因客观原因无法使试验条件保持一致,则会产生较大的随机误差。通过对数据方差来源进行解析,可以从数据总变异中分解出处理效应和随机误差,也可以通过试验设计中的区组(或窝组)技术与统计分析结合进一步分析出试验条件差异较大的区组(或窝组)效应,进而提高试验设计的效率和统计分析的精度。同时,根据抽样标准误与总体方差的关系,合理运用重复》值实现对抽样误差的统计控制。
(四)阐述推断统计的基本原理,提供由样本推断总体的方法
生物学试验的目的在于认识生物学研究对象的总体规律,但由于生物学总体一般都比较庞大,多数无法直接对总体实施观察和试验,在研究过程中就需要通过合适的抽样方法从总体中抽取部分个体作为样本,根据理论分布和抽样分布原理,用统计方法通过样本特征来推断总体的规律性。例如,调查出生婴儿的男、女性别是否符合1:1的规律,饮用罗布麻茶一段时间能否降低高血压患者的血压值,引进新树种能否适应当地生态环境,施肥量不断增加能否持续促进产量提高等都需要通过调查或试验得到的抽样样本进行假设检验或参数估计,从而对总体特征做出统计推断。
第二节数据类型及特征
数据(data)也称资料,是指通过调查或试验对客观事物的性质、状态及相互关系进行观察或测量的符号记录,是观察或测量客观事物的信息载体。数据不仅是指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也包含客观事物的属性、数量、位置及其相互关系的抽象表示。例如,学生人数、身高、体重、花的颜色、天气的阴晴变化、作物冠层内的气体流动、鸟类的叫声、染色体图谱、流行疾病的感染率与治愈率等都是数据。数据必须是可识别的、可鉴别的。具有相同属性的一组数据称为数据集(dataset),数据集也可简称为数据(复数的数据)。数据本身没有意义,数据只有对实体行为产生影响并经过统计处理和加工后成为统计信息“据与信息(statisticalinformation)才有价值。通过对数据进行统计分析,进行归类使其条理的关系化,可以列成统计表,绘出统计图,计算出平均数、变异数等特征值。
一、数据类型
生物学试验及调查所得的统计数据,在未整理之前一般是分散的、零星的和孤立的,是一堆无序的数字,这就需要对这些统计数据根据数据的性质进行分类。若不进行分类,大量的原始数据就不能系统化、规范化。对统计数据进行分类整理时,必须坚持“同质”的原则。只有“同质”的研究数据才能根据科学原理来分类,使试验数据能正确反映事物的本质和规律。根据生物学性状特性的不同,大致可分为数量性状(quantitative character)和质量性状(qualitative character)两大类,其对应数据包括数量性状数据(data of quantitative character)和质量性状数据(data of qualitative character)。数量性状数据也称为数值数据(metric data)或定量数据(quantitative data),质量性状数据也称为分类数据(categorical data)、属性数据(attribute data)或定性数据(qualitative data)。
(一)数值数据
数值数据一般是由计数、测量或度量得到的。由计数法(counting method)得到的数据称为计数数据(enumerative data),也称为非连续变量数据(data of discontinuous variable),
如鱼的尾数、玉米果穗上籽粒行数、种群内的个体数、人的白细胞计数等。计数资料的变量值以正整数出现,不可能带有小数。例如,鱼的尾数只可能是1,2, ,》,绝对不会出现2.5、4.8等这样的数据。
由测量或度量所得的数据称为计量数据(measurement data),也称为连续变量数据(data of continuous variable),通常用长度、重量、体积等单位表示,如人的身高、玉米的果穗重量、仔猪的体重、奶牛的产奶量等。计量数据不一定是整数,在相邻值之间有微小差异的数值存在。例如,小麦的株高为80~2375px,可以是2125px,也可以是2150px,甚至可以是2162.5px或2163.5px等变量值,随小数位数的增加,可以出现无限个变量值。至于小数位数的多少,要依调查与试验的要求和测量仪器或工具的精度而定。
(二)分类数据
分类数据,是指对某种现象只能观察而不能测量的数据。例如,水稻花药、籽粒、颖壳的颜色,小麦芒、茸毛的有无,果蝇的长翅与残翅,人血型的A、B、AB、O型,动物的雌、雄,疾病治疗的疗效有痊愈、好转、无效等。
只能归于某一有序类别的非数字型数据称为顺序数据(rank data)。顺序数据是有顺序的分类数据,它是由顺序尺度计量或分级形
目录
第1章 概论 1
第一节 生物统计学的概念与作用 1
一、生物数据的变异性 1
二、什么是生物统计学 1
三、生物统计学的内容与作用 2
第二节 数据类型及特征 4
一、数据类型 4
二、数据主要特征 5
三、数据统计中的常用术语 6
第三节 统计学的发展 10
一、古典记录统计学 10
二、近代描述统计学 10
三、现代推断统计学 11
思考练习题 12
第2章 数据的描述统计 13
第一节 数据的来源 13
一、调查 13
二、试验 20
第二节 数据整理与频数分布 28
一、数据的预处理 28
二、数据整理与频数分布表 29
三、频数分布图 35
第三节 数据特征的定量描述 39
一、集中性描述 39
二、变异程度描述 47
三、分布形态特征描述 52
思考练习题 54
第3章 概率与概率分布 56
第一节 事件及其概率 56
一、事件、频率与概率 56
二、事件关系与概率计算 58
三、大数定律 61
第二节 离散性概率分布 62
一、随机变量 62
二、离散性随机变量的概率分布 63
三、离散性随机变量的数学期望和方差 63
四、二项分布 64
五、泊松分布 67
第三节 连续性概率分布 69
一、概率密度函数 69
二、正态分布 70
三、其他连续性概率分布 74
第四节 抽样分布 77
一、抽样试验与无偏估计 77
二、样本平均数的抽样分布 78
三、样本频率的抽样分布 81
四、正态总体抽样分布 82
思考练习题 85
第4章 统计推断 86
第一节 假设检验的原理与方法 86
一、假设检验的概念 86
二、假设检验的步骤 87
三、双尾检验与单尾检验 89
四、假设检验中的两类错误与功效 90
第二节 样本平均数的假设检验 92
一、一个样本平均数的假设检验 92
二、两个样本平均数的假设检验 94
第三节 样本频率的假设检验 101
一、一个样本频率的假设检验 101
二、两个样本频率的假设检验 103
第四节 样本方差同质性检验 105
一、一个样本方差的同质性检验 105
二、两个样本方差的同质性检验 106
第五节 参数估计的原理与方法 107
一、估计量与估计值 107
二、参数估计的原理 108
三、一个总体参数的估计 109
四、两个总体参数的估计 111
五、基于参数估计的样本容量的确定 113
思考练习题 115
第5章 非参数检验 117
第一节 游程检验 117
一、游程的概念 118
二、游程检验的步骤 118
第二节 符号检验 120
一、一个样本的符号检验 120
二、两个配对样本的符号检验 121
第三节 秩和检验 122
一、秩和检验的原理和方法 122
二、单样本Wilcoxon符号秩检验 123
三、两个样本的Wilcoxon符号秩检验 124
第四节 H检验——多样本比较的秩和检验 129
一、原始数据多样本比较的秩和检验 129
二、频数表数据的多样本比较秩和检验 130
思考练习题 131
第6章 列联分析 132
第一节 列联表与χ2统计数 132
一、分类数据与列联表 132
二、χ2 统计数 135
第二节 拟合优度检验 136
第三节 *立性检验 139
一、2×2列联表的*立性检验 139
二、2×C列联表的*立性检验 141
三、R×C列联表的*立性检验 142
第四节 Fisher精确检验与McNemar检验 143
一、Fisher精确检验 143
二、McNemar检验 145
第五节 列联表中的相关系数 146
一、φ相关系数 146
二、列联相关系数 147
三、V相关系数 147
四、三种相关系数的比较 148
第六节 差分概率的置信区间与相对风险 148
一、差分概率的置信区间 148
二、相对风险与比值比 150
思考练习题 151
第7章 方差分析 153
第一节 方差分析的基本原理 153
一、方差分析的基本思想 153
二、方差分析的数学模型 154
三、方差分析的基本假定 156
四、平方和与自由度的分解 156
五、统计假设的显著性检验——F检验 159
六、平均数的多重比较 161
第二节 单因素方差分析 165
一、组内观测次数相等的方差分析 166
二、组内观测次数不相等的方差分析 168
第三节 二因素方差分析 170
一、无重复观测值的二因素方差分析 170
二、具有重复观测值的二因素方差分析 174
第四节 多因素方差分析 180
第五节 方差分析缺失数据的估计和数据转换 185
一、方差分析缺失数据的估计方法 185
二、方差分析的数据转换 186
思考练习题 190
第8章 直线回归与相关分析 192
第一节 回归和相关的概念 192
第二节 直线回归分析 193
一、直线回归方程的建立 193
二、直线回归的数学模型和基本假定 196
三、直线回归的假设检验 197
四、直线回归的区间估计 200
五、直线回归的应用及注意问题 204
第三节 直线相关分析 205
一、相关系数和决定系数 205
二、相关系数的假设检验 206
三、相关系数的区间估计 207
四、应用直线相关的注意事项 208
思考练习题 208
第9章 可直线化的非线性回归分析 210
**节 非线性回归的直线化 210
一、*线类型的确定 210
二、数据变换的方法 211
第二节 倒数函数*线 212
第三节 指数函数*线 215
第四节 对数函数*线 217
第五节 幂函数*线 219
第六节 Logistic生长*线 222
一、Logistic生长*线的由来和基本特征 222
二、Logistic生长*线方程的配合 222
思考练习题 224
第10章 试验设计及其统计分析 226
第一节 试验设计的类型 226
一、对比设计 226
二、完全随机设计 227
三、随机区组设计 228
四、拉丁方设计 229
五、裂区设计 229
六、交叉设计 230
七、析因设计 231
八、正交设计 231
九、均匀设计 232
第二节 对比设计及其统计分析 233
一、邻比设计及其统计分析 233
二、间比设计及其统计分析 235
三、配对设计及其统计分析 236
第三节 随机区组设计及其统计分析 237
一、单因素随机区组设计及其统计分析 237
二、二因素随机区组设计及其统计分析 240
第四节 拉丁方设计及其统计分析 244
一、拉丁方设计方法 244
二、拉丁方设计试验数据的线性模型及统计分析 245
第五节 裂区设计及其统计分析 248
一、裂区设计方法 248
二、裂区设计试验数据的线性模型与统计分析 248
第六节 交叉设计及其统计分析 255
一、交叉设计的基本步骤 255
二、交叉设计试验数据统计分析 256
第七节 正交设计及其统计分析 258
一、正交表及其特点 258
二、正交试验的基本方法 260
三、正交设计试验数据的统计分析 263
第八节 均匀设计及其统计分析 269
一、均匀设计表及其特点 269
二、均匀设计的基本方法 271
三、均匀设计试验数据的统计分析 274
思考练习题 275
第11章 协方差分析 278
第一节 协方差分析的基本概念 278
一、协方差分析的意义和作用 278
二、协方差分析的数学模型 280
三、协方差分析的基本假定 280
第二节 单向分组数据的协方差分析 280
一、计算各项变异的平方和、乘积和与自由度 282
二、检验x和y是否存在直线回归关系 283
三、检验矫正平均数*间的差异显著性 284
四、矫正平均数*间的多重比较 285
第三节 两向分组数据的协方差分析 287
一、乘积和与自由度的分解 288
二、检验x和y是否存在线性回归关系 289
三、检验矫正平均数*间的差异显著性 290
思考练习题 291
第12章 多元线性回归与相关分析 292
第一节 多元线性回归分析 292
一、多元线性回归模型 292
二、多元线性回归方程的建立 293
三、多元线性回归检验和置信区间 299
第二节 多元相关分析 305
一、多元相关分析及其假设检验 305
二、偏相关分析 307
思考练习题 311
第13章 逐步回归与通径分析 313
第一节 逐步回归分析 313
一、后退逐步回归 314
二、前进逐步回归 319
三、逐步回归需要注意的问题 324
第二节 通径分析 324
一、通径分析的基本概念 324
二、通径系数的求解方法 325
三、通径分析的假设检验 328
思考练习题 331
第14章 多项式回归分析 332
第一节 多项式回归的数学模型 332
第二节 多项式回归方程的建立 333
一、多项式回归方程的建立与求解 333
二、多项式回归方程的图示 335
第三节 多项式回归方程的假设检验 336
第四节 相关指数 337
第五节 正交多项式回归分析 338
一、正交多项式回归分析原理 338
二、正交多项式回归分析示例 339
思考练习题 341
主要参考文献 342
附表 344
附表1 正态分布的累积函数F(u)值表 344
附表2 正态离差(u)值表(双尾) 346
附表3 t值表(双尾) 346
附表4 χ2值表(右尾) 347
附表5 F 值表(右尾)348
附表6 游程检验表 352
附表7 符号检验表 353
附表8 Wilcoxon符号秩检验表(n=5~18) 354
附表9 Whitney-Mann-Wilcoxon秩和分布表 356
附表10 三样本比较秩和检验H界值表 359
附表11 新复极差检验SSR值表 360
附表12 q值表(双尾) 361
附表13 r与R的临界值表 362
附表14 正交拉丁方表 363
附表15 常用正交表 364
附表16 均匀设计表 373
附表17 正交多项式系数表 377
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录