第1章 概述
统计学是在相对有限的样本数据上,对特定的随机现象作推断的学科。统计学的范围可分成两个主要的领域:数理统计学与应用统计学。数理统计学更关注统计推断中新方法的发展及要求有较多的抽象数学知识作为工具。应用统计学则关心如何把数理统计方法应用到特定的领域,比如经济学、心理学及公共卫生学。生物统计学是应用统计学的分支,它涉及统计方法应用到医学及生物学领域,但统计学的数理统计学和应用统计学在此有些重叠。例如,在某些实例中,某个已有的标准统计方法不大适用而必须加以修正。在这种情形下,生物统计学就涉及如何去发展新方法。
学习生物统计的一个好的方法是在研究过程中,从开始计划阶段直到完成期间都能参与在内,这包括在研究完成时书写研究报告或为出版物写初稿。作为例子,我将描述我以前参加的一个研究工作。
一天早晨,我的一个朋友来电话,我们谈话中提及他近来使用了一个新的自动血压计,而这种型式的仪器在许多银行、旅馆及百货店中都可以见到。在近几个季度中该血压计已经测量得他的舒张压的平均值为115 mmHg(毫米汞柱*),而*高的读数是130 mmHg。我当时很吃惊于他的血压读数,因为如果这些数字是真的,则我的朋友很可龍与某些严重的心血管病很接近了。我指点他到和我在一个医院工作的同事那里去用标准血压计再测量。测量结果是他的舒张压为90 mmHg。这种相反的读数引起了我的兴趣,我开始注意此事,每次经过我所在的地区银行时,我都草草记录下这种仪器所显示的读数。明显的发现是,该仪器的读数有很大的百分数是在高血压范围。虽然高血压患者可能更相信这样的仪器,但我相信这样的血压读数不能与医院中用标准方法获得的读数相比较。我把我的怀疑向B.Frank Polk医生说了,并表示我有兴趣继续关注这个仪器的行为。于是我们决定派一个人去考察仪器。此人先接受了很好的训练,以使他能很好地使用医院中的标准血压计(人工法)及市场上的自动测血压的仪器。他的工作是向自愿接受测试者付50美分,向他调查一些问题及接受两种方式(自动仪器与人工)的测量。
在这时,我需要作出某些重要的决定,这些决定有:
(1) 应检查多少仪器?
(2) 在每个仪器上应检查多少人?
(3) 自动仪器与人工测量的顺序问题——应该先使用仪器还是先用人工的标准血压计?当然如能对一个受试者同时用自动仪器及人工测量是可以避免上述问题的,但实际上这是不可能的。
(4) 在问卷中我们应收集什么样的数据?而这些数据可能影响上述两个方法的比较。
(5) 数据应如何记录以便为今后的电脑计算提供方便?
(6) 应如何检查已进入电脑中数据的准确性?
我是按如下的方式解决上述问题的:
(1)及(2)问题中,我们决定使用4个仪器,因为我们不能担保这些自动血压计的质量。但我们准备对每个自动血压计使用足够的受试者以使它在与人工标准的血压器之间可作精细的比较。我们预测了上两个方法之间可能有多大的不一致后,使用本书中估计样本量的公式,我们计算出每个自动血压器大约需要测试100个受试者。
(3) 在决定两个仪器使用的顺序时,按某些已有的报告,在接受两次血压测量时,第一次测量的值往往偏高,这是因为开始测量时人的肌肉容易绷紧。因此,我们不能总是先用某一型仪器。为了方便,我们采用随机化技术:采用投掷一个钱币的正反面来决定受试者应先采用哪一种仪器,当然这也可以使用本书附录表4的随机数法。
(4) 我们感到体型对测量结果是不重要的,因力肥胖者的手臂只不过是读数时有困难而已。因此,我们的问卷只包括性别、年龄及过去是否有高血压病史。
(5) 数据的记录中,我们使用数码形式,因为这种数码容易被电脑读入也容易做分析。每个受试者被指定一个识别(ID)号。由这个ID号可以惟一地识别受试者。这些数码是通过电脑键盘打入并给以核实,核实法就是用相同方式打入两次,如两个记录不相同,则再重新输入一次。
(6) 数据进入电脑后,我们执行某个编辑程序去考察这些数据的准确性。用手工检查表格中的每个项目是不可能的(因为数据量大),代替法是检查每个变量的数值是否落在某个指定的范围内并找出异常值。例如,我们检查所有血压的记录是否都超过50及不大于300,且打印出所有不在以上范围内的记录。
完成了上述的数据收集、资料录入及数据检测阶段后,我们就可以去考察研究的结果。在这个过程中,首先用某些描述性统计概述该数据的某些信息。这种描述性工作可以用数字也可以用图来表示。如果用数字表示,则可以表示成表格,或用频数分布形式看看数据中的每个值发生的频数。如用图示法,则可以把数据形象地做成一个或多个图。描述数据的形式应视变量的分布形式而改变:如变量的取值是连续的,也就是它可能右无限个取值,如我们此处的血压,则用均值及标准差作为描述性统计量将是合适的。但如果变量是离散的,即该变量仅有少数可能的取值,比如,本例中的性别则考察每个可能值的百分比将是合适的描述性统计。在某些情形下,对于连续性变量可以同时使用上述两种形式的描述法,即把连续性取值划分为几个组,考察落入每个组的百分比作为描述性统计。比如,可以考察血压值落在120至129 mmHg及130至139 mmHg的百分比人数,等等。在本文的研究中我们首先看看每个方法在每个位置上血压的均值,见表1.1,见文献[1]。
表1.1 平均血压及两个方法间的差值
注:获得American Heart Association,Inc.准许。
从这个表中,可以看到,我们并没有从100个受试者得出全部有意义的数据,因为我们在每个仪器中并没有得到全部有价值的读数。这种漏失值的情形在生物统计中是很平常的,它应当在计划阶段决定样本大小时即考虑在内(但在此例中我们未考虑在内)。
这个研究的下一步是判断两个方法(自动仪器与手工标准仪器)之间(C,D)位置上表面上的差异是某种意义上“客观实在”的差异还是由于受试地区间的“变化”造成的。这个问题属于“推断统计学”。表1.1中C位置上的98人在两个方法之间的差异达14mmHg,我们应认识到这个差异有可能是不真实的,因为如果我们在不同时间调查另外98人,这个差异有可能并不会继续下去。这里涉及到估计误差问题。在统计学的专门术语中,这98个人代表了总体的一个样本。这里的总体是指那些可以使用自动血压计的全部人群。我们感兴趣的是这个总体,我们需要用样本去认识总体。特别地,在我们的例子中,我们需要知道这14 mmHg的估计平均差异是否为使用这种自动仪器的所有人的总体中存在的真实平均差异。尤其是,我们想知道这两个血压测量方法之间是否不存在有实质性的差异,而表面上的差异是否因位置的改变而引起?这里98个受试者(组)的14 mmHg被认为是这个总体中两方法间真实平均差异(d)的一个估计。从一个样本去推断总体的特性是统计推断的中心课题。要实现这个目标,就需要发展一个概率模型。在这个模型中假定这个总体中两个方法之间没有实际差异,再去估计发生有14 mmHg差异的概率有多大。如果这个概率是充分地小,则认为总体中这两个方法之间存在有实质性的差异。在此例中,我们的概率模型建立在2分布基础上。对于C及D位置上的仪器,可以计算得到上述的概率小于千分之一。由于这个概率很小,所以我们的结论是:4个被检测仪器中的两个自动仪器与人工标准仪器之间有真实的差异。
完成上述数据分析需要统计软件。这些软件收集了大量的统计计算程序,它可以描述数据及完成各种检验工作。目前*流行的统计软件有SAS、SPSS、BMDP、MINITAB、Stata及Excel。
这个研究的*后一步,即完成数据分析后就应以出版形式编写研究报告。不可避免地,由于字数的限制,在数据分析阶段中大量的多余材料(包括部分结果)应被剔除而仅保留*基本的部分。
这一章的概述是让读者了解医学研究的某些概念及生物统计学的作用。第2章则用不同的方式叙述描述性统计。第3至第5章提供概率的某些基本原理及供以后各章做推断统计用的各种概率模型。第6至第14章介绍统计推断的基本课题。研究设计或数据收集方面的内容仅因为它涉及到本书的其他课题而编写的。
参考文献
第2章 描述性统计
2.1 绪言
首先,我们要用简单明了的方式考察及描述数据,这可以把每个数据列成表格形式。一般说来,这个步骤往往是令人乏味及使人厌烦的。
例2.1 癌与营养 某些研究者提出,维生素A可以预防癌。为检验这个理论,收集200例在医院中治疗的每天按规定服用一定量的维生素A的癌病人的问卷数据,同时收集200例与癌症患者在性别、年龄上配对且都是同时期住同一医院的无相关疾病的对照者。这些数据收集到后应如何分析?
图2.1 癌患者与对照组每天维生素A的消费量
在正式回答上述问题以前,应首先描述癌症患者与对照组在维生素A上的消费情况。图2.1上,条形图形象地显示出对照组比疾病组有较高的维生素A的消费量,特别是在极度过量的每天允许量(RDA)上的消费水平上更是如此。
例2.2 肺病 医学研究者常常猜想被动吸烟者(本人不抽烟但却生活或工作在另外抽烟者的环境中)的肺功能可能会受到损伤。在1980年,美国San Diego的一个研究小组在出版的结果中指出,被动吸烟者比不生活(或工作)在抽烟环境中的人们有显著低得多的肺功能。为了支持这个证据,作者在被动吸烟者及没有抽烟者(禁烟区)的环境中测量了一氧化碳(CO)的浓度,目的是看看这些环境中的CO的浓度是否会有不同。这些结果在图2.2中以散点图形式显示出来。
图2.2清楚地显示出,在两个工作环境中,白天早晨时CO浓度是相同的,但在中午前后很大的范围内差别很大,而到下午的7点以后两者再次近似相同。
图像法可以说明描述性统计的重要性,它可以很快地显示出数据的基本倾向
图2.2 在被动吸烟者环境及禁烟区中,每天不同时间的平均CO浓度(±标准误差)
注:获得The New England Joumal of Medicine,302,720~723,1980准许
展开