云书馆

编辑推荐

《基于建构理论的量表设计》是基于加州大学伯克利分校课程“教育和社会科学中的测量”而编写的教材，与其他教材主要是向学生介绍经典测量理论以及怎么用数学公式去计算信度、效度不同，本书基于项目反应理论，设计了全新的教学顺序。学完本书以后，读者应该能够识别某一测量工具的优缺点，合理使用测量工具，以及设计新测量工具或改编旧测量工具。本书的作者相信在实践中学习是最好的学习方法，因此建议读者们在阅读本书的同时，尝试按照书中的步骤自己设计一份量表。

展开

作者简介

马克•威尔逊 Mark Wilson，加州大学伯克利分校教育学院教授。

马克•威尔逊教授的研究领域为测量和应用统计，具体包括开发测量统计模型、评估儿童各领域发展情况、形成性评价，以及在问责制中使用评估数据等。

他已在各类学术期刊上发表文章130余篇，出版专著15本。

马克•威尔逊教授曾担任美国教育测量委员会主席、国际心理测量学会主席、美国国家教科院院士等职务。他还获得过多个专业奖项，包括美国教育研究协会颁发的鲍勃•林恩Bob Linn奖和加州教育研究协会颁发的终身成就奖等。

展开

内容介绍

本书按照设计量表的步骤来组织各章节的内容。第一章先总体介绍一共需要哪些步骤，其后的四章分别阐述四个步骤，即建构图、项目设计、结果空间和测量模型这四个“构建模块”。再接下来的三章主要介绍对量表进行质量控制的方法，包括通过运算画出实证的建构图、估算量表信度，验证量表效度等。本书还介绍了选择题、开放题、表现性项目、李克特式项目、格特曼式项目、行为观察、访谈等多种不同的项目形式。

本书每一章开头的“本章概览和关键概念”部分是对该章节提纲挈领式的介绍；末尾的“其他参考资料”为有兴趣进一步探究的读者提供了索引；“课后练习”则可供读者练习运用所学到的概念。部分章节还有“附录”，主要用来呈现量表设计中的更多细节，或者是一些计算过程和分析结果。全书还用了很多例子来解释如何运用量表设计的相关方法，有些案例是行为与社会科学领域的，有些是教育领域的学业水平考试或表现性评价，也有情感态度方面的问卷，健康状况量表等。

展开

精彩书评

我在埃默里大学的一个高级研修班上用过这本书的初稿。班上的学生没有受过统计学或心理测量方面的系统训练。但是通过使用这本书，他们也能设计出不错的量表来……这是本非常不错的参考书。书中提出的四个构建模块是一种合理的、连贯的设计量表的模型，没有经验的研究者也能从中获益。

——埃默里大学，乔治•恩格哈特（George Englehard）博士

这本书为我们提供了一种围绕建构的定义进行量表设计的方法。我推荐把这本书作为测量学入门课程的教材。

——密歇根州立大学，马克•瑞克斯（Mark Reckase）博士

这本书的一个特色是全书都用了同一个软件……对罗氏模型和怀特图的解释非常棒……书中使用的案例和图解给我留下了很深刻的印象……很多读者都需要这样一本书。

——加州大学洛杉矶分校，史蒂夫•赖斯（Steve Reise）博士

展开

精彩书摘

第一章

测量工具设计的“四个构建模块”

1.0 本章概览和关键概念

建构模型

“四个构建模块”

建构图

项目设计

结果空间

测量模型

本章从 “测量（measurement）”在本书中的特殊含义开始，阐述了 “建构模型(construct modeling)”的理论框架。建构模型是用于设计测量工具的一种理论模型，包含四个可以依次使用的构建模块（four building blocks）。通过了解测量工具是如何设计的，我们进而能更好地了解测量工具如何发挥作用。

本章简要介绍了所有四个构建模块，随后几章会对每个构建模块进行更详尽的阐述。在本书中，“测量工具（instrument）”一词被定义为一种方法，是联系我们在真实世界中观察到的事物（有时也称为“显性的”或“可观测的”）与我们正在测量的理论中的概念（有时也称为“潜在的”或“不可直接观测的”）的方法。“测量工具”一词在这里的用法比它的一般意义更宽泛一点，而“测量工具”最具体的表现就是问题或项目。

由于本书的目的之一是解释测量中不太为人们所熟悉的方面，因而我们选择了更宽泛的定义。在本章及随后几章里，我们将在“建构图”的框架下，举例展示不同类型和格式的测量工具。我们假设在测量过程中，存在测量对象（即被试）和实施测量的人（施测者）。阅读本书时，读者主要是站在施测者的角度的，当然假设自己是被试有时也很有帮助。接下来的四章依次阐释了建构模型的四个模块，各章通过更多实例分别对各个模块进行更为详尽的阐述，并讨论了如何在使用这些模块编制测量工具。

1.1 什么是测量

有一些学者认为，测量就是对观察到的不同表现进行分类和量化赋值，因而数字的属性就是测量的属性：如名义尺度、顺序尺度、等距尺度、等比尺度等（Stevens,1946）[1]。对观察到的不同类别的表现赋予数量值的确是测量的一个重要特征，赋值的数量也必然具有某种属性，但是这只是测量过程的一个方面而已。在进行赋值之前会有一些步骤；在赋值后也还有一些步骤，即检查赋值成功与否以及使用测量结果。

在本书中，我们把测量的核心目的解读为对被试的成就、态度或观念进行合理地概括。施测者通过知识测验、问卷或心理测验等测量工具，观察人们对测量工具中的问题的反应，然后基于这些反应对被试在某一方面的成就或态度进行描述。当我们需要依据被试在某一方面的水平作出相应的决定时（如依据高考成绩决定是否录取），测量的这一核心目的就自然而然的显现出来。

施测者使用的测量工具往往具有复杂的结构，测量工具中包含与测量目标相关的许多问题或任务。测量工具的复杂结构是我们建立一套设计工具的科学程序的重要原因之一。假设我们使用的测量工具结构非常简单，只有一个问题，那么我们也许只需要很简单的程序。但绝大多数的测量工具需要采用复杂的结构，在后面的章节中我们也会讨论为什么复杂的结构有其必要性。

在本书中，我们假设一个测量工具只针对一项潜在特征。许多测验和问卷实际上包含了多项潜在特征，我们可以每次只考虑其中一种，而把整个测验或问卷看成是多个测量工具的有机组合。每个测量工具所测量的潜在特征，我们在后面将其称之为“建构”，是由测量工具的设计编制者（在本书中被称为“测量者”）确定的。因此，测量工具可以被视为测量者依据测量结果做出相应判断或决定的逻辑论据。接下来各章阐述的一系列设计和编制发测量工具的步骤同时也可以作为测量者形成其逻辑论据的基础：首先是过程性的论据，即测量工具的编制过程符合一定的逻辑框架（第2-5章的主要内容）；其次是反思性的论据，即用实际测量中产生的信息来证明测量工具是否按计划发挥了作用（第6-8章的主要内容）。最后，本书探讨了测量者未来可能继续探索的方向，为后续我们再出版更深入地介绍这方面研究的书籍做了铺垫。

本书中所探讨的“测量”一词，更多是动词而非名词。此外，我们在本书介绍的设计测量工具的程序也并非测量的唯一方法，还有其他可以采纳的途径（第6和第9章探讨了几种别的方法）。本书的目的不是探讨所有测量的方法，而只是呈现作者过去20年在加利福尼亚大学伯克利分校向学生教授测量学的过程中和为各领域开发测量工具提供咨询的工作中总结出来的最为成功的一种方法。

1.2 建构图

在设计测量工具时，我们首先要考虑的并非工具本身，而是测量的目的和使用情境，即测量者将依据测量结果做出哪一类决定。根据测量的目的和使用情境，我们才能确定测量的理论目标，即测量者真正感兴趣的被试的潜在特征是什么。我们将这一理论目标称为“建构（construct）”（这与当前这一领域的通用称谓一致，详细阐述请参阅Messick1989年的著作）。

建构可以是人的认知理论模型中的一部分，如人们对某些概念的理解或他们对事物的态度；建构也可以是某些心理变量，如“成就感”；或者是个性变量，如躁郁诊断。建构可以是教育领域的，如学业成就；也可以是健康领域的，如“生活质量”；又或者是社会学领域的，如“乡村化”或移民的同化程度。建构也可以是关于一个群体而非单个个体，如工作团队或运动队，或者是某个工作机构。建构还可以是某种生物学现象，如森林在新环境中的扩展能力。建构甚至可以以复杂的无生命的物体为对象，如火山爆发的可能性或颜料样本的风化程度等。似乎有很多的理论概念都能形成建构，我们判断某种概念能否成为建构的核心标准在于是否有相关的理论提供了测量这一概念的动机，以及是否有理论解释这一概念的结构。

建构图（construct map）是比建构更精准的概念。假设我们要测量的建构具有特别简单的形式，建构图就从一个极端延伸到另外一个极端，从高到低，从小到大，从积极到消极，或者从强到弱。在两个极端之间的情况可能有一定的复杂性，但我们主要感兴趣的是被试在这两个极端中所处的位置。具体来说，在两个极端中间可能存在一些不同的质性水平—这在解释测量结果时是很重要也很有用的。至此，建构仍然是一个抽象概念，而非外显的表现。尽管我们可以界定两个极端之间的一些质性水平，但被试可能在整个区间中的任意一点，也就是说，建构是连续变量，而建构图则可以被看作单维的潜在连续变量。许多结构要更复杂一些，如多维建构，但这不防碍测量者使用本书所介绍的方法，每次解决一个维度，每个维度由一个建构图来界定和表述。此外，还有一些建构无法用一个结构图来很好地描述，如建构由两个不同群体组成，例如可能移民的人群和不可能移民的人群，这种建构就不太可能很好地通过一个结构图来表述。

本章以一个化学测验为例，来展示建构模型的四个模块。这个测验是为一个叫做“生活离不开化学（Living by Chemistry，LBC）”的高中化学课程设计的。该课程由劳伦斯科学馆[2]开发，并获得了美国国家自然科学基金的资助。课程基于学生们熟悉和感兴趣的生活情境，让学生进行模块化、探索性的学习，完成整个课程需要一年的时间(Claesgens, Scalise, Draney, Wilson & Stacey, 2002)。这个课程的目标是让更多不同背景的学生了解化学，为学生们将来选修更多需要化学基础知识的科学课程打好基础。该课程强调让学生在交互式的教学过程中掌握化学知识，并学会运用化学概念思考问题、进行推理和分析。

“LBC”课程及其评价体系（参见Wilson和Sloane在2000年发表的“BEAR评价体系的应用”）都建立在一套被称为“化学家的观点”的建构之上。针对化学学科中的“三大概念”，即“物质”、“变化”及“稳定”，我们设计了三个变量。“物质”在这里主要是指由原子和分子构成的物质。“变化”主要涉及变化的动力观及化学变化中的物质守恒。“稳定”主要指能量守恒中的关系网。

图1.1 是“物质”的建构图，从低到高描述了一个学生对“物质”这一概念的理解的深入过程：先是理解真实世界里观察到的物质，逐步发展到理解抽象的原子和分子世界。此外，除了理解这一概念外，这个建构还包括对物质的测量，从低到高也是从简单的描述物质的数量，到复杂的建立模型和用证据论证。

理解和掌握的程度

原子和分子观

测量和模型改进

5.整合

化学键接与化学反应

模型和证据

4.预测

相与物质的组成

模型的局限性

3.关联

化学属性和原子观

测量大量的物质

2.表征

物质与化学符号

粒子观的集合

1.描述

物质的属性

物质的数量

A.具象化物质

B.测量物质

图1.1 “LBC”评价中的“物质”建构图

在试测中，研究人员发现学生们在刚开始学习这门课程时对原子还一无所知，他们对物质的理解仅限于简单描述物质的某些特征，如基于生活中的现象（例如在烹饪食物时看到的沸腾现象）来区分物质的形态是气体还是液体，或者用逻辑推理来解释为什么盐会溶解。这是对物质的理解的最低水平。初学者们还都不会使用的化学分子式，但学生对物质的理解水平仍然存在一定的差异，有些学生还不会进行任何相关的观察，有些则能够进行观察并利用逻辑推理，还有少数学生能在观察和推理的基础上尝试运用一些化学知识（虽然一开始通常会出错）。测量者把上述这些情况都归入建构的第一级，即“描述”级，对这一级内存在的差异则用“1-”和“1+”来进行区分。为了简化建构图，这些细节内容就没有在图中展现。

当学生们经过一段时间的学习，逐渐能够准确地使用简单的化学分子概念时，他们对物质的理解就进入第二级，即“表征”级。在这一级，学生们能使用单维化学模型，即单独运用某个定义或某种化学的表述方法，来解释和说明化学现象。此时，学生们不再单纯依赖生活经验和逻辑推理，而是有了一定的化学领域的专业知识，但他们尚未具备联结各种化学概念的能力。处于“表征”级的学生会集中精力学习化学领域的术语和表达方法，同时会对化学领域的本体论和认识论有一些了解，他们开始应用化学的定义、术语和原理，但还不会运用这些定义和原理来进行推理或探讨其意义。在解释化学现象时，学生们关注某一方面的信息，但还不会用较为完整和复杂的模型。

当学生们开始能够结合多个概念或模型来阐释化学问题时（如传导电子和分子结构对溶解的作用），他们就进入第三级，即“关联”级。会不会连接和综合不断学到的新的化学知识决定了学生能否进入这一级。Niaz和 Lawson（1985）主张，学生如果不能用概括化的模型理解这种概念和方法，那就只能是死记硬背各种定义和原理，他们的理解就只能停留在“表征”级。另一方面，学生们只有在必须具备了一定的基础知识后，才能够进行知识整合（Metz, 1995）。因此，当学生进入“关联”级时，他们应当已经掌握了基础的化学知识，能够像化学家一样，自如地综合运用相关概念和模型，解决化学问题或理解现象背后的意义等，而不仅仅是记住了一些术语或运算规则。

“LBC”评价中的“物质”建构图是一个相对完整的结构图的范例。建构上较高的两个水平层次“预测”和“整合”，涉及大学本科及研究生阶段的学习内容，因此并没有测试选修“LBC”课程的高中生。对这两个层级感兴趣的研究人员可以联系劳伦斯科学馆“LBC”课题组。

测量者在刚开始画建构图时，很可能无法做到像上面的例子那么清晰、明确。我们可以在编制测量工具的过程中，不断地改进。例如，在进行以下几项工作的时候，我们就可以反思和修改建构图：（a）通过建构图来向别人解释需要测量的建构时；（b）编制项目的过程中，我们思考如何才能反映出被试在建构上的水平时；(C)找一组被试来进行试测时；(d)分析结果数据时，看结果是否与建构图一致。

展开