You are on page 1of 5

第 15 卷 第 3 期 宁 波 大 学 学 报 ( 理 工 版) Vol. 15 No.

3
     
 年 9 月
2002 JOURNAL OF NINGBO UNIVERSITY (NSEE) Sept. 2002

文章编号 :100125132 ( 2002) 0320099203

标准参照测验信度的估计方法及其验证
赵必华
( 安徽师范大学 教育科学学院 ,安徽 芜湖 241000)

摘要 : 介绍了 4 种估计标准参照测验信度的方法 ,并以某一单元测验进行验证 ,最后就标准参照测验


信度的有关问题进行了分析 .
关键词 : 标准参照测验 ;  信度 ;  验证
中图分类号 : O21     文献标识码 : B

Approaches to Estimate Reliability of Criterion2referenced Test and Its Certification

ZHAO Bi2hua

( Institute of Education , Anhui Normal University , Wuhu 241000 , China)

Abstract :The approaches to estimate reliability in criterion2referenced test are different from normal2referenced test . Four
approaches to estimate reliability of criterion2referenced test are given with a maths unit test in the first grade of junior
middle school . Some problems of criterion2referenced test are analysed.
Key words :criterion2referenced test ;  reliability ;  certification
CLC number : O21     Document code : B

1  标准参照测验信度的估计方法 ( 再测或复本) ,确定分界分数将被试分为掌握者与


未 掌握者 ,该组被试在2个测验上的分类结果
1. 1 斯旺明内森方法( Swaminathan Method) 见表 1. p11 代表在 2 个测验上被一致区分为掌握者
  斯旺明内森等人指出 , 被试在两个标准参照测 占总被试数的比率 , p00为在 2 个测验上被一致地区
验上被一致地区分为掌握者与未掌握者的比率可作 分为未掌握者占被试总数的比率 , 因此在 2 个测验
^
为标准参照测验的信度 , 他们提出了用以估计标准 上被试被一致区分的比率可表示为 ρ0 = p11 + p00 .
^ ^
参照测验信度的 2 个指标 :ρ0 、K.   ρ为标准参照测验信度的估计值 . 显然 ρ0 的上
表 1  被试在两个标准参照测验上的掌握状况 限是 1 , 这时所有被试都被一致地区分 . 对于两个等
^
测验 2 值的测验 ,ρ0 的下限是指在两个测验中被偶然地一
测验 1
掌握 未掌握 总计 致区分的被试比率 , 也就是说 , 即使 2 个测验内容毫
掌握 p11 p10 p1 不相干 , 单凭偶然因素也可能使一部分被试被一致
^
未掌握 p01 p00 p0 地区分 , 从而使 ρ0 的下限很难为 0 . 这种由于偶然
总计 p1 p0 1 因素造成的分类一致性比率 ρc , 是由掌握者与未掌
  斯旺明内森方法先对一组被试施以 2 个测验 握者的构成所决定的一致性比率的期望值 .

收稿日期 :2001 - 10 - 30.


作者简介 : 赵必华 (1965 - ) ,男 ,汉族 ,安徽无为人 ,硕士 ,讲师 .
100 宁波大学学报 ( 理 工 版) 2002

^
  ρc = p1 ×p1 + p0 ×p0 . 2n
2 n + β- i
^

∏2 n + α+ β-
^
^   f ( 0 , 0) = ^ ^ ,
  为了剔除 ρ0 中因偶然因素造成的对分类一致 i =1 i
^ ^
性的影响 , 斯旺明内森等人提出了 K 指标 , 它是在   f ( x + 1 , y ) = f ( x , y )
^
总的一致性区分中真正由测验造成的一致性区分的 ( n - x ) (α + x + y )
          ^ .
( x + 1) ( 2 n + β- x - y - 1)
^
比率 , 即从 ρ0 中减去 ρc . 后来多采用科恩提出的校
正公式来估计 K 的值 . (3) 将表 2 中相应 4 个小矩形中的各概率加起
^ ^ 来 , 可得到与表 1 对应的各比率值 , 如 :
^ ρ0 - ρc
  K = ^ . ( 1) c- 1 c- 1
1 - ρc
∑∑f
^
  p00 = i , j.
  但斯旺明内森方法估计标准参照测验的信度需 i =0 j =0

( 4) 根据斯旺明内森方法可估计出 ρ0 、K 的值 .
要 2 次施测 , 如果只有 1 次测验 , 如何估计测验的信
1 . 3 萨伯考维克方法( Subkoviak Method)
度呢 ?
萨伯考维克假定 ,被试的观测分数是独立的 ,并
1 . 2 惠恩方法( Huyhn Method) ^
且服从以 n 与ρx 为参数的二项分布 , n 表示测验题
惠恩假定 , 在标准参照测验上每个被试的观测 ^
分数服从二项分布 ,被试总体的真分数服从β分布 , 数 ,ρx 表示在测验上得分为 x 的被试正确回答全域
即被试在单一测验上的观测分数服从β - 二项分 题目的比率 , 即在该测验领域的真分数 . 具体的步骤
布 . 惠恩进一步指出 , 依据这些假定 , 就可以根据一 方法如下 :
(1) 首先列出测验分数频数分布表 , 以 x 表示
个实测的测验分数将另一个未测 ( 假定) 的平行测验
模拟出来 ,从而形成一个联合的概率分布 . 具体方法 测验分数 , N x 表示得分为 x 的频数 , 总频数为 N .
与步骤如下 :   ( 2) 估 计 在 测 验 上 得 分 为 x 的被试的真分数
^ ^ ^ ^
(1) 估计参数 α 与β 的值 , 它们与测验题数 n ρx ,ρx = α20 ( x/ n) + ( 1 - α20 ) ,
^ ^
一起决定了联合分布的特定形态 , 式中 (μ/ n) α20为库德尔2里查逊系数 .
^ ^ ^ ^
  α= ( 1 - α21- 1 ) μ, ( 3) 估计出真分数为 ρx 的被试其正确回答题目
^
  β= - α+ nα21- 1 - n. 数超过分界分数 c 从而被区分为掌握者的概率值
^ ^ Px . 根据二项式定理可得
这里 ,μ是被试在实际施测的测验 1 上的平均分 ,α21
n
是库德尔2里查逊系数 .
∑C P ( 1 -
^ i ^i ^ n- i
  Px = n x Px ) .
( 2) 利用 α、
β的估计值和测验题数 n , 获得实际 i=c
^
施测的测验 1 和模拟的测验 2 分数的联合分布 , 如 ( 4) 估计出真分数为 px 的被试在 2 个测验上被

表 2 所示 , 表 2 中的数字表示在测验 1 上得 x 分 、 在 一致区分的概率为
^ ^
测验 2 上得 y 分的被试占总人数的比率 ( 概率 ) . 根   P2x + ( 1 - Px ) 2 .
^ ^
据 2 个测验的对称性 , f ( x , y ) = f ( y , x ) , 再依据下 ( 5) 根据测验分数的频数分布 , 通过加权平均可

面的 2 个公式获得表格数据 . 以获得 ρ0 、 ρc 的估计值 , 并进而获得 K 估计值 .


表 2  实测的测验 1 与模拟的测验 2 分数联合分布表
实测的 模拟的测验 2
测验 1 0 1 … c- 1 c … n
^ ^ ^ ^ ^
0 f 0 ,0 f 0 ,1 … f0 , c - 1 f0 , c … f0 , n
^ ^ ^ ^ ^
1 f 1 ,0 f 1 ,1 … f1 , c - 1 f1 , c … f1 , n
… … … … … … … …
^ ^ ^ ^ ^
c- 1 fc - 1 ,0 fc - 1 ,1 … fc - 1, c - 1 fc - 1, c … fc - 1, n
^ ^ ^ ^ ^
c f c ,0 f c ,1 … fc , c - 1 fc , c … fc , n
… … … … … … … …
^ ^ ^ ^ ^
n f n ,0 f n ,1 … fn, c - 1 fn, c … fn, n
第3期 赵必华 : 标准参照测验信度的估计方法及其验证 101

^
∑N x [ P2x + ( 1 - Px ) 2 ]
^
依据教学大纲的要求 , 编制了 2 份内容和难度基本
  ρ0 = ,
N 一致的测验题 , 每一测验都由 20 个单项选择题组
^ ^ 2
^ ∑N x Px ∑N x Px 成 ,以 0 ,1 记分 ,答题时间 40 min. 随选一班 40 名学
  ρc = + 1- .
N N 生单元教学结束后施测 . 为克服前后效应的影响 ,将
1 . 4 玛希尔方法( Marshall Method)
学生分成两组轮组施测 . 测验结果 ,经相关样本平均
玛希尔方法的大致思路是 : 对被试组实施一个
数差异的显著性检验 , t = 0 . 30 , p > 0 . 05 ; 经相关样
n 个测题的测验 , 并保证二项分布的假设 , 就可以在
本方差齐性检验 , t = 1 . 76 , p > 0 . 05 , 因此可以认为
一个假设的 、
“等值”的 2 n 个测题的测验上估计被
两份测验为复本 . 单元测验主要目的在于判断学生
试组的分数 . 从理论上讲 , 这个有 2 n 个测题的测验
是否掌握了本单元内容 , 应为标准参照测验 . 依据教
可以分成 2 个分半测验 , 每个测验 n 个测题 . 按照
学大纲的要求 , 结合教学实际 , 将分界分数 c 定为
斯旺明内森方法可以估计出被试在这两个分半测验
12 , 即在一个测验上答对 12 题 ( 答对率 60 %) 为掌握
上被一致区分的比率 . 对于将这 2 n 个测题的测验 ( 达标) .
分成许多这样的分半测验的每一种可能的结果 ( 组
2 . 2 验证结果
合数为 C2n n ) , 都可得到这样一个比率 , 因此可取这
根据分界分数 ,40 名学生在两个测验上的掌握
些比率的平均作为对 ρ0 的最终估计 . 具体步骤为 :
情况如表 3 所示 , 表 3 中括号内的数字为学生的频
( 1) 列出 n 个测题的测验频数分布表 , 计算假
数.
设的 2 n 个测题的得分 w 的被试频数 表 3  40 名学生单元复本测验结果
n w 2n- w
x x 测验 2
  N w , N w = ∑N C2
x =0
x
w
n
n
1-
n
. 测验 1
掌握 未掌握 总计
这样 , 就可以得到被试组在 2 n 个测题的得分从 0~ 掌握 0. 40 (16) 0. 20 (8) 0. 60 (24)
2 n 的频数 N 0 , N 1 , N 2 , …, N 2 n . 未掌握 0. 15 (6) 0. 25 (10) 0. 40 (16)
  ( 2) 计算 2 n 个测题得分 w 的一个被试在 2 个分 总计 0. 55 (22) 0. 45 (18) 1 (40)

半测验上被一致区分的比率 < ( a , b) . 式中 a 、b 的   根据斯旺明内森方法 ,将表 3 内数据代入公式 ,


^ ^
值是由 n 个测题测验上的分界分数 c 和特定的 w 决 可得 ρ0 = 0 . 65 , K = 0 . 29 .
定 . 对于某些特定的 w 值 , 这种一致区分的概率要 在实际的教学中 , 对于单元测验很少编制复本 ,
么为 0 . 要么为 1 . 当 w < c 或者当 w > n + c 时 , 一致 现假定只有测验 1 的成绩 , 我们根据后面的 3 种方
区分的概率为 1 ; 当 w = 2 c - 1 时 , 一致区分的概率 法估计测验的信度 . 由于后面的计算步骤繁多 , 计算
为 0 . < ( a , b) 要计算的是 w 在 c~ ( 2 c - 2) 之间和 w 量大 , 作者运用 QBASIC 语言编制了 3 种方法的计算
在 2 c~ ( n + c - 1) 之间一致区分的概率为 “Subkoviak Program”和“Mar2
程序 :“Huyhn Program”、
b
Cwj C2n n- -j w shall Program”,只要将测验数据输入 , 就可以直接得
  < ( a , b) = ∑
j= a C2 n
n .
到信度的估计值 . 具体结果如表 4 所示 .
  ( 3) 通过加权平均 , 把 N x 和 < ( a , b) 结合起来 , 表 4  测验 1 的信度系数
可估计出 ρ0 的值 .
c- 1 2 c- 2
惠恩方法 萨伯考维克方法 玛希尔方法
1
∑N ∑N
^
ρ0 = w + w w[< w - ( c - 1) , c - 1 ] + ρ
^
0 . 76 0 . 74 0 . 78
N w =0 w=c
2
^
n+ c- 1 2n K 0 . 51 0 . 49

w =2c
N w <w ( c , w - c) + ∑
w = n+ c
Nw .
2. 3 相关问题的分析
玛希尔方法没有给出估计 K 的公式 . 本研究发现 ,后 3 种方法估计的信度系数接近 ,
而与斯旺明内森方法的估计值差距较大 . 可能是后
2  标准参照测验信度估计方法的验证
3 种方法为一次施测 , 且都以二项分布作为假设条
与分析 件 ,而斯旺明内森方法是两次施测 , 估计的条件不
2 . 1 数据来源 同 . 萨伯考维克曾对指标 ρ0 作过研究 , 结果发现 , 如
为了验证标准参照测验信度的各种估计方法 , 果被试组人数较少 , 斯旺明内森两次测验估计方法 ,
102 宁波大学学报 ( 理 工 版) 2002

其指标值有较大的误差 . 同时 , 他还发现 , 对于一次 的假设 :分界分数参照相对标准制定 , 这又与标准参


施测的后面 3 种估计方法 , 其指标值 ρ0 是有偏的 . 照测验的目的大异其趣 , 故常常不如 ρ0 那么有用 .
总的说来 , 斯旺明内森方法不仅容易理解 , 而且计算
简单 , 得到的统计量是参数的无偏估计 , 但需要两次
施测 , 在被试人数少时误差较大 ; 惠恩方法 、 萨伯考
维克方法和玛希尔方法只需施测一次 , 且得到的统
计量误差较小 , 但是不易理解 , 计算烦琐 , 如果测验
较短 , 估计值的偏差较大 .
为了进一步说明 ρ0 与 K 的差异 , 作者运用萨
伯考维克方法 , 将测验 1 的分界分数分别定为 c =
6 , 9 , 12 , 15 , 计算出 ρ0 与 K 的估计值 ( 见图 1) . 从图
图 1  信度系数随分界分数变化图
1 可见 , 两者的变化并不一致 ,ρ0 越靠近尾部其值越
大 , 而 K 正好相反 . 这说明两者并非反映同一属性 ,
参考文献 :
ρ0 它们代表着不同的一致性 . 代表一切原因造成的
[1 ]  Berk R A. Criterion2referenced measurement :the state of the
总的一致性 , 它包括测验组中掌握者与未掌握者的 art[M] . London :The Johns Hopkins University , 1980.
相对数目以及测验本身的精度与准确性两个因素的 [2 ]  张厚粲 ,刘昕 . 考试改革与标准参照测验 [M] . 沈阳 : 辽
共同影响 , 而 K 考虑的是测验对总的一致性的贡 宁教育出版社 ,1992.
献 , 是除去掌握者与未掌握者的构成因素影响后测 [3 ]  漆书清 . 教育统计与测量 [M] . 广州 : 广东高等教育出
验 真正的一致性 . 当然 , 以 K来校正ρ0 隐含着这样 版社 ,1999.
( 责任编辑  史小丽)

第九届全国机器人与自动化学术会议在甬闭幕
2002 年 9 月 28 日 ,由中国自动化学会机器人专业委员会 、国家 863 计划机器人技术主题专家组 、
中国科
学院机器人学重点实验室 、 中国科学院复杂系统重点实验室 、
辽宁省自动化学会主办 ,宁波大学 、 宁波韵升集
团、
滕头村 、 宁波市科技局 、 宁波市科学技术协会 、
宁波市科技园区管委会联办的“第九届全国机器人与自动
化学术会议” 于宁波联谊宾馆圆满闭幕 。会议自 9 月 24 日 —28 日共历时 5 天 ,9 位自动化领域的两院院士 、
10 多位国家 863 计划机器人技术主题专家组成员及来自全国的 120 多位代表参加了本次会议 。
小  傅
word版下载:http://www.ixueshu.com

免费论文查重:http://www.paperyy.com
3亿免费文献下载:http://www.ixueshu.com
超值论文自动降重:http://www.paperyy.com/reduce_repetition
PPT免费模版下载:http://ppt.ixueshu.com
-------------------------------------------------------------------------------

You might also like