标准参照测验信度的估计方法及其验证

第 15 卷第 3 期宁波大学学报 ( 理工版) Vol. 15 No.
3
　　　
　年 9 月
2002 JOURNAL OF NINGBO UNIVERSITY (NSEE) Sept. 2002
文章编号 :100125132 ( 2002) 0320099203
标准参照测验信度的估计方法及其验证
赵必华
( 安徽师范大学教育科学学院 ,安徽芜湖 241000)
摘要 : 介绍了 4 种估计标准参照测验信度的方法 ,并以某一单元测验进行验证 ,最后就标准参照测验

信度的有关问题进行了分析 .
关键词 : 标准参照测验 ; 　信度 ; 　验证
中图分类号 : O21 　　　　文献标识码 : B
Approaches to Estimate Reliability of Criterion2referenced Test and Its Certification
ZHAO Bi2hua
( Institute of Education , Anhui Normal University , Wuhu 241000 , China)
Abstract :The approaches to estimate reliability in criterion2referenced test are different from normal2referenced test . Four
approaches to estimate reliability of criterion2referenced test are given with a maths unit test in the first grade of junior
middle school . Some problems of criterion2referenced test are analysed.
Key words :criterion2referenced test ; 　reliability ; 　certification
CLC number : O21 　　　　Document code : B
1 　标准参照测验信度的估计方法 ( 再测或复本) ,确定分界分数将被试分为掌握者与

未掌握者 ,该组被试在2个测验上的分类结果
1. 1 斯旺明内森方法( Swaminathan Method) 见表 1. p11 代表在 2 个测验上被一致区分为掌握者
　　斯旺明内森等人指出 , 被试在两个标准参照测占总被试数的比率 , p00为在 2 个测验上被一致地区
验上被一致地区分为掌握者与未掌握者的比率可作分为未掌握者占被试总数的比率 , 因此在 2 个测验
^
为标准参照测验的信度 , 他们提出了用以估计标准上被试被一致区分的比率可表示为 ρ0 = p11 + p00 .
^ ^
参照测验信度的 2 个指标 :ρ0 、K. 　　ρ为标准参照测验信度的估计值 . 显然 ρ0 的上
表 1 　被试在两个标准参照测验上的掌握状况限是 1 , 这时所有被试都被一致地区分 . 对于两个等
^
测验 2 值的测验 ,ρ0 的下限是指在两个测验中被偶然地一
测验 1
掌握未掌握总计致区分的被试比率 , 也就是说 , 即使 2 个测验内容毫
掌握 p11 p10 p1 不相干 , 单凭偶然因素也可能使一部分被试被一致
^
未掌握 p01 p00 p0 地区分 , 从而使 ρ0 的下限很难为 0 . 这种由于偶然
总计 p1 p0 1 因素造成的分类一致性比率 ρc , 是由掌握者与未掌
　　斯旺明内森方法先对一组被试施以 2 个测验握者的构成所决定的一致性比率的期望值 .
收稿日期 :2001 - 10 - 30.

作者简介 : 赵必华 (1965 - ) ,男 ,汉族 ,安徽无为人 ,硕士 ,讲师 .
100 宁波大学学报 ( 理工版) 2002
^
　　ρc = p1 ×p1 + p0 ×p0 . 2n
2 n + β- i
^
∏2 n + α+ β-
^
^ 　　f ( 0 , 0) = ^ ^ ,
　　为了剔除 ρ0 中因偶然因素造成的对分类一致 i =1 i
^ ^
性的影响 , 斯旺明内森等人提出了 K 指标 , 它是在　　f ( x + 1 , y ) = f ( x , y )
^
总的一致性区分中真正由测验造成的一致性区分的 ( n - x ) (α + x + y )
　　　　　　　 ^ .
( x + 1) ( 2 n + β- x - y - 1)
^
比率 , 即从 ρ0 中减去 ρc . 后来多采用科恩提出的校
正公式来估计 K 的值 . (3) 将表 2 中相应 4 个小矩形中的各概率加起
^ ^ 来 , 可得到与表 1 对应的各比率值 , 如 :
^ ρ0 - ρc
　　K = ^ . ( 1) c- 1 c- 1
1 - ρc
∑∑f
^
　　p00 = i , j.
　　但斯旺明内森方法估计标准参照测验的信度需 i =0 j =0
( 4) 根据斯旺明内森方法可估计出 ρ0 、K 的值 .
要 2 次施测 , 如果只有 1 次测验 , 如何估计测验的信
1 . 3 萨伯考维克方法( Subkoviak Method)
度呢 ?
萨伯考维克假定 ,被试的观测分数是独立的 ,并
1 . 2 惠恩方法( Huyhn Method) ^
且服从以 n 与ρx 为参数的二项分布 , n 表示测验题
惠恩假定 , 在标准参照测验上每个被试的观测 ^
分数服从二项分布 ,被试总体的真分数服从β分布 , 数 ,ρx 表示在测验上得分为 x 的被试正确回答全域
即被试在单一测验上的观测分数服从β - 二项分题目的比率 , 即在该测验领域的真分数 . 具体的步骤
布 . 惠恩进一步指出 , 依据这些假定 , 就可以根据一方法如下 :
(1) 首先列出测验分数频数分布表 , 以 x 表示
个实测的测验分数将另一个未测 ( 假定) 的平行测验
模拟出来 ,从而形成一个联合的概率分布 . 具体方法测验分数 , N x 表示得分为 x 的频数 , 总频数为 N .
与步骤如下 : 　　( 2) 估计在测验上得分为 x 的被试的真分数
^ ^ ^ ^
(1) 估计参数 α 与β 的值 , 它们与测验题数 n ρx ,ρx = α20 ( x/ n) + ( 1 - α20 ) ,
^ ^
一起决定了联合分布的特定形态 , 式中 (μ/ n) α20为库德尔2里查逊系数 .
^ ^ ^ ^
　　α= ( 1 - α21- 1 ) μ, ( 3) 估计出真分数为 ρx 的被试其正确回答题目
^
　　β= - α+ nα21- 1 - n. 数超过分界分数 c 从而被区分为掌握者的概率值
^ ^ Px . 根据二项式定理可得
这里 ,μ是被试在实际施测的测验 1 上的平均分 ,α21
n
是库德尔2里查逊系数 .
∑C P ( 1 -
^ i ^i ^ n- i
　　Px = n x Px ) .
( 2) 利用 α、
β的估计值和测验题数 n , 获得实际 i=c
^
施测的测验 1 和模拟的测验 2 分数的联合分布 , 如 ( 4) 估计出真分数为 px 的被试在 2 个测验上被
表 2 所示 , 表 2 中的数字表示在测验 1 上得 x 分、在一致区分的概率为
^ ^
测验 2 上得 y 分的被试占总人数的比率 ( 概率 ) . 根　　P2x + ( 1 - Px ) 2 .
^ ^
据 2 个测验的对称性 , f ( x , y ) = f ( y , x ) , 再依据下 ( 5) 根据测验分数的频数分布 , 通过加权平均可
面的 2 个公式获得表格数据 . 以获得 ρ0 、 ρc 的估计值 , 并进而获得 K 估计值 .

表 2 　实测的测验 1 与模拟的测验 2 分数联合分布表
实测的模拟的测验 2
测验 1 0 1 … c- 1 c … n
^ ^ ^ ^ ^
0 f 0 ,0 f 0 ,1 … f0 , c - 1 f0 , c … f0 , n
^ ^ ^ ^ ^
1 f 1 ,0 f 1 ,1 … f1 , c - 1 f1 , c … f1 , n
… … … … … … … …
^ ^ ^ ^ ^
c- 1 fc - 1 ,0 fc - 1 ,1 … fc - 1, c - 1 fc - 1, c … fc - 1, n
^ ^ ^ ^ ^
c f c ,0 f c ,1 … fc , c - 1 fc , c … fc , n
… … … … … … … …
^ ^ ^ ^ ^
n f n ,0 f n ,1 … fn, c - 1 fn, c … fn, n
第3期赵必华 : 标准参照测验信度的估计方法及其验证 101
^
∑N x [ P2x + ( 1 - Px ) 2 ]
^
依据教学大纲的要求 , 编制了 2 份内容和难度基本
　　ρ0 = ,
N 一致的测验题 , 每一测验都由 20 个单项选择题组
^ ^ 2
^ ∑N x Px ∑N x Px 成 ,以 0 ,1 记分 ,答题时间 40 min. 随选一班 40 名学
　　ρc = + 1- .
N N 生单元教学结束后施测 . 为克服前后效应的影响 ,将
1 . 4 玛希尔方法( Marshall Method)
学生分成两组轮组施测 . 测验结果 ,经相关样本平均
玛希尔方法的大致思路是 : 对被试组实施一个
数差异的显著性检验 , t = 0 . 30 , p > 0 . 05 ; 经相关样
n 个测题的测验 , 并保证二项分布的假设 , 就可以在
本方差齐性检验 , t = 1 . 76 , p > 0 . 05 , 因此可以认为
一个假设的、
“等值”的 2 n 个测题的测验上估计被
两份测验为复本 . 单元测验主要目的在于判断学生
试组的分数 . 从理论上讲 , 这个有 2 n 个测题的测验
是否掌握了本单元内容 , 应为标准参照测验 . 依据教
可以分成 2 个分半测验 , 每个测验 n 个测题 . 按照
学大纲的要求 , 结合教学实际 , 将分界分数 c 定为
斯旺明内森方法可以估计出被试在这两个分半测验
12 , 即在一个测验上答对 12 题 ( 答对率 60 %) 为掌握
上被一致区分的比率 . 对于将这 2 n 个测题的测验 ( 达标) .
分成许多这样的分半测验的每一种可能的结果 ( 组
2 . 2 验证结果
合数为 C2n n ) , 都可得到这样一个比率 , 因此可取这
根据分界分数 ,40 名学生在两个测验上的掌握
些比率的平均作为对 ρ0 的最终估计 . 具体步骤为 :
情况如表 3 所示 , 表 3 中括号内的数字为学生的频
( 1) 列出 n 个测题的测验频数分布表 , 计算假
数.
设的 2 n 个测题的得分 w 的被试频数表 3 　40 名学生单元复本测验结果
n w 2n- w
x x 测验 2
　　N w , N w = ∑N C2
x =0
x
w
n
n
1-
n
. 测验 1
掌握未掌握总计
这样 , 就可以得到被试组在 2 n 个测题的得分从 0～掌握 0. 40 (16) 0. 20 (8) 0. 60 (24)
2 n 的频数 N 0 , N 1 , N 2 , …, N 2 n . 未掌握 0. 15 (6) 0. 25 (10) 0. 40 (16)
　　( 2) 计算 2 n 个测题得分 w 的一个被试在 2 个分总计 0. 55 (22) 0. 45 (18) 1 (40)
半测验上被一致区分的比率 < ( a , b) . 式中 a 、b 的　　根据斯旺明内森方法 ,将表 3 内数据代入公式 ,

^ ^
值是由 n 个测题测验上的分界分数 c 和特定的 w 决可得 ρ0 = 0 . 65 , K = 0 . 29 .
定 . 对于某些特定的 w 值 , 这种一致区分的概率要在实际的教学中 , 对于单元测验很少编制复本 ,
么为 0 . 要么为 1 . 当 w < c 或者当 w > n + c 时 , 一致现假定只有测验 1 的成绩 , 我们根据后面的 3 种方
区分的概率为 1 ; 当 w = 2 c - 1 时 , 一致区分的概率法估计测验的信度 . 由于后面的计算步骤繁多 , 计算
为 0 . < ( a , b) 要计算的是 w 在 c～ ( 2 c - 2) 之间和 w 量大 , 作者运用 QBASIC 语言编制了 3 种方法的计算
在 2 c～ ( n + c - 1) 之间一致区分的概率为 “Subkoviak Program”和“Mar2
程序 :“Huyhn Program”、
b
Cwj C2n n- -j w shall Program”,只要将测验数据输入 , 就可以直接得
　　< ( a , b) = ∑
j= a C2 n
n .
到信度的估计值 . 具体结果如表 4 所示 .
　　( 3) 通过加权平均 , 把 N x 和 < ( a , b) 结合起来 , 表 4 　测验 1 的信度系数
可估计出 ρ0 的值 .
c- 1 2 c- 2
惠恩方法萨伯考维克方法玛希尔方法
1
∑N ∑N
^
ρ0 = w + w w[< w - ( c - 1) , c - 1 ] + ρ
^
0 . 76 0 . 74 0 . 78
N w =0 w=c
2
^
n+ c- 1 2n K 0 . 51 0 . 49
∑
w =2c
N w <w ( c , w - c) + ∑
w = n+ c
Nw .
2. 3 相关问题的分析
玛希尔方法没有给出估计 K 的公式 . 本研究发现 ,后 3 种方法估计的信度系数接近 ,
而与斯旺明内森方法的估计值差距较大 . 可能是后
2 　标准参照测验信度估计方法的验证
3 种方法为一次施测 , 且都以二项分布作为假设条
与分析件 ,而斯旺明内森方法是两次施测 , 估计的条件不
2 . 1 数据来源同 . 萨伯考维克曾对指标 ρ0 作过研究 , 结果发现 , 如
为了验证标准参照测验信度的各种估计方法 , 果被试组人数较少 , 斯旺明内森两次测验估计方法 ,
102 宁波大学学报 ( 理工版) 2002
其指标值有较大的误差 . 同时 , 他还发现 , 对于一次的假设 :分界分数参照相对标准制定 , 这又与标准参

施测的后面 3 种估计方法 , 其指标值 ρ0 是有偏的 . 照测验的目的大异其趣 , 故常常不如 ρ0 那么有用 .
总的说来 , 斯旺明内森方法不仅容易理解 , 而且计算
简单 , 得到的统计量是参数的无偏估计 , 但需要两次
施测 , 在被试人数少时误差较大 ; 惠恩方法、萨伯考
维克方法和玛希尔方法只需施测一次 , 且得到的统
计量误差较小 , 但是不易理解 , 计算烦琐 , 如果测验
较短 , 估计值的偏差较大 .
为了进一步说明 ρ0 与 K 的差异 , 作者运用萨
伯考维克方法 , 将测验 1 的分界分数分别定为 c =
6 , 9 , 12 , 15 , 计算出 ρ0 与 K 的估计值 ( 见图 1) . 从图
图 1 　信度系数随分界分数变化图
1 可见 , 两者的变化并不一致 ,ρ0 越靠近尾部其值越
大 , 而 K 正好相反 . 这说明两者并非反映同一属性 ,
参考文献 :
ρ0 它们代表着不同的一致性 . 代表一切原因造成的
[1 ] 　Berk R A. Criterion2referenced measurement :the state of the
总的一致性 , 它包括测验组中掌握者与未掌握者的 art[M] . London :The Johns Hopkins University , 1980.
相对数目以及测验本身的精度与准确性两个因素的 [2 ] 　张厚粲 ,刘昕 . 考试改革与标准参照测验 [M] . 沈阳 : 辽
共同影响 , 而 K 考虑的是测验对总的一致性的贡宁教育出版社 ,1992.
献 , 是除去掌握者与未掌握者的构成因素影响后测 [3 ] 　漆书清 . 教育统计与测量 [M] . 广州 : 广东高等教育出
验真正的一致性 . 当然 , 以 K来校正ρ0 隐含着这样版社 ,1999.
( 责任编辑　史小丽)
第九届全国机器人与自动化学术会议在甬闭幕
2002 年 9 月 28 日 ,由中国自动化学会机器人专业委员会、国家 863 计划机器人技术主题专家组、
中国科
学院机器人学重点实验室、中国科学院复杂系统重点实验室、
辽宁省自动化学会主办 ,宁波大学、宁波韵升集
团、
滕头村、宁波市科技局、宁波市科学技术协会、
宁波市科技园区管委会联办的“第九届全国机器人与自动
化学术会议” 于宁波联谊宾馆圆满闭幕。会议自 9 月 24 日 —28 日共历时 5 天 ,9 位自动化领域的两院院士、
10 多位国家 863 计划机器人技术主题专家组成员及来自全国的 120 多位代表参加了本次会议。
小　傅
word版下载：http://www.ixueshu.com
免费论文查重：http://www.paperyy.com
3亿免费文献下载：http://www.ixueshu.com
超值论文自动降重：http://www.paperyy.com/reduce_repetition
PPT免费模版下载：http://ppt.ixueshu.com
-------------------------------------------------------------------------------

标准参照测验信度的估计方法及其验证

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

标准参照测验信度的估计方法及其验证

Uploaded by

Copyright:

Available Formats

第 15 卷第 3 期宁波大学学报 ( 理工版) Vol. 15 No.

文章编号 :100125132 ( 2002) 0320099203

摘要 : 介绍了 4 种估计标准参照测验信度的方法 ,并以某一单元测验进行验证 ,最后就标准参照测验

Approaches to Estimate Reliability of Criterion2referenced Test and Its Certification

( Institute of Education , Anhui Normal University , Wuhu 241000 , China)

1 　标准参照测验信度的估计方法 ( 再测或复本) ,确定分界分数将被试分为掌握者与

收稿日期 :2001 - 10 - 30.

面的 2 个公式获得表格数据 . 以获得 ρ0 、 ρc 的估计值 , 并进而获得 K 估计值 .

半测验上被一致区分的比率 < ( a , b) . 式中 a 、b 的　　根据斯旺明内森方法 ,将表 3 内数据代入公式 ,

其指标值有较大的误差 . 同时 , 他还发现 , 对于一次的假设 :分界分数参照相对标准制定 , 这又与标准参

You might also like

标准参照测验信度的估计方法及其验证

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

标准参照测验信度的估计方法及其验证

Uploaded by

Copyright:

Available Formats

第 15 卷 第 3 期 宁 波 大 学 学 报 ( 理 工 版) Vol. 15 No.

文章编号 :100125132 ( 2002) 0320099203

摘要 : 介绍了 4 种估计标准参照测验信度的方法 ,并以某一单元测验进行验证 ,最后就标准参照测验

Approaches to Estimate Reliability of Criterion2referenced Test and Its Certification

( Institute of Education , Anhui Normal University , Wuhu 241000 , China)

1 标准参照测验信度的估计方法 ( 再测或复本) ,确定分界分数将被试分为掌握者与

收稿日期 :2001 - 10 - 30.

面的 2 个公式获得表格数据 . 以获得 ρ0 、 ρc 的估计值 , 并进而获得 K 估计值 .

半测验上被一致区分的比率 < ( a , b) . 式中 a 、b 的 根据斯旺明内森方法 ,将表 3 内数据代入公式 ,

其指标值有较大的误差 . 同时 , 他还发现 , 对于一次 的假设 :分界分数参照相对标准制定 , 这又与标准参

You might also like

第 15 卷第 3 期宁波大学学报 ( 理工版) Vol. 15 No.

1 　标准参照测验信度的估计方法 ( 再测或复本) ,确定分界分数将被试分为掌握者与

半测验上被一致区分的比率 < ( a , b) . 式中 a 、b 的　　根据斯旺明内森方法 ,将表 3 内数据代入公式 ,

其指标值有较大的误差 . 同时 , 他还发现 , 对于一次的假设 :分界分数参照相对标准制定 , 这又与标准参