You are on page 1of 7

Pg.

639- 7/10/09 18:14 Pgina 639

Psicothema 2009. Vol. 21, n 4, pp. 639-645 ISSN 0214 - 9915 CODEN PSOTEG
www.psicothema.com Copyright 2009 Psicothema

Bondad de ajuste en tems politmicos: tasas de error tipo I


y potencia de tres ndices de ajuste

Manuel J. Sueiro y Francisco Jos Abad*


Universidad Complutense de Madrid y * Universidad Autnoma de Madrid

Al aplicar un modelo de Teora de la Respuesta al tem es fundamental disponer de un procedimiento


que permita conocer si el modelo se ajusta a los datos. Este artculo compara, mediante un estudio de
simulacin, las tasas de error tipo I y potencia de tres tipos de ndices de ajuste generalizados a tems
politmicos: el ndice tradicional basado en la agrupacin de los sujetos segn su nivel de rasgo esti-
mado, otro basado en el clculo de las probabilidades posteriores y un tercero consistente en agrupar
a los sujetos mediante su puntuacin total en el test. Las condiciones bajo estudio fueron la longitud
del test (10, 20 y 40 tems), nmero de opciones de los tems (3, 4 y 5) y tamao de la muestra (500,
1.000 y 2.000 sujetos). Los resultados mostraron que el ndice basado en las probabilidades posterio-
res presentaba tasas de error ms prximas a las nominales, as como una mayor potencia, especial-
mente cuando la muestra era grande o el test era corto.

Goodness of fit in polytomous items: Type I error rates and empirical power for three fit indexes.
Applications of Item Response Theory require assessing the agreement between observations and
model predictions at the item level. This paper compares approaches applied to polytomous scored
items in a simulation study. Three fit-indexes are calculated: traditional chi-square index obtained by
grouping examinees according to their estimated trait, an alternative that uses posterior distribution of
trait and the third method, in which examinees are grouped according their observed total scores.
Various conditions are simulated by manipulating test length (10, 20 and 40 items), number of
categories (3, 4 and 5) and sample size (500, 1000 and 2000 examinees). Power and Type I error rates
are described. Chi-square statistics based on posterior probabilities showed the best performance,
especially with larger sample sizes and shorter test lengths.

La Teora de la Respuesta al tem (TRI) permite modelar mate- Como un estadstico de bondad de ajuste de Pearson:
mticamente las relaciones entre el nivel de rasgo de los sujetos y la
( )
2
probabilidad de cada respuesta a un tem. La TRI permite el desarro- n q Oqk E qk
llo de aplicaciones psicomtricas como los tests adaptativos informa- 2j =
tizados o la equiparacin de tests, en las que aunque las personas res- Q K E qk
pondan a tems distintos podemos estimar los niveles de rasgo en la
misma escala mtrica (Olea y Ponsoda y Prieto, 1999). Sin embargo, Como prueba de razn de verosimilitud:
la utilidad de los modelos depende del grado de correspondencia en-
tre lo que predice el modelo y los datos empricos. El estudio del ajus- O
G 2j = 2 n q Oqk 1n
qk
te individual de cada tem permite establecer qu elementos ofrecen
un mal ajuste y deben ser descartados o rediseados. Se han pro-
Q K E qk
puesto diversos procedimientos para evaluar la bondad de ajuste de
un modelo de TRI (Swaminathan, Hambleton y Rogers, 2007), pero Siendo Q el nmero de subgrupos, homogneos en el nivel de
presentan algunas dificultades como se describir a continuacin. rasgo, en los
que se ha clasificado la muestra, K el nmero de al-
La estrategia general consiste en comparar las frecuencias de ternativas de respuesta del tem y nq la frecuencia absoluta de su-
respuesta predichas por el modelo y las observadas para un tem j, jetos en el grupo q; Oqk y Eqk son, respectivamente, las proporcio-
de dos maneras alternativas: nes observada y esperada de personas que escogen la alternativa de
respuesta k en el subgrupo q. Tradicionalmente se ha asumido que
ambos estadsticos siguen una distribucin 2 con Q*(K 1) m
grados de libertad, siendo m el nmero de parmetros estimados.
Fecha recepcin: 13-11-08 Fecha aceptacin: 11-3-09 Sin embargo, al ser el rasgo una variable latente y la clasificacin
Correspondencia: Manuel J. Sueiro una discretizacin arbitraria de una variable continua, la distribu-
Facultad de Psicologa
cin real de los estadsticos es desconocida.
Universidad Complutense de Madrid
28223 Madrid (Spain) En la aproximacin tradicional se forman los Q grupos (por
E-mail: msueiro@psi.ucm.es ejemplo, 10 grupos) y se comparan las probabilidades observadas
Pg. 639- 7/10/09 18:14 Pgina 640

640 MANUEL J. SUEIRO Y FRANCISCO JOS ABAD

y esperadas en funcin de los niveles de rasgo estimados (Bock, cer la precisin de la estimacin del rasgo, utilizado para agrupar
1972; Yen, 1981; McKinley y Mills, 1985). Estos estadsticos pre- a los sujetos cuando se calcula el ndice tradicional. Los efectos
sentan tasas de error tipo I inaceptables cuando el nivel de rasgo del tamao muestral son ms complejos. Por un lado, la existencia
no se estima con suficiente precisin. Adems, tanto el nmero de de casillas con frecuencias muy bajas afecta negativamente a la
intervalos empleados como el criterio utilizado para el agrupa- distribucin de estos ndices. Este problema es mayor cuanto ma-
miento pueden afectar a su funcionamiento y tienen un carcter ar- yor es el nmero de grupos que se forman. Por otro lado, cuanto
bitrario (Reise, 1990). Por ello, en los ltimos aos, se han pro- mayor es el tamao muestral, mayor es la potencia para detectar el
puesto algunos ndices que pretenden solucionar estos problemas. verdadero desajuste, pero tambin para detectar las discrepancias
ndices basados en las puntuaciones totales de los sujetos. Or- producidas por la incorrecta agrupacin de los sujetos dado .
lando y Thissen (2000) proponen formar los Q grupos y comparar Orlando y Thissen (2000, 2003) comparan el rendimiento del
las probabilidades observadas y esperadas en funcin de las pun- ndice tradicional de Yen (1981) con su propuesta basada en las
tuaciones en el test (s), formando inicialmente tantos grupos como puntuaciones totales en tems dicotmicos. Encontraron un inco-
puntuaciones. En cada grupo de sujetos de igual puntuacin en el rrecto funcionamiento del ndice tradicional cuando el test era cor-
test podemos observar la proporcin de sujetos que acierta cada to (i.e., 10 tems) siendo inferior al funcionamiento de su propues-
tem, con la ventaja sobre la forma de la distribucin de que la ta, que mostraba tasas de error cercanas al valor nominal. El
puntuacin total es un dato observable y no latente. La probabili- funcionamiento de ambos indicadores mejora con la longitud del
dad esperada de elegir la opcin k para los que tienen la puntua- test (i.e., 40 tems), pero en presencia de tests muy largos (i.e., 80
cin s se define como: tems) y bajos tamaos muestrales (i.e., 500 sujetos) el nuevo n-
dice puede llegar a mostrar menor potencia, probablemente por el
( )( )
P xij = k P Si = s 1 g()d
j
problema de las casillas vacas.
( )
P xij = 1 Si = s =
( )
P Si = s g ( ) d
Stone y Zhang (2003), tambin con dicotmicos, compararon
los tres tipos de ndices con similares resultados. El ndice basado
en las probabilidades posteriores mostr tasas de error prximas a
Donde P(Sij = s 1 | ) indica la probabilidad de obtener la pun- las nominales y los mejores resultados en cuanto a la potencia, so-
tuacin s-1 en el test formado por todos los tems excepto el tem bre todo en muestras pequeas.
j. Por su parte, Glas y Surez-Falcon (2003) encontraron que el
El problema de este ndice reside en su complejidad computa- ndice basado en la puntuacin total mostraba mejor funciona-
cional: el clculo de las probabilidades esperadas requiere el uso miento que el tradicional. Sin embargo, para ambos ndices, en
del algoritmo iterativo de Lord y Wingersky (1984; desarrollado presencia de tems desajustados (i.e., 10%) se incrementaba la ta-
en Thissen, Pommerich, Billeaud y Williams, 1995) y puede em- sa de falsas alarmas especialmente si la muestra era muy grande
plear bastante tiempo si el nmero de tems es alto. Esto es espe- (i.e., 4.000 sujetos). Este efecto se produca incluso si el test era
cialmente relevante en la generalizacin del ndice a modelos po- largo (i.e., 40 tems).
litmicos. Adems, el incremento en el nmero de celdillas dejar La mayor parte de la investigacin se ha centrado en los tems
muchas casillas vacas, lo que puede afectar a la distribucin del dicotmicos. En tems politmicos se ha visto que los ndices G2
estadstico y exige un procedimiento para tratar con ellas. tradicionales incluidos en programas como PARSCALE (Muraki
ndices basados en las probabilidades posteriores. Stone y Bock, 1997) han mostrado un funcionamiento inadecuado (De-
(2000) propone modificar el modo en que se calculan las frecuen- Mars, 2005). Recientemente, algunos autores (Kang y Chen, 2007;
cias observadas. En lugar de emplear el rasgo estimado del sujeto Roberts, 2008) han propuesto generalizaciones del ndice de Or-
se emplea su distribucin posterior, P( = q | Xi = x). sta indica lando y Thissen a tems politmicos. Aunque en estos estudios el
la probabilidad de que el nivel de rasgo est comprendido en cada ndice de Orlando y Thissen muestra un mejor funcionamiento que
subgrupo q del continuo supuesto su patrn de respuestas x. Cuan- el indicador tradicional, no se ha comparado su eficacia en com-
to mayor sea la imprecisin de la estimacin del rasgo, ms distri- paracin con otros ndices como el propuesto por Stone. Esto es
buidas en los subgrupos estarn las probabilidades del sujeto. Por importante puesto que se espera que el problema de las casillas va-
ejemplo, sumando las probabilidades posteriores a travs de todos cas sea mayor para los ndices basados en la puntuacin, pues en
los sujetos que escogen una opcin k se obtendrn las pseudo-fre- tems politmicos aumenta el nmero de puntuaciones posibles y
cuencias observadas: se puede incrementar el nmero de casillas con frecuencias muy
bajas o nulas (Stone y Zhang, 2003).
(
n *qjk = P = q X i = x ; xij = k
i
) En el presente trabajo se compara el uso de los distintos indi-
cadores para uno de los modelos politmicos ms usuales, el mo-
delo de respuesta graduada (Samejima, 1969), y se analiza el efec-
Un problema de esta aproximacin es que las probabilidades to sistemtico del nmero de opciones, el tamao de la muestra, la
posteriores subyacentes a la distribucin de pseudo-frecuencias no longitud del test y la presencia de tems desajustados en el funcio-
son independientes, por lo que no puede asumirse la distribucin namiento de estos indicadores.
2. Stone (2000) propone factores de correccin, obtenibles me-
diante bootstrap, que permiten reescalar los ndices y sus grados Mtodo
de libertad, mostrando que dichos factores de correccin aproxi-
man la distribucin a 2. Parmetros de los tems. Los parmetros de los tems se cons-
Comparacin de los distintos tipos de ndices de ajuste. El n- truyeron para formar un test completo y conveniente (Anken-
mero de tems y el tamao muestral han sido los factores ms es- mann, Witt y Dunbar, 1999). Se parti de la formulacin que hace
tudiados. El nmero de tems es determinante a la hora de estable- Muraki (1990) del modelo de respuesta de Samejima:
Pg. 639- 7/10/09 18:14 Pgina 641

BONDAD DE AJUSTE EN TEMS POLITMICOS: TASAS DE ERROR TIPO I Y POTENCIA DE TRES NDICES DE AJUSTE 641

rmetros de los sujetos segn una distribucin N(0,1). A partir de


(
P * xij k = i = ) 1
[ ( )]
ellos se generaron las respuestas calculando la probabilidad acu-
1 + exp a j i b j + c k 1 mulada de cada alternativa de respuesta y comparndola con un
valor aleatorio segn una distribucin uniforme (0,1). Para cada
Donde el parmetro bjk del modelo de respuesta graduada se una de las 54 condiciones experimentales se obtuvieron 100 r-
descompone en dos parmetros: un parmetro bj de localizacin plicas.
distinto para cada tem j y un parmetro de categora ck distinto pa- Calculando los estadsticos de ajuste. Para cada rplica se re-
estimaron los parmetros de los tems a partir de las respuestas si-
ra cada categora k, siendo el conjunto de parmetros c iguales pa-
muladas utilizando MULTILOG 7.0, fijando en 100 el nmero
ra todos los tems. Se busc un conjunto de parmetros c que cu-
mximo de iteraciones para garantizar la convergencia y dejando
brieran todo el rango del rasgo (i.e., entre -2 y 2) dividindolo en
el resto de las opciones por defecto (Thissen, Chen y Bock, 2003).
zonas de igual tamao para las condiciones de 3, 4 y 5 alternativas
Fueron estas estimaciones las que se utilizaron en las pruebas de
de respuesta. Los parmetros de localizacin bj se escogieron para
bondad de ajuste. Para calcular los ndices de ajuste se utiliz MR-
que las bjk finales tuvieran media y desviacin tpica, prximas a 0
FITIT (Sueiro y Abad, en preparacin). El ndice tradicional se
y 1, respectivamente. Respecto al parmetro de discriminacin a
calcul en base a los deciles del nivel de rasgo estimado, utilizan-
se utilizaron dos niveles: 1.2 y 2.2.
do la media de cada grupo para calcular las probabilidades espe-
Combinando estos parmetros se obtuvieron tres conjuntos de
radas. Ya que la prueba de 2 es tremendamente sensible a las ca-
diez tems para las condiciones de 3, 4 y 5 alternativas, tal y como sillas con valores muy bajos se colapsaron las celdillas con una
se muestra en la tabla 1. Estos tems se replicaron para formar los frecuencia esperada igual o menor que 2, colapsando primero in-
tests de 20 y 40 tems. tragrupo las categoras de respuesta y, cuando esto no solucionara
Factores bajo estudio. Se incluyeron como factores, el tamao el problema, colapsando los grupos adyacentes. La significacin
muestral (500, 1.000 y 2.000 sujetos), la longitud del test (10, 20 de este ndice se obtuvo asumiendo su distribucin 2.
y 40 tems) y el nmero de alternativas de respuesta (3, 4 y 5). El ndice basado en las probabilidades posteriores se calcul
Adems se consider una condicin adicional: ausencia o presen- segn las especificaciones de Stone (2000). Para reescalar el esta-
cia de tems desajustados en el test, para comparar las tasas de dstico se realiz bootstrap con 100 muestras para calcular las
error tipo I que se producen cuando todos los tems ajustan con las constantes de escalamiento (siguiendo lo descrito por Stone,
que se producen cuando algunos estn desajustados y se incre- 2000). Su significacin estadstica se evalu asumiendo dicha dis-
menta el error al clasificar a los sujetos. El desajuste se introdujo tribucin 2 escalada.
en el 33% de los tems de cada condicin, de la siguiente manera: Para el ndice basado en las puntuaciones totales observadas se
sigui una aproximacin anloga a la del clculo del ndice tradi-
1. En el parmetro aj, en los tems 8, 18, 28 y 38 (dependien- cional (utilizando la puntuacin total observada en lugar del la
do de la longitud del test). Este desajuste se provoc restan- estimada para formar los grupos), colapsando de igual modo. De
do 0.5 al parmetro a estimado. igual manera, la significacin estadstica del ndice se obtuvo asu-
2. En los parmetros bjk, en los tems 3, 13, 23 y 33 (siguiendo miendo su distribucin 2.
la misma lgica del caso anterior), restando 0.25 a todos Los ndices fueron calculados en su forma de estadstico de
los parmetros b del tem estimado. bondad de ajuste de Pearson y en la de prueba de razn de verosi-
3. Tanto en a como en los parmetros b estimados, en los militud.
tems 9, 19, 29 y 39.
Resultados
Generacin de las respuestas simuladas. Los datos fueron si-
mulados utilizando MRFITIT (Sueiro y Abad, en preparacin) La tabla 2 muestra las tasas de error Tipo I obtenidas en la si-
del siguiente modo: primero se generaron aleatoriamente los pa- tuacin de ajuste en cada condicin.

Tabla 1
Parmetros verdaderos de los tems simulados

tems de 3 alternativas tems de 4 alternativas tems de 5 alternativas

Item a b1 b2 Item a b1 b2 b3 Item a b1 b2 b3 b4

01 1.2 -1.77 0-.43 01 1.2 -1.8 -.8 0.2 01 1.2 -1.8 -1.0 0-.2 0.6
02 1.2 -1.07 -0.27 02 1.2 -1.3 -.3 0.7 02 1.2 -1.4 0-.6 -0.2 1.0
03 1.2 0-.67 -0.67 03 1.2 -1.0 -.0 1.0 03 1.2 -1.2 0-.4 -0.4 1.2
04 1.2 0-.27 -1.07 04 1.2 0-.7 -.3 1.3 04 1.2 -1.0 0-.2 -0.6 1.4
05 1.2 -0.43 -1.77 05 1.2 0-.2 -.8 1.8 05 1.2 0-.6 -0.2 -1.0 1.8
06 2.2 -1.77 0-.43 06 2.2 -1.8 -.8 0.2 06 2.2 -1.8 -1.0 0-.2 0.6
07 2.2 -1.07 -0.27 07 2.2 -1.3 -.3 0.7 07 2.2 -1.4 0-.6 -0.2 1.0
08 2.2 0-.67 -0.67 08 2.2 -1.0 -.0 1.0 08 2.2 -1.2 0-.4 -0.4 1.2
09 2.2 0-.27 -1.07 09 2.2 0-.7 -.3 1.3 09 2.2 -1.0 0-.2 -0.6 1.4
10 2.2 -0.43 -1.77 10 2.2 0-.2 -.8 1.8 10 2.2 0-.6 -0.2 -1.0 1.8
Pg. 639- 7/10/09 18:14 Pgina 642

642 MANUEL J. SUEIRO Y FRANCISCO JOS ABAD

Tabla 2
Tasas de error empricas para los distintos ndices de ajuste en la situacin de todos los tems ajustados (= .05)

Nmero de alternativas, Mtodos


longitud del test (tems)
y tamao de la muestra (N) Stone (2000) Yen (1981), McKinley y Mills (1985) Orlando y Thissen (2003)
Alternativas N tems G2* X2* Q1-G2 Q1-X2 S-G2 S-X2

3 500 10 0.02 0.03 0.49 0.33 0.06 0.05


20 0.02 0.03 0.10 0.06 0.06 0.04
40 0.03 0.04 0.07 0.05 0.06 0.04

1000 10 0.02 0.02 0.67 0.62 0.06 0.05


20 0.02 0.03 0.19 0.11 0.07 0.06
40 0.03 0.04 0.07 0.05 0.05 0.05

2000 10 0.01 0.01 0.93 0.89 0.06 0.05


20 0.02 0.02 0.38 0.27 0.05 0.04
40 0.03 0.04 0.09 0.07 0.05 0.05

4 500 10 0.01 0.02 0.34 0.18 0.07 0.05


20 0.02 0.04 0.10 0.05 0.07 0.05
40 0.03 0.05 0.07 0.05 0.07 0.05

1000 10 0.02 0.03 0.61 0.50 0.07 0.06


20 0.02 0.04 0.14 0.07 0.06 0.05
40 0.03 0.04 0.07 0.05 0.07 0.05

2000 10 0.01 0.01 0.73 0.66 0.05 0.05


20 0.02 0.02 0.23 0.14 0.06 0.06
40 0.03 0.04 0.08 0.06 0.06 0.05

5 500 10 0.01 0.03 0.30 0.13 0.08 0.05


20 0.02 0.04 0.11 0.05 0.06 0.04
40 0.03 0.05 0.08 0.05 0.07 0.04

1000 10 0.01 0.01 0.50 0.31 0.05 0.04


20 0.03 0.04 0.11 0.06 0.06 0.05
40 0.03 0.04 0.07 0.05 0.07 0.05

2000 10 0.01 0.02 0.64 0.59 0.05 0.04


20 0.03 0.04 0.19 0.11 0.06 0.05
40 0.04 0.04 0.08 0.06 0.06 0.05

Los ndices tradicionales (Q1-X2 y Q1-G2) presentaron tasas de proporcin de tems que fueron errneamente sealados como de-
error superiores al nivel nominal (= 0.05) prcticamente en todos sajustados del total de tems que estaban realmente ajustados. Es-
los casos. Su rendimiento fue peor en la condicin de 10 tems y en to informa de las tasas de error tipo I de los distintos ndices en una
la condicin de 2.000 sujetos. Slo cuando el test era largo (40 situacin en la que no todos los tems ajustaban al modelo. De
tems) mostraron un funcionamiento razonable, especialmente si la nuevo los ndices basados en las estimaciones del rasgo latente
muestra no era grande. Por su parte, los ndices basados en las pro- presentan resultados inaceptables, siendo stos funcin de la lon-
babilidades posteriores mostraron un desempeo notablemente me- gitud del test (mejor rendimiento en tests largos) y del tamao
jor, si bien resultaron excesivamente conservadores, con tasas de muestral (peor rendimiento en muestras grandes).
error tipo I inferiores al nivel de significacin .05, especialmente en En lo que respecta a los nuevos ndices, en cualquiera de sus
la forma de razn de verosimilitud. En lo que respecta a los ndices formas, su funcionamiento es notablemente mejor que el de los n-
basados en la puntuacin total, mostraron tambin un rendimiento dices tradicionales. En este caso se obtienen resultados ms prxi-
bastante adecuado, si bien las tasas de error fueron ligeramente ma- mos al nivel de significacin, ligeramente superiores en algunos
yores a lo esperado en el ndice de razn de verosimilitud S-G2. casos especialmente para el ndice de Orlando y Thissen, lo que
Se observa una relacin entre la longitud del test y el rendi- parece indicar que en presencia de tems desajustados los nuevos
miento del ndice tradicional: mejor cuanto ms largo, congruente ndices pierden alguna capacidad discriminativa. En ambos ndices
con la idea de que es la imprecisin en la estimacin de los rasgos se observa un peor rendimiento cuando el tamao muestral au-
latentes de los sujetos la que hace inutilizable este ndice. As, menta. Para el ndice de Stone el problema tiende a reducirse cuan-
cuanto mayor es el tamao muestral, mayor es la potencia para de- do aumenta el nmero de alternativas.
tectar el desajuste provocado por una mala agrupacin de los suje- La tabla 4 muestra las tasas de detecciones correctas (potencia)
tos segn el nivel de rasgo (mal) estimado y peor es el rendimien- para los tems que presentaban desajuste.
to de estos ndices. Los valores de potencia en el ndice tradicional no son, en ge-
La tabla 3 resume las tasas de errores de deteccin incorrectos neral, interpretables, teniendo en cuenta las elevadas tasas de error
(falsas alarmas) obtenidas en la situacin de desajuste, es decir, la tipo I obtenidas. Podemos hablar de falta de especificidad del ndi-
Pg. 639- 7/10/09 18:14 Pgina 643

BONDAD DE AJUSTE EN TEMS POLITMICOS: TASAS DE ERROR TIPO I Y POTENCIA DE TRES NDICES DE AJUSTE 643

ce para detectar el desajuste. Con el ndice de Stone se obtuvieron indica realmente falta de especificidad, especialmente en tests cor-
los mejores resultados: la potencia alcanz el 100% en 16 de las 27 tos o con tamaos muestrales elevados. Ya que en la estimacin de
condiciones y obtuvo valores superiores al 60% en el resto. Su fun- parmetros en la TRI ambas variables estn estrechamente rela-
cionamiento fue mejor cuanto mayor fue el nmero de sujetos y cionadas (son necesarias muestras ms grandes para estimar los
cuanto menores la longitud del test y el nmero de alternativas. Con parmetros de tests ms largos) se presenta un escollo difcil de su-
el ndice de Orlando y Thissen se obtuvieron peores resultados. La perar para estos ndices.
tasa de deteccin fue baja en muestras pequeas. Aunque aumen- De las alternativas propuestas, sobresale la de Stone (2000), cu-
taba con el tamao muestral, la tasa de falsas alarmas se incremen- yo ndice basado en las probabilidades posteriores presenta un ren-
taba tambin, lo que hace que los valores de las tasas de potencia dimiento muy adecuado, tanto en sus tasas de error como en su ca-
no sean interpretables. La longitud del test y el nmero de alterna- pacidad para detectar el desajuste, siendo bastante robusto y
tivas no parecieron tener ningn efecto en este caso. aparentemente poco dependiente de las condiciones (tamao
muestral, nmero de alternativas y longitud del test) en las que se
Discusin y conclusiones utiliza. Sin embargo, el ndice de Stone presenta el problema en
absoluto trivial de no tener una distribucin conocida. Su aplica-
El problema del ajuste de los modelos es fundamental en la TRI cin exige la construccin de su distribucin emprica simulndo-
y el desarrollo de ndices fiables que permitan decidir si el grado la mediante bootstrapping. Esta solucin hace pensar si el xito
de ajuste entre los datos y el modelo es adecuado ha generado del ndice no se basar en dicha construccin simulada de su dis-
abundante investigacin. Este estudio compara algunos de los pro- tribucin, ya que resultados bastante prometedores al respecto se
cedimientos de ajuste que se han propuesto recientemente y eva- han encontrado tambin utilizando ndices tradicionales cuando en
la su eficacia en tems politmicos y bajo diferentes condiciones. lugar de asumir su distribucin 2 se ha recurrido al bootstrapping
Los resultados muestran que los ndices tradicionales basados en para interpretar su significacin estadstica (von Davier, 1997).
la habilidad estimada de los sujetos (como el de Bock, 1972; Yen, Los ndices de Orlando y Thissen (2000), si bien ms elegantes
1981) son ineficaces para detectar tems desajustados. Estos ndi- que el de Stone y con un rendimiento semejante aunque ligera-
ces presentan tasas de error tipo I extremadamente elevadas, lo que mente inferior, no estn exentos de problemas. Su aplicacin en

Tabla 3
Falsas alarmas (detecciones de desajuste incorrectas) para los distintos ndices de ajuste en la condicin de desajuste en algunos tems (= .05)

Nmero de alternativas, Mtodos


longitud del test (tems)
y tamao de la muestra (N) Stone (2000) Yen (1981), McKinley y Mills (1985) Orlando y Thissen (2003)
Alternativas N tems G2* X2* Q1-G2 Q1-X2 S-G2 S-X2

3 500 10 0.03 0.04 0.54 0.40 0.09 0.08


20 0.04 0.05 0.12 0.07 0.09 0.08
40 0.05 0.07 0.09 0.07 0.09 0.07

1000 10 0.07 0.08 0.70 0.61 0.09 0.08


20 0.06 0.07 0.24 0.15 0.12 0.12
40 0.07 0.08 0.10 0.08 0.10 0.09

2000 10 0.20 0.21 0.97 0.94 0.19 0.17


20 0.16 0.16 0.46 0.37 0.17 0.16
40 0.17 0.17 0.16 0.13 0.19 0.19

4 500 10 0.03 0.05 0.43 0.25 0.10 0.08


20 0.03 0.05 0.12 0.06 0.09 0.07
40 0.04 0.06 0.09 0.06 0.09 0.07

1000 10 0.05 0.05 0.61 0.54 0.13 0.10


20 0.05 0.06 0.17 0.10 0.10 0.09
40 0.06 0.07 0.09 0.07 0.10 0.10

2000 10 0.11 0.11 0.81 0.71 0.15 0.14


20 0.11 0.12 0.35 0.25 0.16 0.15
40 0.11 0.11 0.13 0.11 0.15 0.15

5 500 10 0.02 0.03 0.38 0.19 0.10 0.07


20 0.04 0.06 0.12 0.06 0.08 0.06
40 0.04 0.06 0.09 0.06 0.09 0.07

1000 10 0.04 0.04 0.52 0.43 0.10 0.08


20 0.05 0.07 0.16 0.09 0.10 0.09
40 0.05 0.07 0.10 0.07 0.11 0.09

2000 10 0.08 0.08 0.68 0.60 0.14 0.13


20 0.09 0.10 0.28 0.18 0.13 0.13
40 0.09 0.10 0.13 0.10 0.16 0.15
Pg. 639- 7/10/09 18:14 Pgina 644

644 MANUEL J. SUEIRO Y FRANCISCO JOS ABAD

tems politmicos exige el colapsamiento de celdillas con valores el nmero habitual utilizado en estudios con ndices de ajuste en
pequeos para evitar que se dispare el valor del ndice. Este co- TRI, otras reas nos muestran que un nmero mayor de rplicas
lapsamiento en tanto que se produce de forma diferente para las (1000) permite la estimacin de las tasas con una mayor precisin.
distintas filas, afecta a la estructura de la tabla de contingencia, lo Igualmente, aunque en este trabajo el desajuste se introdujo me-
cual posiblemente afecte a su vez a la distribucin 2 supuesta. diante modificaciones en los parmetros (siguiendo a Stone y
Adicionalmente, el algoritmo iterativo necesario para su clculo Zhang, 2003), convendra comparar su funcionamiento en otras
resulta computacionalmente costoso, y ms cuanto ms largo es el condiciones de desajuste, por ejemplo, cuando los datos han sido
test o ms alternativas de respuesta presentan los tems. Por lti- generados con un modelo y se pretende ajustarlos con otro (como
mo, al basarse en las puntuaciones totales de los sujetos, calcula- hacen, por ejemplo, Orlando y Thissen, 2003).
das como la suma de sus aciertos en tests dicotmicos o como la Es necesario encontrar una alternativa para evaluar el ajuste de
suma de unos valores otorgados a las alternativas de respuesta en los modelos en TRI. Viendo cmo otras reas (como la de los mo-
politmicos, el ndice se comporta como si la puntuacin del suje- delos de ecuaciones estructurales) han tratado de resolver el pro-
to en el test fuera un estimador suficiente de su nivel en el rasgo blema del ajuste, quizs haya que buscar la solucin en medidas de
latente, lo cual slo es cierto en los modelos de Rasch. Esto im- tamao del efecto. ndices derivados de los propuestos en otras
plica tambin que el ndice slo puede utilizarse para evaluar el reas (que se basan la mayor parte de las veces a su vez en esta-
ajuste de tems cuyo modelo permita que las categoras de res- dsticos 2, de los que como se ha podido ver disponemos en abun-
puesta puedan ordenarse por su contribucin a la puntuacin total. dancia y variedad) o soluciones ofrecidas en regresin logstica
Estudios posteriores deberan comprobar el funcionamiento de pueden ser las vas a explorar en los prximos aos en el campo
estos ndices con un nmero de replicas superior. Aunque 100 es de los ndices de ajuste en TRI.

Tabla 4
Tasa de detecciones correctas (potencia) de tems desajustados para los distintos ndices de ajuste (= .05)

Nmero de alternativas, Mtodos


longitud del test (tems)
y tamao de la muestra (N) Stone (2000) Yen (1981), McKinley y Mills (1985) Orlando y Thissen (2003)
Alternativas N tems G2* X2* Q1-G2 Q1-X2 S-G2 S-X2

3 500 10 0.96 0.94 0.83 0.74 0.43 0.31


20 0.86 0.86 0.69 0.61 0.49 0.36
40 0.74 0.69 0.60 0.48 0.51 0.40
1000 10 1.00 1.00 1.00 1.00 0.83 0.77
20 1.00 1.00 0.94 0.93 0.87 0.89
40 1.00 1.00 0.85 0.85 0.82 0.83
2000 10 1.00 1.00 1.00 1.00 1.00 1.00
20 1.00 1.00 1.00 1.00 1.00 1.00
40 1.00 1.00 1.00 1.00 1.00 1.00

4 500 10 0.96 0.95 0.80 0.73 0.54 0.42


20 0.78 0.79 0.65 0.60 0.58 0.50
40 0.69 0.67 0.62 0.53 0.58 0.48
1000 10 1.00 1.00 0.97 0.96 0.85 0.86
20 1.00 1.00 0.90 0.88 0.83 0.84
40 0.98 0.98 0.84 0.84 0.80 0.81
2000 10 1.00 1.00 1.00 1.00 1.00 1.00
20 1.00 1.00 1.00 1.00 1.00 1.00
40 1.00 1.00 1.00 1.00 1.00 1.00

5 500 10 0.83 0.84 0.73 0.65 0.56 0.47


20 0.73 0.74 0.68 0.61 0.60 0.46
40 0.66 0.63 0.64 0.56 0.61 0.50
1000 10 1.00 1.00 0.96 0.93 0.85 0.88
20 1.00 1.00 0.88 0.85 0.82 0.81
40 0.92 0.92 0.81 0.80 0.77 0.78
2000 10 1.00 1.00 1.00 1.00 1.00 1.00
20 1.00 1.00 1.00 1.00 1.00 1.00
40 1.00 1.00 1.00 1.00 1.00 1.00

* En negrita: valores para los que la tasa de falsas alarmas es menor o igual que 0.10
Pg. 639- 7/10/09 18:14 Pgina 645

BONDAD DE AJUSTE EN TEMS POLITMICOS: TASAS DE ERROR TIPO I Y POTENCIA DE TRES NDICES DE AJUSTE 645

Referencias

Ankenmann, R.D., Witt, E.A., y Dunbar, S.B. (1999) An investigation of response theory models. Applied Psychological Measurement, 27, 289-
the power of the likelihood ratio goodness-of-fit statistic in detecting 298.
differential item functioning. Journal of Educational Measurement, Reise, S.P. (1990). A comparision of item and person-fit methods of as-
36(4), 277-300. sessing model data fit in IRT. Applied Psychological Measurement, 14,
Bock, R.D. (1972). Estimating item parameters and latent ability when 127-137.
responses are scored in two or more nominal categories. Roberts, J.S. (2008). Modified likelihood-based item fit statistics for the
Psychometrika, 37, 29-51. generalized graded unfolding model. Applied Psychological Measure-
DeMars, C.E. (2005). Type I error rates for PARSCALEs fit index. Edu- ment, 32, 407-423.
cational and Psychological Measurement, 65, 42-50. Samejima, R. (1969). Estimation of latent ability using a response pattern
Glas, C.A.W., y Surez-Falcn, J.C. (2003). A comparison of item-fit sta- of graded scores. Psychometric Monograph, 17.
tistics for the three-parameter logistic model. Applied Psychological Stone, C.A., y Zhang, B. (2003). Assessing goodness of fit of item
Measurement, 27(2), 87-106. response theory models: A comparison of traditional and alternative
Kang, T., y Chen, T.T. (2007). An investigation of the performance of the procedures. Journal of Educational Measurement, 40(4), 331-352.
generalized S-X2 item-fit index for polytomous IRT models. ACT Re- Stone, C.A. (2000) Monte Carlo based null distribution for an alternative
search Report Series, 2007-1. goodness-of-fit test statistic in IRT models. Journal of Educational
Lord, F.M., y Wingersky, M.S. (1984). Comparison of IRT true-score and Measurement, 37, 58-75.
equipercentile observed-score equatings. Applied Psychological Sueiro, M.J., y Abad, F.J. (en preparacin). MRFITIT: Goodness-of-fit soft-
Measurement, 8, 452-461. ware for IRT models. Unpublished software.
McKinley, R.L., y Mills, C.N. (1985). A comparasion of several goodness- Swaminathan, H., Hambleton, R.K., y Rogers, H.J. (2007). Assessing the
of-fit statistics. Applied Psychological Measurement, 9(1), 49-57. fit of item response theory models, en C.R. Rao y S. Sinharay (Eds.):
Muraki, E. (1990). Fitting a polytomous item response model to Likert- Handbook of Statistics, vol. 26, North Holland.
type data. Applied Psychological Measurement, 14, 59-71. Thissen, D., Chen, W-H., y Bock, R.D. (2003). Multilog (version 7) [Com-
Muraki, E., y Bock, R.D. (1997). PARSCALE: IRT item analysis and test puter sotware]. Lincolnwood, IL: Scientific Software International.
scoring for rating scale data [Computer software]. Chicago: Scientific Thissen, D., Pommerich, M., Billeaud, K., y Williams, V.S. (1995) Item
Software. response theory for scores on tests including polytomous items with
Olea, J., Ponsoda, V., y Prieto, G. (1999). Tests informatizados: funda- ordered responses. Applied Psychological Measurement. Special Issue:
mentos y aplicaciones. Madrid: Pirmide. Polytomous item response theory, 19(1), 39-49.
Orlando, M., y Thissen, D. (2000). Likelihood-based item fit indices for di- von Davier, M. (1997). Bootstrapping goodness-of-fit statistics for sparse
chotomous item response theory models. Applied Psychological Mea- categorical data. Methods of Psychological Research Online, 2(2), 29-
surement, 24, 50-64. 48.
Orlando, M., y Thissen, D. (2003). Further investigation of the Yen, W.M. (1981) Using simulation results to choose a latent trait model.
performance of S - X2: An item fit index for use with dichotomous item Applied Psychological Measurement, 5(2), 245-262.

You might also like