You are on page 1of 2

EL TEST CHI-CUADRADO

El test Chi-cuadrado es un ejemplo de los denominados test de ajuste estadstico, cuyo objetivo es evaluar la bondad del ajuste de un conjunto de datos a una determinada distribucin candidata. Su objetivo es aceptar o rechazar la siguiente hiptesis: Los datos de que se dispone son una muestra aleatoria de una distribucin FX ( x ) . El procedimiento de realizacin del test Chi-cuadrado es el siguiente:
1)

Se divide el rango de valores que puede tomar la variable aleatoria de la distribucin en K intervalos adyacentes:

[a0 , a1 ), [a1 , a2 ), , [aK 1 , aK )


2) 3)

Pueden ser a0 = y aK = . Sea N j el nmero de valores de los datos que tenemos que pertenecen al intervalo [a j , a j ) . 1 Se calcula la probabilidad de que la variable aleatoria de la distribucin candidata FX ( x ) est en el intervalo [a j , a j ) . Por ejemplo, si se trata de una 1 distribucin continua, esa probabilidad sera:
p j =
aj

a j 1

f X ( x )dx

siendo f X ( x ) la funcin densidad de probabilidad de la distribucin candidata. Tambin se puede hacer:


p j = FX ( a j ) FX ( a j 1 )

Ntese que este es un valor terico, que se calcula de acuerdo a la distribucin candidata y a los intervalos fijados. 4) Se forma el siguiente estadstico de prueba:
=
j =1 K

(N

Np j ) Np j

Si el ajuste es bueno, tender a tomar valores pequeos (por qu?). Rechazaremos la hiptesis de la distribucin candidata si toma valores demasiado grandes.

Ntese que para decidir si los valores son demasiado grandes, necesitamos fijar un umbral. Para ello se hace uso de la siguiente propiedad, que no demostraremos. Ntese que es a su vez una variable aleatoria (por qu?). Si el nmero de muestras es suficientemente grande, y la distribucin candidata es la adecuada tiende a tener a una distribucin Chi-cuadrado de (K 1) grados de libertad En realidad, la afirmacin anterior slo es estrictamente cierta si no hay que estimar ningn parmetro en la distribucin candidata. Si para definir la distribucin candidata hay que estimar algn parmetro (su media, su varianza,) el nmero de grados de libertad de la distribucin Chi-cuadrado es (K 1 nmero de parmetros que hay que estimar a partir de los datos) Tenemos por tanto, que si la distribucin candidata es la adecuada, conocemos la distribucin del parmetro (est tabulada y se proporciona la tabla en el Apndice 1 de la prctica). Adems, si la distribucin candidata es la adecuada, el valor del parmetro tender a ser pequeo, y si no es adecuada, tender a ser grande. Una forma razonable de fijar un umbral de decisin sera: Rechazar la distribucin candidata si
2 > gdl ,

siendo gdl , el valor que en la distribucin Chi-cuadrado de gdl grados de libertad deja por encima una masa de probabilidad de .
2

Ntese que (que se denomina nivel de significacin) representa la probabilidad de equivocarse si la distribucin candidata es la adecuada (por qu?), y se fijar a un valor pequeo (tpicamente, 0.1, 0.05 0.01). Es muy importante tener en cuenta que el test est sujeto a error. Acabamos de ver que es posible equivocarse aunque la hiptesis sobre la distribucin candidata sea cierta, porque podemos tener la mala suerte de que los valores de salgan grandes. Eso en todo caso suceder con probabilidad baja (0.1, 0.05 0.01, segn acabamos de ver). Asimismo, podramos equivocarnos tambin decidiendo que la distribucin candidata es la adecuada aunque no sea cierto, debido a que los valores de podran salir pequeos. El test se basa en la suposicin razonable de que si la distribucin candidata no es la adecuada, los valores de tendern a salir por encima del umbral 2 gdl , .

You might also like