You are on page 1of 14

INSTITUTO TECNOLOGICO DE

PUEBLA

“ESTADISTICA INFERENCIAL”

CATEDRATICO:
M. C. Rafael Meza García
AULA: 8A HORARIO: 13:00 – 15:00 lunes, miércoles y jueves.

Ingeniería en Logística

TEMA:
“PRUEBAS DE BONDAD DE AJUSTE”
“PRUEBAS NO PARAMETRICAS”

NOMBRE:
Alejandro Pérez Rojas
Benjamín Sánchez Tototzintle
Alejandro Santiago Hernández
INTRODUCCION
Cuando se realizan investigaciones, con frecuencias es
importante obtener información a través de una muestra
sobre la forma como se distribuyen los datos de una
población.
Algunos estudios producen resultados sobre los que no
podemos afirmar que se distribuyen normalmente, es
decir con forma acampanada concentrados sobre la
media.
En estos casos debemos emplear técnicas no
paramétricas que se utilizan ampliamente en las
aplicaciones de las ciencias sociales, cuando no se
puede asumir a priori que los datos de una muestra se
ajuste a una distribución normal.
PRUEBAS NO PARAMÉTRICAS

La estadística no paramétrica es una rama de la estadística que estudia las pruebas y


modelos estadísticos cuya distribución subyacente no se ajusta a los llamados
criterios paramétricos.

Algunos experimentos producen respuestas que no son cuantificables, es decir


generan mediciones que pueden ordenarse, pero la posición de la respuesta es una
escala de medición.

Si volvemos al ejemplo de la prueba t veremos


que existen supuestos sobre las distribuciones
poblacionales de la media muestral y del valor
de la media poblacional. En el caso de que uno
de sus supuestos no se cumpla, las técnicas
paramétricas (si no son robustas) generarán
34 resultados erróneos y por ende las
conclusiones de sus hipótesis serán inválidas.

Las técnicas estadísticas no paramétricas


ofrecen menor rigidez con respecto a sus
condiciones que las técnicas paramétricas,
aunque sacrificando para ello su potencia de
explicación. Son procedimientos estadísticos
que poseen ciertas propiedades bajo
supuestos generales y sin importar la población
de la cual los datos han sido obtenidos. La mayoría de las veces estos supuestos se
refieren, por ejemplo, a la simetría o continuidad de la distribución poblacional.

La inferencia no paramétrica constituye un campo muy amplio que va desde las


equivalencias no paramétricas de las pruebas paramétricas existentes hasta llegar a
las estimaciones de punto e intervalo de constantes poblacionales que no pueden ser
llevadas a modelos paramétricos por su complejidad (percentiles, deciles, etc.) El
rápido desarrollo de las técnicas no paramétricas ha sido en parte por las siguientes
razones:

• Las técnicas no paramétricas hacen supuestos muy generales respecto a la


distribución de probabilidad que siguen los datos. En particular, dejan de lado el
supuesto de normalidad en una población.

• Son aplicables cuando la teoría de normalidad no puede ser utilizada, por ejemplo
cuando no se trabaja con magnitudes de observaciones sino con sus rangos.
Prueba de los Signos

Se usa para hacer pruebas de hipótesis acerca de la mediana de una población de una
variable continua.

Ho: La Mediana poblacional es igual a un valor dado.

Ha: La mediana es menor (mayor ó distinta) del valor dado.

La prueba estadística está basada en la distribución Binomial con probabilidad de éxito p=½,
puesto que la probabilidad de que un dato sea mayor o menor que la mediana es ½.

Para calcularla se determinan las diferencias de los datos conrespecto al valor dado de la
mediana y se cuentan los signos positivos y negativos.

Se estudiarán las pruebas noparamétricas, las cuales no requieren asumir normalidad de la


población y que en su mayoría se basan en el ordenamiento de los datos.

Todas las pruebas vistas en este capítulo requieren que la población sea continua. El
parámetro que se usa para hacer las pruebas estadísticas es la Mediana y no la Media

Cuando la hipótesis alterna es "mayor que" y el número de diferencias positivas es mayor que
las diferencias negativas entonces, el "p-value" se calcula por

Donde c es el número de diferencias positivas y, n es igual al número de datos pero, si hay


datos de valor igual a la mediana que se asume en la hipótesis nula entonces, n es igual al
número de datos menos la cantidad de datos iguales a la mediana asumida, cuando el
número de diferencias positivas es menor que el número de diferencias negativas entonces el
"p-value " es igual a

Pruebas Noparamétricas para una sola muestra

Si la hipótesis alterna es "menor que" y el número de diferencias positivas es

mayor que el número de diferencias negativas entonces “p-value”= P2 en

caso contrario “p-value” = P1. Cuando la hipótesis alterna es de dos lados y el

número de diferencias positivas son mayores que el número de diferencias negativas


entonces el “p-value”= 2P2
, si hay menor número de diferencias positivas entonces “p-value”=2 P1 y si hay igual número
de diferencias positivas y negativas entonces, “p-value”=1.

Si n>20se puede usar aproximación Normal a una Binomial con p =q = 0.5, para calcular los
“p-values

”. Es decir,

Pruebas Noparamétricas para una sola muestra

La Prueba de Rangos con signos de Wilcoxon Es usada para hacer pruebas de hipótesis
acerca de la mediana.

La prueba estadística se basa en el estadístico de Wilcoxon (1945), el cual se calcula de la


siguiente manera: Se resta de cada dato el valor de la mediana que se considera en la
hipótesis nula. Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las
mismas ( o sea en valor absoluto). En el caso de haber empate se asigna un rango promedio
a todas las diferencias empatadas es decir; se les asigna el rango: (menor rango del grupo del
empate + mayor rango del grupo del empate)/2.

El estadístico W de Wilcoxon será la suma de los rangos correspondientes a las diferencias


positivas.

PRUEBA DE BONDAD DE AJUSTE

Hasta el momento se ha hablado de varios conceptos importantes en el estudio de la


estadística, como los estimadores y algunos métodos para encontrar el mejor estimador.

Ahora se hablará sobre las pruebas de bondad de ajuste, indicando algunas de las pruebas
principales y la distancia que tienen.

Dada

X ,X ,Xn

1 2 una muestra aleatoria con distribución F , un problema básico en estadística consiste


en encontrar un modelo que proporcione información de la procedencia de los datos. Por
ejemplo, supóngase que es de interés conocer hasta qué punto es razonable suponer que los
datos provienen de una cierta distribución F0 . Las pruebas estadísticas destinadas a la
resolución de este tipo de problemas son llamadas Pruebas de Bondad de Ajuste.
Definición de pruebas de bondaje y Ajuste:

Una prueba de bondad de ajuste es un procedimiento estadístico para probar la hipótesis de


que una función de distribución particular ajusta un conjunto de datos observados sin
especificar una prueba de hipótesis alternativa.

Sea X X Xn.

una muestra aleatoria de una función de densidad F (x) Xdonde donde ( ) 0 F x denota una

familia de distribuciones, no se cuenta con un criterio general para construirla.

Sin embargo, al revisar la literatura se observa que muchas pruebas se han obtenido con
base en alguno de los siguientes criterios.

Pruebas basadas en la función de distribución empírica

Estas pruebas están basadas en una comparación de la función de distribución empírica (f. d.
e.) con la f. d. teórica. La estadística de prueba es de la forma:

Donde d( F( x) F (x) n )es una función de distancia y F x, n denota la f. d. e. la


cual se

define como donde las i x ’s son una realización de la muestra aleatoria.


Un ejemplo se refiere a la estadística de Kolmogórov

Otro la estadística de Andrson-Darling

Las cuales fueron mencionadas en la sección 2.2.

La prueba de Kolmogórov-Smirnov es una de las pruebas no paramétricas más

Importantes, por tales razones se estudiarán detalladamente en el siguiente capítulo.

La distribución de alguna estadística de este tipo no depende de la distribución de F( x) .

Pruebas basadas en la función característica empírica

Sea 0 ( ) x la función característica (f. c.) de ( ) 0 F x y sea (x) n la f. c. empírica definida

Como

La estadística de este tipo de pruebas es de la forma

Pruebas basadas en momentos

Otro criterio para construir pruebas de bondad de ajuste consiste en comparar algunos
momentos poblacionales con los momentos muéstrales correspondientes. El k-ésimo
momento central de F( x) , k>0, se define como.
Ejemplo la estadística

A pesar de que los k-ésimos momentos de dos distribuciones distintas pueden ser iguales
para algunos valores de k, existen muchas pruebas basadas en este criterio.

Pruebas de correlación y regresión

Sea ( ) 0 F x una f. d. que depende únicamente de parámetros de localidad y escala, 0 2


y . Sea ( , , , ) 0 (1) (2) (n) X X X el vector de estadísticas de orden
correspondientes a la m. a. n X , X , , X 1 2 . Sea ( , , , ) 0 (1) (2) (n) Z Z Z una m.a.
ordenada de la f.d. ( ) 0 F x con parámetros 0 0 2 y y sean ( , , , ) 1 2 n m m m m
y ij V v el vector de medias y la matriz de covarianzas de 0 Z , respectivamente.

Entonces,
Una prueba de correlación compara dos estimadores de 2 . Un ejemplo de este tipo es la
prueba de Shapiro y Wilk (1965) para probar normalidad univariada cuya estadística de
prueba es

Para ciertas constantes a1, a2….an.

Una prueba de regresión consiste en medir la linealidad entre 0 X y m.

Pruebas basadas en caracterizaciones

Se dice que una propiedad caracteriza la distribución 0 F cuando dicha propiedad se cumple
si y solo si 0 F es verdadera.

Se dice que una prueba se basa en una caracterización de 0 F cuando se prueba que se
cumple la propiedad característica en lugar de probar directamente que secumple 0 F .

Técnica gráfica Q-Q, para una prueba de ajuste de distribuciones

Estas gráficas son de mucha utilidad para conocer la distribución de una población, la prueba
gráfica del ajuste de curvas se puede hacer de la siguiente forma.

1. En caso de tener una gran cantidad de datos, primeramente descomponemos en clases de


frecuencia y posteriormente trazamos un histograma de las clases, con el objetivo de
identificar una posible distribución de los datos según las distribuciones teóricas vistas en
probabilidad.

2. Se ordenan los datos x , x , , xn 1 2 en forma no decreciente, denotemos por n y y


y 1 2 al i y cuantil i n de la muestra, cuya fracción corresponde a la probabilidad
estimada para la variable X que representa a los datos y cuya distribución desconocemos.
4. Trazamos la gráfica entre los cuantiles teóricos ( n q ,q , ,q 1 2 ) y muestrales

( n y , y , , y 1 2 ), falta concluir si la distribución propuesta para X , con la que se calcularon


los cuantiles teóricos, es válida. La conclusión se basa en la gráfica cuantil (teórico eje de las
abscisas) contra cuantil (muestral eje de las ordenadas), si la gráfica se asemeja a una línea
recta, entonces se dice que los datos si provienen de la distribución teórica propuesta.

PRUEBA DE BONDAD DE AJUSTE CHI CUADRADO x2

El procedimiento de la prueba requiere una muestra aleatoria de tamaño n proveniente de la


población cuya distribución de probabilidad es desconocida. Esta observaciones se pueden
distribuir en k intervalos de clases y pueden ser representadas en histogramas.

La prueba se puede utilizar tanto para distribuciones discretas como para distribuciones
continuas

La prueba se puede sintetizar en los siguientes pasos.

1. Se colocan los n datos históricos (muéstrales) en una tabla de frecuencia de la


siguiente manera:

a. Se busca en cuantos intervalos de clases se puede distribuir los datos en estudio lo cual se
puede hacer m = n o alternativamente es muy común utilizar las encontrar el número de
intervalos se aplica la regla de sturges:

m =1+3,3 log n donde n es el número de datos.


b. Luego encontramos el rango el cual es la diferencia entre el mayor valor y el menor valor.

R=Xmax-Xmin

c. Amplitud de cada intervalo está dado por:

Númerodeint ervalos

Rango

A=

d. se obtienen las frecuencias observadas en cada intervalos se calcula la media, la varianza


y las desviación estándar.

2. Se propone una distribución de probabilidad una distribución de probabilidad de acuerdo


con la tabla de frecuencia o con la curva que muestre un histograma o polígono de
frecuencia.

2. Con la distribución propuesta, se calcula la frecuencia esperada para cada uno de los
intervalos (FEi) de la siguiente manera:
3.
Si la variable es continua se halla mediante la integración de la distribución propuesta y
luego se multiplica por el número total de datos.

Si la variable es continua se utiliza de modelo matemático de la distribución propuesta y se


evalúan todas las categorías y luego se multiplica por el número total de datos.

4. Se calcula el estadístico de prueba


Nota: El estadístico de prueba tiene distribución Chi cuadrado con, m-k-1 grados de libertad,
siempre que las frecuencias esperadas sean 5 o más para todas las categorías

5. Si el estimador C es menor o igual al valor correspondiente X2 con m-k-1 grados de


libertad (K= números de parámetros estimados de la distribución propuesta estimada por los
estadísticos muéstrales) y a un nivel de confiabilidad de 1-α, entonces no se puede rechazar
la hipótesis de que los datos siguen la distribución que se propuso.

DETERMINACIÓN DE LOS GRADOS DE LIBERTAD EN UNA PRUEBA

DE BONDAD DE AJUSTE.

Si queremos calcular el número apropiado de grados de libertad en una prueba de bondad de


ajuste chi cuadrado, contamos el números de clases ( representados por m) para los cuales
hemos comparados las frecuencias observadas y las esperadas, entonces aplicamos la regla
(m-1) y luego se resta un grado adicional de libertad para cada parámetro de la población
que tenga que ser estimado de los datos de la muestra. Debe notarse que esta regla es igual
a la que tenemos en el punto 5. m-k-1

RECOMENDACIONES IMPORTANTES

Un aspecto que debe notarse en la aplicación de este procedimiento de prueba es el


relacionado con la magnitud de las frecuencias esperadas. Si estas frecuencias son muy
pequeñas, entonces el estadístico x2 no reflejará el alejamiento entre lo observado y lo
esperado, si no solo la pequeña magnitud de las frecuencias esperadas. No hay ningún
acuerdo general con respecto al valor mínimo de las frecuencias esperadas, pero los valores
3, 4 y 5 son los que mas se utilizan como mínimos. Algunos autores sugieren que la
frecuencia esperada puede ser tan pequeña como 1 o 2, con tal que muchas de ellas sean
mayores que 5. Si se espera que una frecuencia sea demasiado pequeña, entonces puede
combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias
observadas correspondientes también se combinan, por lo que m debe disminuirse en uno.

No es necesario que los intervalos de clases tengan el mismo ancho.

La prueba de bondad de ajuste chi cuadrado tal vez nos sea el mejor procedimiento cuando
al variable es continua.

PRUEBA DE BONDAD DE AJUSTE DE KOLMOGOROV SMIRNOV

- Es aplicable solamente a variables aleatorias continuas

- Comparar la gráfica de la distribución empírica acumulada con la correspondiente gráfica de


la función de densidad acumulada de la distribución teórica propuesta.

-Si hay un acercamiento entre las gráficas existe una probabilidad de que la distribución
teórica se ajusta a los datos. El hecho de que utiliza la distribución de probabilidad
acumulada la hace un poco más eficiente que la prueba anterior

La metodología de la prueba es la siguiente:

1. Se colocan los n datos históricos en una tabla de frecuencias con m= n intervalos o


utilizando la formula de de Struges: K=1+3.3log n ; donde n es el número de datos de la
muestra.

1.1Encuentre la amplitud del intervalo de clase por medio de la siguiente

Relación

1.2 Para cada intervalo se tendrá la frecuencia observada i (FOi). Se calcula la media y la
varianza de los datos
2. Se encuentra la probabilidad observada (POi), dividiendo la frecuencia observada de cada
intervalo por el número total de datos.

3. Se calcula la probabilidad acumulada observada de cada intervalo (PAOi) del paso

4. Se propone una distribución de probabilidad de acuerdo con la forma de tabla de


frecuencia obtenida en 1. O con la grafica de los datos.

5. Con la función acumulada de la distribución propuesta, se calcula la probabilidad esperada


acumulada para cada intervalo (PEAi) mediante la integración de la distribución propuesta.

6. Se calcula la probabilidad acumulada (PAEi) para cada intervalo de clase.

7. Se calcula el valor absoluto entre la diferencia de PAO y PAE para cada intervalo y se
selecciona la máxima diferencia, llamándola MD.

8. El estimador MD se comporta con un valor limite correspondiente a la (tabla que contiene


los valores críticos de kolmogorov-Smirnov). Con n datos y a un nivel de confianza de 1−α .
Si el estimador MD es menor o igual al valor limite de la tabla, entonces se acepta ha
hipótesis de que la información histórica sigue la distribución propuesta.

BIBLIOGRAFÍA
Llinás Solano Humberto. Estadística Inferencial. Ediciones Uninorte. 2006. Walpole Ronald,
Myers Raymond, Myers Sharon. Probabilidad y estadística para ingenieros. Pearson
Educación. 1999

You might also like