Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

INSTITUTO UNIVERSITARIO DE LA FRONTERA
SEDE SAN CRISTBAL
PRUEBA DE HIPTESIS, DISTRIBUCIN

JI CUADRADA, ANLISIS DE REGRESIN
Y CORRELACIN LINEAL
JUAN CARLOS SALAS SANCHEZ

C.I. 17527362
4TO SEMESTRE DE INFORMATICA
ESTADISTICA PROBABILISTICA
PRUEBA DE HIPOTESIS
Afirmacin acerca de los parmetros de la poblacin.
Etapas Bsicas en Pruebas de Hiptesis.
Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en parmetro
poblacional.
Despus
de
recolectar
una muestra aleatoria,
se
compara
la estadstica muestral, as como la media (x), con el parmetro hipottico, se compara
con una supuesta media poblacional (). Despus se acepta o se rechaza el valor hipottico,
segn proceda. Se rechaza el valor hipottico slo si el resultado muestral resulta muy
poco probable cuando la hiptesis es cierta.
Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0) es el
valor hipottico del parmetro que se compra con el resultado muestral resulta muy poco
probable cuando la hiptesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del
5%, entonces se rechaza la hiptesis nula solamente si el resultado muestral es tan
diferente del valor hipottico que una diferencia de esa magnitud o mayor, pudiera
ocurrir aleatoria mente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la estadstica
muestral (el estimador no segado del parmetro que se prueba) o una versin
transformada de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de
una media poblacional, se toma la media de una muestra aleatoria de
esa distribucin normal, entonces es comn que se transforme la media en un valor z el
cual, a su vez, sirve como estadstica de prueba.
Consecuencias de las Decisiones en Pruebas de Hiptesis.
Decisiones Posibles
Situaciones Posibles
La hiptesis nula es La
verdadera
hiptesis
nula es
falsa
Aceptar la Hiptesis Nula
Se acepta correctamente
Error tipo II
Rechazar la Hiptesis Nula
Error tipo I
Se
rechaza
correctamente
Etapa 4.- Establecer el valor o valores crticos de la estadstica de prueba. Habiendo

especificado la hiptesis nula, el nivel de significancia y la estadstica de prueba que se van
a utilizar, se produce a establecer el o los valores crticos de estadstica de prueba. Puede
haber uno o ms de esos valores, dependiendo de si se va a realizar una prueba de uno o
dos extremos.
Etapa 5.- Determinar el valor real de la estadstica de prueba. Por ejemplo, al probar un
valor hipottico de la media poblacional, se toma una muestra aleatoria y se determina el
valor de la media muestral. Si el valor crtico que se establece es un valor de z, entonces se
transforma la media muestral en un valor de z.
Etapa 6.- Tomar la decisin. Se compara el valor observado de la estadstica muestral con
el valor (o valores) crticos de la estadstica de prueba. Despus se acepta o se rechaza la
hiptesis nula. Si se rechaza sta, se acepta la alternativa; a su vez, esta decisin tendr
efecto sobre otras decisiones de los administradores operativos, como por ejemplo,
mantener
o
no
un
estndar
de desempeo o
cul
de
dos estrategias demercadotecnia utilizar.
La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin
de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se
puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona
correctamente.
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en
la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no
se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del
tamao de la regin de rechazo.
PASOS DE LA PRUEBA DE HIPTESIS

1.
2.
3.
4.
5.
6.
Expresar la hiptesis nula
Expresar la hiptesis alternativa

Especificar el nivel de significanca
Determinar el tamao de la muestra
Establecer los valores crticos que establecen las regiones de rechazo de las de no
rechazo.
7. Determinar la prueba estadstica.
8. Coleccionar los datos y calcular el valor de la muestra de la prueba estadstica
apropiada.
9. Determinar si la prueba estadstica ha sido en la zona de rechazo a una de no rechazo.
10. Determinar la decisin estadstica.
11. Expresar la decisin estadstica en trminos del problema.
CONCEPTOS BSICOS PARA EL PROCEDIMIENTO DE

PRUEBAS DE HIPTESIS.
Hiptesis Estadstica:
Al intentar alcanzar una decisin, es til hacer hiptesis (o conjeturas) sobre la poblacin
aplicada.
Tales hiptesis, que pueden ser o no ciertas, se llaman hiptesis estadsticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
Hiptesis Nula.
En muchos casos formulamos una hiptesis estadstica con el nico propsito de
rechazarla o invalidarla. As, si queremos decidir si una moneda est trucada, formulamos
la hiptesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).
Analgicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos
la hiptesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia
observada se debe simplemente a fluctuaciones en el muestreo de la misma poblacin).
Tales hiptesis se suelen llamar hiptesis nula y se denotan por Ho.
Para todo tipo de investigacin en la que tenemos dos o ms grupos, se establecer una
hiptesis nula.
La hiptesis nula es aquella que nos dice que no existen diferencias significativas entre los
grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jvenes se somete
a un entrenamiento intensivo de natacin, stos sern mejores nadadores que aquellos
que no recibieron entrenamiento. Para demostrar su hiptesis toma al azar una muestra
de jvenes, y tambin al azar los distribuye en dos grupos: uno que llamaremos
experimental, el cual recibir entrenamiento, y otro que no recibir entrenamiento
alguno, al que llamaremos control. La hiptesis nula sealar que no hay diferencia en el
desempeo de la natacin entre el grupo de jvenes que recibi el entrenamiento y el que
no lo recibi.
Una hiptesis nula es importante por varias razones:
Es una hiptesis que se acepta o se rechaza segn el resultado de la investigacin.
El hecho de contar con una hiptesis nula ayuda a determinar si existe una diferencia
entre los grupos, si esta diferencia es significativa, y si no se debi al azar.
No toda investigacin precisa de formular hiptesis nula. Recordemos que la hiptesis
nula es aquella por la cual indicamos que la informacin a obtener es contraria a la
hiptesis de trabajo.
Al formular esta hiptesis, se pretende negar la variable independiente. Es decir, se
enuncia que la causa determinada como origen del problema flucta, por tanto, debe
rechazarse como tal.
Otro ejemplo:
Hiptesis: el aprendizaje de los nios se relaciona directamente con su edad.
Hiptesis Alternativa.
Toda hiptesis que difiere de una dada se llamar una hiptesis alternativa. Por ejemplo:
Si una hiptesis es p = 0,5, hiptesis alternativa podran ser p = 0,7, p " 0,5 p > 0,5.
Una hiptesis alternativa a la hiptesis nula se denotar por H1.
Al responder a un problema, es muy conveniente proponer otras hiptesis en que
aparezcan variables independientes distintas de las primeras que formulamos. Por tanto,
para no perder tiempo en bsquedas intiles, es necesario hallar diferentes hiptesis
alternativas como respuesta a un mismo problema y elegir entre ellas cules y en qu
orden vamos a tratar su comprobacin.
Las hiptesis, naturalmente, sern diferentes segn el tipo de investigacin que se est
realizando. En los estudios exploratorios, a veces, el objetivo de la investigacin podr ser
simplemente el de obtener los mnimos conocimientos que permitan formular una
hiptesis. Tambin es aceptable que, en este caso, resulten poco precisas, como cuando
afirmamos que "existe algn tipo de problema social en tal grupo", o que los
planetas poseen algn tipo de atmsfera, sin especificar de qu elementos est
compuesto.
Los trabajos de ndole descriptiva generalmente presentan hiptesis del tipo "todos los X
poseen, en alguna medida, las caracterstica Y". Por ejemplo, podemos decir que todas las
naciones poseen algn comercio internacional, y dedicarnos a describir, cuantificando, las
relaciones comerciales entre ellas. Tambin podemos hacer afirmaciones del tipo "X
pertenece al tipo Y", como cuando decimos que una tecnologa es capital - intensiva. En
estos casos, describimos, clasificndolo, el objeto de nuestro inters, incluyndolo en un
tipo ideal complejo de orden superior.
Por ltimo, podemos construir hiptesis del tipo "X produce (o afecta) a Y", donde
estaremos en presencia de una relacin entre variables.
Errores de tipo I y de tipo II.
Si rechazamos una hiptesis cuando debiera ser aceptada, diremos que se ha cometido un
error de tipo I.
Por otra parte, si aceptamos una hiptesis que debiera ser rechazada, diremos que se
cometi un error de tipo II.
En ambos casos, se ha producido un juicio errneo.
Para que las reglas de decisin (o no contraste de hiptesis) sean buenos, deben disearse
de modo que minimicen los errores de la decisin; y no es una cuestin sencilla, porque
para cualquier tamao de la muestra, un intento de disminuir un tipo de error suele ir
acompaado de un crecimiento del otro tipo. En la prctica, un tipo de error puede ser
ms grave que el otro, y debe alcanzarse un compromiso que disminuya el error ms
grave.
La nica forma de disminuir ambos a la vez es aumentar el tamao de la muestra que no
siempre es posible.
Niveles de Significacin.
Al contrastar una cierta hiptesis, la mxima probabilidad con la que estamos dispuesto a
correr el riesgo de cometern error de tipo I, se llama nivel de significacin.
Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la muestra,
de manera que los resultados obtenidos no influyan en nuestra eleccin.
En la prctica, es frecuente un nivel de significacin de 0,05 0,01, si bien se une otros
valores. Si por ejemplo se escoge el nivel de significacin 0,05 ( 5%) al disear una regla
de decisin, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la
hiptesis cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de
que hemos adoptado la decisin correcta. En tal caso decimos que la hiptesis ha sido
rechazada al nivel de significacin 0,05, lo cual quiere decir que tal hiptesis tiene una
probabilidad 0,05 de ser falsa.
Prueba de Uno y Dos Extremos.
Cuando estudiamos ambos valores estadsticos es decir, ambos lados de la media lo
llamamos prueba de uno y dos extremos o contraste de una y dos colas.
Con frecuencia no obstante, estaremos interesados tan slo en valores extremos a un lado
de la media (o sea, en uno de los extremos de la distribucin), tal como sucede cuando se
contrasta la hiptesis de que un proceso es mejor que otro (lo cual no es lo mismo que
contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman
unilaterales, o de un extremo. En tales situaciones, la regin crtica es una regin situada a
un lado de la distribucin, con rea igual al nivel de significacin.
Curva Caracterstica Operativa Y Curva De Potencia
Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de significancia. Es
posible evitar el riesgo de cometer el error tipo II simplemente no aceptando nunca la
hiptesis, pero en muchas aplicaciones prcticas esto es inviable. En tales casos, se suele
recurrir a curvas caractersticas de operacin o curvas de potencia que son grficos que
muestran las probabilidades de error de tipo II bajo diversas hiptesis. Proporcionan
indicaciones de hasta que punto un test dado nos permitir evitar un error de tipo II; es
decir, nos indicarn la potencia de un test a la hora de prevenir decisiones errneas. Son
tiles en el diseo de experimentos por que sugieren entre otras cosas el tamao de
muestra a manejar.
Pruebas de hiptesis para la media y proporciones
Debido a la dificultad de explicar este tema se enfocar un problema basado en un estudio
en una fbrica de llantas.
En este problema la fbrica de llantas tiene dos turnos de operarios, turno de da y turno
mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por cada turno para
ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas:
1.- Es la duracin promedio de las llantas producidas en el turno de da igual a 25 000
millas?
2.- Es la duracin promedio de las llantas producidas en el turno mixto menor de 25 000
millas?
3.- Se revienta ms de un 8% de las llantas producidas por el turno de da antes de las 10

000 millas?
Prueba De Hiptesis Para La Media
En la fbrica de llantas la hiptesis nula y alternativa para el problema se plantearon como
sigue:
Ho: = 25 000
H1: 25 000
Si se considera la desviacin estndar las llantas producidas en el turno de da, entonces,

con base en el teorema de limite central, la distribucin en el muestreo de la media
seguira la distribucin normal, y la prueba estadstica que est basada en la diferencia
entre la media de la muestra y la media hipottica se encontrara como sigue:
Para ver el grfico seleccione la opcin "Descargar" del men superior
Si el tamao de la regin de rechazo se estableciera en 5% entonces se podran
determinar los valores crticos de la distribucin. Dado que la regin de rechazo est
dividida en las dos colas de la distribucin, el 5% se divide en dos partes iguales de 2.5%.
Dado que ya se tiene la distribucin normal, los valores crticos se pueden expresar en
unidades de desviacin. Una regin de rechazo de 0.25 en cada cola de la distribucin
normal, da por resultado un rea de .475 entre la media hipottica y el valor crtico. Si se
busca est rea en la distribucin normal, se encuentra que los valores crticos que
dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96
Por tanto, la regla para decisin sera:

Rechazar Ho si Z > + 1.96
O si Z < - 1.96
De lo contrario, no rechazar Ho
No obstante, en la mayor parte de los casos se desconoce la desviacin estndar de la
poblacin. La desviacin estndar se estima al calcular S, la desviacin estndar de la
muestra. Si se supone que la poblacin es normal la distribucin en el muestreo de la
media seguira una distribucin t con n-1 grados de libertad. En la prctica, se a
encontrado que siempre y cuando el tamao de la muestra no sea muy pequeo y la
poblacin no este muy sesgada, la distribucin t da una buena aproximacin a la
distribucin de muestra de la media. La prueba estadstica para determinar la diferencia

entre la media de la muestra y la media de la poblacin cuando se utiliza la desviacin
estndar S de la muestra.
Para una muestra de 100, si se selecciona un nivel de significanca de .05, los valores
crticos de la distribucin t con 100-1= 99 grados de libertad se puede obtener como se
indica en la siguiente tabla:
Como esta prueba de dos colas, la regin de rechazo de .05 se vuelve a dividir en dos
partes iguales de .025 cada una. Con el uso de las tablas para t, los valores crticos son
1.984 y +1.984. La regla para la decisin es:
Rechazar Ho si >+1.984
O si - 1.984
De lo contrario, no rechazar Ho
Los resultados de la muestra para el turno de da fueron

=25 430 millas,
=4 000
millas y = 100. Puesto que se est probando si la media es diferente a 25 000 millas, se
tiene con la ecuacin
Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.
Por ello, la de cisin de no rechazar la hiptesis nula Ho. En conclusin es que la duracin
promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error
de tipo II, este enunciado se puede redactar como "no hay pruebas de que la duracin
promedio de las llantas sea diferente a 25 000 millas en las llantas producidas en el turno
de da".
Prueba De Hiptesis Para Proporciones
El concepto de prueba de hiptesis se puede utilizar para probar hiptesis en relacin con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fbrica de llantas
quera determinar la proporcin de llantas que se reventaban antes de 10,000 millas. Este
es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en
cuanto a la proporcin de los valores que tienen una caracterstica particular.
El gerente de la fbrica de llantas quiere que la calidad de llantas producidas, sea lo
bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si ms de un 8%
de las llantas se revientan antes de las 10,000 millas, se llegara a concluir que el proceso
no funciona correctamente. La hiptesis nula y alternativa se pueden expresar como
sigue:
Ho: p .08 (funciona correctamente)

H1: p > .08 (no funciona correctamente)
La prueba estadstica se puede expresar en trminos de la proporcin de xitos como

sigue:
En donde
p = proporcin de xitos de la hiptesis nula
Ahora se determinar si el proceso funciona correctamente para las llantas producidas
para el turno de da. Los resultados del turno de da ndican que cinco llantas en una
muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona
un nivel de significanca de .05, las regiones de rechazo y no rechazo se estableceran
como a continuacin se muestra:
Y la regla de decisin sera:
Z -1.107 < + 1.645; por tanto no rechazar Ho.
La hiptesis nula no se rechazara por que la prueba estadstica no ha cado en la regin de
rechazo. Se llegara a la conclusin de que no hay pruebas de que ms del 8% de las
llantas producidas en el turno de da se revienten antes de 10,000 millas. El gerente no ha
encontrado ninguna prueba de que ocurra un nmero excesivo de reventones en las
llantas producidas en el turno de da.
http://cosmech.tripod.com/index.htm
Pruebas de Hiptesis
Una hiptesis estadstica es una suposicin hecha con respecto a la funcin de distribucin
de una variable aleatoria.
Para establecer la verdad o falsedad de una hiptesis estadstica con certeza total, ser
necesario examinar toda la poblacin. En la mayora de las situaciones reales no es posible
o practico efectuar este examen, y el camino ms aconsejable es tomar una muestra
aleatoria de la poblacin y en base a ella, decidir si la hiptesis es verdadera o falsa.
En la prueba de una hiptesis estadstica, es costumbre declarar la hiptesis como
verdadera si la probabilidad calculada excede el valor tabular llamado el nivel de
significacin y se declara falsa si la probabilidad calculada es menor que el valor tabular.
La prueba a realizar depender del tamao de las muestras, de la homogeneidad de las
varianzas y de la dependencia o no de las variables.
Si las muestras a probar involucran a ms de 30 observaciones, se aplicar la prueba de Z,
si las muestras a evaluar involucran un nmero de observaciones menor o igual que 30 se
emplea la prueba de t de student. La frmula de clculo depende de si las varianzas son
homogneas o heterogneas, si el nmero de observaciones es igual o diferente, o si son

variables dependientes.
Para determinar la homogeneidad de las varianzas se toma la varianza mayor y se divide
por la menor, este resultado es un estimado de la F de Fisher. Luego se busca en la tabla
de F usando como numerador los grados de libertad (n-1) de la varianza mayor y como
denominador (n-1) de la varianza menor para encontrar la F de Fisher tabular. Si la F
estimada es menor que la F tabular se declara que las varianzas son homogneas. Si por el
contrario, se declaran las varianzas heterogneas. Cuando son variables dependientes (el
valor de una depende del valor de la otra), se emplea la tcnica de pruebas pareadas.
Como en general estas pruebas se aplican a dos muestras, se denominarn a y b para
referirse a ellas, as entenderemos por:
na al nmero de elementos de la muestra a
nb al nmero de elementos de la muestra b
xb al promedio de la muestra b
s2a la varianza de la muestra a
Y as sucesivamente
Entonces se pueden distinguir 6 casos a saber:
1. Caso de muestras grandes (n>30)
2. Caso de na = nb y s2a = s2b
3. Caso de na = nb y s2a <> s2b
4. Caso de na <> nb y s2a = s2b
5. Caso de na <> nb y s2a <> s2b
6. Caso de variables dependientes
1.-Cuando las muestras a probar involucran a ms de 30 observaciones.
Ejemplo:
La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una
desviacin estndar de 2.5 cm.; mientras que otras 50 palmas que no forman parte
del ensayo tienen media y desviacin estndar igual a 77.3 y 2.8 cm.
Se desea probar la hiptesis de que las palmas que participan en el ensayo son ms altas
que las otras.
Consultando el valor z de la tabla a 95% de probabilidad se tiene que es 1.96, por lo
consiguiente, el valor z calculado no fue mayor al valor de la tabla y entonces se declara la
prueba no significativa.
Conclusin: Las alturas promedio de los 2 grupos de palmas son iguales y la pequea
diferencia observada en favor al primer grupo se debe al azar.
2.-Caso de nmero igual de observaciones y varianzas homogneas.
Ejemplo:
Se plant cierto experimento en 24 parcelas para probar el efecto de la presencia o
ausencia de K en el rendimiento de palma.
Peso medio del racimo (Kg.)
n
a
b
a2
b2
1
20.0
24.0
400.00
576.00
24.0
28.0
576.00
784.00
21.0
25.0
441.00
625.00
22.0
25.0
484.00
625.00
23.0
27.0
529.00
729.00
24.0
27.5
576.00
756.25
22.5
28.0
506.25
784.00
22.0
26.0
484.00
576.00
21.5
26.0
462.25
676.00
10
20.0
24.5
400.00
600.25
11
22.0
26.5
484.00
702.25
12
24.0
28.5
576.00
812.25
Suma
266
316
5918.5
8346
Promedio 22.16
s2a
s2b
=
11
=
11
26.33
5918.5
8346
(266)2/12
(316)2/12
2.02
2.24
Se busca en la tabla de t de student con 2 (n-1) grados de libertad o sea 22, y se

encuentra que el valor tabular es de 2.074 al 95% de probabilidad, el cual es menor que la
t calculada y por lo tanto se declara la prueba significativa.
Conclusin: La diferencia entre promedios observados es atribuible al efecto de
tratamiento (K), por haberse conseguido un resultado significativo.
3.-Caso de igual nmero de observaciones y varianzas heterogneas.
Ejemplo:
Se plant cierto experimento en 24 parcelas con dos clases de semillas: semilla mezclada y
semilla DxP seleccionada. Se desea saber si el rendimiento observado por la semilla
seleccionada difiere a la otra.
Produccin de palma: TM/ha/ao
Para ver la tabla seleccione la opcin "Descargar" del men superior
s2a
=
1748.61
(144.5)2/12
=
0.78
11
s2b
=
4001.14
(216.2)2/12
=
9.63
11
Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201,
por lo tanto, la diferencia se declara significativa.
Conclusin: El rendimiento observado por las plantas de semilla seleccionada fue
significativamente superior a las otras.
4.-Caso de diferente nmero de observaciones y varianzas homogneas
Ejemplo:
Se tom una rea de terreno distribuida en 22 parcelas y a 13 de ellas se les aplic un
fertilizante nitrogenado para medir el efecto del N en el crecimiento.
rea foliar de la hoja # 17 en m2
s2a
968.93
(112.1)2/13
0.19
12
s2b
=
390.84
(59.2)2/9
=
0.18
8
s2c
=
12(0.19)
+
8(0.18)
=
0.19
20
Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201,
por lo tanto, la diferencia se declara significativa.
Conclusin: El rendimiento observado por las plantas de semilla seleccionada fue
significativamente superior a las otras.
Ejemplo:
Se tom una rea de terreno distribuida en 22 parcelas y a 13 de ellas se les aplic un
fertilizante nitrogenado para medir el efecto del N en el crecimiento.
rea foliar de la hoja # 17 en m2
s2a
968.93
(112.1)2/13
0.19
12
s2b
=
390.84
(59.2)2/9
=
0.18
8
s2c
=
12(0.19)
+
8(0.18)
=
0.19
20
Consultando la tabla con (na-1) + (nb-1) o sea (20) grados de libertad, se obtiene el valor
tabular de 2.086, el cual es menor que la t calculada, por lo tanto la diferencia se declara
significativa.
Conclusin: La diferencia detectada en estas dos muestras es atribuible a la aplicacin del
fertilizante nitrogenado.
5.- Caso de diferente nmero de observaciones y varianzas heterogneas.
En este caso, la tc es comparada con la tg (t generada), que a diferencia de los casos

anteriores, hay que calcularla.
Dnde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b
respectivamente
Ejemplo:
Se tomaron 2 muestras de palma comercial de orgenes diferentes y se midi el
porcentaje de almendra en el racimo en ambas muestras, el objeto es probar si las
muestras son diferentes genticamente o no.
Porcentaje de almendra
s2a
=
13
225.02
s2b
(53)2/14
192.26
(43.80)2/10
1.88
0.05
En este caso la t generada (tg), reemplaza la t de la tabla y como la tc es menor que la tg,
la diferencia se declara No significativa.
Conclusin: La diferencia observada entre promedios es atribuible nicamente a errores
de muestreo o variabilidad natural, y no a diferencias genticas.
6.-Caso de muestras pareadas (de variables dependientes)
En este caso, se asume que las muestras han sido distribuidas por pares.
Ejemplo: Se tomaron 12 foliolos de palma joven y a cada uno se le trat la mitad con
Benlate para medir la inhibicin del crecimiento de hongos.
Magnitud del dano
Sin Con
n Benlate Benlate D = X - Y D2
Consultando la tabla con n-1 grados de libertad se obtiene el valor tabular de 2.201, por
lo tanto, la diferencia se declara significativa.
Conclusin: De la prueba se desprende que el tratamiento con benlate redujo
significativamente la incidencia de hongos.
Utilidad de las hiptesis:
El uso y formulacin correcta de las hiptesis le permiten al investigador poner a prueba
aspectos de la realidad, disminuyendo la distorsin que pudieran producir sus propios
deseos o gustos. Pueden ser sometidas a prueba y demostrarse como probablemente
correctas o incorrectas sin que interfieran los valores o creencias del individuo.
DISTRIBUCION JI-CUADRADA (X2)

En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se
extraen todas las muestras posibles de una poblacin normal y a cada muestra se le
calcula su varianza, se obtendr la distribucin muestral de varianzas.
Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el
estadstico X2. Si se elige una muestra de tamao n de una poblacin normal con
varianza
, el estadstico:
tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1 grados de
libertad y se denota X2 (X es la minscula de la letra griega ji). El estadstico ji-cuadrada
esta dado por:
donde n es el tamao de la muestra, s2 la varianza muestral y

la varianza de la
poblacin de donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede dar
con la siguiente expresin:
PROPIEDADES DE LAS DISTRIBUCIONES JI-CUADRADA

1. Los valores de X2 son mayores o iguales que 0.
2. La forma de una distribucin X2 depende del gl=n-1. En consecuencia, hay un
nmero infinito de distribuciones X2.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se extienden a
la derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribucin X2 se da en el valor (n-3).
La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el
valor (n-3) = (gl-2).
La funcin de densidad de la distribucin X2 esta dada por:
para x>0
La tabla que se utilizar para estos apuntes es la del libro de probabilidad y estadstica de
Walpole, la cual da valores crticos
(gl) para veinte valores especiales de
. Para
denotar el valor crtico de una distribucin X2 con gl grados de libertad se usa el
smbolo
(gl); este valor crtico determina a su derecha un rea de
bajo la curva
2
2
X y sobre el eje horizontal. Por ejemplo para encontrar X 0.05(6) en la tabla se localiza 6 gl
en el lado izquierdo y
a o largo del lado superior de la misma tabla.
Clculo de Probabilidad
El clculo de probabilidad en una distribucin muestral de varianzas nos sirve para saber
como se va a comportar la varianza o desviacin estndar en una muestra que proviene
de una distribucin normal.
Ejemplos:
1. Suponga que los tiempos requeridos por un cierto autobs para alcanzar un de sus
destinos en una ciudad grande forman una distribucin normal con una desviacin
estndar
=1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la
probabilidad de que la varianza muestral sea mayor que 2.
Solucin:
Primero se encontrar el valor de ji-cuadrada correspondiente a s2=2 como sigue:
El valor de 32 se busca adentro de la tabla en el rengln de 16 grados de libertad y

se encuentra que a este valor le corresponde un rea a la derecha de 0.01. En
consecuencia, el valor de la probabilidad es P(s2>2)
2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de

una poblacin normal con varianza
, tenga una varianza muestral:
a. Mayor que 9.1
b. Entre 3.462 y 10.745
Solucin.
a. Primero se proceder a calcular el valor de la ji-cuadrada:
Al buscar este nmero en el rengln de 24 grados de libertad nos da un rea a la derecha

de 0.05. Por lo que la P(s2 >9.1) = 0.05
1. Se calcularn dos valores de ji-cuadrada:
y
Aqu se tienen que buscar los dos valores en el rengln de 24 grados de libertad. Al buscar
el valor de 13.846 se encuentra un rea a la derecha de 0.95. El valor de 42.98 da un rea
a la derecha de 0.01. Como se est pidiendo la probabilidad entre dos valores se resta el
rea de 0.95 menos 0.01 quedando 0.94.
Por lo tanto la P(3.462
s2
10.745) = 0.94
Estimacin de la Varianza
Para poder estimar la varianza de una poblacin normal se utilizar la distribucin jicuadrada.
Al despejar esta frmula la varianza poblacional nos queda:
Los valores de X2 dependern de nivel de confianza que se quiera al cual le

llamamos
. Si nos ubicamos en la grfica se tiene:
Ejemplos:
1. Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas de pasto
distribuidas por cierta compaa: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2
y 46. Encuentre un intervalo de confianza de 95% para la varianza de todos los
paquetes de semillas de pasto que distribuye esta compaa, suponga una
poblacin normal.
Solucin:
Primero se calcula la desviacin estndar de la muestra:
al elevar este resultado al cuadrado se obtiene la varianza de la muestra s 2= 0.286.

Para obtener un intervalo de confianza de 95% se elige un
= 0.05. Despus
con el uso de la tabla con 9 grados de libertad se obtienen los valores de X2.
Se puede observar en la grfica anterior que el valor de X2 corre en forma normal,

esto es de izquierda a derecha.
Por lo tanto, el intervalo de confianza de 95% para la varianza es:
Graficamente:
Se observa que la varianza corre en sentido contrario, pero esto es slo en la

grfica. La interpretacin quedara similar a nuestros temas anteriores referentes a
estimacin. Con un nivel de confianza del 95% se sabe que la varianza de la
poblacin de los pesos de los paquetes de semillas de pasto esta entre 0.135 y
0.935 decagramos al cuadrado.
2. En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la

variabilidad de los resultados que producen muestras estndar. En un estudio de la
cantidad de calcio en el agua potable, el cual se efecta como parte del control de
calidad, se analiz seis veces la misma muestra en el laboratorio en intervalos
aleatorios. Los seis resultados en partes por milln fueron 9.54, 9.61, 9.32, 9.48,
9.70 y 9.26. Estimar la varianza de los resultados de la poblacin para este
estndar, usando un nivel de confianza del 90%.
Solucin:
Al calcular la varianza de la muestra se obtiene un valor de s2= 0.0285.
Se busca en la tabla los valores correspondientes con 5 grados de libertad, obtenindose
dos resultados. Para X2(0.95,5)= 1.145 y para X2(0.0,5)= 11.07.
Entonces el intervalo de confianza esta dado por:
ANLISIS DE REGRESIN Y CORRELACIN LINEAL

Al trabajar con dos variables cuantitativas podemos estudiar la relacin que existe entre
ellas mediante la correlacin y la regresin. Aunque los clculos de ambas tcnicas pueden
ser similares en algunos aspectos e incluso dar resultados parecidos, no deben
confundirse. En la correlacin tan solo medimos la direccin y la fuerza de la asociacin de
una variable frente a la otra, pero nunca una relacin de causalidad. Solo cuando tenemos
una variable que es causa o depende de otra, podremos realizar entonces una regresin.
En este captulo estudiaremos dos de los coeficientes de correlacin ms utilizados, como
el coeficiente de Pearson y el coeficiente no paramtrico de Spearman. Tambin veremos
un ejemplo de regresin lineal simple y cmo se deben interpretar sus resultados.
Coeficiente de correlacin de Pearson (r)
Si tenemos dos variables cuantitativas y deseamos medir el grado de asociacin podemos
utilizar el coeficiente de correlacin de Pearson. En primer lugar, es muy aconsejable
realizar un grfico de dispersin entre ambas variables y estudiar visualmente la relacin
entre ellas. Este coeficiente mide asociacin lineal y al ser una prueba paramtrica
requiere para su uso que ambas variables tengan distribuciones normales1. De no ser as,
deberemos utilizar el coeficiente no paramtrico de Spearman.
El coeficiente de correlacin de Pearson (r) puede tomar valores entre -1 y +1, de modo
que un valor de "r" positivo nos indica que al aumentar el valor de una variable tambin
aumenta el valor de la otra (Figura 1A), y por el contrario, "r" ser negativo si al aumentar
el valor de una variable disminuye la otra (Figura 1B). La correlacin ser perfecta si r= 1,
en este caso los puntos formarn todos una recta. Es importante a priori determinar qu
valor de "r" vamos a considerar como clnicamente relevante, puesto que una correlacin
tan baja como r= 0,07 sera significativa (p=0,027) con un tamao muestral de unas 1000
personas. Al igual que cualquier otro parmetro, conviene darlo con sus correspondientes
intervalos de confianza. Un coeficiente de correlacin significativo, lo nico que nos indica
es que es bastante improbable que en nuestrapoblacin "r" sea cero, y por tanto su
intervalo de confianza no incluir el cero.
Figura 1. El coeficiente de correlacin de Pearson.
Coeficiente de correlacin no paramtrico de Spearman (rho)

Al igual que el coeficiente de Pearson, tambin podemos utilizarlo para medir el grado de
asociacin entre dos variables cuantitativas, sin embargo no es necesario que ambas
variables sean normales, e incluso lo podemos utilizar en variables ordinales. Como todas
las pruebas no paramtricas, este coeficiente se construye sustituyendo los valores de las
variables por sus rangos o posiciones, si los valores de las variables fuesen ordenados de
menor a mayor. Al contrario de otras pruebas no paramtricas, si permite construir
intervalos de confianza1.
La interpretacin de este coeficiente es muy similar al de Pearson, pudiendo alcanzar
valores de entre -1 y +1 indicando asociacin negativa o positiva respectivamente. Tanto
el coeficiente "r" de Pearson como el coeficiente rho de Spearman, son medidas
adimensionales por lo que no poseen unidades.
Usos incorrectos de los coeficientes de correlacin
Ambos coeficientes, tanto el de Pearson, como el de Spearman, requieren que las
observaciones sean independientes, por lo que no debemos aplicar una correlacin entre
dos variables en los que tuviramos medidos pacientes de forma repetida.
El encontrar una asociacin significativa no indica que una variable sea la causa y que la
otra el efecto. La correlacin nunca mide una relacin causa-efecto. Adems, no distingue
entre variable dependiente e independiente y por tanto la correlacin de la variable "x"

frente a la variable "y" es la misma que la de la variable "y" frente a "x" 1. Esto no sucede
as en la regresin.
Siempre hay que tener mucho cuidado con la interpretacin de un coeficiente de
correlacin puesto que otras variables, llamadas de confusin, pueden ser las causantes
reales de la asociacin. Esto sucede cuando dos variables independientes entre s
dependen ambas de una tercera. Por ejemplo est demostrado que en los nios, existe
una correlacin positiva entre el tamao del pie y su capacidad para sumar. Sin embargo
lo que en realidad sucede es que los nios con mayor pie, son tambin los de mayor edad
y por tanto los que mejor suman. Este tipo de correlaciones se denominan espreas o
engaosas y nos pueden llevar a conclusiones errneas.
Tambin hay que advertir a aquellos investigadores que tengan la tentacin de
correlacionar un nmero grande de variables cuantitativas con el nico objetivo de "a ver
si encuentro algo". Aparte de tener una difcil justificacin este modo de actuar, si
cruzramos solo 20 variables todas ellas independientes, tendramos hasta 190 pares de
variables en los que estudiar la correlacin, y slo por azar, es de esperar
aproximadamente unas 9 10 como significativas. Es decir, el 5% de las correlaciones
realizadas serian significativas con una p<0,05, cometiendo un error tipo I al afirmar que
hay asociacin cuando en realidad no la hay. Para evitarlo, podramos utilizar para cada p
la correccin de Bonferroni 2.
Tampoco debemos utilizar la correlacin para evaluar la concordancia entre dos medidas
cuantitativas, siendo aconsejables otros ndices como el coeficiente de correlacin
intraclase y otra serie de tcnicas.
Regresin lineal simple
Si deseamos estudiar la relacin entre dos variables cuantitativas y adems una de ellas
puede considerarse como variable dependiente o "respuesta" podemos considerar el uso
de la regresin lineal simple. Con la regresin, aparte de medir el grado de asociacin
entre las dos variables, podremos realizar predicciones de la variable dependiente.
Veamos un ejemplo de regresin lineal simple y cmo se interpretaran sus resultados.
Dependiendo del programa estadstico utilizado, pueden variar la cantidad
de informacin y el formato de las salidas, aunque los resultados van a ser los mismos as
como su interpretacin.
Supongamos que deseemos estudiar la asociacin entre el volumen mximo expirado en
el primer segundo de una expiracin forzada (FEV1) y la talla medida en centmetros de
un grupo de 170 adolescentes de edades comprendidas entre los 14 y los 18 aos (Tabla
I).
Tabla I. Ejemplo en 170 adolescentes.
N
FEV1 (litros)
Altura (cm.)
3,46
171
4,55
172
4,53
182
4,59
179
3,67
173
4,71
180
168
4,38
177
169
5,06
184
170
3,06
152
FEV1: Volumen espiratorio forzado en el primer segundo

En primer lugar debemos realizar un grfico de dispersin como el de la Figura 2A y
estudiar visualmente si la relacin entre nuestra variable dependiente (FEV1) y nuestra
variable independiente (talla) puede considerarse lineal 4. Por convenio, se coloca la
variable dependiente en el eje Y de las ordenadas y la variable independiente en el eje X
de las abscisas. Si no observamos un comportamiento lineal, debemos transformar la
variable dependiente o incluso replantearnos el tipo de anlisis, ya que es posible que la
relacin entre ambas variables en caso de existir, pueda no ser lineal.
En nuestro ejemplo, si parece cumplirse una relacin lineal entre FEV1 y la talla. Si
calculsemos el coeficiente de correlacin de pearson nos dara un resultado de 0,86
(IC95%: 0,82; 0,90), indicando que la asociacin es positiva y por tanto valores altos de
FEV1 se corresponden a su vez con valores altos de talla. Sin embargo slo con la
correlacin no tendramos la suficiente informacin si quisiramos hacer predicciones de
los valores de FEV1 en funcin de la talla.
El objetivo de la regresin lineal simple es encontrar la mejor recta de ajuste de entre
todas las posibles dentro de la nube de puntos de la Figura 2A. La mejor recta de ajuste
ser aquella que minimice las distancias verticales entre cada punto y la recta,
calculndose normalmente por el mtodo de "mnimos cuadrados" (Figura 2B) 1, 5. De
este modo conseguiremos una ecuacin para la recta de regresin de Y (variable
dependiente) en funcin de X (variable independiente) de la forma Y=a+bX. En nuestro
ejemplo, el problema radica en estimar a (constante de la recta) y b (pendiente de la
recta) de modo que podamos construir la ecuacin o recta de regresin: FEV1=a+bTalla
que minimice esas distancias.
Figura 2. Grfico de dispersin.
Cualquier programa estadstico nos debe dar al menos tres informaciones bsicas:
Valor de "R cuadrado": En la regresin lineal simple, se trata del coeficiente de correlacin
de Pearson elevado al cuadrado. Se le conoce por coeficiente de determinacin y siempre
ser un valor positivo entre 0 y 1. En nuestro ejemplo (Tabla I) la "R cuadrado" es de 0,75
lo cual significa que nuestra variable independiente (talla en cm) es capaz de explicar
hasta un 75% de la variabilidad observada en nuestra variable dependiente (FEV1).
ANOVA de la regresin: Se descompone por un lado, en la suma de cuadrados explicada
por la recta de regresin y por otro, en la suma de cuadrados no explicada por la
regresin, denominada residual. La suma de ambas es lo que se llama suma de cuadrados
totales. Por tanto, cuanto mayor sea la suma de cuadrados de la regresin respecto a la
residual, mayor porcentaje de variabilidad observada podemos explicar con nuestra recta
de regresin. Si la tabla presenta un resultado significativo (p<0,05) rechazaramos
la hiptesis nula que afirma que la pendiente de la recta de regresin es 0.
Coeficientes de la regresin: Los coeficientes estimados a (constante de la recta) y b
(pendiente de la recta) que en nuestro ejemplo sera FEV1 (litros)= -8,387 + 0,073*TALLA
(cm.) (Tabla II). En nuestra tabla, no solo aparecen los coeficientes, sino sus intervalos de
confianza, y adems el valor de "beta" que no es mas que el coeficiente b estandarizado y
que en la regresin lineal simple coincide con el coeficiente de correlacin de Pearson. El
valor positivo de b (0,073) nos indica el incremento de FEV1 por cada centmetro en la
talla. Para un adolescente de 170 cm. de altura podramos esperar un valor de FEV1 de
0,073*170-8,387 que dara como resultado 4,03.
Tabla II. Coeficientes estimados de la recta de regresin.
B
Beta
IC 95%
Constante (a) -8,387 0,552
<0,001
(-9,476; -7,298)
TALLA (b)
0,864
<0,001
(0,066; 0,079)
0,073
Error tp.
0,003
IC95%: Intervalo de confianza del 95%

Despus de realizar el anlisis hay que asegurarse de que no se violan las hiptesis en las
que se sustenta la regresin lineal: normalidad de la variable dependiente para cada valor
de la variable explicativa, independencia de las observaciones muestrales, y la misma
variabilidad de Y para cada valor de nuestra variable independiente5.
Toda esta informacin se puede extraer estudiando el comportamiento de los residuos, es
decir, la diferencia entre los valores observados y los pronosticados por nuestra recta de
regresin. La Figura 3A es un histograma de frecuencias en el que se han normalizado o
tipificado los residuos de modo que su media es 0 y su varianza 1. Como podemos
observar su distribucin es similar a una distribucin normal. Otro grfico muy interesante
es el de la Figura 3B, en el que se han colocado en el eje X los valores pronosticados por la
regresin ya tipificados y en el eje Y, los residuos tambin tipificados. Los puntos han de
situarse de forma aleatoria sin ningn patrn de comportamiento, porque en caso
contrario, es muy posible que estemos violando alguno de los supuestos de la regresin
lineal simple 1, 5.
Figura 3. Grfico de residuos.
Regresin lineal mltiple

La regresin lineal mltiple estima los coeficientes de la ecuacin lineal, con una o ms
variables independientes, que mejor prediga el valor de la variable dependiente. Por
ejemplo, se puede intentar predecir el total de facturacin lograda por servicios prestados
en una IPS cada mes (la variable dependiente) a partir de variables independientes tales
como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los aos de
antigedad en el sistema del usuario.
Mtodos de seleccin de variables en el anlisis de regresin lineal
La seleccin del mtodo permite especificar cmo se introducen las variables
independientes en el anlisis. Utilizando distintos mtodos se pueden construir
diversos modelos de regresin a partir del mismo conjunto de variables.
Para introducir las variables del bloque en un slo paso seleccione Introducir. Para
eliminar las variables del bloque en un solo paso, seleccione Eliminar. La seleccin de
variables Hacia adelante introduce las variables del bloque una a una basndose en los
criterios de entrada. La eliminacin de variables Hacia atrs introduce todas las variables
del bloque en un nico paso y despus las elimina una a una basndose en los criterios de
salida. La entrada y salida de variables mediante Pasos sucesivos examina las variables del
bloque en cada paso para introducirlas o excluirlas. Se trata de un procedimiento hacia
adelante por pasos.
Los valores de significacin de los resultados se basan en el ajuste de un nico modelo.
Por ello, estos valores no suele ser vlidos cuando se emplea un mtodo por pasos (Pasos
sucesivos, Hacia adelante o Hacia atrs).
Todas las variables deben superar el criterio de tolerancia para que puedan ser
introducidas en la ecuacin, independientemente del mtodo de entrada especificado. El
nivel de tolerancia por defecto es 0,0001. Tampoco se introduce una variable si esto
provoca que la tolerancia de otra ya presente en el modelo se site por debajo del criterio
de tolerancia.
Todas las variables independientes seleccionadas se aaden a un mismo modelo de
regresin. Sin embargo, puede especificar distintos mtodos de introduccin para
diferentes subconjuntos de variables. Por ejemplo, puede introducir en el modelo de

regresin un bloque de variables que utilice la seleccin por pasos sucesivos, y un segundo
bloque que emplee la seleccin hacia adelante. Para aadir al modelo de regresin un
segundo bloque de variables, pulse en Siguiente.
Regresin lineal: Consideraciones sobre los datos
Datos. Las variables dependientes e independientes deben ser cuantitativas. Las variables
categricas, como la religin, estudios principales o el lugar de residencia, han de
recodificarse como variables binarias (dummy) o como otros tipos de variables de
contraste.
Supuestos. Para cada valor de la variable independiente, la distribucin de la variable
dependiente debe ser normal. La varianza de distribucin de la variable dependiente debe
ser constante para todos los valores de la variable independiente. La relacin entre la
variable dependiente y cada variable independiente debe ser lineal y todas las
observaciones deben ser independientes.
Estadsticos. Para cada variable: nmero de casos vlidos, media y desviacin tpica. Para
cada modelo: coeficientes de regresin, matriz de correlaciones, correlaciones parciales y
semiparciales, R mltiple, R cuadrado, R cuadrado corregida, cambio en R cuadrado, error
tpico de la estimacin, tabla de anlisis de la varianza, valores pronosticados y residuos.
Adems, intervalos de confianza al 95% para cada coeficiente de regresin, matriz de
varianza-covarianza, factor de inflacin de la varianza, tolerancia, prueba de DurbinWatson, medidas de distancia (Mahalanobis, Cook y valores de influencia), DfBeta,
DfAjuste, intervalos de prediccin y diagnsticos por caso. Diagramas: diagramas de
dispersin, grficos parciales, histogramas y grficos de probabilidad normal.
Grficos. Los grficos pueden ayudar a validar los supuestos de normalidad, linealidad
e igualdad de las varianzas. Tambin son tiles para detectar valores atpicos,
observaciones poco usuales y casos de influencia. Tras guardarlos como nuevas variables,
dispondr en el Editor de datos de los valores pronosticados, los residuos y otros valores
diagnsticos, con los cuales podr poder crear grficos respecto a las variables
independientes. Se encuentran disponibles los siguientes grficos:
Diagramas de dispersin. Puede representar cualquier combinacin por parejas de la lista
siguiente: la variable dependiente, los valores pronosticados tipificados, los residuos
tipificados, los residuos eliminados, los valores pronosticados corregidos, los residuos
estudentizados o los residuos eliminados estudentizados. Represente los residuos
tipificados frente a los valores pronosticados tipificados para contrastar la linealidad y la
igualdad de las varianzas.
Generar todos los grficos parciales. Muestra los diagramas de dispersin de los residuos
de cada variable independiente y los residuos de la variable dependiente cuando se
regresan ambas variables por separado sobre las restantes variables independientes. En la
ecuacin debe haber al menos dos variables independientes para que se generen los
grficos parciales.
Grficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y

grficos de probabilidad normal que comparen la distribucin de los residuos tipificados
con una distribucin normal.
Mtodos dependientes
Anlisis De Regresin Lineal Mltiple
Conceptualmente, el FIVi (Factor de incremento de la varianza) es la proporcin de
variabilidad de la isima variable, que explican el resto de las variables independientes.
La tolerancia de una variable es la proporcin de variabilidad de la variable, que no se
explica por el resto de las variables independientes.
La tolerancia y el FIV son muy tiles en la construccin de modelos de regresin. Si
construimos un modelo paso a paso entrando las variables de una en una, es til conocer
la tolerancia o el FIV de las variables independientes ya entradas en la ecuacin. De esta
manera, las variables con mayor tolerancia son las que mayor informacin aportarn al
modelo.
Adems de la tolerancia y el FIV, debemos estudiar la matriz de correlaciones. Altas
correlaciones entre las variables implicadas en el modelo deben considerarse como
indicios de colinealidad.
Puede ocurrir que, aun siendo pequeas las correlaciones entre las variables exista
colinealidad. Supongamos que tenemos K variables independientes y construimos otra
que sea la media de los valores de las otras K variables, en este caso la colinealidad ser
completa, pero si K es grande, los coeficientes de correlacin sern pequeos. Por lo
tanto, el estudio de la matriz de correlaciones no es suficiente.
Una tcnica que cada vez se utiliza ms, aunque resulta algo sofisticada, es el anlisis de
los autovalores de la matriz de correlaciones o de la matriz del producto cruzado. A partir
de los autovalores, se puede calcular l indice de condicionamiento IC tanto global del
modelo como de cada variable.
El ndice de condicionamiento, es la raz cuadrada del cociente entre el mximo y el
mnimo autovalores. Si el IC es mayor que 30, existe colinealidad elevada, si el IC es mayor
que 10 y menor que 30, la colinealidad es moderada, si el IC es menor que 10, no existe
colinealidad.
Tambin es interesante el ndice de condicionamiento para cada variable Ici, que es la raz
cuadrada del cociente del mximo autovalor y el isimo autovalor. La varianza de cada
coeficiente de regresin, incluida la constante, puede ser descompuesta como la suma de
componentes asociadas a cada uno de los autovalores si el porcentaje de la varianza de
algunos coeficientes de correlacin se asocia con el mismo autovalor, hay evidencia de
colinealidad.
PASOS:
Identificar Xi, Y
Construr diagrama de dispersin
Estmar los parmetros del modelo.
Probar la signifcancia
Determinar la fuerza de la asociacin
Verificar la exactitud de la prediccin
Anlisis de residuales
Validacin cruzada del modelo
Regresin mltiple de variable ficticia [1]
La utilizacin de la regresin en la investigacin de mercados podra verse seriamente
limitada por el hecho de que las variables independientes deben presentarse en escalas
de intervalos. Afortunadamente, existe una forma de emplear variables independientes
nominales dentro de un contexto de regresin. El procedimiento recibe el nombre de
Regresin Mltiple de Variable Ficticia RMVF. Bsicamente RMVF convierte las variables
nominales en una serie de variables binarias que se codifican 0-1 por ejemplo, suponemos
que deseamos utilizar la variable nominal Sexo en una regresin. Podramos codificarla de
la siguiente manera:
CATEGORIA
CODIGO
Masculino
Femenino
El intervalo entre 0 y 1 es igual y, por tanto, aceptable en la regresin. Ntese que hemos
convertido una variable nominal de dos categoras en una variable 0-1 podemos extender
este enfoque a una variable nominal de mltiples categoras. La variable nominal de
cuatro categoras, rea de estudio, puede convertirse en tres variables ficticias, x1, x2, y x3
de la siguiente manera:
AREA
x1
X2
X3
Humanidades
Salud
Matemticas
C. Naturales
Esta variable nominal de cuatro categoras se convierte en K-1 categoras son 0 1, la Ksima categora se determina automticamente como 0 1. Crear una k-sima variable
ficticia sera redundante y, de hecho, invalidara toda la regresin. Es arbitraria la eleccin
de la categora en la cual todo equivale a cero.
Ntese que slo una de las variables x1, x2, x3 tomar el valor de 1 para
cualquier individuo y las otras dos X sern cero
R. Humano = a + b Humanidades + c Salud + d Matemticas + e C.Naturales
En una regresin podemos tener la cantidad de variables ficticias que sean necesarias,
sujetas a la restriccin de que cada variable ficticia utiliza un grado de libertad. Por lo
mismo, debemos contar con un tamao de muestra adecuado.
Regresin logstica
La regresin logstica resulta til para los casos en los que se desea predecir la presencia o
ausencia de una caracterstica o resultado segn los valores de un conjunto de variables
predictoras. Es similar a un modelo de regresin lineal pero est adaptado para modelos
en los que la variable dependiente es dicotmica. Los coeficientes de regresin logstica
pueden utilizarse para estimar la razn de las ventajas (odds ratio) de cada variable
independiente del modelo. La regresin logstica se puede aplicar a un rango ms amplio
de situaciones de investigacin que el anlisis discriminante.
Ejemplo. Qu caractersticas del estilo de vida son factores de riesgo de enfermedad
cardiovascular? Dada una muestra de pacientes a los que se mide la situacin de fumador,
dieta, ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular , se puede
construir un modelo utilizando las cuatro variables de estilo de vida para predecir la
presencia o ausencia de enfermedad cardiovascular en una muestra de pacientes. El
modelo puede utilizarse posteriormente para derivar estimaciones de la razn de las
ventajas para cada uno de los factores y as indicarle, por ejemplo, cunto ms probable
es que los fumadores desarrollen una enfermedad cardiovascular frente a los no
fumadores.
Datos. La variable dependiente debe ser dicotmica. Las variables independientes pueden
estar a nivel de intervalo o ser categricas; si son categricas, deben ser variables dummy
o estar codificadas como indicadores (existe una opcin en el procedimiento para
recodificar automticamente las variables categricas).
Supuestos. La regresin logstica no se basa en supuestos distribucionales en el mismo
sentido en que lo hace el anlisis discriminante. Sin embargo, la solucin puede ser ms
estable si los predictores tienen una distribucin normal multivariante. Adicionalmente, al
igual que con otras formas de regresin, la multicolinealidad entre los predictores puede
llevar a estimaciones sesgadas y a errores tpicos inflados . El procedimiento es ms eficaz
cuando la pertenencia a grupos es una variable categrica autntica; si la pertenencia al
grupo se basa en valores de una variable continua (por ejemplo "CI alto " en
contraposicin a "CI bajo"), deber considerar el utilizar la regresin lineal para
aprovechar la informacin mucho ms rica ofrecida por la propia variable continua.
Estadsticos. Para cada anlisis: Casos totales, Casos seleccionados, Casos vlidos. Para
cada variable categrica: codificacin de los parmetros. Para cada paso: variables
introducidas o eliminadas, historial de iteraciones, -2 log de la verosimilitud, bondad de
ajuste, estadstico de bondad de ajuste de Hosmer-Lemeshow, chi-cuadrado del modelo ,
chi-cuadrado de la mejora, tabla de clasificacin, correlaciones entre las variables, grfico
de las probabilidades pronosticadas y los grupos observados, chi-cuadrado residual. Para
cada variable de la ecuacin: Coeficiente (B), Error tpico de B, Estadstico de Wald, R,
Razn de las ventajas estimada (exp(B)), Intervalo de confianza para exp(B), Log de la
verosimilitud si el trmino se ha eliminado del modelo. Para cada variable que no est en
la ecuacin: Estadstico de puntuacin, R. Para cada caso: grupo observado, probabilidad
pronosticada, grupo pronosticado, residuo, residuo tipificado.
Mtodos. Puede estimar modelos utilizando la entrada en bloque de las variables o
cualquiera de los siguientes mtodos por pasos: Condicional hacia adelante, LR hacia
adelante, Wald hacia adelante, Condicional hacia atrs, LR hacia atrs o Wald hacia atrs.
Regresin logstica multinomial
La opcin Regresin logstica multinomial resulta til en aquellas situaciones en las que
desee poder clasificar a los sujetos segn los valores de un conjunto de variables
predictoras. Este tipo de regresin es similar a la regresin logstica, pero ms general, ya
que la variable dependiente no est restringida a dos categoras.
Datos. La variable dependiente debe ser categrica. Las variables independientes pueden
ser factores o covariables. En general, los factores deben ser variables categricas y las
covariables deben ser variables continuas

Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Uploaded by

Copyright:

Available Formats

INSTITUTO UNIVERSITARIO DE LA FRONTERA

SEDE SAN CRISTBAL

PRUEBA DE HIPTESIS, DISTRIBUCIN

JUAN CARLOS SALAS SANCHEZ

Rechazar la Hiptesis Nula

Etapa 4.- Establecer el valor o valores crticos de la estadstica de prueba. Habiendo

PASOS DE LA PRUEBA DE HIPTESIS

Expresar la hiptesis nula

Expresar la hiptesis alternativa

CONCEPTOS BSICOS PARA EL PROCEDIMIENTO DE

3.- Se revienta ms de un 8% de las llantas producidas por el turno de da antes de las 10

Si se considera la desviacin estndar las llantas producidas en el turno de da, entonces,

Por tanto, la regla para decisin sera:

distribucin de muestra de la media. La prueba estadstica para determinar la diferencia

Los resultados de la muestra para el turno de da fueron

Ho: p .08 (funciona correctamente)

La prueba estadstica se puede expresar en trminos de la proporcin de xitos como

homogneas o heterogneas, si el nmero de observaciones es igual o diferente, o si son

Se busca en la tabla de t de student con 2 (n-1) grados de libertad o sea 22, y se

En este caso, la tc es comparada con la tg (t generada), que a diferencia de los casos

DISTRIBUCION JI-CUADRADA (X2)

donde n es el tamao de la muestra, s2 la varianza muestral y

PROPIEDADES DE LAS DISTRIBUCIONES JI-CUADRADA

La funcin de densidad de la distribucin X2 esta dada por:

a o largo del lado superior de la misma tabla.

El valor de 32 se busca adentro de la tabla en el rengln de 16 grados de libertad y

2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de

Al buscar este nmero en el rengln de 24 grados de libertad nos da un rea a la derecha

1. Se calcularn dos valores de ji-cuadrada:

Al despejar esta frmula la varianza poblacional nos queda:

Los valores de X2 dependern de nivel de confianza que se quiera al cual le

. Si nos ubicamos en la grfica se tiene:

al elevar este resultado al cuadrado se obtiene la varianza de la muestra s 2= 0.286.

Se puede observar en la grfica anterior que el valor de X2 corre en forma normal,

Se observa que la varianza corre en sentido contrario, pero esto es slo en la

2. En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la

ANLISIS DE REGRESIN Y CORRELACIN LINEAL

Coeficiente de correlacin no paramtrico de Spearman (rho)

entre variable dependiente e independiente y por tanto la correlacin de la variable "x"

FEV1: Volumen espiratorio forzado en el primer segundo

Constante (a) -8,387 0,552

IC95%: Intervalo de confianza del 95%

Regresin lineal mltiple

diferentes subconjuntos de variables. Por ejemplo, puede introducir en el modelo de

Grficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y

You might also like