You are on page 1of 43

6.

Inferencia estadstica: Pruebas de significancia


Objetivo: Usar mtodos estadsticos para verificar
hiptesis tales como
Salud mental tiende a ser mejor para niveles ms
altos de status socioeconmico (SES) (un efecto)
Para tratar anorexia, terapias de comportamiento
cognitivo y familiar tienen el mismo efecto (no
efecto)

Hiptesis: Predicciones sobre la poblacin expresadas


en trminos de parmetros para ciertas variables.
Una prueba de significancia usa datos para resumir
evidencia sobre una hiptesis comparando
estimaciones muestrales de parmetros con valores
predichos por las hiptesis.
Respondemos a preguntas como, Si la hiptesis fuera
verdad, sera improbable obtener estimaciones como
las que obtuvimos?
2

Cinco partes de una prueba de significancia


1. Supuestos

sobre los tipos de datos (cuantitativos, categricos),


mtodos de muestreo (aleatorio),
distribucin de la poblacin (binaria, normal),
tamao de muestra (grande?)

2. Hiptesis
Hiptesis nula (H0): Afirmacin que parmetro(s) toma(n)
valor(es) determinado(s) (Generalmente: no efecto)
Hiptesis alternativa (Ha): establece que valores del
parmetro caen en algn rango alternativo de valores (un
efecto)

p.1 ejemplos?

3. Prueba estadstica: Compara datos con lo que la hip. Nula


H0 predice, a menudo encontrando el nmero de errores
estndar entre la estimacin muestral y el valor del
parmetro en H0
4. Valor-p (P): Una medida de probabilidad de evidencia
sobre H0, dando la probabilidad (bajo el supuesto de que
H0 es verdadera) que la estadstica de prueba sea igual al
valor observado o uno incluso un valor ms extremo en la
direccin predicha por Ha.

Entre ms pequeo el valor-p, ms fuerte la evidencia contra H0.

5. Conclusin:

Si no se necesita una decisin, reportar e interpretar el


valor-p
Si se necesita una decisin, seleccionar el punto de corte
(como 0.05 0.01) y rechazar H0 si el valor-p ese valor 4

5. Conclusin (continuacin)
El nivel mnimo ms comnmente aceptado es
0.05, y se dice que la prueba es significativa a un
nivel de 0.05 si el valor-p 0.05.
Si el valor-p no es lo suficientemente pequeo, no
rechazamos H0 (entonces, H0 es no
necesariamente verdardera, pero s plausible)
Proceso es anlago al sistema judicial Americano
H0: Acusado es inocente
Ha: Acusado es culpable
5

Prueba de significancia para la media


1. Supuestos: Aleatorizacin, variable cuantitativa,
distribucin de la poblacin normal
2. Hiptesis nula: H0: = 0 donde 0 es un valor
determinado para la media poblacional (tpicamente
no efecto o sin cambios del estndar)
Hiptesis alternativa: Ha: 0 (alternativa de doslados incluye ambos > y < valores de la nula)
3. Estadstica de prueba: El nmero de errores estndar
que la media muestral cae del valor de H0
y 0
t
se

where se s / n
6

Cuando H0 es verdadera, la dist. muestral de la estadstica


de prueba-t tiene una distribucin t con df = n - 1.
4. Valor-p: Bajo el supuesto que H0 es verdadera, la
probabilidad que la prueba estadstica sea igual al valor
observado o incluso un valor ms extremo (es decir, ms
grande en valor absoluto), provee ms fuerza en la
evidencia contra H0
Esta es una probabilidad de dos-colas, para una Ha de
dos-lados
5. Conclusin: Reportar e interpretar valor-p. Si es
necesario, tomar una decisin sobre H0.
7

Ejemplo: Estudio de anorexia (anteriormente visto)


Peso medido antes y despus del periodo de
tratamiento
y = peso al final peso al inicio
En captulos anteriores, encontramos IC para la media
poblacional de y con base en n=17 nias recibiendo
terapia familiar, con los datos
y = 11.4, 11.0, 5.5, 9.4, 13.6, -2.9, -0.1, 7.4, 21.5, -5.3,
-3.8, 13.4, 13.1, 9.0, 3.9, 5.7, 10.7

Hay evidencia de que la terapia familiar tenga un efecto?


Sea = media del cambio en peso poblacional
Probar H0: = 0 (no efecto) contra Ha: 0.
Datos tienen
--------------------------------------------------------------------------------------Variable
N
Mean
Std.Dev. Std. Error Mean
weight_change 17
7.265
7.157
1.736
----------------------------------------------------------------------------------------

Recordar que el error estndar (se) se obtiene con

se s / n 7.157 / 17 1.736
9

Prueba estadstica (df = 16):


y 0 7.265 0
t

4.2
se
1.736
Valor-p: P = 2P(t > 4.2) = 0.0007
Nota que tabla t (Tabla B, p. 593) nos dice que P(t > 3.686) =
0.001, entonces la prueba estadstica t = 3.686 ( -3.686)
tendra valor-p = 0.002

Interpretacin: Si H0 fuera verdadera, habra una probabilidad


= 0.0007 de obtener una media muestral de al menos 4.2
errores estndar del valor 0 de la nula.
Conclusin: Evidencia muy fuerte que la media poblacin difere
de 0. (Especficamente, parece que > 0, como fue sugerido
por el IC del 95% CI (3.6, 10.9) que econtramos en las notas del
Cap. 5)
10

Resultados de SPSS
One-Sample Statistics
N Mean Std. Deviation Std. Error Mean
weight_change
17 7.265
7.1574
1.7359

One-Sample Test
Test Value = 0
t df Sig. (2-tailed) Mean
95% Confidence
diff. Interval of the Difference
Lower
Upper
weight_change 4.185 16
.001
7.2647
3.58
10.945

11

Equivalencia entre los resultados de


la prueba de significancia y el intervalo de confianza
Cuando el valor-p 0.05 en una prueba de dos-lados,
un intervalo de confianza del 95% para no contiene el
valor de H0 de (tal como 0)
Cuando valor-p > 0.05 en una prueba de dos-lados, un
intervalo de confianza del 95% necesariamente
contiene el valor de H0 de
(Esto es cierto para pruebas de dos-lados)
Un intervalo de confianza tiene ms informacin acerca
del valore real de
12

Ejemplo
Asume media muestral = 7.265, s = 7.16,
basado en n = 4 (en lugar de n = 17)
Entonces,

se s / n 7.16 / 4 3.58
and t (7.265 0) / 3.58 2.0

con df = 3, tiene valor-p dos-lados = 0.14.


Evidencia no muy fuerte contral la hiptesis nula.
Es plausible que = 0.
Margen de error = 3.182(3.58) = 11.4, y un intervalo de
confianza del 95% es (-4.1, 18.7), el que contiene 0 (de
acuerdo con los resultados de la prueba)
13

Prueba de un-lado para la media


Ejemplo: Si el estudio predice que la terapia familiar
tiene un efecto positivo, podemos usar Ha: > 0
Datos apoyan esta hiptesis si t est lejos de la cola
derecha, entonces valor-p = probabilidad cola-derecha.
valor-p: P = P(t > 2.0) = 0.07 (para el caso n = 4)
Para Ha: < 0, valor-p = probabilidad cola-izquiera
valor-p: P = P(t < 2.0) = 0.93
En la prctica, pruebas de dos-colas son ms comunes
14

Tomando una decisin


El nivel- es un nmero fijo, tambin llamado nivel de
significancia, como
Si valor-p , se rechaza H0
Si valor-p > , no se rechaza H0
Nota: Decimos No se rechaza H0 en lugar de
Aceptar H0 porque el valor de H0 uno de todos los
valores plausibles.
Ejemplo (n = 4, dos-colas): Asume = 0.05. Ya que el
valor-p = 0.14, no se rechaza H0 . Pero 0 es slo un
valor en el rangos de valores posibles en el intervalo de
confianza del 95% (-4.1, 18.7).
15

Efecto del tamao de muestra en las pruebas


Con n grande (digamos, n > 30), no es importante el supuesto de
distribucin normal de la poblacin por el Teorema Central del
Lmite.
Para n pequea, las pruebas-t de dos-lados son robustas contra
violaciones de este supuesto. Pruebas de un-lado no son
robustas.
Para una media y desviacin estndar muestrales observados, a
mayor tamao de muesta n, ms grande la prueba estadstica
(porque el error estndar en el denominador es ms pequeo) y
ms pequeo el valor-p. (es decir, con ms datos tenemos ms
evidencia)
Estamos ms propensos a rechazar una H0 falsa cuando tenemos
un tamao de muestra ms grande (entonces a prueba tiene
ms poder)
Con un tamao de muestra grande n, significancia estadtica
no es igual a significancia prctica.
16

Ejemplo
Asume el estudio de anorexia tiene un cambio de peso
con
y 1.0, s 2.0, for n 400
Prueba

Then se 2.0 / 400 0.1,


t (1.0 0) / 0.1 10.0,
P value = 0.000000.......

IC del 95% es 1.0 1.96(0.1), (0.8, 1.2).


Esto muestra que el efecto es positivo, pero que es muy
pequeo para trminos prcticos.
17

Prueba de significancia para una proporcin


Supuestos:
Variable categrica
Aleatorizacin
Muesta grande (pero dos-lados ok para casi toda n)

Hiptesis:
Hiptesis nula: H0: 0
Hiptesis alternativa : Ha: 0 (dos-lados)
Ha: > 0
Ha: < 0 (un-lado)
Establecer las hiptesis antes de obtener los datos
18

Prueba estadstica:
z

Nota

0
0

0 (1 0 ) / n

se0 0 (1 0 ) / n , not se (1 ) / n as in a CI

Como en la prueba para la media, la prueba estadstica tiene la


forma
(estimacin del parmetro valor H0)/(error estndar)
= nm. de errores estndar del estimador del valor de H0
Valor-p:
Ha: 0 valor-p = prob. 2-colas de la dist. normal estndar
Ha: > 0 valor-p = prob. cola-derecha de la dist. normal est.
Ha: < 0 valor-p = prob. cola-izquierda de la dist. normal est.

Conclusin: Como en la prueba para la media (p.ej., rechazar H0


si valor-p )
19

Ejemplo: Pueden los perros oler cncer?


(British Medical Journal, Sept. 25, 2004)

En cada ensayo, una muestra de orina del cncer de


vejiga colocada entre seis muestras de control de la
orina
Los perros hacen una seleccin correcta, mejor que si
adivinaran al azar?

En 54 ensayos, los perros hace una seleccin correcta


22 veces.
Sea = probabilidad de acierto, para un determinado
ensayo
H0: = 1/7 (= 0.143, no efecto), Ha: > 1/7
Proporcin muestral = 22/54 = 0.407
20

Error estndar

se0 0 (1 0 ) / n (1/ 7)(6 / 7) / 54 0.0476

Prueba estadstica
z = (muesta nula)/se0 = [0.407 (1/7)]/0.0476 = 5.6
Valor-p = prob. cola derecha de la normal estndar
= 0.00000001
Esta es evidencia extremadamente fuerte que la
seleccin de los perros es mejor que adivinar
aleatoriamente (para la poblacin conceptual que
representa esta muestra

Para un punto de corte estndar de 0.05, rechazamos


H0 y concluimos que > 1/7.
21

Advertencia: como en la mayora de los estudios mdicos,


los sujetos fueron una muestra de conveniencia. No es
realista buscar una muestra aleatoria de pacientes de
cncer de vejiga o de perros para el experimento.
A pesar de que las muestras no son aleatorias, es
importante emplear la aleatorizacin en el experimento, en
la colocacin de la muestra de orina de pacientes de cncer
de vejiga entre las 6 muestras de control.

22

Decisiones en pruebas
Nivel- (nivel de significancia): Pre-especificado punto
de corte para rechazar H0 si el valor-p es menor a este
valor (tpicamente 0.05 0.01)
P-Value
.05
> .05

H0 Conclusion
Reject
Do not Reject

Ha Conclusion
Accept
Do not Accept

Regin de rechazo: Valores de la estadstica de prueba


para los que rechazamos la hiptesis nula
Para pruebas de dos-lados con = 0.05, rechazamos H0
si |z| 1.96
23

Tipos de errores
Error Tipo I: Rechazar H0 cuando es verdadera
Error Tipo II: No rechazar H0 cuando es falsa
Resultado
de la prueba
Estado
verdadero
H0 Verdadera
H0 Falsa

Rechazar H0

No rechazar H0

Error Tipo I

Correcto

Correcto

Error Tipo II

24

P(Error Tipo I)
Asume nivel- = 0.05. P(Error Tipo I) = P(rechazar nula,
dado que es verdadera) = P(|z| > 1.96) = 0.05
Es decir, nivel- es la P(Error Tipo I).
Dado que le damos es beneficio de la duda a la nula al
hacer esta prueba, por lo general se escoge pequea,
usualmente 0.05, se considera 0.01 es muy cauteloso para
no rechazar la nula cuando sea cierta.
Como en los ICs, no usamos demasiado pequea, ya que
a medida que disminuye, = P(Type II error) aumenta
(Piensa en la analoga a un juicio)
Es mejor reportar el valor-p que simplemente decir que
rechazamos H0
(Son valor-p = 0.049 y 0.051 muy diferentes?) (Ve ej. 6.24)
25

P(Error Tipo II)


P(Error tipo II) = depende del verdadero valor del
parmetro (del rango de valores en Ha ).
Entre ms lejos el valor verdadero del parmetro del
valor de la nula, ms fcil es rechazar la nula, y P(Error
tipo II) disminuye. (ver grfica de dist. nula y alternativa)
Poder de la prueba= 1 - = P(rechazar nula, dado que
es falsa)

En la prctica, queremos una n lo suficientemente


grande tal que P(Error tipo II) es pequea para el
tamao del efecto que esperamos.
26

Ejemplo: Probando nuevo tratamiento para anorexia


Para un nuevo tratamiento , esperamos el cambio en peso =
alrededor a 10 libras, con desv. est. de alrededor a 10. Si
nuestro estudio tendr n = 20, cul es P(Error tipo II) si
planeamos probar H0: = 0 contra Ha: > 0, usando =
0.05?

No rechazamos H0: = 0 si obtenemos valor-p > 0.05


Obtenemos valor-p = 0.05 si la prueba estadstica t = 1.729
(es decir, con df = 19, 0.05 es la prob. de la cola-derecha
arriba de 1.729, entonces la regin de rechazo incluye
valores de t > 1.729)
Con n = 20, esperamos un error estndar de

se 10 / 20 2.24

27

Obtenemos t = 1.729 si la media muestral es


1.729(2.24) = 3.87. Es decir, t = (3.87 0)/2.24 = 1.729.
As, obtenemos t < 1.729 y valor-p > 0.05 (y cometemos
un error Tipo II) si la media muestral < 3.87.

Pero, si en realidad = 10, una media muestral de 3.87


est (3.87 10)/2.24 = -2.74 errores estndar de
(es decir, 2.74 errores estndar abajo de = 10)
Cuando df = 19, la probabilidad de caer al menos 2.74
errores estndar abajo de la media es de 0.007. As,
existen muy poca posibilidad de un error tipo II.
Pero, si es en realidad slo 5? (ejercicio; > 0.007 or <
0.007?)
28

Limitaciones de pruebas de significancia


Significancia estadstica no implica significancia
prctica (Recuerda ejemplo en p. 17 de estas notas)
Pruebas de significancia no nos dan informacin sobre
el tamao del efecto (como lo hace el IC)

Algunas pruebas puede resultar ser estadsticamente


significativas slo por casualidad
(y algunas revistas slo reporta resultados
significativos!)

29

Ejemplo: Son muchos de los descubrimientos mdicos, en


realidad errores Tipo I?

Realidad: La mayora de estudios mdicos son nosignificativos, no se encuentra un efecto.

En investigacin mdica, cuando un efecto existe pero no es


fuerte, puede no ser detectado con los tamaos de muestra
prcticos para el estudio.
(Un artculo de British Medical Journal en 2001 estimat
que cuando un efecto realmente existe, P(Error tipo I) =
0.50!)
En estudios mdicos, asume que un efecto realmente existe
8% de las veces. Podra un porcentaje substancial de
descubrimientos mdicos (es decir, resultados
significativos) en realidad ser errores tipo I?
30

Solucin simple
Dibuja un diagrama de rbol para morstrar que esperararamos
que pasara con muchos estudios (digamos, 1000)

Verdadero
efecto?

Decisin
Rechazar nula?

S (40)
S (80) --------------|
No (40)
1000 estudios---|
S (46 = .05 x 920)
No (920) -----------|
No (874)
De los estudios con hiptesis nula rechazada, la tasa de error
Tipo I = 46/(46+40) = 0.53
31

Moraleja: S escptico cuando oirgas reportes de


nuevos avances mdicos.
Puede no ser un efecto real
(es decir, todo el estudio puede ser de tipo I!)

Si un efecto real existe, podemos estar viendo el


resultado en la cola-derecha de la distribucin muestral
de los posibles efectos de la muestra, y el efecto real
puede ser mucho ms dbil que el reportado.
(dibujo de lo que quiero decir con esto)
32

Caso real: Un estudio en 1993 estim que las inyecciones


de magnesio podran duplicar la posibilidad de
sobrevivir un ataque al corazn.
Un estudio ms grande de 58,000 pacientes de ataque
cardiaco no encontr ningn efecto en absoluto.

33

Imagen de Agresti and Franklin, Statistics: The Art and Science of


Learning from Data (p. 468)

34

La distribucin binomial
Si
Cada observacin es binaria (una de dos categoras)
Probabilidades para cada observ.: para categora 1
1 - para categora 2
Las observaciones son independientes, entonces para n
observaciones, el nmero x en la categora 1 tiene

n!
P( x)
x (1 ) n x , x 0,1,..., n
x !(n x)!
Esta puede ser usada para llevar a cabo pruebas sobre
cuando n es demasiado pequea para contar con mtodos
para muestras grandes (p.ej., cuando se espera que el
nmero de observaciones en cada categora < alrededor de
10)
35

Ejemplo: Ejercicio 6.33 (Percepcin extrasensorial)


Persona dice ser capaz de adivinar con frecuencia el resultado
de cara o cruz en la otra habitacin correctamente
= probabilidad de adivinar correctamence (en cualquier
lanzamiento)
H0: = 0.50 (adivinando al azar)
Ha: > 0.50 (mejor que adivinar al azar)
Experimento: n = 5 lanzamientos, x = 4 correctos. Encuentre
el valor-p, e interprtelo. (No se puede asumir que esta
propocin muestral tiene una dist. normal. Los conteos
esperados son 5(0.50) = 2.5 correctos, 2.5 incorrectos, que
son menos de 10; se necesita n 20 para usar TCL)
36

La distribucin binomial para n = 5, = 0.50


P(0)

n!
5!
x (1 ) n x
(0.50)0 (0.50)5 (0.50)5 1/ 32
x !(n x)!
0!5!

P(1)

n!
5!
x (1 )n x
(0.50)1 (0.50) 4 5(0.50)5 5 / 32
x !(n x)!
1!4!

P(2)

n!
5!
x (1 ) n x
(0.50) 2 (0.50)3 10(0.50)5 10 / 32
x !(n x)!
2!3!

5!
0.53 (1 0.5)2 10 / 32
3!2!
5!
P(4)
0.54 (1 0.5)1 5 / 32
4!1!
5!
P(5)
0.55 (1 0.5)0 1/ 32
5!0!
P(3)

37

Para Ha : > 0.50,


valor-p es la probabilidad del resultado observado o
uno incluso ms extremo en la cola-derecha
= P(4) + P(5) = 6/32 = 0.19
No hay mucha evidencia que apoye esta afirmacin
Necesitaramos observar x = 5 en n = 5 ensayos para
rechazar la nula a un nivel de 0.05
(Entonces, valor-p = 1/32 < 0.05)

38

Notas sobre la distribucin binomial


La binomial es la distribucin de probabilidad ms
importante para datos categricos
Se puede usar la binomial para encontrar prob. para
ejemplos en el Cap. 4 donde construimos dist.
muestrales para el nmero (o proporcin) que apoyan
al nuevo plan de sistema de salud con n = 4 personas
Dist. binomial para x = nmero en la categora 1 tiene
E( x) n , n (1 )
mientras que la proporcin muestral = x/n tiene

E( ) , (1 ) / n

39

Ejemplo
Resultados de una proporcin con n = 1000, = 0.50

x = nmero en la categora de inters tiene


E( x) n 1000(0.50) 500, n (1 ) 1000(0.50)(0.50) 15.8

proporcin en la categora de inters tiene


E( ) 0.50, (1 ) / n (0.50)(0.50) /1000 0.0158

El efecto de n? A medida que n aumenta, la dispersin


de la distribucin aumenta para el nmero, disminuye
para la proporcin. Se vuelve ms con forma de
campana a medida que n aumenta. Ver grficas en p.
171 .
40

Revisin de preguntas de pruebas de significancia


Una minora de Americanos cree que el matrimonio entre
personas del mismo sexo debe ser legal? Cul es la
hiptesis alternativa apropiada?
a.
b.
c.
d.
e.

Ha : 0.50
Ha : < 0.50
Ha : > 0.00
Ha : < 0.50
Ha : 0.50

41

Qu le pasa a la P(Error tipo II)


1. Cuando se disminuye la P(Error tipo I) de 0.05 a 0.01
para tomar una decisin?
2. Cuando la proporcin poblacional real se acerca al
valor de la hiptesis nula?
a. Disminuye
b. Aumenta
c. Permanece igual

42

Practiquemos con otro ejercicio (tarea opcional ej. 6.21)


Pregunta de opcin mltiple, 4 opciones. Prueba si la
probabilidad de una respuesta correcta es ms alta
que la que uno esperara si se adivinaran
aleatoriamente las respuestas.
a. Establece las hiptesis
b. Para 400 estudientes, 125 obtienen respuestas
correctas. Encuentra valor-p e interprtalo.

(respuesta: valor-p = 0.002)


43

You might also like