Professional Documents
Culture Documents
Inferencia estadı́stica
Tema 6. Inferencia. Parte II: contrastes de hipótesis
Contenidos
La hipótesis nula, H0
Define la hipótesis a contrastar.
Se asume inicialmente que la hipótesis nula es correcta (semejante a suponer
inocencia a menos que se pruebe la culpa).
Habitualmente corresponde al estatus quo.
Su definición matemática siempre contiene los sı́mbolos ’=’, ’≤’ o ’≥’ (conjunto
cerrado)
Puede ser rechazada como resultado del contraste, o no serlo
Hipótesis simples:
µ0 √0 σ02
z}|{ z}|{ z}|{
H0 : µ = 5 , H0 : p = 0.6 , H0 : σ 2 = 9 En general: H0 : θ = θ0
Espacio paramétrico asociado a esta hipótesis nula: Θ0 = {θ0 }
Hipótesis compuestas (especificadas mediante un rango de valores):
µ0 √0
z}|{ z}|{
H0 : µ ≤ 5 , H0 : p ≥ 0.6 En general: H0 : θ ≤ θ0 ó H0 : θ ≥ θ0
Espacio paramétrico asociado a esta hipótesis nula: Θ0 = (−∞, θ0 ] o Θ0 = [θ0 , ∞)
Bloque III/Tema 6) Matematicas III 6 / 82
Introducción: ¿Qué es un contraste de hipótesis?
Hipótesis alternativa, H1
Si la hipótesis nula no es válida, alguna alternativa debe ser correcta. Para realizar el
contraste, el investigador debe especificar una hipótesis alternativa frente a la que se
contrasta la hipótesis nula.
La hipótesis alternativa H1 :
Es la opuesta a la hipótesis nula.
Habitualmente confronta el estatus quo.
Su formulación matemática no contiene los sı́mbolos ’=’, ’≤’ o ’≥’
Puede ser soportada por los datos o no serlo
Habitualmente es la hipótesis por la que se inclina el investigador
Hipótesis unilaterales:
(cola derecha) H1 : µ > 5, (cola izquierda) H0 : p < 0.6
En general: H1 : θ > θ0 ó H1 : θ < θ0
Espacio paramétrico bajo esta alternativa: Θ1 = (θ0 , ∞) ó Θ1 = (−∞, θ0 )
Hipótesis bilaterales:
H1 : σ 2 6= 9 En general: H1 : θ 6= θ0
Espacio paramétrico bajo esta alternativa: Θ1 = (−∞, θ0 ) ∪ (θ0 , ∞)
Bloque III/Tema 6) Matematicas III 7 / 82
Introducción: ¿Qué es un contraste de hipótesis?
xyyxxxxyy
Afirmación: en promedio, los estudiantes miden menos de 1.6 m ⇒
Hipótesis: H0 : µ ≤ 1.60 frente a H1 : µ > 1.60
Se toma una MAS de alumnos:
yyxx
La media muestral es 1.65 m, x̄ = 1.65
¿Es extraño observar una media muestral igual a x̄ = 1.65 si la media de la
población es µ ≤ 1.60?
Si no es razonable, rechazamos la hipótesis nula en favor de la alternativa.
Situación actual
Decisión H0 correcta H0 incorrecta
No Sin error Error de Tipo II
Rechazar H0 (1 − α) (β)
Rechazar Error de Tipo I Sin error
H0 (α) (1 − β = potencia)
Una forma de proceder ante un problema con dos objetivos como es:
1 fijar el nivel de significación α, y
2 escoger el criterio que nos proporcione la mayor potencia posible β.
Este criterio está basado en un estadı́stico T (X1 , ..., Xn ) , denominado estadı́stico
del contraste.
Estadı́stico del Contraste
A partir de la muestra X1 , · · · , Xn , se define un estadı́stico T (X1 , · · · , Xn )
cuya distribución de probabilidad sea conocida cuando se asume como cierta
la hipótesis nula.
Dicho estadı́stico, recibe el nombre de Estadı́stico del Contraste y constituye
una medida de cuánto se acercan los resultados obtenidos en la muestra a la
hipótesis nula.
z
z }| {
X̄ −µ0
x̄ − µ0 x̄−µ0
Datos normales √ ∼ N(0, 1) z : < z1−α/2 o √ > zα/2
Varianza conocida σ/ n
√
σ/ n σ/ n
Datos no normales X̄ −µ0 x̄−µ0 x̄−µ0
Media √ ∼ap. N(0, 1) z : √ < z1−α/2 o √ > zα/2
Muestra grande σ̂/ n σ̂/ n σ̂/ n
Datos Bernoulli p̂−p0 p̂−p0 p̂−p0
p ∼ap. N(0, 1) z : p < z1−α/2 o p > zα/2
Muestra grande p0 (1−p0 )/n p0 (1−p0 )/n p0 (1−p0 )/n
t
z }| {
Datos normales X̄ −µ0
x̄ − µ0 x̄−µ0
Varianza descono- √ ∼ tn−1 t : √ < tn−1;1−α/2 o √ > tn−1;α/2
s/ n
s/ n s/ n
cida
χ2
z }| {
(n − 1)s 2
(n−1)s 2 (n−1)s 2
Varianza Datos normales ∼ χ2 χ2 : < χ2 o > χ2
σ2 n−1
σ2 n−1;1−α/2 σ2 n−1;α/2
0
0 0
( )
(n−1)s 2 (n−1)s 2 (n−1)s 2
Desv. Tı́p. Datos normales ∼ χ2 2
χ : <χ 2 o > χ 2
σ2 n−1 σ2 n−1;1−α/2 σ2 n−1;α/2
0 0 0
Contenidos
Contenidos
p-valor: ejemplo
Continuando con el problema de los pesos de los rodamientos fabricados en un proceso,
el parámetro de estudio es la media de la variable aleatoria
Se plantea el siguiente contraste de hipótesis para saber si hay evidencia estadı́ética para
aceptar que el peso difiere de 250 g.
µ0
z}|{
H0 : µ = 250 frente a H1 : µ > 250 (contraste unilateral)
El estadı́stico del contraste es:
X̄ − µ0
Z = √ ∼ N(0, 1)
σ/ n
Tras tomar una muestra de 16 rodamientos, el valor observado del estadı́stico es
z = 1.52.
El p-valor es:
El p-valor:
no es la probabilidad de H0 ni la del error de Tipo I, α;
se puede utilizar como un estadı́stico del contraste comparando su valor con el
de α (i.e. rechazar H0 si p-valor < α).
−e · p ln(p)
Pr(H0 |Observaciones) ≥ .
1 − e · p ln(p)
H 0 : θ = θ0 frente a H1 : θ 6= θ0
Contenidos
RR
●
RA
●
RR
− zα2 = − 1.645 zα2 = 1.645
Conclusión: Los datos muestrales no dan evidencia suficiente para dudar que la
mitad de los socios auditores piensen que el flujo de caja operacional es una
medida válida de rentabilidad.
Contenidos
µ0
z}|{
Objetivo: contrastar H0 : µ ≥ 20 frente a H1 : µ < 20 (contraste unilateral)
||
−2.015 −1.476
Conclusión: Los datos muestrales proporcionan suficiente evidencia para rechazar que el
incremento promedio de las ventas haya sido al menos del 20 %.
Interpretación del p-valor: si la hipótesis nula fuese cierta, la probabilidad de que
hubiésemos obtenido estos datos muestrales serı́a como máximo del 10 %, lo que es
bastante improbable, y por tanto rechazamos la hipótesis nula.
Bloque III/Tema 6) Matematicas III 34 / 82
Contrastes para una población Contrastes para la media de una población normal con σ desconocida
Ejemplo
El tiempo (en minutos) necesario para montar una unidad se puede aproximar
mediante una variable aleatoria con distribución normal.
Se realiza un estudio para saber si se puede aceptar que el tiempo de montaje
medio es mayor de 10 minutos, con un nivel de significación de 0.05.
Solución:
Sea X = tiempo necesario para montar una unidad, X ∼ N(µ, σ 2 ).
Como no tenemos datos sobre la varianza de la variable X , planteamos el
contraste:
H0 : µ ≤ 10 H1 : µ > 10
Ejemplo (cont.)
A continución se toma una muestra de 20 unidades seleccionadas aleatoriamente:
9.8 10.4 10.6 9.6 9.7 9.9 10.9 11.1 9.6 10.2 10.3 9.6 9.9 11.2
10.6 9.8 10.5 10.1 10.5 9.7
Como n = 20, x̄ = 10.2, s = 0.51,
x̄ − µ0 10.2 − 10
= = 1.753
√s 0.51
√
n 20
Además
tn−1,α = t19,0.05 = 1.729
y como
1.753 > 1.729,
el contraste resulta estadı́sticamente significativo, se rechaza la hipótesis nula y
podemos concluir que hay razones estadı́sticas suficientes al nivel 0.05 para
afirmar que la media del tiempo de montaje es mayor de 10 minutos.
Contenidos
σ02
z}|{
Objetivo: contrastar H0 : σ 2 ≤ 4 frente a H1 : σ 2 > 4 (contraste unilateral)
(n−1)s 2
Estadı́stico del contraste: χ2 = σ02
∼ χ2n−1
h i
χ2n−1,1−α/2 , χ2n−1,α/2 = χ217,0.975, χ217,0.025 = [7.564, 30.19]
Contenidos
Introducción
Contenidos
d1 = x1 − y1 , d2 = x2 − y2 , . . . , dn = xn − yn
D̄ − D0
Estadı́stico del contraste: T = √ ∼ tn−1
sD / n
142022−10(21)2
Muestra: n = 10, d¯ = 210
10 = 21 y sd2 = 10−1 = 1088
Valor observado del estadı́stico (para D0 = 0:
d¯ − D0 21
t= √ = √ = 2.014
sd / n 32.98/ 10
||
1.833 2.262
Por tanto, como p-valor < α = 0.05, rechazamos la hipótesis nula a este nivel.
Conclusión: La evidencia muestral apoya que en promedio la actividad cerebral es mayor
para el grupo con recuerdo fuerte que para el grupo con recuerdo débil. Si la actividad
cerebral promedio fuese igual para ambos grupos, la probabilidad de obtener muestras
tan extremas o más que la observada estarı́a entre 0.025 y 0.05 (un valor bajo).
Bloque III/Tema 6) Matematicas III 47 / 82
Contrastes para la diferencia entre dos medias: muestras pareadas
Ejemplo: cont.
También se puede construir un intervalo de confianza al 95 % para µX − µY .
sd sd
IC0.95 (µX − µY ) = d¯ − tn−1;0.025 √ , d¯ + tn−1;0.025 √
n n
32.98 32.98
= 21 − 2.262 √ , 21 + 2.262 √
10 10
= (−2.59, 44.59)
Ejemplo
Se quiere comparar el nivel de dopamina presente en el cerebro, antes y después
de la ingestión por ratas de una dosis de sustancia psicotrópica, para decidir si la
diferencia se puede considerar estadı́sticamente significativa.
Para ello, se plantea un contraste sobre la diferencia a un nivel del 95 %.
Solución
Como los datos están pareados, consideramos las diferencias:
D =X −Y
Asumimos D ∼ (µ, σ 2 ) y planteamos el contraste de hipótesis:
H0 : µ = 0
H1 : µ 6= 0
La región de rechazo es:
(
)
D̄ − µ
0
R=
s
> tn−1, 2
α
√n
Ejemplo (cont.)
|D̄ − µ0 | 5
= = 3.163
√s 3.535
√
n 5
Contenidos
Contenidos
Sea X una población con media µX y varianza σX2 , e Y otra población con
media µY y varianza σY2 .
Muestras aleatorias de n1 observaciones de X y n2 observaciones de Y ,
independientes, y
Bien tanto n1 como n2 son grandes y σX2 y σY2 son desconocidas,
O X e Y siguen distribuciones normales y σX2 y σY2 son conocidas
3.75
z }| {
Región de rechazo: RR0.0001 = {z : z > z0.0001 }
Valor observado del estadı́stico:
x̄ − ȳ 4.059 − 3.680
z= q = p = 3.95
2 2 0.8392 /186 + 0.9662 /172
sx /n1 + sy /n2
Contenidos
donde
n1 p̂X + n2 p̂Y
p̂0 =
n1 + n2
La región de rechazo (para un nivel de significación α) es:
RRα = {z : z < −zα/2 or z > zα/2 }
Bloque III/Tema 6) Matematicas III 60 / 82
Contrastes para dos muestras independientes Contrastes para la diferencia entre dos proporciones: muestras grandes independ
Contenidos
Consideremos:
X una población con media µX y varianza σX2 , e
Y otra población con media µY y varianza σY2
ambas distribuidas normalmente
con varianzas poblacionales desconocidas, pero iguales σ 2 = σX2 = σY2
Contenidos
Sea X una población con media µX y varianza σX2 , e Y otra población con
media µY y varianza σY2 ,
ambas distribuidas normalmente
Muestras aleatorias de n1 observaciones de X y n2 observaciones de Y ,
independientes.
Contraste bilateral H0 : σX2 = σY2 (= σ 2 ) frente a H1 : σX2 6= σY2
El estadı́stico del contraste es
sX2
F = ∼H0 Fn1 −1,n2 −1
sY2
La distribución F
X1 , X2 , . . . , Xn y Y1 , Y2 , Y3 , . . . , Ym son dos
conjuntos de variables aleatorias
independientes, con distribución N(0, 1). La
variable aleatoria (cociente de dos v.a.s
Densidades F
1.2
chi-cuadrado normalizadas)
1.0
1 Pn 2
i =1 Xi gl1=30 gl2=30
F = n1 Pm 2
i =1 Yi gl1=10 gl2=15
0.8
m
gl1=8 gl2=8
sigue una distribución Fn,m con n y m gl1=5 gl2=3
0.6
grados de libertad. Para el resultado de la
transparencia anterior:
0.4
χ2n1 −1
z }| {
2
0.2
1 (n 1 − 1)sX
sX2 n1 −1
σ2
= H ∼ Fn1 −1,n2 −1
sY2 0
(n2 − 1)sY2
0.0
1
n2 −1 2
| σ
0 2 4 6 8
{z }
χ2n2 −1
Bloque III/Tema 6) Matematicas III 72 / 82
Contrastes para dos muestras independientes Contrastes para el cociente de varianzas en poblaciones normales
F : 18.3 9.3 12.6 15.7 14.2 13.1 14.3 16.2 18.1 19.4 15.5 11.7
NF : 24.9 16 26.3 25.5 19.3 16.8 15.7 24.6 19.9 9.4 17.4
Ejemplo:(cont.)
La siguiente tabla presenta los resultados obtenidos en el experimento.
Réplicas Control Venlafaxina Diclofenaco Benzoilecgonina
1 0.196 0.040 0.243 0.161
2 0.237 0.055 0.083 0.208
3 0.247 0.052 0.176 0.209
4 0.206 0.035 0.054 0.160
5 0.239 0.051 0.024 0.200
6 0.225 0.060 0.160 0.226
¿Se pueden considerar tóxicas estas sustancias según estos datos, con un nivel de
significación α = 0.05?
Ejemplo:(cont.)
La siguiente tabla muestra las estadı́sticas de los datos anteriores
Estadı́stica Control Venlafaxina Diclofenaco Benzoilecgonina
x 0.22500 0.04889 0.12361 0.19400
s 0.02013 0.00943 0.08340 0.02730
s2 0.00041 0.00009 0.00696 0.00075
Para contestar a la pregunta es necesario realizar un contraste sobre diferencias de
medias, aunque al no tener información sobre las variantes, habrá que realizar un
contraste de diferencia de variantes previo.
Estadı́sticos pivotales
pX − pY = 0 Pobls. Bernoulli s
p̂X −p̂Y
∼H0 aprox N(0, 1)
Muestras grandes p̂0 (1−p̂0 ) 1 + 1
n1 n2
2
sX
σX2 /σY2 = 1 Pobls. normales ∼H0 Fn1 −1,n2 −1
s2
Y