You are on page 1of 236

Inferencia Estadística

1
Inferencia Estadística

¿Qué es estadística?

2
Inferencia Estadística

¿Qué es estadística?
• La ciencia utiliza modelos para describir
fenómenos.

3
Inferencia Estadística

¿Qué es estadística?
• La ciencia utiliza modelos para describir
fenómenos.
• Un modelo es una explicación teórica del
fenómeno objeto de estudio. Esta explicación
suele expresarse en forma verbal, muchas
veces mediante ecuaciones matemáticas.

4
Inferencia Estadística

¿Qué es estadística?
• La ciencia utiliza modelos para describir
fenómenos.
• Un modelo es una explicación teórica del
fenómeno objeto de estudio. Esta explicación
suele expresarse en forma verbal, muchas
veces mediante ecuaciones matemáticas.
• Existen modelos determinísticos y modelos
no determinísticos.

5
Inferencia Estadística

¿Qué es estadística?
• Modelo determinístico:

6
Inferencia Estadística

¿Qué es estadística?
• Modelo determinístico: Es posible conocer un
valor preciso de la variable de interés a partir
de otras.

7
Inferencia Estadística

¿Qué es estadística?
• Modelo determinístico: Es posible conocer un
valor preciso de la variable de interés a partir
de otras.
• Modelo no determinístico:

8
Inferencia Estadística

¿Qué es estadística?
• Modelo determinístico: Es posible conocer un
valor preciso de la variable de interés a partir
de otras.
• Modelo no determinístico: No es posible
determinar un valor preciso de la variable de
interés pues está presente la incertidumbre.

9
Inferencia Estadística

No determinísticos

10
Inferencia Estadística

No determinísticos

• Duración de la batería de litio de una laptop.

11
Inferencia Estadística

No determinísticos

• Duración de la batería de litio de una laptop.


• Cantidad de personas que compran con
tarjeta de crédito en una tienda en un período
determinado.

12
Inferencia Estadística

No determinísticos

• Duración de la batería de litio de una laptop.


• Cantidad de personas que compran con
tarjeta de crédito en una tienda en un período
determinado.
• Promedio de notas en los estudios
universitarios (conocido el promedio de notas
en secundaria).

13
Inferencia Estadística

¿Qué es estadística?
La Estadística nos enseña cómo realizar juicios
inteligentes y tomar decisiones en presencia de
incertidumbre.

Los métodos estadísticos están ideados para


permitir evaluar el grado de incertidumbre de
los resultados.

La Estadística se ocupa de modelos y


fenómenos no determinísticos.
14
Inferencia Estadística

¿Qué es estadística?
Asociado a modelos no determinísticos está el
concepto de probabilidad.

Existe la Estadística Descriptiva y la


Estadística Inferencial.

15
Inferencia Estadística

¿Qué es estadística?
Estadística Descriptiva:
Técnicas para describir o representar conjuntos
de datos (gráficos y cálculo de medidas
numéricas).

16
Inferencia Estadística

¿Qué es estadística?
Estadística Descriptiva:
Técnicas para describir o representar conjuntos
de datos (gráficos y cálculo de medidas
numéricas).

Estadística Inferencial:
Métodos para derivar conclusiones acerca de
un gran grupo de objetos al observar una parte
de ellos.
17
Inferencia Estadística

Población y muestra
POBLACIÓN:

Es todo conjunto de elementos, definido por una o más características, de


las que gozan todos los elementos que lo componen, y sólo ellos.

18
Inferencia Estadística

Población y muestra
POBLACIÓN:

Es todo conjunto de elementos, definido por una o más características, de


las que gozan todos los elementos que lo componen, y sólo ellos.
En muestreo, se entiende por población a la totalidad del universo que
interesa conocer, y que es necesario que esté bien definido para que se
sepa en todo momento qué elementos lo componen. Conviene recordar
que población es el conjunto de elementos a los cuales se quieren inferir
los resultados.

19
Inferencia Estadística

Población y muestra
MUESTRA:

En todas las ocasiones en que no es posible o conveniente realizar un


censo, lo que hacemos es trabajar con una muestra, entendiendo por tal
una parte representativa y adecuada de la población.

20
Inferencia Estadística

Población y muestra
MUESTRA:

En todas las ocasiones en que no es posible o conveniente realizar un


censo, lo que hacemos es trabajar con una muestra, entendiendo por tal
una parte representativa y adecuada de la población.
Para que una muestra sea representativa, y por lo tanto útil, debe de
reflejar las semejanzas y diferencias encontradas en la población,
ejemplificar las características y tendencias de la misma. Cuando decimos
que una muestra es representativa indicamos que reúne
aproximadamente las características de la población que son importantes
para la investigación.

21
Inferencia Estadística

Población y muestra
MUESTRA:

En todas las ocasiones en que no es posible o conveniente realizar un


censo, lo que hacemos es trabajar con una muestra, entendiendo por tal
una parte representativa y adecuada de la población.
Para que una muestra sea representativa, y por lo tanto útil, debe de
reflejar las semejanzas y diferencias encontradas en la población,
ejemplificar las características y tendencias de la misma. Cuando decimos
que una muestra es representativa indicamos que reúne
aproximadamente las características de la población que son importantes
para la investigación.
Cuando decimos que una muestra es adecuada, nos referimos a que
contiene el número de unidades de estudio, tal que permita aplicar
pruebas estadísticas que den validez a la inferencia de los resultados a la
población.
22
Inferencia Estadística

Ventajas del muestreo

23
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.

24
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.

25
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:

26
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.

27
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.

28
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.
c) Se puede dar más entrenamiento al personal.

29
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.
c) Se puede dar más entrenamiento al personal.
d) Menor probabilidad de cometer errores durante el
procesamiento de la información.

30
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.
c) Se puede dar más entrenamiento al personal.
d) Menor probabilidad de cometer errores durante el
procesamiento de la información.
• Factibilidad de hacer el estudio cuando la toma de datos implica
técnicas destructivas, por ejemplo:

31
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.
c) Se puede dar más entrenamiento al personal.
d) Menor probabilidad de cometer errores durante el
procesamiento de la información.
• Factibilidad de hacer el estudio cuando la toma de datos implica
técnicas destructivas, por ejemplo:
a) Pruebas de germinación.

32
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.
c) Se puede dar más entrenamiento al personal.
d) Menor probabilidad de cometer errores durante el
procesamiento de la información.
• Factibilidad de hacer el estudio cuando la toma de datos implica
técnicas destructivas, por ejemplo:
a) Pruebas de germinación.
b) Análisis de sangre.

33
Inferencia Estadística

Ventajas del muestreo


• Costos reducidos.
• Mayor rapidez para obtener resultados.
• Mayor exactitud o mejor calidad de la información debido a los
siguientes factores:
a) Volumen de trabajo reducido.
b) Puede existir mayor supervisión en el trabajo.
c) Se puede dar más entrenamiento al personal.
d) Menor probabilidad de cometer errores durante el
procesamiento de la información.
• Factibilidad de hacer el estudio cuando la toma de datos implica
técnicas destructivas, por ejemplo:
a) Pruebas de germinación.
b) Análisis de sangre.
c) Control de calidad.
34
Inferencia Estadística

Desventajas del muestreo

35
Inferencia Estadística

Desventajas del muestreo


• Siempre está presente el error de muestreo producto de la
variabilidad intrínseca de los elementos del universo, existen
diferencias entre las medidas muestrales (estadísticos) y los
parámetros poblacionales llamada Error de Muestreo.

36
Inferencia Estadística

Desventajas del muestreo


• Siempre está presente el error de muestreo producto de la
variabilidad intrínseca de los elementos del universo, existen
diferencias entre las medidas muestrales (estadísticos) y los
parámetros poblacionales llamada Error de Muestreo.
El término error no debe entenderse como sinónimo de
equivocación.

37
Inferencia Estadística

Desventajas del muestreo


• Siempre está presente el error de muestreo producto de la
variabilidad intrínseca de los elementos del universo, existen
diferencias entre las medidas muestrales (estadísticos) y los
parámetros poblacionales llamada Error de Muestreo.
El término error no debe entenderse como sinónimo de
equivocación.
También suelen introducirse errores por otras vías, los cuales se
denominan errores sistemáticos: Los cuales son:
- Imputables al observador.
- Imputables al método de observación o medición.
- Imputables a lo observado (unidad de muestreo).

38
Inferencia Estadística

Parámetro y estadístico

39
Inferencia Estadística

Parámetro y estadístico
PARAMETRO: Son las medidas o datos que se obtienen sobre la
población.

40
Inferencia Estadística

Parámetro y estadístico
PARAMETRO: Son las medidas o datos que se obtienen sobre la
población.

ESTADISTICO: Los datos o medidas que se obtienen sobre una


muestra y por lo tanto una estimación de los parámetros.

41
Inferencia Estadística

Parámetro y estadístico
PARAMETRO: Son las medidas o datos que se obtienen sobre la
población.

ESTADISTICO: Los datos o medidas que se obtienen sobre una


muestra y por lo tanto una estimación de los parámetros.

ERROR MUESTRAL, de estimación o standard: Es la diferencia


entre un estadístico y su parámetro correspondiente.

42
Inferencia Estadística

Tipos de muestreo

• PROBABILISTICO

• NO PROBABILISTICO

43
Inferencia Estadística

Muestreo probabilístico

44
Inferencia Estadística

Muestreo probabilístico
Los métodos de muestreo probabilístico son aquellos que se basan en el
principio de equiprobabilidad.

45
Inferencia Estadística

Muestreo probabilístico
Los métodos de muestreo probabilístico son aquellos que se basan en el
principio de equiprobabilidad.

Es decir, aquellos en los que todos los individuos tienen la misma


probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la
misma probabilidad de ser elegidas.

46
Inferencia Estadística

Muestreo probabilístico
Los métodos de muestreo probabilístico son aquellos que se basan en el
principio de equiprobabilidad.

Es decir, aquellos en los que todos los individuos tienen la misma


probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la
misma probabilidad de ser elegidas.

Sólo estos métodos de muestreo probabilístico nos aseguran la


representatividad de la muestra extraída y son, por tanto, los más
recomendables

47
Inferencia Estadística

Muestreo no probabilístico
A veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no probabilístico, aun
siendo conscientes de que no sirven para realizar generalizaciones, pues
no se tiene certeza de que la muestra extraída sea representativa, ya que
no todos los sujetos de la población tienen la misma probabilidad de se
elegidos.

48
Inferencia Estadística

Muestreo no probabilístico
A veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no probabilístico, aun
siendo conscientes de que no sirven para realizar generalizaciones, pues
no se tiene certeza de que la muestra extraída sea representativa, ya que
no todos los sujetos de la población tienen la misma probabilidad de se
elegidos.

En general se seleccionan a los sujetos siguiendo determinados criterios


procurando que la muestra sea representativa.

49
Inferencia Estadística

Métodos de muestreo probabilístico


• MUESTREO ALEATORIO SIMPLE

• MUESTREO ALEATORIO SISTEMÁTICO

• MUESTREO ALEATORIO ESTRATIFICADO

• MUESTREO ALEATORIO POR CONGLOMERADOS

50
Inferencia Estadística

Métodos de muestreo no probabilístico


• MUESTREO POR CUOTAS

• MUESTREO OPINÁTICO O INTENCIONAL

• MUESTREO CASUAL O INCIDENTAL

• BOLA DE NIEVE

51
Inferencia Estadística

EJERCICIO 1
Decida, para cada uno de los problemas siguientes, si es apropiado un estudio
estadístico o no. En caso afirmativo explique la razón de su respuesta e
identifique la población:

52
Inferencia Estadística

EJERCICIO 1
Decida, para cada uno de los problemas siguientes, si es apropiado un estudio
estadístico o no. En caso afirmativo explique la razón de su respuesta e
identifique la población:
1. Se investigará la opinión de 50000 trabajadores que se verán afectados por
el cambio de la jornada laboral tradicional, de ocho horas diarias durante
cinco días a la semana, a la de diez horas diarias por espacio de cuatro días
a la semana.

53
Inferencia Estadística

EJERCICIO 1
Decida, para cada uno de los problemas siguientes, si es apropiado un estudio
estadístico o no. En caso afirmativo explique la razón de su respuesta e
identifique la población:
1. Se investigará la opinión de 50000 trabajadores que se verán afectados por
el cambio de la jornada laboral tradicional, de ocho horas diarias durante
cinco días a la semana, a la de diez horas diarias por espacio de cuatro días
a la semana.
2. Un despacho de arquitectos debe presentar una cotización para un proyecto
de cableado. Están disponibles siete contratistas eléctricos para la tarea. Se
pretende determinar el costo promedio estimado del proyecto y el tiempo
promedio proyectado que se requeriría para que cualquiera de los
contratistas realice el proyecto.

54
Inferencia Estadística

EJERCICIO 1
Decida, para cada uno de los problemas siguientes, si es apropiado un estudio
estadístico o no. En caso afirmativo explique la razón de su respuesta e
identifique la población:
1. Se investigará la opinión de 50000 trabajadores que se verán afectados por
el cambio de la jornada laboral tradicional, de ocho horas diarias durante
cinco días a la semana, a la de diez horas diarias por espacio de cuatro días
a la semana.
2. Un despacho de arquitectos debe presentar una cotización para un proyecto
de cableado. Están disponibles siete contratistas eléctricos para la tarea. Se
pretende determinar el costo promedio estimado del proyecto y el tiempo
promedio proyectado que se requeriría para que cualquiera de los
contratistas realice el proyecto.
3. Un sistema de cómputo está conectado a cierto número de terminales
distantes. A fin de decidir si se aumenta dicho número o no, es necesario
estudiar la variable aleatoria X, el tiempo por sesión de cada usuario en las
terminales actualmente instaladas.
55
Inferencia Estadística

EJERCICIO 2
Se quiere estimar la cantidad de tiempo promedio que los profesores del INTEC
emplean calificando las tareas de cierta semana.
Describa una forma de obtener
a) Una muestra aleatoria simple
b) Una muestra sistemática
c) Una muestra estratificada

56
Distribuciones muestrales de
medias y de proporciones

57
Inferencia Estadística

Distribución muestral de medias

Considere la población 1, 3, 5, 7

Se desea obtener una muestra de tamaño 2,


mediante muestreo aleatorio simple, sin
reemplazamiento y sin importar el orden.

a) ¿Cuántas muestras posibles hay?


b) Encuentre la distribución muestral de medias.
c) Calcule la media de la población.
d) Calcule la media de todas las medias muestrales.
58
Inferencia Estadística

Distribución muestral de medias

Considere la población 1, 3, 5, 7

Se desea obtener una muestra de tamaño 2,


mediante muestreo aleatorio simple, con
reemplazamiento y se considera el orden.

a) ¿Cuántas muestras posibles hay?


b) Encuentre la distribución muestral de medias.
c) Calcule la media de todas las medias muestrales.

59
Inferencia Estadística

EJERCICIO 1

Una marca particular de jabón para lavadora de platos se


vende en tres tamaños: 25 oz, 40 oz y 65 oz. El 20% de
todos los compradores seleccionan la caja de 25 oz, el 50%
seleccionan una caja de 40 oz y el 30% restante selecciona
una caja de 65 oz.
Sean X1 y X2 los tamaños de paquete seleccionados por dos
compradores independientemente seleccionados. Determine
la distribución muestral de medias.

60
Inferencia Estadística

Teorema del límite central

Sea X1, X2, … Xn es una muestra aleatoria de una


distribución con media μ y varianza σ².
Entonces, si n es suficientemente grande, X tiene
aproximadamente una distribución normal con
μ =μ
X
σ
σ =
X √n
61
Inferencia Estadística

EJERCICIO 2

Se tiene un lote de 12 artículos, el cual tiene 4 defectuosos.


Se van a seleccionar 5 artículos al azar de ese lote sin
reemplazo. Genere la distribución muestral de proporciones
para el número de piezas defectuosas.

62
Estimación

63
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:

64
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:

• Estimar un parámetro desconocido

65
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:

• Estimar un parámetro desconocido


(ESTIMACION)

66
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:
Estimación
puntual
• Estimar un parámetro desconocido
(ESTIMACION)

67
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:
Estimación
puntual
• Estimar un parámetro desconocido
(ESTIMACION)
Estimación por
intervalos

68
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:
Estimación
puntual
• Estimar un parámetro desconocido
(ESTIMACION)
Estimación por
intervalos

• Verificar si el parámetro es o no igual a cierto valor

69
Inferencia Estadística

Estimación

En Inferencia Estadística, a través de una muestra se trata


de:
Estimación
puntual
• Estimar un parámetro desconocido
(ESTIMACION)
Estimación por
intervalos

• Verificar si el parámetro es o no igual a cierto valor


(PRUEBA DE HIPOTESIS)
70
Inferencia Estadística

Estimación

Para estimar el parámetro poblacional θ se utiliza el


estadístico θ.

71
Inferencia Estadística

Estimación

Para estimar el parámetro poblacional θ se utiliza el


estadístico θ.

Parámetro Estimador
Ejemplos μ x
σ² s²
σ s
p p

72
Inferencia Estadística

Estimación

El estimador no tiene que ser único.

73
Inferencia Estadística

Estimación

El estimador no tiene que ser único.


Por ejemplo, en una distribución simétrica, otro estimador
de μ es la mediana.

74
Inferencia Estadística

Estimación

El estimador no tiene que ser único.


Por ejemplo, en una distribución simétrica, otro estimador
de μ es la mediana.
Otro estimador pudiera ser la media 10% recortada.

75
Inferencia Estadística

Estimación

El estimador no tiene que ser único.


Por ejemplo, en una distribución simétrica, otro estimador
de μ es la mediana.
Otro estimador pudiera ser la media 10% recortada.
min + max
Y otro estimador podría ser
2

76
Inferencia Estadística

Estimación

El estimador no tiene que ser único.


Por ejemplo, en una distribución simétrica, otro estimador
de μ es la mediana.
Otro estimador pudiera ser la media 10% recortada.
min + max
Y otro estimador podría ser
2

En general se cumple que θ = θ + error de estimación


77
Inferencia Estadística

Propiedades de un buen estimador

78
Inferencia Estadística

Propiedades de un buen estimador

1. Ausencia de sesgo o imparcialidad, es decir, que sea


insesgado. Esto es E( θ ) = θ

79
Inferencia Estadística

Propiedades de un buen estimador

1. Ausencia de sesgo o imparcialidad, es decir, que sea


insesgado. Esto es E( θ ) = θ

2. Eficacia o eficiencia, esto significa que su varianza es


mínima.

80
Inferencia Estadística

Propiedades de un buen estimador

1. Ausencia de sesgo o imparcialidad, es decir, que sea


insesgado. Esto es E( θ ) = θ

2. Eficacia o eficiencia, esto significa que su varianza es


mínima.

3. Consistencia o coherencia. Un estimador es consistente


cuando su valor tiende a acercarse al correspondiente
valor del parámetro.

81
Inferencia Estadística

Propiedades de un buen estimador

1. Ausencia de sesgo o imparcialidad, es decir, que sea


insesgado. Esto es E( θ ) = θ

2. Eficacia o eficiencia, esto significa que su varianza es


mínima.

3. Consistencia o coherencia. Un estimador es consistente


cuando su valor tiende a acercarse al correspondiente
valor del parámetro.

4. Suficiencia, o sea, que agota toda la información sobre


el parámetro contenida en la muestra.
82
Inferencia Estadística

Propiedades de un buen estimador

La media muestral y la varianza corregida son


buenos estimadores de la media poblacional y la
varianza poblacional.

83
Intervalos de confianza para
la media poblacional

84
Inferencia Estadística

La estimación puntual, o sea, estimar un parámetro


a través de un único valor no es muy conveniente
pues con ella no se puede determinar el error de
muestreo, ni la precisión de la estimación, ni la
confianza que merece tal estimación.

85
Inferencia Estadística

Existen otros métodos para estimar parámetros


poblacionales, que son mucho más precisos.
Por ejemplo,

86
Inferencia Estadística

Existen otros métodos para estimar parámetros


poblacionales, que son mucho más precisos.
Por ejemplo,
• Método de los mínimos cuadrados

87
Inferencia Estadística

Existen otros métodos para estimar parámetros


poblacionales, que son mucho más precisos.
Por ejemplo,
• Método de los mínimos cuadrados
• Método de los momentos

88
Inferencia Estadística

Existen otros métodos para estimar parámetros


poblacionales, que son mucho más precisos.
Por ejemplo,
• Método de los mínimos cuadrados
• Método de los momentos
• Método de la máxima verosimilitud

89
Inferencia Estadística

Existen otros métodos para estimar parámetros


poblacionales, que son mucho más precisos.
Por ejemplo,
• Método de los mínimos cuadrados
• Método de los momentos
• Método de la máxima verosimilitud
• Método de estimación por intervalos de
confianza

90
Inferencia Estadística

Algunos conceptos

91
Inferencia Estadística

Algunos conceptos

α = probabilidad de que el intervalo NO incluya al


verdadero valor del parámetro.

92
Inferencia Estadística

Algunos conceptos

α = probabilidad de que el intervalo NO incluya al


verdadero valor del parámetro.

1 – α = probabilidad de que el intervalo incluya al


verdadero valor del parámetro
= nivel de confianza

93
Inferencia Estadística

Algunos conceptos

α = probabilidad de que el intervalo NO incluya al


verdadero valor del parámetro.

1 – α = probabilidad de que el intervalo incluya al


verdadero valor del parámetro
= nivel de confianza

Ejemplo: α = 5% = 0.05
1 – α = 95% = 0.95

94
Inferencia Estadística

Teorema del límite central

95
Inferencia Estadística

Teorema del límite central

Sea X1, X2, … Xn es una muestra aleatoria de una


distribución con media μ y varianza σ².
Entonces, si n es suficientemente grande, X tiene
aproximadamente una distribución normal con
μ =μ
X
σ
σ =
X √n
96
Inferencia Estadística

Tabla de la distribución normal estándar

97
Inferencia Estadística

Intervalo de confianza al 95%


(para la media μ siendo σ conocida)

σ σ
x - 1.96 ≤ μ ≤ x + 1.96
√n √n

98
Inferencia Estadística

Tabla de la distribución normal estándar

99
Inferencia Estadística

Algunos niveles de confianza

Nivel de confianza α Normal z


estándar
95% 0.95 0.05 0.975 1.96
97% 0.97 0.03 0.985 2.17
99% 0.99 0.01 0.995 2.58
90% 0.90 0.10 0.959 1.65

100
Inferencia Estadística

Ejercicio 1

Un grupo de investigadores en medicina desean estimar el


cambio medio de presión sanguínea por paciente en un
sanatorio. Se ha seleccionado una muestra al azar de 30
pacientes y se halló una media de 5 puls/seg. Los
investigadores saben que, según estudios anteriores, la
desviación estándar de los cambios de presión sanguínea
para todos los pacientes es de 3 puls/seg. Se desea estimar
el cambio medio de la presión sanguínea por paciente con
un intervalo del 95% de confianza, suponiendo que la
variable aleatoria “cambios de presión sanguínea” tiene una
distribución normal.
101
Inferencia Estadística

Intervalo de confianza al 95%


(para la media μ para σ desconocida)

s s
x - 1.96 ≤ μ ≤ x + 1.96
√n √n

Como generalmente la desviación estándar poblacional es


desconocida, se sustituye por la desviación estándar de la
muestra.

102
Inferencia Estadística

Ejercicio 2

Los siguientes datos son los puntajes obtenidos para 45


personas en una escala de depresión (mayor puntaje
significa mayor depresión).
2 5 6 8 8 9 9 10 11
11 11 13 13 14 14 14 14 14
14 15 15 16 16 16 16 16 16
16 16 17 17 17 18 18 18 19
19 19 19 19 19 19 19 20 20

Construir un intervalo de confianza para la depresión


promedio de la población a un nivel de confianza del 95%.
103
Intervalos de confianza para
proporciones

104
Inferencia Estadística

Intervalo de confianza al 95%


para la proporción

p (1-p ) p (1-p )
p - 1.96 ≤ p ≤ p + 1.96
√ n √ n

105
Inferencia Estadística

Ejercicio 1

En un estudio de prevalencia de factores de riesgo


en una cohorte de 412 mujeres mayores de 15
años en cierta región se encontró que el 17.6%
eran hipertensas. Determine un intervalo de
confianza al 95% para la proporción de mujeres
hipertensas en la región estudiada.

106
Inferencia Estadística

Ejercicio 2

En cierta población se seleccionó aleatoriamente


una muestra de 300 personas a las que se les
sometió a cierto test cultural. De ellas resultaron
aprobadas 225. Teniendo en cuenta esta
información estimar el porcentaje de personas de
esa población que resultarían aprobados si se les
sometiera a dicho test cultural. Obtener con un
nivel de confianza del 97% un intervalo de
confianza para la proporción.

107
Inferencia Estadística

Ejercicio 3

Estamos interesados en conocer el consumo diario


medio de cigarrillos entre los alumnos de cierta
universidad. Seleccionada una muestra aleatoria de
100 alumnos se observó que fumaban una media
de 8 cigarrillos diarios. Si admitimos que la varianza
de dicho consumo es de 16 cigarrillos 2 en el
colectivo total, estime dicho consumo medio con un
nivel de confianza del 90%.

108
Inferencia Estadística

Ejercicio 4

Tomada al azar una muestra de 120 estudiantes de


una universidad se encontró que 54 de ellos
hablaban inglés. Halle, con un nivel de confianza
del 90%, un intervalo para estimar la proporción de
estudiantes que habla el idioma inglés entre los
estudiantes de esa universidad.

109
Inferencia Estadística

Ejercicio 5

Un diseñador industrial quiere determinar la


cantidad promedio de tiempo que tarda un adulto
en ensamblar un juguete “fácil de ensamblar”. Use
los datos siguientes (en minutos), una muestra
aleatoria, para construir un intervalo de confianza
del 95% para la media de la población muestreada.
17 13 18 19 17 21 29 22 16 28 21 15
26 23 24 20 8 17 17 21 32 18 25 22
16 10 20 22 19 14 30 22 12 24 28 11

110
Intervalos de confianza para
la diferencia de medias y la
diferencia de proporciones

111
Inferencia Estadística

Intervalo de confianza para la


diferencia de medias

Si x 1 y x 2 son los valores de las medias de muestras


aleatorias independientes de tamaños n y n de poblaciones
1 2

normales con las varianzas conocidas σ 12 y σ22 entonces un


intervalo de confianza para la diferencia entre las dos
medias de las poblaciones es

112
Inferencia Estadística

Intervalo de confianza para la


diferencia de medias

2 2
σ1 σ2
( x1 - x2 ) - z + ≤ μ 1 - μ2 ≤
√ n1 n2

2 2
σ1 σ2
( x1 - x2 ) + z +
√ n1 n2
113
Inferencia Estadística

Intervalo de confianza para la


diferencia de medias

En virtud del teorema del límite central esta fórmula puede


usarse también para muestras aleatorias independientes de
poblaciones no normales con varianzas conocidas cuando
los valores de n 1 y n2 son grandes (mayores que 30).

114
Inferencia Estadística

Intervalo de confianza para la


diferencia de medias

Si las varianzas σ12 y σ22 son desconocidas, entonces se


sustituyen sus valores en la fórmula por s 2y s 2 y se procede
1 2

como antes.

115
Inferencia Estadística

Ejercicio 1

Construya un intervalo de confianza al 94% para la


diferencia entre las vidas medias de dos clases de
bombillos dado que una muestra aleatoria de 40
bombillos de la primera clase duró un promedio de
418 horas de uso continuo y 50 bombillos de la
segunda clase duraron en promedio 402 horas de
uso continuo. Las desviaciones estándar de las
poblaciones se sabe que son σ1 = 26 y σ2 =22 (en
horas).

116
Inferencia Estadística

Intervalo de confianza para la


diferencia de proporciones

Si p1 y p2 son los valores de las proporciones de dos


muestras tamaños grandes n 1y n2 entonces un intervalo de
confianza para la diferencia de proporciones p – p es
1 2

117
Inferencia Estadística

Intervalo de confianza para la


diferencia de proporciones

p1 (1- p 1) p2(1- p2)


( p1 - p2 ) - z + ≤ p 1 - p2 ≤
√ n1 n2

p1 (1- p1) p2(1- p2 )


( p1 - p2 ) + z +
√ n1 n2
118
Inferencia Estadística

Ejercicio 2

Si 132 de 200 votantes hombres y 90 de 159


votantes mujeres están a favor de cierto candidato
que hace campaña, encuentre un intervalo de
confianza del 99% para la diferencia entre las
proporciones reales de votantes hombres y
votantes mujeres que están a favor del candidato.

119
Inferencia Estadística

Ejercicio 3

Un estudio del crecimiento anual de ciertos cactus


mostró que 64 de ellos, seleccionados
aleatoriamente en una región desértica, crecieron
en promedio 52.80 mm con una desviación
estándar de 4.5 mm. Construya un intervalo de
confianza del 99% para el verdadero promedio de
crecimiento anual de la clase dada de cactus.

120
Inferencia Estadística

Ejercicio 4

Un estudio de dos clases de equipos de fotocopiado muestra


que 61 averías del equipo de la primera clase se llevaron en
promedio 80.7 minutos en ser reparados, con una
desviación estándar de 19.4 minutos, mientras que 61
averías del equipo de segunda clase se llevaron en
promedio 88.1 minutos en ser reparados, con una
desviación estándar de 18.8 minutos. Encuentre un intervalo
de confianza del 99% para la diferencia entre los verdaderos
promedios del tiempo que toma reparar las averías de las
dos clases de equipo de fotocopiado.

121
Inferencia Estadística

Ejercicio 5
En una muestra aleatoria de 300 personas que
comen en una cafetería de una tienda
departamental solo 102 pidieron postre.
Si usamos 102/300 = 0.34 como una estimación de
la verdadera proporción correspondiente, ¿con qué
confianza podemos afirmar que nuestro error es
menor que 0.05?

122
Límites de confianza para la
varianza poblacional y para
el cociente de dos varianzas

123
Inferencia Estadística

Intervalo de confianza para la


varianza poblacional
2
Si s es el valor de la varianza de una muestra
aleatoria de tamaño n de una población normal,
entonces un intervalo de confianza del (1-α)100%
2
para σ es

124
Inferencia Estadística

Intervalo de confianza para la


varianza poblacional
2
Si s es el valor de la varianza de una muestra
aleatoria de tamaño n de una población normal,
entonces un intervalo de confianza del (1-α)100%
2
para σ es
2 2
(n-1) s 2
(n-1) s
< σ <
2 2
χ α , n-1
χ
1 - α , n-1
2 2
125
Inferencia Estadística

Tabla de la distribución chi-cuadrado

126
Inferencia Estadística

Ejercicio 1

En 16 corridas de prueba el consumo de gasolina


de un motor experimental tiene una desviación
estándar de 2.2 galones. Construya un intervalo de
2
confianza del 99% para σ que mide la verdadera
variabilidad del consumo de gasolina del motor.

127
Inferencia Estadística

Límites de confianza para el cociente


de dos varianzas

128
Inferencia Estadística

Límites de confianza para el cociente


de dos varianzas

2 2
Si s 1 y s 2 son los valores de dos varianzas de

muestras aleatorias independientes de tamaños n 1

y n2 de poblaciones normales, entonces un


σ2
1
intervalo de confianza del (1-α)100% para es
σ2
2

129
Inferencia Estadística

Límites de confianza para el cociente


de dos varianzas

2 2 2
s1 1 σ1 s1
< < Fα , n -1, n -1
2 2 2
s2 F α , n -1, n -1 σ2 s2 2
2 1

1 2
2

130
Inferencia Estadística

Tabla de la distribución F

131
Inferencia Estadística

Ejercicio 2

Se hizo un estudio para comparar los contenidos de nicotina


de dos marcas de cigarrillos. Diez cigarrillos de la marca 1
tuvieron un contenido promedio de 3.1 miligramos con una
desviación estándar de 0.5 miligramos mientras que ocho
cigarrillos de la marca 2 tuvieron un contenido promedio de
nicotina de 2.7 miligramos con una desviación estándar de
0.7 miligramos. Suponga que los dos conjuntos de datos
son muestras aleatorias independientes de poblaciones
normales. Encuentre un intervalo de confianza del 98% para
el cociente de las varianzas σ2 y σ 2 .
1 2

132
Inferencia Estadística

133
Inferencia Estadística

134
Inferencia Estadística

Ejercicio 3

Un estudio del crecimiento anual de ciertos cactus


mostró que 64 de ellos, seleccionados
aleatoriamente en una región desértica, crecieron
en promedio 52.80 mm con una desviación
estándar de 4.5 mm. Construya un intervalo de
confianza del 99% para la desviación estándar del
crecimiento anual de la clase de cactus dada.

135
Inferencia Estadística

Ejercicio 4

Un estudio de dos clases de equipos de fotocopiado muestra


que 61 averías del equipo de la primera clase se llevaron en
promedio 80.7 minutos en ser reparados, con una
desviación estándar de 19.4 minutos, mientras que 61
averías del equipo de segunda clase se llevaron en
promedio 88.1 minutos en ser reparados, con una
desviación estándar de 18.8 minutos. Encuentre un intervalo
de confianza del 98% para la razón de las varianzas de las
poblaciones muestreadas.

136
Inferencia Estadística

137
Intervalos de confianza para
muestras pequeñas

138
Inferencia Estadística

Muestras pequeñas

Cuando estamos tratando con una muestra aleatoria de una


población normal con n<30 y σ desconocida,

Si x y s son los valores de la media y la desviación estándar


de una muestra aleatoria de tamaño n de una población
normal entonces un intervalo con (1-α)100% de confianza
para la media de la población es
s s
x – t α , n-1 . < μ < x+t .
α , n-1
2 √n 2 √n

139
Inferencia Estadística

140
Inferencia Estadística

Ejercicio 1

Un fabricante de pinturas quiere determinar el tiempo


promedio de secado de una pintura para muros interiores. Si
para 12 áreas de prueba del mismo tamaño ha obtenido una
media de tiempo de secado de 66.3 minutos y una
desviación estándar de 8.4 minutos, construya un intervalo
de confianza del 95% para la media verdadera μ.

141
Pruebas de hipótesis

142
Inferencia Estadística

Hay problemas como:

• Un ingeniero debe decidir, con base a datos muestrales, si


el verdadero promedio de vida de cierta clase de
neumáticos es por lo menos 22000 millas.

143
Inferencia Estadística

Hay problemas como:

• Un ingeniero debe decidir, con base a datos muestrales, si


el verdadero promedio de vida de cierta clase de
neumáticos es por lo menos 22000 millas.
• Un agrónomo debe decidir, con base en experimentos, si
una clase de fertilizantes produce un rendimiento más alto
de frijol de soya que otro.

144
Inferencia Estadística

Hay problemas como:

• Un ingeniero debe decidir, con base a datos muestrales, si


el verdadero promedio de vida de cierta clase de
neumáticos es por lo menos 22000 millas.
• Un agrónomo debe decidir, con base en experimentos, si
una clase de fertilizantes produce un rendimiento más alto
de frijol de soya que otro.
• Un fabricante de productos farmacéuticos tiene que
decidir, con base en muestras, si el 90% de todos los
pacientes que reciben un nuevo tratamiento se recuperarán
de cierta enfermedad.

145
Inferencia Estadística

Hipótesis estadística es una


afirmación o conjetura acerca de la
distribución de una o más variables
aleatorias.

146
Inferencia Estadística

Frecuentemente las hipótesis se formulan diciendo


exactamente lo contrario de lo que se quiere demostrar.

Ejemplo
Se quiere probar que los estudiantes de INTEC tienen, en
promedio, más alto IQ que los estudiantes de otra
universidad. Se formula la hipótesis de que no hay
diferencias, es decir, que μ = μ
1 2

147
Inferencia Estadística

Como muchas de las hipótesis se formulan en el lenguaje


“no hay diferencias”, se usa el término hipótesis nula,
aunque el término es válido para cualquier hipótesis que
quisiéramos probar.

Se consideran siempre dos hipótesis:


H 0 : hipótesis nula (ejemplo: μ1 = μ 2 )
H : hipótesis alternativa (ejemplo: μ > μ )
1 1 2

148
Inferencia Estadística

Prueba de hipótesis

Procedimiento de prueba: Es una regla, basada en datos muestrales,


para decidir si se rechaza o no Ho.

Un procedimiento de prueba consta de:


• Un estadístico de prueba, o sea, una función de los datos
muestrales en los cuales ha de basarse la decisión (rechazar Ho, no
rechazar Ho)
• Una región de rechazo, que es el conjunto de todos los valores del
estadístico de prueba para los cuales Ho será rechazada.

La hipótesis nula será rechazada si y solo si el valor del estadístico de


prueba observado o calculado queda en la región de rechazo.

149
Inferencia Estadística

Hay cuatro posibilidades:

150
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

151
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta

152
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

153
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

Decisión
estadística

154
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

No rechazar
Ho
Decisión
estadística

155
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

No rechazar
Ho
Decisión
estadística
Rechazar Ho

156
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

No rechazar
ok
Ho
Decisión
estadística
Rechazar Ho

157
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

No rechazar
ok
Ho
Decisión
estadística
Rechazar Ho (error Tipo I)

158
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

No rechazar
ok (error Tipo II)
Ho
Decisión
estadística
Rechazar Ho (error Tipo I)

159
Inferencia Estadística

Hay cuatro posibilidades:

Realidad

Ho es cierta Ho es falsa

No rechazar
ok (error Tipo II)
Ho
Decisión
estadística
Rechazar Ho (error Tipo I) ok

160
Inferencia Estadística

Prueba de hipótesis

La probabilidad de cometer un error de tipo I se


denota por α.

La probabilidad de cometer un error de tipo II se


denota por β.

161
Inferencia Estadística

Prueba de hipótesis

Si el tamaño de la muestra y el estadístico de


prueba ya están fijos entonces, si se reduce el
tamaño de la región de rechazo para disminuir α,
se obtiene un valor más grande de β.

En la práctica se fija el valor de α, lo cual se conoce


como nivel de significación de la prueba. Son
usuales los niveles de significación 0.1, 0.05 y 0.01.

162
Inferencia Estadística

Pruebas de hipótesis sobre la media

Sea X1, X2, … Xn es una muestra aleatoria de una


distribución con media μ y varianza σ².
Sabemos que, si n es suficientemente grande, X tiene
aproximadamente una distribución normal con
μ =μ
X
σ
σ =
X √n
163
Inferencia Estadística

Pruebas de hipótesis sobre la media

Consideremos la hipótesis nula H0: μ = μ0


Si H0 es verdadera entonces μ = μ0
X
X – μ0
El estadístico z = es una medida natural de
σ la distancia entre X (estima-
dor de μ) y μ0 (valor espera-
√n do cuando H0 es verdadera)

Si la distancia es demasiado grande H0 debe ser rechazada.

164
Inferencia Estadística

Prueba de hipótesis para la media

Caso I
H0: μ=μ0
H1: μ≠μ0
σ μ0 σ
μ0 - z μ0 + z
√n √n

165
Inferencia Estadística

Prueba de hipótesis para la media

Caso II
H0: μ=μ0
H1: μ>μ0
σ μ0 σ
μ0 - μ0 + z
√n √n

166
Inferencia Estadística

Prueba de hipótesis para la media

Caso III
H0: μ=μ0
H1: μ<μ0
σ μ0 σ
μ0 - z μ0 +
√n √n

167
Inferencia Estadística

Pruebas de hipótesis sobre la media

Si n es grande y σ es desconocida usaremos

X – μ0
el estadístico z =
s

√n

168
Inferencia Estadística

Ejercicio 1

Suponga que por experiencia se sabe que la desviación


estándar del peso de paquetes de 8 onzas de galletas en
cierta pastelería es de 0.16 onzas. Para comprobar si su
producción está bajo control en un día dado, esto es,
comprobar si el peso promedio verdadero de los paquetes
de galletas es 8 onzas, los empleados seleccionan una
muestra aleatoria de 36 paquetes y encuentran que la
media de su peso es 8.077 onzas. Puesto que la pastelería
pierde dinero si μ>8 y el cliente pierde cuando μ<8, pruebe
la hipótesis nula μ=8 contra la hipótesis alternativa μ≠8 al
nivel 0.01 de significación.
169
Inferencia Estadística

Ejercicio 2

Suponga que 100 neumáticos que cierto fabricante produce


duraron en promedio 21819 millas, con una desviación
estándar de 1295 millas. Pruebe la hipótesis nula μ=22000
millas contra la hipótesis alternativa μ<22000 en el nivel
0.05 de significación.

170
Ejercicio 3
Inferencia Estadística

Se utiliza un penetrómetro cónico dinámico para medir la


resistencia de un material a la penetración (mm/golpe) a medida
que el cono es insertado el pavimento o subrasante. Suponga que,
para una aplicación particular, se requiere que el valor penetración
cónica promedio verdadero para un cierto tipo de pavimento sea
menor que 30. El pavimento no será utilizado a menos que exista
evidencia concluyente de que la especificación fue satisfecha.
Formule y pruebe las hipótesis apropiadas utilizando los datos
siguientes, con un nivel de significación de 0.05.
14.1 14.5 15.5 16 16 16.7 16.9 17.1 17.5 17.8
17.8 18.1 18.2 18.3 18.3 19 19.2 19.4 20 20
20.8 20.8 21 21.5 23.5 27.5 27.5 28 28.3 30
30 31.6 31.7 31.7 32.5 33.5 33.9 35 35 35
36.7 40 40 41.3 41.7 47.5 50 51 51.8 54.4
55 57
171
Inferencia Estadística

Pruebas de hipótesis sobre la media

Si el tamaño de la muestra es pequeño y σ es desconocida


usaremos

X – μ0
el estadístico t = que tiene una distribución t
s con n-1 grados de libertad

√n

172
Inferencia Estadística

Ejercicio

Las especificaciones para cierta clase de cinta piden una


media de la resistencia al rompimiento de 185 libras. Si
cinco piezas, seleccionadas aleatoriamente de diferentes
rollos, tienen una resistencia al rompimiento de 171.6,
191.8, 178.3, 184.9 y 189.1 libras, pruebe la hipótesis nula
μ=185 libras contra la hipótesis alternativa μ‹185 libras en
el nivel 0.05 de significación.

173
Inferencia Estadística

Pruebas de hipótesis sobre la diferencia


de medias

Supongamos que tenemos dos muestras aleatorias


independientes de tamaños n1 y n2 de dos poblaciones
normales que tienen las medias μ1 y μ2 y las desviaciones
estándar conocidas σ1 y σ2 entonces para las pruebas de
hipótesis:

Ho: μ1 – μ2 = δ

contra las hipótesis alternativas

H1: μ1 – μ2 ≠ δ , H1: μ1 – μ2 > δ , H1: μ1 – μ2 < δ


174
Inferencia Estadística

Pruebas de hipótesis sobre la diferencia


de medias

Usaremos el estadígrafo de prueba

x1 – x2 – δ
z=
2 2
σ1 + σ2
√ n1 n2

Las regiones respectivas son |z| ≥ Zc , z ≥ Zc , z ≤ -Zc

175
Inferencia Estadística

Pruebas de hipótesis sobre la diferencia


de medias

Si σ1 y σ2 son desconocidas y n1 y n2 suficientemente grandes

x1 – x2 – δ
z=
2 2
s1 + s2
√ n1 n2

176
Inferencia Estadística

Ejercicio
Se hace un experimento para determinar si el contenido promedio de
nicotina de una clase de cigarrillos excede al de otra clase en 0.20
miligramos. Si 50 cigarrillos de la primera clase tuvieron en promedio un
contenido de nicotina de 2.61 miligramos con una desviación estándar
de 0.12 miligramos en tanto que 40 cigarrillos de la otra clase tuvieron
un contenido promedio de nicotina de 2.38 miligramos, con una
desviación estándar de 0.14 miligramos, pruebe la hipótesis nula “el
contenido promedio de nicotina de la primera clase de cigarrillos excede
en 0.20 miligramos al de la segunda” contra la hipótesis alternativa “el
contenido promedio de nicotina de la primera clase de cigarrillos no
excede en 0.20 miligramos al de la segunda”. Considere el nivel de
significación 0.1.

177
Inferencia Estadística

Pruebas de hipótesis sobre proporciones

Si n es grande (n > 100) usaremos el estadístico de prueba

p - p0
z=

p0 (1 – p0)

√ n

Las regiones respectivas son |z| ≥ Zc , z ≥ Zc , z ≤ -Zc

178
Inferencia Estadística

Ejercicio

Una compañía petrolera afirma que menos del 20%


de los propietarios de vehículos no han probado su
gasolina. Pruebe esta afirmación en el nivel 0.01 de
significación si una comprobación aleatoria revela
que 22 de 200 propietarios de vehículos no han
probado la gasolina de la compañía.

179
Inferencia Estadística

Pruebas de hipótesis sobre diferencia de


proporciones

Si p1=x1/n1 y p2=x2/n2 son proporciones en dos muestras


de tamaños n1 y n2 respectivamente,

p1 - p2
z=

x1+x2 x1+x2 1 1
1- +
√ n1+n2 n1+n2 n1 n2

es estadístico de prueba.
180
Inferencia Estadística

Ejercicio

En una muestra aleatoria de 200 personas que no tomaron


desayuno, 82 reportaron que tuvieron fatiga a media
mañana y en otra muestra aleatoria de 300 personas que
tomaron desayuno, 87 personas reportaron que tuvieron
fatiga a media mañana. Prueba la hipótesis nula de que no
hay diferencias entre las proporciones correspondientes de
la población contra la hipótesis alternativa de que la fatiga a
media mañana está más extendida entre las personas que
no toman desayuno, al nivel de significación 0.05.

181
Inferencia Estadística

Pruebas de hipótesis sobre la varianza

Dada una muestra aleatoria de tamaño n de una población


normal queremos probar la hipótesis nula H0: σ² = σ²
0
contra
una de las hipótesis H1: σ² ≠ σ², H1: σ² > σ²,
0
H1: σ² < σ²
0 0

(n-1) s²
Usaremos el estadístico χ² =
σ²
0

182
Inferencia Estadística

Distribución
Prueba chi-cuadrado
chi-cuadrado de bondad de
ajuste

183
Inferencia Estadística

Pruebas de hipótesis sobre la varianza

Las regiones críticas son:


Para H1: σ² ≠ σ²0 χ² ≥ χ² χ²≤χ²
α , n-1 1- α , n-1
2 2

Para H1: σ² > σ²0 χ² ≥ χ²


α , n-1

Para H1: σ² < σ² χ²≤χ²


0 1-α , n-1

184
Inferencia Estadística

Ejercicio

Suponga que las mediciones del espesor de una muestra


aleatoria de 18 partes usadas de un semiconductor tiene la
varianza s²=0.68, donde las mediciones son en milésimas
de pulgada. El proceso se considera que está bajo control si
la variación del espesor está dada por una varianza no
mayor que 0.36. Suponga que las mediciones constituyen
una muestra aleatoria de una población normal, pruebe la
hipótesis nula σ²=0.36 contra la hipótesis alternativa
σ²>0.36 en el nivel 0.05 de significación.

185
Inferencia Estadística

Pruebas de hipótesis sobre la razón de


varianzas

Dadas dos muestras aleatorias independientes de tamaños n1


y n2 de dos poblaciones normales con las varianzas σ1² y
σ2²

s1²
Usaremos el estadístico
s2²

(Nota:Es más simple si calculamos el cociente de la mayor entre la menor)


186
Inferencia Estadística

Ejercicio

Al comparar la variabilidad de la resistencia a la tracción de


dos clases de acero estructural, un experimento dio los
resultados siguientes: n1=13, s1²=19.2, n2=16 y s2²=3.5,
donde las unidades de medición son 1000 libras por pulgada
cuadrada. Suponga que las mediciones constituyen variables
aleatorias independientes de dos poblaciones normales,
prueba la hipótesis nula σ1²=σ2² contra la alternativa
σ1²≠σ2² en el nivel 0.02 de significación.

187
Ajuste a distribuciones
teóricas.
Tablas de contingencia.
Prueba de chi-cuadrado

188
Inferencia Estadística

Prueba de bondad de ajuste

Una distribución de frecuencias es la


representación empírica, y por tanto una
aproximación, de una distribución teórica
(distribución de probabilidades).

189
Inferencia Estadística

Prueba de bondad de ajuste

Una distribución de frecuencias es la


representación empírica, y por tanto una
aproximación, de una distribución teórica
(distribución de probabilidades).
Se trata de decidir si la distribución de
frecuencia muestral se ajusta bien o no a la
distribución de probabilidades (frecuencia)
hipotética de la población en estudio.
190
Inferencia Estadística

Prueba de bondad de ajuste

H0: las frecuencias observadas coinciden con


las frecuencias esperadas

H1: las frecuencias observadas no coinciden


con las frecuencias esperadas

191
Inferencia Estadística

Prueba de bondad de ajuste

H0: fij = eij para todo i,j


i=1,2,3,…,r
j=1,2,3,…,c
H1: fij ≠ eij para algún i

192
Estadística No Paramétrica

Ejercicio 1

Se pidió a 35 niños de manera independiente que


nombraran su día favorito de la semana. Las elecciones
fueron:
Día Lunes Martes Miércoles Jueves Viernes Sábado Domingo
Fr. 1 3 7 8 5 11 0

Analice si estos datos son consistentes con un muestreo de


niños cuyas preferencias se distribuyeron uniformemente
entre todos los días de la semana.

193
Inferencia Estadística

Prueba de chi-cuadrado

Estadístico de prueba
r c

Χ² = ΣΣ (fij – eij)² = Σ (f – e)²


i=1 j=1 eij todas las e
celdas

194
Inferencia Estadística

Prueba de chi-cuadrado

Rechazamos H0 cuando

Χ² ≥ Χ²
α , (r -1)(c -1)

195
Inferencia Estadística

Tabla de contingencia

11 12 13 14 15
r 21 22 23 24 25
31 32 33 34 35
41 42 43 44 45
c 196
Inferencia Estadística

Ejercicio 1

Use los datos mostrados en la siguiente tabla para probar


en el nivel 0.01 de significación si la habilidad de una
persona en matemáticas es independiente de su interés en
estadística.

Habilidad en Matemáticas
Bajo Promedio Alto
Interés en Bajo 63 42 15
Estadística Promedio 58 61 31
Alta 14 47 29

197
Inferencia Estadística

Ejercicio 2

Las muestras de un material experimental se producen


mediante tres diferentes prototipos de procesos y se les
hace una prueba de conformidad con un estándar de
resistencia. Si las pruebas mostraron los resultados
siguientes, ¿se puede decir en el nivel 0.01 de significación
que los tres procesos tienen la misma probabilidad de
aprobar con este estándar de resistencia?
Proceso A Proceso B Proceso C
Pasan la
prueba 45 58 49
No pasan la
prueba 21 12 35
198
Función de potencia de una
prueba

199
Inferencia Estadística

Función de potencia

Para evaluar los méritos de un criterio de prueba o


una región crítica tenemos que considerar las
probabilidades α(θ) de cometer error de tipo I para
todos los valores de θ dentro del dominio
especificado bajo la hipótesis nula H0 y las
probabilidades β(θ) de cometer error de tipo II
dentro del dominio especificado bajo la hipótesis
alternativa H1.

200
Inferencia Estadística

Función de potencia

Recordemos que:

α : probabilidad de rechazar H0 siendo verdadera


probabilidad de cometer error de tipo I

β : probabilidad de no rechazar H0 siendo falsa


probabilidad de cometer error de tipo II

201
Inferencia Estadística

Función de potencia

Recordemos que:

α : probabilidad de rechazar H0 siendo verdadera


probabilidad de cometer error de tipo I

β : probabilidad de no rechazar H0 siendo falsa


probabilidad de cometer error de tipo II

Entonces
1 – β : probabilidad de rechazar H0 siendo falsa
probabilidad de no cometer error de tipo II
202
Inferencia Estadística

Función de potencia

La función de potencia de una prueba de hipótesis


estadística H0 contra una hipótesis alternativa H1
está dada por

α(θ) para los valores de θ bajo H0


π(θ) =
1- β(θ) para los valores de θ bajo H1

203
Inferencia Estadística

Función de potencia

Los valores de la función de potencia son las


probabilidades de rechazar la hipótesis nula H0 para
los diferentes valores del parámetro θ.

α(θ) para los valores de θ bajo H0


π(θ) =
1- β(θ) para los valores de θ bajo H1

204
Inferencia Estadística

Función de potencia

Ejemplo
Supongamos que el fabricante de un nuevo medicamento
quiere decidir, sobre la base de muestras, si el 90% de
todos los pacientes que reciben ese nuevo medicamento se
recuperarán de cierta enfermedad.
Su estadístico de prueba es X, el número de éxitos
observados (recuperaciones) en 20 intentos.
Consideremos H0: θ = 0.90
H1: θ < 0.90
Investigue la función de potencia correspondiente al criterio
de prueba “aceptar la hipótesis nula si X>14 y rechazarla si
X≤14”
205
Inferencia Estadística

Función de potencia

Ejemplo
Calculemos las probabilidades α(θ) de rechazar H0 siendo
verdadera.

Si H0 es verdadera, entonces
p(X≤14) = p(X=0) + p(X=1) + p(X=2) + … + p(X=14)

20 a 20-a
Siendo p(X=a) = (0.90) (1 – 0.90)
a

Obtenemos p(X ≤14) = 0.0113


206
Inferencia Estadística

Función de potencia

Ejemplo
Calculemos las probabilidades β(θ) de no rechazar H0
(aceptar H0) siendo H0 falsa (H1 verdadera).

Si H1 es verdadera, entonces θ < 0.90.

Calculemos β(θ) para algunos valores de θ, por ejemplo,


θ=0.85, 0.80, 0.75, … , 0.45

207
Inferencia Estadística

Función de potencia

Ejemplo

Si θ=0.85
p(X>14) = p(X=15) + p(X=16) + p(X=17) + … + p(X=20)

20 a 20-a
Siendo p(X=a) = (0.85) (1 – 0.85)
a

Obtenemos p(X >14) = 0.9252

208
Inferencia Estadística

Función de potencia

probabilidad probabilidad prob.


error tipo I error tipo II rech. Ho
θ α(θ) β(θ) π(θ)
0.90 0.0113 0.0113
0.85 0.9252 0.0748
0.80 0.7952 0.2048
0.75 0.6093 0.3907
0.70 0.4110 0.5890
0.65 0.2423 0.7577
0.60 0.1242 0.8758
0.55 0.0548 0.9452
0.50 0.0205 0.9795
0.45 0.0064 0.9936

209
Inferencia Estadística

Función de potencia
π(θ) Curva de potencia
1.0000

0.9000

0.8000
Las funciones de
0.7000
potencia son las
0.6000
probabilidades de
0.5000
tomar la decisión
0.4000
correcta.
0.3000

0.2000

0.1000

0.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
θ

210
Inferencia Estadística

Curva característica de operación

Pudieran graficarse las probabilidades de aceptar H0, que


sería la función 1-π(θ).
Obtendríamos entonces la CURVA CARACTERISTICA DE
OPERACIÓN (o curva CO) prob. No
rechazar
θ Ho
0.45 0.0064
0.50 0.0205
0.55 0.0548
0.60 0.1242
0.65 0.2423
0.70 0.4110
0.75 0.6093
0.80 0.7952
0.85 0.9252
0.90 0.9887 211
Inferencia Estadística

Curva característica de operación


1- π(θ)

1.0000

0.9000

0.8000

0.7000

0.6000

0.5000

0.4000

0.3000

0.2000

0.1000

0.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
θ
212
Correlación y regresión lineal

213
Inferencia Estadística

Análisis de regresión y correlación

Un objetivo importante de muchas investigaciones


estadísticas es establecer las relaciones que hagan posible
predecir una o más variables en términos de otras.

Ejemplos
• ventas potenciales de un nuevo producto en función de
un precio.
• gastos familiares en entretenimiento en función del
ingreso familiar.
• consumo percápita de ciertos alimentos en función de sus
valores nutricionales y la cantidad de dinero que se gasta en
hacerles publicidad en la televisión.
214
Inferencia Estadística

Análisis de regresión y correlación

El análisis de regresión es la parte de la estadística que


se ocupa de investigar la relación entre dos o más variables
relacionadas en una forma no determinística.

En la regresión simple hay solo dos variables:


• la variable cuyo valor fija el investigador, se denota por X,
se llama variable independiente, pronosticadora, explicativa.
• la variable Y que depende de X, se llama variable
dependiente o de respuesta.

En la regresión múltiple hay una variable dependiente y


más de una variable independiente.
215
Inferencia Estadística

Regresión lineal simple

216
Inferencia Estadística

Ejemplo

Consideremos los datos siguientes sobre el número de horas


que diez personas estudiaron para una prueba de francés y
sus calificaciones en dicha prueba.

Horas 4 9 10 14 4 7 12 22 1 17
Nota 31 58 65 73 37 44 60 91 21 84

217
Inferencia Estadística

Ejercicio

Los siguientes datos corresponden al cloro residual en una


piscina en diferentes momentos después de haberse tratado
con químicos
Número de horas Cloro residual (partes
por millón)
2 1.8
4 1.5
6 1.4
8 1.1
10 1.1
12 0.9

218
Inferencia Estadística

Ejercicio

a) Calcule el coeficiente de correlación lineal entre las horas


transcurridas y el cloro residual.
b) Ajuste una recta de mínimos cuadrados (recta de
regresión) con la cual podamos predecir el cloro residual
en términos del número de horas transcurridas, luego de
haberse tratado con químicos.
c) Use la ecuación de la recta de regresión para estimar el
cloro residual 5 horas después de haberse tratado con
químicos el agua de la piscina.

219
Inferencia Estadística

Coeficiente de correlación lineal

Existen situaciones en las cuales el objetivo al estudiar el


comportamiento conjunto de dos variables es ver si están
relacionados en lugar de utilizar una para predecir el valor
de la otra.

220
Inferencia Estadística

Ejercicio
Una prueba de rendimiento es confiable si el estudiante que tomar la
prueba varias veces obtendrá consistentemente puntuaciones altas
(bajas). Una forma de verificar la confiabilidad de una prueba es dividirla
en dos partes, por lo general problemas con numeración par y
problemas con numeración impar, y observar la correlación entre las
puntuaciones que los estudiantes obtienen. Los datos siguientes son las
calificaciones de una muestra de 20 estudiantes en una prueba, x para
las preguntas impares, y para las preguntas pares. Calcule el valor del
coeficiente de correlación r.
X 27 36 44 32 27 41 38 44 30 27
y 29 44 49 27 35 33 29 40 27 38
X 33 39 38 24 33 32 37 33 34 39
y 42 31 38 22 34 37 38 35 32 43
221
Regresión múltiple

222
Inferencia Estadística

Regresión lineal simple

223
Inferencia Estadística

Regresión múltiple

Si la variable y depende no solo de x sino de más variables


tendríamos en lugar del modelo de regresión simple (lineal)

y = a + bx

el modelo de regresión lineal múltiple

y = a + b1 x1 + b2 x2 + … + bk xk

224
Inferencia Estadística

225
Ejemplo
Inferencia Estadística

Los datos siguientes muestran el número de habitaciones, el


número de baños y los precios a los que se vendió una muestra
aleatoria de casas unifamiliares. Encuentre la ecuación de la recta
de regresión lineal múltiple que permite predecir el precio de una
casa en función del número de habitaciones y el número de baños.
Número de habitaciones Número de baños Precio
(dólares)
X1 X2 Y
X11 3 X12 2 78800

X21 2 X22 1 74300

X31 4 X32 3 83800

X41 2 X42 1 74200

X51 3 X52 2 79700

X61 2 X62 2 74900

X71 5 X72 3 88400

X81 4 X82 2 82900

226
Análisis de varianza (ANOVA)

227
Inferencia Estadística

Análisis de varianza

El análisis de varianza, o más brevemente, ANOVA, es un


método estadístico para decidir si las diferencias entre
dos o más medias muestrales se puede atribuir al azar o
si hay diferencias reales entre las medias de las poblaciones
muestreadas.

228
Inferencia Estadística

Análisis de varianza

Ejemplos

• ¿Hay diferencias en la eficacia de tres métodos para


enseñar una lengua extranjera?
• ¿Hay diferencias en los efectos de cinco marcas
diferentes de gasolina con respecto a la eficiencia de
operación de un motor?
• ¿Hay diferencias en cuanto al crecimiento de bacterias en
cuatro soluciones azucaradas: glucosa, fructosa, sucrosa y
una mezcla de las tres?

229
Inferencia Estadística

Análisis de varianza de un factor

También se llama unifactorial, unidireccional, en un sentido.

Hay un solo factor.

Hay varios niveles o tratamientos.

230
Inferencia Estadística

Origen de la Suma de Grados de Cuadrado F


variación cuadrados libertad medio
Tratamientos SCTr k-1

Error SCE k(n-1)

Total STC kn-1

231
Inferencia Estadística

Análisis de varianza de un factor

Se quiere comparar la acción limpiadora de tres


detergentes. Se tomaron 15 muestras de tela blanca, que se
mancharon con tinta china y luego se lavaron a máquina
usando los tres tipos de detergente. Los resultados de las
lecturas de blancura fueron:
Detergente A 77 81 71 76 80
Detergente B 72 58 74 66 70
Detergente C 76 85 82 80 77

Pruebe, en el nivel 0.01 de significación, si las diferencias


entre las medias de las lecturas de blancura son
significativas.
232
Inferencia Estadística

Análisis de varianza de un factor

Tres grupos de seis conejillos de indias se inyectaron, cada


uno, con respectivamente 0.5 miligramos, 1.0 miligramos,
1.5 miligramos de un nuevo tranquilizante. A continuación
se muestra el número de minutos que tardaron en quedarse
dormidos
0.5 miligramos 21 23 19 24 25 23
1.0 miligramos 19 21 20 18 22 20
1.5 miligramos 15 10 13 14 11 15

Pruebe, en el nivel 0.05 de significación, si se puede


rechazar la hipótesis nula de que las diferencias en
dosificación no tienen efecto.
233
Inferencia Estadística

Origen de la Suma de Grados de Cuadrado medio F


variación cuadrados libertad
Tratamientos SCTr k-1

Bloques SCB n-1 B

Error SCE (k-1)(n-1)

Total STC kn-1

234
Inferencia Estadística

ANOVA bifactorial
Los datos sobre los tiempos (en minutos) que le tomó a cierta persona
conducir su vehículo hasta su trabajo, de lunes a viernes, por cuatro
rutas diferentes, fueron las siguientes:
Lunes Martes Miércoles Jueves Viernes

Ruta 1 22 26 25 25 31

Ruta 2 25 27 28 26 29

Ruta 3 26 29 33 30 33

Ruta 4 26 28 27 30 30

¿Hay diferencias entre los promedios verdaderos de tiempo que tarda la


persona en conducir al trabajo teniendo en cuenta las cuatro rutas y los
cinco días de la semana? Considere el nivel de significación 0.05

235
Inferencia Estadística

ANOVA bifactorial
Considere los siguientes datos de un experimento para comparar tres
marcas diferentes de plumas y cuatro tratamientos de lavado distintos
con respecto a su capacidad de eliminar manchas en un tipo particular
de tela. La variable de respuesta es un indicador cualitativo del cambio
de color total de la tela, mientras más bajo es este valor más manchas
fueron eliminadas. ¿Existe alguna diferencia entre el cambio de color
promedio verdadero debido a las diferentes marcas de pluma o a los
distintos tratamientos de lavado? Considere α=0.05
Tratamiento 1 Tratamiento 2 Tratamiento 3 Tratamiento 4

Marca de pluma 1 0.97 0.48 0.48 0.46

Marca de pluma 2 0.77 0.14 0.22 0.25

Marca de pluma 3 0.67 0.39 0.57 0.19

236

You might also like