You are on page 1of 15

Importante

Las distribuciones “t” de Student, Chi cuadrado (  2 ) y F, se derivan de la distribución


Normal y están relacionadas con la teoría del muestreo pequeño n < 30.
Son muy importantes pues son la base de metodologías inferenciales, tales como Intervalos
de Confianza y Pruebas de Hipótesis.

Las variables “t”,  2 y F surgen de transformaciones de variables aleatorias en las que


están involucrados estadísticos muestrales, tales como la media y la varianza. En la
práctica, por lo tanto, no podemos decir por Ejemplo que el peso, la altura, etc., se
distribuyen según t”,  2 y F

DISTRIBUCIÓN DE STUDENT O DISTRIBUCIÓN “t”

¿Quién era Student? Pues en realidad Student no era el nombre o el apellido del
responsable de esta distribución de probabilidad, sino que era un seudónimo. El verdadero
nombre del creador de la t de Student es William Sealy Gosset, (1876 – 1937); era un
matemático y químico inglés.

En muchos casos se seleccionan de una población normal, muestras de tamaño pequeño n <
30 y  desconocido.

DEFINICIÓN

Una variable con distribución t de Student se define como el cociente entre una variable
normal estandarizada y la raíz cuadrada positiva de una variable  2 dividida por sus
grados de libertad.

La función de densidad de probabilidad de la variable aleatoria “t” está dada por:

  (v  1) / 2 
 ( v 1) / 2
t2 
h(t )  1  ,   t  
 (v / 2)  v  v 
Esta se conoce como la distribución t con grados de libertad.

CARACTERISTICAS

 La distribución se denomina distribución de Student o distribución “t”.


 Cada curva “t” tiene forma de campana con centro en 0.
v
 Es simétrica, con media 0, y variancia mayor que 1. Es decir:  2  ,v  2
v2
 Es más achatada que la normal y adopta diferentes formas, según el número de grados
de libertad.

 La variable t se extiende desde -  a +  .


 A medida que aumenta los (v = n -1, es decir v   ) grados de libertad la distribución
“t” se aproxima en su forma a una distribución normal estándar. Por lo que la curva “z”
recibe a veces el nombre de curva “t” con gl = grande “  ”.

 El parámetro de la distribución es (v = n-1) grados de libertad, originando una


distribución diferente para cada tamaño de muestra.

¿Cómo se deduce una distribución de “t”?

 Extraigo K muestras de tamaño n < 30.


 Calculo para cada muestra el valor de “t”.
 Grafique la distribución para cada tamaño muestral

Distribución “t” para diferentes grados de libertad (n-1)


Ejemplo:

a) Encuentre la probabilidad de –t0.025 < t < t0.05.

b) Encuentre k tal que P (k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño 15
que se selecciona de una distribución normal.

c) Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso


en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación
toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre –t0.05 y t0.05,
queda satisfecho con su afirmación. ¿Qué conclusión extraería de una muestra que tiene
una media de 518 gramos por milímetro y una desviación estándar de 40 gramos?
Suponga que la distribución de rendimientos es aproximadamente normal.

d) Calcular el percentil t0,95 y t0,25 en cada uno de los siguientes casos:

1. En una distribución t-Student con 3 grados de libertad.


2. En una distribución t-Student con 30 grados de libertad.
3. En una distribución t-Student con 52 grados de libertad.
4. En una distribución t-Student con 120 grados de libertad.

DISTRIBUCIÓN CHI - CUADRADO


Para muestras extraídas de una población normal con variancia s 2 , con tamaño n < 30,
siendo s 2 la varianza de la muestra.

DEFINICIÓN

Una variable Chi cuadrado se define como la suma de n variables normales


estandarizadas elevadas al cuadrado.

CARACTERISTICAS

 Por definición, una variable  2 adopta valores positivos:  2  0.


 La distribución es asimétrica positiva.
 A medida que aumenta el tamaño de la muestra la curva es menos asimétrica,
aproximándose a una curva normal.
 Para cada tamaño muestral, se tendrá una distribución  2 diferente.

 El parámetro que caracteriza a una distribución  2 son sus grados de libertad (v = n-1),
originado una distribución para cada grado de libertad,

¿Cómo se deduce una distribución  2 ?

Extraer K muestras de tamaño n < 30

Para cada muestra, por ejemplo n = 5, transformamos cada valor de x: x1, x2, x3, x4 y x5
en Z: z1, z2, z3, z4 y z5,

Distribución de ji-cuadrado para algunos valores de grados de libertad.

Ejercicio1: Calcular el percentil  n2,0,95 y  n2,0,25 en cada uno de los siguientes casos:
1. n=5

2. n=30.

DISTRIBUCIÓN F DE FISHER
Considerando dos muestras aleatorias independientes, de tamaño n1 y n2, extraídas de una
población normal, el estadístico F será

DEFINICIÓN

Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por sus
correspondientes grados de libertad.

Características

 Una variable con distribución F es siempre positiva por lo tanto su campo de variación
es “0 a ∞"
 La distribución de la variable es asimétrica, pero su asimetría disminuye cuando
aumentan los grados de libertad del numerador y denominador.
 Hay una distribución F por cada par de grados de libertad.
 Parámetros: Grados de libertad asociados al numerador y denominador

¿Cómo se deduce una distribución F?

 Extraiga k pares de muestras aleatorias independientes de tamaño n < 30.


 Calcule para cada par el cociente de variancias que proporciona un valor de F.
 Graficar los valores de F de los k pares de muestras.

Distribución F para diferentes grados de libertad


Capitulo 3

INTRODUCCIÓN

A LA

INFERENCIA ESTADÍSTICA

El proceso de Inferencia Estadística permite extraer conclusiones científicamente


válidas acerca de la población a partir de los resultados muéstrales (obtenidos a
través de la estadística descriptiva).
El propósito de la inferencia estadística es realizar:

- Estimación de Parámetros

- Contraste de Hipótesis

Estimación de Parámetros
El método de estimación de un parámetro puede ser puntual o por intervalo.

Estimación puntual de µ

En base al resultado de la muestra particular de tamaño n, una estimación puntual de µ


sería el valor numérico que toma X en dicha muestra.

En nuestro ejemplo, a partir de una muestra de n=50 planchas de acero. Daríamos como
estimación del peso medio poblacional o teórico, X = 215 Kg.

Inconveniente(s):

 La estimación puntual depende de la muestra particular que se obtenga.


 Existe una incertidumbre total, acerca de la proximidad (lejanía) del valor puntual a la
media poblacional o teórica.
Sin embargo

Conocemos la distribución de la medias muéstrales bajo ciertas condiciones sobre la


población de partida.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL

a) Si asumimos que X → N (µ, σ), σ → conocida

Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen


según una distribución normal (campana de Gauss):

X 
X  N ( , X )  Z   N (0,1)
X
Donde:  X es el error típico o desviación estándar de la media muestral.

b) Si asumimos que X → N (µ, σ), σ desconocida

Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen


según una distribución t-student con n-1 grados de libertad (gl)
X 
X  N ( , sX )  T   tn 1
sX
Donde: S X es el error típico o desviación estándar de la media muestral.
0

Nota: (Error estándar o Error típico de la media)

   conocida
x   Tamaño de población (N) demasiado grande o
n infinita.
 N n   conocida
x   Tamaño de población (N) conocido o finita.
n N 1
S   desconocida, entonces   S
Sx   Tamaño de población (N) demasiado grande o
n
infinita.
S N n   desconocida, entonces   S
Sx   Tamaño de población (N) conocida o finita.
n N 1

Estimación por Intervalo de confianza para µ

Supongamos que de una población normal con media desconocida  y varianza conocida
o desconocida  2 se extrae una muestra de tamaño n, entonces de la distribución de la
media muestral X se obtiene que, lleva asociado un error típico de dicho estadístico de lo
que ha de tenerse en cuenta para valorar la precisión de una estimación puntual.
Idea

Construir intervalos de confianza, basado X , que contenga “con alta probabilidad” el


parámetro µ.
Caso I: X → N (µ, σ), σ conocida

El Intervalo de confianza para µ es:

X  Z1 / 2 *  X    X  Z1 / 2 * X
Con un nivel de confianza del 1   .

Caso II: X → N (µ, σ), σ desconocida

El intervalo de confianza para µ es:

X  t1 / 2;n1 * S X    X  t1 / 2;n1 * S X

Con un nivel de confianza del 1   .

Tamaño de muestra

Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que si
 se estima por x , el error de estimación no sea mayor que un valor dado e. En efecto:

 Tamaño de población (N) demasiado grande


Z 2  * 2 o infinita.
1  Si la desviación estándar (  ) es
n 2
desconocida, se estima por la desviación
e2 estándar muestral (S) hallado a partir de una
muestra piloto.

Z 2  * 2 * N  Tamaño de población (N) conocida o finita


1  Si la desviación estándar ( 
) es
n 2

Z 2  * 2  e 2 ( N  1) desconocida, se estima por la desviación


estándar muestral (S) hallado a partir de
1
2
una muestra piloto.
Ejercicio

Intervalo de Confianza para la diferencia de medias ( 1  2 )


Supongamos que se tiene dos poblaciones distribuidas normalmente con medias
desconocidas 1 y  2 , respectivamente. Se puede aplicar una prueba z o t de Student para
comparar las medias de dichas poblaciones basándonos en dos muestras independientes
tomadas de ellas. La primera muestra es de tamaño n1 , con media X 1 y la segunda muestra
es de tamaño n2 , tiene media X 2 . Donde las varianzas poblacionales pueden ser conocidas
(  12 y  22 ) o desconocidas (  12 ≈ s12 y  22 ≈ s22 ).
Caso I: Muestras independientes, Varianzas poblacionales conocidas
(  12 y  22 )

El intervalo de confianza es:

X 1  X 2   Z1 / 2 *  X1  X 2  1  2   X 1  X 2   Z1 / 2 * X1  X 2
 12  22
Donde:  X 1 X2
 
n1 n2

Caso IIA: Normal-Muestras independientes, Varianzas poblacionales


desconocidas pero iguales (  12   22 )

El intervalo de confianza es:

X 1  X 2   t1 / 2;v * S X1  X 2  1  2   X 1  X 2   t1 / 2;v * S X1  X 2

Donde: v  n1  n2  2 es el grado de libertad.

S X1  X 2 
 n1  1 * s12   n2  1 * s22  1 1 
  
n1  n2  2  n1 n2 

Caso IIB: Normal-Muestras independientes, Varianzas poblacionales


desconocidas y diferentes (  12   22 )

El intervalo de confianza es:

X 1  X 2   t1 / 2;v * S X1  X 2  1  2   X 1  X 2   t1 / 2;v * S X1  X 2

Donde:
2
 S12 S22 
 n 
n2 
  2
1
2 2 Es el grado de libertad, que toma un valor numérico
 S1   S2 
2 2

 n  n 
 1

2

n1  1 n2  1
redondeado entero.

s12 s22
S X1  X 2  
n1 n2

Distribución de la proporción muestral


Vamos a considerar que tenemos una población de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo p . De la población
vamos a extraer una muestra de tamaño n .
Entonces,
n
X   xi  B  n, p 
i 1

x
y la proporción de éxito en la muestra es pˆ 
n

Luego se cumple:

a)  pˆ  E ( pˆ )  p

p(1  p)
b)  p2ˆ  V ( pˆ ) 
n

c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:

pˆ  p
z  N (0,1)
pq
n

Nota: (Error estándar o Error típico de la proporción muestral)


pq p y q conocidos
 p̂  Tamaño de población (N) demasiado grande o
n infinita.
p y q conocidos
pq  N  n 
 pˆ    Tamaño de población (N) conocido o finita.
n  N 1 
ˆˆ
pq p y q desconocidos, entonces p  pˆ y q  qˆ
S pˆ  Tamaño de población (N) demasiado grande o
n infinita.
ˆ ˆ  N n
pq p y q desconocidos, entonces p  pˆ y q  qˆ
S pˆ    Tamaño de población (N) conocida o finita.
n  N 1 

Intervalo de Confianza para una Proporción


En este caso, interesa construir un intervalo de confianza para una proporción o un
porcentaje poblacional (por ejemplo, el porcentaje de personas con hipertensión,
fumadoras, etc.)

Donde, p es el porcentaje de personas u objetos con la característica de interés en la


población (o sea, es el parámetro de interés) y p̂ es su estimador puntual muestral.

Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo


de confianza para la proporción poblacional p, con una confianza de 1   .

ˆ  Z1 / 2 *  pˆ  p  p
p ˆ  Z1 / 2 *  pˆ

Donde:
x
pˆ 
n
qˆ  1  pˆ

Ejemplo 1: Una compañía que fabrica pastelillo desea estimar la proporción de


consumidores que prefieran su marca. Los agentes de la compañía observan a 450
compradores, del número total observado 300 compraron los pastelillos. Calcule un
intervalo de confianza del 95% para la venta de la proporción de compradores que prefieren
la marca de esta compañía.

Solución:
x: Número de consumidores que prefieren los pastelillos.
n = 450 tamaño de muestra grande
x = 300 son los que prefieren los pastelillos en la muestra
x 300
pˆ    0, 67 Es la proporción puntual muestral que prefieren los pastelillos
n 450
qˆ  1  pˆ  1  0, 67  0,33 Es la proporción puntual muestral de los que no prefieren los
pastelillos.
Coeficiente de confianza 1   = 0,95   = 0,05
Z1 / 2  Z 0,975 = 1,96
ˆˆ
pq 0,67*0,33
 pˆ    0,022
n 450

Reemplazando en el intervalo de confianza se tiene:


ˆ  Z1 / 2 *  pˆ  p  p
p ˆ  Z1 / 2 *  pˆ

0,67 – 1,96 * 0,022  p  0,67 + 1,96 * 0,022


0,63  p  0,71

Interpretación: La proporción de consumidores que prefieren la marca de la compañía


por parte de los consumidores se estima entre 0,63 a 0,71, con una confianza del 95%.

Tamaño de muestra

Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que si p
se estima por p̂ , el error de estimación no sea mayor que un valor dado e. En efecto:

 Tamaño de población (N) demasiado


grande o infinita.
 Si p y q son desconocidas, se estima por p̂
Z12 / 2 * pq
n y q̂ hallados a partir de una muestra
e2 piloto.
 En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.
 Tamaño de población (N) conocida o finita
 Si p y q son desconocidas, se estima por p̂
Z12 / 2 * pq * N y q̂ hallados a partir de una muestra
n 2 piloto.
Z1 / 2 * pq  e2 ( N  1)  En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.

You might also like