You are on page 1of 21

7.

Distribucion en el muestreo
Estadstica
Ingeniera Informatica
Curso 2009-2010
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 1 / 21
Contenidos
1
Introduccion. Poblacion y Muestra
2
Concepto de estadstico
3
Estadsticos mas utilizados
Media muestral
Varianza muestral
Cuasivarianza muestral
Proporcion muestral
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 2 / 21
Introduccion. Poblacion y Muestra
Uno de los objetivos principales de la Estadstica es el de extraer
informacion, no solo en peque nos conjuntos de datos sino, sobre todo, en
grandes poblaciones que resulta muy difcil o imposible observar
los censos son muy costosos y requieren mucho tiempo para su
realizacion
Importancia de la Inferencia Estadstica: permite llegar a conclusiones
precisas sobre la poblacion que se considera (colecci on grande de
elementos que tienen asociadas caractersticas numericas), observando solo
una parte de ella relativamente peque na, que se denomina muestra.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 3 / 21
Introduccion. Poblacion y Muestra
Las muestras deben ser representativas de las poblaciones; en caso
contrario, las conclusiones obtenidas a partir de ellas no son ables.
En particular, la forma de elegir los elementos de la muestra puede
dar lugar a

sesgo de no respuesta: solo entra en la muestra una parte de la


poblacion, que se autoelige

sesgo de seleccion: solo entran en la muestra elementos seleccionados


con alg un criterio arbitrario
y suelen generar muestras no representativas, que producen un error
sistematico en todo el analisis estadstico.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 4 / 21
Introduccion. Poblacion y Muestra
Ejemplos de muestras no representativas
Sesgo de no respuesta
El jefe de ventas de la empresa quiere conocer el nivel de satisfaccion de
sus clientes con los ordenadores adquiridos. Se decide enviar un
cuestionario a todos los compradores del a no pasado pidiendoles que
devuelvan por correo la respuesta con su opinion sobre su ordenador. Se
recibe un 4 % de respuestas, de las que el 78 % estan insatisfechos con su
ordenador.
Se ha seleccionado la muestra mediante la respuesta voluntaria de las
personas de la poblacion y se ha producido un sesgo de no respuesta:
quienes contestan la encuesta son los mas descontentos con su compra y
quienes no tienen problemas suelen ignorar la encuesta.
Si se produce una tasa muy alta de no respuesta es necesario investigar las
causas, porque las personas que no responden pueden tener una opinion
muy diferente a la de las personas que contestan.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 5 / 21
Introduccion. Poblacion y Muestra
Ejemplos de muestras no representativas (II)
Sesgo de selecci on
Para conocer el interes por Internet de los habitantes de una ciudad, se
enva una encuesta por correo electronico. La forma de elegir la muestra
dara lugar a respuestas a favor del interes por Internet y no representa a la
totalidad de la poblacion: se ha producido un sesgo de seleccion.
Los errores introducidos por muestras no representativas se evitan si los
elementos de la poblacion se incorporan a la muestra al azar o de forma
aleatoria.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 6 / 21
Introduccion. Poblacion y Muestra
Inferencia sobre una poblacion a partir de una muestra
Es necesario asumir que existe una distribucion de probabilidad subyacente
en la poblacion:
las caractersticas numericas de la misma pueden considerarse
variables aleatorias independientes con la misma distribucion F
si X
1
, . . . , X
n
son variables aleatorias independientes con funcion de
distribucion com un F, el vector aleatorio (X
1
, ..., X
n
) constituye una
muestra aleatoria simple de la distribucion F
Nota: aunque existen otros metodos de muestreo, los resultados que
veremos corresponden unicamente al muestreo aleatorio simple.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 7 / 21
Introduccion. Poblacion y Muestra
M.A.S. con reposici on y sin reposici on
Suponer las observaciones X
1
, . . . , X
n
independientes puede entenderse:
1
de forma exacta, si cada vez que observamos un elemento lo
devolvemos a la poblacion (muestreo aleatorio con reposicion)
2
de manera aproximada, si no devolvemos el elemento a la poblacion,
pero el tama no de la poblacion es muy grande en comparacion con el
de la muestra la composicion de la poblacion se altera muy poco al
faltarle los elementos de la muestra (muestreo aleatorio sin
reposicion).
En la practica, este caso es el mas habitual.
Al tener todas las variables de la muestra la misma distribucion, la
probabilidad de que un valor dado aparezca en la muestra depende de la
probabilidad de ese valor en la poblacion la muestra es representativa.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 8 / 21
Introduccion. Poblacion y Muestra
Distribuci on de la muestra
Funcion de masa de (X
1
, ..., X
n
) (Caso discreto)
P(x
1
, ..., x
n
) = P(x
1
) . . . P(x
n
)
Funcion de densidad de (X
1
, ..., X
n
) (Caso continuo)
f (x
1
, ..., x
n
) = f (x
1
) . . . f (x
n
)
Normalmente, la distribucion de la poblacion F no se conoce
completamente y se utilizan los datos para hacer inferencia sobre F.
inferencia parametrica: se conoce el tipo de distribucion F excepto
algunos parametros desconocidos
inferencia no parametrica: no se conoce casi nada acerca de F
(excepto, quizas, si es continua o discreta).
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 9 / 21
Concepto de estadstico
Estadsticos
Una de las primeras necesidades en la inferencia es la de simplicar los
datos muestrales:.
Denici on:
Un estadstico es una funcion real T de la muestra aleatoria (X
1
, ..., X
n
).
Por tanto, un estadstico es una variable aleatoria T(X
1
, ..., X
n
):
distribucion (distribucion en el muestreo)
media
varianza
...
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 10 / 21
Estadsticos mas utilizados Media muestral
Media muestral
Tenemos una poblacion de media (media poblacional) y varianza
(varianza poblacional)
2
.
Dada la muestra aleatoria (X
1
, ..., X
n
), se dene la media muestral como

X =
X
1
+ ... + X
n
n
El valor de

X viene determinado por los valores de las variables aleatorias
de la muestra

X es una variable aleatoria.
Propiedades:
1
E
_

= (

X tiene el mismo valor esperado que X)


2
V
_

X
_
=

2
n
(su varianza es menor que la de X, siendo tanto mas
peque na cuanto mayor es n)
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 11 / 21
Estadsticos mas utilizados Media muestral
Media muestral

X es una suma de variables aleatorias independientes su distribucion se


puede aproximar, por el TCL, a una distribucion normal, cuando n :
Distribuci on en el muestreo de

X:

X
n
N(,

n
)
o tambien:

X
/

n
n
N(0, 1)
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 12 / 21
Estadsticos mas utilizados Media muestral
Ejemplo:
Los niveles de colesterol en la sangre de una poblacion de
trabajadores tiene media 202 y desviacion tpica 14. Se selecciona
una muestra de 36 trabajadores y queremos aproximar la
probabilidad de que la media muestral de sus niveles de colesterol
este comprendida entre 198 y 206.
Seg un el TCL,

X se distribuye aproximadamente como una
N( = 202,
2
=
14
2
36
=
49
9
). Haciendo Z N(0, 1):
P(198

X 206) = P
_
198 202
7/3

X 202
7/3

206 202
7/3
_
P(1,714 Z 1,714) = 0,913
Con otro tama no muestral, por ejemplo, n = 64, repetimos los calculos y
se obtiene P(198

X
64
206) 0,978, es decir, al aumentar el tama no
muestral, aumenta la probabilidad de que la media muestral diera de la
media poblacional en menos de 4 unidades.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 13 / 21
Estadsticos mas utilizados Media muestral
Media muestral
Caso particular: Distribucion de

X en una poblacion normal X N(, )
Si (X
1
, ..., X
n
) procede de una distribucion N(, ):

X es combinacion lineal de variables aleatorias normales


su distribucion en el muestreo es

X N
_
,
_

2
n
_
o tambien

X
/

n
N(0, 1)
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 14 / 21
Estadsticos mas utilizados Varianza muestral
Varianza muestral
Dada una muestra aleatoria (X
1
, ..., X
n
), se dene la varianza muestral
s
2
n
mediante
s
2
n
=
n

i =1
(X
i


X)
2
n
Al igual que

X, s
2
n
es una variable aleatoria.
Propiedades:
E
_
s
2
n

=
n 1
n

2
(la media de s
2
n
no coincide con
2
)
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 15 / 21
Estadsticos mas utilizados Cuasivarianza muestral
Cuasivarianza muestral
Para evitar el problema anterior, se dene el estadstico (variable aleatoria)
cuasivarianza muestral, mediante
s
2
n1
=
n

i =1
(X
i


X)
2
n 1
Propiedades:
E
_
s
2
n1

=
2
(la media de s
2
n1
coincide con
2
)
Nota
La notacion de la varianza y la cuasivarianza muestrales puede variar de un texto
a otro; por ejemplo, es frecuente encontrar la varianza como s
2
y la cuasivarianza
como S
2
, pero por comodidad utilizaremos la notacion empleada anteriormente.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 16 / 21
Estadsticos mas utilizados Cuasivarianza muestral
Cuasivarianza muestral
Teorema: Distribuci on en el muestreo de s
2
n1
en poblaciones normales
n s
2
n

2
=
(n 1) s
2
n1

2
=
n

i =1
(X
i


X)
2

2

2
n1
Intuitivamente, la justicacion del teorema viene dada por el hecho de que
si X
i
es una variable aleatoria N(, ), entonces
X
i

N(0, 1), y como


las X
i
son independientes, la suma de los cuadrados
n

i =1
(X
i
)
2

2

2
n
Si remplazamos la media poblacional por la media muestral

X, la nueva
variable aleatoria contin ua siendo una variable chi-cuadrado, pero pierde
un grado de libertad al hacer la sustitucion.
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 17 / 21
Estadsticos mas utilizados Cuasivarianza muestral
Cuasivarianza muestral
Propiedades:
Del teorema se deduce: V(s
2
n1
) =
2
4
n 1
Es inmediato comprobarlo, ya que:
la varianza de una chi-cuadrado es el doble de sus grados de libertad:
V
_
(n 1)s
2
n1

2
_
= 2(n 1)
por las propiedades de la varianza:
V
_
(n 1)s
2
n1

2
_
=
(n 1)
2
(
2
)
2
V(s
2
n1
) = 2(n 1) V(s
2
n1
) =
2
4
n 1
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 18 / 21
Estadsticos mas utilizados Proporcion muestral
Proporci on muestral
Hay situaciones en las que el parametro que nos interesa es una
proporcion (frecuencia con la que cierto atributo o caracterstica aparece
o esta ausente en una poblacion).
Sea una poblacion con N elementos, entre los cuales pN individuos
presentan la caracterstica que deseamos estudiar y (1 p)N individuos no
la presentan.
Representamos por T
n
el n umero total de unidades muestrales que poseen
la caracterstica de interes en la muestra (X
1
, ..., X
n
), donde cada X
i
vale 1
si se presenta la caracterstica en estudio y vale 0 en caso contrario:
T
n
B(n, p),
con p la proporcion poblacional de dicha caracterstica.
E[T
n
] = np
V(T
n
) = np(1 p)
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 19 / 21
Estadsticos mas utilizados Proporcion muestral
Proporci on muestral
Se dene el estadstico (variable aleatoria) proporcion muestral como
p =
T
n
n
Propiedades:
1
E[ p] = p
2
V ( p) =
p(1p)
n
analogamente al caso de

X, pues p es la media muestral en una poblacion
cuya caracterstica en estudio toma solo dos posibles valores: 0 y 1.
3
Por el TCL, p
n
N
_
p,
_
p(1 p)
n
_
o tambien
p p
_
p(1 p)/n
n
N(0, 1)
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 20 / 21
Estadsticos mas utilizados Proporcion muestral
Ejemplo:
El 46 % de la poblacion de una ciudad esta descontento con la
gestion realizada por el ayuntamiento. Si extraemos una muestra
aleatoria de tama no 200, cual es la probabilidad de que al menos
100 de ellos esten descontentos?
Por un lado, p = 0,46, y nos piden calcular la probabilidad de que el total
muestral de descontentos T
200
sea mayor o igual que 100, o lo que es lo
mismo, que p
100
200
= 0,5. Como
p
n
N(p,
_
p(1 p)/n)
podemos aproximar la probabilidad pedida por:
P( p 0,5) P
_
p 0,46
_
0,46 0,54/200

0,5 0,46
_
0,46 0,54/200
_
= P(Z 1,135) = 0,1281877
Estadstica (Aurora Torrente) 7. Distribucion en el muestreo Curso 2009-2010 21 / 21

You might also like