Unidad 3.1. Estadistica Descriptiva-Muestreo-Medidas

ESTADISTICA. FCE.
UBA Unidad 3
Prof. LAURA POLOLA

1
UNIDAD 3. LA INFERENCIA INDUCTIVA

Introduccin a la Estadstica Descriptiva

Estadstica como herramienta de investigacin

La principal y ms acabada funcin de la Estadstica es realizar inferencias a partir
de datos colectados. Los mtodos estadsticos se aplican en todas las etapas de
una investigacin, desde el diseo de la misma hasta el anlisis final de los datos.

Podemos distinguir tres grandes etapas:
1. Diseo: Planeamiento de la investigacin en funcin de la problemtica
2. Descripcin: Exploracin y resumen de los datos
3. Inferencia: Predicciones y toma de decisiones sobre las caractersticas de
una poblacin, en base a la informacin reunida en una muestra de la
poblacin.

En la etapa de Diseo se define cmo se desarrollar la investigacin, es decir su
plan de accin. Un diseo bien realizado incluye la determinacin de qu datos
resultan relevantes para ser recolectados o registrados en pos de responder las
preguntas que originaron el estudio.

Como parte del trabajo se definirn la poblacin objetivo, los tamaos de muestra,
los mecanismos de seleccin de individuos, los criterios de inclusin y exclusin
de sujetos, los mtodos de tratamientos, las variables que se medirn y cmo se
entrenar al equipo de trabajo para el cumplimiento del protocolo.

Los mtodos de Anlisis Exploratorio o Estadstica Descriptiva ayudan a
comprender la estructura de los datos, de manera de detectar tanto un patrn de
comportamiento general como apartamientos del mismo. Esto es vital ya que
apunta a determinar qu modelo terico puede implementarse como marco de
trabajo formal.

Una forma de realizar esto es mediante grficos de sencilla elaboracin e
interpretacin. Otra forma de describir los datos es resumindolos en uno, dos o
ms nmeros medidas que caractericen al conjunto de datos con fidelidad.

Finalmente, la Inferencia Estadstica nos permite tanto hacer predicciones y
estimaciones como decidir entre dos hiptesis opuestas relativas a la poblacin de
la cual provienen los datos (test de hiptesis).

ESTADISTICA. FCE. UBA Unidad 3
Prof. LAURA POLOLA

2
Estadstica Descriptiva

Examinar los datos en forma descriptiva implica trabajar con el fin de:
Organizarlos
Sintetizarlos
Reconocer sus caractersticas ms relevantes
Presentar la informacin de forma resumida

Los conceptos ms importantes en el contexto de estos anlisis son:

Unidad de anlisis o de observacin: objeto bajo estudio. Puede ser una persona,
una familia, un pas, una institucin o en general, cualquier objeto o hecho.
Poblacin: conjunto que incluye la totalidad de las unidades de anlisis sobre las
que se centra el estudio
Muestra: cualquier subconjunto de sujetos o unidades de anlisis de la poblacin
en estudio.
Variable: cualquier caracterstica de la unidad de observacin que interese
registrar y que en el momento de ser registrada puede ser transformada en un
nmero.
Valor de una variable, Dato, Observacin o Medicin: nmero que describe a la
caracterstica de inters en una unidad de observacin particular.
Caso o Registro: conjunto de mediciones realizadas sobre una unidad de
observacin.

Muestreo
En ocasiones en que no es posible o conveniente realizar un censo (analizar a
todos los elementos de una poblacin), se selecciona una muestra, con el objetivo
que resulte una parte representativa de la poblacin.
Una muestra se dice que es representativa de una poblacin cuando rene todas
las caractersticas presentes en la poblacin de origen respetando la forma en que
stas se manifiestan.
Por ejemplo, en un subconjunto de personas donde aparecen slo hombres si fue
tomado de una poblacin que presenta aproximadamente la misma cantidad de
hombres que de mujeres, esa muestra no se puede considerar representativa ya
que no puede ser considerada como la poblacin en miniatura en trminos de su
extensin.
Segn el tipo de tratamiento que se d a los datos recolectados, los resultados
obtenidos pueden carecer de todo valor si la muestra no es representativa. En
ciertos contextos de trabajo, este rasgo no es imprescindible pero s lo es cuando
se trabaja con probabilidades, ya que se supone un contexto de aleatoriedad que
ya veremos cmo se determina.

Tipos de muestreo
Existen diferentes criterios de clasificacin de los diferentes tipos de muestreo,
aunque en general suelen dividirse en dos grandes grupos: mtodos de muestreo
probabilsticos y mtodos de muestreo no probabilsticos.

A. Muestreo probabilstico
Los mtodos de muestreo probabilsticos son aquellos que se basan en el
principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra
Prof. LAURA POLOLA

3
y, consiguientemente, todas las posibles muestras de tamao n tienen la misma
probabilidad de ser seleccionadas. Slo estos mtodos de muestreo
probabilsticos nos aseguran la representatividad de la muestra extrada y son, por
tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos
encontramos los siguientes tipos:

Muestreo aleatorio simple: El procedimiento empleado es el siguiente: se asigna
un nmero a cada individuo de la poblacin y a travs de algn medio mecnico
(bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios
generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como
sea necesario para completar el tamao de muestra requerido. Este
procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica
cuando la poblacin que estamos manejando es muy grande.
Muestreo aleatorio sistemtico: Este procedimiento exige, como el anterior,
numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros
aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un
nmero elegido al azar, y los elementos que integran la muestra son los que
ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k. El riesgo este tipo de muestreo est
en los casos en que se dan periodicidades en la poblacin ya que al elegir a los
miembros de la muestra con una periodicidad constante (k) podemos introducir
una homogeneidad que no se da en la poblacin.

Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los
anteriores ya que simplifican los procesos y suelen reducir el error muestral para
un tamao dado de la muestra. Consiste en considerar categoras tpicas
diferentes entre s (estratos) que poseen gran homogeneidad respecto a alguna
caracterstica (se puede estratificar, por ejemplo, segn la profesin, el municipio
de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de
muestreo es asegurarse de que todos los estratos de inters estarn
representados adecuadamente en la muestra. Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio
simple o el estratificado para elegir los elementos concretos que formarn parte de
la muestra.

Muestreo aleatorio por conglomerados: Los mtodos presentados hasta ahora
estn pensados para seleccionar directamente los elementos de la poblacin, es
decir, que las unidades mustrales son los elementos de la poblacin.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos
de la poblacin que forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc., son conglomerados naturales.

B. Mtodos de muestreo no probabilsticos
A veces, para estudios exploratorios, el muestreo probabilstico resulta
excesivamente costoso y se acude a mtodos no probabilsticos, aun a conciencia
de que no sirven para realizar generalizaciones pues no se tiene certeza de que la
muestra extrada sea representativa.
Entre los mtodos de muestreo no probabilsticos ms utilizados en investigacin
encontramos:

Muestreo por cuotas: Tambin denominado en ocasiones "accidental". Se asienta
generalmente sobre la base de un buen conocimiento de los estratos de la
Prof. LAURA POLOLA

4
poblacin y/o de los individuos ms "representativos" o "adecuados" para los fines
de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carcter de aleatoriedad de aqul.

Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por
un esfuerzo deliberado de obtener muestras "representativas" mediante la
inclusin en la muestra de grupos supuestamente tpicos.

Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y
estos a otros, y as hasta conseguir una muestra suficiente.

Muestreo Discrecional: A criterio del investigador los elementos son elegidos
sobre lo que l cree que pueden aportar al estudio.

Resumen

Ventajas e inconvenientes de los distintos tipos de muestreo probabilstico
Caractersticas Ventajas Inconvenientes
Aleatorio simple
Se selecciona una
muestra de tamao n
de una poblacin de
N unidades, cada
elemento tiene una
probabilidad de
inclusin igual y
conocida de n/N.

Sencillo y de fcil
comprensin.
Clculo rpido de
medias y varianzas.
Se basa en la teora
estadstica, y por
tanto existen
paquetes informticos
para analizar los
datos

Requiere que se
posea de antemano
un listado completo
de toda la poblacin.
Cuando se trabaja
con muestras
pequeas es posible
que no represente a
la poblacin
adecuadamente.
Sistemtico
Conseguir un listado
de los N elementos de
la poblacin
Determinar tamao
muestral n.
Definir un intervalo k=
N/n.
Elegir un nmero
aleatorio, r, entre 1 y k
(r= arranque
aleatorio).
Seleccionar los
elementos de la lista.

Fcil de aplicar.
No siempre es
necesario tener un
listado de toda la
poblacin.
Cuando la poblacin
est ordenada
siguiendo una
tendencia conocida,
asegura una
cobertura de unidades
de todos los tipos.

Si la constante de
muestreo est
asociada con el
fenmeno de inters,
las estimaciones
obtenidas a partir de
la muestra pueden
contener sesgo de
seleccin
Estratificado
En ciertas ocasiones
resultar conveniente
estratificar la muestra
segn ciertas
variables de inters.
Para ello es preciso
conocer la
composicin
estratificada de la
poblacin objetivo

Tiende a asegurar
que la muestra
represente
adecuadamente a la
poblacin en funcin
de sus caractersticas
de inters.

Se ha de conocer la
distribucin en la
poblacin de las
caractersticas ms
relevantes.

Prof. LAURA POLOLA

5
Procesamiento y representacin de datos cuantitativos
1

Luego de realizado el proceso de muestreo aplicado sobre la poblacin en estudio
se realiza la seleccin de variables a analizar en el estudio descriptivo.

Las variables pueden identificarse con las caractersticas que se desean estudiar
en los individuos de la poblacin.
Dado que existen diferentes tipos de variables que, en base a esto, reciben
diferente tratamiento, resumimos en el siguiente cuadro las principales
caractersticas de cada una y las herramientas mediante las que sern
procesadas.

Tipos de variables Tabla de frecuencias: Tipo de grfico:
Discretas:
Surgen de un conteo
Simples: f
i
f
r
f
%
Bastones
Acumuladas: F
i
F
r
F
%
Escalones
Continuas:
Surgen de una
medicin
Simples: f
i
f
r
f
%
Histograma y
Polgono de frecuencias
Acumuladas: F
i
F
r
F
%

Ojiva o
Polgono de frecuencias
acumuladas

Se denomina n a la cantidad de datos observados y con f (minscula) se indican
las frecuencias simples siendo f
i
la frecuencia absoluta que representa el nmero
de veces que aparece cada dato en la muestra;

f
r
es la frecuencia relativa que se
obtiene haciendo f
i
/n y f
%
es la frecuencia porcentual que se calcula haciendo
f
r
.100%.
Con F (mayscula) se indican las frecuencias acumuladas que contabilizan las
frecuencias simples correspondientes a cada valor de la variable y a todos los
anteriores.

Diagrama de bastones: Nos da una primera aproximacin rpida a la distribucin
de los datos sin perder de vista las observaciones. Se aplica especialmente a
pocos datos o a variables discretas.

Ejemplo: La siguiente tabla contiene 45 observaciones (n=45) correspondientes al
nmero de interrupciones en una seal de un radioemisor durante un da de
trabajo:

96 93 88 117 127 95 113 96 138
108 94 148 156 139 142 94 107 124
125 155 155 103 112 127 117 120 113
112 135 132 111 125 104 106 139 103
134 119 97 89 118 136 125 143 120

A continuacin se ve cmo se organizan los datos en una tabla de frecuencias y
cmo se representan en un diagrama de bastones:

1
Se obviar aqu el tratamiento de datos cualitativos por no ser el tema de mayor inters a tratar. Las
tcnicas e interpretaciones se encuentran en bibliografa bsica estadstica de uso comn.
Prof. LAURA POLOLA

6
Grfico de Puntos
0
0,5
1
1,5
2
2,5
3
3,5
75 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 155 160
Duracin en minutos
N
m
e
r
o

d
e

c
a
s
o
s
Diagrama de bastones

Qu podemos ver en este tipo de diagrama?
Rango de las observaciones, valores mximo y mnimo.
Forma de la distribucin: simetra, asimetra a derecha, la
asimetra a izquierda y cuntos picos tiene la distribucin.
Posicin central de la distribucin y concentracin de los
datos.
Desviaciones muy marcadas respecto al comportamiento
general: outliers o valores atpicos.

Histograma: se utiliza especialmente para variables continuas o cuando se trabaja
con un nmero grande de datos

Se divide el rango de los datos en intervalos o clases, que no se superpongan.
Las clases deben ser excluyentes y exhaustivas.
Se cuenta la cantidad de datos en cada intervalo o clase, es decir la frecuencia
absoluta simple. Tambin se puede usar para cada intervalo la cantidad total de
datos o la frecuencia relativa que se obtiene dividiendo la cantidad de casos
comprendidos en l sobre el total (n).
Se grafica el histograma en un par de ejes coordenados representando en las
abscisas los intervalos y sobre cada uno de ellos un rectngulo cuya rea sea
proporcional a la frecuencia relativa de dicho intervalo.

Observaciones:

No existen criterios ptimos para elegir la cantidad de intervalos. En general,
entre 8 y 15 intervalos deberan ser suficientes. Utilizar muchos o muy pocos
intervalos puede ser poco informativo. Se debe buscar un equilibrio entre un
histograma muy irregular y uno demasiado suavizado.
No es necesario que todos los intervalos tengan la misma longitud, pero es
recomendable que as sea. Esto facilita su interpretacin.
El histograma representa la frecuencia simple a travs del rea y no a travs de
la altura.
Es recomendable tomar para cada intervalo como altura del rectngulo a la
frecuencia relativa. De esta manera el rea total es equivalente a 1 y dos
histogramas son fcilmente comparables independientemente de la cantidad de
observaciones en las que se basa cada uno.

X f fr
88 1 0,0222
89 1 0,0222
93 1 0,0222
94 2 0,0444
95 1 0,0222
96 2 0,0444
97 1 0,0222
103 2 0,0444
104 1 0,0222
106 1 0,0222
107 1 0,0222
108 1 0,0222
111 1 0,0222
112 2 0,0444
113 2 0,0444
117 2 0,0444
118 1 0,0222
119 1 0,0222
120 2 0,0444
124 1 0,0222
125 3 0,0667
127 2 0,0444
132 1 0,0222
134 1 0,0222
135 1 0,0222
136 1 0,0222
138 1 0,0222
139 2 0,0444
142 1 0,0222
143 1 0,0222
148 1 0,0222
155 2 0,0444
156 1 0,0222
Total (n) 45 1,0000
N de interrupciones (X)
Prof. LAURA POLOLA

7
Histograma de frecuencias absolutas
0
2
4
6
8
10
12
14
16
[84, 86) [86, 88) [88, 90) [90,92) [92,94) [94,96) [96,98)
Ejemplo: Los siguientes datos corresponden a la medicin de Porcentajes de
Octanos en naftas:

85,3 87,5 87,8 88,5 89,9 90,4 91,8 92,7 86,7 87,8 88,2 88,6 90,3 91,0
91,8 93,2 88,3 88,3 89,0 89,2 90,4 91,0 92,3 93,3 89,9 90,1 90,1 90,8
90,9 91,1 92,7 93,4 91,2 91,5 92,6 92,7 93,3 94,2 94,7 94,2 95,6 96,1

Los agrupamos en 7 clases:

Para determinar el ancho de cada intervalo se divide el rango R= Mx-Mn=
=96,1-85,3=10,8 por la cantidad de intervalos a utilizar 10,8/7=1,542 siempre se
redondea hacia arriba. Como el ancho total de los intervalos ahora es de 14 se
reparte el excedente a los extremos de la distribucin.

En general, si el histograma es muy irregular puede ser imposible descubrir la
forma o comportamiento de fondo de la variable. En ese caso es conveniente
tomar intervalos ms anchos.

Qu formas puede tener un histograma?

Un aspecto a tener en cuenta en la distribucin de los datos es la simetra. Un
conjunto de datos que no se distribuye simtricamente, se dice que es asimtrico.
La asimetra puede verse en el Histograma y tambin puede apreciarse a travs
de la posicin relativa entre algunas medidas que veremos ms adelante, como la
media y mediana.

A continuacin se ven algunas de las formas posibles de un histograma:

Clase Frec. abs. f
i
Frec. relativa f
ri

[84, 86) 1 0.02380952
[86, 88) 4 0.09523810
[88, 90) 9 0.21428571
[90,92) 14 0.33333333
[92,94) 9 0.21428571
[94,96) 4 0.09523810
[96,98) 1 0.02380952
Total 42 1
Prof. LAURA POLOLA

8

Medidas de Resumen
Resumiremos la informacin de los datos provenientes de variables numricas
mediante medidas de fcil interpretacin que reflejen sus caractersticas ms
relevantes. La medida a elegir depender de cada problema. No se mencionan
todas las que existen, slo se trabajarn aquellas que necesitamos para realizar
tareas de inferencia estadstica.

Medidas de Posicin o Centrado
Un modo de resumir un conjunto de datos numricos es a travs de un nmero
que represente a todos, en el sentido de ser un valor tpico para el conjunto.
La pregunta que intentamos responder es: Cul es el valor central o que mejor
representa a los datos?

Supongamos que tenemos un conjunto de n datos que genricamente
representaremos por: x
1
, x
2
,......, x
n

Promedio o Media Muestral:
1
i
k n
x
X
n
s s
=

Es el punto de equilibrio del conjunto de datos.

Ejemplo: Supongamos que las observaciones son: 1, 2, 2, 3. En este caso X = 2.
Si reemplazamos el valor 3 por 7, las observaciones son: 1, 2, 2, 7 y X = 3.

- La media muestral es una medida muy sensible a la presencia de datos
anmalos atpicos (outliers).

Mediana Muestral: Es una medida del centro de los datos en tanto divide a la
muestra ordenada en dos partes de igual tamao. Deja la mitad de los datos a
cada lado.

Sean los estadsticos de orden muestrales (esto es equivalente al ordenamiento
en forma creciente de las observaciones): x
(1)
x
(2)
x
(3)
x
(n)

Definimos como mediana a:
1
( )
2
( /2) ( /2 1)
si n es impar
si n es par
2
+
+
=

+
n
n n
x
Me
x x

Prof. LAURA POLOLA

9
- La mediana es resistente a la presencia de datos atpicos.

Ejemplos:
1) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7, 6. Como n = 9, (n+1)/2 = 5.
Es decir el dato central ser x
(5)
es decir, el dato ubicado en 5 lugar.

Ordenando la muestra: 2 3 4 5 6 6 7 7 8, entonces Me = 6.
x
(5)

2) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7. Como n = 8, n/2 = 4 y por
lo tanto la mediana muestral es el promedio de las observaciones que ocupan las
posiciones 4 y 5 en la muestra ordenada: 2 3 4 5 6 7 7 8, entonces Me= 5,5
Me

Si la distribucin es simtrica la mediana y la media identifican al mismo punto.
Sin embargo, si la distribucin de los datos es asimtrica, la relacin entre ambas
en general sigue el siguiente patrn:

Asimetra derecha (cola larga hacia la derecha) Me< X
Asimetra izquierda (cola larga hacia la izquierda) X < Me

Con esto se observa que la media es llevada hacia donde se presenta la
asimetra dada la existencia de datos extremos en esa zona de la distribucin.

Medidas de Dispersin o Variabilidad

Cun dispersos estn los datos? Cun cercanos son los datos al valor central?
Analicemos los dos conjuntos de datos siguientes y calculemos para cada uno de
ellos su media y su mediana:

Muestra 1 X: 0 2 6 7 10
Muestra 2 Y: 2 3 6 6 8

Resultan X = Y = 5 y Me
X
= Me
Y
= 6
A pesar de tener igual media e igual mediana, los conjuntos de datos difieren en
su distribucin Cmo medir la diferencia observada?

Rango Muestral: Es la diferencia entre el valor ms grande y el ms pequeo de
los datos: Rango = mx(X
i
) mn(X
i
)

Ejemplo: en nuestros conjuntos de datos: Rango (X)= 10 y Rango(Y)= 6
Prof. LAURA POLOLA

10

Esta medida es muy sensible a la presencia de datos lejanos o atpicos. Adems
no capta la dispersin interna del conjunto de datos.

Otras medidas de variabilidad son:

Varianza Muestral: Mide la variabilidad de los datos alrededor de la media
muestral.

2
2 1
( )
1
n
i
i
X X
s
n
=

=

Desvo Estndar Muestral =
2
s s =

Ejemplo: En los dos conjuntos de datos anteriores obtenemos:

s
2
x
= 20,5 s
x
= 4,258
s
2
y
= 12,5 s
y
= 3,536

El desvo estndar tiene las mismas unidades que los datos, mientras que la
varianza no.
Al basarse en promedios, estas medidas son sensibles a la presencia de
datos atpicos.

Coeficiente de Variacin: Es una medida que relaciona el desvo estndar con la
media de una muestra.
s
CV
X
=

Esta medida se utiliza generalmente para comparar la variabilidad relativa de dos
o ms distribuciones. Como se calcula la razn entre el desvo respecto a su
media, las variables de CV ms pequeos resultan ms homogneas o
consistentes, es decir sus datos son ms prximos o similares.

Conclusin:

En la presentacin de las medidas muestrales que se indicaron hasta aqu se
definieron los llamados estadsticos muestrales que informan acerca de
caractersticas interesantes de un conjunto de datos como su posicin, dispersin
o variabilidad, simetra y la existencia de datos atpicos.

A partir de estudios descriptivos es deseable obtener informacin de calidad de la
poblacin de la que proviene la muestra de referencia. A continuacin veremos
cmo se relacionan los estadsticos muestrales con sus respectivas medidas
poblacionales en trminos probabilsticos.

Prof. LAURA POLOLA

11

Parmetros y estimadores

La estadstica provee tcnicas que permiten obtener conclusiones generales a
partir de un conjunto limitado pero representativo de datos: una muestra
aleatoria. Cuando inferimos no tenemos garanta de que la conclusin que
obtenemos sea exactamente correcta. Sin embargo, la estadstica permite
cuantificar el error asociado a la estimacin.

La mayora de las distribuciones de probabilidad dependen de cierto nmero de
parmetros.

Por ejemplo: P(), Bi(n,p), N(,
2
), etc. Salvo que estos parmetros se conozcan,
deben estimarse a partir de los datos relevados muestralmente.

El objetivo de la estimacin puntual es tomar una muestra para obtener nmeros
que, en algn sentido, sean los que mejor representan a los verdaderos valores
de los parmetros de inters.

Supongamos que se selecciona una muestra de tamao n de una poblacin.
Antes de obtener la muestra no sabemos cul ser el valor de cada observacin.
As, la primera observacin puede ser considerada una variable aleatoria X
1
, la
segunda una variable aleatoria X
2
, etc. Por lo tanto, antes de obtener la muestra
denotaremos X
1
, X
2
,...., X
n
a las observaciones y, una vez obtenida la muestra los
valores observados los denotaremos x
1
, x
2
,...., x
n
.(en minscula)

Del mismo modo, antes de obtener una muestra, cualquier funcin de ella ser
una variable aleatoria, por ejemplo:
2
1
, , ,max( ,....., )
n
X Me S X X

Def.: Un estimador puntual de un parmetro es un valor que puede ser
considerado representativo de y se indicar
u . Se obtiene a partir de alguna

funcin de la muestra.

Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado
100 veces en forma independiente, obtenindose 21 ases. Qu valor podra
utilizarse, en base a esa informacin, como estimacin de la probabilidad de as?
Parece razonable utilizar la frecuencia relativa de ases.
En este caso, si llamamos p a la probabilidad que queremos estimar,
p = 0,21

Mtodos de estimacin puntual
Cmo obtener estimadores para un problema dado? Comentaremos dos
mtodos habituales que proporcionan estimadores puntuales: el mtodo de
momentos y el mtodo de mxima verosimilitud.

Mtodo de momentos: La idea bsica consiste en igualar ciertas caractersticas
muestrales con las correspondientes caractersticas poblacionales. Recordemos la
definicin de momento de orden k (k e N) o momento poblacional de orden k a
E(X
k
), si esas esperanzas existen.

Prof. LAURA POLOLA

12
Momentos poblacionales de orden k Momentos muestrales de orden k
Caso Discreto: ( ) ( )
X
k k
x R
E X x p x
e
=

Caso Continuo: ( ) ( )
X
k k
x R
E X x f x dx
e
=
}

Def:
1
( )
k
j
j n k
x
E X
n
s s
=

Como ya hemos visto cuando estudiamos la nocin de momentos de una variable
aleatoria, los momentos estn relacionados con los parmetros de la distribucin
asociada.

Def: Sea X
1
, X
2
,, X
n
una muestra aleatoria de una distribucin con funcin de
probabilidad puntual o funcin de densidad que depende de m parmetros
1
,
2
,,
m
. Los estimadores de momentos de
1
,
2
,,
m
son los valores
1 2

, , ,
m
u u u . que se obtienen igualando m momentos poblacionales con los
correspondientes momentos muestrales. En general, se obtienen resolviendo el
siguiente sistema de ecuaciones:

1
( ) ( )
k
j
j n k
k
x
E X m X
n
s s
= =
con k=1, 2, , m

Aplicacin del mtodo del los momentos

A partir del planteo de las ecuaciones para los los momentos de primeros rdenes
comienzan a obtenerse algunos de los estimadores puntuales ms importantes:

1
1
( ) ( )
j
j n
x
m X E X X X
n

s s
= = = =

2 2 2
1 1 1 2 2 2 2 2 2
2
2 2 2 2
2
1 1 1 1 1 1 2 2
2
2 2
1 1 2
( ) ( ) ( )
2
2 .
( 2 ) ( ) (
j j j
j n j n j n
j j j j j
j n j n j n j n j n j n
j j j j
j n j n
x x x
m X E X E X
n n n
x x x x Xx X
nX
X X
n n n n n n n
x Xx X x X x X
n n
o o
o
o
s s s s s s
s s s s s s s s s s s s
s s s s
= = = + = = =
= = + = + =
+
= = =

2
1 2
)
j n
n
s
n
s s
=

De esta manera surgen estimadores para la media y la varianza
2
como
parametros poblacionales a partir de los dos primeros momentos absolutos.
Vemos hasta aqu, que los estimadores seran las medidas muestrales ya
estudiadas.

Si la distribucin sobre la que se trabaja tiene ms de dos parmetros deben
considerarse ms igualdades entre momentos muestrales y poblacionales: tantos
como parmetros se desee estimar.

Prof. LAURA POLOLA

13
Mtodo de mxima verosimilitud: Este mtodo fue introducido por Fisher en la
dcada de 1920. Se basa en la idea de, dada una muestra, hallar los valores de
los parmetros que hacen que la probabilidad de obtener dicha muestra sea
mxima.

Para desarrollar este mtodo es necesario definir la siguiente funcin.

Funcin de verosimilitud
Si X
i
(1in) son variables aleatorias discretas con funcin de probabilidad
conjunta P
x
(x
1
,x
2
,,x
n
) que depende de m parmetros
1
,
2
,,
m
, se define la
funcin de verosimilitud L como la probabilidad de obtener los datos observados
L(x
1
,x
2
,,x
n,
1
,
2
,,
m
) = P
x
(x
1
,x
2
,,x
n
)

Dado que los datos observados son valores conocidos se constituye una funcin
que depende de los parmetros desconocidos de la poblacin.

Si X
i
(1in) son variables aleatorias continuas con funcin de densidad de
probabilidad conjunta f
x
(x
1
,x
2
,,x
n
) que depende de m parmetros
1
,
2
,,
m
, la
funcin de verosimilitud L es:
L(x
1
,x
2
,,x
n,
1
,
2
,,
m
) = f
x
(x
1
,x
2
,,x
n
)

Suponiendo que las X
i
(i=1,.,n) son independientes, la funcin de verosimilitud
puede factorizarse, con lo que resulta

L(x
1
,x
2
,,x
n,
1
,
2
,,
m
) = P(x
1
) P(x
2
). P(x
n
)
o
L(x
1
,x
2
,,x
n,
1
,
2
,,
m
) = f(x
1
) f(x
2
). f(x
n
)

Def. Los estimadores de mxima verosimilitud (EMV) de
1
,
2
,,
m
son los
valores
1
,
2
,
m
que maximizan la funcin de verosimilitud L(x
1
,x
2
,,x
n,
1
,
2
,,
m
), es decir que hacen mxima la funcin de probabilidad conjunta.

Dada la estructura multiplicativa de la funcin de verosimilitud para hallar su
ptimo el valor que la maximiza- veremos en un ejemplo cmo se desarrolla su
anlisis.

Ejemplo para la estimacin de un nico parmetro

Suponiendo que independientemente de lo que sucede el resto de los das, el
nmero de personas que entran a una financiera (en un determinado horario)
tiene una distribucin de Poisson con media desconocida.
Suponiendo adems que el primer da observado entran 5 personas y el segundo
y ltimo da 8 personas, la funcin de verosimilitud es:

L(x
1
,x
2
, )= L(5,8
,
) =

Para encontrar el estimador de mxima verosimilitud de debemos maximizar la
funcin
L(5,8
,
) =

Prof. LAURA POLOLA

14
Maximizar esta funcin L es equivalente a maximizar el logaritmo de la funcin (ln
L) ya que el logaritmo es una funcin montona creciente y conservar el ptimo
original de la funcin L para el mismo valor del argumento , con la ventaja de
tener una expresin aditiva para ser derivada ms cmodamente. Se obtiene
entonces la funcin
ln L(5,8
,
) = ln

= -2 + 13 ln() ln (5! 8!)
Para hallar el valor que hace mxima esta funcin, se deriva respecto de y
luego se iguala la derivada a cero.

Obtuvimos que el estimador de mxima verosimilitud de es
.
Vale decir que para la muestra de referencia, donde x
1
= 5 y x
2
=8 el valor
estimado de obtenido coincide con la media muestral

Propiedadad: La proporcin muestral de xitos es un estimador de mxima
verosimilitud de la proporcin poblacional (verificar)

i
i
X
k
p
n n
= = =

Sugerencia: considerar una muestra de n variables Bernoulli o sea X
i
Be(
(1, por lo tanto p(x
i
)=
x
(1-)
1-x

Ejemplo para la estimacin de dos parmetros de una distribucin
Supongamos que X
i
~ N(,
2
) o sea todas igualmente distribuidas. Dada una
muestra aleatoria { X
1
, X
2
,, X
n
} equivale a tener una sucesin de variables
independientes, entonces la funcin de probabilidad conjunta resulta:
2
i
2
1 n 1 n
(x )
2
x ...x 1 n x 1 x n i
1
f (x ,..., x ) f (x ).....f (x ) con f(x ) e
2

= =
Como los valores x
i
provienen de la muestra aleatoria, los parmetros a estimar
son y a partir de la funcin de verosimilitud que adopta el siguiente formato:

o bien

Maximizar esta funcin es equivalente a maximizar su logaritmo, como en el caso
anterior

Para encontrar los valores de que maximizan esta funcin se deben calcular
las derivadas parciales:

Prof. LAURA POLOLA

15

Luego igualarlas a cero y despejando los parmetros y para los siguientes
estimadores (verificar):

Los estimadores de mxima verosimilitud obtenidos de los parmetros =E(X) y
2
=V(X) de una distribucin normal vuelven a ser como en el mtodo de
momentos, la media y varianza muestrales. Destacamos que se trata del caso
particular de la distribucin normal ya que en este mtodo EMV la distribucin de
la variable es determinante a la hora de hallar los estimadores, no siendo as en el
caso del mtodo de los momentos donde las identidades se establecen entre los
momentos de diferentes rdenes para cualquier distribucin.

Propiedades de los estimadores

Observemos que cuando se determina
u como estimador puntual del parmetro

de una distribucin de probabilidad, surge en base a una muestra X
1
, X
2
,, X
n
,
por lo tanto es una variable aleatoria. De ah que ms adelante se considerar su
distribucin en probabilidad
La diferencia
u u se define como error de estimacin y una estimacin ser ms

precisa cuanto menor sea este error. Este error es tambin una variable aleatoria
dado que depende de la muestra obtenida. Una propiedad deseable es que la
esperanza del error sea 0, es decir que en promedio el error obtenido al estimar
a partir de diferentes muestras sea cero.

Def: Un estimador puntual
u del parmetro es insesgado si
( ) E u u u =

Si
u no es insesgado, se denomina sesgo de
u a b(
u ) = E
u ) -
Por lo tanto, un estimador es insesgado si su distribucin tiene como valor
esperado al parmetro a estimar.

u del parmetro basado en una muestra X

1
, X
2
,, X
n
es asintticamente insesgado si el sesgo disminuye a medida que sta aumenta
su tamao, es decir
( )
n
E
u
u u u

Obs.: Dada X con E(X)= y V(X)=
2
veamos que los estimadores X = y s
2
n
=
2
o resultan el primero insesgado pero el segundo no.

Dem:
Prof. LAURA POLOLA

16

( ) ( )
( )
X E X E X
n
E X E
n n n n n

| |
= = = = = =
|
|
\ .

X es insesgado.

Para lo que sigue es preciso estudiar la varianza del estimador X que resulta:

2
2 2
2 2 2 2
( ) ( )
( )
X V X V X
n
V X v
n n n n n n
o
o o
| |
= = = = = =
|
|
\ .

(La varianza se distribuye con la suma por la independencia de las variables)

Considerando
2
2 1
( )
n
i
i
n
X X
s
n
=

=

2
1 2
j
j n
x
X
n
s s
=
resulta:
2
1 2 2 2 2 2 2 2 2
2 2 2
2 2 2 2 2 2 2 2
1 1
( ) ( ) ( )
1 1
j
j n
n x X
x
E s E X E x E X
n n n
n
n n
n n n n n
o o
o o o
o o o o
s s
| |
|
( ( = = = = + + =
|
|
\ .
( (
( ( = + + = + + = =
( (

2 2 2
1
( )
n
n
E s
n
o o
= = por lo tanto no es insesgado, pero s resulta asintticamente

insegado.
Importante: Si se considera esta correccin del desvo muestral
2
2 1
1
( )
1
n
i
i
n
X X
s
n
=
resulta as un estimador insesgado.

Error estndar de un estimador: Al informar el resultado de una estimacin puntual
es necesario brindar informacin sobre la precisin de la estimacin.

Def: El error estndar de un estimador es su desviacin estndar, es decir:
( ) V
u
u
o u =
Si el error estndar depende de parmetros desconocidos, stos se reemplazan
por un estimador y se obtiene el error estndar estimado.

Def: Dados dos estimadores insesgados
u
1
y
u
2
del mismo parmetro
poblacional , diremos que
u
1
es ms eficiente que
u
2
si se verifica que:

2 2
1 2

( ) ( ) o u o u <

Ejemplo: Sea X
1
, X
2
,, X
n
una muestra aleatoria de una distribucin N (,
2
).
Entonces X es el EMV de y su error estndar es:
2
2
,
( )
X
V X
n
o
o
o = =

Def: Sea
u un estimador de se define su error cuadrtico medio (ECM) como:

Prof. LAURA POLOLA

17
2

( ) ( ) ECM E
u u
u u u
(
=

Si el estimador
u fuera insesgado, el error cuadrtico medio es igual a la varianza

del estimador (verificar)

Principio de estimacin de menor error cuadrtico medio: Dados dos o ms
estimadores del parmetro , se trata de elegir el de menor ECM.

Este principio se reduce, en el caso de estimadores insesgados, al de mnima
varianza entre los insesgados mencionado ms arriba, ya que el error cuadrtico
medio se reduce a la varianza cuando un estimador es insesgado. Sin embargo,
nos permite adems seleccionar, por ejemplo, entre un estimador insesgado y otro
que no lo es, en base a la varianza y al sesgo. Si el estimador sesgado tiene una
varianza mucho menor que el insesgado, podra ser preferible su uso.

u es consistente si converge en probabilidad al

parmetro (o sea
p
n
u u ), por lo tanto
( )
0, 1
n n
P c u u c

> < , es
decir que a medida que aumenta el tamao de la muestra, la probabilidad de que
se asemejan los valores del estimador
n
u y los del parmetro tiende a uno.

Propiedad: Puede verificarse adems que si
es un estimador de que cumple:

- E(
es un estimador asintticamente insesgado

- V(
0
Entonces
es un estimador consistente de .

Ejercicio: Analizar si s
2
verifica la propiedad anterior y resulta un estimador
consistente de
2
.

Resumen de propiedades de los estimadores

Estimador: Propiedades que cumple:
1
i
k n
x
X
n
s s
=

Insesgado
Es estimador de mxima verosimilitud (EMV)
Consistente

2
2 1
( )
1
n
i
i
X X
s
n
=

=

Insesgado
Consistente
i
i
X
k
p
n n
= =

Insesgado
Es estimador de mxima verosimilitud (EMV)

Unidad 3.1. Estadistica Descriptiva-Muestreo-Medidas

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Unidad 3.1. Estadistica Descriptiva-Muestreo-Medidas

Uploaded by

Copyright:

Available Formats

ESTADISTICA. FCE.

u . Se obtiene a partir de alguna

u como estimador puntual del parmetro

u u se define como error de estimacin y una estimacin ser ms

u del parmetro es insesgado si

u no es insesgado, se denomina sesgo de

u del parmetro basado en una muestra X

= = por lo tanto no es insesgado, pero s resulta asintticamente

resulta as un estimador insesgado.

u un estimador de se define su error cuadrtico medio (ECM) como:

u fuera insesgado, el error cuadrtico medio es igual a la varianza

u es consistente si converge en probabilidad al

es un estimador de que cumple:

es un estimador asintticamente insesgado

You might also like