You are on page 1of 309

Apuntes de

Probabilidad y Estadstica
(Versi
on Preliminar)

CARLOS BUSTOS-LOPEZ
A los caminos que aun faltan por recorrer
siendo un peque
no saltamontes
Indice General

1 Estadstica Descriptiva 4
1.1 Fundamentos de la Investigacion
Cientfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Motivaciones y Definiciones . . . . . . . . . . . . . . . . . . . 5
1.2.1 Tipos de Variables . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Tabulacion . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Representacion Grafica . . . . . . . . . . . . . . . . . . 14
1.3 Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . 21
1.3.1 Media Armonica (H(X)). . . . . . . . . . . . . . . . . 21
1.3.2 Media Geometrica (G(X)). . . . . . . . . . . . . . . . . 22
1.3.3 Media Aritmetica o Promedio (X , x). . . . . . . . . . 22
1.3.4 Media Ponderada (P , xP ). . . . . . . . . . . . . . . . 25
1.3.5 Media Recortada en (%) . . . . . . . . . . . . . . . . . 27
1.3.6 Moda (M o(X)). . . . . . . . . . . . . . . . . . . . . . . 27
1.3.7 Mediana (M e(X)). . . . . . . . . . . . . . . . . . . . . 29
1.3.8 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4 Medidas de Posicion . . . . . . . . . . . . . . . . . . . . . . . 31
1.4.1 Mnimo (XM in ). . . . . . . . . . . . . . . . . . . . . . . 31
1.4.2 Maximo (XM ax ). . . . . . . . . . . . . . . . . . . . . . 31
1.4.3 Percentiles( Pk ). . . . . . . . . . . . . . . . . . . . . . . 32
1.4.4 Diagrama de Cajon o Box-Plot: . . . . . . . . . . . . . 34
1.5 Medidas de Variabilidad o de Dispersion . . . . . . . . . . . . 34
1.5.1 Amplitud o Rango (R). . . . . . . . . . . . . . . . . . . 35
1.5.2 Rango Intercuartil (RI). . . . . . . . . . . . . . . . . . 35
1.5.3 Desviacion Media (DM (X)). . . . . . . . . . . . . . . 35
2
1.5.4 Varianza y Desviacion Estandar (X o Var(X)). . . . . 35
1.5.5 Coeficiente de Variacion (C.V.(X)). . . . . . . . . . . . 36

1
INDICE GENERAL 2

1.6 Analisis Bivariado . . . . . . . . . . . . . . . . . . . . . . . . . 38


1.6.1 Tablas de Doble Entrada. . . . . . . . . . . . . . . . . 38
1.6.2 Analisis Condicional. . . . . . . . . . . . . . . . . . . . 39
1.6.3 Covarianza (XY o Cov(X, Y )) . . . . . . . . . . . . . . 43
1.7 Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.7.1 Coeficiente de Correlacion Lineal de Pearson (XY o rXY ) 46
1.7.2 Matrix-Plot . . . . . . . . . . . . . . . . . . . . . . . . 48
1.7.3 Concepto de Rango . . . . . . . . . . . . . . . . . . . . 49
1.7.4 Correlacion de Rangos de Spearman (rS ). . . . . . . . . 50
1.7.5 Correlacion de Punto Biserial (rpb ). . . . . . . . . . . . 55
1.7.6 Correlacion Phi (). . . . . . . . . . . . . . . . . . . . 56
1.8 Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . 58

2 Regresi
on Lineal 135
2.1 Modelo de Regresion Lineal . . . . . . . . . . . . . . . . . . . 135
2.2 Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . 138

3 Probabilidades 156
3.1 Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 156
3.1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 156
3.1.2 Definiciones . . . . . . . . . . . . . . . . . . . . . . . . 157
3.1.3 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 159

4 Variables Aleatorias 167


4.1 Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.1.1 Varaibles Aleatorias Discretas . . . . . . . . . . . . . . 168
4.1.2 Varaibles Aleatorias Continuas . . . . . . . . . . . . . . 168
4.2 Valor Esperado . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4.3 Modelos de Probabilidad . . . . . . . . . . . . . . . . . . . . . 174
4.3.1 Modelos Discretos . . . . . . . . . . . . . . . . . . . . . 174

5 Inferencia Estadstica 206


5.1 Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.2 Estimacion Puntual . . . . . . . . . . . . . . . . . . . . . . . . 208
5.2.1 Metodo de Maxima Verosimilitud . . . . . . . . . . . . 209
5.2.2 Metodo de los Momentos . . . . . . . . . . . . . . . . . 216
5.2.3 Propiedades de los Estimadores Puntuales . . . . . . . 218
5.2.4 Estimacion Intervalar . . . . . . . . . . . . . . . . . . . 236

Carlos Bustos-Lopez
INDICE GENERAL 3

5.3 Docima de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . 241


5.3.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 241
5.3.2 Docimas . . . . . . . . . . . . . . . . . . . . . . . . . . 242
5.3.3 Docimas Univariadas . . . . . . . . . . . . . . . . . . . 243
5.3.4 Docimas Bivariadas . . . . . . . . . . . . . . . . . . . . 247
5.4 Docimas de Hipotesis No Parametricas . . . . . . . . . . . . . 251
5.4.1 Prueba de Suma de Rangos de Wilcoxon . . . . . . . . 251
5.4.2 Docima de Bondad de Ajuste Chi-cuadrado . . . . . . 255
5.4.3 Tablas de Contingencia . . . . . . . . . . . . . . . . . . 256
5.4.4 Docima Chi-cuadrado de Independencia . . . . . . . . 258

6 Elementos de Inferencia Estadstica (Integrada) 262


6.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
6.2 Funcion de Verosimilitud . . . . . . . . . . . . . . . . . . . . . 264
6.3 Algunos Modelos. . . . . . . . . . . . . . . . . . . . . . . . . . 265
6.4 Problemas que debiera resolver: . . . . . . . . . . . . . . . . . 267
6.5 Perspectiva Clasica: . . . . . . . . . . . . . . . . . . . . . . . . 267
6.6 Perspectiva Bayesiana: . . . . . . . . . . . . . . . . . . . . . . 268
6.7 Distribucion a priori no Informativa. . . . . . . . . . . . . . . 278
6.8 Modelo de localizacion. . . . . . . . . . . . . . . . . . . . . . . 286
6.9 Modelo de Escala. . . . . . . . . . . . . . . . . . . . . . . . . . 287
6.9.1 Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . 289
6.10 Suficiencia y familia exponencial . . . . . . . . . . . . . . . . . 292

7 Muestreo 293
7.1 Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
7.1.1 Muestreo Aleatorio Simple. (m.a.s.) . . . . . . . . . . . 296
7.1.2 Muestreo Estratificado. . . . . . . . . . . . . . . . . . . 296
7.1.3 Muestreo Sistematico. . . . . . . . . . . . . . . . . . . 297
7.1.4 Tama no Muestral . . . . . . . . . . . . . . . . . . . . . 298
7.1.5 Plan de Muestreo . . . . . . . . . . . . . . . . . . . . . 299

Carlos Bustos-Lopez
Captulo 1

Estadstica Descriptiva

1.1 Fundamentos de la Investigaci


on

Cientfica
La Ciencia (Del lat. scientia = conocimiento) se puede entender como un
conjunto sistematizado de conocimientos, sobre la realidad observada, que se
obtienen aplicando el m etodo cientfico.
El fin esencial de la ciencia es la teora, la que levanta un conjunto de
leyes y reglas que son la base del conocimiento; la teora sirve para relacionar,
explicar, predecir y controlar fenomenos.

Definici
on 1.1.1 El m
etodo, (Del lat. meth
odus = camino o va), es un

conjunto de acciones desarrolladas seg


un un plan preestablecido con el fin de

lograr un objetivo.

El metodo cientfico diferencia la investigacion de la especulacion, y


el conocimiento cientfico (universal, necesario, sistematico y metodico), del
vulgar (particular, contingente, asistematico y ametodico).

4
CAPITULO 1. ESTADISTICA DESCRIPTIVA 5

1.2 Motivaciones y Definiciones


Que es la Estadstica?

En la antig ua Roma Imperial, la palabra estadstica estuvo asociada al


procesamiento de datos, censos y demografas, entendiendose por esto la
representacion grafica, la tabulacion y el calculo de medidas resumen, que
permiten analizar e interpretar un conjunto de datos.
La estadstica es una Ciencia, que se preocupa de desarrollar tecnicas y
modelos que permitan estudiar la forma como la incertidumbre sobre un
fenomeno es alterada por la informacion disponible.
La Estadstica no es una ciencia vulgar que busca la manera de tratar los
datos numericos, sino la base del conocimiento cuantitativo, el principal
instrumento hasta ahora descubierto por el hombre para poder dominar la
terrible complejidad de las cosas y de las relaciones entre ellas. (Kendall,
19..).
Que es la Poblaci on?

Definici
on 1.2.1 Conjunto formado por TODAS las unidades (personas,

animales o cosas) que tienen algo en com


un. La poblaci
on puede ser listada

en lo que llamaremos Marco Muestral ().


Que es una Muestra?

Definici
on 1.2.2 Una muestra es un subconjunto de la poblaci
on. General-

mente se denotan con letras may


usculas. (p.e. A, B, C, etc.).
Que es una Variable?

Definici
on 1.2.3 Caracterstica que cambia (vara) de sujeto a sujeto. (p.e.

Color de ojos). Las denotaremos con letras may


usculas. (p.e. X, Y, Z, etc.).
Que es un Dato?

Definici
on 1.2.4 Es un registro alfanumerico, y corresponde a una real-

izacion de una caracterstica o variable, al ser evaluada en un conjunto. (p.e.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 6

Color de ojos = azul). Los denotaremos con la misma letra de la variable,

pero en min
uscula. (p.e. x1 , x2 , . . . , xn ).
Que es Informaci
on?

Definici
on 1.2.5 Llamaremos informaci
on, al conjunto de datos. x1 , x2 , . . . , xn .

B
asicamente, al conjunto de observaciones (datos) que permiten disminuir

la incertidumbre que se tiene sobre un fen


omeno.

1.2.1 Tipos de Variables



N ominal
Cualitativa


Ordinal



T ipo de V ariable 
Discreta


Cuantitativa


Continua

Cualitativas: Son todas aquellas variables cuyo conjunto de posibles


respuestas corresponden a cualidades del objeto en estudio.
Nominales: El conjunto de posibles respuestas de las variables
corresponden a nombres de las cualidades del objeto en estudio.
(p.e. 1: representa sexo masculino y 2: sexo femenino).
Ordinales: El conjunto de posibles respuestas de las variables
tienen un orden natural. (p.e. En un partido de f
utbol: -1 es
perder, 0 es empatar y 1 es ganar).
Cuantitativas: Son todas aquellas variables cuyo conjunto de posibles
resultados corresponden a mediciones de la caracterstica del objeto en
estudio.
Discretas: El conjunto de posibles respuestas, es un conjunto
finito o infinito numerable. (p.e. N
umero de hijos, etc.).
Continuas: El conjunto de posibles respuestas, es un conjunto
infinito no numerable. (p.e. Altura, Peso, etc.).

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 7

Ejemplos de datos estadsticos.


1. Variable Cualitativa Nominal: Las preferencias de colores para un
determinado envase en una encuesta a 32 personas, considerando la
tabla de codigos siguiente:

Color Rojo Verde Azul Amarillo


Codigo 1 2 3 4

y el conjunto de datos es:

1 1 1 2 3 3 4 1
1 1 2 3 3 4 1 1
2 2 3 3 1 1 2 2
3 4 1 1 2 2 3 4

esta variable es nominal porque los valores posibles solo representan un


nombre de acuerdo a la tabla de codigos.

2. Variable Cualitativa Ordinal: Las 25 personas que trabajan en un


departamento de una tienda se clasifican seg
un la edad (x) mediante
la tabla siguiente:

Edad x < 18 18 x < 25 25 x < 40 40 x < 60 60 x


Codigo 1 2 3 4 5

las observaciones son:

1 2 2 4 3
2 2 2 5 2
2 2 3 2 3
4 3 3 3 3
4 3 2 2 3

esta variable es ordinal, ya que los valores de las respuestas, tienen un


orden jerarquico natural.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 8

3. Variable Cuantitativa Discreta: Las ventas de un modelo de au-


tomovil durante una semana entre 15 distribuidores:

Distrib. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Venta 2 1 0 0 3 2 0 0 2 1 1 1 0 1 2

esta variable es cuantitativa porque representa una cantidad y es discre-

ta debido a que, aunque el n


umero de posibles valores es infinitamente

grande, estos se pueden enumerar, 0-1-2-3-4-etc.

4. Variable Cuantitativa Continua: Las duraciones de 10 ampolletas,

son los siguientes:

Ampolleta 1 2 3 4 5 6 7 8 9 10

Duraci
on 18,0 18,4 19,0 20,2 19,6 18,6 19,4 19,2 17,0 18,5

esta variable es continua, ya que el conjunto de posibles valores es no

numerable.

Nota: Todas las variables cualitativas se pueden considerar por su con-


junto de respuestas, como discretas.

1.2.2 Tabulaci
on

Definici
on 1.2.6 Una tabla de frecuencias es un arreglo, que consta de

filas y columnas, cuya intersecci


on generan celdas en la que se anotan las

frecuencias de los distintos valores posibles. La primera columna se utiliza

para identificar la variable y sus respectivos atributos o intervalos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 9

Variable ni fi fi % Ni Fi Fi %

categora 1 n1 f1 f1 % N1 F1 F1 %

categora 2 n2 f2 f2 % N2 F2 F2 %
.. .. .. .. .. .. ..
. . . . . . .

categora k nk fk fk % Nk Fk Fk %

Total N 1 100%

Variables Cuantitativas
1. Variables Discretas
Para un conjunto de N observaciones de una variable discreta X, se
define:

(a) La frecuencia absoluta u observada de la variable X, como el


n
umero de observaciones iguales a xi , y se simboliza por ni .
(b) La frecuencia relativa de la variable X, como:
ni
fi = .
N

(c) La frecuencia absoluta acumulada de la variable X, como el n


umero
de observaciones menores o iguales a xi . Se denota por:
i
X
Ni = nj .
j=1

(d) La frecuencia relativa acumulada de la variable X, como:


i
X
Fi = fj .
j=1

(e) fi % = fi 100% y Fi % = Fi 100%.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 10

Note que:
(a)
k
X
ni = N .
i=1

(b)
k
X
fi = 1 .
i=1

(c)
k
X
Nk = ni = N .
i=1

(d)
k
X
Fk = fi = 1 .
i=1

(e)
i i i
X X nj 1 X Ni
Fi = fj = = nj = .
j=1 j=1
N N j=1 N

Ejemplo 1.2.1 La siguiente informaci


on, representa el nivel de in-

struccion de 20 personas:

B, M, S, S, B, B, M, M, M, S, S, M, B, B, M, M, B, M, S, B .

Nivel de Instruccion ni fi fi % Ni Fi Fi %
7
Basico (B) 7 20
= 0, 35 35% 7 0, 35 35%
8
Medio (M) 8 20
= 0, 40 40% 15 0, 75 75%
5
Superior (S) 5 20
= 0, 25 25% 20 1, 00 100%

Total 20 1, 00 100%

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 11

Ejemplo 1.2.2 Para las ventas de un modelo de autom


ovil en una

semana en 15 distribuidores:

X ni fi fi % Ni Fi Fi %

0 5 0, 333 33, 3% 5 0, 333 33, 3%

1 5 0, 333 33, 3% 10 0, 667 66, 7%

2 4 0, 267 26, 7% 14 0, 933 93, 3%

3 1 0, 067 6, 7% 15 1, 000 100%

Total 15 1, 000 100, 0%

2. Variables Continuas
Si la variable que se estudia es continua o bien el n
umero de resultados
posibles de una variable discreta es muy grande, es conveniente agrupar
las observaciones en intervalos de clase.

Ejemplo 1.2.3 Se tienen las edades de 50 pacientes que han sido aten-

didos en la consulta medica, referentes a problemas de stress, los datos

se presentan en la tabla siguiente:

20 22 23 23 24 24 25 25 25 26

26 27 27 28 30 30 30 30 30 31

32 34 34 34 36 36 36 36 37 37

37 37 37 37 38 38 38 38 38 40

40 41 42 42 42 43 44 45 45 48

En este caso como la variable es cuantitativa continua, la cantidad de


posibles categoras son infinitas, por lo cual no se pueden representar
facilmente en una tabla. Por lo tanto se procede de la forma siguiente:

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 12

Variable xi ni fi fi % Ni Fi Fi %
[LI1 LS1 [ x1 n1 f1 f1 % N1 F1 F1 %
[LI2 LS2 [ x2 n2 f2 f2 % N2 F2 F2 %
.. .. .. .. .. .. ..
. . . . . . .
[LIk LSk ] xk nk fk fk % Nk Fk Fk %
Total N 1 100%

Donde:

(a) LIi : Lmite inferior del i-esimo intervalo de clase.


(b) LSi : Lmite superior del i-esimo intervalo de clase.
(c) xi : Marca de clase del i-esimo intervalo.
(d) ai = LSi LIi : Amplitud del i-esimo intervalo de clase.
(e) k: Cantidad de intervalos de clase.
(f) LSi = LIi+1 .

3. Notas:

(a) Es usual que los intervalos de clase sean de igual longitud.


(b) Un criterio utilizado para definir el n
umero de intervalos (k) cuan-
do la cantidad de observaciones es peque no es:

k= N.

(c) Cuando el n
umero de observaciones es muy grande se prefiere:

k = 1, 6 ln N .

(d) Otra posibilidad para el n


umero de intervalos es la formula de
Sturges:
k = 1 + 3, 3 ln N .
(e) Se sugiere que el valor de k se aproxime al entero superior.
(f) Ademas la amplitud del intervalo esta dado por:
XM ax XM in
ai = .
k

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 13

(g) En una tabla de frecuencias con intervalos de clase se pierde in-


formacion, porque solo se conoce el intervalo al que pertenecen los
resultados. Lo usual es considerar a la marca de clase como un
valor representativo de todos los datos del correspondiente inter-
valo.
(h) En variables nominales no tiene sentido calcular frecuencias acu-
muladas porque no existe relacion de orden entre los valores posi-
bles de la variable.

Ejemplo 1.2.4 Considere las notas de 20 alumnos:

6, 2 4, 8 3, 8 4, 6 4, 4

5, 7 6, 4 5, 4 6, 3 4, 8

4, 9 3, 0 3, 8 5, 5 5, 1

6, 8 4, 7 5, 5 7, 0 4, 2


De donde, k = 20 4, 5 5 ; 7, 0 3, 0 = 4, 0 ; y ai = 4, 0/5 0, 8 .

Notas xi Marca de Clase ni fi fi % Ni Fi Fi %

3, 0 3, 8 3, 4 1 0, 05 5% 1 0, 05 5%

3, 8 4, 6 4, 2 4 0, 20 20% 5 0, 25 25%

4, 6 5, 4 5, 0 5 0, 25 25% 10 0, 50 50%

5, 4 6, 2 5, 8 5 0, 25 25% 15 0, 75 75%

6, 2 7, 0 6, 6 5 0, 25 25% 20 1, 00 100%

Total 20 1, 00 100%

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 14

Ejemplo 1.2.5 Para el ejemplo de tiempo de duraci


on de ampolletas, se

tiene la tabla de frecuencias:

Intervalos de Clase Marca de Clase ni fi fi % Ni Fi Fi %

17 18 17, 5 2 0, 20 20% 2 0, 20 20%

18 19 18, 5 4 0, 40 40% 6 0, 60 60%

19 20 19, 5 3 0, 30 30% 9 0, 90 90%

20 21 20, 5 1 0, 10 10% 10 1, 00 100%

Total 10 1, 00 100%

1.2.3 Representaci
on Gr
afica
1. Diagrama de Tallo y Hojas:
Otra alternativa para estudiar la variabilidad consiste en estudiar los
datos usando un diagrama de Tallo y Hojas. Tiene la ventaja de
retener todo el detalle de los datos originales y al mismo tiempo permite
ordenarlos rapidamente.
Cada dato numerico se divide en dos partes: el (los) dgito(s) princi-
pal(es) se convierte(n) en el tallo, y el (los) dgito(s) secundario(s) en
hojas.

Ejemplo 1.2.6 Consideremos los siguientes datos de la tabla:

13 18 15 12 14 13

13 18 10 14 13 13

13 18 15 14 17 13

17 12 17 18 14 15

17 13 10 18 17 15

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 15

Entonces el diagrama de tallo y hojas es el siguiente:

2 1 00
2 1
4 1 22
12 1 33333333
16 1 4444
14 1 5555
10 1
10 1 77777
5 1 88888

2. Diagrama Circular o Torta:

El diagrama Circular permite representar las frecuencias porcentuales

de las categoras de una variable cualitativa nominal.

Ejemplo 1.2.7 Consideremos los datos del ejemplo de preferencias de

color para un envase, el gr


afico asociado es el siguiente:

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 16

Fracuencias
ni
= 360o .
N

3. Diagrama de Puntos o Dot-plot:

Este tipo de grafico permite exhibir rapidamente los datos sobre la

recta real. Consiste basicamente en una recta horizontal, bajo la cual

se marcan los valores mnimo y maximo, y se completa con los demas

valores en incrementos espaciados.

Se marca el valor observado con un o una sobre el valor correspon-

diente en la recta. Si hay dos o mas unidades con el mismo valor de la

variable se deben ubicar verticalmente uno sobre el otro.

Ejemplo 1.2.8 Consideremos los datos obtenidos al calibrar un ins-

trumento de medicion:

4. Gr
afico de Barras:

En variables discretas la mejor forma de representar las frecuencias es

mediante un grafico de barras en el que se colocan los valores posibles de

la variable en el eje horizontal y las frecuencias relativas o porcentuales

en el eje vertical.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 17

Ejemplo 1.2.9 Consideremos los datos de las ventas de autom


ovil en

las 15 distribuidoras. Su gr
afico de barras asociado es:

5. Histograma:

Un histograma es un caso especial de los graficos de barras para vari-

ables continuas, se representan las frecuencias relativas.

En variables continuas el histograma se construye a partir de rectangu-

los para cada uno de los intervalos de clase; en estos rectangulos, la base

corresponde al intervalo de clase y la altura es la frecuencia relativa del

intervalo1 .
1
El
area no corresponde a la frecuencia relativa, salvo en el caso que la amplitud del
intervalo sea la unidad.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 18

Ejemplo 1.2.10 Considere los siguientes datos:

271 301 301 312

312 314 317 319

324 325 329 334

335 337 342 349

351

El histograma asociado es el siguiente:

6. Polgono de Frecuencias:

Los polgonos de frecuencias permiten representar las distribuciones de

uno mas grupos de datos, y ademas como se representan las frecuen-

cias relativas o porcentuales es facil comparar el comportamiento de la

variable en distintos grupos.

Ejemplo 1.2.11 Consideremos los datos del ejemplo anterior:

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 19

7. Ojiva:

Es un polgono de frecuencias, pero permite representar las frecuencias

acumuladas, de tal forma que pueda establecer para los distintos inter-

valos cual grupo presenta mayor frecuencia relativa o porcentaje para

un determinado punto de la variable.

Ejemplo 1.2.12 Consideremos los datos del ejemplo anterior:

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 20

Nota hist orica:


La primera aplicacion de metodologa estadstica, corresponde a fines del
siglo XIX y retrata a una gran mujer, Florence Nightingale, quien realizo im-
portantes aportes a la medicina y a la estadistica.

En la Guerra de Crimea (1854-1856), ella grafico la incidencia de las


muertes previsibles en el hospital del frente de batalla por las malas condi-
ciones sanitarias.
Desarrollo un diagrama de area polar, a fin de ilustrar la necesidad de la
reforma en las condiciones de atencion.
Nightingale, revoluciono el sistema y mostro que un fenomeno social poda
ser medido objetivamente, y estudiado mediante un analisis matematico.
Luego de este estudio, la tasa de mortalidad bajo de un 42.7% a un 2.2%.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 21

El diagrama, muestra la evolucion de las causas de mortalidad en el Ejerci-


to en el Oriente a fines de 1858.
Se observa que la mayora de los soldados britanicos que murieron durante
la guerra de Crimea, fue producto de una enfermedad (azul) en lugar de
heridas u otras causas (rojo o negro).
Tambien, se puede apreciar que la tasa de mortalidad fue mayor en el
primer a no de la guerra (mitad derecha del diagrama), antes de que la
Comision Sanitaria llegara en marzo de 1855 para mejorar la higiene en los
campamentos y hospitales.

1.3 Medidas de Tendencia Central


Las medidas de Tendencia Central, son valores alrededor de los cuales las
observaciones tienden a concentrarse2 .

1.3.1 Media Arm


onica (H(X)).

Definici
on 1.3.1 Sean x1 , x2 , . . . , xn , los valores observados de una variable

X, entonces denominamos como media arm


onica a:

n n
H(X) = n = 1 1 1 .
X 1 x1
+ x2
+ + xn

i=1
xi

Ejemplo 1.3.1 Consideremos el conjunto de datos que consta de 5 valores:

3, 4, 6, 6 y 8, entonces:

5 5
H(X) = 1 1 1 1 1 = 25 = 4, 8 .
3
+ + + +
4 6 6 8 24
2
A estos indicadores llamaremos Estadgrafos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 22

1.3.2 Media Geom


etrica (G(X)).

Definici
on 1.3.2 Sean x1 , x2 , . . . , xn , los valores observados de una variable

X, entonces denominamos como media geometrica a:


v
u n
uY
G(X) = tn
xi = n x1 x2 xn .
i=1

Ejemplo 1.3.2 Consideremos el conjunto de datos que consta de 5 valores:

3, 4, 6, 6 y 8, entonces:


5
G(X) = 3 4 6 6 8 = 5, 1 .

1.3.3 Media Aritm


etica o Promedio (X , x).

Definici
on 1.3.3 Sean x1 , x2 , . . . , xn , los valores observados de una variable

X, entonces denominamos como media o promedio3 a:


n
X
xi
i=1 x1 + x2 + + xn
X = = .
n n

Ejemplo 1.3.3 Consideremos el conjunto de datos que consta de 5 valores:

3, 4, 6, 6 y 8, entonces:

3+4+6+6+8 27
X = = = 5, 4 .
5 5
3
Se denota con X a la media aritmetica poblacional y con X a la media aritmetica
muestral.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 23

Nota: La media es un punto de equilibrio en el siguiente sentido:

Si di = xi x representa el desvo de la i-esima observacion con respecto


a la media, entonces d1 + d2 + + dn = 0.
Es decir, los desvos por bajo la media son compensados por los desvos
por sobre la media.
En el ejemplo anterior los desvos correspondientes son d1 = 3 5, 4,
d2 = 4 5, 4, d3 = d4 = 6 5, 4, d5 = 8 5, 4, cuya suma es cero.

Ejemplo 1.3.4 Consideremos la siguiente tabla con datos:

Muestra x1 x2 x3 x4 x5 x

A 2 3 4 5 6 4

B 2 4 4 4 6 4

C 1 5 4 5 5 4

D 4 4 4 4 4 4

La lista anterior se puede extender con todas las colecciones de cinco n


umeros

cuya suma sea 20.

Nota: La media es una caracterstica del comportamiento de los datos


que puede ser utilizada como un indicador (p.e. de rendimiento), pero no
se puede pretender que un solo n
umero nos de una idea de la forma del
comportamiento de los datos.

Propiedades de la Media:
Sean X e Y variables aleatorias, y a, b, c IR.

c = c.

aXb = a X b.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 24

aXbY = a X b Y .

Ejemplo 1.3.5 Considere la siguiente tabla con edades de varones, que tra-

bajan en una empresa manufacturera.

44 60 64 31 31 28 28 29 32 25 26 27

29 32 24 26 27 43 56 62 30 31 27 28

64 31 31 27 28 29 32 25 26 27 43 56

29 32 24 25 26 32 44 62 30 31 27 28

33 55 62 30 31 27 28 29 32 24 25 27
Para este caso el valor de X = 34, 2 a
nos.
Cuando los datos estan agrupados en una tabla de frecuencias, con k
intervalos de clase, el procedimiento para calcular X es el siguiente:
k
X
xi ni
i=1 x1 n1 + x2 n2 + + xk nk
X = = ,
n n
note que en este caso xi no es la observacion i, sino corresponde a la i-esima
marca de clase.
Ejemplo 1.3.6 Construyamos la tabla de frecuencias asociada al conjunto
de datos anteriores: k = 1+1, 6 ln 60 7; 6424 = 40, entonces ai = 40
7
6.

Int. de Clase M. de C.xi ni xi ni

24 30 27 30 810
30 36 33 17 561
36 42 39 0 0
42 48 45 4 180
48 54 51 0 0
54 60 57 3 171
60 66 63 6 378

60 2100

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 25

Ahora, al calcular el valor de X se obtiene: X = 2100/60 35, 0 a


nos.

Note que la diferencia entre los valores calculados, se debe al proceso de


tabulacion, puesto que al tabular un conjunto de datos se pierde informacion.

Ejemplo 1.3.7

Int. de Clase M. de C.xi ni xi ni

24 30 27 30 810
30 36 33 17 561
36 54 45 4 180
54 60 57 3 171
60 66 63 6 378

60 2100

Nota: Aunque es usual uitilizar tablas de frecuencias con todos los in-

tervalos de igual amplitud, pueden existir casos en que los intervalos tengan

distintas amplitudes, ya sea porque el investigador encuentra m


as comodo

para la interpretacion de los resultados o porque algunos intervalos tienen

frecuencia cero, por lo cual se decide fusionar con el intervalo anterior o

posterior a este.

1.3.4 Media Ponderada (P , xP ).

Definici
on 1.3.4 Sean x1 , x2 , . . . , xn , los valores observados para una vari-

able X y w1 , w2 , . . . , wn , n
umeros no negativos cuya suma es 1, entonces

denominamos media ponderada de n observaciones a:


n
X n
X
P = wi xi = w1 x1 + w2 x2 + + wn xn , con wi = 1 .
i=1 i=1

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 26

Si la variable en la muestra tiene k valores distintos (k n) que aparecen


con frecuencias n1 , n2 , . . . , nk , entonces la media puede ser obtenida como:
k
X
ni xi k
i=1
X
P = = fi xi .
n i=1

donde fi es la frecuencia relativa de la observacion xi , con i = 1, 2, . . . , k.


Ademas, si la poblacion fue dividida en p grupos, cada uno con tama no n i ,
con i = 1, 2, . . . , p, donde i es la media correspondiente al grupo i, entonces
el valor de la media poblacional4 es:
p
X
i n i
i=1
P = p .
X
ni
i=1

Ejemplo 1.3.8 En un estudio de 95 personas de tres grupos sobre la altura

media en cierta compa


na, se obtuvieron los siguientes resultados, separados

seg
un tramo de edad:

1 = 158 cm. , n1 = 50

2 = 172 cm. , n2 = 10

3 = 163 cm. , n3 = 35

Ejemplo 1.3.9 El valor de la media poblacional es:

1 n 1 + 2 n 2 + 3 n 3
P = ,
n1 + n2 + n3
158 50 + 172 30 + 163 35
= ,
50 + 10 + 35
15325
= = 161 cm.
95
4
Si wi = 1/n, para todo i, entonces P = .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 27

1.3.5 Media Recortada en (%) .

Definici
on 1.3.5 Se llama media recortada en a un promedio o media que

no considera una proporcion de las observaciones en cada extremos de las

observaciones ordenadas de menor a mayor (Corte simetrico)5 .

El objetivo es eliminar la influencia de las observaciones mas extremas,


asignandoles peso cero.

Ejemplo 1.3.10 Considere la siguiente tabla con edades de varones, que

trabajan en una empresa manufacturera.

24 25 26 27 28 29 30 31 32 32 44 62

24 25 27 27 28 29 30 31 32 33 55 62

24 26 27 27 28 29 30 31 32 43 56 62

25 26 27 27 28 29 31 31 32 43 56 64

25 26 27 28 28 29 31 31 32 44 60 64

nos, pero al descartar el 10%(12 datos)6


Para este caso el valor de X = 34, 2 a

de las observaciones en forma simetrica, se obtiene media recortada:

0,10 = 31, 9 a
nos.

1.3.6 Moda (M o(X)).

Definici
on 1.3.6 La moda, como su nombre lo indica, corresponde a la ob-

servacion mas frecuente o que se repite m


as veces.
5
Es tpico considerar valores para el corte simetrico tales como: 1%, 5% o bien 10%.
6
Observaciones destacadas en negrita.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 28

Ejemplo 1.3.11 Considere los siguientes conjuntos de datos:

1, 2, 3, 4, 5, 6, 7, 8, 9, y la moda para este grupo no existe7 .

1, 1, 2, 2, 3, 3, 3, 3, 4, y la moda para este grupo es M o(X) = 3.

1, 2, 2, 3, 4, 4, 5, 6, y la moda para este grupo es M o(X)1 = 2 y

M o(X)2 = 4.
Segun lo anterior, el valor modal puede existir o no, si existe este valor
puede ser no unico, en ese caso se habla de bimodal, trimodal, multimodal.
En el caso de tener solo un valor modal, se habla de unimodal.
En el caso que los datos se encuentren tabulados, la forma de calcular la
moda es la siguiente:
1. Primero, identificar el o los intervalos que contienen el valor modal, es
decir, el intervalo con mayor frecuencia absoluta o relativa.
2. Determinar el valor de
 
ni ni1
M o(X) = LIi + ai ,
(ni ni1 ) + (ni ni+1 )
donde ai es la amplitud del i-esimo intervalo.
3. Si existe mas de un intervalo con la mayor frecuencia, repetir el calculo
anterior.
Ejemplo 1.3.12 Retomemos el ejemplo anterior de las edades

X ni

24 30 30
30 36 17
36 54 4
54 60 3
60 66 6

60

7
Tecnicamente, en este caso todos los valores tienen la misma frecuencia y es la mas alta,
por lo tanto son todos valores modales, pero se pierde el sentido de resumir la informacion.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 29

, en este caso i = 5, LI5 = 49, n5 = 21, n4 = 17, n6 = 10 y a5 = 4,

entonces:
 
21 10
M o(X) = 49 + 4,
(21 10) + (21 17)
 
11
= 49 + 4 = 49 + 2, 9 ,
15
51, 9 a
nos.

Pero si nos referimos a los datos sueltos, el valor que m


as se repite es 47

a
nos.

1.3.7 Mediana (M e(X)).

Definici
on 1.3.7 Es la realizaci
on u observaci
on que ocupa la posici
on que

divide en dos partes iguales al conjunto de datos previamente ordenados de

menor a mayor, es decir, el 50% de las observaciones son menores a este

valor y el 50% restante son valores mayores a esta observaci


on. Si los datos

estan sueltos (sin tabular), el c


alculo de esta medida depende de la cantidad

de observaciones. Si el n
umero de observaciones es impar, entonces, el valor

de la mediana coincide con la observaci


on central, en cambio si el n
umero de

observaciones es par, el valor de la mediana ser


a la media de los dos valores

centrales.

Ejemplo 1.3.13 Considere los siguientes conjuntos de datos:

1, 2, 3, 4, 5, 6, 7, 8, 9, la mediana para este grupo M e(X) = 5.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 30

4+5
1, 2, 3, 4, 5, 6, 7, 8, la mediana para este grupo es M e(X) = 2
= 4, 5.

En el caso que los datos ya se encuentren tabulados, el procedimiento es el

siguiente:
 
N ai
M e(X) = LIi + Ni1 .
2 ni
Para determinar el intervalo que contiene a la mediana, primero se debe re-

alizar el calculo N/2, y aquel intervalo que tenga asociada la primera frecuen-

cia absoluta acumulada que cumpla Ni N/2, corresponder


a al intervalo que

contiene al valor mediano.

En el ejemplo 1.3.5 se tiene que N/2 = 60/2 = 30, i = 5, LI5 = 49,

N = 60, N4 = 20, a5 = 4 y n5 = 21, entonces:


 
60 4
M e(X) = 49 + 20 ,
2 21
= 49 + 1, 9 50, 9 a
nos.

Si se calcula directamente con los datos sueltos, la M e(X) = (49+50)/2 =

49, 5 a
nos, donde las observaciones 49 a
nos y 50 a
nos corresponden a las

posicines 30 y 31, respectivamente.

1.3.8 Comentarios
:
1. La Media Armonica, se utiliza principalmente para obtener un valor
representativo de un conjunto de datos expresados en forma de tasas,
esto es, tantas unidades de un tipo por cada unidad de otras especies.

2. La Media Aritmetica, se utiliza principalmente cuando la distribucion


de los datos es aceptablemente simetrica.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 31

3. La Media Geometrica, se utiliza principalmente para: 1) promediar


porcentajes, indices y cifras relativas; y 2) determinar el incremento
porcentual promedio en ventas, produccion u otras actividades o series
economicas de un periodo a otro.
4. Las Medias Geometrica y armonica tienden a reducir la influencia de
valores grandes y a destacar la de los valores peque nos. El calculo de

estas dos estadisticas exige que los valores de la variable sean positivos.
5. La Media Ponderada, se utiliza principalmente cuando se sabe que
algunos datos tienen mayor importancia dentro de la muestra.
6. La Media Recortada, se utiliza principalmente cuando los datos ex-
tremos son muy anomalos y se alejan mucho del centro de los datos.
7. La Moda, se utiliza principalmente cuando la variable que se esta es-
tudiando es cualitativa nominal.
8. La Mediana, se utiliza cuando la variable en estudio es al menos ordinal.

1.4 Medidas de Posici


on
Las medidas de posicion, nos permiten cuantificar en que posicion se encuen-
tra cada observacion dentro de un conjunto de datos previamente ordenado
de menor a mayor.

1.4.1 Mnimo (XM in ).


Corresponde a la observacion mas peque
na, y se encuentra en la primera
posicion.
XM in = min{X1 , . . . , Xn } .

1.4.2 M
aximo (XM ax ).
Corresponde a la observacion mas grande, y se encuentra en la u
ltima posi-
cion.
XM ax = max{X1 , . . . , Xn } .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 32

1.4.3 Percentiles( Pk ).
Los percentiles corresponden a ciertos valores de las observaciones que dejan
un determinado porcentaje de observaciones por bajo este valor. En general
se designa como Pk , que representa la valor del percentil que deja k% de las
observaciones por bajo de este valor.

Definici umero k [0, 100] se denomina percentil k a


on 1.4.1 Para un n

un n
umero xk tal que la frecuencia relativa acumulada en xk es k% de las

observaciones, es decir:

Fxk = k% .

Los percentiles se calculan de manera diferente seg


un sea la variable disc-
reta o continua.

1. Variable Discreta.
En este caso el percentil k se define como xk : el menor n
umero x tal
que Fxk k.
Recordemos el ejemplo de venta de automoviles, el percentil 50 es P50 =
1, esto quiere decir que el 50% de los distribuidores vende un auto o
menos, el percentil 93 corresponde a P93 = 2 y esto significa que el 93%
de los distribuidores vende dos o menos.

2. Variable Continua.
En esta situacion, se puede encontrar el intervalo de clase en el cual
esta el percentil k mediante la frecuencia relativa acumulada en la tabla
de frecuencias. El procedimiento es similar al calculo de la mediana,
utilizandose para esto la formula siguiente:
 
kn ai
Pk = LIi + Ni1 .
100 ni

Para determinar el intervalo que contiene al Pk , primero se debe re-


alizar el calculo (k N )/100, y aquel intervalo que tenga asociada la
primera frecuencia absoluta acumulada que cumpla Ni (k N )/100,
correspondera al intervalo que contiene al valor de Pk .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 33

Ejemplo 1.4.1 Retomemos el ejemplo anterior, y calculemos el P75 ,

en este caso (k N )/100 = (75 60)/100 = 45, i = 6, LI6 = 53,

N5 = 40, a6 = 4 y n6 = 10, entonces:


 
75 60 4
P75 = 53 + 40 ,
100 10
= 53 + 2 = 55 a
nos .

Notas:
Los percentiles no tienen sentido en variables nominales en las que no
se puede ordenar las observaciones de menor a mayor.
Los percentiles dependen de la forma seg un la que se ha construido la
tabla de frecuencias; esto significa que no existe una forma u
nica para
obtener los percentiles. (a menos que conozcamos la distribucion de los
datos.).
Para datos no agrupados es usual calcular los percentiles del siguiente
modo: se supone que la observacion ordenada que ocupa el lugar i
corresponde al percentil:
i1
k= 100 .
n1
Otra forma es definir a la observacion ya ordenada, n umero i como
correspondiente al percentil:
i
k= 100 .
n+1
Para calcular percentiles correspondientes a otros valores de k se ocupan
interpolaciones.
Se denominan Cuartiles a:
C1 = P25 , C2 = P50 = M e(X), C3 = P75 .

De la misma forma se denominan Quintiles a:


Q1 = P20 , Q2 = P40 , Q3 = P60 , Q4 = P80 .

Deciles a:
D1 = P10 , D2 = P20 , . . . , D9 = P90 .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 34

1.4.4 Diagrama de Caj


on o Box-Plot:
El diagrama de cajon (Box-Plot) denominado tambien cajon con bigotes, es
una representacion grafica de los datos basado en 5 n
umeros: mnimo, primer
cuartil, mediana, tercer cuartil y maximo.
La lnea vertical que se dibuja desde el tercer cuartil hacia arriba, ge-
neralmente se extiende hasta el mayor valor que esta a una distancia de
1.5(C3 C1 ) del tercer cuartil. Analogamente, la lnea que sale del primer
cuartil, hacia abajo, se extiende hasta el menor valor que esta a una distancia
de 1, 5(C3 C1 ) del primer cuartil.
Los datos que esten fuera de estos rangos se denominan outliers u
observaciones anomalas.

Ejemplo 1.4.2 El Box-plot para los datos de edades es:

1.5 Medidas de Variabilidad o de Dispersi


on
Estas medidas son estadgrafos que permiten medir la dispersion de un con-
junto de datos. Los mas importantes son aquellos que representan las desvia-
ciones de las observaciones respecto a alguna medida de tendencia central.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 35

1.5.1 Amplitud o Rango (R).

Definici
on 1.5.1 Corresponde a la mayor diferencia que existe entre dos

observaciones de un conjunto de datos.

R = XM ax XM in .

1.5.2 Rango Intercuartil (RI).

Definici
on 1.5.2 Corresponde a la mayor diferencia que existe entre dos

observaciones del 50% central de los datos.

RI = C3 C1 = P75 P25

1.5.3 Desviaci
on Media (DM (X)).

Definici
on 1.5.3 Sean x1 , x2 , . . . , xn , los valores observados de una variable

X, entonces denominamos como desviaci


on media a:
n
X
|xi x|
i=1 |x1 x| + + |xn x|
DM (X) = = .
n n

2
1.5.4 Varianza y Desviaci
on Est
andar (X oV
Var(X)).

Definici
on 1.5.4 Sean x1 , x2 , . . . , xn , los valores observados de una variable

X, entonces denominamos como Varianza a:8 .



8
Se denomina Desviaci
on Est
andar a = 2 .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 36

1. Datos desagrupados (no tabulados):


n n
1X 1X 2
2
X = (xi X )2 = x 2X .
n i=1 n i=1 i

2. Datos agrupados (tabulados): En este caso se tiene una tabla de fre-


cuencias con k intervalos, donde ni es la frecuencia absoluta del in-
tervalo i, xi la marca de clase del i-esimo intervalo y n el total de
observaciones.
n n
1X 1X
2
X = (xi X )2 ni = ni x2i 2X .
n i=1 n i=1

Propiedades de la Varianza (V
Var(X)).
Sean X e Y variables aleatorias, y a, b, c IR, entonces:

Var(X) 0.

Var(c) = 0.

Var(aX b) = a2 Var(X).

Var(aX bY ) = a2 Var(X) + b2 Var(Y ) 2abCov(X, Y ).

1.5.5 Coeficiente de Variaci


on (C.V.(X)).

Definici
on 1.5.5 El coeficiente de variaci
on o de variabilidad relativa, es

una medida que entrega la dispersi


on relativa de los datos. Y permite com-

parar la homogeneidad de dos o m


as conjuntos de datos.

X
C.V.(X) = 100% .
X

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 37

El coeficeinte de variacion (C.V.(X)), nos entrega una forma de medir la


homogeneidad de los datos, ademas es un indicador sin unidad de medida, lo
que permite comparar distintos conjuntos de datos. Si el valor del coeficiente
de variacion es cercano a 0, diremos que los datos son muy homogeneos, es
decir, son muy parecidos entre ellos, al contrario si el valor del coeficiente de
variacion es muy alto, diremos que los datos son heterogeneos, es decir, muy
diferentes entre ellos.
De esa forma podemos comparar conjuntos de datos distintos, ya sean
de poblaciones o muestras distintas o de variables con unidades de medida
distintas. La interpretacion sera:
Si 0 C.V.(X) < 25%, los datos se diran Muy Homogeneos.
Si 25% C.V.(X) < 50%, los datos se diran Homogeneos.
Si 50% C.V.(X) < 75%, los datos se diran Heterogeneos.
Si C.V.(X) 75%, los datos se diran Muy Heterogeneos.

Ejemplo 1.5.1 Modifiquemos la tabla del ejemplo.

X xi ni xi ni ni x2i

33 37 35 1 35 1225
37 41 39 1 39 1521
41 45 43 6 258 11094
45 49 47 17 799 37553
49 53 51 21 1071 54621
53 57 55 10 550 30250
57 51 59 3 177 10443
51 65 63 1 63 3969

T otal 60 2992 150676

2
La X = 2992/60 = 49, 9 a
nos, y el valor de la varianza es X =

150676/60 49, 92 = 21, 26 (a nos)2 , ademas la desviaci


on est
andar es X =

21, 26 = 4, 61 a on C.V.(X) = |4, 61/49, 9|100% =


nos, y el coeficiente de variaci

9, 23%.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 38

Ejemplo 1.5.2 Determine el coeficiente de variaci


on de Y = 3, 2X + 4,

donde X = 12, 1 y X = 4, 3.

Como C.V.(Y ) = YY 100%, necesitamos determinar la media de Y y

su desviacion estandar.

Pero Y = 3,2X+4 = 3, 2X + 4 = 3, 2 12, 1 + 4 = 42, 72. Adem


as,

Var(Y ) = Var(3, 2X + 4) = 3, 22 Var(X) = 10, 24 4, 32 ,

= 10, 24 18, 49 = 189, 34 .

Entonces, el
189, 34
100% = 13, 76 100% 32, 2% .

C.V.(Y ) =
42, 72 42, 72

1.6 An
alisis Bivariado
En todas las discusiones anteriores, hemos tratado las variables y su respecti-
va informacion como variables aisladas, pero en general, no solo nos interesa
una variable especfica, sino varias de ellas, y poder descubrir las posibles
asociaciones entre dos o mas variables.

1.6.1 Tablas de Doble Entrada.

Definici
on 1.6.1 Estas tablas son un arreglo que consta de filas y columnas,

que corresponden a distintas categas, y en las celdas se anota la frecuencia

absoluta de la realizacion de dos variables aleatorias simult


aneamente.

Sean X e Y variables aleatorias, con I y J categoras, respectivamente. Y


sea nij la frecuencia absoluta de las caractersticas (Xi , Yj ). La informacion

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 39

se puede resumir de la siguiente forma:


Y
fX,Y Y1 Y2 YJ T otal
X1 n11 n12 n1J n1+
X2 n21 n22 n2J n2+
. .. .. ... .. ..
X .. . . . .
XI nI1 nI2 nIJ n1+
T otal n+1 n+2 n+J n++

Note que ni+ corresponde a la i-esima frecuencia absoluta de la variable X 9 , y


n+j corresponde a la j-esima frecuencia absoluta de la variable Y 10 . Ademas,
J
X I
X I X
X J
ni+ = nij , n+j = nij , n++ = nij .
j=1 i=1 i=1 j=1

Ejemplo 1.6.1 Considere la siguiente tabla con la informaci


on de puntajes
obtenidos en un test, seg
un tramo de edad.

Y : Edades de postulantes
fX,Y 25 27 27 29 Frec. Marg.
X : Puntajes xi yj 26 28 de X (fX )

30 40 35 5 10 15
40 50 45 6 10 16
50 60 55 10 8 18

Frec. Marg. de Y (fY ) 21 28 49

1.6.2 An
alisis Condicional.

En muchas ocasiones no interesa por completo la tabla de doble entrada sino

un aspecto especifico de ella, es decir, ya poseemos cierta informacion que


alg
9
Este total corresponde a la frecuencia marginal de X
10
Este total corresponde a la frecuencia marginal de Y .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 40

nos permite acotar el estudio.

Ejemplo 1.6.2 De la tabla anterior nos interesa saber la media de puntajes,

dado que las personas son menores de 27 a


nos.
En este caso debemos determinar la tabla de distribuci
on de frecuencias
condicional dado que Y 27.

Y 27
Puntajes xi 25 27 xi ni

30 40 35 5 175
40 50 45 6 270
50 60 55 10 550

Total 21 995

Entonces,
995
X|Y 27 = 43, 38 puntos.
21

Ejemplo 1.6.3 De la tabla anterior, nos interesa saber la media de edad,

dado que las personas lograron menos de 45 puntos.


En este caso, debemos determinar la tabla de distribuci
on de frecuencias
condicional dado que X < 45.

X < 45
Edad yj 30 40 40 50 yj nj

25 27 26 5 + 6 = 11 286
27 29 28 10 + 10 = 20 560

Total 31 846

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 41

Luego,
846
Y |X<45 = 27, 29 a
nos.
31
Ejemplo 1.6.4 La siguiente tabla corresponde a las alturas de 151 personas
de una empresa, separadas por sexo. Donde X es la altura en centimetros,
Y = 0 (Mujer) e Y = 1 (Hombre). Determine la media, moda y mediana de
X.
Y : Sexo
Muj. Hom. Frec. Marg.
X : Altura xi yj 0 1 de X xi ni hi Hi

155 160 157, 5 30 15 45 7087, 5 0, 298 0, 298


160 165 162, 5 25 32 57 9262, 5 0, 378 0, 676
165 170 167, 5 17 20 37 6197, 5 0, 245 0, 921
170 175 172, 5 3 9 12 2070 0, 079 1, 000

Frec. Marg. de Y 75 76 151 24617, 5

24617, 5
X = 163, 03 cm.
151

 
57 45
M o(X) = 160 + 5,
(57 45) + (57 37)
 
12
= 160 + 5,
12 + 20
 
12
= 160 + 5,
32
160 + 1, 88 161, 88 cm.

 
151 5
M e(X) = 160 + 45 ,
2 57
5
= 160 + (75, 5 45) ,
57
160 + 30, 5 0, 09 ,

160 + 2, 75 162, 75 cm.

Ejemplo 1.6.5 Determine la distribuci


on condicional de X dado Y = 0 y
su respectiva media, moda y mediana.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 42

Y =0
Altura xi (Mujeres) xi ni fi Fi

155 160 157, 5 30 4725 0, 400 0, 400


160 165 162, 5 25 4062, 5 0, 333 0, 733
165 170 167, 5 17 2847, 5 0, 227 0, 960
170 175 172, 5 3 517, 5 0, 040 1, 000

Total 75 12152, 5

12152, 5
X|Y =0 = 162, 03 cm.
75

 
30 0
M o(X|Y = 0) = 155 + 5,
(30 0) + (30 25)
 
30
= 155 + 5,
30 + 5
 
30
= 155 + 5,
35
155 + 4, 29 159, 29 cm.

 
75 5
M e(X|Y = 0) = 160 + 30 ,
2 25
5
= 160 + (37, 5 30) ,
25
160 + 7, 50 0, 20 ,

160 + 1, 50 161, 50 cm.

Ejemplo 1.6.6 Determine la distribuci


on condicional de X dado Y = 1 y
su respectiva media, moda y mediana.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 43

Y =1
Altura xi (Hombres) xi ni fi Fi

155 160 157, 5 15 2362, 5 0, 197 0, 197


160 165 162, 5 32 5200, 0 0, 421 0, 618
165 170 167, 5 20 3350, 0 0, 263 0, 881
170 175 172, 5 9 51552, 5 0, 118 1, 000

Total 76 12465

12465
X|Y =1 = 164, 01 cm.
76

 
32 15
M o(X|Y = 1) = 160 + 5,
(32 15) + (32 20)
 
17
= 160 + 5,
17 + 12
 
17
= 160 + 5,
29
160 + 2, 93 162, 93 cm.

 
76 5
M e(X|Y = 1) = 160 + 15 ,
2 32
5
= 160 + (38 15) ,
32
160 + 23 0, 16 ,

160 + 3, 68 163, 68 cm.

1.6.3 Covarianza (XY o Cov(X, Y ))

En los analisis bivariados obtenemos la informacion de las frecuencias abso-

lutas de un suceso bajo dos variables aleatorias, pero ademas nos interesa

saber la relacion que existe entre estas dos variables.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 44

As como la varianza es una forma de medir la variabilidad de una variable

de interes, la covarianza nos permite medir la variabilidad conjunta de dos

variables X e Y 11 .

1. Datos no agrupados: Sean x1 , . . . , xn e y1 , . . . , yn las respectivas obser-

vaciones para las variables X e Y , ademas sean X y Y , las respectivas

medias de las variables. La covarianza se denota por XY 12 .


n
1X
XY = x i y i X Y .
n i=1

2. Datos agrupados: En este caso se tiene una tabla con frecuencias con-

juntas para las variables X e Y , es decir, se tiene una tabla con I filas

para X y J columnas para Y , donde nij corresponde a la frecuencia

absoluta observada en la celda que se genera al intersectarse la fila i

con la columna j, con i = 1, . . . , I y j = 1, . . . , J.


I J
1 XX
XY = nij xi yj X Y .
n i=1 j=1

Ejemplo 1.6.7 Considere el siguiente ejemplo:


11
El lector debe poner atencion en que, la covarianza de una variable X con sigo misma,
2
es decir, XX = X corresponde a la varianza de la variable X.
12
Tambien se suele utilizar Cov(X, Y ).

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 45

Edades de postulantes
25 27 27 29 Frec. Marg. xi ni
Puntajes xi yj 26 28 de X

30 40 35 5 10 15 525
40 50 45 6 10 16 720
50 60 55 10 8 18 990

Frec. Marg. de Y 21 28 49 2235

yj nj 546 784 1330

2235 1330
Luego, X = 49
= 45, 61 a
nos y Y = 49
= 27, 14 a
nos.
Entonces,
1
Cov(X, Y ) = (35 26 5 + 35 28 10 + 45 26 6 + 45 28 10 + 55 26 10 + 55 28 8) 45, 61 27, 14
49
60590
= 45, 61 27, 14
49
= 1236, 53 45, 61 27, 14

= 1236, 53 1237, 86

= 1, 33 (a
nos puntos) .

1.7 Correlaci
on

En la seccion anterior hemos visto como las tablas bivariadas nos permiten

tener una idea del comportamiento de las observaciones cuando estas son

medidas de forma conjunta, y como determinar las respectivas distribuciones

condicionales de las variables.

Pero muchas veces nos interesa, ademas, saber cual es la relacion que

existe entre estas dos variables, es decir, cuanto se afectan la una a la otra.

Un indicador que nos permite responder a las necesidades anteriores, es

el coeficiente de correlacion.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 46

1.7.1 Coeficiente de Correlaci


on Lineal de Pearson (XY

o rXY )

El coeficiente de correlacion lineal de Pearson, permite cuantificar el grado

de asociacion o relacion lineal entre las variables. Y se define como:


XY = p XY ,
X2 Y2

n
X
xi yi n
xy
i=1
rXY = v ! n !.
u n
u X X
t x2i nx2 yi2 n
y2
i=1 i=1

El coeficiente de correlacion, cumple que: 1 rXY 1.

Interpretaci
on:

Cuando los valores de rXY son cercanos a -1, se dice que las variables

X e Y tienen alta asociacion lineal inversa.

Cuando los valores de rXY son cercanos a 1, se dice que las variables X

e Y tienen alta asociacion lineal directa

Cuando el valor de rXY es cero, se tienen dos situaciones, la primera si

estamos bajo normalidad en las variables, entonces se dira que X e Y

son independientes; en otro caso, simplemente no se sabe que tipo de

asociacion existe entre las variables, al menos no es lineal (p.e. puede

ser: cuadratica, c
ubica, etc.).

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 47

Ejemplo 1.7.1 Consideremos los siguientes datos de un experimento sobre

mediciones espirometricas.

Individuo Edad (Z) Altura (X) F V C (Y ) XY X2 Y2 XZ Z2

1 25 160 5.08 812.80 25600 25.8064 4000 625


2 25 159 4.89 777.51 25281 23.9121 3975 625
3 26 174 5.44 946.56 30276 29.5936 4524 676
4 26 171 4.12 704.52 29241 16.9744 4446 676
5 26 164 6.36 1043.04 26896 40.4496 4264 676
6 27 168 5.17 868.56 28224 26.7289 4536 729
7 27 170 5.52 938.40 28900 30.4704 4590 729
8 28 174 5.24 911.76 30276 27.4576 4872 784

Total 210 1340 41.82 7003.15 224694 221.3930 35207 5520

1340 41.82
x = 8
167.5, y = 8
5.23

7003.15 8 167.5 5.23


rXY = p ,
(224694 8 167.52 )(221.3930 8 5.232 )
7003.15 7008.2
= p ,
(224694 224450)(221.3930 218.82)
5.05
= ,
244 2.573
5.05
= ,
627.812
5.05
= ,
25.01
0.202 .

Ejemplo 1.7.2 Consideremos la tabla anterior y calculemos la correlaci


on

entre Edad y Altura.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 48

1340 210
x = 8
167.5, z = 8
26.25

35207 8 167.5 26.25


rXZ = p ,
(224694 8 167.52 )(5520 8 26.252 )
35207 35175
= p ,
(224694 224450)(5520 5512.5)
32
= ,
244 7.5
32
= ,
1830
32
= ,
42.78
0.75 .

1.7.2 Matrix-Plot

La matriz dfe graficos permite, determinar rapidamente si dos variables

tienen alg
un grado de asociacion lineal, pero mas a
un, permite visualizar

todas las combinaciones posibles de las variables.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 49

1.7.3 Concepto de Rango

La idea es ordenar las observaciones de menor a mayor y asignarles un n


umero

correlativo a la posicion que ocupan, el cual se denomina rango.

Ejemplo 1.7.3 Consideremos las siguientes observaciones:

9, 2, 4, 6, 3, 12 .

Ordenemos los datos de menor a mayor y asignemos un n


umero a la posici
on

que ocupan:

Observacion 2 3 4 6 9 12

Posicion o Rango 1 2 3 4 5 6

Cuando existen observaciones repetidas, el procedimiento para asignar

los rangos es el siguiente:

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 50

Ejemplo 1.7.4 Consideremos las siguientes observaciones:

9, 2, 2, 2, 4, 6, 6, 3, 12 .

Ordenemos los datos de menor a mayor y asignemos un n


umero a la posici
on

que ocupan.

Observacion 2 2 2 3 4 6 6 9 12

Posicion o Rango 1 2 3 4 5 6 7 8 9

Ejemplo 1.7.5 Ahora, calculamos la media de las posiciones para las obser-

vaciones que estan repetidas.

1+2+3 6
Rango de empatados (2) = = =2,
3 3
y para
6+7 13
Rango de empatados (6) = = = 6.5 ,
2 2
entonces la tabla con los rangos es:

Observacion 2 2 2 3 4 6 6 9 12

Posicion o Rango 2 2 2 4 5 6.5 6.5 8 9

1.7.4 Correlaci
on de Rangos de Spearman (rS ).

Corresponde a un estadigrafo no parametrico, y se basa en la utilizacion de

los rangos asignados a los respectivos valores de las variables.

Su forma es la siguiente:
n
X
6 d2i
i=1
rS = 1 ,
n(n2 1)

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 51

donde di = Rango de xi Rango de yi , y n es el n


umero total de obser-

vaciones.

Ejemplo 1.7.6 Retomemos los datos de Espirometria, y determinemos sus

respectivos rangos:

Edad (Z) Altura (X) Z X di d2i

25 160 1.5 2 0.5 0.25


25 159 1.5 1 -0.5 0.25
26 174 4 7.5 3.5 12.25
26 171 4 6 2.0 4.00
26 164 4 3 -1.0 1.00
27 168 6.5 4 -2.5 6.25
27 170 6.5 5 -1.5 2.25
28 174 7 7.5 0.5 0.25

Total 26.50

6 26.50
rS = 1 ,
8(82 1)
159
= 1 ,
504
1 0.316 ,

0.684 .

De la misma forma que el coeficiente de correlaci


on de Pearson (rXZ = 0.75),

este nos indica que existe asociaci


on positiva entre las variables.

Nota: el coeficiente de correlacion de Spearman puede ser deducido del

coeficiente de correlacion lineal de Pearson.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 52

on 1.7.1 Sean (Xi , Yi ), i = 1, . . . , n una colecci


Demostraci on de pares or-

denados, donde Xi corresponde al i-esimo rango de la variable X y Yi cor-

responde al i-esimo rango de la variable Y , retomando la f


ormula de rXY , se

tiene que:
n
X
Y
Xi Yi nX
i=1
rXY = v ! n !,
u n
u X 2 X
t 2
Xi nX Yi2 nY 2
i=1 i=1

n
X n(n + 1)
Pero note que Xi = 1 + 2 + + n = y de la misma forma
i=1
2
n n
X n(n + 1) X
se tiene que Yi = 1 + 2 + + n = , por otro lado Xi2 =
i=1
2 i=1
n
n(n + 1)(2n + 1) X
12 + 22 + + n2 = = Yi2 .
6 i=1

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 53

As
n
X n
X
n
Xi Xi
i=1 i=1
X
Xi Yi n
i=1
n n
rXY = v ,
u
u n 2 n 2
X X
u
u n Xi n Xi
uX
2
i=1 X
2
i=1
X n X n
u
u i n i n
ui=1
t i=1

n n
!2
X X
n Xi Yi Xi
i=1 i=1
= !2 ,
Xn n
X
n Xi2 Xi
i=1 i=1
n n
!2 n n
X X X X
n Xi Yi Xi +n Xi2 n Xi2
i=1 i=1 i=1 i=1
= !2 ,
n
X n
X
n Xi2 Xi
i=1 i=1
n n
!2 n n
X X X X
n Xi2 Xi n Xi2 n Xi Yi
i=1 i=1 i=1 i=1
=
n n
!2 n n
!2 ,
X X X X
n Xi2 Xi n Xi2 Xi
i=1 i=1 i=1 i=1
n
X n
X
n Xi2 n Xi Yi
i=1 i=1
= 1 !2 ,
Xn Xn
n Xi2 Xi
i=1 i=1
n n n
! !
X X X
n 1
2
Xi2 + Xi2 Xi Yi
i=1 i=1 i=1
= 1 !2 ,
n
X n
X
n Xi2 Xi
i=1 i=1

n
X n
X
Pero Xi2 = Yi2
i=1 i=1

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 54

n n n
!
X X X
n
2
Xi2 + Yi2 2 Xi Yi
i=1 i=1 i=1
rXY = 1 !2 ,
n
X n
X
n Xi2 Xi
i=1 i=1
n
X
Xi2 + Yi2 2Xi Yi

n i=1
= 1 !2 ,
2 n
X n
X
n Xi2 Xi
i=1 i=1
Xn
(Xi Yi )2
n i=1
= 1 !2 ,
2 n
X n
X
n Xi2 Xi
i=1 i=1

as, sea di = Xi Yi i = 1, . . . , n la i-
Adem esima diferencia entre los rangos de X y Y .

n
X
d2i
n i=1
rXY = 1 2 ,
2 n

n(n+1)(2n+1) n(n+1)
6
2
n
X
d2i
i=1
= 1 ,
n(n+1)(2n+1) n(n+1)2
3
2
Xn
d2i
i=1
= 1 ,
2n(n+1)(2n+1)3n(n+1)2
6
Xn
6 d2i
i=1
= 1 ,
n(n + 1)(2(2n + 1) 3(n + 1))
n
X
6 d2i
i=1
= 1 ,
n(n + 1)(4n + 2 3n 3)
n
X
6 d2i
i=1
= 1 ,
n(n + 1)(n 1)
n
X
6 d2i
i=1
= 1 .
n(n2 1)

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 55

1.7.5 Correlaci
on de Punto Biserial (rpb ).

Permite establecer la relacion entre una variable dicotomica (Nominal) y una

variable cuantitativa.

Su forma es la siguiente:

xA xB )
r
( nA nB
rpb = ,
t n(n 1)

donde xA y xB corresponden a las medias de cada grupo, t es la desviacion

estandar de todos los datos, nA y nB son los respectivos tama


nos de los

grupos, y n es el total de observaciones.

Se utiliza para saber si las personas adecuada son las que obtienen las

respuestas correctas.

Ejemplo 1.7.7 Consideremos los datos de disminuci


on de grasa, en por-

centaje, seg
un si realizaron dieta o no.

Respuesta

SI 17 18 23 16 21 14 22 15
NO 11 10 17 23 13 20 18

En este caso debemos determinar las respectivas medias de cada grupo y

la desviacion estandar total.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 56

Los valores son: xS = 18.3, xN = 16.0 y t = 4.13.


s
(18.3 16.0) 87
rpb = ,
4.13 15(15 1)
r
2.3 56
= ,
4.13 210

0.557 0.2667 ,

0.287 .

En este caso, aunque el valor de rpb es mayor que cero, no es muy claro que

exista una relacion lineal entre la dieta y la disminuci


on de grasa.

1.7.6 Correlaci
on Phi ().

Permite relacionar dos variables dicotomicas del tipo nominal.

Sea la tabla bidimensional:


Variable 2
Atributo 1 Atributo 2 Total

Variable 1 Atributo 1 a b a+b


Atributo 2 c d c+d

Total a+c b+d

Entonces la forma del coeficiente esta dado por:

adbc
= ,
wxyz

donde w = a + c, x = b + d, y = a + b y z = c + d.

Ejemplo 1.7.8 Consideremos los datos de participaci


on en la empresa y

nivel de reconocimiento.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 57

Reconocimiento
Alto Bajo Total

Participaci
on Alta 16 12 28
Baja 34 88 122

Total 50 100

En este caso debemos determinar: w = 50, x = 100, y = 28, z = 122.

16 88 12 34
= ,
50 100 28 122
1408 408
= ,
17080000
1000
,
4132.796
0.2420 .

Interpretaci
on:

Si el coeficiente resulta ser positivo, entonces los valores iguales estan

asociados entre s, reflejando una relacion directa entre ambos atribu-

tos de ambas variables.

Si el coeficiente resulta ser negativo, entonces existen relaciones opues-

tas entre los atributos de las variables.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 58

1.8 Ejercicios Resueltos

1. La siguiente tabla muestra las frecuencias de un grupo de trabajadores

seg
un su nivel educacional en una industria agricola.

Nivel educacional N
umero de trabajadores

Educacion Basica 33

Educacion Media 45

Educacion Tecnico-Profesional 24

Educacion Universitaria 11

(a) Determine el porcentaje de trabajadores que tienen solo educacion

media.

(b) Determine el porcentaje de trabajadores que a lo mas tienen edu-

cacion media.

(c) Determine el porcentaje de trabajadores que a lo menos tienen

educacion media.

(d) Determine la mejor medida de tendencia central.

Des.
Primero completemos la tabla con las frecuencias relativas y acumu-
ladas.
Niveleducacional ni fi Ni Fi fi 100% Fi 100%

Educaci
on B
asica 33 0.292 33 0.292 29.2% 29.2%
Educaci
on Media 45 0.398 78 0.690 39.8% 69.0%
Educaci
on T
ecnico-Profesional 24 0.212 102 0.903 21.2% 90.3%
Educaci
on Universitaria 11 0.097 113 1.000 9.7% 100.0%

Total 113 1.000 100.0%

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 59

Directamente desde la tabla se obtinen los resultados pedidos.

(a) El 39.8% de los trabajadores tiene solo educacion Basica.

(b) En este caso necesitamos el porcentaje de trabajadores que a

lo mas tienen educacion media, es decir, son todos aquellos que

tienen solo educacion Basica (29.2%) mas los que solo tienen ed-

ucacion media (39.8%) que es igual a 69.0% es el porcentaje de

trabajadores que tiene a lo mas educacion Media.

(c) En este caso necesitamos los porcentajes de aquellos trabajadores

que tienen educacion Media (39.8%) mas los que tienen educacion

Tecnico-Profesional (21.2%) mas los con educacion Universitaria

(9.7%), lo que es igual a 70.7%.

(d) La tabla resume los resultados para la variable X:Nivel educa-

cional de los trabajadores, que es una variable cualitativa ordi-

nal, ya que los resultados de la variable tienen un orden natu-

ral, por lo cual podemos determinar la mediana, en este caso es

M ed(X) = Educacion Media.

2. Al entrevistar a 30 personas se obtuvo las siguientes preferencias de

colores para un determinado envase de desodorante, seg


un la tabla de

codigos.

Color Azul Verde Rojo Morado

Codigo 1 2 3 4

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 60

1 1 1 2 3 3 1 1 2 3

2 2 3 3 1 1 3 4 3 4

2 3 1 4 2 3 1 1 2 2

(a) Construya una tabla de frecuencias.

(b) Determine el porcentaje de preferencias por el color Verde.

(c) Determine el porcentaje de personas que prefieren el color Azul o

Verde.

(d) Determine el color mas frecuente.

Des.

(a) Sea X:Color preferido, de esta forma la variable es cualitativa

nominal.

Color ni fi

1 (Azul) 10 0.333

2 (Verde) 8 0.267

3 (Rojo) 9 0.300

4 (Morado) 3 0.100

Total 30 1.000

(b) El 26.7% de los entrevistados prefiere el color Verde.

(c) Sumando los porcentajes de preferencias por Azul (33.3%) y Verde

(26.7%), el resultado es 60.0%.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 61

(d) En este caso la Moda corresponde al valor mas frecuente, en este

caso M od(X) = Azul.

3. En una encuesta realizada a 25 Ingenieros en USA respecto a la op-


timizacion en el uso del cobre, se consulto Cual cree usted que es la
mejor forma de utilizar el cobre?

Forma Combinado con oro Combinado con plata Puro lquido Puro s
olido

C
odigo 1 2 3 4

y los resultados son los siguientes:

2 4 2 1 2 1 1 1 2 2

3 2 1 2 4 4 4 1 3 2

4 1 2 2 2

(a) Identifique y clasifique la variable en estudio.

(b) Construya una tabla de frecuencias.

(c) Que proporcion de Ingenieros considera que debe ser utilizado

combinado con plata?

(d) Que porcentaje de Ingenieros cree que se puede utilizar mejor el

cobre en forma combinada?

(e) Que porcentaje de Ingenieros estima que se optimiza su uso en

cualquiera de sus estados puros?

Des.

(a) Sea X:forma de uso del cobre. Cualitativa nominal.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 62

(b) .

Codigo ni fi

1 7 0.280

2 11 0.440

3 2 0.080

4 5 0.200

Total 25 1.000
(c) La proporcion de Ingenieros que considera que debe ser utilizado

combinado con plata es 11 de 25 o 11/25 = 0.44.

(d) El porcentaje de Ingenieros que considera que se debe utilizar

combinado es la suma de los que consideran que debe ser utilizado

combinado con oro (28.0%) con los que consideran que debe ser

utilizado combinado con plata (44.0%) que es igual a un 72.0%.

(e) Al igual que en el caso anterior debemos sumar los porcentajes de

los que consideran que se optimiza su uso puro lquido (8.0%) con

el porcentaje de puro solido (20.0%) que es igual a un 28.0%.

4. La siguiente informacion corresponde a las notas obtenidas por un

grupo de alumnos de cierto curso.

Nota N
umero de alumnos

1-3 15

3-5 38

5-7 12

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 63

(a) Determine y clasifique la variable de interes.

(b) Cual es la nota mas frecuente obtenida por los alumnos?

(c) Cual es la nota media obtenida por estos alumnos?

(d) Cuantos alumnos tienen una nota inferior a la nota mediana?

Determine el valor del valor mediano para la nota.

Des.

(a) Sea X:Nota obtenida por un alumno. Cuantitativa Continua13 .

Construimos la tabla de frecuencias:

marca de clase X ni fi Ni

xi

2 1 3 15 0.230 15

4 3 5 38 0.585 53

6 3 7 12 0.185 65

Total 65 1.000
13
Una variable continua siempre es cuantitativa, por lo cual es equivalente decir que una
variable es cuantitativa continua con solo decir que es una variable continua

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 64

(b) Necesitamos determinar la moda de la nota.


 
ni ni1
M o(X) = LIi + ai ,
(ni ni1 ) + (ni ni+1 )
 
38 15
= 3+ 2,
(38 15) + (38 12)
 
23
= 3+ 2,
(23) + (28)
 
23
= 3+ 2,
51
46
= 3+ ,
51
= 3 + 0.90 ,

= 3.90 .

(c) Como los datos estan tabulados necesitamos utilizar la marca de

clase (xi ) para este calculo.

1
X = (2 15 + 4 38 + 6 12) ,
65
254
= ,
65
= 3.91 .

(d) Directamente de la definicion de mediana se puede concluir que

bajo este valor esta el 50% de las observaciones, es decir, 65

(50%/100%) = 32.5 33 alumnos. Para determinar el valor de

la mediana, realizamos el calculo previo de 65/2 = 32.5, que esta

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 65

contenido en el segundo intervalo.


 
65 50 2
M e(X) = 3 + 15 ,
100 38
2
= 3 + (32.5 15) ,
38
2
= 3 + 17.5 ,
38
35
= 3+ ,
38
= 3 + 0.921 ,

= 3.921 .

5. La siguiente tabla muestra la oferta de precios para departamentos en

el centro de la ciudad.

UF Cantidad de departamentos

920-990 140

990-1050 350

1050-1200 300

1200-1400 160

(a) Cual es el precio medio de los departamentos?

(b) Cuantos departamentos tienen un precio inferior a 1150 UF?

(c) Determine el valor modal de los departamentos.

(d) Cual es la variacion de los precios de los departamentos?

Des.

Sea X: precio de los departamentos en $UF.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 66

xi X ni fi Ni

955 920 990 140 0.147 140

1050 990 1050 350 0.368 490

1125 1050 1200 300 0.316 790

1300 1200 1400 160 0.168 950

Total 950 1.000

(a)

1
X = (955 140 + 1020 350 + 1125 300 + 1300 160) ,
950
1036200
= ,
950
= 1090.74 UF .

(b)
 
950 150
1150 = 1050 + 490 ,
100 300
 
950 150
(1150 1050) = 490 ,
100 300
300 950
100 = 490 ,
150 100
950
200 + 490 = ,
100
100
690 = ,
950
= 72.63% .

Luego el 72.63% de los departamentos tiene un precio inferior a

1150, entonces 950 (72.63%/100%) = 690 departamentos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 67

(c)
 
350 140
M o(X) = 990 + 60 ,
(350 140) + (350 300)
 
210
= 990 + 60 ,
210 + 50
210
= 990 + 60 ,
260
12600
= 990 + ,
260
= 990 + 48.46 ,

= 1038.46 UF .

(d)

2 1
X = (140 9552 + 350 10202 + 300 11252 + 160 13002 )
950
1090.742 ,
1
= (1141911000 1130228060) ,
950
11682940
= ,
950
= 12297.83 (UF)2 ,

X = 110.90 UF .

6. La siguiente tabla muestra el gasto anual en electricidad (en millones

de pesos) de 200 personas.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 68

Gasto anual N
umero de personas

0.8-1.0 20

1.0-1.6 70

1.6-2.0

2.0-2.6 65

Total

(a) Determine el gasto medio y su variacion.

(b) Cuantas personas gastan mas de $1800000, en electricidad al

a
no?

(c) Determine el valor modal de gasto.

Des.

Sea X:gasto anual en electricidad, en millones de pesos. Primero com-

pletamos la tabla. Por enunciado el total de personas es 200, luego

sabemos que la suma de la columna de frecuencias observadas debe ser

200, por lo cual restamos al total las frecuencias que aparecen en la

tabla y obtenemos el valor faltante.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 69

xi X ni fi Ni ni xi

0.9 0.8 1.0 20 0.100 20 18

1.3 1.0 1.6 70 0.350 90 91

1.8 1.6 2.0 45 0.225 135 81

2.3 2.0 2.6 65 0.325 200 149.5

Total 200 1.000 339.5

(a)

339.5
X = = 1.70 millones de pesos.
200

(b)
 
200 0.4
1.8 = 1.6 + 90 ,
100 45
 
200 0.4
1.8 1.6 = 90 ,
100 45
45 200
0.2 = 90 ,
0.4 100
200
22.5 + 90 = ,
100
100
= 112.5 ,
200
= 56.25% .

Luego el 56.25% de las personas tiene un gasto inferior a 1.8 mil-

lones, entonces 100% 56.25% = 43.75% tiene un gasto superior

a 1.8 millones, as 200 (43.75%/100%) = 87.5 88 personas.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 70

(c)
 
70 20
M o(X) = 1.0 + 0.6 ,
(70 20) + (70 45)
50
= 1.0 + 0.6 ,
50 + 25
50
= 1.0 + 0.6 ,
75
= 1.0 + 0.4 ,

= 1.4 millones de pesos.

7. En un estudio a 250 personas sobre su sueldo anual, se recopilo la

siguiente informacion, en millones de pesos:

Sueldo anual N
umero de personas

1.5-2.5 27

2.5-3.5 19

3.5-4.5 15

4.5-5.5

Total

(a) Determine el ingreso medio para estas personas.

(b) Determine su variacion.

(c) Cuantas personas ganan menos de $3200000 anualmente?

(d) Determine si el valor modal es superior al valor mediano.

Des.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 71

Sea X: sueldo anual, en millones de pesos. Completamos la tabla de

frecuencias.

xi X ni fi Ni ni xi ni x2i

2.0 1.5 2.5 27 0.108 27 54 108

3.0 2.5 3.5 19 0.076 46 57 171

4.0 3.5 4.5 25 0.100 71 100 400

5.0 4.5 5.5 179 0.716 250 895 4475

Total 250 1.000 1106 5154

(a)
1106
X = = 4.42 millones de pesos.
250

(b)

2 1
5154 250 4.422 ,

X =
250
269.9
= ,
250
= 1.08 (millones de pesos)2 ,

X = 1.34 millones de pesos.

(c)
 
250 1.0
3.2 = 2.5 + 27 ,
100 19
 
19 100
= (3.2 2.5) + 27 ,
1.0 250
100
= (13.3 + 27) ,
250
= 16.12% .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 72

(d) Para el valor modal, primero identificamos el intervalo con la may-

or frecuencia observada.
 
179 25
M o(X) = 4.5 + 1.0 ,
(179 25) + (179 0)
154
= 4.5 + 1.0 ,
154 + 179
154
= 4.5 + ,
333
= 4.5 + 0.46 ,

= 4.96 millones de pesos.

Para el valor mediano, primero determinamos el valor 250/2 =

125, para encontrar el intervalo de la mediana.


 
250 50 1.0
M e(X) = 4.5 + 71 ,
100 179
1.0
= 4.5 + (125 71) ,
179
= 4.5 + 0.30 ,

= 4.80 millones de pesos.

Efectivamente el valor modal es superior al valor mediano.

8. La siguiente tabla muestra el gasto mensual en locomocion de un grupo

de 30 familias expresado en miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 73

Gasto mensual N
umero de

(miles de pesos) familias

5-12 7

12-18 9

18-25

25-33 7

(a) Cual es el gasto mensual medio en locomocion de estas familias?

(b) Cuantas familias gastan mensualmente mas de $19000 en loco-

mocion?

(c) Cual es el gasto mas frecuente en locomocion?

(d) Cual es la variabilidad respecto a la media del gasto en locomo-

cion?

(e) Cual es el monto de gasto mensual que deja por bajo este valor

al 75% de los montos?

Des.

Sea X: gasto mensual en locomoci


on.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 74

xi X ni fi Ni ni xi ni x2i

8.5 5 12 7 0.233 7 59.5 505.75

15 12 18 9 0.300 16 135 2025

21.5 18 25 7 0.233 23 150.5 3235.75

29 25 33 7 0.233 30 203 5887

Total 30 1.000 548 11653.5

(a)
548
X = = 18.27 millones de pesos.
30

(b)
 
30 7
19 = 18 + 16 ,
100 7
100
= ((19 18)1 + 16) ,
30
= 56.67% .

Entonces el 56.67% de las familias tienen un gasto inferior a $19000

mensuales en locomocion, as el (100% 56.67%) = 43.33% tienen

un gasto superior, es decir, 30 (43.33%/100%) = 13 familias.

(c)
 
97
M o(X) = 12 + 6,
(9 7) + (9 7)
2
= 12 + 6,
2+2
= 12 + 3 ,

= 15 miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 75

(d)
1 1639.71
2
X = (11653.5 30 18.272 ) = = 54.66 (miles de pesos)2
30 30

(e)
 
30 75 7
P75 = 18 + 16 ,
100 7
= 18 + (22.5 16) ,

= 24.5 miles de pesos.

9. En una encuesta realizada a 200 personas sobre su edad se registraron

los siguientes resultados.

Edad N
umero de personas

18-21 16

21-27 42

27-30

30-35 25

(a) Determine la edad media de los entrevistados.

(b) Determine si la edad mediana es superior a la edad mas frecuentes.

(c) Determine la variabilidad respecto a la media de las edades para

estos entrevistados.

(d) Cuantas personas de las entrevistadas tienen entre 25 y 31 a


nos?

Des.

Sea X: edad, en a
nos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 76

xi X ni fi Ni ni xi ni x2i

19.5 18 21 16 0.080 16 312 6084

24 21 27 42 0.210 58 1008 24192

28.5 27 30 117 0.585 175 3334.5 95033.25

32.5 30 35 25 0.125 200 812.5 26406.25

Total 200 1.000 5467 151715.5

(a)

5467
X = = 27.34 a
nos.
200

(b)
 
200 50 3
M e(X) = 27 + 58 ,
100 117
3
= 27 + (100 58) ,
117
= 27 + 1.08 ,

= 28.08 a
nos.

 
117 42
M o(X) = 27 + 3,
(117 42) + (117 25)
75
= 27 + 3,
75 + 92
= 27 + 1.35 ,

= 28.35 a
nos.

Entonces, se puede observar que la edad mediana no es mayor a

la edad mas frecuente.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 77

(c)

1 2220.38
2
X = (151715.5 200 27.342 ) = nos)2 ,
= 11.10 (a
200 200
X = 3.33 a
nos.

(d) Primero determinaremos el porcentaje de personas que se encuen-

tra en el intervalo, para ello determinaremos el porcentaje de per-

sonas que estan por bajo los 31 a


nos y luego lo restaremos con

el porcentaje que deja por bajo los 25 a


nos, para posteriormente

determinar la cantidad de personas.


 
200 5
31 = 30 + 175 ,
100 25
 
25 100
= (31 30) + 175 ,
5 200
100
= 180 ,
200
= 90% .

 
200 6
25 = 21 + 16 ,
100 42
 
42 100
= (25 21) + 16 ,
6 200
100
= (28 + 18) ,
200
= 22% .

Entonces, el porcentaje de personas que tiene entre 25 y 31 a


nos

es 90% 22% = 68%, as la cantidad de personas es 200

(68%/100%) = 136 personas.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 78

10. La siguiente tabla resume a un grupo de profesionales jovenes respecto

a la cantidad de dinero que gastan en diversion mensualmente, en miles

de pesos.

Gasto mensual n
umero de jovenes

5-15 91

15-28 105

28-32 70

32-50 56

(a) Cuale es el gasto promedio de dinero en diversion?

(b) Cuantos jovenes gastas mas de $30000 mensuales en diversion?

(c) Cual es el maximo que gasta el 75% de los entrevistados que

menos gasta?

(d) Determine el coeficiente de variacion para estos jovenes?

Des.

Sea X: cantidad de dinero que gastan en diversi


on, en miles de pesos.

xi X ni fi Ni ni xi ni x2i

10 5 15 91 0.283 91 910 9100

21.5 15 28 105 0.326 196 2257.5 48536.25

30 28 32 70 0.217 266 2100 63000

41 32 50 56 0.174 322 2296 94136

Total 322 1.000 7563.5 214772.25

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 79

(a)

7563.5
X = = 23.49 miles de pesos.
322

(b)
 
322 4
30 = 28 + 196 ,
100 70
 
70 100
= (30 28) + 196 ,
4 322
100
= (35 + 196) ,
322
= 71.74% .

Entonces, el 71.74% de los entrevistados gasta menos de $30000 al

mes en diversion, as el 28.26% gasta mas de $30000 en diversion,

y estos son 322 (28.26%/100%) = 91 jovenes.

(c)
 
75 322 4
P75 = 28 + 196 ,
100 70
4
= 28 + (241.5 196) ,
70
= 28 + 2.6 ,

= 30.6 miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 80

(d)

2 1
X = (214772.25 322 23.492 ) ,
322
37099.06
= ,
322
= 115.21 (miles de pesos)2 ,

X = 10.73 miles de pesos.

10.73
C.V.(X) = 100% = 45.7% .
23.49

11. Las utilidades en millones de pesos que tienen dos empresas, estan

relacionadas con el n
umero de proyectos que realizan anualmente, la

siguiente tabla muestra las utilidades de los u


ltimos a
nos de ambas

empresas.

Utlidades N
umero de Proyectos

millones de $ Empresa 1 Empresa 2

4.5-6.0 40 35

6.0-7.8 81 16

7.8-9.0 82 20

9.0-10.2 38 45

(a) En que empresa la utilidad presenta una mayor variabilidad re-

specto a la media?

(b) Cual es la cantidad de proyectos que presentan una utlidad menor

a $8000000 anual?

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 81

(c) Cual es el monto maximo de utilidad que presentan la mayoria

de los proyectos de la empresa 2?

(d) Si la empresa 1 aumentara en un 7% sus utilidades, y la empresa

2 disminuye en un 6%, pero lo intenta compensar aumentando en

3 proyectos adicionales, Cuales seran los nuevos coeficientes de

variacion para las empresas?

Des.
Sea Ei : utilidades de la empresa i = 1, 2.

e1i E1 n1i f1i N1i n1i e1i n1i e21i n2i f2i N2i n2i e2i n2i e22i

5.25 4.5 6.0 40 0.166 40 210 1102.5 35 0.302 35 183.75 964.69


6.90 6.0 7.8 81 0.336 121 558.9 3856.41 16 0.138 51 110.4 761.76
8.40 7.8 9.0 82 0.340 203 688.8 5785.92 20 0.172 71 168 1411.2
9.60 9.0 10.2 38 0.158 241 364.8 3502.08 45 0.388 116 432 4147.2

Total 241 1.000 1822.5 14246.91 116 1.000 794.15 7284.85

(a)

1822.5
E1 = ,
241
= 7.56 millones de pesos.

794.15
E2 = ,
116
= 6.85 millones de pesos.

1
E2 1 = 14246.91 241 7.562 ,

241
472.89
= ,
241
= 1.96 (millones de pesos)2 : .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 82

1
E2 2 = 7284.85 116 6.852 ,

116
1841.84
= ,
116
= 15.88 (millones de pesos)2 .

La empresa 2 presenta una mayor variabilidad en sus utilidades.

(b) Sea E: utilidad de las empresas, en millones de pesos.

ei E ni fi Ni

5.25 4.5 6.0 75 0.210 75

6.90 6.0 7.8 97 0.272 172

8.40 7.8 9.0 102 0.286 274

9.60 9.0 10.2 83 0.232 357

Total 357 1.000

 
357 1.2
8.0 = 7.8 + 172 ,
100 102
 
102 100
= (8.0 7.8) + 172 ,
1.2 357
100
= (17 + 172) ,
357
= 52.94% .

Entonces el 52.94% de los proyectos tienen una utilidad menor

a 8.0 millones de pesos, es decir, 357 (52.94%/100%) = 189

proyectos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 83

(c)
 
116 50 1.2
M e(E2 ) = 7.8 + 51 ,
100 20
1.2
= 7.8 + (58 51) ,
20
= 7.8 + 0.42 ,

= 8.22 millones de pesos.


(d) Determinemos los respectivos coeficientes de variacion (CV )para
cada empresa.

1.96 15.88
C.V.(E1 ) = 100% = 18.5% , C.V.(E2 ) = 100% = 58.2% .
7.56 6.82

Por propiedades de la varianza y la media se tiene que luego de


los ajustes los nuevos coeficientes de variacion para las empresas
son:

(1 + 0.07) 1.96 1.07 1.96 1.96
C.V.(E1 ) = 100% = 100% = 100% = 18.5% ,
(1 + 0.07) 7.56 1.07 7.56 7.56

(1 0.06) 15.88 0.94 15.88 3.74
C.V.(E2 ) = 100% = 100% = 100% = 39.7% .
(1 0.06) 6.82 + 3 0.94 6.82 + 3 9.41

12. La siguiente tabla muestra la distribucion del nivel de ingresos, en

millones de pesos, de un grupo de Profesionales seg


un su sexo.

Sueldo mensual Sexo

(millones de pesos) Hombres Mujeres

0.4-0.6 2 3

0.6-0.8 8 2

0.8-1.2 9 4

1.2-1.5 10 6

1.5-1.8 5 3

1.8-2.0 2 1

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 84

(a) Cuales son los ingresos medios de hombres y mujeres?

(b) Que cantidad de mujeres tiene un ingreso entre $650000 y $1250000?

(c) Comparativamente, Quienes tiene sueldos mas homogeneos?

(d) El sueldo mas frecuente de los hombres es mayor al mas frecuente

de las mujeres?

(e) Si el sueldo de los hombres aumentara en un 3%, y el de las mu-

jeres fuera reajustado en un 5% mas un bono mensual de $10000.

Quienes tendran un sueldo medio superior?

Des.

Sean X: sueldo mensual, en miles de pesos, H: Hombres y M : Mujeres.


Hombres M ujeres

xi X ni fi Ni ni xi ni x2i xi X ni fi Ni ni xi ni x2i

0.5 0.4 0.6 2 0.056 2 1.0 0.5 0.5 0.4 0.6 3 0.158 3 1.5 0.75
0.7 0.6 0.8 8 0.222 10 5.6 3.92 0.7 0.6 0.8 2 0.105 5 1.4 0.98
1.0 0.8 1.2 9 0.250 19 9 9 1.0 0.8 1.2 4 0.211 9 4 4
1.35 1.2 1.5 10 0.278 29 13.5 18.23 1.35 1.2 1.5 6 0.316 15 8.1 10.94
1.65 1.5 1.8 5 0.139 34 8.25 13.61 1.65 1.5 1.8 3 0.158 18 4.95 8.17
1.9 1.8 2.0 2 0.056 36 3.8 7.22 1.9 1.8 2.0 1 0.053 19 1.9 3.61

Total 36 1.000 41.15 52.48 Total 19 1.000 21.75 28.45

(a)

41.15
H = = 1.143 millones de pesos.
36

21.75
M = = 1.145 millones de pesos.
19

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 85

(b)
 
19 0.3
1.25 = 1.2 + 9 ,
100 6
 
6 100
= (1.25 1.2) +9 ,
0.3 19
100
= (1 + 9) ,
19
= 52.63% .
 
19 0.2
0.65 = 0.6 + 3 ,
100 2
 
2 100
= (0.65 0.6) +3 ,
0.2 19
100
= (0.5 + 3) ,
19
= 18.42% .

Entonces, El porcentaje de mujeres que esta en el intervalo es

52.63% 18.42% = 34.21%, es decir, hay 19 (34.21%/100%) =

6.5 7 mujeres.

(c)
1 5.448
2
H = (52.48 36 1.1432 ) = = 0.151 (millones de pesos)2 ,
36 36
H = 0.389 millones de pesos.

1 3.541
2
M = (28.45 19 1.1452 ) = = 0.186 (millones de pesos)2 ,
19 19
H = 0.431 millones de pesos.

0.389 0.431
C.V.(H) = 100% = 34.0% , C.V.(M ) = 100% = 37.6 .
1.143 1.145

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 86

(d)
 
10 9
M o(X)H = 1.2 + 0.3 ,
(10 9) + (10 5)
1
= 1.2 + 0.3 ,
1+5
= 1.2 + 0.05 ,

= 1.25 millones de pesos.

 
64
M o(X)M = 1.2 + 0.3 ,
(6 4) + (6 3)
2
= 1.2 + 0.3 ,
2+3
= 1.2 + 0.2 ,

= 1.4 millones de pesos.

Entonces, como se puede observar el sueldo mas frecuente de los

varones no es superior al sueldo mas frecuente de las damas.

(e)

H = (1 + 0.03)1.143 = 1.03 1.143 = 1.177 millones de pesos. ,

M = (1 + 0.05)1.145 + 0.01 = 1.05 1.145 + 0.01 = 1.212 millones de pesos.

13. Las demanda mensual de cajas (X) de cierto producto en los superme-

rcados de dos comunas se resume en la siguiente tabla.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 87

Cantidad (X) Comuna A Comuna B

30-70 12 5

70-100 21 8

100-130 36 19

130-150 29 10

(a) Determine las demandas mas frecuentes para ambas comunas.

(b) Es mayor la demanda promedio de la Comuna A comparado con

la Comuna B de este producto?

(c) Determine la cantidad de demanda mnima de 25% de las mayores

demandas.

(d) Que comuna tiene una demanda mas homogenea?

(e) Si para el proximo mes se determina que la comuna B tendra un

crecimiento en su poblacion, que involucrara un aumento en la

demanda de este producto en un 15%, en cambio la comuna A

disminuira su consumo en un 5% menos 7 cajas. Cuales seran

las nuevas demandas medias?

Des.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 88

xi X A B T otal Ni

50 30 70 12 5 17 17

85 70 100 21 8 29 46

115 100 130 36 19 55 101

140 130 150 29 10 39 140

T otal 98 42 140

(a)
 
36 21
M o(X|A) = 100 + 30 ,
(36 21) + (36 29)
15
= 100 + 30 ,
15 + 7
= 100 + 20.45 ,

= 120.45 cajas mensuales.

 
19 8
M o(X|B) = 100 + 30 ,
(19 8) + (19 10)
11
= 100 + 30 ,
11 + 9
= 100 + 16.50 ,

= 116.50 cajas mensuales.

(b)

50 12 + 85 21 + 115 36 + 140 29 10585


X|A = = = 108.01 cajas mensuales.
98 98
50 5 + 85 8 + 115 19 + 140 10 4515
X|B = = = 107.50 cajas mensuales.
42 42

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 89

Efectivamente, la Comuna A tiene una mayor demanda media de

cajas mensuales de este producto en comparacion a la Comuna B.

(c)
 
140 75 20
P75 = 130 + 101 ,
100 39
20
= 130 + (105 101) ,
39
= 130 + 2.05 ,

= 132.05 cajas mensuales.

La maxima demanda de cajas del 75% de las demandas inferiores

es 132.05 132, entonces este valor tambien corresponde a la

demanda mnima del 25% de las mayores demandas.

(d)

2 1
(502 12 + 852 21 + 1152 36 + 1402 29) 98 108.012 ,

X|A =
98
1
= (1226225 1143283.69) ,
98
82941.31
= ,
98
= 846.34 (cajas mensuales)2 ,

X|A = 29.09 cajas mensuales.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 90

2 1
(502 5 + 852 8 + 1152 19 + 1402 10) 42 107.502 ,

X|B =
42
1
= (517575 485362.50) ,
42
32212.50
= ,
42
= 766.96 (cajas mensuales)2 ,

X|B = 27.69 cajas mensuales.

29.09 27.69
C.V.(X|A) = 100% = 26.9% C.V.(X|B) = 100% = 25.8% .
108.01 107.50

La Comuna B tiene una demanda mas homogenea en comparacion

a la Comuna A.

(e)

X|A = (1 0.05) 108.01 7 = 95.61 cajas mensuales.

X|B = (1 + 0.15) 107.50 = 123.63 cajas mensuales.

14. En una encuesta realizada a 800 familias, se les consulta sobre dos

puntos: si estan inscritos en los registros electorales y sobre el nivel de

ingresos, de donde se obtiene la siguiente tabla.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 91

Nivel de Inscripcion

Ingresos en registros Total

(miles de pesos) SI NO

100-400 120 320

400-700 150 240

700-1000 210

Total

(a) Es superior el ingreso medio de las familias inscritas en los reg-

istros electorales que las no inscritas?

(b) Cuantas familias no inscritas en los registros electorales tienen

un ingreso superior a 500 mil?

(c) Son mas homogeneas los ingresos de las familias inscritas en los

registros electores que las no inscritas?

Des.

xi X SI N O T otal

250 100 400 120 200 320

550 400 700 90 150 240

850 700 1000 210 30 240

T otal 420 380 800

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 92

(a)

250 120 + 550 90 + 850 210 258000


X|Y =SI = = = 614.29 miles de pesos.
420 420
250 200 + 550 150 + 850 30 158000
X|Y =N O = = = 415.79 miles de pesos.
380 380

El ingreso medio de las familias que estan inscritas en los registros

electorales es mayor que las familas no inscritas.

(b)
 
380 300
500 = 400 + 200
100 150
 
150 100
= (500 400) + 200
300 380
100
= 250
380
= 65.79

El 65.79% de las familias no inscritas en los registros electorales

tiene un ingreso menor a $500000, entonces, el 34.21% tiene un

ingreso superior, es decir, 380 (34.21%/100%) = 130 familias.

(c)

2 1
(2502 120 + 5502 90 + 8502 210) 420 614.292 ,

X|Y =SI =
420
1
= (186450000 158487925.7) ,
420
27962074.28
= ,
420
= 66576.37 (miles de pesos)2 ,

X|Y =SI = 258.02 miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 93

2 1
(2502 200 + 5502 150 + 8502 30) 380 415.792 ,

X|Y =N O =
380
1
= (79550000 65694903.16) ,
380
13855096.84
= ,
380
= 36460.78 (miles de pesos)2 ,

X|Y =N O = 190.95 miles de pesos.

258.02 190.95
C.V.(X|Y = SI) = 100% = 42.0% C.V.(X|Y = N O) = 100% = 45.9%
614.29 415.79

Las familias inscritas en los registros electorales tienen sueldos

mas homogeneos que las familias no inscritas en los registros elec-

torales.

15. El siguiente cuadro muestra el n


umero de horas semanales dedicadas

al estudio de un grupo de alumnos y la nota final que obtuvieron al

termino del curso.

Horas de estudio Nota final

1-3 3-5 5-7

0-2 3 1 4

2-4 5 5 6

4-6 6 4 9

6-8 1 4 7

(a) Determine el numero medio de horas de estudio y de nota final.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 94

(b) Cual es la cantidad de horas de estudios mas frecuente de este

grupo de estudiantes?

(c) Cuantos de estos estudiantes aprobaron el curso?

(d) Determine la nota mnima que obtuvo el 50% de los mejores alum-

nos.

(e) Cuantas horas en promedio estudiaron aquellos alumnos que ob-

tuvieron una nota superior a 5.0?

(f) Que nota obtuvieron los alumnos que estudiaron menos de 4

horas?

(g) Determine si los alumnos son mas parecidos respecto a las horas

que estudian en comparacion a la nota final que obtuvieron.

(h) Determine el tipo y fuerza de asociacion entre las variables.

Des.

yi 2 4 6

xi X 1 3 3 5 5 7 T otal

1 02 3 1 4 8

3 24 5 5 6 16

5 46 6 4 9 19

7 68 1 4 7 12

T otal 15 14 26 55

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 95

(a)

1 8 + 3 16 + 5 19 + 4 12
X = ,
55
235
= ,
55
= 4.27 horas.
2 15 + 4 14 + 6 26
Y = ,
55
242
= ,
55
= 4.40 .

(b)
 
19 16
M o(X) = 4 + 2,
(19 16) + (19 12)
3
= 4+ 2,
3+7
= 4 + 0.6 ,

= 4.6 horas.

(c)
 
55 2
4 = 3+ 15 ,
100 14
 
14 100
= (4 3) + 15 ,
2 55
100
= 22 ,
55
= 40% .

Como el 40% de las observaciones tiene una nota final inferior

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 96

a 4.0, entonces el 60% tiene una nota superior a 4.0, es decir,

55 (60%/100%) = 33 alumnos aprobaron el curso.

(d)
 
50 55 2
P50 = 3+ 15 ,
100 14
2
= 3 + (27.5 15) ,
14
= 3 + 1.79 ,

= 4.79 .

(e) .

xi X|Y > 5

1 02 4
14+36+59+77
X|Y >5 = 26
3 24 6
116
= 26
5 46 9
= 4.46 horas.
7 68 7

T otal 26

(f) .

xi Y |X < 4
28+46+610
2 13 3+5=8 Y |X<4 = 24
100
4 35 1+5=6 = 24

6 5 7 4 + 6 = 10 = 4.17

T otal 24

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 97

(g)

2 1
(12 8 + 32 16 + 52 19 + 72 12) 55 4.272 ,

X =
55
1
= (1215 1002.81) ,
55
= 3.86 (horas)2 ,

X = 1.96 horas.
1
Y2 (22 15 + 42 14 + 62 26) 55 4.402 ,

=
55
1
= (1220 1064.80) ,
55
= 2.82 ,

Y = 1.68 .

1.96 horas 1.68


C.V.(X) = 100% = 45.9% C.V.(Y ) = 100% = 38.2% .
4.27 horas 4.40

Como el C.V.(X) > C.V.(Y ) los alumnos son mas homogeneos en

la nota que obtuvieron que en las horas de estudio.


(h)
1
XY = ((1 3 2 + 1 1 4 + 1 4 6 + 3 5 2 + 3 5 4 + 3 6 6 ,
55
+5 6 2 + 5 4 4 + 5 9 6 + 7 1 2 + 7 4 4 + 7 7 6) ,

55 4.27 4.40) ,
1
= (1062 55 4.27 4.40) ,
55
28.66
= ,
55
= 0.52 ,

0.52
rXY = = 0.158 .
1.96 1.68

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 98

Las variables tienen una baja asociacion lineal directa.

16. El Subgerente de refrigeracion y aire acondicionado de una empresa,


debe decidir entre instalar calefactores a parafina o a gas, en las nuevas
dependencias de bodega. Con el proposito de tomar una decision in-
teligente, solicito la siguiente informacion.

Antecedentes Parafina (P) Gas (G)

N
umero de calefactores 4 2 5 6 3 3 2 3 4 1
Precio de calefactores (US$) 90 85 91 100 95 93 112 86 95 98
Importados (I) 3 1 3 4 2 3 1 1 2 0
Nacionales (N) 1 1 2 2 1 0 1 2 2 1

(a) Es el precio medio de los calefactores a Parafina superior al de

los a Gas?

(b) Determine de los calefactores nacionales, si el precio mediano de

los a Parafina es superior a los de Gas.

(c) Es el precio medio de los calefactores a Parafina nacioanales

menor al de los importados?

(d) Cuales calefactores tienen precios mas homogeneos, los nacionales

a Gas o los nacionales a Parafina?

(e) Cual es precio mas com


un de los calefactores nacionales a Gas?

Des.

(a)

4 90 + 2 85 + 5 91 + 6 100 + 3 95 1870
P = = = 93.5 US$ ,
20 20
3 93 + 2 112 + 3 86 + 4 95 + 1 98 1239
G = = = 95.31 US$ .
13 13

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 99

En este caso el precio medio de los calefactores a Gas es superior

al precio medio de los calefactores a Parafina.

(b) .

P |N G|N

85 1 1 86 2 2

90 1 2 93 0 2

91 2 4 95 2 4

95 1 5 98 1 5

100 2 7 112 1 6

M e(P |N ) = 91 US$ M e(G|N ) = 95 US$ .

En este caso el pecio mediano de los calefactores nacionales a

Gas es superior al precio mediano de los calefactores nacionales a

Parafina.

(c) .

N |P I|P
851+901+912+951+1002
N |P = 7
,
85 1 1
652
= 7
,
90 1 3
= 93.14 US$ ,
91 2 3
851+903+913+952+1004
I|P = 13
,
95 1 2
1218
= 13
,
100 2 4
= 93.69 US$ .
T otal 7 13

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 100

Efectivamente el precio medio de los calefactores a Parafina Na-

cionales es menor al precio medio de los calefactores a Parafina

Importados.

(d) Utilizando las resultados de b) y c), se tienen:

P |N = 93.14 US$ ,
86 2 + 93 0 + 95 2 + 98 1 + 112 1 572
G|N = = = 95.33 US$ .
6 6
1
P2 |N = (852 1 + 902 1 + 912 2 + 952 1 + 1002 2) 7 93.142 ,

7
1
= (60912 60725.42) ,
7
= 26.65 (US$)2 ,

P |N = 5.76 US$ .

2 1
(862 2 + 932 0 + 952 2 + 982 1 + 1122 1) 6 95.332 ,

G|N =
6
1
= (54990 54526.85) ,
6
= 77.19 (US$)2 ,

G|N = 8.79 US$ .

5.76 US$ 8.79 US$


C.V.(P |N ) = 100% = 5.5% , C.V.(G|N ) = 100% = 9.2% .
93.14 US$ 95.33 US$

Los calefactores Nacionales a Parafina tienen precios mas homogeneos

que los calefactores Nacionales a Gas.

(e)

M o(G|N )1 = 86 US$ , M o(G|N )2 = 95 US$ .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 101

17. La siguiente tabla muestra los ingresos mensuales (X), en miles de

pesos, y el nivel educacional (Y) de un grupo de empleados de una

empresa de asesoria computacional.

X Y

Media (M) Tecnico-Profesional (TP) Universitaria(U)

150-350 9 12 3

350-600 8 15 5

600-1100 2 7 5

(a) Cual es el sueldo mas frecuente de estos empleados?

(b) Cual es el sueldo promedio de estos empleados?

(c) Cual es el sueldo medio de los empleados con eduacion Universi-

taria?

(d) Cual sueldo es mas homogeneo respecto al nivel educacional?

Des.

xi X M TP U T otal

250 150 350 9 12 3 24

475 350 600 8 15 5 28

850 600 1100 2 7 5 14

T otal 19 34 13 66

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 102

(a)
 
28 24
M o(X) = 350 + 250 ,
(28 24) + (28 14)
4
= 350 + 250 ,
4 + 14
= 350 + 55.56 ,

= 405.56 miles de pesos.

(b)

250 24 + 475 28 + 850 14


X = ,
66
31200
= ,
66
= 472.73 miles de pesos.

(c)

250 3 + 475 5 + 850 5 7375


X|Y =U = = = 567.31 miles de pesos.
13 13

(d)

250 9 + 475 8 + 850 2 7750


X|Y =M = = = 407.89 miles de pesos.
19 19
250 12 + 475 15 + 850 7 16075
X|Y =T P = = = 472.79 miles de pesos.
34 34

2 1
(2502 9 + 4752 8 + 8502 2) 19 407.892 ,

X|Y =M =
19
1
= (3812500 3161110.79) ,
19
= 34283.64 (miles de pesos)2 ,

X|Y =M = 185.16 miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 103

2 1
(2502 12 + 4752 15 + 8502 7) 34 472.792 ,

X|Y =T P =
34
1
= (9191875 7600033.06) ,
34
= 46818.89 (miles de pesos)2 ,

X|Y =T P = 216.38 miles de pesos.

2 1
(2502 3 + 4752 5 + 8502 5) 13 567.312 ,

X|Y =U =
13
1
= (4928125 4183928.27) ,
13
= 57245.90 (miles de pesos)2 ,

X|Y =M = 239.26 miles de pesos.

185.16 216.38 239.26


C.V.(M ) = 407.89
100% = 45.4% , C.V.(T P ) = 472.79
100% = 45.8% , C.V.(U ) = 567.31
1

Los empleados con educacion Universitaria tienen sueldos mas ho-

mogeneos, en comparacion a los otros trabajadores.

18. Una empresa dedicada a la venta de departamentos en la Quinta region,

resume en la siguiente tabla los valores de departamentos seg


un sus

contribuciones.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 104

Precio de venta (X) Contribuciones en miles de pesos (Y)

(millones de pesos) 50-100 100-200 200-300 300-400

10-15 10 4 3 1

15-20 3 6 1 3

20-30 4 3 5 7

30-40 0 2 5 2

40-50 0 1 6 9

(a) Cual es el precio y monto de contribuciones promedio de estos

departamentos?

(b) Que porcentaje de departamentos tiene un precio de venta a lo

menos de 30 millones y sus contribuciones son superiores a los 200

mil?

(c) Cual es el valor mas frecuente de los departamentos que pagan

contribuciones entre los 100 y 300 mil?

(d) Calcule el coeficiente de asociacion lineal para las variables en

estudio e interprete.

Des.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 105

yi 75 150 250 350

xi X 50 100 100 200 200 300 300 400 T otal

12.5 10 15 10 4 3 1 18

17.5 15 20 3 6 1 3 13

25 20 30 4 3 5 7 19

35 30 40 0 2 5 2 9

45 40 50 0 1 6 9 16

T otal 17 16 20 22 75

(a)

12.5 18 + 17.5 13 + 25 19 + 35 9 + 45 16
X = ,
75
1764.5
= = 23.53 millones de pesos.
75
75 17 + 150 16 + 250 20 + 350 22
Y = ,
75
16375
= = 218.33 miles de pesos.
75

(b)

5+2+6+9 22
100% = 100% = 29.3% .
75 75

(c) .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 106

xi X|100 < Y < 300

12.5 10 15 4+3=7

17.5 15 20 6+1=7

25 20 30 3+5=8

35 30 40 2+5=7

45 40 50 1+6=7

T otal 26

 
87
M o(X|100 < Y < 300) = 20 + 10 ,
(8 7) + (8 7)
1
= 20 + 10 ,
1+1
= 25 millones de pesos.

(d)
1
XY = ((12.5 10 75 + 12.5 4 150 + 12.5 3 250 + 12.5 1 350
75
+17.5 3 75 + 17.5 6 150 + 17.5 1 250 + 17.5 3 350

+25 4 75 + 25 3 150 + 25 5 250 + 25 7 350

+35 0 75 + 35 2 150 + 35 5 250 + 35 2 350

+45 0 75 + 45 1 150 + 45 6 250 + 45 9 350)

75 23.53 218.33) ,
1
= (479062.5 75 23.53 218.33) ,
75
93764.63
= ,
75
= 1250.20 .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 107

2 1
(12.52 18 + 17.52 13 + 252 19 + 352 9 + 452 16) 17 23.532 ,

X =
75
1
= (62093.75 41524.57) ,
75
20569.18
= ,
75
= 274.26 (millones de pesos)2 ,

X = 16.56 millones de pesos.


2 1
(752 17 + 1502 16 + 2502 20 + 3502 22) 75 218.332 ,

Y =
75
1
= (4400625 3575099.17) ,
75
825525.83
= ,
75
= 11007.01 (miles de pesos)2 ,

Y = 104.91 miles de pesos.

1250.20
rXY = = 0.720 .
16.56 104.91

En este caso existe una mediana asociacin lineal directa entre las variables.

19. En un curso de 50 alumnos, 15 de ellos obtuvieron una nota final menor

a 3.5 y solo 4 de ellos una nota superior a 6.2.

(a) Determine la nota media y su variabilidad.

(b) Supera la nota mediana a la mas frecuente?

(c) Cuantos alumnos aprobaron el curso?

Des.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 108

xi X n i Ni

2.25 1.0 3.5 15 15

4.85 3.5 6.2 31 46

6.6 6.2 7.0 4 50

T otal 50

(a)
2.25 15 + 4.85 31 + 6.6 4 210.5
X = = = 4.21 ,
50 50
2 1
(2.252 15 + 4.852 31 + 6.62 4) 50 4.212 ,

X =
50
1
= (979.38 886.21) ,
50
93.17
= ,
50
= 1.86 .

(b)
 
50 50 2.7
M e(X) = 3.5 + 15 ,
100 31
2.7
= 3.5 + (25 15) ,
31
= 3.5 + 0.87 ,

= 4.37 ,
 
31 15
M o(X) = 3.5 + 2.7 ,
(31 15) + (31 4)
16
= 3.5 + 2.7 ,
16 + 27
= 3.5 + 1.0 ,

= 4.5 .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 109

Como se puede observar la nota mediana es menor a la nota mas

frecuente.

(c)
 
50 2.7
4.0 = 3.5 + 15 ,
100 31
 
31 100
= (4.0 3.5) + 15 ,
2.7 50
100
= (5.74 + 15) ,
50
= 41.48% .

El 41.48% de los alumnos obtuvo una nota inferior a 4.0, entonces,

el 58.52% tiene aprobaron el curso, es decir, 50(58.52%/100%) =

29.26 29 alumnos.

20. Los siguientes datos corresponden al sueldo mensual(X) en miles de

pesos de un grupo de trabajadores de una empresa metal


urgica respecto

a las horas de trabajo semanal (Y).

X Y

30-35 35-40 40-46

250-450 6 4 5

450-650 3 2 6

650-850 1 8 9

(a) Determine el sueldo y horas de trabajo promedio para este grupo

de trabajadores.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 110

(b) Cual es el sueldo medio de aquellos que trabajan mas de 40 horas?

(c) Cuantas horas en promedio trabajan aquellos que tienen un suel-

do entre 450 y 650 mil?

(d) Determine el coeficiente de correlacion lineal para las variables.

Des.

yi 32.5 37.5 43

xi X 30 35 35 40 40 46 T otal

350 250 450 6 4 5 15

550 450 650 3 2 6 11

750 650 850 1 8 9 18

T otal 10 14 20 44

(a)

350 15 + 550 11 + 750 18 24800


X = = ,
44 44
= 563.64 miles de pesos.
32.5 10 + 37.5 14 + 43 20 1710
Y = = ,
44 44
= 38.86 horas.

(b)

350 5 + 550 6 + 750 9


X|Y >40 = ,
20
11800
= = 590 miles de pesos.
20

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 111

(c)

32.5 3 + 37.5 2 + 43 6
Y |450<X<650 = ,
11
430.5
= = 39.14 horas.
11

(d)

1
XY = ((350 10 32.5 + 350 4 37.5 + 350 5 43
44
+550 3 32.5 + 550 2 37.5 + 550 6 43

+750 1 32.5 + 750 8 37.5 + 750 9 43) ,

44 563.64 38.86) ,
1
= (972400 44 563.64 38.86) ,
44
8665.78
= ,
44
= 196.95 .

2 1
(3502 15 + 5502 11 + 7502 18) 44 563.642 ,

X =
44
1
= (15290000 13978362.18) ,
44
1311637.82
= ,
44
= 29809.95 (miles de pesos)2 ,

X = 172.66 miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 112

1
Y2 (32.52 10 + 37.52 14 + 432 20) 44 38.862 ,

=
44
1
= (67230 66444.38) ,
44
785.62
= ,
44
= 17.85 (horas)2 ,

Y = 4.23 horas.

196.95
rXY = = 0.270 .
172.66 4.23

21. La siguiente tabla resume el resultados de 54 postulantes a un cargo

ejecutivo de una gran empresa, seg


un sus edades.

Puntajes Edad (Y)

(X) 25-28 28-32

30-45 5 12

45-50 7 10

50-65 11 9

(a) Calcule el valor medio de los puntajes y de las edades.

(b) Determine el valor mas frecuente de la edad dado que los postu-

lantes obtuvieron menos de 50 puntos.

(c) Determine el puntaje que obtuvieron como maximo el 25% de los

mas bajos, dado que tienen menos de 28 a


nos.

(d) Determine el coeficiente de correlacion lineal entre las variables.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 113

Des.

yi 26.5 30

xi X 25 28 28 32 T otal

37.5 30 45 5 12 17

47.5 45 50 7 10 17

57.5 50 65 11 9 20

T otal 23 31 54

(a)

37.5 17 + 47.5 17 + 57.5 20 2595


X = = = 48.06 puntos.
54 54
26.5 23 + 30 31 1539.5
Y = = = 28.51 a
nos.
54 54

(b) .

Y |X < 50

25 28 5 + 7 = 12

28 32 12 + 10 = 22

T otal 34

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 114

 
22 12
M o(Y |X < 50) = 28 + 4,
(22 12) + (22 0)
10
= 28 + 4,
10 + 22
= 28 + 1.25 ,

= 29.25 a
nos.

(c) .

X|Y < 28 Ni

30 45 5 5

45 50 7 12

50 65 11 23

T otal 23

 
25 23 5
P25 = 45 + 5 ,
100 7
5
= 45 + (5.75 5) ,
7
= 45 + 0.54 ,

= 45.54 puntos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 115

(d)
1
XY = ((37.5 5 26.5 + 37.5 12 30
54
+47.5 7 26.5 + 47.5 10 30

+57.5 11 26.5 + 57.5 9 30)

54 48.06 28.51) ,
1
= (73816.25 54 48.06 28.51) ,
54
174.04
= ,
54
= 3.22 .

2 1
(37.52 17 + 47.52 17 + 57.52 20) 54 48.062 ,

X =
54
1
= (128387.50 124727.23) ,
54
3660.27
= ,
54
= 67.78 (puntos)2 ,

X = 8.23 puntos.

1
Y2 (26.52 23 + 302 31) 54 28.512 ,

=
54
1
= (44051.75 43892.29) ,
54
159.46
= ,
54
nos)2 ,
= 2.95 (a

Y = 1.72 a
nos.

3.22
rXY = = 0.227 .
8.23 1.72

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 116

Existe una baja asociacion lineal inversa entre las variables.

22. La siguiente tabla resume la informacion de un grupo de estudiantes

universitarios seg
un su edad y peso.

Edad Peso (Y)

(X) 65-75 75-85

18-22 6 11

22-25 7 14

25-28 10 16

(a) Determine la edad mas frecuente de los que pesan menos de 75

kilos.

(b) Determine el peso medio, de los alumnos que tienen mas de 22

a
nos.

(c) Determine si el peso medio de todos los alumnos, supera al peso

medio de los alumnos con edades inferiores a los 25 a


nos.

(d) Determine el coeficiente de correlacion lineal para las variables.

Des.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 117

yi 70 80

xi X 65 75 75 85 T otal

20 18 22 6 11 17

23.5 22 25 7 14 21

26.5 25 28 10 16 26

T otal 23 41 64

(a)
 
10 7
M o(X|Y < 75) = 25 + 3,
(10 7) + (10 0)
3
= 25 + 3,
3 + 10
= 25 + 0.69 ,

= 25.69 a
nos.

(b) .

yi Y |X > 22

70 65 75 7 + 10 = 17

80 75 85 14 + 16 = 30

T otal 47

70 17 + 80 30 3590
Y |X>22 = = = 76.41 Kgrs.
47 47

(c)
70 23 + 80 41 4890
Y = = = 76.41 Kgrs.
64 64

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 118

yi Y |X < 25

70 65 75 6 + 7 = 13

80 75 85 11 + 14 = 25

T otal 38

70 13 + 80 25 2910
Y |X<25 = = = 76.58 Kgrs.
38 38

El peso medio de todos los alumnos es menor que el peso de los

alumnos menores de 25 a
nos.

(d)

20 17 + 23.5 21 + 26.5 26 1522.5


X = = = 23.79 a
nos.
64 64

1
XY = ((20 6 70 + 20 11 80
64
+23.5 7 70 + 23.5 14 80

+26.5 10 70 + 26.5 16 80)

64 23.79 76.41)
1
= (116305 64 23.79 76.41)
64
33.81
=
64
= 0.528

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 119

2 1
(202 17 + 23.52 21 + 26.52 26) 64 23.792

X =
64
1
= (36655.75 36221.70)
64
434.05
=
64
nos)2
= 6.78 (a

X = 2.60 a
nos.

1
Y2 (702 23 + 802 41) 64 76.412

=
64
1
= (375100 373663.24)
64
1436.76
=
64
= 22.45 (Kgrs.)2

Y = 4.74 kgrs.

0.528
rXY = = 0.056
2.60 4.74

Existe una baja asociacion lineal inversa entre las variables.

23. La siguiente tabla muestra los puntajes (X) obtenidos por un grupo de

alumnos de un colegio seg


un el tramo de edad (Y ).

Puntajes Edad (Y)

(X) 9-11 11-14 14-16

0-30 3 6 10

30-50 8 4 11

50-70 9 7 5

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 120

(a) Obtenga la edad media y puntaje medio de estos alumnos.

(b) Obtenga las varianzas de la edad y del puntaje.

(c) Determine el coeficiente de correlacion lineal.

(d) Cual es la edad media de los alumnos que obtuvieron puntajes

mayores a 30 puntos?

(e) Cual es el puntaje medio de aquellos alumnos que tienen mas de

11 a
nos?

Des.

yi 10 12.5 15

xi X 9 11 11 14 14 16 T otal

15 0 30 3 6 10 19

40 30 50 8 4 11 23

60 50 70 9 7 5 21

T otal 20 17 26 63

(a)

15 19 + 40 23 + 60 21 2465
X = = = 39.13 puntos.
63 63
10 20 + 12.5 17 + 15 26 802.5
Y = = = 12.74 a
nos.
63 63

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 121

(b)

2 1
(152 19 + 402 23 + 602 21) 63 39.132 ,

X =
63
1
= (116675 96462.88) ,
63
20212.12
=
63
= 320.83 (puntos)2 ,

X = 17.91 puntos.

1
Y2 (102 20 + 12.52 17 + 152 26) 63 12.742 ,

=
63
1
= (10506.25 10225.38) ,
63
280.87
= ,
63
nos)2 ,
= 4.46 (a

Y = 2.11 a
nos.

(c)

1
XY = ((15 3 10 + 15 6 12.5 + 15 10 15
63
+40 8 10 + 40 4 12.5 + 40 11 15

+60 9 10 + 60 7 12.5 + 60 5 12.5)

63 39.13 12.74) ,
1
= (30775 63 39.13 12.74) ,
63
631.52
= ,
63
= 10.02 .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 122

10.02
rXY = = 0.265 .
17.91 2.11

(d) .

yi Y |X > 30

10 9 11 8 + 7 = 17

12.5 11 14 4 + 7 = 11

15 14 16 11 + 5 = 16

T otal 44

10 17 + 12.5 11 + 15 16 547.5
Y |X>30 = = = 12.44 a
nos.
44 44

(e) .

xi X|Y > 11

15 0 30 6 + 10 = 16

40 30 50 4 + 11 = 15

60 50 70 7 + 5 = 12

T otal 43

15 16 + 40 15 + 60 12 1560
X|Y >11 = = = 36.28 puntos.
43 43

24. La siguiente tabla resume las horas semanales que un grupo de ni


nos

pasa frente al computador (Y ) respecto a su edad (X).

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 123

X Y

2-4 4-6 6-8

12-14 13 14 15

14-16 12 15 16

(a) Determine el promedio de horas a la semana y de edad de este

grupo de ni
nos.

(b) Determine la cantidad de horas mas frecuentes que pasan frente

al computador los ni
nos mayores de 14 a
nos?

(c) Cual es la edad media de los ni


nos que pasan menos de 6 horas

frente al computador?

(d) Determine el coeficiente de correlacion lineal.

Des.

yi 3 5 7

xi X 2 4 4 6 6 8 T otal

13 12 14 13 14 15 42

15 14 16 12 15 16 43

T otal 25 29 31 85

(a)
13 42 + 15 43 1191
X = = = 14.01 a
nos.
85 85
3 25 + 5 29 + 7 31 437
Y = = = 5.14 horas.
85 85

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 124

(b) .

yi Y |X > 14

3 24 12

5 46 15

7 68 16

T otal 43

 
16 15
M o(Y |X > 14) = 6 + 2,
(16 15) + (16 0)
1
= 6+ 2,
1 + 16
= 6 + 0.12 ,

= 6.12 horas.

(c) .

xi X|Y < 6

13 12 14 13 + 14 = 27

15 14 16 12 + 15 = 27

T otal 54

13 27 + 15 27 756
X|Y <6 = = = 14 a
nos.
54 54

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 125

(d)

1
XY = ((13 13 3 + 13 14 5 + 13 15 7
85
+15 12 3 + 15 15 5 + 15 16 7)

85 14.01 5.14)
1
= (6127 85 14.01 5.14) ,
85
6.03
= ,
85
= 0.071 (a
nos) (horas).

2 1
(132 42 + 152 43) 85 14.012 ,

X =
85
1
= (16773 16683.81) ,
85
89.19
= ,
85
nos)2 ,
= 1.05 (a

X = 1.02 a
nos.

1
Y2 (32 25 + 52 29 + 72 31) 85 5.142 ,

=
85
1
= (2469 2245.67) ,
85
223.33
= ,
85
= 2.63 (horas)2 ,

Y = 1.62 horas.

0.071
rXY = = 0.043 .
1.02 1.62

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 126

25. La tabla muestra el gasto mensual en diarios y revistas de 45 familias

en miles de pesos, diferenciadas seg


un si tienen automovil o no.

Gasto mensual Con automovil Sin automovil

1-5 7 3

5-10 5 4

10-15 10 6

15-25 6 4
(a) Cual es el gasto mensual medio en diarios y revistas de estas

familias?

(b) Que porcentaje de familias gastan mensualmente mas de $12000

en diarios y revistas?

(c) Cual es el gasto medio de las familias que no tienen automovil?

(d) Son los gastos en diarios y revistas de las familias con automovil

mas homogeneos que las sin automovil?

Des.

xi X CA SA T otal

3 15 7 3 10

7.5 5 10 5 4 9

12.5 10 15 10 6 16

20 15 25 6 5 10

T otal 18 17 45

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 127

(a)

3 10 + 7.5 9 + 12.5 16 + 20 10
X = ,
45
497.5
= = 11.06 miles de pesos.
45

(b)
 
45 5
12 = 10 + 9 ,
100 16
 
16 100
= (12 10) + 9 ,
5 45
100
= (6.4 + 9) ,
45
100
= 15.4 ,
45
= 34.22% .

El 34.22% de las familias gasta mensualmente menos de $12000,

luego el 65.78% de las familas gasta mas de $12000 mensualmente.

(c)

3 3 + 7.5 4 + 12.5 6 + 20 4
X|Y =SA = ,
17
194
= = 11.41 miles de pesos.
17

(d)

3 7 + 7.5 5 + 12.5 10 + 20 6
X|Y =CA = ,
28
303.5
= = 10.84 miles de pesos.
28

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 128

2 1
(32 7 + 7.52 5 + 12.52 10 + 202 6) 28 10.842 ,

X|Y =CA =
28
1
= (4306.75 3290.16) ,
28
1016.59
= ,
28
= 36.31 (miles de pesos)2 ,

X|Y =CA = 6.03 miles de pesos.

2 1
(32 3 + 7.52 4 + 12.52 6 + 202 4) 17 11.412 ,

X|Y =SA =
17
1
= (2789.50 2213.20) ,
17
576.30
= ,
17
= 33.90 (miles de pesos)2 ,

X|Y =SA = 5.82 miles de pesos.

6.03
CVX|Y =CA = 100% = 55.6% .
10.84
5.82
CVX|Y =SA = 100% = 51.0% .
11.41

Los gastos en diarios y revistas de las familias sin automovil son

mas homogeneos que las familias con automovil.

26. La siguiente tabla muestra las alturas y pesos de un grupo de jovenes

deportistas.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 129

Altura (X) Edades (Y)

(en mt.) 13-17 17-20

1.4-1.5 14 10

1.5-1.7 20 15

1.7-1.8 12 17

(a) Cual es la edad mas com


un de aquellos que miden como mnimo

1.5 mt.?

(b) Cual es la altura media de los que tienen a lo mas 17 a


nos?

(c) Que porcentaje de estos jovenes tienen entre 17 y 20 a


nos y miden

entre 1.5 y 1.8 mt.?

(d) Determine la variabilidad de las edades y las alturas.

Des.

yi 15 18.5

xi X 13 17 17 20 T otal

1.45 1.4 1.5 14 10 24

1.60 1.5 1.7 20 15 35

1.75 1.7 1.8 12 17 29

T otal 46 42 88

(a) .

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 130

yi Y |X > 15

15 13 17 20 + 12 = 32

18.5 17 20 15 + 17 = 32

T otal 64

 
32 0
M o(Y |X > 15)1 = 13 + 4100%
(32 0) + (32 32)
= 17 a
nos.
 
32 32
M o(Y |X > 15)2 = 17 + 3100%
(32 32) + (32 0)
= 17 a
nos.

En este caso si tienen dos modas y ambas iguales.

(b) .

xi X|Y < 17

1.45 1.4 1.5 14

1.60 1.5 1.7 20

1.75 1.7 1.8 12

T otal 46

1.45 14 + 1.60 20 + 1.75 12 73.3


X|Y <17 = = = 1.59 mt.
46 46

(c)

15 + 17 32
= = 0.3636100 .
88 88

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 131

Equivalentemente, el 36.36% de estos jovenes tiene entre 17 y 20

a
nos y miden entre 1.5 y 1.8 mt.

(d)

1.45 24 + 1.60 35 + 1.75 29 141.55


X = = = 1.61 mt.
88 88
15 46 + 18.5 42 1467
Y = = = 16.67 a
nos.
88 88

2 1
(1.452 24 + 1.602 35 + 1.752 29) 88 1.612 ,

X =
88
1
= (228.87 228.10) ,
88
0.77
= ,
88
= 0.0087 (mt)2 ,

X = 0.093 mt.

1
Y2 (152 46 + 18.52 42) 88 16.672 ,

=
88
1
= (24724.50 24454.22) ,
88
270.28
= ,
88
nos)2 ,
= 3.07 (a

X = 1.75 a
nos.

27. La tabla siguiente muestra los litros de alcohol (X) utilizados en un pro-

ceso de limpieza de ciertos filtos, por algunas farmacias y el presupuesto

disponible de ellas (Y), en miles de pesos.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 132

X Y

35-60 60-110 110-180

1-6 18 7 8

6-12 4 1 6

12-15 7 8 4

(a) Cual es el presupuesto medio de estas farmacias? Cual es la

cantidad promedio de litros de alcohol utilizados?

(b) Cuantos litros utilizan en promedio las farmacias con unpre-

supuesto inferior a los 110 mil?

(c) De las farmacias que utilizan mas de 6 litros de alcohol, que por-

centaje de ellas tienen un presupuesto inferior a los 60 mil?

(d) Determine el coeficiente de correlacion lineal.

Des.

yi 47.5 85 145

xi X 35 60 60 110 110 180 T otal

3.5 16 18 7 8 33

9.0 6 12 4 1 6 11

13.5 12 15 7 8 4 19

T otal 29 16 18 63

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 133

(a)

3.5 33 + 9.0 11 + 13.5 19 471


X = = = 7.48 litros.
63 63
47.5 29 + 85 16 + 145 18 5347.5
Y = = = 84.88 miles de pesos.
63 63

(b) .

xi X|Y < 110

3.5 16 18 + 7 = 25

9.0 6 12 4+1=5

13.5 12 15 7 + 8 = 15

T otal 45

3.5 25 + 9.0 5 + 13.5 15 335


X|Y <110 = = = 7.44 litros.
45 45

(c) .

yi Y |X > 6

47.5 35 60 4 + 7 = 11

85 60 110 1+8=9

145 110 180 6 + 4 = 10

T otal 30

11
= 0.367
30

El 36.7% de las farmacias que utilizan mas de 6 litros de alcohol en

la limpieza de sus filtros, tiene un presupuesto inferior a $60000.

Carlos Bustos-Lopez
CAPITULO 1. ESTADISTICA DESCRIPTIVA 134

(d)
1
XY = ((3.5 18 47.5 + 3.5 7 85 + 3.5 8 145
63
+9.0 4 47.5 + 9 1 85 + 9 6 145

+13.5 7 47.5 + 13.5 8 85 + 13.5 4 145)

63 7.48 84.88) ,
1
= (40938.75 63 7.48 84.88) ,
63
939.90
= ,
63
= 14.92 .

2 1
(3.52 33 + 92 11 + 13.52 19) 63 7.482 ,

X =
63
1
= (4758 3524.88) ,
63
1233.12
= ,
63
= 19.57 (litros)2 ,

X = 4.42 litros.

1
Y2 (47.52 29 + 852 16 + 1452 18) 63 84.882 ,

=
63
1
= (559481.25 453890.71) ,
63
105590.54
= ,
63
= 1676.04 (miles de pesos)2 ,

Y = 40.94 miles de pesos.

14.92
rXY = = 0.082 .
4.42 40.94

Carlos Bustos-Lopez
Captulo 2

Regresi
on Lineal

2.1 Modelo de Regresi


on Lineal

La idea fundamental de los modelos de regresion es, poder representar de

la mejor forma posible el comportamiento de los datos. Los datos tienen

distintos comportamientos dependiendo del tipo de variable que se este in-

vestigando. Si se observan dos variables al mismo tiempo, se puede estar

interesado en el comportamiento conjunto de estas variables y a traves del

coeficientes de correlacion podriamos conocer el tipo de asociacion que exis-

te entre ellas. El modelo matematico mas simple que intenta representar el

comportamiento de los datos es el modelo lineal, el cual parte de la base que

es posible ajustar una linea recta a las observaciones, siendo esta ecuacion

una forma de resumir y representar la informacion. El modelo de regresion

lineal simple en la version frecuentista, considera las observaciones de pares

ordenados (xi , yi ), con i =, . . . , n. Para el modelo

y = 0 + 1 x + ,

135
CAPITULO 2. REGRESION
LINEAL 136

en general, el interes se concentra en la estimacion de los parametros


=

(0 , 1 ), los cuales se pueden obtener mediante los EMCO1 al resolver la

equacion:
n n  
X X
min 2i = min (yi 0 1 xi ) 2

i=1

i=1
0 1

n
X
2 (yi 0 1 xi )(1) = 0



i=1
n
X
2 (yi 0 1 xi )(xi ) = 0


i=1
n
X n
X n
X
yi 0 1 xi = 0



i=1 i=1 i=1
n
X Xn Xn
x2i = 0

xi yi 0 xi 1

i=1 i=1 i=1

n
X n
X
= yi n0 1 xi = 0 ,
i=1 i=1
n
X n
X
n0 = yi 1 xi ,
i=1 i=1
0 = Y 1 X
.

1
Estimadores de mnimos cuadrados ordinarios.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 137

n
X n
X
= xi yi (Y 1 X)n
X 1 x2i = 0 ,
i=1 i=1
Xn Xn
Y + 1 nX
xi yi n X 2 1 x2i = 0 ,
i=1 i=1
n
! n
X X
1 2
x2i nX = Y ,
xi yi nX
i=1 i=1
n
X
Y
xi yi n X
i=1
1 = n .
X
x2i 2
nX
i=1

De esa forma, los estimadores de mnimos cuadrados ordinarios para los

coeficientes del modelo de regresion lineal simple son:

, 1 = SXY ,
0 = Y 1 X
SXX

donde
n
X n
X
SXY = Y =
xi yi nX i Y )
(xi X)(y
i=1 i=1

n
X n
X
SXX = x2i 2 =
nX 2
(xi X)
i=1 i=1

Y ), corresponden a las respectivas medias muestrales de las


Recordar que (X,

variables X e Y . De esa forma, el modelo de regresion lineal simple estimado

esta dado por:

yi = 0 + 1 xi ,

para todo i = 1, . . . , n.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 138

Ademas, se puede determinar el grado de asociacion representada por el

modelo de regresion lineal estimado para las observaciones, este coeficiente

es denominado R2 y corresponde exactamente al cuadrado del coeficiente de

correlacion lineal de Pearson, que ademas puede ser calculado por:


2
SXY
R2 = (rXY )2 = ,
SXX SY Y
n
X
donde SY Y = (yi Y )2 , y la interpretacion de R2 100% corresponde al
i=1
porcentaje de variabilidad de los datos que es explicada a traves del modelo

de regresion lineal simple estimado.

2.2 Ejercicios Resueltos

1. La siguiente tabla muestra el flujo diario de automoviles (X) en miles,

y su cantidad de partculas que emiten en mg/cm3 .

X Y

19.09 522.10

27.83 1198.30

39.10 1472.00

39.10 1239.70

39.10 1674.40

55.89 2173.50

55.89 1697.40

76.36 1745.70

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 139

(a) Determine el modelo de regresion lineal simple asociado.

(b) Determine el grado de explicacion del modelo.

(c) Para un flujo de 20000 automoviles diarios, Cual sera la cantidad

esperada de particulas en suspencion dadas por este flujo?

(d) Determine la cantidad de automoviles que generan 1000 mg/cm3

en un da.

Des.

Completamos la tabla con las respectivas multiplicaciones y sumas para

determinar los parametros del modelo.

X Y XY X2 Y2

19.09 522.10 9966.89 364.43 272588.41

27.83 1198.30 33348.69 774.51 1435922.89

39.10 1472.00 57555.20 1528.81 2166784.00

39.10 1239.70 48472.27 1528.81 1536856.09

39.10 1674.40 65469.04 1528.81 2803615.36

55.89 2173.50 121476.92 3123.69 4724102.25

55.89 1697.40 94867.69 3123.69 2881166.76

76.36 1745.70 133301.65 5830.85 3047468.49

352.36 11723.10 564458.34 17803.60 18868504.25

(a)

= 352.36 = 44.05
X Y =
11723.10
= 1465.39
8 8

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 140

SXY = 564458.34 8 44.05 1465.39 = 48054.90

SXX = 17803.60 8 44.052 = 2280.38

SY Y = 18868504.25 8 1465.392 = 1689561.43

48054.90
1 = = 21.07 0 = 1465.39 21.07 44.05 = 537.26
2280.38

y = 537.26 + 21.07x

(b)
48054.902
R2 = = 0.5994
2280.38 1689561.43

El modelo representa a las observaciones en un 59.94%.

(c)

y = 537.26 + 21.07 20

= 958.66 mg/cm3 .

(d)

1000 = 537.26 + 21.07x


1000 537.26
x =
21.07
= 21.96 miles de automoviles.

2. Una empresa desea determinar como la inversion que ha realizado en

publicidad (X) en UF, de los ltimos meses ha afectado la demanda de

su producto (Y ) en miles de unidades. Para tal efecto ha recopilado la

siguiente informacion dque se resume en la tabla.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 141

X Y

105.80 27.60

121.90 32.20

85.10 25.30

75.90 29.90

92.00 23.00

92.00 18.40

96.60 39.10

78.20 27.60

66.70 23.00

138.00 34.50

101.20 20.70

94.30 29.90

110.40 34.50

(a) Determine un modelo de regresion lineal.

(b) La empresa esta interesada en determinar cual debe ser la cantidad

que debe invertir en publicidad de tal forma que espere tener una

venta de 30000 unidades de su producto.

(c) Si no quiere invertir mas de 80 UF en publicidad, Cual sera la

cantidad maxima de unidades que esperara vender?

(d) Cual es el grado de ajuste del modelo?

Des.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 142

X Y XY X2 Y2

105.80 27.60 2920.08 11193.64 761.76

121.90 32.20 3925.18 14859.61 1036.84

85.10 25.30 2153.03 7242.01 640.09

75.90 29.90 2269.41 5760.81 894.01

92.00 23.00 2116.00 8464.00 529.00

92.00 18.40 1692.80 8464.00 338.56

96.60 39.10 3777.06 9331.56 1528.81

78.20 27.60 2158.32 6115.24 761.76

66.70 23.00 1534.10 4448.89 529.00

138.00 34.50 4761.00 19044.00 1190.25

101.20 20.70 2094.84 10241.44 428.49

94.30 29.90 2819.57 8892.49 894.01

110.40 34.50 3808.80 12188.16 1190.25

1258.10 365.70 36030.19 126245.85 10722.83

(a)

= 1258.10 = 96.78
X Y =
365.70
= 28.13
13 13

SXY = 36030.19 13 96.78 28.13 = 638.71

SXX = 126245.85 13 96.782 = 4483.06

SY Y = 10722.83 13 28.132 = 435.97

638.71
1 = = 0.142 0 = 28.13 0.142 96.78 = 14.39
4483.06

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 143

y = 14.39 + 0.142x

(b)

30 = 14.39 + 0.142x
30 14.39
x =
0.142
= 109.93 UF

(c)

y = 14.39 + 0.142 80

= 25.75 miles de unidades.

(d)

638.712
R2 = = 0.2087
4483.06 435.97

El modelo explica a las observaciones en un 20.87%.

3. En un estudio realizado al contenido de caloras (X) en kcal, respecto al

nivel de grasas (Y ) en g, de cierto producto, se recopilaron los siguientes

datos:

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 144

X Y

103.50 161.00

46.00 115.00

92.00 138.00

92.00 115.00

108.10 207.00

69.00 126.50

57.50 126.50

46.00 80.50

34.50 92.00

80.50 149.50

(a) Determine un modelo de regresion, que permita determinar el

comportamiento de los niveles grasa por caliras.

(b) Cuantas caloras contiene 110 g de grasa?

(c) Cuantos gramos de grasa se necesitan para tener 100 kcal?

(d) Determine el nivel de ajuste del modelo estimado.

Des.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 145

X Y XY X2 Y2

103.50 161.00 16663.50 10712.25 25921.00

46.00 115.00 5290.00 2116.00 13225.00

92.00 138.00 12696.00 8464.00 19044.00

92.00 115.00 10580.00 8464.00 13225.00

108.10 207.00 22376.70 11685.61 42849.00

69.00 126.50 8728.50 4761.00 16002.25

57.50 126.50 7273.75 3306.25 16002.25

46.00 80.50 3703.00 2116.00 6480.25

34.50 92.00 3174.00 1190.25 8464.00

80.50 149.50 12034.75 6480.25 22350.25

729.10 1311.00 102520.20 59295.61 183563.00

(a)

= 729.10 = 72.91
X Y =
1311.00
= 131.10
10 10

SXY = 102520.20 10 72.91 131.10 = 6935.19

SXX = 59295.61 10 72.912 = 6136.93

SY Y = 183563.00 10 131.102 = 11690.9

6935.19
1 = = 1.13 0 = 131.10 1.13 72.91 = 48.71
6136.93

y = 48.71 + 1.13x

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 146

(b)

110 = 48.71 + 1.13x


110 48.71
x =
1.13
= 54.24 kcal.

(c)

y = 48.71 + 1.13 100

= 161.71 g.

(d)

6935.192
R2 = = 0.6704
6136.93 11690.9

El modelo tiene un ajuste del 67.04% de los datos.

4. En un centro hospilatario se ha implementado una nueva campaa de

provencion para disminuir el porcentaje de afecciones respiratorias en

el periodo invernal, para ello han distribuido una serie de folletos ex-

plicativos donde una de las medidas mas importantes es dismincion de

niveles de toxicidad derivados del humo del cigarrillo por lo cual se les

recomienda a las personas que no fumen dentro de su hogar. A contin-

uacion se muestra una tabla con los porcentajes de personas que han

dejado de fumar al interior de sus hogares (X) y el porcentaje de per-

sonas al interior del hogar que han sufrido de afecciones respiratorias

durante el periodo (Y ).

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 147

X(%) Y (%)

23.00 43.70

27.60 41.40

29.90 36.80

32.20 34.50

34.50 34.50

39.10 32.20

46.00 32.20

48.30 29.90

50.60 27.60

46.00 29.90

(a) Determine si se puede establecer alg


un modelo simple que refleje

el comportamiento de estas medidas.

(b) Establezca el porcentaje esperado de personas por hogar que ten-

dran alg
un problema respiratorio, si el 30% de ellas ha dejado de

fumar al interior de sus hogares.

(c) Si el porcentaje de personas afectadas por problemas respiratorios

ha sido de un 30%, Cual ha sido el porcentaje de personas que

ha seguido las sugerencias del centro de salud?

(d) Cual es el nivel de ajuste del modelo de regresion lineal estimado?

Des.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 148

X Y XY X2 Y2

23.00 43.70 1005.10 529.00 1909.69

27.60 41.40 1142.64 761.76 1713.96

29.90 36.80 1100.32 894.01 1354.24

32.20 34.50 1110.90 1036.84 1190.25

34.50 34.50 1190.25 1190.25 1190.25

39.10 32.20 1259.02 1528.81 1036.84

46.00 32.20 1481.20 2116.00 1036.84

48.30 29.90 1444.17 2332.89 894.01

50.60 27.60 1396.56 2560.36 761.76

46.00 29.90 1375.40 2116.00 894.01

377.20 342.70 12505.56 15065.92 11981.85

(a)

= 377.20 = 37.72
X Y =
342.70
= 34.27
10 10

SXY = 12505.56 10 37.72 34.27 = 421.08

SXX = 15065.92 10 37.722 = 837.94

SY Y = 11981.85 10 34.272 = 237.52

421.08
1 = = 0.503 0 = 34.27 (0.503) 37.72 = 53.24
837.94

y = 53.24 0.503x

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 149

(b)

y = 53.24 0.503 30

= 38.15%

(c)

30 = 53.24 0.503x
30 53.24
x =
0.503
23.24
=
0.503
= 46.20%

(d)

(421.08)2
R2 = = 0.8909
837.94 237.52

El modelo explica el 89.09% del comportamiento de las observa-

ciones.

5. En un experimento con ratas de laboratorio sobre el nivel de glucosa

en la sangre (Y ), en mg/dL, bajo la administracion de cierto farmaco

(X), en g/Kgr, se recopilo la siguiente informacion

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 150

X(g/Kgr) Y (mg/dL)

8.28 55.20

7.59 48.30

6.44 50.60

5.98 50.60

6.21 41.40

5.98 52.90

6.21 43.70

6.67 29.90

4.60 20.70

5.98 13.80

8.51 57.50

7.82 48.30

(a) Estime el modelo de regresion para la respuesta nivel de glicemia

en la sangre de estas ratas.

(b) Determine el nivel de ajuste del modelo estimado.

(c) Que dosis es necesaria ser administrada a las ratas para que su

nivel de glucosa sea de 50 mg/dL?

(d) Que nivel de glicemia tendra una rata a la que se le administre

8 g/kgr?

Des.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 151

X Y XY X2 Y2

8.28 55.20 457.06 68.56 3047.04

7.59 48.30 366.60 57.61 2332.89

6.44 50.60 325.86 41.47 2560.36

5.98 50.60 302.59 35.76 2560.36

6.21 41.40 257.09 38.56 1713.96

5.98 52.90 316.34 35.76 2798.41

6.21 43.70 271.38 38.56 1909.69

6.67 29.90 199.43 44.49 894.01

4.60 20.70 95.22 21.16 428.49

5.98 13.80 82.52 35.76 190.44

8.51 57.50 489.33 72.42 3306.25

7.82 48.30 377.71 61.15 2332.89

80.27 512.90 3541.13 551.27 24074.79

(a)

= 80.27 = 6.69
X Y =
512.90
= 42.74
12 12

SXY = 3541.13 12 6.69 42.74 = 109.96

SXX = 551.27 12 6.692 = 14.20

SY Y = 24074.79 12 42.742 = 2154.30

109.96
1 = = 7.74 0 = 42.74 7.74 6.69 = 9.04
14.20

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 152

y = 9.04 + 7.74x

(b)

109.962
R2 = = 0.3953
14.20 2154.30

El modelo explica solo el 39.53% de las observaciones.

(c)

50 = 9.04 + 7.74x
50 + 9.04
x =
7.74
= 7.63 g/Kgr.

(d)

y = 9.04 + 7.74 8

= 52.88 mg/dL.

6. En un estudio realizado sobre el gasto en electricidad (Y , en miles de

pesos) derivado del uso de aire acondicionado, respecto al incremento

en grados de temperatura ambiental (X, en grados celsius), arrojo los

siguientes resultados:

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 153

X Y

2.30 7.89

2.76 8.63

3.22 10.40

3.68 11.80

4.14 13.66

4.60 14.61

5.52 18.38

5.98 18.93

6.44 21.76

6.90 23.81

8.05 26.59

8.28 28.84

8.51 29.69

(a) Estime el mejor modelo de regresion lineal para estas variables.

(b) Cual es el nivel de ajuste del modelo?

(c) Si la temperatura ha sufrido un incremento de 6.5 grados celsius,

Cual es gasto en electricidad esperado por el concepto de aire

acondicionado?

(d) Si los departamentos tuvieron un gasto en electricidad de $30000,

Cuanto fue el incremento en la temperatura?

Des.

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 154

X Y XY X2 Y2

2.30 7.89 18.14 5.29 62.24

2.76 8.63 23.81 7.62 74.39

3.22 10.40 33.48 10.37 108.08

3.68 11.80 43.42 13.54 139.22

4.14 13.66 56.56 17.14 186.65

4.60 14.61 67.18 21.16 213.31

5.52 18.38 101.44 30.47 337.71

5.98 18.93 113.20 35.76 358.31

6.44 21.76 140.12 41.47 473.41

6.90 23.81 164.25 47.61 566.68

8.05 26.59 214.03 64.80 706.92

8.28 28.84 238.81 68.56 831.86

8.51 29.69 252.69 72.42 881.67

70.38 234.97 1467.13 436.21 4940.44

(a)

= 70.38 = 5.41
X Y =
234.97
= 18.07
13 13

SXY = 1467.13 13 5.41 18.07 = 196.27

SXX = 436.21 13 5.412 = 55.72

SY Y = 4940.44 13 18.072 = 695.62

196.27
1 = = 3.52 0 = 18.07 3.52 5.41 = 0.973
55.72

Carlos Bustos-Lopez
CAPITULO 2. REGRESION
LINEAL 155

y = 0.973 + 3.52x

(b)

196.272
R2 = = 0.9939
55.72 695.62

El modelo explica el 99.39% de los datos.

(c)

y = 0.973 + 3.52 6.5

= 21.907 miles de pesos.

(d)

30 = 0.973 + 3.52x
30 + 0.973
x =
3.52
= 8.80 grados celsius.

Carlos Bustos-Lopez
Captulo 3

Probabilidades

3.1 Probabilidades

3.1.1 Introducci
on

El concepto de Probabilidades no es ajeno a la vida cotidiana, siempre esta-

mos, de una forma u otra, utilizando las probabilidades, por ejemplo, cuando

nos preguntamos en la ma
nana antes de salir de casa, llover
a o no?, lo

hacemos bajo un contexto determinado, es decir, si creemos que existen posi-

bilidades de que ese fenomeno ocurra.

Ademas de ciertas evidencias cualitativas que favorezcan el realizar la

pregunta, por ejemplo, si es invierno, si esta nublado, etc.

Bajo lo anterior, uno trata de responder la pregunta en condiciones de

incerteza, asignando un valor a aquella afirmacion, es decir, si , creo que

llovera, o simplemente no creo que llueva. Esta asignacion subjetiva, le

dara mayor, menor o igual peso a cada una de las posibilidades.

156
CAPITULO 3. PROBABILIDADES 157

La pregunta anterior y sus respectivas respuestas, nos permiten determi-

nar un conjunto de posibilidades y de respectivos valores a cada una de las

respuestas y que pueden ser distintas de sujeto a sujeto.

La forma de medir, objetivamente, la ocurrencia de un evento, dentro

de todas las posibilidades que existen para ese fenomeno, es a traves de la

medida de probabilidad.

3.1.2 Definiciones

Experimento (E)

Definici
on 3.1.1 Un experimento ser
a aquel, que permite recopilar infor-

macion sobre alg


un evento o fen
omeno que tengamos incerteza sobre su com-

portamiento. Es decir, esta involucrado el azar, por eso denominamos a este

experimento como aleatorio.

La idea de realizar un experimento es: si el experimento se puede repetir

una cantidad infinita de veces, este nos permitira descubrir la ley que sostiene

sus resultados.

Ejemplo 3.1.1 Experimentos aleatorios.

1. El lanzar una moneda al aire y observar su resultado.

2. El lanzamiento de un dado c
ubico y observar su resultado.

3. Sacar una carta de un mazo al azar y observar su resultado.

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 158

Espacio Muestral ()

Definici
on 3.1.2 Es el conjunto de todos los posibles resultados de un ex-

perimento aleatorio. El cual denotaremos con la letra .

Ejemplo 3.1.2 Espacio Muestral de experimentos aleatorios.

1. = {cara, sello}

2. = {1, 2, 3, 4, 5, 6}

3. = {As, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K} {, , , }

Suceso o Evento

Definici
on 3.1.3 Es un subconjunto del espacio muestral, el cual lo deno-

usculas. (p.e. A ).
taremos con letras may

Ejemplo 3.1.3 El experimento E= Lanzar un dado y observar sus resulta-

dos.

Espacio muestral = {1, 2, 3, 4, 5, 6}.

Sucesos:

A= {Sale n
umero impar}.

B= {Sale n
umero par}.

C= {Sale un n
umero menor o igual a 3}.

D= {Sale un n
umero mayor o igual a 4}.

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 159

3.1.3 Probabilidad

La definicion clasica (equiprobable) de probabilidad considera lo siguiente:

on 3.1.4 Si E es un experimento y su espacio muestral asociado,


Definici

siempre que este formado por un n


umero contable o numerable de elemen-

tos; entonces, para un suceso A , se puede escribir la probabilidad de que

ocurra A, como:

N
umero de elementos de A
IP(A) = ,
N
umero de elementos de
y que corresponde a:

Casos Favorables asociados a A CF (A)


IP(A) = = .
Casos Totales CT ()

Ejemplo 3.1.4 Sea el siguiente experimento E: Tirar un dado c


ubico y

observar su resultado.

A: sale 2.

B: sale n
umero par.

C: el n
umero es menor o igual a 4.

Determinemos el espacio muestral:

= {1, 2, 3, 4, 5, 6} ,

y los casos totales son:

CT () = 6 ,

ahora, los casos favorables para cada item:

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 160

CF (A) = 1.

CF (B) = 3.

CF (C) = 4.

y c
alculemos las respectivas probabilidades asociadas a estos eventos:

CF (A)
P (A) = CT ()
= 16 .

CF (B) 3
P (B) = CT ()
= 6
= 12 .

CF (C) 4
P (C) = CT ()
= 6
= 23 .

Axiomas

Sean, espacio muestral del experimento E, A un evento en , Ac el com-

plemento de A y IP una medida de probabilidad.

1. 0 IP(A) 1.

2. IP() = 1, donde se denomina evento seguro.

3. IP(Ac ) = 1 IP(A).

4. IP(c ) = IP() = 0, donde se denomina evento imposible.

Definici
on 3.1.5 Sean A y B dos sucesos cualquiera, entonces la probabili-

dad de que ocurra A o B, est


a dada por:

IP(A B) = IP(A) + IP(B) IP(A B) .

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 161

Definici
on 3.1.6 Dos sucesos A y B, se denominan independientes es-

toc
asticamente, si la ocurrencia de uno de ellos no afecta la ocurrencia del

otro y vice versa, entonces, la probabilidad de que ocurra A y B est


a dada

por:

IP(A B) = IP(A) IP(B) .

Definici
on 3.1.7 Dos sucesos A y B, se denominan excluyentes, si la

ocurrencia de uno de ellos impide la ocurrencia del otro y vice versa, en-

tonces, la probabilidad de que ocurra A o B est


a dada por:

P (A B) = 0 IP(A B) = IP(A) + IP(B) .

Ejemplo 3.1.5 Sea el siguiente experimento E: Sacar una carta de un

mazo de 52.

Ademas, sean los siguientes eventos:

A: Sale trebol.

B: Sale K.

Determinemos ahora sus respectivas probabilidades asociadas:

CT () = 52.

13
CF (A) = 13 = IP(A) = 52
= 14 .

4 1
CF (B) = 4 = IP(B) = 52
= 13
.

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 162

a) Ahora, que sera el evento sale el rey de trebol?

Lo anterior corresponde al evento A B, y la probabilidad de su ocur-

rencia es:
1
CF (A B) = 1 = IP(A B) = ,
52
pero la ocurrencia del evento A no afecta la ocurrencia del evento B,

luego, se tiene que:

1 1 1
IP(A B) = IP(A) IP(B) = = .
4 13 52

A y B son eventos independientes.

b) El evento Sale rey o sale trebol, tiene una probabilidad asociada:

16
CF (A B) = 4 + 13 1 = IP(A B) = ,
52

pero por el teorema, se tiene:

13 4 1 16
IP(A B) = IP(A) + IP(B) IP(A B) = + = .
52 52 52 52

c) Sea el evento C: Sale diamante, cu


al ser
a la probabilidad del evento

A C?

Notemos que la ocurrencia del evento C, impide la ocurrencia del even-

to A, luego:

P (A C) = 0 .

A y C son eventos excluyentes.

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 163

Definici
on 3.1.8 (Probabilidad Condicional) Si se tienen dos sucesos

posibles A y B en , con IP(B) > 0, entonces la probabilidad de que ocurra

A dado B, esta dada por:

IP(A B)
IP(A|B) = .
IP(B)

De donde se obtiene la siguiente igualdad:

IP(A|B)IP(B) = IP(B|A)IP(A) .

Teorema 3.1.1 (Teorema de Probabilidad Total) Sean los eventos Bi

, con i = 1, 2, . . . , n, una partici


on del espacio muestral , exhaustiva y ex-

cluyente1 . Ademas, sea el evento A , entonces:


n
X
IP(A) = IP(A|Bi )IP(Bi ) .
i=1

n
[
i) Bi = .
i=1

ii) Bi Bj = , i 6= j.

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 164

Demostraci
on 3.1.1

IP(A) = IP(A ) ,

= IP(A (B1 B2 Bn )) ,

= IP((A B1 ) (A B2 ) (A Bn )) ,
n
!
[
= IP (A Bi ) ,
i=1
= IP(A B1 ) + IP(A B2 ) + + IP(A Bn ) ,

= IP(A|B1 )IP(B1 ) + IP(A|B2 )P (B2 ) + + IP(A|Bn )P (Bn ) ,


Xn
= IP(A|Bi )IP(Bi ) .
i=1

Ejemplo 3.1.6 Sea el siguiente experimento E: Se lanzan dos dados c


ubi-

cos equilibrados y se observan sus resultados, adem


as se ha observado que

la suma T es impar. Determinar la probabilidad de que la suma sea menor

a 8.

Definamos los siguientes eventos:

A := T < 8, es decir, la suma es menor a 8.

B := T impar.

Entonces, el evento A B (la suma es menor que 8 y es impar) tiene

los siguientes elementos:

A B = {3, 5, 7} .

Ademas, el espacio muestral es el siguiente:

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 165

Dado 1
+ 1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
Dado 2 3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Entonces las probabilidades asociadas a los eventos son:
18
P (B) = 36
= 12 .

12
P (A B) = 36
= 13 .

Reemplazando se tiene que,


IP(A B) 1/3 2
IP(A|B) = = = .
IP(B) 1/2 3
on) Sean A1 , A2 , . . . , An
Teorema 3.1.2 (Teorema de la Multiplicaci
, eventos cualquiera, entonces:

n Qn
!
i=1 IP(Ai ) , si los Ai son independientes.

\
IP Ai =  
IP(A1 )IP(A2 |A1 )IP(A3 |A1 A2 ) IP An | n1
T
i=1 Ai , si los Ai no son independientes.

i=1

Teorema 3.1.3 (Teorema de Bayes) Si un espacio muestral est


a for-

mado por A1 , A2 , . . . , An , particiones y conocemos la ocurrencia de un suceso

B, que esta en ; entonces para determinar la probabilidad de que un suceso

cualquiera de la particion Ai ocurra dado B, es:

IP(B|Ai )IP(Ai )
IP(Ai |B) = n , i = 1, 2, . . . , n .
X
IP(B|Aj )IP(Aj )
j=1

Carlos Bustos-Lopez
CAPITULO 3. PROBABILIDADES 166

on de un lote de articulos, intervienen tres


Ejemplo 3.1.7 En la fabricaci

aquinas: M1 , M2 y M3 . Se sabe que el 20% de los articulos del lote


m

provienen de M1 , el 30% de M2 y el resto de M3 . Adem


as, la m
aquina M1

produce un 1% de articulos defectuosos, M2 un 2% y M3 un 3%. Se selec-

ciona un articulo al azar del lote y se observa que es defectuoso. Determinar

la probabilidad de que el articulo haya sido fabricado por M2 .

Definamos los siguientes eventos:

Ai := el articulo seleccionado proviene de la m


aquina Mi , con i = 1, 2, 3.

B:= el articulo es defectuoso.

Del enunciado se tiene que:

IP(A1 ) = 0, 2 , IP(A2 ) = 0, 3 , IP(A3 ) = 0, 5

IP(B|A1 ) = 0, 01 , IP(B|A2 ) = 0, 02 , IP(B|A3 ) = 0, 03 .

Luego, la probabilidad pedida es:

IP(B|A2 )IP(A2 )
IP(A2 |B) = 3
,
X
IP(B|Ai )IP(Ai )
i=1
0, 02 0, 3
= ,
0, 01 0, 2 + 0, 02 0, 3 + 0, 03 0, 5
0, 006
= ,
0, 023
0, 26 .

Carlos Bustos-Lopez
Captulo 4

Variables Aleatorias

4.1 Variable Aleatoria

Sea (, A, IP) un espacio de probabilidad. Una variable aleatoria X es una

funcion medible desde (, A) hasta (IR, B(IR)). Ademas, sea A cualquier

subconjunto de la recta real y sea IP(X A) la probabilidad de que el

valor de X pertenezca al subconjunto A. Entonces IP(X A) es igual a la

probabilidad de que el resultado s B del experimento, sea tal que X(s) A,

es decir1 :

IP(X A) = IP({s : X(s) A}) .

Existen basicamente dos tipos de variables aleatorias (v.a.), las discretas

y las continuas, que se diferencias en el recorrido de sus posibles resultados.


1
Definici
on de distribuci
on de una variable aleatoria, DeGroot, 1988.

167
CAPITULO 4. VARIABLES ALEATORIAS 168

4.1.1 Varaibles Aleatorias Discretas

La v.a. X se dice que es discreta, si su conjunto de posibles resultados

(soporte) B (subconjunto numerable de los reales) es un conjunto finito

o infinito numerable.

Definici
on 4.1.1 Llamaremos funci
on de distribuci
on de probabili-

dad (f.d.p.) de la v.a. X a:

pX (x) = IP(X = x) , x B .

La cual cumple:

0 pX (x) 1 , x B .
X X
pX (x) = IP(X = x) = 1 .
xB xB

4.1.2 Varaibles Aleatorias Continuas

La v.a. X se dice que es continua, si su conjunto de posibles resultados

(soporte) B es un conjunto infinito no numerable.

Definici
on 4.1.2 Llamaremos funci
on de distribuci
on acumulada (f.d.a.)

de la v.a. X, si existe una funci


on no negativa f , definida sobre la recta real,

tal que para cualquier intervalo A:


Z
FX (x) = IP(X A) = fX (x)dx .
A

lim FX (x) = 0 .
x

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 169

lim FX (x) = 1 .
x+

La funcion f se denomina funcion de distribucion de probabilidad (f.d.p.) de

X. La cual cumple:

fX (x) 0 , x B .
Z
fX (x)dx = 1 .

Ademas, se define para todo a < b IR que la probabilidad que el valor

de X se encuentre en el intervalo [a, b] esta dada por:


Z b
IP(a X b) = fX (x)dx .
a

4.2 Valor Esperado

Definici
on 4.2.1 Llamaremos Valor Esperado o Esperanza Matem
atica

de la v.a. X a:

X
xIP(X = x) , si X es v.a.d.





xB

IE(X) =

Z




xfX (x)dx , si X es v.a.c.
xB

La cual cumple, que si a, b IR, y X una v.a.,

IE(aX b) = aIE(X) b .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 170

Demostraci
on 4.2.1

X
IE(aX b) = (ax b)IP(X = x) ,
xB
X
= (axIP(X = x) bIP(X = x)) ,
xB
X X
= a xIP(X = x) b IP(X = x) ,
xB xB
= aIE(X) b .

En el caso continuo, se obtiene el mismo resultado, ya que:

Demostraci
on 4.2.2
Z
IE(aX b) = (ax b)fX (x)dx ,
xB
Z
= (axfX (x)dx bfX (x)dx) ,
xB
Z Z
= a xfX (x)dx b fX (x)dx ,
xB xB

= aIE(X) b .

Definici
on 4.2.2 Llamaremos Momento de Orden k de la v.a. X a:

X
xk IP(X = x) , si X es v.a.d.





xB

k
IE(X ) =

Z

xk fX (x)dx , si X es v.a.c.




xB

Analogamente, es facil demostrar que IE(aX k b) = aIE(X k ) b .

Se dice que el momento de orden k existe si y solo si, IE(|x|k ) < .

Ademas, si la v.a. es acotada, es decir, si existen a, b IR tales que IP(a

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 171

X b) = 1, entonces deben existir todos los momentos de X. Sin embargo,

es posible que todos los momentos de orden k existan, sin necesidad que la

v.a. X sea acotada.

Teorema 4.2.1 Si IE(|X|k ) < para un entero positivo k, entonces IE(|X|j ) <

para cualquier entero positivo j tal que j < k.

Definici
on 4.2.3 Llamaremos Varianza de la v.a. X a:

Var(X) = IE((X IE(X))2 ) .

La cual cumple, que si a, b IR, y X una v.a.,

Var(aX b) = a2 Var(X) .

Demostraci
on 4.2.3

Var(aX b) = IE ((aX b) IE(aX b))2 ,


 

= IE (aX b aIE(X) b)2 ,


 

= IE (aX aIE(X))2 ,
 

= IE a2 (X IE(X))2 ,
 

= a2 IE (X IE(X))2 ,
 

= a2 Var(X) .

Una forma mas facil de determinar el valor de la varianza de X es consideran-

do la siguiente igualdad:

Var(X) = IE(X 2 ) IE2 (X) .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 172

Demostraci
on 4.2.4

Var(X) = IE((X IE(X))2 ) ,

= IE(X 2 2XIE(X) + IE2 (X)) ,

= IE(X 2 ) 2IE(X)IE(X) + IE(IE2 (X)) ,

= IE(X 2 ) 2IE2 (X) + IE2 (X) ,

= IE(X 2 ) IE2 (X) .

Definici
on 4.2.4 Llamaremos Funci
on Generadora de Momentos (f.g.m.)

de la v.a. X, para cada valor de t IR a:

(t) = IE(etX ) .

Ademas, se cumple que:

0 (0) = IE [X] .

Demostraci
on 4.2.5
 
0 d tX

(0) = IE(e ) ,
dt t=0
  
d tX
= IE e ,
dt
t=0
= IE XetX t=0 ,
  

= IE [X] .

De donde se tiene que la f.g.m. 0 (t) en el punto t = 0 corresponde al primer

momento de la v.a. X. As se tiene que:

(n) (0) = IE [X n ] .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 173

Demostraci
on 4.2.6

dn
 
(n) tX

(0) = I
E(e ) ,
dtn
t=0
 n  
d tX
= IE e ,
dtn
t=0
= IE X n etX t=0 ,
  

= IE [X n ] .

Teorema 4.2.2 Sea X una variable acleatoria cuya f.g.m., es 1 ; sea Y =

aX b, con a, b IR; y sea 2 la f.g.m. de Y . Entonces, para cualquier valor

de t tal que existe 1 (at),

2 (t) = ebt 1 (at) .

Demostraci
on 4.2.7

2 (t) = IE(etY ) = IE(et(aXb) ) = IE(etaX etb ) = etb IE(etaX ) = ebt 1 (at) .

Teorema 4.2.3 Si las f.g.m., de dos variables aleatorias X1 y X2 son identi-

cas para todos los valores de t en un intervalo alrededor del punto t = 0,

entonces las distribuciones de probabilidad de X1 y X2 deben ser identicas.

Demostraci
on 4.2.8 Sean 1 (t) y 2 (t) dos f.g.m., distintas asociadas a la

v.a. X, con f.d.p. fX (x). Entonces:


Z
tX
1 (t) = IE(e ) = etx fX (x)dx = IE(etX ) = 2 (t) , ==
xB

Por lo tanto, 1 (t) y 2 (t) deben ser identicas.

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 174

4.3 Modelos de Probabilidad

Existen numerodos modelos de probabilidad que permiten realizar un acer-

camiento matematico a problemas cotidianos, ya sean en produccion, economa,

ciencias biologicas, etc., de tal forma que se pueda tener un mejor entendimien-

to del comportamiento de un fenomeno de interes, que naturalmente no sera

posible de observar con la facilidad deseada.

4.3.1 Modelos Discretos

Corresponden a estructuras matematicas de variables aleatorioas discretas

(v.a.d.), que durante a


nos han demostrado su estabilidad y aceptable aprox-

imacion a la realidad, asociado generalmente a procesos productivos. Los

mas utilizados son:

on Bernoulli2
1. Distribuci

Definici
on 4.3.1 Se dice que la v.a.d. X tiene o sigue una distribu-

cion o modelo Bernoulli de par


ametro 0 < p < 1, si su f.d.p., es:

px (1 p)1x , si x = 0, 1 .

pX (x) =
0 , e.o.c.

2
Anotaremos, X Ber(p).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 175

Donde,

IE(X) = p ,

Var(X) = p(1 p) ,

(t) = (1 p) + et p .

Demostraci
on 4.3.1
1
X
IE(X) = xpx (1 p)1x = 0 p0 (1 p)10 + 1 p1 (1 p)11 = p .
x=0

1
X
IE(X 2 ) = x2 px (1 p)1x = 02 p0 (1 p)10 + 12 p1 (1 p)11 ,
x=0
= p.

Var(X) = p p2 = p(1 p) .

1
X
(t) = etx px (1 p)1x = et0 p0 (1 p)10 + et1 p1 (1 p)11 ,
x=0
= (1 p) + et p .

on Binomial3
2. Distribuci

Definici
on 4.3.2 Se dice que la v.a.d. X tiene o sigue una distribu-

ametros n 2 y 0 < p < 1, si su f.d.p.,


cion o modelo Binomial de par

es:

n
px (1 p)nx


, si x = 0, 1, . . . , n .
pX (x) = x




0 , e.o.c.
3
Anotaremos, X Bin(n, p).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 176

Donde,

IE(X) = np ,

Var(X) = = np(1 p) ,

(t) = (pet + (1 p))n .

Demostraci
on 4.3.2

n
X n n
x nx
X n!
IE(X) = x p (1 p) = x px (1 p)nx ,
x=0 x x=0
(n x)!x!
n
X n!
= px (1 p)nx ,
x=1
(n x)!(x 1)!
n1
X n(n 1)!
= px+1 (1 p)n(x+1) ,
x=0
(n (x + 1))!((x + 1) 1)!
n1
X (n 1)!
= np px (1 p)n1x ,
x=0
(n 1 x)!x!
= np .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 177


n
X n
IE(X 2 ) = x2 px (1 p)nx ,
x=0 x
n
X n!
= x2 px (1 p)nx ,
x=0
(n x)!x!
n
X n!
= x px (1 p)nx ,
x=1
(n x)!(x 1)!
n1
X n(n 1)!
= (x + 1) px+1 (1 p)n(x+1) ,
x=0
(n (x + 1))!((x + 1) 1)!
n1
X (n 1)!
= np (x + 1) px (1 p)n1x ,
x=0
(n 1 x)!x!

n1
X n1 x n1x
= np (x + 1) p (1 p) ,
x=0 x

n1
X n 1 x n1x
= np x p (1 p) +
x=0 x

n1
X n 1
x n1x
+ p (1 p) ,
x=0 x
= np [(n 1)p + 1] ,

= n2 p2 np2 + np .

Var(X) = n2 p2 np2 + np (np)2 = np2 + np = np(1 p) .


n n
X n X n t x
(t) = etx px (1 p)nx = (e p) (1 p)
nx
,
x=0 x x=0 x
= (pet + (1 p))n .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 178

on Uniforme Discreta4
3. Distribuci

Definici
on 4.3.3 Se dice que la v.a.d. X tiene o sigue una distribu-

cion o modelo Uniforme Discreto de par


ametro N > 1, si su f.d.p.,

es:
1
, si x = 1, . . . , N .


N
pX (x) =
0

, e.o.c.

Donde,

(N + 1)
IE(X) = ,
2
(N + 1)(N 1)
Var(X) = ,
12
N
1 X tx
(t) = e .
N x=1

Demostraci
on 4.3.3
N N
X1 1 X 1 N (N + 1) (N + 1)
IE(X) = x = x= = .
x=1
N N x=1 N 2 2

N N
2
X 1 1 X 2
2 1 N (N + 1)(2N + 1)
IE(X ) = x = x = ,
x=1
N N x=1 N 6
(N + 1)(2N + 1)
= .
6
4
Anotaremos, X U D(N ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 179

 2
(N + 1)(2N + 1) N +1
Var(X) = ,
6 2
2N 2 + 3N + 1 N 2 + 2N + 1
= ,
6 4
4(2N 2 + 3N + 1) 6(N 2 + 2N + 1)
= ,
24
8N 2 + 12N + 4 6N 2 12N 6
= ,
24
2N 2 2 N2 1
= = ,
24 12
(N + 1)(N 1)
= .
12

N N
X 1 tx1 X tx
(t) = e = e .
x=1
N N x=1

4. Distribuci etrica5
on Geom

Definici
on 4.3.4 Se dice que la v.a.d. X tiene o sigue una distribu-

cion o modelo Geometrico de par


ametro 0 < p < 1, si su f.d.p., es:

p(1 p)x1 , si x = 1, 2, . . . .

pX (x) =
0 , e.o.c.

Donde,

1
IE(X) = ,
p
1p
Var(X) = ,
p2
pet
(t) = , si t < ln(1 p) .
1 et (1 p)
5
Anotaremos, X Geo(p).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 180

Demostraci
on 4.3.4

X
x1 p X
IE(X) = xp(1 p) = x(1 p)x ,
x=1
(1 p) x=1
p
1 (1 p)1 + 2 (1 p)2 + 3 (1 p)3 + ,

=
(1 p)
p
(1 p) 1 + 2 (1 p) + 3 (1 p)2 + ,

=
(1 p)
= p 1 + (1 p) + (1 p) + (1 p)2 + (1 p)2 + (1 p)2 + ,


!
X X X
= p (1 p)i + (1 p) (1 p)i + (1 p)2 (1 p)i + ,
i=0 i=0 i=0

!
X X 1 1
= p (1 p)i (1 p)i =p ,
i=0 i=0
1 (1 p) 1 (1 p)
1
= .
p

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 181


2
X
2 x1 p X
IE(X ) = x p(1 p) = x2 (1 p)x ,
x=1
(1 p) x=1
p
1 1(1 p) + 2 2 (1 p)2 + 3 3(1 p)3 + ,

=
(1 p)
p
1 (1 p) + 2 (1 p)2 + (1 p)2 +

=
(1 p)
+3 (1 p)3 + (1 p)3 + (1 p)3 + ,
 

p X
i
X
= i(1 p) + (1 p) (i + 1)(1 p)i +
(1 p) i=1 i=1

!
X X
+(1 p)2 (i + 2)(1 p)i + (1 p)3 (i + 3)(1 p)i + ,
i=1 i=1

!
p X X X
= i(1 p)i + (1 p) i(1 p)i + (1 p)i +
(1 p) i=1 i=1

! !i=1
X X
+(1 p)2 i(1 p)i + 2 (1 p)i + ,
i=1 i=1
  
p (1 p) (1 p) (1 p)
= + (1 p) + +
(1 p) p2 p2 p
  
2 (1 p) 2(1 p)
+(1 p) + + ,
p2 p
  
p (1 p) 2 1 1
= + (1 p) + +
(1 p) p2 p2 p
    
3 1 2 4 1 3
+(1 p) + + (1 p) + + ,
p2 p p2 p

!
p 1 X 1 X
= 2
(1 p)i + i(1 p)i+1 ,
(1 p) p i=1 p i=1
 
p 1 (1 p) (1 p) (1 p)
= + ,
(1 p) p2 p p p2
p (1 p)
= (1 + (1 p)) ,
(1 p) p3
2p
= .
p2

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 182

 2
2p 1 2p1 1p
Var(X) = = = .
p2 p p 2 p2


X p X
(t) = etx p(1 p)x1 = etx (1 p)x ,
x=1
(1 p) x=1

p X x p et (1 p)
= et (1 p) = ,
(1 p) x=1 (1 p) 1 et (1 p)
pet
= , si t < ln(1 p) .
1 et (1 p)

5. Distribuci etrica6
on Hipergeom

Definici
on 4.3.5 Se dice que la v.a.d. X tiene o sigue una distribu-

ametros N , M , n, con N, M, n
cion o modelo Hipergeometrico de par

0, si su f.d.p., es:



M N M




x nx




, si x = 0, 1, . . . , n, M (N n) x M .
pX (x) = N





n






0 , e.o.c.

Donde,

M
IE(X) = n ,
N  
M N M M
Var(X) = n 1 .
N N 1 N
6
Anotaremos, X Hiper(N, M, n).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 183

Demostraci
on 4.3.5

M N M

M! (N M )!
n
X x nx n
X (nx)!x! (N M (nx))!(nx)!
IE(X) = x = x N!
,
x=0 N x=0 (N n)!n!

n
n
X M! (N M )! (N n)!n!
= ,
x=1
(n x)!(x 1)! (N M (n x))!(n x)! N!
n1
X M! (N M )! (N n)!n!
= ,
x=o
(n (x + 1))!((x + 1) 1)! (N M (n (x + 1)))!(n (x + 1))! N!
n1
X M (M 1)! (N 1 (M 1))! (N 1 (n 1))!n(n 1)!
= ,
x=o
(n 1 x)!x! (N M (n 1 x))!(n 1 x)! N (N 1)!

M 1 N 1 (M 1)

n
n1
X x n 1 x
= M ,
N x=0

N 1

n1
M
= n .
N

 
nM (N M )(N n) M M N n
Var(X) = =n 1 .
N N (N 1) N N N 1

on Binomial Negativa7
6. Distribuci

Definici
on 4.3.6 Se dice que la v.a.d. X tiene o sigue una distribu-

ametros r 2 y 0 < p < 1, si


cion o modelo Binomial Negativa de par
7
Anotaremos, X BN (r, p).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 184

su f.d.p., es:


r+x1 r
p (1 p)x



, si x = 0, 1, . . .
pX (x) = x




0 , e.o.c.

Donde,

r(1 p)
IE(X) = ,
p
r(1 p)
Var(X) = ,
p2
 r
p
(t) = , si t < log(1 p) .
1 et (1 p)

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 185

Demostraci
on 4.3.6

n
X r+x1 r x
IE(X) = x p (1 p) ,
x=0 x
n
X (r + x 1)!
= x pr (1 p)x ,
x=0
(r + x 1 x)!x!
n
X (r + x 1)!
= pr (1 p)x ,
x=1
(r + x 1 x)!(x 1)!
n
X (r + (x + 1) 1)! r
= p (1 p)x+1 ,
x=0
(r 1)!((x + 1) 1)!
n
X (r + x)! r
= (1 p) p (1 p)x ,
x=0
(r 1)!x!
n
X (r + x)(r + x 1)!
= (1 p) pr (1 p)x ,
x=0
(r 1)!x!

n
X r+x1 r x
= (1 p) (r + x) p (1 p) ,
x=0 x

n
X r + x 1 r x
= (1 p) r p (1 p) +
x=0 x

n
X r+x1
r x
+ x p (1 p) ,
x=0 x
= (1 p) [r + IE(X)] ,

= (1 p)r + (1 p)IE(X) ,

IE(X) = (1 p)r + IE(X) pIE(X) ,

pIE(X) = (1 p)r ,
r(1 p)
IE(X) = .
p

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 186


n
X r+x1 r
IE(X 2 ) = x2 x
p (1 p) ,
x=0 x
n
X (r + x 1)!
= x2 pr (1 p)x ,
x=0
(r + x 1 x)!x!
n
X (r + x 1)!
= x pr (1 p)x ,
x=1
(r + x 1 x)!(x 1)!
n
X (r + (x + 1) 1)! r
= (x + 1) p (1 p)x+1 ,
x=0
(r 1)!((x + 1) 1)!
n
X (r + x)! r
= (1 p) (x + 1) p (1 p)x ,
x=0
(r 1)!x!
n
X (x + 1)(r + x)(r + x 1)!
= (1 p) pr (1 p)x ,
x=0
(r 1)!x!

n
X r+x1 r
= (1 p) (xr + x2 + r + x) p (1 p) ,
x

x=0 x

n
X r+x1 r
= (1 p) (r + (1 + r)x + x2 ) x
p (1 p) ,
x=0 x
(1 p) r + (1 + r)IE(X) + IE(X 2 ) ,
 
=
 
r(1 p) 2
= (1 p) r + (1 + r) + IE(X ) ,
p
r(1 p)2
= (1 p)r + (1 + r) + (1 p)IE(X 2 ) ,
p
r(1 p)2
IE(X 2 ) = (1 p)r + (1 + r) + (1 p)IE(X 2 ) ,
p
(1 p)rp + (1 + r)r(1 p)2
pIE(X 2 ) = ,
p
(1 p)r(1 + r rp)
IE(X 2 ) = .
p2

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 187

 2
(1 p)r(1 + r rp) r(1 p)
Var(X) = ,
p2 p
(1 p)r(1 + r rp) r2 (1 p)2
= ,
p2 p2
(1 p)r
= (1 + r rp r(1 p)) ,
p2
r(1 p)
= .
p2



X r+x1 r
(t) = etx x
p (1 p) ,
i=0 x


X r + x 1 x (1 et (1 p))r
= pr t
e (1 p) t (1 p))r
,
(1 e

i=0 x
1
= pr ,
(1 e (1 p))r
t
 r
p
= , si t < log(1 p) .
1 et (1 p)

on Poisson8
7. Distribuci

Definici
on 4.3.7 Se dice que la v.a.d. X tiene o sigue una distribu-

cion o modelo Poisson de par


ametro > 0, si su f.d.p., es:

x e , si x = 0, 1, . . .

x!
pX (x) =
0

, e.o.c.
8
Anotaremos, X P ().

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 188

Donde,

IE(X) = ,

Var(X) = ,
t
(t) = e(e 1) .

Demostraci
on 4.3.7

X x e X x e X x+1 e X x e
IE(X) = x = = = ,
x=0
x! x=1
(x 1)! x=0
x! x=0
x!
= ,
x
2
X
2 e
X x e X x+1 e
IE(X ) = x = x = (x + 1) ,
x=0
x! x=1
(x 1)! x=0 x!

!
X x e X x e
= x + = ( + 1) = 2 + .
x=0
x! x=0
x!

Var(X) = 2 + 2 = .

t
X
tx
x
e X
t x
 e ee e X  et
t x e
(t) = e = e = et e ,
x=0
x! x=0
x! eet e x=0
x!
+et (et 1)
= e =e .

on Beta9
8. Distribuci

Definici
on 4.3.8 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo Beta de parametros , con , > 0, si su f.d.p., es:



1 x1 (1 x)1 , si 0 < x < 1

B(,)
pX (x) =
0 , e.o.c.

9
Anotaremos, X B(, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 189

Donde,


IE(X) = ,
+

Var(X) = ,
( + + 1)( + )2
i1
!
X Y +j ti
(t) = 1 .
i=1 j=0
+ + j i!

Demostraci
on 4.3.8
Z 1
1
IE(X) = x x1 (1 x)1 dx ,
0 B(, )
Z 1
1 B( + 1, )
= x+11 (1 x)1 dx ,
B(, ) 0 B( + 1, )
B( + 1, ) 1
Z
1
= x+11 (1 x)1 dx ,
B(, ) 0 B( + 1, )
(+1)()
B( + 1, ) (++1)
= = ()()
,
B(, )
(+)

= .
+

Z 1
2 1
IE(X ) = x2 x1 (1 x)1 dx ,
0 B(, )
Z 1
1 B( + 2, )
= x+21 (1 x)1 dx ,
B(, ) 0 B( + 2, )
B( + 2, ) 1
Z
1
= x+21 (1 x)1 dx ,
B(, ) 0 B( + 2, )
(+2)()
B( + 2, ) (++2) ( + 1)!( + 1)!
= = ()()
= ,
B(, ) ( 1)!( + + 1)!
(+)
( + 1)
= .
( + + 1)( + )

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 190

 2
( + 1)
Var(X) = ,
( + + 1)( + ) +
( + 1) 2
= ,
( + + 1)( + ) ( + )2
(2 + )( + ) 2 ( + + 1)
= ,
( + + 1)( + )2
3 + 2 + 2 + 3 2 2
= ,
( + + 1)( + )2

= .
( + + 1)( + )2

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 191

Z 1
1
(t) = etx x1 (1 x)1 dx ,
0 B(, )

1X
(tx)i
Z
1
= x1 (1 x)1 dx ,
0 i=0
i! B(, )
Z 1X i i
tx 1
= x1 (1 x)1 dx ,
0
i=0
i! B(, )

X iZ 1 t xi
= x1 (1 x)1 dx ,
i=0 0 i!
B(, )

X ti Z 1 xi
= 1+ x1 (1 x)1 dx ,
i=1
i! 0 B(, )
i Z 1
1 X t B( + i, )
= 1+ x+i1 (1 x)1 dx ,
B(, ) i=1 i! 0 B( + i, )
i Z 1
1 X t 1
= 1+ B( + i, ) x+i1 (1 x)1 dx ,
B(, ) i=1 i! 0 B( + i, )
i
X t B( + i, )
= 1+ ,
i=1
i! B(, )
i (+i)()
X t (+i+)
= 1+ ()()
,
i=1
i!
(+)
i
X t ( + i)( + )
= 1+ ,
i=1
i! ()( + i + )
i
X t ( + i 1)!( + 1)!
= 1+ ,
i=1
i! ( 1)!( + i + 1)!
i1
!
X Y +j ti
= 1+ .
i=1 j=0
+ + j i!

on Cauchy10
9. Distribuci

Definici
on 4.3.9 Se dice que la v.a.c. X tiene o sigue una distribu-
10
Anotaremos, X C(, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 192

ametros > 0 y IR, si su f.d.p.,


cion o modelo Cauchy de par

es:
1 1


2 , si < x <
1+( x
)
pX (x) =

0 , e.o.c.

Donde,

IE(X) = no existe ,

Var(X) = no existe ,

(t) = no existe .

on Chi-cuadrado11
10. Distribuci

Definici
on 4.3.10 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo Chi-cuadrado de par


ametro = 1, 2, . . ., si su f.d.p.,

es:
x

1
x 2 1 e 2 , si 0 < x <
( )
22
pX (x) = 2

0 , e.o.c.

Donde,

IE(X) = ,

Var(X) = 2 ,
  2
1 1
(t) = , t< .
1 2t 2
11
Anotaremos, X 2 .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 193

Demostraci
on 4.3.9
Z
1 x
IE(X) = x x 2 1 e 2 dx ,
2 2 2

0
Z

1
+11 x2 2
+ 1 2 2 +1
=
 x 2 e
 dx ,
2
22 0 2
+ 1 2 2 +1
 Z
+ 1 2 2 +1 +11 x

2 1
=
 x2 e 2
 dx ,
2 22 0 2 + 1 2 2 +1

2 + 1 2 2 +1

+ 1 1 !
=
 = 2  2= 2,
2 22 2
1 ! 2
= .

Z
1 x
2
IE(X ) = x2
 x 2 1 e 2 dx ,
0 2
2 2



+ 2 2 2 +2
Z
1
+21 x2 2
=
 x 2 e
 dx ,
2
22 0 2
+ 2 2 2 +2
 Z
+ 2 2 2 +2 +21 x

2 1
=
 x2 e 2
 dx ,
2 22 0 2 + 2 2 2 +2

2 + 2 2 2 +2

+ 1 ! 2    
= = 2

2 = + 1 22 ,
2 2 2
 
2
1 ! 2 2
+2 2
= 2 = ( + 2) .
2 2

Var(X) = ( + 2) 2 = 2 + 2 2 = 2 .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 194

Z
1 x
(t) = etx
 x 2 1 e 2 dx ,
0 22
2
Z
1 x
=
 x 2 1 e 2 +tx dx ,
0 2 22
Z
1 1
 x 2 1 ex( 2 t) dx ,

=
0 2 22


(1 2t) 2
Z
1
1 x2 (12t)
=
 x
2 e dx ,
0 2
22 (1 2t) 2
Z
1 1 x
=
 x 2 1 e 2 (12t) (1 2t) 2 dx ,
(1 2t) 0 2 2
2 2

  2
1 1
= , t < .
1 2t 2

on Doble Exponencial12
11. Distribuci

Definici
on 4.3.11 Se dice que la v.a.c. X tiene o sigue una distribu-

ametros IR y > 0, si su
cion o modelo Doble Exponencial de par

f.d.p., es:

1 |x|
e , si < x <


2
pX (x) =
0 , e.o.c.

Donde,

IE(X) = ,

IE(X 2 ) = 2 2 + 2 ,

Var(X) = 2 2 ,
et 1
(t) = , |t| < .
1 (t)2
12
Anotaremos, X DE(, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 195

Demostraci
on 4.3.10

IE(X) = .

IE(X 2 ) = 2 2 + 2 .

Var(X) = 2 2 .

et 1
(t) = , |t| < .
1 (t)2

on Exponencial13
12. Distribuci

Definici
on 4.3.12 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo Exponencial de par


ametro > 0, si su f.d.p., es:

ex , si 0 < x <

pX (x) =
0

, e.o.c.

Donde,

1
IE(X) = ,

IE(X 2 ) = ,
1
Var(X) = ,
2

(t) = , t<.
t
13
Anotaremos, X Exp().

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 196

Demostraci
on 4.3.11
Z Z
x
IE(X) = x e x ex dx ,
=
0 0
 Z   
x x  1 x
= e e dx ,
0 0
Z  
x 1 x
= e dx = e ,
0 0
1
= .

Z Z
x
2
IE(X ) = x e 2
= x ex dx ,
0
 2  0Z   
x x 2x x
= e e dx ,
0 0
2
Z
2 1
= xex dx = ,
0
2
= .
2

 2
2 1 21 1
Var(X) = = = .
2 2 2


( t)
Z Z
x
(t) = e e tx
= ex(t) dx ,
0 0 ( t)
Z

= ( t) ex(t) dx ,
t 0

= , t < .
t

on F de Fisher14
13. Distribuci
14
Anotaremos, X F1 ,2 .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 197

Definici
on 4.3.13 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo F de par


ametros 1 , y 2 , con 1 , 2 = 1, . . ., si su f.d.p.,

es:

(
1 +2   21 1 2
) 1 x 2
2
, si 0 < x <

1 2     1 +2
( ) ( )
2

2 2 2
pX (x) = 1+ 1 x
2

0 , e.o.c.

Donde,

2
IE(X) = , 2 > 2 ,
2 2
 2
2 (1 + 2 2)
Var(X) = 2 , 2 > 4 ,
2 2 1 (2 4)
(t) = no existe.

Demostraci
on 4.3.12

2
IE(X) = , 2 > 2 .
2 2

IE(X 2 ) = .

 2
2 (1 + 2 2)
Var(X) = 2 , 2 > 4 .
2 2 1 (2 4)

(t) = no existe.

on Gamma15
14. Distribuci
15
Anotaremos, X Gamma(, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 198

Definici
on 4.3.14 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo Gamma de par


ametros , y , con , > 0, si su f.d.p.,

es:
1
x1 ex , si 0 < x <


()
pX (x) =
0 , e.o.c.

Donde,


IE(X) = ,


Var(X) = ,
2
(t) = .

Demostraci
on 4.3.13
Z
1 1 x
IE(X) = x x e dx ,
0 ()
Z
+1 ( + 1)
= x+11 ex +1 dx ,
() 0 ( + 1)
( + 1) +1
Z
= x+11 ex dx ,
() +1 0 ( + 1)
!
= ,
( 1)! +1

= .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 199

Z
2 1 1 x
IE(X ) = x2 x e dx ,
0 ()
Z
+2 ( + 2)
= x+21 ex +2 dx ,
() 0 ( + 2)
( + 2) +2
Z
= x+21 ex dx ,
() +2 0 ( + 2)
( + 1)!
= ,
( 1)! +2
( + 1)
= .
2

 2
( + 1) 2 + 2 2 + 2
Var(X) = = = = 2.
2 2 2 2

Z
1 1 x
(t) = etx x e dx ,
()
Z0
1 1 x+tx
= x e dx ,
0 ()
Z
1 1 x(t) ( t)
= x e dx ,
0 () ( t)
Z
( t) 1 x(t)
= x e dx ,
( t) 0 ()

= ,
( t)
 

= , t < .
t

on Logstico16
15. Distribuci

Definici
on 4.3.15 Se dice que la v.a.c. X tiene o sigue una distribu-

ametros IR, y > 0, si su f.d.p.,


cion o modelo Logstico de par
16
Anotaremos, X Log(, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 200

es: x

1 e


 x
2 , si < x <


1+e
pX (x) =


0 , e.o.c.

Donde,

IE(X) = .

IE(X 2 ) = .

2 2
Var(X) = .
3

1
(t) = et (1 t)(1 + t) , |t| < .

on Lognormal17
16. Distribuci

Definici
on 4.3.16 Se dice que la v.a.c. X tiene o sigue una distribu-

ametros IR, y > 0, si su f.d.p.,


cion o modelo Lognormal de par

es: logx

2 2
1 e , si < x <


2 x
pX (x) =
0 , e.o.c.

Donde,

2
IE(X) = e+ 2 .
17
Anotaremos, X LN (, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 201

IE(X 2 ) = .

2 2
Var(X) = e2(+ ) e2+ .

(t) = no existe .

17. Distribuci
on Pareto

Definici
on 4.3.17 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo Pareto de par


ametros , y , con , > 0, si su f.d.p.,

es:

, si < x <


x+1
pX (x) =
0 , e.o.c.

Donde,


IE(X) = , >1,
1
2
Var(X) = , >2,
( 1)2 ( 2)
(t) = no existe .

Demostraci
on 4.3.14
Z  +1 

Z
1 x
IE(X) = x +1 dx = dx = ,
x x + 1
 +1 
x = +1 ,

=
1 1

= , >1.
1

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 202

Z

Z
2 2 1
IE(X ) = x +1 dx = dx ,
x x1
 +2 
x = +2 ,

=
2 2
2

= , >2.
2

2
2 2 ( 1)2 2 2 ( 2)


Var(X) = = ,
2 1 ( 1)2 ( 2)
2 ( 2 2 + 1) 3 2 + 2 2 2
= ,
( 1)2 ( 2)
3 2 2 2 2 + 2 3 2 + 2 2 2
= ,
( 1)2 ( 2)
2
= , >2.
( 1)2 ( 2)

(t) = no existe .

on t de Student18
18. Distribuci

Definici
on 4.3.18 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo t de Student de par ametro = 1, . . ., si su f.d.p., es:


+1
( )
( 2 ) 1   21  +1 , si < x <


2
pX (x) = 2 1+ x

0 , e.o.c.

Donde,

IE(X) = 0 , >1.
18
Anotaremos, X t .

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 203

IE(X 2 ) = .


Var(X) = , >2.
2

(t) = no existe .

on Uniforme19
19. Distribuci

Definici
on 4.3.19 Se dice que la v.a.c. X tiene o sigue una distribu-

ametros y , con < IR, si su


cion o modelo Uniforme de par

f.d.p., es:
1
, si x



pX (x) =
0

, e.o.c.

Donde,

+
IE(X) = ,
2
( )2
Var(X) = ,
12
et et
(t) = .
( )t

Demostraci
on 4.3.15


x2 2 2
Z
1 1
IE(X) = x dx = = ,
2 2( )
( )( + ) +
= = .
2( ) 2
19
Anotaremos, X U (, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 204



x3
Z
2 1 2 1
IE(X ) = x dx = ,
3
3 3 ( )( 2 + + 2 )
= = ,
3( ) 3( )
2 + + 2
= .
3

2
2 + + 2 2 + + 2 2 + 2 + 2

+
Var(X) = = ,
3 2 3 4
4 2 + 4 + 42 32 6 3 2 2 2 + 2
= = ,
12 12
( )2
= .
12



etx et et
Z
tx 1 1
(t) = e dx = = .
t ( )t

on Weibull20
20. Distribuci

Definici
on 4.3.20 Se dice que la v.a.c. X tiene o sigue una distribu-

cion o modelo Weibull de par


ametros y , con , > 0, si su f.d.p.,

es:

1 x
x e , si 0 < x <



pX (x) =
0 , e.o.c.

Donde,
 
1 1
IE(X) = 1 + .

IE(X 2 ) = .
20
Anotaremos, X W (, ).

Carlos Bustos-Lopez
CAPITULO 4. VARIABLES ALEATORIAS 205

    
2 2 2 1
Var(X) = 1+ 1+ .

(t) = no existe .

Carlos Bustos-Lopez
Captulo 5

Inferencia Estadstica

5.1 Estimaci
on

En las secciones anteriores hemos visto distintas formas de como describir

una o dos variables poblacionales, pero en general, tabajamos con una mues-

tra que corresponde a una parte de la poblacion y nuestro interes es poder

concluir algo sobre el comportamiento de la poblacion.

Para responder a las necesidades anteriores, es necesario que utilicemos

la Estadistica Inferencial.

Definici
on 5.1.1 La Estadstica Inferencial, permite concluir, inferir y

deducir aspectos importantes de una poblaci


on mediante el an
alisis de una

muestra de ella.

Definici
on 5.1.2 Muestra Aleatoria (m.a.): Consiste en un conjunto

de variables aleatorias independientes X1 , X2 , . . . , Xn que tienen la misma

densidad de probabilidad fX (x|) de la variable X asociada a la poblaci


on.

206
CAPITULO 5. INFERENCIA ESTADISTICA 207

Definici on ( ): Es el conjunto de to-


on 5.1.3 Espacio de Informaci

das las posibles muestras aleatorias de tama


no n que se pueden obtener de la

poblacion. Es decir:

= {(x1 , x2 , . . . , xn ) IRn |(x1 , x2 , . . . , xn ) es una m.a. de X}.

Definici
on 5.1.4 Estadstico o estadgrafo (T (X
)): Es cualquier fun-
ci
on de las variables aleatorias que forman la muestra aleatoria y que no

depende de cantidades desconocidas.

p.e.
n
1X
1. T1 = Xi
n i=1
n
1X 2
2. T2 = X
n i=1 i
n
1X 2
3. T3 = (Xi X)
n i=1

Definici
on 5.1.5 Espacio Param
etrico (): El espacio parametrico es

el conjunto de todos los valores posibles que puede asumir un par


ametro pobla-

cional.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 208

5.2 Estimaci
on Puntual

Definici
on 5.2.1 Par
ametro: Un par
ametro es una caracterstica de in-

teres en la poblacion, que tiene un valor fijo, pero desconocido. Generalmen-

te, se denota con letras griegas (p.e. , , , , , etc.).

Una de las tecnicas mas utilizadas para poder describir el comportamien-

to de la poblacion es la estimacion del verdadero valor del parametro pobla-

cional, mediante un solo valor.

Existen numerosas tecnicas de estimacion puntual de los parametros, las

mas utilizadas son:

1. Metodo de los Momentos.

2. Metodo de Maxima Verosimilitud.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 209

3. Metodo de los Mnimos Cuadrados.

4. Metodos Bayesianos.

5. Metodos Robustos.

6. Metodos Computacionales.

5.2.1 M
etodo de M
axima Verosimilitud

Definici
on 5.2.2 La Funci
on de Verosimilitud, corresponde a la fun-

ci
on de probabilidad conjunta de la muestra X
= (X1 , . . . , Xn ) y est
a dada

por:

n
Y
L(|
x) = fXi (xi |) .
i=1

Ejemplo 5.2.1 Suponga que


x = (x1 , x2 , . . . , xn ) son los datos asociados a

una muestra aleatoria (X1 , X2 , . . . , Xn ) de una poblaci


on Poisson, con fun-

ci
on de probabilidad dada por:

x e
fX (x|) = .
x!

La funcion de verosimilitud es:


n n
Y Y Xi e Pn
Xi en
L(|
x) = fXi (xi |) = = i=1 Qn .
i=1 i=1
Xi ! i=1 Xi !

El objetivo es determinar el valor del par


ametro que maximiza la funci
on

de verosimilitud. Donde tambien se define la funci


on de log-verosimilitud

como:

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 210

n n
!
en
 Pn
 X Y
l() = ln i=1 Xi Qn = Xi ln() n ln Xi ! ,
i=1 Xi ! i=1 i=1
n
X n
X
= Xi ln() n ln Xi ! ,
i=1 i=1
n
l 1X
= Xi n = 0
i=1

n
M V 1X
= Xi .
i=1

=X
Luego, es el estimador m
aximo verosimail de .

Ejemplo 5.2.2 Sea una poblaci


on con funci
on de densidad:

2 31
fX (x|) = x 1 , si 0 x 1 .
1

El estimador maximo verosimil de es:


n  n Yn
! 31
1
Y 2 31
1
2
L(|X1 , . . . , Xn ) = X = Xi
i=1
1 i 1 i=1
n
3 1 X
l(|X1 , . . . , Xn ) = n ln 2 + n ln n ln(1 ) + ln Xi ,
1 i=1
n
l n n 3(1 ) + (3 1) X
= + + ln Xi = 0 ,
1 (1 )2 i=1
n
n n 2 X
0 = + + ln Xi ,
1 (1 )2 i=1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 211

n
2 X n n
2
ln Xi = ,
(1 ) i=1 1
n
2 X n(1 ) + n
ln Xi = ,
(1 )2 i=1 (1 )
n
2 X n
2
ln Xi = ,
(1 ) i=1 (1 )
n
2 X n
ln Xi = ,
(1 ) i=1
n
M V = Pn .
n2 i=1 ln Xi

Ejercicos Resueltos

1. Despues de varios reclamos de diferentes consumidores formulados al

SERNAC, la empresa de productos lacteos ZOPROLIN ha sido someti-

da a varias inspecciones para verificar la calidad del estado de conser-

vacion de la leche en envases tetra pack. Para ello a tomado una caja

al azar con 10 de estos envases donde se ha observado lo siguiente:

B, B, D, B, B, B, D, B, D, B ,

donde B la leche esta en buen estado, y D la leche esta descompuesta.

Con estos resultados, Cual es la probabilidad de que al tomar cualquier

otra caja se registren 2 envases con leche descompuesta?

Des.

Claramente, el estado de la leche B o D es una variable con un com-

portamiento que puede ser representado mediante un modelo Bernoulli

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 212

(Xi Ber(p)), entonces el problema se reduce a determinar la mejor

estrategia para estimar p. De esa forma, el estimador MV, se puede

extraer de:
n
Y Pn Pn
L(p|X1 , . . . , Xn ) = pXi (1 p)1Xi = p i=1 Xi
(1 p)n i=1 Xi
,
i=1
n
X n
X
l(p|X1 , . . . , Xn ) = Xi ln(p) + (n Xi ) ln(1 p) ,
i=1 i=1

Pn
n ni=1 Xi
P
l i=1 Xi
= + (1) = 0 ,
p p (1 p)
n
X n
X
0 = (1 p) Xi p(n Xi ) ,
i=1 i=1

n
1X
p = Xi .
n i=1

2. Considere una m.a., proveniente de una distribucion Poisson de parametro

. Determine el EMV de . Des.

n Pn
Y Xi e i=1 Xi n
e
L(|X1 , . . . , Xn ) = = Qn
i=1
Xi ! i=1 Xi !
n n
!
X Y
l(|X1 , . . . , Xn ) = Xi ln() n ln Xi ! ,
i=1 i=1
n
l 1X
= Xi n = 0 ,
i=1

n
= 1
X
Xi .
n i=1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 213

3. Considere una m.a., proveniente de una distribucion Rayleigh de parametro

2 . Determine el EMV de 2 . Des.

n n
Y Xi Xi2 1 Y 1 Pn 2

2
L( |X1 , . . . , Xn ) = e 2 2 = 2n Xi e 22 i=1 Xi
i=1
2 i=1
n n
X 1 X 2
l( 2 |X1 , . . . , Xn ) = ln Xi n ln 2 X ,
i=1
2 2 i=1 i
Pn
l n i=1 Xi2 (1)
2
= 2 =0,
2 ( 2 )2

Pn
Xi2
2 = i=1
.
2n

4. Considere una m.a., proveniente de una distribucion Exponencial de

parametro . Determine el EMV de . Des.

n
Y Pn
L(|X1 , . . . , Xn ) = eXi = n e i=1 Xi
,
i=1
n
X
l(|X1 , . . . , Xn ) = n ln Xi ,
i=1
n
l n X
= Xi = 0 ,
i=1

= Pnn
.
i=1 Xi

5. Considere una m.a., proveniente de una distribucion Gama de paramet-

ros y . Determine el EMV de . Des.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 214

n n
!1
Y 1 Xi n Y Pn
L(|, X1 , . . . , Xn ) = Xi e = Xi e i=1 Xi

i=1
() ()n i=1
n
X n
X
l(|, X1 , . . . , Xn ) = n ln n ln () + ( + 1) ln Xi Xi ,
i=1 i=1
n
l n X
= Xi = 0 ,
i=1

n
= Pn .
i=1 Xi

6. Considere una m.a., proveniente de una distribucion Weibull de paramet-

ros y . Determine el EMV de . Des.

n n
!1
Y 1 ( Xi ) n Y Pn
( Xi ) ,
L(|, X1 , . . . , Xn ) = X e = Xi e i=1

i=1
i n i=1
n n
X X X i
l(|, X1 , . . . , Xn ) = n ln n ln + ( 1) ln Xi
,
i=1 i=1

n
l n X ()
= Xi +1 = 0 ,
i=1

n
X n
Xi = ,
i=1
+1
Pn
Xi
= i=1
,
n

 Pn 1/
Xi
= i=1
.
n

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 215

7. Considere una m.a., proveniente de una distribucion Normal de paramet-

ros y . Determine los EMV de y . Des.

n
Y 1 1 2
2
L(, |X1 , . . . , Xn ) = e 22 (Xi ) ,
i=1 2 2
 n/2
1 1 12
Pn 2
i=1 (Xi ) ,
= 2 n/2
e 2
2 ( )
n
2 n n 2 1 X
l(, |X1 , . . . , Xn ) = ln 2 ln 2 (Xi )2 ,
2 2 2 i=1
n
l 1 X
= 22 (Xi )(1) = 0 ,
2 i=1
n
l n 1X (1)
2
= 2
(Xi )2 2 2 = 0 ,
2 2 i=1 ( )
Pn n
i=1 (Xi ) 1X
= 0
= Xi ,
2 n i=1
Pn n
i=1 (Xi )2 n 2 = 1
X
= )2 .
(Xi
2( 2 )2 2 2 n i=1

8. Considere una m.a., proveniente de una distribucion fX (x|) = ( +

1)x de parametro . Determine el EMV de . Des.

n
Y n
Y

L(|X1 , . . . , Xn ) = ( + 1)Xi = ( + 1) n
Xi ,
i=1 i=1
n
X
l(|X1 , . . . , Xn ) = n ln( + 1) + ln Xi ,
i=1
n
l n X
= + ln Xi = 0 ,
+ 1 i=1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 216

 
n
= Pn +1 .
i=1 ln Xi

5.2.2 M
etodo de los Momentos

Consiste en sustituir los momentos poblacionales de la distribucion con los

respectivos momentos muestrales. Luego se construye un sistema de ecua-

ciones p-dimencional1 .

Definici
on 5.2.3 Sea
x = (x1 , x2 , . . . , xn ) los datos asociados a una m.a.,

(X1 , X2 , . . . , Xn ), se define el momento muestral de orden k (k IN),

como:
n
1X k
mk = x .
n i=1 i

Definici
on 5.2.4 Sea X una v.a., se define el momento poblacional de

orden k (k IN), como:



P k
xB x pX (x) , si X es discreta.

k = IE(X k ) =
xk fX (x|)
R
, si X es continua.

1
El fundamento de esta tecnica es la convergencia de los momentos muestrales a los
momentos poblacionales a medida que el tama
no de la muestra n aumenta.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 217

Si p es el n
umero de parametros a estimar, entonces el estimador de momentos

de se obtiene al resolver el sistema2 :

1 = m 1

2 = m 2
..
.

p = m p

Ejemplo 5.2.3 Suponga que (X1 , X2 , . . . , Xn ) es una m.a., de una poblaci


on

Poisson, con parametro . En este caso hay un s


olo par
ametro y se necesita

s
olo una ecuacion:
n
1X = x .
1 = m1 = = xi =
n i=1

Ejemplo 5.2.4 Sea una poblaci


on con funci
on de densidad:

2 31
fX (x|) = x 1 , si 0 x 1 .
1

El estimador por el metodo de los momentos de es:


2
1
1 1
x 1 +1
Z Z
2 31 2 2 2
IE(X) = xx 1 dx = x 1 dx = 2 ,
1 0 1 0 1 1 + 1
0
2 1 2
= 1 = .
1 1 1+
2
Este sistema podra ser no lineal.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 218

2 ,
= = X
1+
+ 1) ,
2 = X(

+X
2 = X ,

= X
2 X ,

= X
(2 X) ,

X
= .
2X

5.2.3 Propiedades de los Estimadores Puntuales

1. Insesgamiento

Definici
on 5.2.5 Un estimador es Insesgado, si el valor medio

de todas sus estimaciones obtenidas con una muestra de tama


no n, es

ametro y
igual al parametro que estima. Por lo tanto, si es el par

su estimador insesgado, se debe cumplir que:

=.
IE()

Teorema 5.2.1 Si X1 , X2 , . . . , Xn es una m.a., de n variables que


la
tienen la misma media y la misma varianza 2 , se cumple que X,

media de la muestra, es un estimador insesgado de y su varianza es

2 /n.

= 1
Pn
Proof: Sea X n
Xi , entonces,
i=1
 Pn  n n
i=1 Xi 1X 1X n
IE(X) = IE = IE(Xi ) = = =.
n n i=1 n i=1 n

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 219

es un estimador insesgado del par


Luego, X ametro .

Por otra parte:


 Pn n n
2

= Var Xi 1 X 1 X 2 n
Var(X) i=1
= 2 Var(Xi ) = 2 = 2 2 = .
n n i=1 n i=1 n n

Teorema 5.2.2 Si la varianza S 2 de una m.a., de tama


no n, de una

poblacion con media y varianza 2 , se define como:


n
2 1 X 2,
S = (Xi X)
n 1 i=1

se cumple que IE(S 2 ) = 2 , es decir S 2 es un estimador insesgado de

la varianza de la poblaci
on.

Proof:
n
! n
2 1 X 2 1 X 2,
IE(S ) = IE (Xi X) = IE(Xi X)
n 1 i=1 n 1 i=1
n
1 X +X
2) ,
= IE(Xi2 2Xi X
n 1 i=1
n
1 X + IE(X
2) ,
IE(Xi2 ) 2IE(Xi X)

=
n 1 i=1

Pero,

IE(Xi2 ) = 2 + 2 ,

2 2
IE(X ) = + 2 ,
n

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 220

Pn ! n
= IE Xi j=1 Xj 1X
IE(Xi X) = IE(Xi Xj ) ,
n n j=1
n
!
1 X
= IE(Xi Xj ) + IE(Xi2 ) ,
n j=1,i6=j
1
(n 1)2 + 2 + 2 ,

=
n
n 2 2
= + ,
n n
2 2
= + ,
n

n 
2 2
  
2 1 X 2 2 2
IE(S ) = + 2 + + + = 2 .
2
n 1 i=1 n n

Teorema 5.2.3 Si el estimador p de la proporci


on p de elementos de

una poblacion que tienen cierto atributo se define como:



Pn 1 elemento i-esimo posee el atributo.

i=1 Xi
p = , donde Xi =
n 0 si no.

Se cumple que p es un estimador insesgado de p, y la varianza de p es

p(1 p)/n.

Proof:
 Pn  n
i=1 Xi 1X
IE(
p) = IE = IE(Xi ) ,
n n i=1

pero

IE(Xi ) = 1 p + 0 (1 p) = p ,

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 221

entonces,
n
1X n
IE(
p) = p= p=p.
n i=1 n

n
! n
1X 1 X
Var(
p) = Var Xi = 2 Var(Xi ) ,
n i=1 n i=1

pero

Var(Xi ) = IE(Xi2 ) IE2 (Xi ) = p p2 = p(1 p) ,

entonces,
n
1 X n p(1 p)
Var(
p) = 2
p(1 p) = 2 p(1 p) = .
n i=1 n n

on P {1, 2, 3, 4}. La
Ejemplo 5.2.5 Consideremos la siguiente poblaci

media y la varianza poblacionales son respectivamente 2.5 y 1.25. Sacare-

mos todas las muestras posibles con sustituci


on de tama
no 2 y evalua-

remos en cada una la media y su varianza y verificaremos que son

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 222

estimadores insesgados.

i
M uestra X Si2 i
M uestra X Si2

(1, 1) 1 0 (3, 1) 2 2

(1, 2) 1, 5 0, 5 (3, 2) 2, 5 0, 5

(1, 3) 2 2 (3, 3) 3 0

(1, 4) 2, 5 4, 5 (3, 4) 3, 5 0, 5

(2, 1) 1, 5 0, 5 (4, 1) 2, 5 4, 5

(2, 2) 2 0 (4, 2) 3 2

(2, 3) 2, 5 0, 5 (4, 3) 3, 5 0, 5

(2, 4) 3 2 (4, 4) 4 0

Note que, X = P16 X i /16 = 40/16 = 2.5, que corresponde a la media


i=1

poblacional. Ademas, 16 2
P
i=1 Si /16 = 20/16 = 1.25, que es la varianza

de la poblacion.

2. Consistencia

La consistencia de un estimador esta relacionada con su proximidad al

parametro que estima cuando el tama


no de la muestra que se utiliza

tiende a ser infinita. Este es el concepto de convergencia en probabili-

dad.

on 5.2.6 Un estimador de un par


Definici ametro es consistente

si se cumple que:

lim IP(| | ) = 1 .
n

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 223

Teorema 5.2.4 Si es un estimador del par


ametro que cumple:

) = 0.
(a) limn IP(IE()

= 0.
(b) limn Var()

entonces, es un estimador consistente.

Ejemplo 5.2.6 De una poblaci


on con media IE(X) = y varianza

Var(X) = 2 , se extrae una m.a., (X1 , X2 , . . . , Xn ). Determine que X

y S 2 son consistente.

) = lim IP( ) = 0 ,
lim IP(IE(X)
n n
2
= lim = 0 .
lim Var()
n n n

es consistente.
X

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 224

 Pn 2
2 2 X)
i=1 (Xi
lim IP(IE(S ) ) = lim Var ,
n n n1
n
!
1 X
2 ,
= lim Var (Xi X)
n (n 1)2
i=1
n
!
1 X
+X
2) ,
= lim Var (Xi2 2Xi X
n (n 1)2
i=1
n
!
1 X
2 ,
= lim Var Xi2 nX
n (n 1)2
i=1
n
!
1 X
= lim Var Xi2 ,
n (n 1)2
i=1
n
!
1 X X
= lim Var(Xi2 ) + 2 Cov(Xi , Xj ) ,
n (n 1)2
i=1 i<j
n
!
1 X
= lim ( 2 + 2 ) ,
n (n 1)2
i=1
n
2 + 2 = 0 .

= lim 2
n (n 1)

Teorema 5.2.5 Si 1 es un estimador consistente del par


ametro 1 y

2 es un estimador consistente del par


ametro 2 se cumple que:

(a) 1 + 2 es un estimador consistente de 1 + 2 .

(b) 1 2 es un estimador consistente de 1 2 .

(c) 1 /2 es un estimador consistente de 1 /2 .

3. Varianza Mnima

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 225

Definici
on 5.2.7 Un estimador insesgado de un par
ametro es llamado

de varianza mnima, cuando tiene la menor varianza entre todos los

ametro3 .
posibles estimadores insesgados del par

Ejemplo 5.2.7 Suponga que de una poblaci


on con IE(X) = y Var(X) =

2 se saca una muestra de tama


no 3. Decida cu
al de los siguientes es-

timadores es mejor:
1 1 1
1 = X1 + X2 + X3 .
4 2 4
2 = X
.

Des.
 
1 1 1 1 1 1
IE(1 ) = IE X1 + X2 + X3 = IE(X1 ) + IE(X2 ) + IE(X3 ) ,
4 2 4 4 2 4
1 1 1
= + + =.
4 2 4
Luego 1 es insesgado.
3
! 3 3
1X 1X 1X
IE(2 ) = IE X
= IE

Xi = IE(Xi ) = =.
3 i=1 3 i=1 3 i=1

Luego 2 es insesgado.
 
1 1 1
Var(1 ) = Var X1 + X2 + X3 ,
4 2 4
1 1 1
= 2
Var(X1 ) + 2 Var(X2 ) + 2 Var(X3 ) ,
4 2 4
1 2 1 2 1 2
= + 2 + 2 ,
42 2 4
3 2
= .
8
3
El estimador que tenga la menor varianza es tambien llamado el mejor de todos los
estimadores.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 226

3
! 3 3
1X 1 X 1 X 2
Var(2 ) = Var X
= Var

Xi = 2 Var(Xi ) = 2 ,
3 i=1 3 i=1 3 i=1
2
= .
3
Luego 2 es mejor, puesto que tiene menor varianza.

4. Error Cuadr
atico Medio

Definici
on 5.2.8 El error cuadr
atico medio es el valor esperado

de la desviacion cuadr
atica entre el estimador y el par
ametro que esti-

ma.

M SE() = IE( )2 ,
+ b2 () ,
= Var()

= IE[( IE())
2 ] + (IE()
)2 .

De acuerdo a los valores que pueda tomar el parametro, es posible que

un estimador sesgado sea mejor que uno insesgado.

Ejemplo 5.2.8 Suponga que 1 y 2 son dos estimadores del par


ametro

. Sebemos que:

IE(1 ) = Var(1 ) = 3 ,

IE(2 ) = 0.9 Var(1 ) = 2 .

Des.

M SE(1 ) = 3 + ( )2 = 3 ,

IE(2 ) = 2 + (0.9 )2 = 2 + 0.012 .

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 227

Si || > 10, 1 es mejor que 2 .

Si || < 10, 2 es mejor que 1 .

5. Suficiencia

Dada una poblacion distribuida fX (x|), que depende de un solo parametro

se saca una muestra aleatoria (X1 , X2 , . . . , Xn ) y una estadstica

= g(X1 , X2 , . . . , Xn ) es utilizada para estimar .

Dado que es una sola variable aleatoria, y disponamos de n variables

aleatorias, cabe preguntarse si se perdio alguna informacion al usar



.

Por ejemplo, si = X1 , es evidente que no fue usada toda la informa-

cion.

on 5.2.9 Una estadstica que contenga toda la informa-


Definici

cion respecto al parametro que est


a en la muestra, recibe el nombre

de Estadstica Suficiente. Ning


un otro estimador definido con la

misma muestra puede suministrar informaci


on adicional respecto a .

Teorema 5.2.6 Sea (X1 , X2 , . . . , Xn ) una m.a., sacada de la poblaci


on

fX (x|). Si:
n
Y
g(X1 , X2 , . . . , Xn |) = fX (xi |) ,
i=1

y
n
Y
)g(x1 , x2 , . . . , xn ) ,
fX (xi |) = h(,
i=1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 228

en donde g(x1 , x2 , . . . , xn ) no depende de , entonces es una estadsti-

ca suficiente para .

Ejemplo 5.2.9 Sea (X1 , X2 , . . . , Xn ) de X N (, 1).


n
Y 1 1 2 n 1 Pn 2
e 2 (xi ) = (2) 2 e 2 i=1 (xi ) ,
i=1
2
n 1 Pn 2
= (2) 2 e 2 i=1 ((xi x))
x)(
,
1 Pn
= (2) 2 e 2 [ ],
n 2 +n(
x)2
i=1 (xi
x)

n 1 Pn 2 1 2
= (2) 2 e 2 i=1 (xi
x)
e 2 n(x) .

Luego x es estadstica suficiente para .

6. Suficiente Minimal

Una estadstica suficiente que resume los datos tanto como sea posible

es llamada Estadstica Suficiente Minimal.

Para encontrar estadsticas suficientes minimales uasaremos metodos

de Lehmann y Scheffe.

Definici
on 5.2.10 Sean x1 , x2 , . . . , xn e y1 , y2 , . . . , yn dos conjuntos de

valores que toman todas las variables (X1 , X2 , . . . , Xn ) de la m. a. Si

se forma la razon:

f (x1 |)f (x2 |) f (xn |)


,
f (y1 |)f (y2 |) f (yn |)

esta razon no incluira al par


ametro si existe una funci
on g tal que:

g(x1 , x2 , . . . , xn ) = g(y1 , y2 , . . . , yn ) ,

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 229

en tal caso g(y1 , y2 , . . . , yn ) es la estadstica suficiente minimal para .

Ejemplo 5.2.10 Sea X Ber(n, p), se forma la raz


on:
Pn Pn
px1 (1 p)1x1 pxn (1 p)1xn p i=1 xi (1 p)n i=1 xi
= Pn y Pn ,
py1 (1 p)1y1 pyn (1 p)1yn p i=1 i (1 p)n i=1 yi
Pn Pn
p i=1 xi i=1 yi
= Pn Pn ,
(1 p)n i=1 yi (n i=1 xi )
Pn Pn
p i=1 xi i=1 yi
= Pn Pn ,
(1 p) i=1 xi i=1 yi
 Pni=1 xi Pni=1 yi
p
= ,
1p

si ni=1 xi = ni=1 yi la raz


on es independiente de p. Luego g = ni=1 yi
P P P

Pn
es estadstica minimal suficiente. Es decir, p = i=1 yi /n es esti-

mador que contiene toda la informaci


on de la muestra con un mnimo

de datos4 .

7. Eficiencia

En el estudio de la consistencia de un estimador se percibe que mientras

menor es la varianza de un estimador incrementa la posibilidad de

obtener estimaciones mas proximas al verdadero valor del parametro

que se estima. Luego, mientras mas peque


na es su varianza, mayor es

la eficiencia del estimador.

on 5.2.11 Un estimador insesgado es el m


Definici as eficiente de

todos los estimadores insesgados si su varianza satisface la cota inferior


4
Este es, por lo tanto, un estimador insesgado lineal de mnima varianza (MVUE).

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 230

de la desigualdad de Rao-Cramer.

1
Var()  2  .
lnfX (x|)
nIE

es evaluado con valores de una m. a., (X1 , X2 , . . . , Xn )


Ejemplo 5.2.11 Si X

on normal con varianza 02 conocida, demostrar


sacada de una distribuci
es el estimador m
que X as eficiente para estimar la media .

1 1
202 (x)
2
fX (x|) = p 2
e ,
20
1 1
lnfX (x|) =ln(202 ) 2 (x )2 ,
2 20
lnfX (x|) 2(x )
= (1) ,
202
" 2 # " 2 #
lnfX (x|) 2(x ) 1
IE = IE 2
= 4 IE[(x )2 ] ,
20 0
" 2 #
lnfX (x|) 2
IE = 04 ,
0
" 2 #
lnfX (x|) n
nIE = ,
02
1 02 .
 2  = n
= Var(X)
lnfX (x|)
nIE

es un estimador eficiente de la media poblacional , puesto


Luego X

que alcanza la cota de Rao-Cramer.

8. Eficiencia Relativa

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 231

on 5.2.12 Si hay dos estimadores 1 y 2 insesgado, para el


Definici

mismo parametro el estimador 2 es m


as eficiente que 1 si:

Var(2 ) < Var(1 ) ,


Var(2 )
< 1.
Var(1 )

Nos enfocaremos principalmente en el metodo de M


axima Verosimili-

tud

Propiedades de los estimadores de M


axima Verosimilitud (MV).

1. Insesgamiento: Los estimadores MV pueden ser sesgados, pero al incre-

mentar el tama
no de la muestra n se hacen asintoticamente insesgados.

2. Consistencia: Bajo condiciones regulares los estimadors MV son con-

sistentes.

3. Invarianza: Si existe una funcion de un parametro, se obtiene un esti-

mador de la funcion sustituyendo el parametro por su estimador MV.


. Distribucion Asintoticamente
p.e. g() es estimada por g() = g()

Normal

N (, Var()) .

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 232

Parametro Estimador Puntual

Pn
= Xi
Media X i=1
n

Pn 2
i=1 (Xi X)
Varianza 2 S 2 = n1


Pn 1

cumple condicion
Yi
Proporcion p = i=1
n
, donde Yi =
0

si no

Pn
i=1 Xi Yi nX Y
Correlacion rXY = q P
n 2 Pn Y 2 nY 2
( X
i=1 i
2 nX
)( i=1 i )

Ejercicios Resueltos

1. Considere una muestra extraida de la distribucion:

1 x/
fX (x|) = e ,x > 0 , , > 0 .

Encuentre el EMV de .
n
Y 1 Xi /
L(|X1 , . . . , Xn ) = e ,
i=1

1 1 Pni=1 Xi
=
e ,
n
n
1X
l(|X1 , . . . , Xn ) = n ln Xi ,
i=1

Pn
l n i=1 Xi
= (1) = 0 ,
2

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 233

n
= 1
X
Xi .
n i=1

2. Considere una muestra extraida de la distribucion:

1 2 x/
fX (x|) = xe ,x > 0 , , > 0 .
3

Ademas, IE(X) = 3 y Var(X) = 3 2 . Determine el M SE del EMV

de .
n
Y 1 2 Xi /
L(|X1 , . . . , Xn ) = X e ,
i=1
3 i
n
1 Y 2 1 Pni=1 Xi
= X e ,
3n i=1 i
n n
X 1X
l(|X1 , . . . , Xn ) = 3n ln + 2 ln Xi Xi ,
i=1
i=1

Pn
l 3n i=1 Xi
= (1) =0,
2

n
1 X
= Xi .
3n i=1

= Var( + (IE()
M SE() )2 , de donde,

n
! n
1 X 1 X n3 2 2
Var() = Var Xi = 2 Var(Xi ) = = ,
3n i=1 9n i=1 9n2 3n
n
! n
1 X 1 X n3
IE() = IE Xi = IE(Xi ) = =,
3n i=1 3n i=1 3n

= 2 2
M SE() + ( )2 = .
3n 3n

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 234

3. Considere una muestra extraida de la distribucion:

x1 ex/
fX (x|, ) = ,x > 0 , , > 0 .
( 1)!

Ademas, IE(X) = y Var(X) = 2 . Si es conocido, determine el

M SE del EMV de .
n
Y X 1 eXi /
i
L(|, X1 , . . . , Xn ) = ,
i=1
( 1)!
n
!1
1 Y 1 Pn
= Xi e i=1 Xi
,
(( 1)!)n
n
i=1
n n
X 1X
l(|, X1 , . . . , Xn ) = n ln n ln( 1)! + ( 1) Xi Xi ,
i=1
i=1

Pn
l n i=1 Xi
= (1) =0,
2

n
1 X
= Xi .
n i=1

= Var( + (IE()
M SE() )2 , de donde,
n
! n
1 X 1 X n 2 2
Var() = Var Xi = 2 2 Var(Xi ) = 2 2 = ,
n i=1 n i=1 n n
n
! n
1 X 1 X n
IE() = IE Xi = IE(Xi ) = =,
n i=1 n i=1 n

= 2 2
M SE() + ( )2 = .
n n

4. Considere una muestra extraida de la distribucion:

( + 1)x
fX (x|) = ,0 x 3 , > 0 .
3+1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 235

Determine el EMV de .
n
Y ( + 1)X i
L(|X1 , . . . , Xn ) = ,
i=1
3+1
n
!
( + 1)n Y
= Xi ,
3n(+1) i=1
n
X
l(|X1 , . . . , Xn ) = n ln( + 1) n( + 1) ln 3 + ln Xi ,
i=1

n
l n X
= n ln 3 + ln Xi = 0 ,
+1 i=1

n

= Pn 1.
n ln 3 i=1 ln Xi

5. Sean X1 , . . . , Xn una m.a., de alguna distribucion tal que IE(Xi ) = y

Var(Xi ) = 2 . Sean los estimadores:

1 = X

2 = ni=1 Xi
P
n+1

Para que valores de es preferible el estimador 2 con relacion a

1 = X?

M SE(1 ) = Var(1 + (IE(1 ) )2 , de donde,


n
! n
1 X 1 X n 2
Var(1 ) = Var Xi = 2 Var(Xi ) = 2 2 = ,
n i=1 n i=1 n n
n
! n
1 X 1X n
IE(1 ) = IE Xi = IE(Xi ) = = ,
n i=1 n i=1 n
2 2
M SE(1 ) = + ( )2 = .
n n

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 236

M SE(2 ) = Var(2 + (IE(2 ) )2 , de donde,


n
! n
1 X 1 X
Var(2 ) = Var Xi = Var(Xi ) ,
n + 1 i=1 (n + 1)2 i=1
n
= 2 ,
(n + 1)2
n
! n
1 X 1 X n
IE(2 ) = IE Xi = IE(Xi ) = ,
n + 1 i=1 n + 1 i=1 n+1
n n
M SE(2 ) = 2
2 + ( )2 ,
(n + 1) n+1
n 1 2
= 2
2 + 2 ( ) .
(n + 1) n+1

Entonces, si:

M SE(2 ) < M SE(1 ) ,


n 2 2 1 2 2
+ ( ) < ,
(n + 1)2 n+1 n
2 2 n
2
< 2
2 ,
(n + 1) n (n + 1)
2n + 1
2 < 2 ,
r n
2n + 1
< .
n

5.2.4 Estimaci
on Intervalar

Otro procedimiento que permite tener una estimacion del verdadero valor del

parametro poblacional es, mediante intervalos de confianza, es decir, constru-

ir rangos de valores posibles para el verdadero valor del parametro mediante

la distribucion asociada al estimador del parametro de interes.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 237

on 5.2.13 Un intervalo de confianza de un nivel de (1 ) 100%,


Definici

para el parametro , esta dado por:

P (LI LS ) = 1 ,

donde LI corresponde al lmite inferior de la estimacion para el parametro

y LS corresponde al lmite superior de la estimacion para el parametro .

De esa forma, si se desea construir un intervalo de confianza con un nivel de

(1 ) 100% para , es necesario conocer la distribucion muestral de que

es el estimador puntual de .

En general, los estimadosres de maxima verosimilitud tienen las siguientes

distribuciones:
 
2
X N , n , si n es grande.


(X) n
S
t(n1) , si n es peque
no.
 
p N , (1)
n
.

2
S2 2
(n1) (n1)
.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 238

Intervalo de confianza para la media con varianza conocida:


 

IC() = X Z1 2 ; X + Z1 2

n n
 
IP X Z1 X + Z1 =1
2
n 2
n

Intervalo de confianza para la media con varianza desconocida y n lo

suficientemente grande5 (n ):
 
S S
IC() = X Z1 2 ; X + Z1 2
n n
5
Tama
nos muestrales de al menos 30 observaciones, han entregado buenos resultados
al ser considerados como grandes.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 239

 
IP X + Z1 S
Z1 S X =1
2
n 2
n

Intervalo de confianza para la media con varianza desconocida y n

peque
no:
 
S S
IC() = X t(n1 , 1 ) ; X + t(n1 , 1 )
2 n 2 n
 
S S
IP X t(n1 , 1 ) X + t(n1 , 1 ) =1
2 n 2 n

Intervalo de confianza para la varianza:



2 2
(n 1)S (n 1)S
IC( 2 ) = 2 ; 2
n1 , 1 n1 ,
( 2) ( 2)


(n 1)S 2 (n 1)S 2
IP 2 2 2 =1
n1 , 1 n1 ,
( 2) ( 2)

Intervalo de confianza para la proporcion:


r r !
p(1 p) p(1 p)
IC() = p Z1 2 ; p + Z1 2
n n
r r !
p(1 p) p(1 p)
IP p Z1 2 p + Z1 2 =1
n n

Ejemplo 5.2.12 Las manadas de lobos son territoriales, con territorios de

130km2 o mas. Se piensa que los aullidos de los lobos, que comunican tanto

de la situacion como de la composici


on de la manada, est
an relacionados con

la territorialidad. Se obtuvieron los siguientes valores para la duraci


on en

minutos de una sesion de aullidos de una determinada manada sometida a

estudio.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 240

1.0 1.8 1.6 1.5 2.0 1.8

1.2 1.9 1.7 1.6 1.6

1.7 1.5 1.4 1.4 1.4

Una estimacion puntual para la duraci


on media de una sesi
on de aullidos

en esta manada es x = 1.57 minutos.

La varianza muestral para estos datos es s2 = 0.066(minutos)2 .

Nos interesa determinar los rangos m


aximo y mnimo de la duraci
on

promedio de los aullidos.

Si consideramos un intervalo de confianza del 95%, se tiene que:

0.26
IC() = 1.57 2.131 ,
16
= 1.57 0.14 ,

= (1.43 minutos; 1.71 minutos) .

Si consideramos un intervalo de confianza del 99%, se tiene que:

0.26
IC() = 1.57 2.947 ,
16
= 1.57 0.19 ,

= (1.38 minutos; 1.76 minutos) .

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 241

5.3 D
ocima de Hip
otesis

5.3.1 Introducci
on

Definici
on 5.3.1 Una Docima de hip
otesis estadstica es, la comprobaci
on

de una afirmacion o conjetura sobre alg


un par
ametro de la poblaci
on. B
asica-

mente se pueden distinguir dos tipos de hip


otesis:

Hip
otesis Nula (H0 ): Es el verdadero estado de la naturaleza (Sin

cambio).

Hip
otesis Alternativa (H1 ): Es el posible estado de la naturaleza

(Despues del cambio).

Basicamente, existen dos formas de docimas de hipotesis, las docimas

unilaterales (una cola) y las bilaterales (dos colas).

H0 : 0 v/s H1 : < 0 H0 : 0 v/s H1 : > 0

H0 : = 0 v/s H1 : 6= 0

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 242

5.3.2 D
ocimas

Para plantear una hipotesis estadstica se pueden seguir los siguientes pasos:

1. Establesca la hipotesis nula y alternativa en el contexto del problema.

2. Establesca la hipotesis nula y alternativa estadsticas.

3. Seleccione un nivel de significancia.

4. Describa la distribucion de la poblacion y del estadgrafo.

5. Calcule el estadstico de prueba.

6. Determine el o los valores crticos.

7. Defina la region de rechazo de la hipotesis nula (regla de decision).

8. Tome la decision con respecto de la hipotesis nula.

9. Interprete sus resultados en el contexto del problema.

Al momento de realizar una docima de hipotesis, tambien hay que con-

siderar que se pueden cometer los siguientes errores:

H0

Decision sobre H0 Verdadera Falsa

Aceptar H0 Decision Correcta Error Tipo II

Rechazar H0 Error Tipo I Decision Correcta

1
Se prefiere siempre que > .

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 243

5.3.3 D
ocimas Univariadas

Ejemplo 5.3.1 La contaminaci


on de los ros por metales pesados, consti-

tuye una de las mayores preocupaciones de los gobiernos. Se sabe que el

nivel de metilmercurio tiene una distribuci


on normal con varianza conocida

de 9(g/g)2 . Queremos saber si los resultados obtenidos en el u


ltimo estudio

el nivel medio de metilmercurio es superior a 21.0(g/dl).

Podemos plantear las siguientes hip


otesis:

H0 : 21.0(g/g) El nivel medio de metilmercurio no es superior a

21.0(g/g).

H1 : > 21.0(g/g) El nivel medio de metilmercurio no es superior a

21.0(g/g).

Supongamos que tomamos una muestra de 16 observaciones de agua,

dispuestas uniformemente a lo largo de la rivera, con lo que tendremos

x1 , . . . , x16 .
P16
i=1 xi
x = .
16
Si x es muy grande, tenderemos a rechazar H0 , pero estaremos tomando

una buena decision? o estas diferencias se deben solo al azar o variabilidad

natural de la poblacion.

Entonces, debemos determinar un valor lmite que nos permita estable-

cer que, si el valor muestral es superior (menor) a este valor de tolerancia,

entonces diremos que la muestra tiene un valor estadsticamente superior

(menor) al de la poblacion, con una significacion de 100%.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 244

Estos valores lmites, se pueden establecer mediante las distribuciones

asociadas a los estimadores muestrales, de la siguiente forma, sean:


(X 0) n
Zc =
N (0, 1).


(X 0) n
tc = S
t(n1) .

pp0 )
(
Zc = q
p0 (1p0 )
N (0, 1).
n

(n1)S 2
2c = 02
2(n1) .

Docima de hipotesis para la media con varianza conocida. El estadstico

adecuado es:
0 )n
(X
Zc = N (0, 1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

= 0 6= 0 |Zc | > Z1 2

0 > 0 Zc > Z1

0 < 0 Zc < Z

Docima de hipotesis para la media con varianza desconocida y n 30.

El estadstico adecuado es:

0 )n
(X
Zc = N (0, 1) .
S

Y las Hipotesis son:

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 245

H0 H1 Existe evidencia en contra de H0 si:

= 0 6= 0 |Zc | > Z1 2

0 > 0 Zc > Z1

0 < 0 Zc < Z

Docima de hipotesis para la media con varianza desconocida y n < 30.

El estadstico adecuado es:

0 )n
(X
tc = t(n1) .
S

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

= 0 6= 0 |tc | > t(n1,1 2 )

0 > 0 tc > t(n1,1)

0 < 0 tc < t(n1,)

Docima de hipotesis para la proporcion. El estadstico adecuado es:

p p0 )
(
Zc = q N (0, 1) .
p0 (1p0 )
n

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

= p0 6= p0 |Zc | > Z1 2

p0 > p0 Zc > Z1

p0 < p0 Zc < Z

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 246

Docima de hipotesis para la varianza. El estadstico adecuado es:

(n 1)S 2
2c = 2(n1) .
02

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

2 = 02 2 6= 02 2c > 2(n1,1 ) 2c < 2(n1, )


2 2

2 02 2 > 02 2c > 2(n1,1)

2 02 2 < 02 2c < 2(n1,)

Ejemplo 5.3.2 Retomando, del ejemplo anterior se tiene que la muestra

presenta los siguientes resultados:

16.2 23.3 35.4 15.3 25.2 16.1 27.4 12.5

34.6 45.7 24.2 10.0 9.3 14.2 35.2 12.3

Lo cual nos entrega el siguiente promedio x = 22.31. Entonces,



(22.31 21) 16
Zc = = 1.75 .
3

De esa forma, se se considera un nivel de confianza del 95%, el estadstico

con el cual debemos comparar es con Z0.975 = 1.96.

Y como 1.75 < 1.96, entonces no existe evidencia para rechazar H0 :

21.0(g/g), el nivel medio de metilmercurio no es superior a 21.0(g/g), con

5% de significacion.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 247

5.3.4 D
ocimas Bivariadas

Supongamos ahora que, no solo nos interesa saber que sucede con una poblacion,

si no que estamos interesados en comparar dos conjuntos de datos, para de-

terminar si corresponden a poblaciones diferentes.

Docima de hipotesis para la comparacion de medias con varianzas cono-

cidas. El estadstico adecuado es:


(X1 X2 ) 0
Zc = q 2 N (0, 1) .
1 22
n1
+ n2

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

1 2 = 0 1 2 6= 0 |Zc | > Z1 2

1 2 0 1 2 > 0 Zc > Z1

1 2 0 1 2 < 0 Zc < Z

Docima de hipotesis para la comparacion de medias con varianzas des-

conocidas y n1 30 y n2 30. El estadstico adecuado es:


(X1 X2 ) 0
Zc = q 2 N (0, 1) .
S1 S22
n1
+ n2

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

1 2 = 0 1 2 6= 0 |Zc | > Z1 2

1 2 0 1 2 > 0 Zc > Z1

1 2 0 1 2 < 0 Zc < Z

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 248

Docima de hipotesis para la comparacion de medias con varianzas des-

conocidas y n1 < 30 y n2 < 30, pero 12 y 22 son estadsticamente

iguales.

El estadstico adecuado es:

(X1 X2 ) 0
tc = q t(n1 +n2 2) ,
Sp n11 + n12

donde
(n1 1)S12 + (n2 1)S22
Sp2 = .
n1 + n2 2
Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

1 2 = 0 1 2 6= 0 |tc | > t(n1 +n2 2,1 2 )

1 2 0 1 2 > 0 tc > t(n1 +n2 2,1)

1 2 0 1 2 < 0 tc < t(n1 +n2 2,)

Docima de hipotesis para la comparacion de medias con varianzas des-

conocidas y n1 < 30 y n2 < 30 pero 12 y 22 son estadsticamente

distintas.

El estadstico adecuado es:

(X1 X2 ) 0
tc = q 2 t() ,
S1 S22
n1
+ n2

donde  2
S12 S2
n1
+ n22
=  2 2  2
2 .
S1 S2
n1 n2

n1 1
+ n2 1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 249

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

1 2 = 0 1 2 6= 0 |tc | > t(,1 2 )

1 2 0 1 2 > 0 tc > t(,1)

1 2 0 1 2 < 0 tc < t(,)

Docima de hipotesis para muestras pareadas.

El estadstico adecuado es:

d 0
tc = Sd
t(n1) .

n

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

d 0 d 6= 0 |tc | > t(n1,1 2 )

d 0 d > 0 tc > t(n1,1)

d 0 d < 0 tc < t(n1,)


Donde d = ni=1 (xi yi )/n y Sd2 = ni=1 (di d)/(n
P P
1), con n el

n
umero de observaciones conjuntas para la variable X antes y despues

del tratamiento.

Docima de hipotesis para la comparacion de proporciones. El estadsti-

co adecuado es:

(p1 p2 ) 0
Zc = q N (0, 1) .
p1 (1p1 ) p2 (1p2 )
n1
+ n2

Y las Hipotesis son:

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 250

H0 H1 Existe evidencia en contra de H0 si:

1 2 = 0 1 2 6= 0 |Zc | > Z1 2

1 2 0 1 2 > 0 Zc > Z1

1 2 0 1 2 < 0 Zc < Z

Docima de hipotesis para la comparacion de varianzas. El estadstico

adecuado es:
S12 1
Fc = 2
F(n1 1,n2 1) .
S2
Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:


12 12
22
= 22
6= Fc > 1 F(n1 1,n2 1,1 2 ) Fc < 1 F(n1 1,n2 1, 2 )
12 12
22
22
> Fc > 1 F(n1 1,n2 1,1)
12 12
22
22
< Fc < 1 F(n1 1,n2 1,)

Ejemplo 5.3.3 En un estudio sobre h


abitos de alimentaci
on en murcielagos,

se marcan 25 hembras y 11 machos y se les rastrea por radio. Una variable

de interes es la distancia que recorre volando en una pasada en busca de

alimento, se cree que las hembras hacen un recorrido mayor que los machos.

El experimento proporciono la siguiente informacion:

Hembras Machos

n1 = 25 n2 = 11

x1 = 205 metros x2 = 135 metros

s1 = 100 metros s2 = 95 metros

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 251

Como s21 /s22 = 1002 /952 = 1.11, se puede considerar que las varianzas

son estadsticamente iguales.

De esa froma se tiene que al realizar la prueba con un 5% de significaci


on:

La hipotesis intrnseca es, H0 : 1 = 2 versus H1 : 1 6= 2 , as:

(205 135) 0
tc = q = 1.96 ,
1 1
98.56 25 + 11
y al ser comparado con el valor del estadstico de tabla t =
(25+112,1 0.05
2 )

2.0322.

Se tiene que no hay evidencia para rechazar H0 , es decir, no existen difer-

encias significativas entre las distancias recorridas por los distintos grupos.

Ademas, el valor p > 0.0608, que es mayor que el nivel de significaci


on.

5.4 D
ocimas de Hip
otesis No Param
etricas

5.4.1 Prueba de Suma de Rangos de Wilcoxon

Es una alternativa a la prueba t para comparar medias cuando no se cumple

el supuesto de normalidad y cuando las muestras son independientes.

Definici
on 5.4.1 Sean X1 , X2 , . . . , Xn1 y Y1 , Y2 , . . . , Yn2 muestras aleato-

rias de dos poblaciones que difieren s


olo en su medida de tendencia central.

Ademas, las poblaciones tienen la misma forma y dispersi


on, pero no nece-

sariamente normales.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 252

El procedimiento para la prueba es primero, determinar el rango o posicion

de cada dato en la muestra combinada. Luego se calcula la suma de rangos

para la estadstica T de solo los datos de la primera muestra. Si n1 10 y

n2 10, la distribucion de T es aproximadamente normal. Y el estadstico

de prueba es:
T IE(T )
Zc = p N (0.1) ,
Var(T )
donde IE(T ) = n1 (n1 + n2 + 1)/2 y Var(T ) = n1 n2 (n1 + n2 + 1)/12.

Y las hipotesis son:

H1 Existe evidencia en contra de H0 si:

f1 (x) esta desplazada de f2 (y) |Zc | > Z1 2

f1 (x) esta desplazada hacia la derecha de f2 (y) Zc > Z1

f1 (x) esta desplazada hacia la derecha de f2 (y) Zc < Z

Ejemplo 5.4.1 Una compa


na de taxis quiere probar dos programas para

mejorar el uso del combustible por partye de sus choferes. A los conductores

del programa A, se les asigna un rendimiento objetivo y se les da un bono

cuando lo superan. A los conductores del programa B se les otorga una cuota

mensual maxima de gasolina, si esta se agota, el chofer deber


a pagar de su

bolsillo la gasolina extra. Todos los taxis son del mismo modelo y se les da

el mismo mantenimiento. Despues de 3 meses, se calcula el rendimiento de

cada chofer en millas recorridas por gal


on de combustible. Los datos basados

en dos muestras independientes son los siguientes:

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 253

A 22, 17 24, 25 26, 33 23, 47 25, 29 23, 99

23, 6 22, 56 23, 34 23, 73

B 22, 43 22, 04 21, 39 22, 95 20, 87 21, 65

22, 82 22, 3 23, 21

Se puede inferir de estos datos que los conductores de taxis del programa A

consumjen mas combustible que los del programa B?

De esa froma se tiene que al realizar la prueba con un 5% de significaci


on:

La hipotesis intrnseca es, H0 : fA (x) = fB (x) versus H1 : f1 (x) esta

desplazada a la derecha de f2 (x). Luego determinamos los rangos de las

observaciones:

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 254

A Rango B Rango

22, 17 5 20, 87 1

22, 56 8 21, 39 2

23, 34 12 21, 65 3

23, 47 13 22, 04 4

23, 60 14 22, 3 6

23, 73 15 22, 43 7

23, 99 16 22, 82 9

24, 25 17 22, 95 10

25, 29 18 23, 21 11

26, 33 19

Ahora se determina la suma de los rangos de la primera muestra T = 137,

como as tambien IE(T ) = 10(10 + 9 + 1)/2 = 100, Var(T ) = 10 9(10 + 9 +

1)/12 = 150, de esa forma:

137 100
Zc = = 3.02 ,
150
y al ser comparado con el valor del estadstico de tabla Z0.975 = 1.96.

Se tiene que hay evidencia para rechazar H0 , es decir, la distribuci


on del

grupo A esta desplazada hacia la derecha de de la del grupo B.

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 255

5.4.2 D
ocima de Bondad de Ajuste Chi-cuadrado

La idea es poder determinar si una variable con distribucion desconocida, al

formular una hipotesis respecto a una posible distribucion de esta es efectiva

o no.

De las observaciones de una muestra se estiman los valores de los paramet-

ros de la funcion de probabdilidad, o de densidad, que se han postulado en

la hipotesis.

Sean:

1. ni , es el n
umero de observaciones en la i-esima clase.

Pk
2. n = i=1 ni , es el n
umero total de observaciones en las k celdas.

3. pi = IP(X = xi ) o pi = IP(xi1 X xi ), es la probabilidad que

el valor de xi este en la i-esima celda, si la variable es discreta, o la

probabilidad que el valor de la variable este en el intervalo (xi1 , xi ) si

la variable es continua.

i ) = npi n
4. IE(n umerop esperado de observaciones en la i-esima celda.

Con estos elementos se define la estadstica 2c , como:


k i ))2
X (ni IE(n
2c = ,
i)
IE(n
i=1

si 2c > 2(ks1,1) se rechaza la hipotesis que la distribucion de la variable

es la especificada, porque la distancia entre el valor observado y el esperado

es demaciado grande. Donde s es el n


umero de parametros de la distribucion

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 256

que se conjetura que se estiman con las observaciones recolectadas en la

muestra.

Ejemplo 5.4.2 En un experimento sobre la duraci


on de baterias, en a
nos,

se desea comprobar si la distribuci


on de frecuencias de esta variable sigue

una distribucion normal. Para ello se toma una muestra de 40 baterias y

se registra su duracion hasta que estas dejan de funcionar, los resultados se

resumen en la siguiente tabla6 :


(ni npi )2
xi X ni pi n
pi pi )2
(ni n n
pi

2, 2 1, 45 2, 95 7 0, 2641 10, 5640 12, 7021 1, 2024

3, 2 2, 95 3, 45 15 0, 2603 10, 4120 21, 0497 2, 0217

3, 7 3, 45 3, 95 10 0, 2485 9, 9400 0, 0036 0, 0004

4, 45 3, 95 4, 95 8 0, 2074 8, 2960 0, 0876 0, 0106

40 3, 2350

As, 2c = 3.2350 y al ser comparado con el valor de tabla (421,10.05) =

3.841, se tiene que no existe evidencia en contra de suponer que la duraci


on

de las bateras tengan una distribuci


on norma.

5.4.3 Tablas de Contingencia

En este caso trabajaremos con variables nominales y ordinales (en general

variables categoricas). Este tipo de variables aparecen en todos los campos,

en particular en ciencias biologicas y ciencias sociales.


6
Note que, los valores de pi en la tabla, corresponden al calculo de probabilidad de una
N (3.4; 0.7232 )

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 257

Cuando las observaciones en una muestra pueden ser clasificadas de acuer-

do a sus valores con respecto a dos variables categoricas, se puede formar una

tabla de contingencia como una de las formas de estudiarlas conjuntamente.

De esa forma una tabla de este estilo, tiene la siguiente forma:

Y1 Y2 YJ T otal

X1 n11 n12 n1J n1+

X X2 n21 n22 n2J n2+


.. .. .. .. .. ..
. . . . . .

XI nI1 nI2 nIJ nI+

T otal n+1 n+2 n+J n++


donde, nij es el n
umero de elementos observados en la celda (i, j); ni+ es el

n
umero de elementos totales de la i-esima fila; n+j es el n
umero de elemen-

tos totales de la j-esima columna y n++ es el n


umero de elementos totales

observados, en una tabla de I J. Ademas:


J
X I
X I X
X J
ni+ = nij , n+j = nij , n++ = nij .
j=1 i=1 i=1 j=1

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 258

Ademas, podemos definir las proporciones observadas en la tabla como:

Y1 Y2 YJ T otal

X1 p11 p12 p1J p1+

X X2 p21 p22 p2J p2+


.. .. .. ... .. ..
. . . . .

XI pI1 pI2 pIJ pI+

T otal p+1 p+2 p+J 1


donde, pij = nij /n++ es la proporcion de elementos observados en la celda

(i, j); pi+ = ni+ /n++ es la proporcion de elementos totales de la i-esima fila;

p+j = n+j /n++ es la proporcion de elementos totales de la j-esima columna.

Ademas:
J
X I
X I X
X J
pi+ = pij , p+j = pij , pij = 1 .
j=1 i=1 i=1 j=1

5.4.4 D
ocima Chi-cuadrado de Independencia

La pregunta clave aca es si existe alg


un tipo de asociacion entre dos variables

de una tabla de contingencia. el concepto contrario o complementario de

asociacion es el de independencia estadstica.

Entonces, dos variables categoricas (nominales u ordinales) son estadsti-

camente independientes, si las distribuciones condicionales, en la poblacion,

de una de ellas son iguales para cada nivel de la otra.

Usualmente solo tenemos la informacion de la muestra y desconocemos,

en consecuencia, las distribuciones condicionales en la poblacion. Pero si las

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 259

variables no son independientes, sus distribuciones condicionales muestrales

discreparan en forma importane.

Pero hay suficiente evidencia en los datos para rechazar la independencia

de las variables?

La prueba Chi-cuadrado nos permite docimar la independencia de dos

variables categoricas.

H0 : Las variables son estadsticamente independientes.

H1 : Las variables son estadsticamente dependientes.

La estadstica de prueba es:

I X J
X (oij eij )2
2c = ,
i=1 j=1
eij

donde oij es la frecuencia observada para la celda (i, j) y eij = ni+ n+j /n++ es

la frecuencia esperada para la celda (i, j) bajo H0 . Si 2c > 2((I1)(J1),1) se

rechaza la hipotesis de que las variables son estadsticamente independientes.

Ejemplo 5.4.3 En un estudio sobre la posible influencia genetica de la mano

diestra de los padres (derecha o izquierda) sobre la mano diestra de sus hijos,

una muestra de 400 ni


nos fueron clasificados de acuerdo a su mano diestra

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 260

y a la de sus padres, obteniendose:

Mano diestra Mano diestra hijo

Padre-Madre Derecha Izquierda T otal

Derecha-Derecha 303 37 340

Derecha-Izquierda 29 9 38

Izquierda-Izquierda 16 6 22

T otal 348 52 400

Nota:

Podemos usar el docima Chi-cuadrado cuando se cumple lo siguiente:

1. Para tablas 2 2, las frecuencias observadas deben ser al menos iguales

a cinco para cada celda.

2. Para tablas mas grandes, la frecuencia observada debe ser al menos

igual a cinco en el 75% de las celdas y mayor a 1 en el resto.

Ejemplo 5.4.4 En una empresa se desea estudiar si existe una dependencia

entre el nivel de las remuneraciones y los a


nos de experiencia del person-

al de su planta de profesionales. Con este objetivo, se clasifican las remu-

neraciones, seg
un su monto, en tres categoras (I,II y III) y los a
nos de

experiencia, de acuerdo a su n
umero en cuatro categoras (A,B,C y D).

La informacion obtenida de acuerdo a una muestra aleatoria de 100 ob-

Carlos Bustos-Lopez
CAPITULO 5. INFERENCIA ESTADISTICA 261

servaciones es la siguiente:

Experiencia

A B C D T otal

I 4 11 9 14 38

Remuneracion II 12 9 8 4 33

III 10 6 7 6 39

T otal 26 26 24 24 100

Carlos Bustos-Lopez
Captulo 6

Elementos de Inferencia
Estadstica (Integrada)

6.1 Introducci
on

Supongamos una v.a. X en una poblacion que posee una cierta densidad

(cuanta) de probabilidad, la cual depende de una cierta cantidad descono-

cida que es llamada parametro, la cual puede ser una constante o una variable

aleatoria.

A veces representa una caracterstica de interes de la poblacion. En

rigor, X posee densidad fX (x|), siendo que , esto quiere decir que la

distribucion de X condicional a esta representada en la densidad fX (x|),

y que toma valores en el espacio de parametros .

Generalmente, X asume valores en IR o en partes de IR, ademas note que,

262
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 263

aunque puede ser una v.a., no es una cantidad observable.

Ejemplo 6.1.1 Sea X := tiempo de vida de un componente electr


onico. La

densidad de X esta dada por:

1 1x
fX (x|) = e , x>0,

donde > 0, es el tiempo de vida media del componente.

Algunas preguntas sobre :

1. Como estimar ?

Puntualmente.

Con una regin.

2. 1000 horas?

Test o contraste de hipotesis.

3. Otra pregunta mas fina.

Si fijamos un valor x0 , como estimar ().

1
() = IP(X > x0 ) = e x0 ,

que representa la probabilidad de que el componente tenga una du-

racion de mas de x0 horas.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 264

La primera aproximacion para resolver los problemas de la inferencia es

considerar observaciones, de manera de tener informacion acerca de .

Definici
on 6.1.1 Se define como una Muestra Aleatoria Simple de tama
no

= (X1 , . . . , Xn ), tal que Xi posee densidad fXi (xi |) i =


n, al vector aleatorio X

1, . . . , n, y ademas condicionalmente a las v.a.s X1 , . . . , Xn son indepen-

dientes.

Operacionalmente esto se traduce en que la densidad conjunta de las Xi s

viene dada por:


n
Y
n
x |) = f (x1 , . . . , xn |) =
f ( fXi (xi |) x X
, (IR ) ,
X
X
i=1

donde, := espacio muestral.

6.2 Funci
on de Verosimilitud

Sea X fX (x|) un modelo observacional, con . Sea X


= (X1 , . . . , Xn )
una muestra aleatoria proveniente de la poblacion . Se Define la funcion

de verosimilitud asociada a la muestra X


= (X1 , . . . , Xn ) por:

|)
L() := f (X , ,

En lo que sigue
x = (x1 , . . . , xn ) es el vector de observaciones que asume el

vector aleatorio X
= (X1 , . . . , Xn ).

1. Principio de Verosimilitud.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 265

La informacion acerca del parametro que proporciona la muestra X


=
(X1 , . . . , Xn ) esta contenida en la funcion de verosimilitud.

2. Estadstico.

Se dice estadstico a cualquier funcion definida sobre el espacio muestral

, y que asume valores en un espacio Y:

T : Y

x
T (
x)

Es usual referirse como estadstico a la verosimilitud: T (X


) = T (X1 , . . . , Xn ).

3. Estimados de .

Es un estadstico que asume valores en el espacio de parametros:

x x)
(

X ).
Es usual llamar estimador de a la v.a. (
x ) se dice estimacion de obtenida a partir de
La imagen particular (
la observacion particular
x.

6.3 Algunos Modelos.

1. Modelo Bernoulli: X|p Ber(p)

fX (x|p) = IP(X = x|p) = px (1 p)1x I{0,1} (x) ,

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 266

donde,
1 , xA

IA (x) =
0 , x

/A
n
Pn Pn Y
Xi n Xi
L(p) = p i=1 (1 p) i=1 I{0,1}n (X
) ,
i=1
Pn
se dice que T (X
) = i=1 Xi es un estadstico suficiente para p.

2. Modelo Poisson: X| P ()
Pn
Xi n
i=1 e
L(p) = Qn I{0,1,...}n (X
) ,
i=1 Xi !
Pn
se dice que T (X
) = i=1 Xi es un estadstico suficiente para .

3. Modelo Uniforme: X| U (0, )


n
1 1 Y
L() = I n
{0,} (X ) = I{0,} (Xi ) ,
n n i=1

donde,


1 , 0 < Xi < i = 1, . . . , n


o > Xi i = 1, . . . , n


I{0,}n (X
) =


o > max{Xi }



0 , e.o.c.

1
L() = I(max{Xi },) ,
n

) = max{Xi } es un estadstico suficiente para .


se dice que T (X

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 267

6.4 Problemas que debiera resolver:

1. Poisson ()
n
X
T (X
) = Xi ,
i=1
Pn
necesito saber la distribucion de T (X
) = i=1 Xi (por f.g.m., etc.).
Pn
) = i=1 Xi P (n).
T (X

2. Uniforme (0, )

) = max{Xi }
T (X

) = max{Xi }
necesito saber la distribucion de T (X


t n

n



, 0<t<
t
Z
1
IP(T t) = (IP(X t))n = dx =
0


1 , t

6.5 Perspectiva Cl
asica:

Dado un modelo observacional, X fX (x|) , , se selecciona una m.a.

= (X1 , . . . , Xn ) iid de la poblaci


X on X. La estadstica clasica basa la

inferencia acerca de en la funcion de verosimilitud.


n
Y
L() = fXi (Xi |) , .
i=1

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 268

6.6 Perspectiva Bayesiana:

Esta escuela se basa en el conocido Teorema de Bayes. Sea un espacio

muestral y {Ai } una particion de , es decir, ni=1 Ai = , con Ai Aj =


S

para i 6= j. Si se toma un evento B que tiene una cierta probabilidad, se

tienen que:

IP(B|Aj )IP(Aj )
IP(Aj |B) = Pn , j = 1, . . . , n .
i=1 IP(B|Ai )IP(Ai )

Ejemplo 6.6.1 Juan va al medico, y el medico sospecha que Juan tiene una

cierta enfermedad con probabilidad 0.7.

Como una forma de verificaci


on le sugiere que realice un cierto examen de

laboratorio. Este examen tiene una cierta fiabilidad, representada por la

siguiente distribucion de probabilidad:

IP(examen +|Juan est


a enfermo) = 0.9

IP(examen +|Juan est


a sano) = 0.2

Cual es la probabilidad de que Juan este enfermo, una vez que el examen

di
o positivo?

Definamos los siguientes eventos:

j : Juan tiene una enfermedad, con IP(j) = 0.7.

A : examen dio positivo.

Ac : examen dio negativo.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 269

Se tiene que: IP(A|j) = 0.9 y IP(A|j c ) = 0.2, luego:

IP(A) = IP(A|j)IP(j) + IP(A|j c )IP(j c ) ,

por probabilidades totales (denominador de Bayes).

IP(A) = 0.9 0.7 + 0.2 0.3 = 0.69 ,

probabilidad marginal de que el examen sea positivo. Pero se desea c


alcular:

IP(A|j)IP(j) 0.9 0.7


IP(j|A) = c c
= = 0.913 ,
IP(A|j)IP(j) + IP(A|j )IP(j ) 0.9 0.7 + 0.2 0.3

Juan tiene una alta probabilidad de estar enfermo.



IP(j) = 0.7 Proceso de observaci
on IP(j|A) = 0.913

Probb. a priori Probb. a posteriori

Por otro lado, Las mediciones son verificables, pero las estimaciones no.

Entonces, dado el comentario anterior, consideremos una analoga natural,

con nuestro modelo estadstico, en nuestro caso lo observable es la v.a. X,

cuya distribucion depende del parametro (no observable). Esto es,

X| fX (x|) y una vez considerada una muestra aleatoria X


se obtiene
una funcion de verosimilitud. (X es observable):
n
Y
L() = fXi (xi |) = f (
x |) , ,
X

i=1

densidad conjunta una vez observado.

El enfoque Bayesiano, supone que tambien es una v.a., la cual es no

observable, que esta regida por una ley de probabilidad con la densidad

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 270

(), es decir, () , , densidad a priori, as la regla de Bayes

realiza la actualizacion de la probabilidad a priori, utilizando la funcion de

verosimilitud.
x |)()
f (
X
x) =
(| , .
f (
x)
X

Note que,
P
|)()
f (x discreta

X

f (
x) = ,
X
R
f
X (x |)()d continua

que es la densidad marginal o densidad predictiva del vector aleatorio X
.

Ejemplo 6.6.2 Sea una v.a. que indica si Juan est


a o no enfermo. Sea

X una v.a. que indica el resultado del examen cuya distribuci


on condicional

a es: IP(X = 1| = 1) = 0.9 y IP(X = 1| = 0) = 0.2.

As,

IP(X = 1) = IP(X = 1| = 1)IP( = 1) + IP(X = 1| = 0)IP( = 0) = 0.69 ,

IP(X = 1| = 1)IP( = 1)
IP( = 1|X = 1) = = 0.913 .
IP(X = 1)

De la formula de Bayes, se obtiene:

x ) f (
(| x |)() , , (6.1)
X

es decir,

Definici
on 6.6.1 La densidad a posteriori es proporcional al producto de

la verosimilitud por la densidad a priori.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 271

La constante de proporcionalidad sera:


Z 1
1
f (
x) = x |)()d
f ( .

X

Ejemplo 6.6.3 Consideremos los siguientes modelos:

1. Modelo Binomial: X|p Bin(n, p)



n
fX (x|p) = IP(X = x|p) = px (1p)nx , 0 < p < 1, x = 0, 1, . . . , n.
x

L(p) px (1 p)nx , 0 < p < 1 ,

que es el n
ucleo de una densidad Beta(, ). Por lo tanto se puede

considerar la densidad Beta(, ) como priori para p, es decir:

(p) p1 (1 p)1 , 0<p<1,

luego la densidad a posteriori de p dado X = x es:

(p) L(p)(p) ,

px (1 p)nx p1 (1 p)1 ,
 

p+x1 (1 p)+nx1 .
| {z }
ucleo de una Beta( + x, + n x) .
n

Es decir, p|X = x Beta( + x, + n x), con lo cual se concluye

que:

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 272

Definici
on 6.6.2 La priori Beta es conjugada, es decir, es cerrada

bajo operacion Bayesiana, en relaci


on a la verosimilitud Binomial.

+x
IE(p|X = x) = ,
++n
     
+ n x
= + .
++n + + + n |{z}
n
| {z }
media a priori proporci
on muestral
( + x)( + n x)
Var (p|X = x) = .
( + + n)2 ( + + n + 1)

2. Modelo Poisson: X| P ()

ex
fX (x|) = IP(X = x|) = , > 0 , x = 0, 1, . . . .
x!

Pn
L() en i=1 Xi
, >0,

que es el n
ucleo de una densidad Gamma(, ). Por lo tanto se puede

considerar la densidad Gamma(, ) como priori para , es decir:

1 e
() = , >0,
()
() 1 e , >0,

luego la densidad a posteriori de dado X = x es:

() L()() ,
Pn
+ xi 1 (+n)

|
i=1
{z e }.
n
!
X
n
ucleo de una Gamma + xi , + n .
i=1

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 273

Pn
Es decir, |X x Gamma ( +
= i=1 xi , + n), con lo cual se con-

cluye que:

Definici
on 6.6.3 La priori Gamma es conjugada, en relaci
on a la

verosimilitud Poisson.

+ ni=1 xi
P
IE(|X
=x) = ,
+n
     Pn 
n i=1 xi
= + .
+n +n n
| {z } | {z }
media a priori media muestral
Pn
+ i=1 xi
Var (|X =
x ) = .
( + n)2

3. Modelo Exponencial: X| Exp()

fX (x|) = ex I(0,) (x) , >0, x>0.

Pn
L() n e i=1 xi
I(0,)n (
x) , >0,

donde,
n
Y
I(0,)n (
x) = I(0,) (xi ) ,
i=1

y el espacio muestral = (0, ) = {(x1 , . . . , xn ) ; xi > 0 i} = IRn+ .


n

As,

Pn
n i=1 xi
L()
| e {z } , >0.

n
ucleo de una Gamma.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 274

Considerar, Gamma (, ), es decir,

() 1 e , >0.
Pn
(|X x ) +n1 e(+
=
i=1 xi )
, >0.

 Pn 1
+n i=1 xi
IE(|X
=
x) = = + ,
+ ni=1 xi
P
+n +n
 1  1 !1
+n +n
= + Pn .
i=1 xi

Si consideramos el modelo exponencial con media ,

1 1x
f (x|) = e , x > 0 , = (0, ) .

 n
1 1 Pn
L() = e i=1 Xi I(0,)n (
x) ,

1 Pn
n e i=1 Xi
, >0.

Ejemplo 6.6.4 Considere:

1
Y GI(, ) Gamma(, )
Y
X G(, ) fX (x)
1
Y = fY (y)
X
vease Berger

4. Modelo Normal:

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 275

(a) Consideremos una observaci


on (muestra de tamao 1) X de una

distribucion normal de media y varianza 2 > 0 conocida.

La idea es encontrar una priori conjugada para la media . La

funcion de verosimilitud asociada a la observaci


on X viene dada

por:

1 1 2
L() = f (X|) = 1 e 22 (X) , IR ,
(2 2 ) 2

1 2
L() e 22 (X) ,
1 2 X
e| 22{z
+ 2

}.
n
ucleo de una Normal.

Suponga que, N (, 2 ), es decir, su densidad es:


1 1 2
() = 1 e 2 2 (X) , IR ,
(2 2 ) 2

1 2+
e 2 2 2 , IR ,

luego, la densidad a posterior de |X = x viene dada por:

(|x) L()() ,
1 2+ x 1 2+
e 22 2 e 2 2 2 , IR ,
1 2 2
( + 2 )+( 2 + 2 x)
e 2 , IR ,

donde,
1 1
2 = 2
= = precisi
on a priori.
varianza a priori
1 1
2 = 2
= = precisi
on muestral.
varianza observacional

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 276

Sean:

12 = | 2 {z
+ 2} .

suma de las precisiones.


2 2
1 = + x,
2 + 2 2 + 2
= w + (1 w)x .
| {z }
combinaci
on convexa entre la media a priori y la observacion x.

Con esta notacion,


12
  
2 2
2 +2 + 2 x
2 12
(|x) e 1
,
12 (2 +21 )
e 21
,
1
(1 )2
212
e ,

luego, |X = x N (1 , 12 ), es decir,

Definici
on 6.6.4

Precision a posteriori = precisi


on a priori + precisi
on de la observacion.

Consideremos ahora una muestra X


= (X1 , . . . , Xn ) proveniente
de una poblacion X N (, 2 ), donde 2 es conocida.

Podemos pensar que (en virtud del principio de suficiencia), obser-


Pn
var X
= (X 1 , . . . , Xn ) es equivalente a observar i=1 Xi y luego

N (, 2 /n). As la funci
X on de verosimilitud viene dada por:

n 2
L() e 22 (X) .

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 277

Igual al caso anterior de una observaci


on, por lo tanto: |X
=
x N (1 , 12 ), donde:

12 = 2 + n 2 ,
2 n 2
1 = + X.
12 12

(b)

X| 2 N (, 2 ) , desconocida , conocida .

2 GI(, )

2 |X x GI(, )
=

vease: J. Berger, Statical decision and Bayesian Analysis

1
(c) Alternativa, reparametrizar = 2
.

Funcion de verosimilitud:

1 12
Pn 2
i=1 (xi ) ,
L( 2 ) = f (
x | 2 ) = n e 2
(2 2 ) 2
Pn 2
1 i=1 (xi )
sea = 2
y S02 = n
, entonces,

nS02
n
x |) 2 e
L() = f ( 2

.

Se puede pensar en una priori Gamma para , es decir,


 2

n0 n0 S0
Gamma 2 , 2 .

Note que, 2n0 02 Gamma n20 , 12 2n0 , con IE() = 12 y



o
q
1 2
as el C.V.() = n0 .
Var() = n0 4 , adem
2 0

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 278

As,
2
n0 0
n0
1
() 2 e 2

,
2 nS 2
 
n0 0
n0
+n 1 2
+ 20
)
(|X e ,
2 2

n0 n n0 02 nS02
 
= |X x Gamma
= + , + ,
2 2 2 2
2 n0 02 + nS02 |X x 2n0 +n .

=

(d) Media y precision desconocidas.

n0 n0 02
 
Gamma , ,
2 2
1

| N 0 , (C0 ) ,

= (, ) = (|)() ,

(, ) N ormalGamma(0 , C0 , n0 , 02 ) .

Note que, la N G es conjugada con la normal.

on 6.6.5 La familia de priori = {()}, se dice con-


Definici

jugada en relacion a la verosimilitud L() si se tiene lo siguiente:

() = (|
x) .

6.7 Distribuci
on a priori no Informativa.

Consideremos el modelo observacional X| f (x|) , . En el enfoque

Bayesiano (), ( tiene una densidad a priori), puesto que es una

componente aleatoria no observable (no tengo una muestra para ) cuya

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 279

informacion a priori (antes de observar la v.a. X) esta representada en la

densidad (). La informacion ah reflejada (densidad) es subjetiva.

En principio, las v.a.s Xi s son condicionalmente independientes dado el

parametro (si yo conociera el parametro Xi s seran independientes).

Consideremos la siguiente notacion para independencia dado :

X1 |1
X2 |2
...
Xn |n ,

X1 , X2 , . . . , Xn
|i i = 1, . . . , n .

IP(X x |
= ) = IP(X1 = x1 |1 , X2 = x2 |2 , . . . , Xn = xn |n ) ,

= IP(X1 = x1 |1 )IP(X2 = x2 |2 ) IP(Xn = xn |n ) ,


Yn
= IP(Xi = xi |i ) .
i=1

La informacion (objetiva) que entrega la m.a. X


= (X1 , . . . , Xn ) acerca del
parametro esta representado en la llamada funcion de verosimilitud,
n
Y
L(
) = fXi (xi |i ) ,
i=1

donde,
= (1 , . . . , n ), y en el caso en que todos los Xi s posean la misma

densidad f (x|), se tendra,


n
Y
L() = f (xi |) = f (
x |) ,
i=1

que es la densidad conjunta.

Ahora, la regla de Bayes, permite el calculo de la densidad a posteriori

(|
x ) por:

x ) f (
(| x |)() ,

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 280

1
donde la constante de proporcionalidad es f (x) , donde,
Z
f (
x) = x |)()d ,
f (

que es la densidad predictiva de


x.

Critica Frecuentista:

() es subjetiva, podra ser demasiado arbitrario. Sera posible ser mas

objetivo en cuantificar la informacion?

Resp.: No, pero podramos representar la no-informacion.

La primera postulante a priori no-informativa es la llamada priori uni-

forme en , la cual es una densidad impropia, en general:

() Cte. , .

R
Note que
()d diverge, pero podra converger si fuese un intervalo

acotado de IR, por ejemplo: = (0, 1), en este caso,

() = 1 , (0, 1) ,
Z 1
()d = 1 .
0

Aunque () fuese impropia, lo interesante es que (|


x ) sea propia.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 281

2 2
= (X1 , . . . , Xn ) N (, ), conocida.
Ejemplo 6.7.1 Sea X

n 2
L() e 22 (X) , IR ,

() Cte. ,
n
2 (X) 2

) e
(|X ,
2

|X
= x, 2 /n) ,
x N (

IE(|X
=
x) = x
,
2
Var(|X
=
x) = .
n

Ademas de ser una densidad propia, (|X


=
x ) depende s
olo de elementos

muestrales, x, 2 /n, lo que implica que la inferencia basada sobre esta poste-

riori, solamente tomara en cuenta la informaci


on entregada por la muestra,

que esta representada en el estadstico X.

Sin embargo, sera conveniente que una priori no-informativa cumpliera la

siguiente condicion de invarianza.

Si = (), donde es una funcion uno a uno entonces si () fuese de

una cierta forma, lo natural es que () tambien tuviese la misma forma.

Note lo siguiente, que mediante el teorema del cambio de variable, se

tendra que:


() = (()) ,



si () Cte, () no es necesariamente constante a menos que Cte.
Para la construccion de una priori no-informativa para , Jeffreys (1966)

se baso en la cantidad de informacion de Fisher.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 282

Definici
on 6.7.1 Sea X una observaci
on con densidad f (x|). Se define

la cantidad de informaci
on de Fisher (esperada) de contenida en la obser-

vacion X por:
" 2 #
ln f (X|)
I() = IEX| ,

Z  2
ln f (X|)
= f (x|)dx .

Existe una definicion equivalente a la anterior que viene dada en la siguiente

proposicion:

Proposici
on 6.7.1 Bajo ciertas condiciones de regularidad (b.c.c.r.):
h i
ln f (X|)
1. IEX|
= 0.
h 2 i
2. IEX| lnf (X|)
2 = I().


R
Nota: Las c.c.r. se refieren al intercambio de
con d, lo que no es posible

cuando los lmites de la integral dependen de , es decir, cuando el espacio

de observaciones depende de , por ejemplo: X U (0, ).

Demostraci
on 6.7.1 1.
  Z
ln f ln f
IEX| = f dx

Z
1 f
= f dx
f
Z

= f dx = 0

| {z }
1

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 283

2.
ln f 1 f
= ,
f
2
 2
ln f 1 f 1 2f
= 2 + ,
2 f f 2
2
1 2f

ln f
= + ,
f 2
pero,
1 2f 1 2f
  Z
IEX| = f dx ,
f 2 f 2
Z 2
f
= dx ,
2
2
Z
= f dx = 0 ,
2
| {z }
1

Definici
on 6.7.2 Se define la informaci
on de Fisher de contenida en un

vector X
= (X1 , . . . , Xn ) por:
 2
ln f (X |)

In () = IEX | ,
2
y se prueba que:
n
X
In () = Ii () iid
= nI() ,
i=1
donde Ii () es la cantidad de informaci
on de Fisher de contenida en la

observacion Xi .
" 2 #
ln f (X|)
I() = IEX| ,

 2 
ln f (X|)
= IEX|
c.r.
2
,
| {z }
curvatura media de ln f (x|).

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 284

Nota: Pero esto no es valido para la distribuci


on uniforme.

Definici
on 6.7.3 Si
= (1 , . . . , r ) se define la matriz de informaci
on de

Fisher de contenida en una observaci


on X con densidad f (X|
) por:


I (
) = Iij () ,
ln f (X|
) ln f (X|)
  
Iij (
) = IEX| ,
i j
 2
ln f (X|)

= IEX|
c.r. , i, j = 1, 2, . . . , r .
i j

Ejemplo 6.7.2 Sea X


= (X1 , . . . , Xn ) una m.a. Bernoulli(),

f (X|) = X (1 )1X I{0,1} (X) ,

ln f (X|) = X ln() + (1 X) ln(1 ) + ln(Cte.) ,


ln f (X|) X 1X X
= = ,
1 (1 )
" 2 #
X
I() = IEX| ,
(1 )
1
= IE[(X )2 ] ,
((1 ))2
VarX| (X)
= ,
((1 ))2
1
= , (0, 1) .
(1 )
n 1
In () = = n) .
(1 ) Var(X

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 285

on N (, 2 ), con 2 conocida.
Ejemplo 6.7.3 Sea X con una distribuci

1 1 2
f (X|) = 1 e 22 (X) ,
(2 2 ) 2

1
ln f (X|) = ln(Cte.) (X )2 ,
2 2
ln f (X|) X
= 2
,
"
2 #
ln f (X|) 1
IEX| = 4
IE[(X )2 ] ,

1
= ,
2
1
I() = ,
2
n 1
In () = = n) .
2 Var(X

Alcanza la cota de Cramer-Rao.

Definici
on 6.7.4 Se define la distribuci
on a priori no-informativa de Jef-

freys para , como:


1
() [I()] 2 .

Ejemplo 6.7.4 1. Bernoulli()


  12
1 1 1
() = 2 (1 ) 2 .
(1 )
 
1 1
Beta , .
2 2

2. N (, 2 )
  12
1
() 2 = 1 = Cte. .

U (, +) .

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 286

6.8 Modelo de localizaci


on.

Se dice que X posee modelo de localizacion si su densidad viene dada por:

f (x|) = g(x ) ,

Con parametro de localizacion.

Ejemplo 6.8.1 Sea X N (, 2 ) con 2 conocida.

1 1
f (x|) = 1 exp{ (X )2 } , x IR ,
(2 2 ) 2 2 2

definiendo,
1 1 2
g(z) = 1 exp{ z },
(2 2 ) 2 2 2
entonces, f (x|) = g(x ).

Note que la densidad de Z = X es precisamente g(z), es decir, Z

N (0, 2 ), la cual no depende de . Es posible mostrar que la priori de Jeffreys

on de es la forma Cte.
para el parametro de localizaci
X
(Si se hace Z =
se eliminan los tipos de medici
on y todo queda como

puntajes).

Se tiene que:

ln f (x|) = ln g(x|) ,
ln f (x|) g 0 (x ) g
= , con g 0 = ,
g(x )
" 2 #
g 0 (x )
I() = IEX| ,
g(x )

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 287

pero si U = X , cuya distribucion no depende de , entonces:


" 2 #
g 0 (U )
I() = IEU ,
g(U )

que es constante en .

Luego la priori no-informativa para es de la forma () Cte., .

Note que el caso X N (, 2 ), 2 conocida, se habra obtenido este

resultado.

En el caso Multivariado:

posee modelo de localizaci


X on de parametro
, si:

x |
f ( x
) = g( ) .

Np (
Ejemplo 6.8.2 X ,
),
1
f (
x ,
) = p 1 exp{( )0 1 (
x x
)} ,
(2) 2 |1 | 2
 1
se calcula I(
) = Iij ( ) I(
) y luego ( ) 2 Cte.

6.9 Modelo de Escala.

Definici
on 6.9.1 X posee modelo de escala de par
ametro si su densidad

viene dada por:


1 x
f (x|) = g ,

se dice parametro de escala.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 288

Ejemplo 6.9.1 X Exp() entonces,

f (x|) = x , x>0,
1  x 
= g ,

1
donde =
(media).

g(z) = ez .

X
Note que la distribucion de la v.a. U =
no depende de .

Es de interes calcular la priori de Jeffreys para .


  
1 x
ln f (x|) = ln g ,

x
= ln() + ln g ,

1 g 0 x  x 

ln f (x|)
= +  2 ,
g x
!
1  x  g0 x 

= 1+ ,
g x
 g
con g 0 x = .
 !2
0 x
1 xg
= I() = IEX| 1 +  ,
2 g x
" 2 #
1 g 0 (u)
= IEU 1+U ,
2 g (u)
| {z }
Constante.

luego la priori de jeffreys para es:

1 1
() (I()) 2 .

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 289

1 1

Ejemplo 6.9.2 Sea X Exp
, y ()
, cuando el modelo es de

localizacion-escala, X posee densidad:


 
1 x
f (x|, ) = g ,

la priori de Jeffreys resulta ser:
1
(, ) = () (|) .

Vease el caso X N (, 2 ),

() Cte.
1
(|) .

6.9.1 Suficiencia

idea General: Dado una muestra aleatoria X


= (X1 , . . . , Xn ) proveniente de
la poblacion en cuestion con densidad, fX (x|), que entrega informacion sobre

el parametro , el concepto de estadstico suficiente tiene que ver con el hecho

de encontrar una funcion T = T (X1 , . . . , Xn ) que resuma la informacion sobre

el parametro .

Definici
on 6.9.2 Clasica.

Sea X
= (X1 , . . . , Xn ) una muestra aleatoria proveniente de la densidad
fX (x|). Se dice que el estadstico T = T (
x ) es suficiente para , si la

distribucion condicional de X dado T = t es constante en relaci


on a (habit-

ualmente se escribe no depende de , lo que se refiere a una no dependencia

funcional y no probabiulstica).

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 290

x |t, ) = f (
Tecnicamente, T es suficiente para si f ( x |t).

Ejemplo 6.9.3 Sea X


= (X1 , . . . , Xn ) una m.a. Ber().

n n
IP(X x |) = sumi=1 xi (1 )nsumi=1 xi I{0,1}n (
= x)

Pn
Sea T = i=1 Xi Bin(n, ) ,

n
IP(T = t|) = t (1 )nt I{0,1,...,n}n (t) .
t

Calculemos la distribucion condicional de X x |t, ).


dado T = t, es decir f (

IP(X1 = x1 , . . . , Xn = xn , T = t|)
IP(X1 = x1 , . . . , Xn = xn |T = t, ) = ,
IP(T = t|)


Pn
0 , si t 6= xi



i=1







t (1 )nt 1

x |t, ) =
f ( = , si t = ni=1 xi
P


n t n



(1 )nt







t t
| {z }
Constante con respecto a

Pn
= T = i=1 Xi es un estadstico suficiente para .

El calculo efectuado en el ejemplo anterior no siempre es ameno. Existe un

resultdo debido a Neyman.

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 291

Teorema 6.9.1 Teorema de Factorizaci


on.

T es un estadstico suficiente para si y s


olo si:

x |) = g(, T (
f ( x )) h(
x) .

Es decir, si la verosimilitud es factorizable en una funci


on que depende del

estadstico y del parametro por una funci


on h que depende de s
olo de la

observacion.

Ejemplo 6.9.4 1. X
= (X1 , . . . , Xn ) m.a. f (x|)
n
Y
x |) =
f ( f (xi |) |{z}
1
i=1
| {z }
x ) h(
g(, x) .

= T = T (X1 , . . . , Xn ) = (X1 , . . . , Xn ) es un estadstico suficiente

para .

Ordenando la muestra,

X(1) = min(Xi ) < < X(n) = max(Xi ) ,

n
Y n
Y
x |) =
f ( f (xi |) = f (x(i) |) ,
i=1 i=1

= T = (X(1) , . . . , X(n) ) es un estadstico suficiente para .

i = 1n Xi es un estadstico suficiente
P
2. En el ejemplo anterior, T =

para .

Carlos Bustos-Lopez
CAPITULO 6. ELEMENTOS DE INFERENCIA ESTADISTICA
(INTEGRADA) 292

Una propiedad interesante de los estadsticos es que si T es suficiente para

= (T ) suficiente para , donde es 1-1.

Definici
on 6.9.3 Se dice que T es suficiente minimal para si T es funci
on

de cualquier estadstico suficiente para .

6.10 Suficiencia y familia exponencial

Definici
on 6.10.1 La familia de distribuciones con funci
on de densidad

f (x|
), donde
r-dimencional pertenece a la familia exponencial a r-par
amet-

ros si:

Pr
Uj (x)j ( )+b( )
) = a(x) e|
f (x| {z ,
j=1
|{z} }
h(x) g(
, U1 (x), . . . , Ur (x)).

Por el teorema de factorizacion habiendo observado X (una observacion),

el vector (U1 (x), . . . , Ur (x)) es un estadstico suficiente para el parametro

= (1 , . . . , r ).

Al considerar una m.a. X


= (X1 , . . . , Xn ) proveniente de la misma den-
sidad,
n r n
!
Y X X
x |
f ( ) = a(xi ) exp{ Uj (xi ) j (
) + nb(
)} ,
i=1 j=1 i=1

= (U1 (
x ), . . . , Ur ( = (1 , . . . , r ).1
x )) es un estadstico suficiente para
1
Nota: Dos familias de distribuciones que no pertenecen a la familia exponencial son
la uniforme (que asume estadsticos suficientes va factorizacion) y la Student-t.

Carlos Bustos-Lopez
Captulo 7

Muestreo

El interes de tomar una muestra esta basicamente centrado que, en muchas

ocaciones el tama
no de la poblacion en estudio es muy grande o desconocido,

como para tomar los datos de cada elemento que la componen, ademas los

costos involucrados son muy altos y se requiere de mucho tiempo para llevar

a cabo este proceso. De esa forma es recomendable tomar una muestra de un

tama
no menor a la poblacion, pero que es representativa de ella, desde donde

se extraeran, mediante un proceso de estimacion, los valores estimados de

los correspondientes parametros de interes.

Principalmente se distinguen dos tipos de muestreos, el probabilstico y el

no probabilstico, de ellos solo nos centraremos en el primero. Una muestra

probabilstica tiene como caracterstica basica que, cualquier elemento de la

poblacion tiene la misma probabilidad (6= 0) conocida de ser incluido en la

muestra.

Existen varios metodos de muestreos probabilsticos, siendo los mas famosos:

el Muestreo Aleatorio Simple (m.a.s.), el Muestreo Aleatorio Estratificado y

293
CAPITULO 7. MUESTREO 294

el Muestreo Sistematico.

Para este estudio las variables de interes son las proporciones de algunas

caractersticas presentes en la poblacion. De esa forma podemos considerar

que el n
umero x de elementos de la poblacion que presentan o no la carac-

terstica sigue una distribucion Binomial de parametros n y px , es decir:

x|N = n, px Bin(n, px ) n 2 , 0 px 1 ,

donde N corresponde al n
umero de elementos (tama
no) de la poblacion y px

la proporcion de elementos que presentan la caracterstica.

Entonces debemos determinar los valores de estos parametros en una

muestra de tama
no n para realizar la inferencia sobre la poblacion. Es as co-

mo los estimadores muestrales para la media y la varianza son:


Pn  
i=1 xi px (1 px ) N n
px = , V ar(px ) = .
n n N 1

Pero para poblaciones grandes (N  40) los estimadores siguen asintotica-

mente una distribucion Normal.

As, si queremos asegurar que el valor de nuestra estimacion este con-

tenido en un intervalo de (1 )100% de confianza, realizamos la siguiente

construccion:

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 295

Como se puede apreciar del grafico anterior, si quisieramos garantizar que en

aproximadamente 997 de 1000 muestras, el parametro poblacional estara den-

tro de 3 desviaciones estandar del estimador.

Si px es la proporcion estimada, Px es el parametro y SE(px ) el error

estandar de px , podemos decir:

px 3SE(px ) Px px + 3SE(px ) .

Entonces el problema de estimacion involucra que debemos escoger un

tama
no muestral que mantenga esta condicion.

El dise
no muestral considerado para este estudio contempla varias etapas.

7.1 Muestreo

Por que una Muestra?

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 296

1. En muchas ocaciones el tama


no de la Poblacion es muy grande o de-

sconocido como para tomar los datos de cada individuo que la compo-

nen. (A ).

2. Tiene menor costo que un censo.

3. Se requiere menos tiempo.

4. Para no destruir o alterar la poblaci


on.

Como extraer una Muestra?

El procedimiento es a traves de las T


ecnicas de Muestreo. Las mas

comunes son:

7.1.1 Muestreo Aleatorio Simple. (m.a.s.)

Se fundamenta en que todos los elementos de una poblacion tienen la misma

posibilidad de ser seleccionados para constituir la muestra para el estudio, es

decir, si se desea seleccionar una muestra de tama


no n desde una poblacion

de tama
no N , la probabilidad de que un elemento de la poblacion sea selec-

cionado para la muestra (A) es:

1
IP(A) = .
N

7.1.2 Muestreo Estratificado.

Se fundamenta en que en la poblacion existen elementos con diferencias evi-

dentes, que pueden ser agrupados en Estratos, que deben ser representados

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 297

proporcionalmente en la muestra. Asi, si se tiene una poblacion de tama


no

N , en la cual se pueden distinguir k estratos, de tal forma que:


k
X
Ni = N ,
i=1

donde Ni es la cantidad total de elementos del i-esimo estrato, tambien se

puede determinar la proporcion que representan cada estrato en la poblacion

como pi = Ni /N , que cumple:


k
X
pi = 1 ,
i=1

de esa forma si se desea extraer una muestra de tama


no n desde la poblacion,

los elementos en la muestra deben ser distribuidos como:


k
Ni X
ni = n = pi n , con ni = n ,
N i=1

de esa forma la muestra debe contener ni elementos del i-esimo estrato.

7.1.3 Muestreo Sistem


atico.

Se fundamenta en que, el espacio muestral es listado en forma arbitraria, lo

cual produce bloques o grupos que son artificiales, por lo cual es necesario

quitar el efecto lista. La idea es seleccionar los n elementos de la muestra,

descartando cada k de ellos. El procedimiento consiste en:

umero aleatorio m tal que 1 m N , como el punto


1. Seleccionar un n

de partida para el muestreo, de tal forma que el elemento en la posicion

m, constituye el primer elemento de la muestra.

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 298

2. Determinar el valor del salto sistematico k como el entero k = N/n.

3. Seleccionar los otros (n 1) elementos de la muestra cada k de ellos.

De esa forma, la muestra queda constituida por los siguientes elementos:

m, m + k, m + 2k, . . . , m + (n 1)k .

7.1.4 Tama
no Muestral

Un punto interesante en todos los estudios es, cuantas observaciones debo

tomar?, es decir, de que tama


no debe ser la muestra?

Consideremos lo siguiente:

Z1
IC() = X + Z1
X
2
n 2
n
| {z } | {z }

Es decir, se puede considerar un error para la estimacion del verdadero

valor de la media poblacional, y de esa forma se puede despejar el valor de

n.

Asi, una forma rapida de determinar el tama


no muestral para realizar

inferencia sobre la media de una poblacion, con un nivel de confianza de

(1 ) 100%, donde la variacion poblacional es y se pretende cometer

un error de a lo mas un , se puede emplear la siguiente formula:


Z1 2 2
 
n= .

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 299

Analogamente, se puede obtener la siguiente formula:


p !2
Z1 2 p0 (1 p0 )
n= .

Que permite determinar el tama


no muestral para realizar inferencia sobre la

proporcion de una poblacion, con un nivel de confianza de (1 ) 100%,

y se pretende cometer un error de a lo mas un .

Ejemplo 7.1.1 Cuantas observaciones son necesarias si la desviaci


on

estandar de la duracion de los aullidos es = 0.25 y se quiere realizar

una estimacion de la duraci


on media, con un 95% de confianza y se

desea cometer un error de a lo m


as 5 segundos?
 2
1.96 0.25
n= = 37.5 38 .
0.08

Si consideramos ahora un nivel de confianza del 99%, se tiene que:


 2
2.57 0.25
n= = 64.5 65 .
0.08

7.1.5 Plan de Muestreo

1. Primera etapa: Bajo Muestreo Aleatorio Simple y normalidad asintotica,

se tiene que el intervalo de confianza a (1 )100% para px esta dado

por:

px Z1/2 SE(px ) , (7.1)

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 300

donde Z1/2 corresponde al percentil (1 /2)100 de la distribicion

normal o tambien denominado coeficiente de confiabilidad y SE(px ) es


p
la desviacion estandar del estimador (SE(px ) = V ar(px )).

As el error muestral para la estimacion debe cumplir que:

Z1/2 SE(px ) , (7.2)

donde corresponde a la significacion de la estimacion (100%).

Reemplazando el valor de SE(px ) por su valor estimado,


  1/2
px (1 px ) N n
SE(px ) = ,
n N 1

el cual incorpora el factor de correccion por finitud para tama


nos de

poblacion conocidas, se tiene en (2) que:


  1/2
px (1 px ) N n
Z1/2 ,
n N 1

luego,
2
Z1/2 px (1 px )N
n 2
, (7.3)
(N 1)2 + Z1/2 px (1 px )

de esa forma se determina el mnimo n (tama


no muestral) que garantiza

que el intervalo contenga al estimador con (1 )100% de confianza.

2. Segunda etapa: En general, y este caso no es la escepcion, los com-

ponentes de una poblacion tienen caractersticas que as como los difer-

encian entre ellos tambien otras los reunen en grupos homogeneos en

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 301

si mismos, por ejemplo, si nos interesara conocer el porcentaje de per-

sonas de Europa que prefieren el color verde por sobre los otros colores,

es claro que nuestra poblacion correspondera a todos los miembros de

la comunidad europea, pero esta comunidad esta compuesta por varios

paises, de culturas diferentes y que las opiniones y gustos de ellos seran

distintas de pas en pas, a


un mas dentro de cada pas se distinguen

dos grupos, hombres y mujeres, que aunque tengan la misma cultura y

crianza tendran preferencias y comportamientos distintos.

Por lo anterior, siempre es importante distinguir estas caractersticas

que estratifican la poblacion en estudio, ya que nos permite tener

una mejor representatividad de estos grupos, es decir, que la presencia

de ciertos grupos de la poblacion en la muestra, sea proporcional a su

presencia en la poblacion. Este procedimiento se denomina Muestreo

Estratificado.

Las principales ventajas de la estratificacion por sobre el m.a.s., son:

Dadas ciertas condiciones de regularidad, la precision puede ser

incrementada por sobre el m.a.s.

Es posible obtener estimaciones para cada estrato (grupo) con una

precision especfica.

De la misma forma que en la primera etapa, se puede determinar el

tama
no de la muestra por estratos, es decir, si hemos determinado

que la muestra total debe ser de tama


no n, podemos ahora determinar

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 302

cuantos de estos elementos seran seleccionados de un estrato u otro.

Sea entonces nh el tama


no muestral del estrato h, con h = 1, . . . , L,

donde L es el total de estratos y Nh el numero de componentes total


PL
del estrato h en la poblacion, entonces se tiene que n = h=1 nh y

N = Lh=1 Nh , luego:
P

Nh ph (1 ph )n
nh = PL , (7.4)
h=1 Nh ph (1 ph )
donde ph corresponde a la proporcion de los elementos del estrato h en

la poblacion.

Ademas (4) es una muestra autoponderada obtenida a traves de un

muestreo estratificado, pero con el afan de lograr las mejores estima-

ciones posibles, se ha determinado (4) mediante una afijacion optima,

de tal forma que las varianzas de los estimadores sea la menor posi-

ble, es decir, hemos considerado el costo de tomar un elemento dentro

de un estrato, se incorpora el efecto que pueden tener las diferencias

significativas de las varianzas de los estratos.

3. Tercera etapa: Como se menciono anteriormente la poblacion puede

estar compuesta de estratos y estos a su vez por subestratos, de esa for-

ma si consideramos nuevamente un muestreo estratificado para obtener

una muestra autoponderada con afijacion optima dentro de cada estra-

to se puede proceder como:

Sean i = 1, . . . , I, con I n
umero de subestratos dentro del estrato h =

1, . . . , L, Nhi el n
umero de elementos de la poblacion que corresponden

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 303

al subestrato i en el estrato h, phi la proporcion de elementos que

pertenecen al subestrato i del estrato h en la poblacion y nhi el n


umero

de elementos a muestrear del subestrato i en el estrato h de la poblacion,

entonces podemos definir:

Nhi phi (1 phi )nh


nhi = PI . (7.5)
i=1 N hi p hi (1 p hi )

4. Cuarta etapa: Luego de determinados los tama


nos muestrales en los

subestratos, estratos y de la poblacion muestral, procedemos a selec-

cionar los elementos. Existen varias tecnicas de seleccion, por ejemplo

repeticion del m.a.s., o a traves de un muestreo sistematico de salto

sitematico k = N/n.

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 304

Bibliografia

1. Agresti, Alan. Statistical methods for the social sciences. 3a ed. Upper

Saddle River, N.J. Prentice Hall, 1997.

2. Azorin Poch, Francisco. Metodos y aplicaciones del muestreo. Madrid:

Alianza, 1986.

3. Azzalini, Adelchi. Statistical inference: based on the likelihood. Lon-

don: Chapman & Hall, 1996.

4. Box, George E. P. Statistics for experimenters: design, innovation, and

discovery. 2a ed. Hoboken, N.J. Wiley-Interscience, 2005.

5. Box, George E. P. Bayesian inference in statistical analysis. New York:

Wiley, 1992.

6. Camacho Rosales, Juan. Estadistica con SPSS (version 9) para Win-

dows. Mexico: Alfaomega/Ra-Ma, 2001.

7. Casella, George. Statistical inference. 2a ed. Australia: Thomson

Learning, 2002.

8. Cochran, William Gemmell, 1909- . Sampling techniques. 3rd ed. New

York: Wiley, 1977.

9. Cramer, Harald, 1893- . Metodos matematicos de estadistica. Madrid:

Aguilar, 1960.

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 305

10. David, H. A. (Herbert Aron), 1925- . Order statistics. 2nd ed. New

York: John Wiley, 1980.

11. Degroot, Morris H, 1931- . Probability and statistics. 3rd ed. Boston:

Addison-Wesley, 1988.

12. Del Pino M., Guido. Apuntes de inferencia estadistica: version prelim-

inar. Santiago, Chile: Pontificia Universidad Catolica de Chile, 1982.

13. Del Pino M., Guido. Analisis estadistico: interpretando problemas de

la vida cotidiana. Santiago, Chile: Ministerio de Educacion, 2003.

14. Fisher, Ronald Aylmer, 1890-1962. Statistical methods, experimental

design, and scientific inference. Oxford: Oxford University Press, 1990.

15. Freeman, Harold Adolph. Introduction to statistical inference. Read-

ings, Mass: Addison-Wesley, 1963.

16. Freund, John E., 1921- . Mathematical statistics. 2nd ed. Englewood

Cliffs, N. J.: Prentice-Hall, 1971.

17. Gibbons, Jean Dickinson, 1938- . Nonparametric statistical inference.

New York: McGraw-Hill, 1971.

18. Henkel, Ramon E., 1931- . Tests of significance. Beverly Hills, Calif.:

Sage, 1976.

19. Kendall, Maurice G., 1907- . Kendalls advanced theory of statistics.

London: Edward Arnold, 1994-.

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 306

20. Kendall, Maurice G., 1907- . The advanced theory of statistics. 3rd

ed. New York: Hafner Press, 1976.

21. Larson, Harold J., 1934- . Introduction to probability theory and sta-

tistical inference. 2nd ed. New York: Wiley, 1974.

22. Lehmann, Erich Leo, 1917- . Testing statistical hypotheses. 2nd ed.

New York: Wiley, 1986.

23. Lehmann, Erich Leo, 1917- . Elements of large sample theory. New

York: Springer, 1999.

24. McCollough, Celeste. Analisis estadistico en las ciencias sociales y

educacion. Mexico: McGraw-Hill, 1976.

25. McCulloch, Charles E. Generalized, linear, and mixed models. New

York: John Wiley & Sons, 2001.

26. Mendenhall, William. Probabilidad y estadistica para ingenieria y cien-

cias. 4a ed. Mexico: Pearson Educacion, 1997.

27. Meyer, Paul L. Introductory probability and statistical applications.

2nd ed. Reading, Mass: Addison-Wesley, 1970.

28. Montgomery, Douglas C. Probabilidad y estadistica aplicadas a la in-

genieria. Mexico, D. F.: McGraw-Hill, 1996.

29. Montgomery, Douglas C. Diseo y analisis de experimentos. 2a ed.

Mexico: Limusa Wiley, 2003.

Carlos Bustos-Lopez
CAPITULO 7. MUESTREO 307

30. Rao, C. Radhakrishna (Calyampudi Radhakrishna), 1920- . Linear

models: least squares and alternatives. New York: Springer, 1995.

31. Ross, Sheldon M. Introduction to probability and statistics for engi-

neers and scientists. 2nd ed. Amsterdam: Harcourt Academic Press,

2000.

32. Spiegel, Murray R. Estadistica. 3a ed. Mexico: McGraw-Hill, 2002.

33. Walpole, Ronald E. Probabilidad y estadistica para ingenieros. 6a ed.

Mexico: Prentice Hall, 1999.

34. Walpole, Ronald E. Introduction to statistics. 2nd ed. New York:

Macmillan, 1974.

Carlos Bustos-Lopez

You might also like