You are on page 1of 104

Tema 1.

Bioestadstica
La Estadstica es una ciencia que en muchas ocasiones es vista con cierto recelo. Para
muchos es una ciencia basada en las medias que esconde las verdaderas diferencias
individuales, de ah se deduce el dicho popular: La Estadstica es la ciencia que
explica como si t u te comes dos pollos y yo ninguno, nos hemos comido uno cada
uno por termino medio o la frase de Bernard Shaw: Si un hombre tiene la cabeza
en un horno y los pies en una nevera, su cuerpo esta a una temperatura media
ideal. Para otros es la ciencia mediante la que se manipula la opinion con gracos
y porcentajes. Sin embargo, vivimos en la era de la Estadstica y todo es medido
e interpretado en terminos estadsticos, por lo que actualmente es necesario para
cualquier ciudadano tener un conocimiento basico sobre los metodos estadsticos.
1. Concepto de Bioestadstica
Bioestadstica. Denicion. Se dene la Bioestadstica, estadstica biologica o
biometra, como la aplicacion de los metodo estadsticos a la solucion de problemas
biologicos.
Por tanto, es necesario dar la denicion de Estadstica para la que existen nu-
merosas deniciones.
La Estadstica actual es el resultado de la union de dos disciplinas que evolu-
1
2 Bioestadstica
cionaron por separado hasta converger en el siglo XIX. La primera es el calculo de
probabilidades, que nace en el siglo XVII como teora matematica de los juegos de
azar, debido al interes de las clases acomodadas de la epoca por este tipo de juegos y
la segunda es la Estadstica, o ciencia del Estado, del latn Status, que estudia la des-
cripcion de datos y cuyas origenes son mas antiguos dado que, desde la antig uedad
y principalmente por razones scales, los Estados han recogido informacion sobre la
poblacion y la riqueza que exista en sus dominios, ejemplos de ello son los censos
romanos o los inventarios de Carlomagno de sus posesiones.
Muchas veces se suele decir que la Estadstica se ocupa de la descripcion de los
datos, es decir, de la clasicacion y resumen de los datos poniendo de maniesto
sus caractersticas fundamentales. Esto constituye el origen, en parte, de lo que
hoy se entiende por Estadstica. En la Estadstica moderna la descripcion de los
datos es, en la mayora de los casos, la primera fase de un proceso mucho mas
complejo con el que se pretende obtener conclusiones a partir de la informacion
imcompleta suministrada por los datos, lo que es una caracterstica intrnseca de las
ciencias experimentales. El estudio de los datos proporciona una idea del modelo
al que responden, lo que conduce a la obtencion de leyes que deben ser validadas
posteriormente.
En la actualidad la Estadstica se aplica practicamente en todas las ciencias,
un ejemplo es la biologa donde la mayora de los fenomenos estan afectados por
muchos factores, algunos de los cuales no son controlables. La estadstica entonces
se hace necesaria para estudiar el efecto que sobre estos fenomenos variables tienen
otras variables o factores, un ejemplo es el analisis de la varianza que veremos
posteriormente en otro tema.
Estadstica. Denicion. La Estadstica es el conjunto de metodos necesarios
para recoger, clasicar, representar y resumir datos, as como para hacer inferencias
(obtener conclusiones) a partir de ellos.
Bioestadstica 3
La Estadstica puede dividirse en dos grandes temas:
La Estadstica Descriptiva que tiene por n la recogida, clasicacion, repre-
sentaci on y resumen de los datos.
La Inferencia Estadstica que son los metodos estadsticos que permiten deducir
(inferir) como se distribuye la poblacion en estudio o las relaciones entre variables
a partir de la informacion que proporciona una muestra.
2. Variables estadsticas
Variable estadstica. Denicion. (En biologa se suele utilizar tambien la pa-
labra caracter). Caracterstica o propiedad con respecto a la cual los elementos
(individuos u objetos) de una poblacion dieren entre ellos de alg un modo vericable.
Algunos ejemplos son el peso, la distribucion de la renta, el rendimiento de un
determinado tipo de maquinas, etc.
Los datos que proporcionan las Ciencias de la Salud son cualitativamente distin-
tos que los que proporcinan otras ciencias experimentales como la Fsica, la Qumica,
etc. En estas ultimas, la repeticion de los experimentos en condiciones identicas dan
lugar a identicos resultados, salvo error del experimentador o el error inherente al
aparato de medida; por ejemplo, el tiempo que tarda en caer un objeto desde una
determinada altura es siempre la misma. Sin embargo, en las Ciencias de la Salud,
ademas de la variabilidad debida al experimentador o a la imprecision del aparato
de medida, a naden la variabilidad biologica de los individuos experimentales, ya que
dos seres vivos nunca son iguales, ni un mismo individuo es igual a s mismo en
diferentes etapas de su vida.
Tipos de variables
Variables cualitativas. Cuando solo puede clasicarse en categoras no numericas.
4 Bioestadstica
Ejemplos: el color de los ojos, sexo, profesion.
Variables cuantitativas. Cuando toman valores numericos. Habitualmente se
distinguen dos tipos de variables cuantitativas:
- Discretas: cuando solo pueden tomar un conjunto nito o numerable de valo-
res.
- Continuas: cuando pueden tomar cualquier valor en un intervalo.
3. Poblacion y muestra
En la mayora de los casos se esta interesado en estudiar alguna caracterstica de
una poblacion. Lo ideal sera estudiar la poblacion entera, pero normalmente esto
no es posible debido a que el estudio podra llevar demasiado tiempo y dinero. En
algunos casos el estudio puede implicar incluso la destruccion del elemento, por lo
que no podramos realizar un analisis de toda la poblacion (nos quedaramos sin
poblacion). En estas ocasiones la forma de actuar es seleccionando un conjunto de
elementos representativos de la poblacion y estudiando en ellos la caracterstica de
interes. La idea es que si este conjunto de elementos esta bien escogido, es decir si
representa bien a la poblacion, la informacion que obtendremos sera similar a la que
obtendramos con toda la poblacion con mayor rapidez y menor coste. As se tienen
las siguientes deniciones:
Poblacion. Conjunto homogeneo de elementos en los que se estudia una caracerstica.
Muestra. Conjunto de elementos representativo de dicha poblacion.
Tama no de la muestra o tama no muestral. N umero de elementos de la muestra.
Normalmente se denota por n.
Para seleccionar una muestra representativa de la poblacion se debe tener en
Bioestadstica 5
cuenta cualquier informacion respecto a las diferencias entre los elementos de la
poblacion. As, existen distintos tipos de muestreo como el muestreo estraticado,
por conglomerados y el muestreo sistematico. Cuando no se dispone de informacion
y los elementos de la poblacion son indistinguibles y homogeneos a priori respecto
a la variable en estudio, la muestra se selecciona mediante un muestreo aleatorio
simple donde:
- Cada elemento de la poblacion tiene la misma probabilidad de ser elegido.
- Las observaciones se realizan con reemplazamiento, de manera que la poblacion
es identica en todas las extracciones.
Nosotros supondremos siempre que la muestra proviene de un muestreo aleatorio
simple.
1
Teora de conjuntos. Conceptos bsicos

Si M es un conjunto se llama P(M) al conjunto de todos los subconjuntos de M.

Unin de conjuntos. Si A y B son elementos de P(M) se llama unin de A y B al conjunto que
se designa por A B y definido por:

A B ={ x; x M y (x A o x B) }

Interseccin de conjuntos. Si A y B son elementos de P(M) se llama interseccin de A y B al
conjunto que se designa por A B y definido por:

A B ={ x; x M y (x A y x B) }

Propiedades de e . Para todo A, B y C pertenecientes a P(M), se verifican las siguientes
propiedades:

Conmutativa: A B =B A y A B =B A
Asociativa: (A B) C =A (B C) y (A B) C =A (B C)
Idempotencia: A A =A y A A =A
Absorcin: A (A B) =A y A (A B) =A
Elemento neutro: A = A =A y A M =M A =A
Es decir, es el elemento neutro de y M es el elemento neutro de .

Complementario de un conjunto de P(M). Si A P(M) se llama complementario de A
respecto a M y se representa por A o A
c
al conjunto:

A ={ x; x M, x A}

Propiedades del complementario de un conjunto. Para todo A P(M) se verifica

a) A A =M y A A =
b) =M y M =
c) A B =A B y A B =A B LEYES DE MORGAN

Propiedades distributivas

a) A (B C) =(A B) (A C)
b) A (B C) =(A B) (A C)

El conjunto M se llama conjunto universal.


2
Probabilidad. Conceptos bsicos

Definiciones

Se llama prueba o experiencia E a todo procedimiento o mtodo que permite seleccionar
un elemento de un conjunto M.

El conjunto M se llama conjunto de resultados posibles o conjunto universal, y se dice
que M es un espacio muestral de E. Cada elemento de M es un resultado de E. Cada
elemento de P(M) es un suceso de E.

Se dice que se ha verificado el suceso H al realizar una prueba si el resultado de esa prueba
es un elemento de H.

Operaciones con sucesos. Si E es una prueba, M su conjunto de resultados y A y B son
sucesos de P(M), se define:

Unin de dos sucesos A y B es el suceso que se verifica cuando al realizar una prueba se
verifica A o se verifica B. El suceso unin de A y B est definido por el conjunto A B de
P(M) y se designa tambin por A B.

Interseccin de dos sucesos A y B es el suceso que se verifica cuando al realizar una
prueba se verifica A y tambin B. El suceso interseccin de A y B est definido por el
conjunto A B de P(M) y se designa tambin por A B.

Suceso contrario de un suceso A es el que se verifica cuando al realizar una prueba no se
verifica A. Se designa por A o A
c
y est definido por el conjunto complementario de A en
P(M).

Suceso imposible es el correspondiente al conjunto .

Suceso cierto o seguro es el correspondiente al conjunto M.

Dos sucesos A y B son incompatibles si no se pueden verificar en una misma prueba, es
decir, s A B =.

De las definiciones anteriores resulta que las operaciones con sucesos cumplen las
mismas propiedades que las operaciones con conjuntos.

Frecuencia de un suceso. Sea E una prueba y M el conjunto de resultados de E y se realiza n
veces la prueba E. Si el suceso A de E se ha verificado m veces, entonces:

- Al nmero m se le llama frecuencia absoluta de A.
- Al nmero m/n se le llama frecuencia relativa de A.
3
Probabilidad. Introduccin

La definicin de probabilidad dada por la siguiente igualdad:


aunque es suficiente para bastantes aplicaciones en tcnica, economa, ciencias actuariales,
sociales, fsicas..., no permite la construccin y el desarrollo de una teora matemtica de la
probabilidad. Esta imposibilidad nace de la dificultad que implica la exigencia previa de qu se
entiende por casos igualmente posibles.
De la misma forma, la nocin de probabilidad, fundamentada en la estabilidad de
las frecuencias relativas obtenidas experimentalmente, aunque til, tampoco permite la
construccin de una teora. La estabilidad de las frecuencias relativas establece que si en
determinados fenmenos se realiza una experiencia, n
1
veces
,
n
2
veces, ..., n
k
veces..., y un
suceso H se ha verificado respectivamente n
1
veces, n
2
veces, ..., n
k
veces ..., entonces las
frecuencias relativas de H, es decir, los nmeros n
1
/ n
1
, n
2
/ n
2 ,
..., n
k
/ n
k ,
..., tienden a ser
iguales entre s cuando n
k
es muy grande. Este nmero, al cual tienden las frecuencias cuando
aumenta el nmero de experiencias, puede llamarse probabilidad de H. Esta definicin tampoco
ofrece grandes posibilidades matemticas.
El objeto de una teora de la probabilidad consiste en construir modelos matemticos
adecuados para la obtencin de las leyes de los fenmenos de observacin que permitan su
mejor conocimiento y por tanto su control. En particular, una teora de la probabilidad permitir
una cuantificacin del grado de posibilidad sobre la realizacin o no de un hecho o suceso, lo
cual facilitar las tareas futuras a efectos de prediccin y decisin.

Definicin axiomtica de probabilidad.

Se llama probabilidad a toda aplicacin p definida en P(M) y con valores en [0,1] tal
que
a) p(M) =1
b) Si A
1
, , A
n
, son sucesos incompatibles,

n
1 i
n
1 i
)
i
p(A )
i
A p(
=

=
=

Propiedades de una probabilidad

Si p es una probabilidad se verifica que:

1 p() =0
2 H P(M) p(H) =1 p(H)
3 Si H, K P(M) y H K p(H) p(K)
4 H, K P(M) p(H K) =p(H) +p(K) p(H K)

La propiedad 4 se puede generalizar, por induccin, a n sucesos.
posibles casos de n
H a favorables casos de n
p(H) =
4
Probabilidad condicionada.


Definicin.
Se llama suceso B condicionado a A y se escribe B|A al suceso que se verifica cuando
habindose verificado A tambin se verifica B.

Definicin.
Si p es una probabilidad y si B es un suceso de P(M), tal que p(B) 0, se llama
probabilidad condicionada a B a la aplicacin de P(M) en [0,1] que designaremos por p( |B) y
que se define para todo X P(M) de la forma siguiente,

Consecuencia: Si A y B son dos sucesos de P(M) y p(B) 0, entonces:

P(A B) =p(B) p(A|B)
o
P(A B) =p(A) p(B|A)

En general: )
1 n
A ...
1
A |
n
p(A ... )
2
A
1
A |
3
)p(A
1
A |
2
)p(A
1
p(A )
n
A ,...,
1
p(A

=

Definicin.
Dos sucesos A y B son independientes si p(A) =p(A|B).

Es decir, cuando la ocurrencia de uno de ellos no nos dice nada nuevo sobre la ocurrencia del
otro.

Consecuencia: Si A y B son independientes se verifica que p(A B) =p(A) p(B).

En general, si ).
n
p(A ... )
2
)p(A
1
p(A )
n
A ,...,
1
p(A entonces ntes independie son
n
A ,...,
1
A =

Teorema de la probabilidad total.

Sean A
1,
A
2
,...,A
n
un sistema completo de sucesos, por tanto verifican que
a) M )
n
A ...
1
p(A =
b) Son incompatibles dos a dos, es decir, A
i
A
j
= , i j

Si p(A
i
) 0, i =1, 2, ..., n y B es un suceso cualquiera, entonces se verifica que


p(B)
B) p(X
B) | p(X

=

=
=
n
1 i
)
i
A | )p(B
i
p(A p(B)
5
Teorema de Bayes.

Si A
1,
A
2
,...,A
n
es un sistema completo de sucesos con p(A
i
) 0, i =1, 2, ..., n y B es
un suceso cualquiera, entonces


Pruebas repetidas.

En general el problema de las pruebas repetidas se enuncia as:
Si P es una prueba y A un suceso de P, se considera la prueba P
n
formada por la
repeticin de n veces de P (en las mismas condiciones, es decir, el resultado de una prueba no
est afectado por el resultado de las otras pruebas ni afecta al resultado de las pruebas
siguientes, es decir, debe haber independencia). Designando por p la probabilidad de que se
verifique A en una prueba P, cul es la probabilidad de que se verifique k veces el suceso A en
una prueba P
n
?; o equivalentemente, cul es la probabilidad de que se verifique k veces el
suceso A en esas n pruebas P?.

El resultado de cada prueba P
n
se puede expresar o representar por una sucesin de n
letras A y A. Los resultados en los que se verifica k veces el suceso A y n-k veces el suceso A
se representarn por una sucesin de k letras A y n- k letras A en cualquier orden.

El nmero de ordenaciones de k letras A y n-k letras A es PR
n
k,n-k
o C
n,k
. La
probabilidad del suceso representado por cada ordenacin (al ser independientes los
resultados de cada prueba) se expresa por:

P(AA ....AA ....A) =p(A) ....p(A)p(A)....p(A) =[p(A)]
k
[p(A)]
n-k
=
k) n-k) k) n-k)

=p
k
(1 p)
n-k

Como hay C
n,k
sucesos de ese tipo y hay incompatibilidad entre dos cualesquiera de
ellos, la probabilidad de que se verifique k veces el suceso A en n pruebas P es:






Si se designa por X el nmero de veces que se ha verificado A en n pruebas, la tabla
siguiente da las probabilidades de que el suceso A se verifique 0,1,..., n veces, respectivamente.
k n
p) (1
k
p
k)! (n k!
n!
k n
p) (1
k
p
n
k
k n
p) (1
k
p
k n,
C

=
=
n
1 i
)
i
A | )p(B
i
p(A
)
k
A | )p(B
k
p(A
B) |
k
p(A
6


X 0 1 i N

Prob(X)


C
n,0
q
n


C
n,1
p q
n-1

..........

C
n,i
p
i
q
n-i

..........

C
n,n
p
n


(Donde q =1 p)

Esta tabla define una aplicacin entre el conjunto 0,1,...,n y el conjunto de nmeros
C
n,i
p
i
q
n-i
. Se dice por esto que X es una variable aleatoria cuya ley de probabilidad sigue
una ley binomial de parmetros n y p, ya que conocidos estos valores se puede conocer la
probabilidad de todos los posibles valores de X. Se representa por B(n, p).




7

Ejercicios de probabilidad (2013/2014)
1. Se conoce la siguiente informacin relativa a los sucesos A, B y C: P(AB) =0,92, P(AB) =0,48,
P(A/B) =0,80, P(BC) =0,76 y P(B/C) =0,60.
a) Calcular las probabilidades de los sucesos: A, B, C, AB y A/B
b) Son incompatibles B y C?
c) Son independientes B y C?


2. Uno de los sntomas de una determinada enfermedad es la repentina subida de la glucosa en la sangre.
La probabilidad de padecer la enfermedad es 0.1. Teniendo la enfermedad, la probabilidad de que se d
una subida repentina de la glucosa es 0.95. La probabilidad de que se d dicho sntoma sin padecer la
enfermedad es 0.03. Hallar:
a) Probabilidad de padecer la enfermedad y que no se d el sntoma.
b) Probabilidad de que una persona asintomtica, est enferma.

3. Un laboratorio proyecta lanzar un medicamento, del cual, ya existen en el mercado dos marcas A y B.
Se sabe que a la hora de comprar este medicamento el 30% elige la marca A, el 50% la marca B y el
10% compran A y B. Para decidir si compensa lanzar la nueva marca, el laboratorio necesita conocer:
a) Probabilidad de que no se compren ni A ni B.
b) Probabilidad de que slo compren una de las dos marcas.

4. En una regin el nmero de machos de una determinada raza de conejos es el doble que el nmero de
hembras. Hay una epidemia, el 6% de los machos y el 11% de las hembras estn enfermos. Se elige al
azar un individuo, calcular:
a) Cul es la probabilidad de que est enfermo?.
b) Cul es la probabilidad de que sea macho sabiendo que est enfermo?.

5. Se lanza una moneda 6 veces:
a) Cul es la probabilidad de obtener 4 caras?.
b) Cul es la probabilidad de obtener menos de 4 caras?

6. Se lanzan 8 veces dos dados. Cul es la probabilidad de obtener dos veces la suma 7?

7. Una prueba para la deteccin de un tipo de cncer, detecta el 67% de los casos con cncer diagnosticado
y un 4% entre los que no tienen cncer. Se estima que en la poblacin examinada, el 30% presenta este
tipo de cncer. Calcular
a) La probabilidad de que un individuo tenga cncer y la prueba de negativa.
b) La probabilidad de que un individuo no padezca este tipo de cncer supuesto que la prueba ha
dado positiva.

8. En toda la Unin Europea los huevos se clasifican en cuatro categoras, dependiendo del peso que tienen
en: S (pequeos), M (medianos), L (grandes) y XL (supergrandes). En una central se reciben huevos de
dos granjas. El 30% de los huevos proceden de la granja A y el 70% restante de la granja B. Se sabe
tambin que:
En la granja A, el 44% de los huevos son de tamao M y el 15% de tamao S.
En la granja B, el 33% de los huevos son de tamao M.
Se elige un huevo al azar en la central, resultando ser de tamao M. De qu granja es ms probable que
proceda?

9. Para estudiar como afectan tres enfermedades A, B y C a madres e hijos de una determinada raza de
animales, en la tabla siguiente se recoge la informacin relativa a un gran grupo de animales, en la que
solo hay madres e hijos, todos enfermos por una de estas tres enfermedades.

8
A
2
B
2
C
2

A
1
0,45 0,48 0,07
B
1
0,05 0,70 0,25
C
1
0,01 0,50 0,49

Se ha denotado a las generaciones por subndices, de tal forma que por ejemplo, A
1
representa el suceso
una madre tiene la enfermedad A y A
2
representa el suceso un hijo tiene la enfermedad A, de forma
anloga para las enfermedades B y C. La tabla anterior da probabilidades condicionadas, por ejemplo,
0,45 =p(A
2
|A
1
) denota la probabilidad de que un hijo tenga la enfermedad A, supuesto que la madre
tena tambin la enfermedad A. Se sabe que en la generacin de las madres el 10 % tienen la enfermedad
A, el 40 % la enfermedad B y el 50 % la enfermedad C.
Cul es la probabilidad de que un hijo tenga la enfermedad A?

10. Una poblacin est formada por tres grupos tnico: A (30 %), B (10 %) y C (60 %). Los porcentajes del
carcter ojos claros son, respectivamente, 20 %, 40 % y 5 %. Calcular
a) Probabilidad de que un individuo elegido al azar tenga ojos claros.
b) Probabilidad de que un individuo de ojos oscuros sea del grupo A.


Tema 3. Estadstica Descriptiva
El objetivo general de la Estadstica Descriptiva es hacer una descripcion de los
datos lo mas sencilla posible, de forma que facilite la mayor informacion de los
mismos. Esta descripcion se hara mediante representaciones gracas y mediante
representaciones numericas.
En general, interesar a conocer si:
- Hay mucha dispesion en los datos.
- Hay simetra.
- Hay puntos atpicos.
- Existe relacion entre los valores de dos conjuntos de datos.
Aunque dependiendo del problema se podran a nadir los criterios que se consi-
deren oportunos.
1
2 Estadstica Descriptiva
I. Estadstica Descriptiva de una variable
1. Tablas y Gracos
1.1. Tablas
En general, la forma mas sencilla de representar un conjunto de datos es mediante
una tabla de frecuencias, en la que se resume la cantidad de veces que cada
valor se repite en el mismo. Esta representaci on es valida tanto para datos de tipo
cualitativo como para datos de tipo cuantitativo. As, se dene:
La frecuencia absoluta de un valor x
i
, dentro de un conjunto de datos, como
el n umero de veces que dicho valor se repite en el mismo. Se suele representar por
n
i
.
La frecuencia relativa de un valor x
i
como el valor de la frecuencia absoluta
dividido por el n umero total de datos. Se suele representar por f
i
, siendo f
i
= n
i
/n,
donde n es el n umero total de datos. Tambien es habitual expresar la frecuencia
relativa en porcentaje, multiplicando por 100 la frecuencia relativa.
En general se suelen utilizar mas las tablas de frecuencias relativas que las tablas
de frecuencias absolutas por ser las primeras expresiones adimensionalizadas.
Veamos algunos ejemplos:
Ejemplo 1: Consideramos una muestra de 150 elementos clasicados en tres
categoras: A (50 elementos), B (20 elementos) y C (80 elementos).
Ejemplo 2: La clasicacion de 200 familias por el n umero de hijos es:
N

de hijos: 0 1 2 3 4 5 6 7 8
N

de familias: 22 26 40 50 28 20 8 4 2
Estadstica Descriptiva 3
Tabla 1:
Categoras n
i
f
i
%
A 50 50/150 50/150 100
B 20 20/150 20/150 100
C 80 80/150 80/150 100
Total n = 150 1 100
Tabla 2:
x
i
n
i
f
i
%
0 22 0,11 11
1 26 0,13 13
2 40 0,2 20
3 50 0,25 25
4 28 0,14 14
5 20 0,1 10
6 8 0,04 4
7 4 0,02 2
8 2 0,01 1
Total n = 200 1 100
En las tablas 1 y 2 se resumen los datos de los ejemplos 1 y 2 respectivamente.
A veces, para resumir la informacion cuando se estudian variables continuas,
o variables discretas con una muestra de gran tama no y donde la variable puede
tomar muchos valores diferentes, se presentan los datos agrupados en intervalos o
clases A
1
, . . . , A
k
. En algunos casos incluso solo se dispone de los datos agrupados
de esta manera. En este caso se utilizaran los valores x
1
, . . . , x
k
, representantes de
las clases A
1
, . . . , A
k
(generalmente, los puntos medios de los intervalos) a los que
se les denomina marcas de clase. Por supuesto, para el calculo de medidas como
la media, la varianza, etc, denidas mas adelante, es preferible utilizar los datos
4 Estadstica Descriptiva
originales a usar los datos agrupados, puesto que los datos originales contienen mas
informacion que los datos agrupados.
Ejemplo 3: A continuacion se presenta una muestra de estaturas de 24 personas:
1,62 1,75 1,60 1,41 1,93 2,00 1,71 1,68 1,60 1,67 1,85 1,83 1,57 1,54
1,62 1,93 1,84 2,01 1,70 1,85 2,05 1,66 1,90 1,65
Tabla 3:
Con los datos originales Con los datos agrupados
x
i
n
i
f
i
% Clases x
i
n
i
f
i
%
1,41 1 1/24 1/24 100 [1,40; 1,55) 1,475 2 2/24 2/24 100
1,54 1 1/24 1/24 100 [1,55; 1,70) 1,625 9 9/24 9/24 100
1,57 1 1/24 1/24 100 [1,70; 1,85) 1,775 5 5/24 5/24 100
1,60 2 2/24 2/24 100 [1,85; 2,00) 1,925 5 5/24 5/24 100
1,62 2 2/24 2/24 100 [2,00; 2,15) 2,075 3 3/24 3/24 100
1,65 1 1/24 1/24 100 Total 24 1 100
1,66 1 1/24 1/24 100
1,67 1 1/24 1/24 100
1,68 1 1/24 1/24 100
1,70 1 1/24 1/24 100
1,71 1 1/24 1/24 100
1,75 1 1/24 1/24 100
1,83 1 1/24 1/24 100
1,84 1 1/24 1/24 100
1,85 2 2/24 2/24 100
1,90 1 1/24 1/24 100
1,93 2 2/24 2/24 100
2,00 1 1/24 1/24 100
2,01 1 1/24 1/24 100
2,05 1 1/24 1/24 100
Total 24 1 100
En la tabla 3 se muestra, para los datos del ejemplo 3, un resumen con los datos
originales y con los datos agrupados en clases. Donde las marcas de clase x
i
, con
Estadstica Descriptiva 5
i = 1, . . . , n, para los datos agrupados, son los puntos medios de los intervalos.
1.2. Gracos
Las tablas de frecuencias se suelen representar gracamente. Su objetivo es dar una
idea visual sencilla de los resultados obtenidos. Existen distintos tipos de representa-
ciones gracas; las mas frecuentes suelen ser el diagrama de rectangulos, el diagrama
de sectores y los histogramas. el diagrama de rectangulos y el diagrama de sectores
se utilizan para variables cualitativas y para variables cuantitativas discretas. Los
histogramas se usan para variables cuantitativas continuas.
En el diagrama de rectangulos se representa la frecuencia, absoluta o relativa,
en el eje vertical de un sistema de coordenadas cartesianas y las categoras en el eje
horizontal. En el diagrama de sectores se divide un crculo en tantas porciones
como clases existan, de modo que a cada clase le corresponde un arco de crculo
proporcional a su frecuencia absoluta o relativa.
En la gura 1, se presentan el diagrama de rectangulos y el diagrama de sectores,
para los datos del ejemplo 1.
Figura 1:
6 Estadstica Descriptiva
El histograma es una de las gracas mas utilizadas. Se construye igual que
el diagramas de rectangulos, pero agrupando los datos en intervalos o clases que
suelen tomarse de la misma longitud. As, se obtiene una sucesion de rectangulos
de alturas la frecuencia observada en cada clase y de base el intervalo de valores que
determina la clase. Para la eleccion del n umero de clases, puesto que su aspecto
depende de este n umero, un criterio muy utilizado es empezar con

n clases, donde
n es el n umero de datos, para, posteriormente, modicar este n umero de manera
que el histograma resulte lo mas informativo posible.
Figura 2:
En la gura 2, se muestra el histograma para los datos del ejemplo 3.
Cuando se estudia una variable cualitativa solo podemos hacer representa-
ciones gracas. Sin embargo, cuando se estudia una variable cuantitativa, la in-
formacion aportada por las representaciones gracas debe ser completada mediante
un conjunto de medidas que resumen aspectos muy importantes de la muestra.
Estadstica Descriptiva 7
2. Medidas de centralizacion
La nalidad de las medidas de centralizaci on es dar una idea del valor central,
alrededor del cual se reparten los valores de la muestra. Las mas habituales son:
La media muestral, (x), se dene como:
x =
1
n
n

i=1
x
i
donde x
1
, . . . , x
n
representan los n valores de la variable estadstica obtenidos en la
muestra, pudiendo haber valores repetidos.
Cuando los datos estan agrupados se utilizan las siguientes expresiones:
x =
1
n
k

i=1
n
i
x
i
=
k

i=1
f
i
x
i
donde se supone que el valor x
i
ha aparecido repetido n
i
veces.
Ejemplo: Consideramos los datos del ejemplo 3.
Teniendo en cuenta los datos originales y los calculos de la tabla 4, se tiene que
la media muestral es
x =
1
n
n

i=1
x
i
=
1
n
k

i=1
n
i
x
i
=
41, 97
24
= 1, 749 1, 75
y con los datos agurpados:
x =
1
n
k

i=1
n
i
x
i
=
42, 3
24
= 1, 762
La mediana muestral, (M), es el valor que deja a izquierda y derecha el mismo
n umero de observaciones, una vez ordenadas en orden creciente. Es decir, el valor
que ocupa la posicion central de las observaciones ordenadas en orden creciente.
Si el n umero de observaciones es impar, la mediana es el valor central. Para su
calculo, dada una muestra x
1
, . . . , x
n
, en primer lugar se ordenan las observaciones
8 Estadstica Descriptiva
de menor a mayor. Los datos ordenados se designan por x
(1)
, . . . , x
(n)
. La mediana
sera:
M = x
(
n + 1
2
)
Tabla 4:
Con los datos originales Con los datos agrupados
x
i
n
i
x
i
n
i
x
2
i
n
i
Clases x
i
n
i
x
i
n
i
x
2
i
n
i
1,41 1 1,41 1,988 [1,40; 1,55) 1,475 2 2,950 4,351
1,54 1 1,54 2,372 [1,55; 1,70) 1,625 9 14,625 23,766
1,57 1 1,57 2,465 [1,70; 1,85) 1,775 5 8,875 15,753
1,60 2 3,20 5,120 [1,85; 2,00) 1,925 5 9,625 18,528
1,62 2 3,24 5,249 [2,00; 2,15) 2,075 3 6,225 12,917
1,65 1 1,65 2,722 Total 24 42,300 75,315
1,66 1 1,66 2,756
1,67 1 1,67 2,789
1,68 1 1,68 2,822
1,70 1 1,70 2,890
1,71 1 1,71 2,924
1,75 1 1,75 3,062
1,83 1 1,83 3,349
1,84 1 1,84 3,386
1,85 2 3,70 6,845
1,90 1 1,90 3,610
1,93 2 3,86 7,450
2,00 1 2,00 4,000
2,01 1 2,01 4,040
2,05 1 2,05 4,202
Total 24 41,97 74,041
Si el n umero de observaciones es par habra dos elementos centrales, la mediana
es el punto medio de ambos valores centrales. Para su calculo, dada una muestra
x
1
, . . . , x
n
, se ordenan las observaciones de menor a mayor, x
(1)
, . . . , x
(n)
. La mediana
Estadstica Descriptiva 9
sera:
M =
x
(
n
2
)
+x
(
n
2
+1
)
2
Si los datos estan agrupados podremos obtener la clase mediana, es decir, la clase
en la que se encuentra la mediana, pero no cuanto vale exactamente la mediana. Una
solucion es obtenerla por interpolacion, pero esto equivale a suponer que los datos se
reparten de manera uniforme dentro de cada clase, lo que, en realidad, no sabemos
y posiblemente no sea cierto.
Ejemplo 4: Consideramos el siguiente conjunto de datos:
7 2 8 7 6 2 5 7 4
Se ordenan las observaciones en orden creciente:
2 2 4 5 6 7 7 7 8
Como el n umero de observaciones es impar, la mediana es el valor central, es
decir, el correspondiene a la posicion
n + 1
2
=
9 + 1
2
= 5, por tanto, M = x
(5)
= 6.
Ejemplo 5: Consideramos el siguiente conjunto de datos:
10 2 4 12 4 9 3 5 10 8 4 10
Se ordenan las observaciones en orden creciente:
2 3 4 4 4 5 8 9 10 10 10 12
Como el n umero de observaciones es par, la mediana sera el punto medio de
las dos observaciones centrales, es decir, las observaciones correspondientes a las
posiciones
n
2
=
12
2
= 6 y
n
2
+ 1 = 7:
M =
x
(6)
+x
(7)
2
=
5 + 8
2
= 6, 5
Con los datos originales del ejemplo 3, la mediana sera el punto medio de las
10 Estadstica Descriptiva
observaciones correspondientes a las posiciones
n
2
=
24
2
= 12 y
n
2
+ 1 = 13:
M =
x
(12)
+x
(13)
2
=
1, 70 + 1, 71
2
= 1, 705
Con los datos agrupados, se tiene que la clase mediana es [1,70; 1,85).
La moda, (M
o
), de una muestra de una variable estadstica es el valor, o valores,
de mayor frecuencia absoluta, es decir, el valor que aparece mas repetido en la
muestra.
La moda puede no existir y si existe puede no ser unica.
Ejemplo 6:
La siguiente muestra 3 5 7 9 11 15 18 no tiene moda.
En la muestra del ejemplo 4 la moda es M
o
= 7.
La muestra del ejemplo 5 tiene dos modas: M
o1
= 4 y M
o2
= 10.
Si los datos estan agrupados, igual que para la mediana, la moda se puede
obtener por interpolacion. En el ejemplo 3, con los datos agrupados, la clase modal
es [1,55; 1,70).
La media es el parametro mas informativo ya que para su calculo se utilizan los
valores de todos los datos, mientras que para la mediana se utiliza la posicion que
ocupan. Sin embargo, en el caso de datos muy heterogeneos, la media puede no ser
una buena medida de centralizacion, puesto que sobre el valor de esta medida tiene
mucha inuencia la existencia de alg un valor muy separado de los demas. En estas
ocasiones suele ser mas informativa la mediana. En cualquier caso, la media es la
medida de centralizaci on mas importante y la dispersion de los datos se suele medir
con respecto a ella.
Por otro lado, la moda es tambien otro parametro que resulta de gran intreres
en muchas ocasiones, a pesar de la poca informacion que se utiliza para su calculo.
Estadstica Descriptiva 11
Por ejemplo, cuando existen varias modas en distintas zonas puede indicar que los
datos pertenencen a poblaciones distintas.
3. Medidas de dispersion
Dar unicamente las medidas de centralizaci on no es suciente para resumir toda
una muestra. En la gura 3 se muestra un ejemplo con dos muestras que tienen la
misma media y la misma mediana y sin embargo son muestras muy diferentes (los
datos para la primera muestra son: 50, 60, 70, 280, 290 y 300, y para la segunda
muestra: 150, 160, 170, 180, 190 y 200). Estas muestras dieren en la separacion de
sus datos.
Figura 3:
Por tanto, es necesario dar alguna medida que reeje la dispersion de los datos
con respecto a los valores centrales. Las mas utilizadas son:
La varianza muestral, que se denota por s
2
y se dene como:
s
2
=
1
n
n

i=1
(x
i
x)
2
Cuando los datos estan agrupados se utilizan las siguientes expresiones:
s
2
=
1
n
k

i=1
n
i
(x
i
x)
2
=
k

i=1
f
i
(x
i
x)
2
12 Estadstica Descriptiva
Desarrollando la formula de la varianza se tiene que
s
2
=
1
n
n

i=1
x
2
i
x
2
o para datos agrupados:
s
2
=
1
n
k

i=1
n
i
x
2
i
x
2
=
k

i=1
f
i
x
2
i
x
2
expresiones que resultan ser mas comodas para el calculo de la varianza.
La varianza mide el promedio de los cuadrados de las desviaciones de los datos
a la media. Por tanto la varianza utiliza dimensiones cuadraticas con respecto a la
de los datos. Para medir la dispersion en la dimension original (o en las unidades
originales) de los datos se utiliza, como medida de dispersion, la desviacion tpica
de la muestra, que es la raz cuadrada positiva de la varianza muestral, y se denota
por s.
Ejemplo: Teniendo en cuenta los calculos de la tabla 4, la varianza en el ejemplo
3 es, para los datos originales,
s
2
=
1
n
n

i=1
x
2
i
x
2
=
1
n
k

i=1
n
i
x
2
i
x
2
=
74, 041
24
1, 75
2
= 0, 0225
y la desviacion tpica s =

0, 0225 = 0, 15.
Para los datos agrupados:
s
2
=
1
n
k

i=1
n
i
x
2
i
x
2
=
75, 315
24
1, 762
2
= 0, 033
y la desviacion tpica s =

0, 033 = 0, 18.
La varianza y la desviacion tpica dependen de las unidades en que estan expre-
sados los datos originales, por lo que no existe una escala que permita decidir si una
varianza o una desviacion tpica es grande o peque na.
El coeciente de variacion es una medida de la dispersion relativa de un
conjunto de datos. Se obtiene mediante el cociente entre la desviacion tpica y la
Estadstica Descriptiva 13
media:
CV =
s
x
.
El CV permite comparar la dispersion de varios conjuntos de datos puesto que
es una medida independiente de las unidades de medicion.
Para su mejor interpretaci on se puede expresa como porcentaje:
CV =
s
x
100.
Ejemplo: El coeciente de variacion, en el ejemplo 3 con los datos originales,
es CV =
0, 15
1, 75
= 0, 086, o del 8, 6%.
4. Otras medidas de interes
Ademas de las medidas expuestas anteriormente, existen otras que tambien son de
gran utilidad como los percentiles, que permiten analizar la posicion de un valor
respecto del total de la muestra.
Percentil. Denicion. Se dene el percentil de un conjunto ordenado de
datos (en orden creciente), como el valor P

que es mayor o igual que el % de los


valores muestrales.
Los percentiles o cuantiles son aquellos valores que dividen a la muestra ordenada
en 100 partes iguales, se denotan por P
1
, P
2
, . . . , P
99
.
En particular la mediana es el percentil 50 (P
50
) porque deja a su izquierda el
50% de la muestra ordenada.
Los percentiles 25, 50 y 75 (P
25
, P
50
y P
75
) se les llama tambien primer, segundo
y tercer cuartil y se les representa por Q
1
, Q
2
y Q
3
, respectivamente, puesto que
dividen a la muestra ordenada en cuatro partes iguales, cada una de las cuales
14 Estadstica Descriptiva
contiene el 25% de los datos. Por tanto, Q
1
, Q
2
y Q
3
dejan a su izquierda a la
cuarta parte, la mitad y las tres cuartas partes, respectivamente, de la muestra
ordenada.
De igual modo a los percentilies P
10
, P
20
, . . . , P
90
se les llama deciles y se les
representa por D
1
, D
2
, . . . , D
9
, respectivamente, puesto que dividen a la muestra
ordenada en 10 partes iguales.
As se tiene que M = P
50
= Q
2
= D
5
.
Calculo de los percentiles
El calculo de los percentiles es similar al de la mediana, siendo ahora
n
100
el valor
a tener en cuenta.
Para calcular los percentiles de un conjunto de datos sin agrupar x
1
, . . . , x
n
,
podemos seguir los siguientes pasos:
1. Ordenar de menor a mayor los datos. Los datos ordenados se designan por
x
(1)
, . . . , x
(n)
.
2. Calcular el % de n (el tama no de la muestra), es decir, obtener
n
100
.
2.1. Si
n
100
no es un n umero entero, entonces P

es el dato que ocupa la


posicion entera siguiente dentro del conjunto de datos ordenados. Es
decir,
P

= x
([
n
100
]
+1
)
,
donde
[
n
100
]
es la parte entera de
n
100
.
2.2 Si
n
100
es un n umero entero, entonces P

es el punto medio entre el dato


que ocupa la posicion
n
100
y el que ocupa la posicion siguiente dentro del
conjunto de datos ordenados. Es decir,
P

=
x
(
n
100
)
+x
(
n
100
+1
)
2
Estadstica Descriptiva 15
Cuando los datos estan agrupados, igual que para la mediana, los percentiles se
calculan mediante interpolacion.
Ejemplo Calculamos los cuartiles y el percentil 40 de los datos originales del
ejemplo 3.
Puesto que
n25
100
=
24
4
= 6 es un n umero entero, el primer cuartil es
Q
1
=
x
(6)
+x
(7)
2
=
1, 62 + 1, 62
2
= 1, 62.
El segundo cuartil es la medianan, por tanto Q
2
= M = 1, 705.
n75
100
=
24 3
4
= 18 es un n umero entero, entonces el tercer cuartil es
Q
3
=
x
(18)
+x
(19)
2
=
1, 85 + 1, 90
2
= 1, 875.
n40
100
=
24 40
100
= 9, 6 no es un n umero entero, entonces el percentil 40 es
P
40
= x
([9,6]+1)
= x
(10)
= 1, 67.
Para los datos agrupados:
Q
1
[1, 55; 1, 70), Q
2
= M [1, 70; 1, 85), Q
3
[1, 85; 2, 00) y P
40
[1, 55; 170).
II. Estadstica Descriptiva de dos variables
En muchas ocasiones estaremos interesados en estudiar dos caractersticas diferentes,
cuantitativas o no, de una poblacion. As, tendremos una variable bidimensional
(X, Y ), en donde cada una de las variables X e Y se reere a cada una de las
caractersticas observadas en el mismo individuo.
El tipo de gracas utilizadas para variables bidimensionales son muy parecidas
a las utilizadas para las unidimensionales (ver gura 4).
16 Estadstica Descriptiva
Figura 4:
Tambien podemos representar el conjunto de datos mediante una tabla de fre-
cuencias (absolutas o relativas) de doble entrada, como puede verse en la tabla 5,
siendo x
i
e y
i
los valores de las variables X e Y , respectivamente, obtenidos en la
muestra y donde se supone que el par (x
j
, y
i
) ha aparecido en n
ij
individuos.
Tabla 5:
Y/X x
1
x
2
. . . Total
y
1
n
11
n
12
. . .

n
1i
y
2
n
21
n
22
. . .

n
2i
. . .
. . .
. . .
Total

n
i1

n
i2
. . . n
Teniendo en cuenta los conceptos que vamos a detallar a continuacion, vamos a
considerar que ambas variables son cuantitativas porque estos conceptos solo tienen
sentido en ese caso.
Para realizar el estudio conjunto de las variables cuantitativas X e Y , vamos a
Estadstica Descriptiva 17
suponer que disponemos de una muestra de n pares de observaciones:
(x
1
, y
1
), . . . , (x
n
, y
n
)
donde (x
i
, y
i
), con i = 1, . . . , n, son los valores observados de las variables X e Y en
el i-esimo individuo.
Figura 5:
En primer lugar es conveniente representar en el plano los pares obtenidos que
dara lugar a una nube de puntos. El aspecto que presenta esta nube de puntos nos
puede dar una idea visual de la relacion existente entre ambas variables.
Por ejemplo, la gura 5 indica que, en general, los valores mas altos de x corres-
ponden a los valores mas bajos de y, as como una posible dependencia lineal entre
ambas.
Tambien podemos hacer un estudio de cada variable por separado, calculando,
para cada una de la variables, las medidas de centralizaci on y dispersion estudiadas
anteriormente. Ademas de estas medidas va a ser necesario otro parametro, la
covarianza, que va a aparecer de manera natural al obtener las rectas de regresion,
que veremos en el tema siguiente.
18 Estadstica Descriptiva
Covarianza. Denicion. La covarianza muestral, s
xy
, entre las observaciones
de X e Y se dene como
s
xy
=
1
n
n

i=1
(x
i
x)(y
i
y)
Haciendo un desarrollo similar al de la varianza, se tiene que tambien podemos
expresar la covarianza, como se indica a continuacion, de una manera mas sencilla:
s
xy
=
1
n
n

i=1
x
i
y
i
x y
Existe una cierta asociacion entre el signo de la covarianza y la orientaci on de la
nube de puntos. Vease la gura 6.
Figura 6:
Ejemplo: Dada la siguiente muestra de la variable bidimensional (X, Y ):
X: 21 21 33 21 27 35 25 37 25 18 21 37 45 27 18 35
Y : 5 6 6 8 6 7 5 8 7 4 7 9 10 5 5 8
Obtendremos la media muestral y la desviacion tpica de las variables X e Y ,
as como la covarianza muestral.
Estadstica Descriptiva 19
Teniendo en cuenta los calculos de la tabla 6, se tiene que:
x =
1
n
n

i=1
x
i
=
446
16
= 27, 875
y =
1
n
n

i=1
y
i
=
106
16
= 6, 625
Tabla 6:
x
i
y
i
x
2
i
y
2
i
x
i
y
i
21 5 441 25 105
21 6 441 36 126
33 6 1089 36 198
21 8 441 64 168
27 6 729 36 162
35 7 1225 49 245
25 5 625 25 125
37 8 1369 64 296
25 7 625 49 175
18 4 324 16 72
21 7 441 49 147
37 9 1369 81 333
45 10 2025 100 450
27 5 729 25 135
18 5 324 25 90
35 8 1225 64 280
Total 446 106 13422 744 3107
s
2
x
=
1
n
n

i=1
x
2
i
x
2
=
13422
16
27, 875
2
= 61, 859 s
x
=

61, 859 = 7, 865


s
2
y
=
1
n
n

i=1
y
2
i
y
2
=
744
16
6, 625
2
= 2, 609 s
y
=

2, 609 = 1, 615
s
xy
=
1
n
n

i=1
x
i
y
i
xy =
3107
16
27, 875 6, 625 = 9, 516
20 Estadstica Descriptiva
Ejercicios
1. 13 ovejas comieron una hierba venenosa. Las horas que tardaron en morir fueron:
36 44 24 27 44 36 120 44 36 29 36 36 24
Construir una tabla de frecuencias y representar gracamente. Calcular las me-
didas de centralizacion y de dispersion habituales y el coeciente de variaci on. De-
terminar el intervalo central de horas en el que muri o el 50% de las ovejas. Comentar
los resultados.
2. Los valores de Haptoglobina, medidos en mg/100 ml, de un grupos de 30
individuos, son los siguientes:
101 103 104 106 107 107 108 110 111 112
112 113 113 113 115 117 117 119 119 120
120 120 121 122 124 124 126 127 127 129
Construir una tabla de frecuencias y representar gracamente. Calcular las me-
didas de centralizacion y de dispersion habituales, los cuartiles y el coeciente de
variacion. Determinar que valores de Haptoglobina limitan el 60% central de este
conjunto de individuos. Por debajo de que valor de Haptoglobina se encuentra el
95% de estos individuos?
3. Para investigar el periodo de latencia de un virus se inoculo a 100 cobayas
y se observo para cada una de ellas el n umero de das hasta que aparecieron los
primeros sntomas. Los resultados se recogen en la tabla siguiente:
Calcular el periodo de latencia medio y la desviacion tpica. Indicar los intervalos
en los que se encuentran los valores por debajo de los cuales esta el periodo de
latencia para la cuarta parte, la mitad y las tres cuartas partes, respectivamente, de
Estadstica Descriptiva 21
N

de das 2-6 6-8 8-10 10-12 12-18


N

de cobayas 8 25 35 20 12
la poblacion experimental. Obtener el intervalo donde se encuentra el periodo de
latencia mas frecuente.
4. En un grupo homogeneo de 1000 animales se miden dos factores biologicos,
obteniendose valores medios de 10 mm y 10000 leucocitos; las varianzas fuero 4 y
4000, respectivamente. Cual de las dos distribuciones estara mas concentrada?
5. En un estudio sobre la resistencia a bajas temperaturas del bacilo de la ebre
tifoidea, se expusieron cultivos del bacilo durante diferentes perodos de tiempo a
5

C. Los resultados se presentan en la tabla siguiente:


X: 0 0,5 1 2 3 5 9 15
Y : 100 42 14 7,5 0,4 0,11 0,05 0,002
donde X = tiempo de exposicion en semanas e Y = porcentaje de bacilos super-
vivientes.
Obtener la media muestral y la desviacion tpica de las variables X e Y , y la
covarianza muestral.
Tema 4. Regresion y correlacion
Dada una muestra de n pares de observaciones (x
1
, y
1
), . . . , (x
n
, y
n
) de la variable
bidimensional (X, Y ), el objetivo va a ser encontrar una curva, lo mas sencilla posi-
ble, que exprese la relacion entre las variables X e Y .
Por ejemplo, supongamos que la nube de puntos que se obtiene es de una de las
dos formas indicadas en la gura 1, parece razonable pensar que existe una relacion
lineal entre los valores de X e Y .
Figura 1:
1
2 Regresion y correlacion
1. La recta de regresion
Recta de regresion de Y sobre X. Denicion. Se llama recta de regresion de
Y sobre X, a la recta y = a + bx que minimiza el error cuadratico medio (ECM)
denido como:
ECM =
1
n
n

i=1
(y
i
a bx
i
)
2
(1)
Lo que se intenta es encontrar la recta que mejor representa a la nube de puntos,
en el sentido de minimizar la media de los cuadrados de las distancias verticales de
cada punto de la nube a la recta (ver gura 2).
Figura 2:
A continuaci on se obtiene la recta de regresion, es decir, la recta que minimiza
el error cuadratico medio que es funcion de las variables a y b.
En primer lugar desarrollando el cuadrado se tiene que
ECM =
1
n
n

i=1
(y
i
a bx
i
)
2
=
1
n
(
n

i=1
y
2
i
+ na
2
+ b
2
n

i=1
x
2
i
2a
n

i=1
y
i
2b
n

i=1
x
i
y
i
+ 2ab
n

i=1
x
i
)
Regresion y correlacion 3
Derivando con respecto a cada variable e igualando a cero se obtiene el siguiente
sistema de ecuaciones:
(ECM)
a
=
1
n
(
2na 2
n

i=1
y
i
+ 2b
n

i=1
x
i
)
= 0
(ECM)
b
=
1
n
(
2b
n

i=1
x
2
i
2
n

i=1
x
i
y
i
+ 2a
n

i=1
x
i
)
= 0
cuya solucion es
a = y
s
xy
s
2
x
x y b =
s
xy
s
2
x
(2)
Se puede comprobar que esta solucion corresponde a un mnimo de la funcion
ECM. Por tanto, la recta de regresion de Y sobre X es:
y = a + bx = y
s
xy
s
2
x
x +
s
xy
s
2
x
x
o tambien:
y y =
s
xy
s
2
x
(x x)
A el coeciente b =
s
xy
s
2
x
se le llama coeciente de regresion de Y sobre X.
Seg un como sea la nube de puntos, la recta de regresion la representara mejor o
peor, lo que se medira mediante el error cuadratico medio cometido.
Varianza residual. Denicion. La varanza residual es el error cuadratico
medio cometido con la recta de regresion de Y sobre X.
Sustituyendo en (1) los valores de a y b obtenidos en (2), se tiene que la varianza
residual es:
Varianza residual = s
2
y
(
1
s
2
xy
s
2
x
s
2
y
)
donde el cociente que aparece en esta expresion se dene a continuaci on.
Coeciente de correlacion muestral entre X e Y . Denicion. Se dene
el coeciente de correlacion muestral entre X e Y , (r), como:
r =
s
xy
s
x
s
y
4 Regresion y correlacion
Por lo que tambien se puede escribir la varianza residual como sigue:
Varianza residual = s
2
y
(
1 r
2
)
Figura 3:
Algunos aspectos importantes:
El coeciente de correlacion muestral cumple que 1 r 1, ya que r
2
1
puesto que la varianza residual, al ser una suma de cuadrados, no puede ser
negativa.
Igual que ocurra con la covarianza, hay una cierta asociacion entre el valor
de r y la orientacion de la nube de puntos. s
xy
> 0 implica que r > 0 por lo
que corresponde a una recta creciente, s
xy
< 0 implica que r < 0 por lo que
corresponde a una recta decreciente y s
xy
= 0 implica que r = 0 obteniendose
la recta y = y (ver gura 3).
Los casos r = 1 corresponden a una varianza residual nula, lo que indica que
los puntos se encuentran exactamente sobre la recta calculada.
Regresion y correlacion 5
La varianza s
2
y
se puede descomponer en dos sumandos. El primer sumando es
la varianza residual llamada tambien varianza no explicada en la regresion y
al segundo se le denomina varianza explicada por la regresion:
s
2
y
= s
2
y
(1 r
2
) + r
2
s
2
y
es decir,
Varianza Total=Varianza Residual o No Explicada+Varianza Explicada
Cuanto menor sea la varianza residual mayor sera la varianza explicada y por tanto
el ajuste de regresion sera mas adecuado.
De manera similar, minimizando las distancias cuadraticas horizontales se ob-
tiene la recta de regresion de X sobre Y como sigue:
x x =
s
xy
s
2
y
(y y)
Las dos rectas tiene en com un el punto (x, y).
A el coeciente b =
s
xy
s
2
y
se le llama coeciente de regresion de X sobre Y .
Si b
yx
y b
xy
son los coecientes de regresion de las rectas de regresion de Y sobre
X y de X sobre Y , respectivamente, se cumple que:
b
yx
b
xy
= r
2
b
yx
= r
s
y
s
x
y b
xy
= r
s
x
s
y
La recta de regresion permite estimar valores de la variable dependiente y, que
denotaremos por y, correspondientes a valores de la variable independiente x:
y = y +
s
xy
s
2
x
(x x)
6 Regresion y correlacion
As, a cada valor x
i
, de los observados, le corresponde el valor observado y
i
y el valor
estimado y
i
, siendo precisamente la diferencia cuadratica (y
i
y
i
)
2
la contribuci on
del punto (x
i
, y
i
) a la varianza residual.
Ejemplo: Dada la siguiente ditribucion bidimensional, calcular las dos rectas
de regresion y el coeciente de correlacion lineal.
X: 0,7 1 2 3 3 4 5 6 7 8
Y : 2,2 2,2 2,5 2,7 2,8 3 3,3 3,4 4 4
Recta de regresion de Y sobre X: y = y
s
xy
s
2
x
x +
s
xy
s
2
x
x.
Recta de regresion de X sobre Y : x = x
s
xy
s
2
y
y +
s
xy
s
2
y
y.
Por tanto, necesitamos obtener: x, y, s
2
x
, s
2
y
y s
xy
:
x
i
y
i
x
2
i
y
2
i
x
i
y
i
0,7 2,2 0,49 4,84 1,54
1 2,2 1 4,84 2,2
2 2,5 4 6,25 5
3 2,7 9 7,29 8,1
3 2,8 9 7,84 8,4
4 3 16 9 12
5 3,3 25 10,89 16,5
6 3,4 36 11,56 20,4
7 4 49 16 28
8 4 64 16 32
Total 39,7 30,1 213,49 94,51 134,14
x =
39, 7
10
= 3, 97, y =
30, 1
10
= 3, 01, s
2
x
=
213, 49
10
3, 97
2
= 5, 588,
s
2
y
=
94, 51
10
3, 01
2
= 0, 391 y s
xy
=
134, 14
10
3, 97 3, 01 = 1, 464
Regresion y correlacion 7
La recta de regresion de Y sobre X:
y = 3, 01
1, 464
5, 588
3, 97 +
1, 464
5, 588
x y = 1, 97 + 0, 262 x
La recta de regresion de X sobre Y :
x = 3, 97
1, 464
0, 391
3, 01 +
1, 464
0, 391
y x = 7, 3 + 3, 74 y
El coeciente de correlacion: r =
s
xy
s
x
s
y
=
1, 464

5, 588

0, 391
= 0, 99.
2. Regresion logartmica, exponencial y potencial
En muchos casos ajustar una recta no es lo mas adecuado pudiendo existir un
gran n umero de modelos alternativos. A continuacion se exponen tres modelos que
pueden reducirse, mediante una sencilla transformacion, al modelo lineal expuesto
en la seccion anterior.
Regresion logartmica
Cuando la nube de puntos es del tipo de la que aparece en la gura 4, es aconsejable
ajustar un modelo de la forma siguiente: y = a + b log x
Figura 4:
puesto que la nube de puntos recuerda a la funcion y = log x. En este caso se obtiene
8 Regresion y correlacion
la recta de regresion de Y sobre T = log X, es decir, y = a +bt y la curva pedida es
y = a + b log x.
Regresion exponencial
Cuando la nube de puntos es como una de las que aparecen en la gura 5, es
aconsejable representarla mediante un modelo de la forma siguiente:
y = ae
bx
ya que la nube de puntos recuerdan a las funciones y = e
x
e y = e
x
. Tomando
logaritmos se tiene log y = log a +bx y se obtiene la recta de regresion de T = log Y
sobre X, es decir, t = a

+ bx y la curva pedida es e
t
= e
a

e
bx
, o lo que es igual,
y = ae
bx
, donde a = e
a

.
Figura 5:
Regresion potencial
Es aquella en la que la funcion a ajustar es una funcion del tipo:
y = ax
b
Regresion y correlacion 9
En este caso tambien se puede linealizar la funcin tomando logaritmos: log y =
log a + b log x y se obtiene la recta de regresion de T = log Y sobre U = log X, es
decir, t = a

+ bu y la curva pedida es e
t
= e
a

e
bu
, o lo que es igual, y = ax
b
, donde
a = e
a

.
En general, la evaluaci on global del modelo ajustado puede hacerse mediante la
varianza residual. Sin embargo, esta medida depende de las unidades de medida de
Y , por lo que una medida mas adecuada del ajuste es la proporcion de variabilidad
explicada que denimos a continuacion.
Como
Varianza Total=Varianza Residual o No Explicada+Varianza Explicada
dividiendo por la Varianza Total, se tiene que
1 =
V arianza No Explicada
V arianza Total
+
V arianza Explicada
V arianza Total
As, se dene el coeciente de determinacion (R
2
), como:
R
2
=
V arianza Explicada
V arianza Total
que toma valores de 0 a 1.
En el caso en el que se ajuste una recta, el coeciente de determinacion es el
cuadrado del coeciente de correlacion lineal entre X e Y .
Ejemplo: Dada la siguiente distribucion bidimensional:
X: 1 2 4 8 16 32 64
Y : 2 4 7 11 16 19 21
10 Regresion y correlacion
Elegir razonadamente el modelo de Y sobre X mas adecuado y obtener el co-
eciente de determinacion, R
2
y el coeciente de correlacion lineal, r, entre X e
Y .
Figura 6:
A la vista del diagrama de dispersion de Y sobre X, dado en la gura 6, parece
que lo mas indicado es realizar una regresion logartmica de Y sobre X, es decir,
ajustar un modelo de la forma y = a + b log x, que sera una regresion lineal de Y
sobre T = log x:
y = y
s
ty
s
2
t
t +
s
ty
s
2
t
t, R
2
=
s
2
ty
s
2
t
s
2
y
y r =
s
xy
s
x
s
y
, por lo que necesitamos obtener: x,
t, y, s
x
, s
t
, s
y
, s
xy
y s
ty
:
x
i
t
i
= log x
i
y
i
x
2
i
t
2
i
y
2
i
x
i
y
i
t
i
y
i
1 0 2 1 0 4 2 0
2 0,693 4 4 0,4804 16 8 2,773
4 1,386 7 16 1,922 49 28 9,704
8 2,08 11 64 4,324 121 88 22,874
16 2,773 16 256 7,687 256 256 44,361
32 3,466 19 1024 12,011 361 608 65,849
64 4,159 21 4096 17,296 441 1344 87,336
Total 127 14,56 80 5461 43,72 1248 2334 232,9
Regresion y correlacion 11
Entonces, x =
127
7
= 18, 143, t =
14, 56
7
= 2, 08, y =
80
7
= 11, 429,
s
2
x
=
5461
7
18, 143
2
= 450, 974, s
2
t
=
43, 72
7
2, 08
2
= 1, 92,
s
2
y
=
1248
7
11, 429
2
= 47, 664, s
xy
=
2334
7
18, 143 11, 429 = 126, 07,
s
ty
=
232, 9
7
2, 08 11, 429 = 9, 499.
La recta de regresion de Y sobre T:
y = 11, 429
9, 499
1, 92
2, 08 +
9, 499
1, 92
t,
y = 1, 138 + 4, 947t y = 1, 138 + 4, 947log x
El coeciente de determinacion: R
2
=
s
2
ty
s
2
t
s
2
y
=
9, 499
2
1, 92 47, 664
= 0, 986
El coeciente de correlacion lineal entre X e Y :
r =
s
xy
s
x
s
y
=
126, 07

450, 974

47, 664
= 0, 86 r
2
= 0, 74.
Por lo que el ajuste logartmico es muy bueno y mas adecuado que el lineal.
Ejercicios
1. La tabla siguiente recoge las pulsaciones/minuto y la temperatura de 10 enfermos.
p/m: 70 65 80 60 75 85 70 65 80 85
Temperaturas: 36,5 36,5 37 36 37 37,5 37 36 37,5 37
Obtener las rectas de regresion y estimar la temperatura que tendra un enfermo
con 72 p/m.
2. En una determinada raza de animales, se pretende estudiar si existe o no
12 Regresion y correlacion
relacion entre la cantidad inyectada durante un mes de una determinada droga y el
aumento de peso (se toman animales de caractersticas similares). En una muestra
de 10 animales se obtuvieron los siguientes resultados:
Aumento de peso en kg: 1 2 2 3 2 4 3 5 6 2
Cantidad de droga en cm
3
: 15 20 25 25 19 30 30 35 40 18
Existe relacion entre estas dos variables?. Si existe, obtener el modelo matematico
que representa esta relacion.
3. De un estudio en cateterismo de 50 pacientes coronarios, se han obtenido los
siguientes valores:
v = 1, 2 seg
1
y s
2
v
= 0, 25 seg
2
p = 10 mmHg y s
2
p
= 4 mmHg
2
s
vp
= 0, 8 seg
1
mmHg
Donde, v es la velocidad de acortamiento circunferencial a nivel del ecuador del
ventrculo izquierdo y p la presion diastolica ventricular.
Analizar la correlacion entre estas variables. Si fuera signicativa, obtener las
ecuaciones de regresion correspondientes.
4. Las rectas de regresion que dan la relacion entre el permetro toracico y el
peso de un grupo de 200 individuos, vienen dadas por las siguientes ecuaciones:
y = 0, 52x + 21, 71
x = 0, 75y + 40, 97
Obtener el valor del coeciente de correlacion entre estas dos variables.
Regresion y correlacion 13
5. La concentraci on en sangre de un farmaco y la sobrepresion media arterial
que el mismo origina estan relacionadas por la expresion
p + 5 = 0, 6 c
donde p y c vienen dados en mm Hg y mg/l, respectivamente. Para un grupo de
20 pacientes, los valores medios han sido 25 mm Hg y 50 mg/l y las dispersiones de
0,36 (mm Hg)
2
y 0,64 (mg/l)
2
. Calcular el coeciente de correlacion.
6. Se han determinado la longitud y el peso de una glandula obtenida en au-
topsias de 10 animales. Los resultados son los siguientes (expresados en cm y gr,
respectivamente):
(6 - 7), (3 - 4), (2 - 3), (1 - 1), (3 - 4), (4 - 6), (3 - 5), (2 - 2), (1 - 2) y (5 - 6)
Estimar la longitud de una glandula cuyo peso sea 4,5 gr.
7. A continuaci on se da un conjunto de valores correspondiente a las lecturas de
un experimento, donde X es el volumen e Y es la presion de una masa dada de gas.
Elegir razonadamente entre una regresion lineal y una regresion potencial.
X: 1 2 3 4 5 6 7
Y : 7 30 90 170 290 450 650
8. A un paciente, sometido a un determinado tratamiento, se le mide una variable
Y en 8 das sucesivos. Los resultados son los siguientes:
T: 1 2 3 4 5 6 7 8
Y : 0,9 3,6 5,8 6,8 7,1 7,3 7,2 7,4
14 Regresion y correlacion
Ajustar a los datos obtenidos un modelo logartmico. Utilizando este modelo,
se puede predecir razonablemente bien? Si es as, dar una estimacion de lo que
vala la variable Y cuando haban transcurrido dos das y medio.
9. En un estudio sobre la resistencia a bajas temperaturas del bacilo de la ebre
tifoidea, se expusieron cultivos del bacilo durante diferentes perodos de tiempo a
5

C. Los resultados son los siguientes:


X: 0 0,5 1 2 3 5 9 15
Y : 100 42 14 7,5 0,4 0,11 0,05 0,002
Donde X = tiempo de exposicion (en semanas) e Y = porcentaje de bacilos
supervivientes. Elegir razonadamente entre una regresion lineal y una regresion
exponencial.
1
VARIABLES ALEATORIAS.

El clculo de probabilidades utiliza variables numricas que se
denominan aleatorias, porque sus valores vienen determinados por el azar.
En todo proceso de observacin o experimentacin podemos definir una
variable aleatoria asignando a cada resultado del experimento un nmero.
a) Si el resultado del experimento es numrico, porque contamos o
medimos, los posibles valores de la variable coinciden con los
resultados del experimento.
b) si el resultado del experimento es cualitativo hacemos corresponder a
cada resultado un nmero arbitrariamente; por ejemplo, 0 si una pieza es
buena y 1 si es defectuosa.

Diremos que se ha definido una variable aleatoria o que se ha
construido un modelo de distribucin de probabilidad, cuando se
especifican los posibles valores de la variable con sus probabilidades
respectivas.

VARIABLES ALEATORIAS DISCRETAS.

Definicin. Diremos que una variable aleatoria es discreta cuando el
conjunto de valores que toma la variable es un subconjunto de R finito o
infinito numerable.

(NOTA: Se dice que un conjunto es infinito numerable, si se puede
establecer una aplicacin biyectiva entre dicho conjunto y el conjunto de
los nmeros naturales.)

Es decir, las variables aleatorias discretas solo pueden tomar valores
aislados.

Ley o funcin de probabilidad. El procedimiento ms comn de definir
una variable aleatoria discreta es indicando sus valores posibles (espacio
muestral) y sus probabilidades respectivas.

Sea X una variable aleatoria discreta que toma los valores x
1
, x
2
, ... , x
n
,
para cada uno de los cuales se conocen su probabilidad, es decir:

p(x
i
) =p(X =x
i
) =p
i
i =1, 2, ... , n

y tales que p
i
0 i =1, 2, ... , n y


Llamaremos ley de probabilidad de la variable aleatoria X, a la
correspondencia entre los valores x
i
y sus probabilidades p
i
.

=
=
n
1 i
1
i
p
2
Funcin de distribucin. Una forma equivalente de caracterizar la
distribucin de una variable aleatoria es mediante la funcin de
distribucin, F(x), definida en cada punto x como la probabilidad de que
la variable aleatoria X tome un valor menor o igual que x . Es decir:




Propiedades de la funcin de distribucin.

1. F(+) =1.
2. F(- ) =0.
3. S x
1
x
2
F(x
1
) F(x
2
).
4. F(x) es una funcin continua a la derecha cualquiera que sea el valor de
x.

Resumiendo: la funcin de distribucin esta definida para todo punto
del eje real es montona no decreciente, continua a la derecha en cada
punto y tal que F(+) =1 y F(- ) =0.

Definicin. Sea X una variable aleatoria discreta, que toma los siguientes
valores x
1
, x
2
, ... , x
n
con probabilidades p
i
=p(X =x
i
).

Llamamos esperanza matemtica, valor esperado o media de la variable
aleatoria X a:





y varianza de la variable aleatoria X a:




Se puede demostrar fcilmente, desarrollando el cuadrado y simplificando,
que




La desviacin tpica de una variable aleatoria X es la raz cuadrada
positiva de la varianza.






R x todo para
x
i
x
i
p x) p(X F(x)

= =
| |

=
= + + = =
n
1 i
i
p
i
x
n
p
n
x ...
1
p
1
x X E

=
= =
(

n
1 i
i
p
2
) -
i
(x
2
) - (X E
2

=
=
n
1 i
2
-
i
p
2
i
x
2

=

-
1 dx f(x) y R x todo para 0 f(x)

=
1
0
x
x
f(x)dx )
1
x X
0
p(x

=

0
x
-
dx f(x) )
0
x p(X
Ejemplo:

Sea X una variable aleatoria discreta cuya ley de probabilidad es:

X 0 1 2 3 4 5

P 0.1 0.2 0.1 0.4 0.1 0.1

Calcular:
a) La funcin de distribucin y representar grficamente la ley de probabilidad
y la funcin de distribucin.
b) p(X <4.5), p(X 2) y p(3 X <4.5).
c) La media y la varianza.



VARIABLES ALEATORIAS CONTINUAS.

Diremos que una variable aleatoria X es continua cuando puede
tomar cualquier valor en un intervalo de la recta real y por tanto infinito
acotado o no

Funcin de densidad. La ley de probabilidad de una variable aleatoria
continua viene dada por la funcin de densidad, que es una funcin f(x)
integrable y tal que



El conocimiento de la funcin de densidad f(x) permite calcular
cualquier probabilidad por integracin:



(1)



Hay que sealar que el valor de la funcin de densidad en un punto,
no es la probabilidad de aparicin de ese valor, ya que

As, para las variables aleatorias continuas la p(X =a) =0 aunque
el suceso no es imposible.

Funcin de distribucin. La funcin de distribucin para una variable
aleatoria continua se define como en el caso discreto por:
0 dx f(x)
a
a
=

4

F(x) = p(X x) x R

y teniendo en cuenta (1):

Propiedades de la funcin de distribucin.

1. F(+) =1.
2. F(- ) =0.
3. S x
1
x
2
F(x
1
) F(x
2
).
4. F(x) es una funcin continua.
5. La funcin de densidad f(x) es la derivada de la funcin de distribucin
F(x): F(x) =f(x)

Resumiendo: la funcin de distribucin esta definida para todo punto
del eje real es montona no decreciente, continua y tal que F(+) =1 y
F(- ) =0.

Definicin. Sea X una variable aleatoria continua con funcin de densidad
f(x), llamaremos esperanza matemtica, valor esperado o media de la
variable aleatoria X al valor de la siguiente integral:


y varianza de la variable aleatoria X a:


Se puede demostrar fcilmente que

La desviacin tpica de una variable aleatoria X es la raz cuadrada
positiva de la varianza








= =

0
x
-
dx f(x) )
0
x p(X )
0
F(x
| |

= =

-
dx f(x) x X E
( ) ( )

=
(

=

-
2
dx f(x) - x
2
- X E
2

- dx f(x) x
2

2
-
2

5
npq =
x
MODELOS DE PROBABILIDAD MS COMUNES.

DISTRIBUCIONES DISCRETAS.

DISTRIBUCIN BINOMIAL, B(n,p).

Ver pruebas repetidas (tema de Probabilidad)

Ley de probabilidad. Sea X una variable aleatoria que sigue una ley B(n,p), la funcin
que nos da la probabilidad de que en n pruebas se produzcan k xitos, viene dada por
la expresin:








Para el clculo de esta funcin puntual se han construido tablas que nos
proporcionan, para los distintos valores de n y p, la probabilidad de que la variable
tome los distintos valores desde 0 a n.

Funcin de distribucin. La funcin de distribucin esta definida por:

F(x) =p(X x)

x
y teniendo en cuenta : F(x) = C
n,k
p
k
(1 p)
n-k


k =0
Caractersticas estadsticas.

Media: =E[X] =np

Varianza:
2
=E[(x - )
2
] =npq

Desviacin tpica:

Donde q =1 p.

Ajuste de una distribucin emprica por una distribucin terica.

S se observa que una variable estadstica obtenida experimentalmente a partir de
una muestra satisface las condiciones que conducen a una distribucin binomial, tendr
una distribucin emprica que se aproximar a una distribucin binomial terica.
El problema est en seleccionar entre todas las distribuciones binomiales, la que
mejor se aproxima a la distribucin emprica.
Se demuestra que la distribucin binomial que mejor se aproxima a una
distribucin emprica es aquella que tiene la misma media.
Para ello calculamos la media muestral observada y la haremos coincidir
con la media poblacional :


p(X =k) =C
n,k
p
k
(1 p)
n-k

k =0, ... , n

k


n
x
p x np = = =
6
.
n
x
p= Por tanto, consideraremos la distribucin binomial de parmetros n y

En captulos posteriores, se dar una medida de la bondad del ajuste.


DISTRIBUCIN DE POISSON, P().

Supongamos que nos encontramos en el mismo marco de la distribucin
binomial, es decir que realizamos n pruebas independientes, siendo p la probabilidad
de que ocurra el suceso A en cada una de las n pruebas. La probabilidad de que
ocurra k veces el suceso A en las n pruebas viene dada por la expresin:

p(X =k) =C
n,k
p
k
(1 p)
n-k
, k =0, ... , n

Cuando la probabilidad del suceso A es muy pequea y n es muy grande se
obtiene una buena aproximacin mediante otra distribucin que es la distribucin de
Poisson.

La distribucin de Poisson se encuentra en el caso de las probabilidades
pequeas, por este motivo se le denomina tambin ley de los sucesos raros.

La distribucin de Poisson corresponde a un caso lmite de la distribucin
binomial cuando n tiende a infinito y p tiende a cero, pero de manera que el nmero
medio esperado de sucesos, np, conserve un valor constante que llamaremos , es
decir, que el promedio de apariciones del suceso, para distintos valores de n permanece
invariable.

En la prctica, se reemplaza la distribucin binomial por la Poisson, cuando
simultneamente n sobrepasa 30 y p es menor que 0,1.

Ley de probabilidad. Sea X una variable aleatoria que sigue una ley P(), la funcin
que nos da la probabilidad de que en n pruebas se produzcan k veces el suceso A,
viene dada por la expresin:



Para el clculo de esta funcin se han construido tablas que nos dan la
probabilidad para cada valor de k.

Funcin de distribucin. La funcin de distribucin esta definida por:

F(x) =p(X x)



0,1,2,... k
e
k!

k) p(X

k
=
= =

k
x
0 k
e
k!

x) p(X F(x)

=

= =
7
x
x =
Caracteristicas estadsticas.

Media: =E[X] =

Varianza:
2
=E[(x - )
2
] =

Desviacin tpica:

Ajuste de una distribucin emprica por una Distribucin de Poisson.

Como en el caso de la Binomial, la distribucin de Poisson que mejor se
aproxima a una distribucin emprica, es la que tiene la misma media. Por tanto,
calcularemos la media experimental de las observaciones y la distribucin de
Poisson que ajustemos ser la que tenga por .


DISTRIBUCIONES CONTINUAS.

DISTRIBUCIN NORMAL.

Definicin: Diremos que una variable aleatoria continua X sigue una distribucin
normal de media y desviacin tpica y representaremos por N(,), s la ley de
probabilidad viene dada por la siguiente expresin:

Funcin de densidad. La funcin de densidad de la distribucin N(,) es
precisamente la funcin anterior f(x).

Si representamos grficamente esta funcin se observa que:
- La funcin es simtrica respecto de la recta x =.
- f(x) tiene una asintota horizontal que es el eje x.
- Tiene un mximo absoluto en el punto:

- Presenta dos puntos de inflexin para los valores de las abcisas: x = + y x = -
- El rea encerrada bajo f(x) y el eje x, como en toda funcin de densidad, es igual a la
unidad.










- +


=

=
|
.
|

\
|

x
e
2
1
f(x)
2

x
2
1
( ) 2 1/ ,
8
n
Funcin de distribucin. Sea X una v. a. N(,), la funcin de distribucin, que
representaremos por F(x), viene dada por la expresin:


Las grficas de F(x) y f(x) para la N(0,1) son las siguientes










Propiedades.

1. Si X N(,) y c 0 es una constante, entonces cX N(c, |c|).

2. Si X
1
, X
2
, , X
n
son, respectivamente, N(
1
,
1
), N(
2
,
2
), , N(
n
,
n
) e
independientes, entonces X
1
+X
2
+ +X
n
tambin es normal:

3. Teorema central del lmite:
Si X
1
, X
2
, ... , X
n
, son variables aleatorias independientes, de medias
E[X
i
] =
i ,
i =1, ..., n y varianzas V(X
i
) =
i
2
, i =1, ..., n,
Entonces, llamando S =X
1
+X
2
+... +X
n
, la esperanza y varianza de esta
nueva variable suma es:

n

E[S] =E[X
1
+X
2
+... +X
n
] =
i
=

i=1

n
V[S] =V[X
1
+X
2
+... +X
n
] =
i
2
=
2

i=1
y se verifica que:

converge en ley
S N(, )

o, equivalentemente:
converge en ley




es decir, tiende a distribuirse segn una normal, cuando .
. dt e
2
1
dt e
2
1
x) p(X F(x)
2 2

t
2
1
x

t
2
1
x
|
.
|

\
|


|
.
|

\
|



= = =
) ... , ... N(
2
n
2
2
2
1 n 2 1
+ + + + + +

S
1) N(0,
9
s) , x N(
Tipificacin de la variable. Llamaremos tipificacin de la variable al paso de una
variable aleatoria X N(,) a una variable Z N(0,1). Esto se consigue considerando
el siguiente cambio de variable:

Existen tablas para la funcin de distribucin de una v.a. X N(0,1). El hecho de que la
distribucin normal es simtrica facilita mucho el manejo de las tablas.


Ajuste de una distribucin emprica mediante una Distribucin Normal.

El ajuste es anlogo a lo expuesto para las distribuciones Binomial y Poisson.
As pues, la distribucin Normal que mejor se aproxima a una distribucin emprica es
la que tiene la misma media y la misma desviacin tpica.
Por tanto, calcularemos la media y la desviacin tpica de las observaciones y la
distribucin normal ajustada ser:



La distribucin Normal como lmite de la distribucin Binomial.

En una distribucin binomial, el clculo de las probabilidades para valores
grandes de n se hace muy laborioso. Para poder conseguir una buena aproximacin se
aplicar el siguiente teorema:

Teorema de MOIVRE. Si X es una v.a. B(n,p) entonces la variable

Cuando

En la prctica, la aproximacin es bastante buena cuando se verifican
simultneamente las dos condiciones siguientes:

1. n >30
2. 0,1 <p <0,9

Cuanto mayor sea n y p ms se aproxime a 0,5 mejor ser la aproximacin.








X
Z

=
p 1 q
N(0,1)
npq
np X
Z
=

=
n
10
DISTRIBUCIONES ASOCIADAS A LA NORMAL

DISTRIBUCIN
2
DE PEARSON.

Definicin: Sean Z
1
, Z
2
, ...,Z
n
, n variables aleatorias N(0,1) e independientes,
entonces la expresin:

2
n

=Z
1
2

+Z
2
2
+... +Z
n
2

es una variable aleatoria que slo depende del nmero de sumandos n. Esta
distribucin se denomina
2
(chi cuadrado)

de Pearson con n grados de libertad.

Propiedades:

1. La variable aleatoria
2
est definida en el intervalo (0,)
2. f(x) no es simtrica.
3. f(x) depende del nmero de grados de libertad n.
4. Si
1
2
,
2
2
, ...,
k
2
son k v. a. chi-cuadrado con n
1,
n
2
, ...,n
k
grados de libertad e
independientes, la suma,
2
=
1
2
+
2
2
+...+
k
2
es otra chi-cuadrado con
n
1
+n
2
+...+n
k
.














DISTRIBUCIN t DE STUDENT.

Definicin: Sean Z y
n
2
v. a. N(0,1) y chi cuadrado con n grados de libertad
respectivamente, e independientes, entonces la siguiente expresin es la variable t de la
distribucin de Student con n grados de libertad:

Propiedades:

El dominio de definicin de la funcin de densidad es (-, +).
Es una funcin campaniforme y simtrica. Cuanto mayor es el nmero de grados de
libertad ms apuntada es la curva, tendiendo a la N(0,1) para valores grandes de n,
siendo sustancialmente idntica a esta para n mayor o igual que 100.

2
n
n

n
1
Z
t =
11
1
n , n n , n
1 2 2 1
F F

=
n 1,
2
n
F t =












DISTRIBUCIN F DE FISHER SNEDECOR.

Definicin: Sean
1
2
y
2
2
dos v. a. chi cuadrado independientes y con n
1
y n
2

grados de libertad respectivamente. Llamaremos variable F de Fisher Snedecor con
n
1
y n
2
grados de libertad a la expresin:

Por definicin se verifica que:



La distribucin t es un caso particular de la F, verificndose la relacin:



El dominio de esta funcin es (0, ).



















El clculo de las probabilidades para las variables N(0,1),
2
, t de Student y F de
Fisher Snedecor seria muy laborioso por lo que estas distribuciones estn tabuladas.
2
2
2
1
2
1
n , n
/n
/n
F
2 1
=

12


DISTRIBUCIONES: BINOMIAL Y POISSON (ejercicios) (2013/2014)

1. La probabilidad de que un individuo vacunado contra una determinada enfermedad la
contraiga es 0.2. De un grupo de 8 individuos vacunados, cul es la probabilidad de que:
a) nicamente contraiga la enfermedad un solo individuo.
b) A menos dos contraigan la enfermedad.
c) Todos contraigan la enfermedad.

2. Se supone que en un determinado pas la proporcin de individuos albinos es de 0,005.
Calcular la probabilidad de que elegida una muestra de la citada poblacin de tamao 1000, se
presenten los siguientes casos:
a) Ningn individuo sea albino.
b) Haya menos de 2 individuos albinos.
c) Al menos se encuentren 3 individuos albinos.

3. Se ha comprobado que la probabilidad de tener un determinado individuo los ojos pardos es
0,6. Sea X la variable aleatoria que representa el nmero de individuos que tienen los ojos
pardos de un grupo de 1100.
a) Obtener la ley de probabilidad de la variable X.
b) Calcular: p(670 <X 675) y p(X 680).

4. En pacientes de cierta enfermedad cardiovascular se observa que, mediante un tratamiento
adecuado, se produce una mejora en el 60 % de los casos. Aplicando este tratamiento a 500
enfermos, calcular la probabilidad de que mejoren menos de 300.

5. En una gran ciudad, el 60 % de la poblacin fuma, el 6 % tiene bronquitis crnica y el 4 %
fuma y padece bronquitis crnica. Se eligen al azar 200 individuos de esta gran ciudad. Hallar la
probabilidad de que haya como mximo uno que sea fumador y padezca bronquitis crnica.


DISTRIBUCIN NORMAL (ejercicios) (2013/2014)
1. Se supone que en cierta poblacin humana el ndice ceflico i (anchura del crneo expresada
como porcentaje de su longitud) se distribuye normalmente entre los individuos. Hay el 58% de
dolicocfalos (i 75), el 38% de mesocfalos (75 <i 80) y el 4% de braquicfalos (i >80).
Calcular la media y la desviacin tpica de i.

2. En un laboratorio se sabe que la cantidad de tiempo que invierten los tcnicos de laboratorio
cada da en realizar determinados tipos de anlisis, sigue una distribucin normal de media 2,4
horas. Tambin se ha observado que un 33% invierten ms de 2,84 horas en hacer este tipo de
anlisis. Calcular la probabilidad de que un tcnico de laboratorio invierta ms de 3 horas en
realizar estos anlisis.

3. El gasto mensual en un determinado producto que realiza un laboratorio es una variable
aleatoria que se distribuye independientemente entre los distintos meses con media 1122 y
desviacin tpica 52,5 . Para llevar a cabo un control sobre dicho gasto, calcular la probabilidad
de que el gasto mensual medio durante cinco aos sea superior a 1140 .
4. Se sabe que la concentracin de una sustancia en sangre en una determinada raza de animales
sigue una distribucin normal, de media 30 mg/100ml y desviacin tpica 10 mg/100ml. Se
desea clasificar a los animales segn la concentracin que tengan de dicha sustancia en sangre
en tres grupos (baja, media y alta), de manera que el primer grupo abarque el 20% de todos los
animales de esta raza, el segundo un 65% y el tercero el 15% restante. Cules deben ser las
concentraciones que separan dichos grupos?

5. En las condiciones del ejercicio 8 del tema de probabilidad.
a) Se eligen 10 huevos al azar de la granja A. Cul es la probabilidad de que haya ms de
5 huevos de tamaos S?
b) Se eligen al azar 100 huevos tambin de la granja A. Si el peso de cada huevo
procedente de esta granja es una variable aleatoria con media 61 g. y desviacin tpica 8
g., cul es la probabilidad de que, en total, pesen ms de 6000 g.?

1
INFERENCIA ESTADSTICA

1. Introduccin

El objetivo de la Estadstica es medir y modelar la variabilidad de un proceso
mediante un modelo probabilstico.

Para modelar la variabilidad de una variable aleatoria se sigue el siguiente modo de
actuacin:
1. Planteamiento del problema.
2. Seleccin de la muestra (Mtodos de muestreo).
3. Estudio descriptivo de la muestra (Estadstica Descriptiva).
4. En base al conocimiento de los modelos probabilsticos ms utilizados y
teniendo en cuenta el planteamiento del problema y el estudio descriptivo
previo, elegir un modelo de probabilidad (Teora de la Probabilidad).
5. Estimar los parmetros del modelo supuesto a partir de las observaciones
muestrales utilizando los mtodos de Inferencia Estadstica: estimacin
puntual, estimacin por intervalos de confianza y contrastes de hiptesis.
6. Chequear que el modelo de probabilidad ajustado a los datos es adecuado y que
se verifican las hiptesis supuestas en el estudio.
7. Si se acepta que el modelo ajustado es adecuado se puede utilizar para obtener
resultados y conclusiones sobre la variable en estudio. En caso contrario, se debe
reformular el modelo de probabilidad y repetir el proceso desde el paso 4.

Nuestro objetivo en este tema es el punto 5, La inferencia estadstica, que se puede
definir como el conjunto de procedimientos estadsticos que permiten inferir o deducir
como se distribuye la poblacin en estudio a partir de la informacin que se obtiene de
una muestra de dicha poblacin.

Los procedimientos de inferencia estadstica se pueden clasificar respecto al mtodo
utilizado en mtodos paramtricos y no paramtricos. Los mtodos paramtricos
suponen que los datos provienen de una distribucin conocida (por ejemplo Normal)
que se caracteriza por un pequeo nmero de parmetros (cualquier caracterstica
medible de la funcin de distribucin de la variable en estudio (media, varianza,..)) que
se estiman a partir de los datos. Los mtodos no paramtricos suponen aspectos ms
generales sobre la distribucin (por ejemplo que es continua o simtrica).

2. Conceptos bsicos

Llamaremos poblacin a un conjunto homogneo de elementos en los que se
estudia una caracterstica. Frecuentemente no es posible estudiar todos los elementos
debido a que:
El estudio puede implicar la destruccin del elemento.
Los elementos pueden existir conceptualmente, pero no en la realidad.
Puede ser inviable econmicamente estudiar toda la poblacin.
El estudio llevara tanto tiempo que sera impracticable e incluso las propiedades de
la poblacin habran variado con el tiempo.

En estas ocasiones en lugar de hacer un estudio exhaustivo de todos sus elementos
seleccionaremos un conjunto representativo de elementos que llamaremos muestra. El
nmero de elementos de la muestra se denomina tamao muestral.
2
Cuando la muestra est bien escogida podemos obtener una informacin similar a la
que obtendramos con la poblacin con mayor rapidez y menor coste. Para seleccionar
bien la muestra se debe tener en cuenta cualquier informacin respecto a las diferencias
entre los elementos de la poblacin.

Cuando no se dispone de esta informacin y los elementos de la poblacin son
indistinguibles y homogneos a priori respecto a la variable en estudio, la muestra se
selecciona mediante un muestreo aleatorio simple. Diremos que una muestra es
aleatoria simple cuando:
Cada elemento de la poblacin tiene la misma probabilidad de ser elegido.
Las observaciones se realizan con reemplazamiento, de manera que la poblacin es
idntica en todas las extracciones.
En una muestra aleatoria simple, cada observacin tiene la distribucin de probabilidad
de la poblacin, adems, las observaciones son independientes.

Cuando se dispone de informacin sobre la poblacin hay que tenerla en cuenta a la
hora de seleccionar una muestra y dependiendo de esta informacin tenemos otros tipos
de muestreos.

Nosotros supondremos siempre que la muestra proviene de un muestreo aleatorio
simple y trataremos el problema desde un punto de vista paramtrico.

3. Estimacin puntual

Suponemos que se observa una muestra aleatoria simple de una variable aleatoria
que sigue una distribucin conocida con parmetros desconocidos, el problema es
encontrar un estimador o estadstico que ser una funcin de la muestra mediante el
cual podamos estimar estos parmetros. El estimador de un parmetro se indicar por

y al valor numrico que toma el estimador para una muestra particular se le llama
estimacin.

Existen distintos mtodos para la obtencin de estimadores, uno de los ms
conocidos es el mtodo de mxima verosimilitud; sin embargo para nuestro propsito es
suficiente con un mtodo ms sencillo que consiste en proponer como estimador de un
parmetro poblacional el parmetro muestral anlogo, pues parece lgico que si la
muestra est bien escogida los parmetros mustrales no difieran demasiado de los
poblacionales, por ejemplo para estimar la media poblacional se propone la media de
la muestra x . Este mtodo es vlido para obtener estimadores, pero no asegura que sean
los mejores ni que sean buenos estimadores.

El estimador es una variable aleatoria, pues cambia de muestra en muestra y como tal
variable aleatoria tendr una distribucin que llamaremos distribucin del estimador
en el muestreo y tendr un valor medio y una varianza.

Lo ideal sera que los valores de un estimador para las distintas muestras nos diera
un valor exacto del parmetro a estimar. En general esto no es posible por lo que
debemos exigir a estos estimadores que cumplan ciertas condiciones.

Los criterios para medir la bondad de un estimador son los siguientes:
Que sean insesgados, es decir, que su media coincida con el valor del parmetro a
estimar.
Que siendo insesgado su varianza sea mnima.
3
Estimadores por punto ms usuales

Supondremos en adelante que se observa una muestra aleatoria simple de una
variable aleatoria X, que sigue una distribucin conocida (normal, binomial, etc.),
aunque con parmetros desconocidos. Veremos como estimar estos parmetros a partir
de los datos muestrales.

Estimador del parmetro , media de una variable aleatoria X

En general x = es un estimador insesgado para la media de una poblacin o de
una variable aleatoria.

Estimador del parmetro
2
, varianza de una variable aleatoria X

Razonando de la misma forma que para el caso de la media, para estimar la varianza
poblacional, parece lgico proponer como estimador la varianza muestral s
2
, sin
embargo, este estimador no es un estimador insesgado.
Por lo que se define la varianza muestral corregida como:
( )
1 n
n
s x x
1 n
1
s
2
n
1 i
2
i
2

=

=


que s es un estimador insesgado de la varianza poblacional, por lo que tomaremos la
varianza muestral corregida como estimador de la varianza poblacional,
2 2
s = , en
lugar de la varianza muestral, s
2
.

Estimador de una proporcin p

Si en una muestra aleatoria de tamao n se ha presentado r veces el suceso en
estudio, entonces
n
r
p = , es decir, el estimador que tomamos de p es la frecuencia
relativa del suceso en la muestra y es un estimador insesgado.

Se puede demostrar que los estimadores p y s , x
2
, adems de ser insesgados son
estimadores de mnima varianza de p y ,
2
respectivamente.

4. Estimador por intervalos

En la prctica, adems de dar una estimacin de un parmetro, buscamos que el
verdadero valor del parmetro quede cerca de nuestra estimacin.

Llamaremos estimador por intervalos a dos funciones de la muestra aleatoria que nos
permiten obtener los lmites inferior y superior de dicho intervalo. A los valores que
toma el estimador por intervalos para una muestra particular se le llama estimacin por
intervalos.
Coeficiente de confianza (1 - )

Es la probabilidad de que un estimador por intervalos cubra el verdadero valor del
parmetro que se pretende estimar.

Los limites inferior y superior del intervalo dependen de la muestra y se calculan de
manera tal que si construimos muchos intervalos, cada vez con distintos valores
4
muestrales, el 100(1 - )% de ellos contendrn el verdadero valor del parmetro. Por
ejemplo, un intervalo para la media de una poblacin con coeficiente de confianza de
0,95, para una muestra particular puede cubrir o no el verdadero valor de la media
poblacional, pero si construimos muchos intervalos de confianza, con distintas
muestras, el 95% de ellos contienen el verdadero valor de la media.

Bondad de un estimador por intervalos

La bondad de un estimador por intervalos viene dada por la mayor o menor longitud
del intervalo para un nivel de confianza dado.

Determinacin del tamao muestral

De los intervalos de confianza podemos deducir el tamao muestral necesario para
obtener una precisin determinada. A continuacin se presentan algunos ejemplos.

Estimacin de una media. Si se trata de estimar una media, el intervalo de
confianza es:

+
n

z x ,
n

z x
/2 /2


Si se desea que el intervalo tenga una amplitud 2L, tendremos que

n

z L
/2
=

lo que exige un valor de n:
2
2 2
/2
L
z
n = . Observemos que esto exige el conocimiento de
. Cuando es desconocida tendremos que tomar una muestra piloto pequea y estimar
mediante s .

Estimacin de una proporcin. Para la estimacin de una proporcin, el
intervalo de confianza al nivel 1 - es:

n
) p (1 p
z p ,
n
) p (1 p
z p
/2 /2


y aplicando el mismo razonamiento que para la media:

n
q p
z L
/2
=

como la estimacin de la proporcin es desconocida se tomar el porcentaje que a
priori se considere ms probable, o ponernos en la situacin ms desfavorable: p = 0,5.


5
( )

n
p 1 p
z p
/2


n
s
z x
/2

z x
/2


n
s
z x
/2
( )

+
2
2
2
1
2
1
/2 2 1
n

z x x ( )

+
2
2
2
1
2
1
/2 2 1
n
s
n
s
z x x
( )

+
2
2
2
1
2
1
/2 2 1
n

z x x ( )

+
2
2
2
1
2
1
/2 2 1
n
s
n
s
z x x
RESUMEN
Intervalos de confianza


p de B(n,p)
n 30 y
0,1 < p < 0,9



conocida desconocida

de N(,) n pequeo n grande

de una
distribucin
cualquiera y
n grande

1
-
2
de dos
poblaciones
normales
independientes

1
-
2
de dos
poblaciones
cualesquiera
independientes
y tamaos
muestrales
grandes

z x
/2



n
s
t x
/2 1; n
1

INTERVALOS DE CONFIANZA (ejercicios)
1. Queremos conocer, con un nivel de confianza del 95%, entre que valores expresados en das
estar comprendida la permanencia media de los enfermos en un gran hospital. Para ello tomamos
una muestra al azar de 300 enfermos y anotamos el nmero de das de permanencia de cada uno de
ellos obteniendo de media y desviacin tpica 8 y 12 das respectivamente.



2. Se quiere probar la efectividad de un antitrmico en reducir la temperatura. Para ello se tom la
temperatura de 10 nios de 4 aos de edad afectados de gripe, antes y despus de haberles
suministrado el antitrmico y se obtuvieron las siguientes reducciones de temperatura:
1,2 ; 1,7 ; 1,6 ; 1,7 ; 1 ; 1 ; 1 ; 2,6 ; 3 ; 1.
Sabiendo que la variable reduccin de temperatura es normal, hallar un intervalo de confianza del
95% para la media.





3. Una nueva droga ha curado 80 de 200 enfermos. Estmese un intervalo de confianza del 99%
para la proporcin de personas curadas si la nueva medicina se hubiese aplicado a una poblacin
constituida por todos los individuos con la misma enfermedad.

4. Al medir el tiempo de reaccin, un psiclogo estima que la desviacin tpica del mismo es de
0.05 segundos. Cul ser el nmero de medidas que deber hacer para que sea
a) del 95%
b) del 99%
la confianza de que el error, en la estimacin del tiempo medio de reaccin, no exceder de 0.01
segundos?



2
5. De una poblacin de personas comparables con exceso de peso se seleccionan dos grupos A y B
de 100 y 50 individuos respectivamente. A los individuos del grupo A se les suministra una nueva
dieta D
1
con la que sufren una prdida media de peso al cabo de un mes de 7.9 Kg. con una
desviacin tpica de 0.2 Kg. A los individuos del grupo B, se les suministra una dieta D
2
con la que
sufren una prdida media de peso al cabo de un mes de 6.8 Kg. con una desviacin tpica de 0.3 Kg.
Hallar los lmites de confianza del 95% para la diferencia del nmero medio de Kg. perdidos
producidos por el suministro de las dos dietas D
1
y D
2
.


1
CONTRASTE DE HIPTESIS


INTRODUCCIN

Realizamos un contraste de hiptesis cuando hacemos una afirmacin sobre alguna
caracterstica de una poblacin que luego contrastamos mediante una muestra aleatoria
extrada de dicha poblacin. Por ejemplo, no conocemos la media de una poblacin pero
pensamos que puede tomar un determinado valor, se trata de contrastar mediante una
muestra de esta poblacin si es factible que la media poblacional tome ese valor
concreto.

En general llamaremos hiptesis estadstica a una suposicin que determina, total o
parcialmente, la distribucin de una o varias variables aleatorias. Una hiptesis
estadstica puede ser:

Paramtrica: si la hiptesis es una afirmacin sobre los valores de los parmetros
poblacionales desconocidos. Las hiptesis paramtricas se clasifican en
Simples: si la hiptesis especifica un nico valor para los parmetros (ejemplo:
8 = ,
2 1
= , ).
Compuestas: si la hiptesis especifica un intervalo de valores (ejemplo:
8 ,
2 1
, ).

No paramtrica: si es una afirmacin sobre alguna caracterstica estadstica de la
poblacin en estudio. Por ejemplo, las observaciones son independientes, la distribucin
de la variable en estudio es normal, Las hiptesis no paramtricas se estudiarn en
otros temas.

Aunque los principios fundamentales sobre la metodologa para los contrastes son
anlogos en todos los casos, existen importantes variaciones segn el tipo de hiptesis.

En este tema estudiaremos las hiptesis paramtricas, ampliando dicho estudio en
otro tema posterior.

Un contraste o test de hiptesis es una tcnica de Inferencia Estadstica que permite
comprobar si la informacin que proporciona una muestra observada concuerda (o no)
con la hiptesis estadstica formulada sobre el modelo de probabilidad en estudio y, por
tanto, se puede aceptar (o no) la hiptesis formulada.

La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se denota por
0
H . Si se rechaza la hiptesis nula es porque se asume como correcta una hiptesis
complementaria que se denomina hiptesis alternativa y se denota por
1
H .
El planteamiento general es el siguiente:

1. Definir la hiptesis nula a contrastar,
0
H y la alternativa,
1
H .
2. Definir una medida de discrepancia entre los datos muestrales y la hiptesis
0
H . Para contrastes paramtricos la discrepancia puede expresarse como una
2
funcin del valor del parmetro especificado por
0
H ,
0
, y el valor estimado
en la muestra,

: )

; d(
0
(Estadstico del contraste).
3. Decidir a partir de que valor de diferencia entre

y
0
es una discrepancia
demasiado grande para poder atribuirse al azar.
4. Tomar la muestra, calcular

y la discrepancia d. Si sta es pequea, aceptar


0
H ; si es demasiado grande, rechazar
0
H y aceptar
1
H .

Es decir, hay que determinar un valor d
c
tal que, si
c
d d (regin de aceptacin)
se acepta
0
H y si
c
d d > ( regin de rechazo) se rechaza
0
H y se aceptar
1
H .

Al realizar un contraste podemos cometer dos tipos de errores: error de tipo I, es el
que cometemos cuando rechazamos la hiptesis nula cuando es cierta y error de tipo
II, es el que cometemos cuando aceptamos la hiptesis nula cuando es falsa. La
probabilidad de cometer error tipo I se le llama nivel de significacin y suele denotarse
por , es decir, nivel de significacin () cierta), es H | H P(rechazar
0 0
= y puede
interpretarse como la probabilidad que estamos dispuestos a asumir de rechazar
0
H
cuando es cierta.

El valor
c
d se determina a partir del nivel de significacin .

Cuando la regin de rechazo o regin crtica est formada por dos conjuntos de
puntos disjuntos, diremos que estamos ante un contraste bilateral o de dos colas y
unilateral o de una cola cuando est formada por un slo conjunto de puntos.

As, definir un contraste equivale a definir una medida de discrepancia, fijar , y
obtener a partir de un valor d
c
de manera que si
c
d d se acepta
0
H y si
c
d d > se
rechaza
0
H y se aceptar
1
H .

Como se coment anteriormente existe otro posible error, el error de tipo II, y la
magnitud de este ltimo depende del verdadero valor del parmetro.

Se define la potencia de un contraste como la probabilidad de rechazar la hiptesis
nula cuando es falsa, es decir, la probabilidad complementaria del error tipo II.
La idea es que dados dos contrastes definidos por dos medidas de discrepancia
distintas pero con el mismo nivel de significacin , elegiremos el que tenga menores
probabilidades de error tipo II para cada valor del parmetro, lo que se resume diciendo
que escogeremos el ms potente.
Los contrastes que utilizaremos sern de mxima potencia.

ANALOGAS ENTRE CONTRASTES DE HIPTESIS E INTERVALOS DE
CONFIANZA

Existe una gran relacin entre el intervalo de confianza para un parmetro de una
distribucin y el contraste de hiptesis relativo al mismo.
Si formulamos la hiptesis de que la media de una distribucin toma un
determinado valor
0
, y obtenemos un intervalo de confianza para una muestra
3
particular, si dicho intervalo no cubre el valor
0
, equivale a rechazar la hiptesis de que
=
0
. Consideremos, por ejemplo, el contraste para la de una poblacin N(,) con
conocida:

H
0
: =
0
H
1
:
0

Aceptamos H
0
si:
/2
0
z
n
x



es decir si:
/2
0
/2
z
n
x
z


n
z x
n
z

2 / 0 2 /


n

z x
n

z x
/2 0 /2
+ , es decir, si

+
n

z x ,
n

z x
/2 /2 0

que es el intervalo de confianza para la media al nivel de confianza 1 - .

Por tanto aceptar la hiptesis nula en un contraste bilateral equivale a que el intervalo
correspondiente cubra el valor del parmetro que se est contrastando, y rechazar H
0

equivale a que el intervalo no cubra dicho valor.
El nivel de significacin (probabilidad de cometer el error tipo I) se corresponde con
la probabilidad de que el intervalo de confianza no cubra el valor del parmetro que se
est contrastando.
El error tipo II se corresponde con la probabilidad de que el intervalo de confianza
cubra valores errneos.
En general los intervalos de confianza proporcionan ms informacin que los
contrastes de hiptesis.





















4
RESUMEN. CONTRASTES DE HIPTESIS.


CONTRASTE PARA DE UNA POBLACIN NORMAL:

I.
2
CONOCIDA:

Estadstico : N(0,1)
n
x
Z
0

= para =
0
.


Contraste: H
0
: =
0
H
0
:
0
H
0
:
0

H
1
:
0
H
1
: >
0
H
1
: <
0

Regin de
aceptacin: Z z
/2
Z z

Z - z



II.
2
DESCONOCIDA:

Estadstico :
1 - n
0
t
n s
x
t

= para =
0
.


a) muestra grande: 1) N(0,
n s
x
t
0

=


Contraste: H
0
: =
0
H
0
:
0
H
0
:
0

H
1
:
0
H
1
: >
0
H
1
: <
0

Regin de
aceptacin: t z
/2
t z

t - z



b) muestra pequea:
1 - n
0
t
1 - n s
x
t

=


Contraste: H
0
: =
0
H
0
:
0
H
0
:
0

H
1
:
0
H
1
: >
0
H
1
: <
0

Regin de
aceptacin: t t
/2,n-1
t t
,n-1
t - t
,n-1
5
NOTA: Para poblaciones no Normales y muestras grandes:
-
2
CONOCIDA, igual que caso I.
-
2
DESCONOCIDA, igual que caso II. a).

CONTRASTE PARA LA IGUALDAD DE MEDIAS DE DOS POBLACIONES
NORMALES:

I. VARIANZAS CONOCIDAS:

Estadstico : N(0,1)
n

x x
Z
2
2
2
1
2
1
2 1

= si
1
=
2
.


Contraste: H
0
:
1
=
2
H
0
:
1

2
H
0
:
1

2

H
1
:
1

2
H
1
:
1
>
2
H
1
:
1
<
2


Regin de
aceptacin: Z z
/2
Z z

Z - z



II. VARIANZAS DESCONOCIDAS y muestras grandes:

Igual que el caso I. pero sustituyendo
1
y
2
por sus estimadores:
2
2
2
1
s y s



NOTA: Para poblaciones no Normales y muestras grandes:
-
1
y
2
CONOCIDAS, igual que caso I.
-
1
y
2
DESCONOCIDA, igual que caso II.

CONTRASTE PARA p DE UNA POBLACIN BINOMIAL:


Estadstico : N(0,1)
n
) p (1 p
p p
Z
0

= si p = p
0
.

Contraste: H
0
: p = p
0
H
0
: p p
0
H
0
: p p
0

H
1
: p p
0
H
1
: p > p
0
H
1
: p < p
0

Regin de
aceptacin: Z z
/2
Z z

Z - z




1

CONTRASTE DE HIPTESIS (ejercicios)
1. El nivel medio de protrombina en una poblacin es conocido y resulta ser
aproximadamente de 20 mg/100 ml de plasma. Se toma una muestra de 40
pacientes que se sabe que tienen deficiencia de vitamina K. Los resultados son:


Es la muestra comparable con la poblacin, con un nivel de significacin del
0,05?















2. Un laboratorio farmacutico fabrica dos tipos de somnferos A y B. Se toman
dos grupos anlogos de enfermos de insomnio formados por 80 y 100
individuos respectivamente, suministrando a los enfermos del primer grupo el
somnfero A y a los del segundo grupo el B.
El nmero medio de horas de sueo para los enfermos del primer grupo fue de
7.84 con una desviacin tpica de 0.9 y para los del segundo grupo fue de 6.9 y
1.3 respectivamente.
Se puede decir que la diferencia entre los nmeros medios de horas de sueo es
significativa?.

















ml 100 mg/ 4 s y ml mg/100 18,5 x = =
2
3. Por fistulizacin se obtuvo el pH de 7 muestras de bilis heptica, con los
siguientes resultados:
7.83 8.52 7.32 7.79 7.59 7.57 6.98
Se desea saber si la bilis heptica puede considerarse neutra. Se supone
normalidad.
a) Suponer desconocida.
b) Suponer =0.25.

4. La proporcin de individuos afectados por una enfermedad en una amplia zona
es 0,2. En otra regin hay tambin individuos afectados por dicha enfermedad
pero se desconoce en que proporcin. Se tom una muestra de esta regin de
800 personas observando una proporcin de enfermos en la muestra de 0,18.
Contrastar si se puede considerar que la proporcin de enfermos en esta regin
es tambin 0,2 para un nivel de significacin de 0,05.




















Tema 8. Analisis de la Varianza
Se ha visto en el tema 7 como se pueden comparar dos medias muestrales, median-
te una t de Student, para contrastar si las correspondientes medias poblacionales
dieren signicativamente.
En muchas ocasiones se suele plantear un problema similar con varias muestras
procedentes de otras poblaciones. El objetivo es contrastar la hipotesis nula seg un la
cual todas las medias poblacionales
i
son iguales. Este contraste se realiza mediante
la tecnica conocida como analisis de la varianza o tambien ANOVA ( del ingles
ANALYSIS OF VARIANCE).
Tambien se suele decir analisis de la varianza con un factor, para hacer referencia
al hecho de que se distingue entre diferentes poblaciones atendiendo a un unico
criterio o factor de clasicacion. El analisis de la varianza con un factor constituye
la version mas sencilla del problema general de dise no de experimentos.
Ejemplo: se quiere analizar el peso en una determinada raza de animales seg un
el tipo de dieta y se dispone de mas de dos dietas.
Formulacion del problema
Se quiere analizar una caracterstica cuantitativa X, que se suele llamar variable
respuesta, sometida a m niveles de un unico factor. Fundamentalmente, nos in-
1
2 Analisis de la Varianza
teresa estudiar si el factor tiene inuencia signicativa, desde un punto de vista
estadstico, sobre la variable respuesta. En el ejemplo anterior, el objetivo es de-
terminar si el factor, en este caso el tipo de dieta, inuye signicativamente en la
variable respuesta, en este caso el peso, es decir, hay diferencias signicativas en el
peso medio seg un el tipo de dieta suministrada?
Para estudiar esto, obtendremos, para cada nivel del factor, una muestra aleato-
ria de valores de X:
Niveles del factor Observaciones Tama no de la muestra
1 x
11
, . . . , x
1n
1
n
1
2 x
21
, . . . , x
2n
2
n
2



m x
m1
, . . . , x
mn
m
n
m

m
i=1
n
i
= n
donde supondremos que las observaciones x
ij
son independientes y que, para cada
i = 1, , m, las observaciones x
i1
, . . . , x
in
i
poceden de una varible X
i
con dis-
tribucion N(
i
, ). Es decir, para todas las variables X
i
estamos suponiendo la
misma varianza
2
.
Contrastaremos la hipotesis nula:
H
0
:
1
=
2
= . . . =
m
= (1)
es decir, el factor no tiene inuencia apreciable sobre la variable X frente a la
hipotesis alternativa H
1
: alg un
i
es distinto de , o lo que es lo mismo, el factor
tiene una inuencia signicativa sobre X.
El nombre de analisis de la varianza se debe a que esta tecnica consiste en des-
componer la varianza total de la variable respuesta en dos partes: la variabilidad
Analisis de la Varianza 3
entre los diferentes grupos y la variabilidad dentro de los grupos y comparar ambas.
Si la hipotesis nula es cierta, la primera debe ser razonablemente peque na en com-
paracion con la segunda y, por tanto, rechazaremos H
0
si la la variabilidad entre
grupos es muy grande en relacion con la variabilidad dentro de los grupos.
Denotamos por x
i.
=
n
i

j=1
x
ij
n
i
(i = 1, . . . , m) y x
..
=
m

i=1
n
i

j=1
x
ij
n
=
m

i=1
n
i
x
i.
n
las medias muestrales de cada grupo y la media total, respectivamente.
La varianza total se puede escribir como:
m

i=1
n
i

j=1
(x
ij
x
..
)
2
=
m

i=1
n
i
(x
i.
x
..
)
2
+
m

i=1
n
i

j=1
(x
ij
x
i.
)
2
(2)
Para realizar el contraste de hipotesis dado en (1), utilizaremos el hecho de que
si, H
0
:
1
=
2
= . . . =
m
= es cierta, entonces:
F =
m

i=1
n
i
(x
i.
x
..
)
2
m 1
m

i=1
n
i

j=1
(x
ij
x
i.
)
2
n m
F
m1,nm
Si H
0
es cierta, cabe esperar que las medias muestrales dentro de cada grupo sean
parecidas entre s y parecidas a la media total, es decir, si H
0
es cierta, cabe esperar
que el numerador del estadstico F sea peque no en comparacion con el denominador.
Por tanto, rechazaremos H
0
cuando F tome valores grandes. Concretamente, recha-
zaremos la hipotesis nula H
0
:
1
=
2
= . . . =
m
= , al nivel de signicacion ,
cuando
F =
m

i=1
n
i
(x
i.
x
..
)
2
m 1
m

i=1
n
i

j=1
(x
ij
x
i.
)
2
n m
> F
m1,nm,
4 Analisis de la Varianza
Para llevar a cabo este contraste, los calculos se organizan de manera habitual
en una tabla que recibe el nombre de tabla de analisis de la varianza:
Fuente de Suma de Grados de Cuadrado
variaci on cuadrados libertad medio Estadstico
Entre grupos
m

i=1
n
i
(x
i.
x
..
)
2
m 1
m

i=1
n
i
(x
i.
x
..
)
2
m 1
F
Dentro de grupos
m

i=1
n
i

j=1
(x
ij
x
i.
)
2
n m
m

i=1
n
i

j=1
(x
ij
x
i.
)
2
n m
Total
m

i=1
n
i

j=1
(x
ij
x
..
)
2
n 1
o, equivalentemente (sobre todo para el calculo manual):
Fuente de Suma de Grados de Cuadrado
variaci on cuadrados libertad medio Estadstico
Entre grupos E =
m

i=1
s
2
i
n
i

s
2
n
m 1
E
m 1
F
Dentro de grupos D = sc
m

i=1
s
2
i
n
i
n m
D
n m
Total T = sc
s
2
n
n 1
donde:
s
i
es la suma de las observaciones del grupo i: s
i
=
n
i

j=1
x
ij
s es la suma de todas las observaciones: s =
m

i=1
n
i

j=1
x
ij
=
m

i=1
s
i
Analisis de la Varianza 5
sc
i
es la suma de las observaciones al cuadrado del grupo i: sc
i
=
n
i

j=1
x
2
ij
sc es la suma de todas las observaciones al cuadrado: sc =
m

i=1
n
i

j=1
x
2
ij
=
m

i=1
sc
i
Nota: Teniendo en cuenta (2), se tiene que T = E + D, por lo que podemos
obtener dos elementos de los tres (E, D, T) y el tercero se obtiene despejando.
Para obtener los distintos calculos que aparecen en la tabla, podemos ayudarnos
mediante el siguiente cuadro:
Niveles Tama no
del factor Observaciones de la muestra s
i
=
n
i

j=1
x
ij
sc
i
=
n
i

j=1
x
2
ij
s
2
i
n
i
1 x
11
, . . . , x
1n
1
n
1
s
1
=
n
1

j=1
x
1j
sc
1
=
n
1

j=1
x
2
1j
s
2
1
n
1
2 x
21
, . . . , x
2n
2
n
2
s
2
=
n
2

j=1
x
2j
sc
2
=
n
2

j=1
x
2
2j
s
2
2
n
2



m x
m1
, . . . , x
mn
m
n
m
s
m
=
n
m

j=1
x
mj
sc
m
=
n
m

j=1
x
2
mj
s
2
m
n
m
Total n =
m

i=1
n
i
s =
m

i=1
s
i
sc =
m

i=1
sc
i
m

i=1
s
2
i
n
i
Ejemplo: Para estudiar el efecto de cuatro dietas de adelgazamiento diferentes,
se ha tomado un total de 20 individuos que se han distribuido en cuatro grupos,
cada uno de los cuales se ha tratado con una de ellas. La tabla siguiente recoge
la disminuci on de peso en kg al cabo de un mes. Se quiere saber si existe efecto
signicativamente distinto entre las dietas suministradas.
Si aceptamos que, en cada grupo, las observaciones siguen distribuciones nor-
males y las varianzas son iguales, entonces, estamos en las hipotesis del analisis de
6 Analisis de la Varianza
Dieta:
A 8 3 9 5 2 6
B 4 2 1 5
C 9 10 8 6
D 5 4 3 6 2 3
la varianza y podremos aplicarlo para contrastar si las disminuciones medias de peso
son similares con las cuatro dietas o no. Es decir, podremos estudiar si el factor
dieta tiene efecto signicativo en la disminuci on del peso.
Calculos previos:
Niveles Tama no
del factor Observaciones de la muestra s
i
=
n
i

j=1
x
ij
sc
i
=
n
i

j=1
x
2
ij
s
2
i
n
i
A 8, 3, 9, 5, 2, 6 6 33 219 181,5
B 4, 2, 1, 5 4 12 46 36
C 9, 10, 8, 6 4 33 281 272,25
D 5, 4, 3, 6, 2, 3 6 29 99 88,167
Total n = 20 s = 101 sc = 645 577,917
Para un nivel de signicacion , se busca en la tabla de la distribucion F de
Fisher-Snedecor con 3 y 16 grados de libertad el valor F
3,16,
, y se compara con el
valor obtenido del estadstco F:
F
3,16,0,05
= 3, 24 < 5, 39
F
3,16,0,01
= 5, 29 < 5, 39
Por tanto, rechazamos la hipotesis nula H
0
:
A
=
B
=
C
=
D
al nivel
Analisis de la Varianza 7
Tabla de analisis de la varianza
Fuente de Suma de Grados de Cuadrado
variacion cuadrados libertad medio Estadstico
Entre grupos 577, 917
101
2
20
3
67, 867
3
22, 622
4, 193
= 5, 39
=67,867 =22,622
Dentro de
grupos 645-577,917 16
67, 083
16
=67,083 =4,193
Total 645
101
2
20
= 134, 95 19
= 0, 01, y podemos concluir que el factor dieta tiene efecto signicativo en la
disminuci on del peso, puesto que existen diferencias signicativas en la disminucion
media del peso seg un el tipo de dieta.
Ejercicios
1. Se consideran tres procedimientos distintos de conservacion de una bacteria. Se
toman 14 cultivos de dicha bacteria realizadas seg un las tecnicas anteriores, obser-
vando que los das de duracion son:
tecnica I: 4 3 2 3 das
tecnica II: 2 3 3 1 2 das
tecnica III: 1 2 1 2 1 das
Se puede asegurar que, en conjunto, los tres procedimientos de conservacion
proporcionan resultados equivalentes?
8 Analisis de la Varianza
2. Se desea demostrar que existen diferencias signicativas entre tres procedi-
mientos de medicion del volumen de un cierto tumor, con el n de justicar el empleo
de uno de los procedimientos que es muy costoso. Se realizaron estas mediciones en
7 de estos tumores, obteniendo los siguientes valores:
Tumores: 1 2 3 4 5 6 7
Proced. I: 15 20 12 30 42 29 25
Proced. II: 14 18 11 25 43 30 27
Proced. III: 16 22 10 32 45 28 20
Que conclusiones pueden obtenerse de este estudio?
3. Se sabe que los pacientes afectados por ictericia hemoltica ven aumentada
su secrecion de urobilinogeneo a traves de la orina. Se estan probando 3 metodos
terapeuticos para este padecimiento, y un modo de conocer su efectividad es com-
probar el descenso en la mencionada secrecion, que vamos a medir en g/da. Cada
terapia se aplico a 10 pacientes y se recogieron los descensos medios y las sumas de
cuadrados de descensos para cada grupo, que se dan en la tabla siguiente:
T
1
T
2
T
3
Media 7,2 12,1 20,2
Suma de cuadrados 912,4 2020 5405
Inuye el tipo de terapia en el descenso de urobilinogeno?.
Tema 9. Contrastes
2
Otro tipo de pruebas no parametricas son los contrastes
2
. Estas pruebas son
contrastes de hip otesis, donde los estadsticos que se utilizan, para decidir si se
acepta o se rechaza la hip otesis nula, tienen aproximadamente una distribuci on
2
de Pearson.
En el campo de la salud nos encontramos con frecuencia con variables cualita-
tivas (y tambien variables aleatorias discretas o continuas agrupadas en intervalos)
mediante las cuales un grupo de individuos se clasican en dos o mas categoras
mutuamente excluyentes, y entre las que se puede estar interesado en determinar
posibles relaciones. En estos casos se tienen las observaciones agrupadas en forma
de frecuencias, dependiendo de la modalidad que presente cada elemento en cada
una de las variables, y los metodos estudiados en temas anteriores no podran ser
aplicados.
En general, estos contrastes consisten en, dada una muestra, observar si hay
diferencias signicativas entre las frecuencias observadas y las frecuencias esperadas
si la hip otesis nula es cierta.
El uso de los contrastes
2
no se limita al estudio de variables cualitativas. Las
aplicaciones basicas del contraste
2
son las siguientes:
- Contraste de la bondad del ajuste. Es un contraste para ver si la muestra
procede de una poblacion con un determinado modelo de probabilidad.
1
2 Contrastes
2
- Contraste de homogeneidad de poblaciones. Es un contraste para ver
si dos o mas muestras pueden ser consideradas como procedentes de la misma
poblaci on.
- Contraste de independencia. Para ver si dos o mas caractersticas de una
poblaci on est an relacionadas o no.
Contraste de la bondad del ajuste
Dada una muestra aleatoria (x
1
, . . . , x
n
) de una poblaci on X con distribucion des-
conocida, queremos ver si, a la vista de la muestra, es razonable admitir que la
distribuci on de la poblaci on viene dada por un modelo de probabilidad P deter-
minado, es decir, queremos ver si los datos se ajustan bien a esta distribucion
P.
As, tenemos:
H
0
: El modelo de probabilidad de X es P
H
1
: El modelo de probabilidad de X no es P
Para contrastar H
0
frente a H
1
se hace una partici on (arbitraria) del espacio
muestral de la poblaci on, es decir, de los posibles valores de X, en k clases A
1
, . . . , A
k
.
Despues, para cada A
i
, con i = 1, . . . , k, consideramos las siguientes frecuencias
absolutas:
O
i
: frecuencia observada en la clase A
i
, es decir, n umero de elementos de la
muestra x
1
, . . . , x
n
que se han situado en la clase A
i
.
e
i
: frecuencia esperada en la clase A
i
, si la hipotesis nula es cierta, es decir,
nP(A
i
), donde P(A
i
) es la probabilidad que el modelo de probabilidad P da a la
Contrastes
2
3
clase A
i
.
El estadstico para este contraste es:
k

i=1
(O
i
e
i
)
2
e
i
que tiene, aproximadamente, una distribucion
2
k1
si H
0
es cierta.
Si la muestra procede de P, cabe esperar que lo valores para O
i
y e
i
sean pare-
cidos y, por tanto, este estadstico debera tomar valores pr oximos a cero. As,
rechazaremos la hip otesis nula cuando los valores de este estadstico sean grandes
y la aceptaremos cuando sean peque nos. El valor a partir del cual se considera
que es un valor grande viene dado por la elecci on de un nivel de signicaci on . Por
tanto, se tiene que:
Rechazamos la hip otesis nula (H
0
: El modelo de probabilidad de X es
P) al nivel de signicaci on si:
k

i=1
(O
i
e
i
)
2
e
i
>
2
k1;
Si fuese necesario estimar alg un par ametro de la distribuci on te orica, el es-
tadstico tendra una distribuci on
2
k1r
, donde r es el n umero de parametros esti-
mados.
Se puede demostrar que
k

i=1
(O
i
e
i
)
2
e
i
=
k

i=1
O
2
i
e
i
n
lo que facilita el calculo del estadstico.
Ejemplo
En una teora existente sobre la aparici on de un virus se crea que este apareca en
la proporcion 2, 3, 4, 5 para la ni nez, pubertad, madurez y vejez, respectivamente.
4 Contrastes
2
Para corroborar esta hip otesis se hizo un estudio con un total de 3000 individuos
que posean este virus, observandose que apareca en 200 ni nos, 800 adolescentes,
900 adultos y 1100 ancianos. Que podemos decir sobre la hip otesis inicial?
La variable en estudio X es la edad en la que aparece el virus. Elegimos las
clases: A
1
= ni nos, A
2
= adolescentes, A
3
= adultos y A
4
= ancianos, puesto que
las proporciones te oricas dadas est an referidas a estas clases.
Como la proporci on teorica de aparici on del virus es 2, 3, 4 y 5, se tiene que el
modelo de probabilidad te orico P es:
P(A
1
) =
2
14
, P(A
2
) =
3
14
, P(A
3
) =
4
14
y P(A
4
) =
5
14
Con las frecuencias observadas en la muestra:
O
1
= 200, O
2
= 800, O
3
= 900 y O
4
= 1100
queremos ver si es razonable admitir que la distribuci on de la variable edad en la
que aparece el virus es P, es decir, queremos contrastar:
H
0
: El modelo de probabilidad de X es P
frente a
H
1
: El modelo de probabilidad de X no es P
Por lo que utilizaremos el estadstico

k
i=1
(O
i
e
i
)
2
e
i
=

k
i=1
O
2
i
e
i
n, para lo que
necesitamos conocer tambien las frecuencias esperadas:
e
1
= nP(A
1
) = 3000
2
14
= 428, 57, e
2
= nP(A
2
) = 3000
3
14
= 642, 86
e
3
= nP(A
3
) = 3000
4
14
= 857, 14, e
4
= nP(A
4
) = 3000
5
14
= 1071, 43
Contrastes
2
5
As se tiene que:
k

i=1
O
2
i
e
i
n =
200
2
428, 57
+
800
2
642, 86
+
900
2
857, 14
+
1100
2
1071, 43
3000 163, 21
Ahora buscamos en la tabla de la distribucion
2
de Pearson para k1 = 3 grados
de libertad, y para un nivel de signicaci on = 0, 001 se tiene:
k1=3;=0,001
=
16, 268. Por tanto, como el valor del estadstico es 163, 21 > 16, 268 =
k1=3;=0,001
,
rechazamos la hipotesis nula y no podemos corroborar que el virus aparece en la
proporci on 2, 3, 4, 5 para la ni nez, pubertad, madurez y vejez, respectivamente.
Para la obtenci on del estadstico podemos organizar los c alculos en una tabla de
forma siguiente:
Clases O
i
P(A
i
) nP(A
i
)
O
2
i
e
i
Ni nos (A
1
) 200
2
14
428,57 93,33
Adolescentes (A
2
) 800
3
14
642,86 995,55
Adultos (A
3
) 900
4
14
857,14 945,00
Ancianos (A
4
) 1100
5
14
1071,43 1129,33
Total 3000 3000

k
i=1
O
2
i
e
i
= 3163, 21
y el valor del estadstico ser a

4
i=1
O
2
i
e
i
n = 3163 3000 = 163, 21
Contraste de homogeneidad de poblaciones
Supongamos que disponemos de p muestras aleatorias tomadas independientemente
en p poblaciones, con n
1
, . . . , n
p
elementos cada una de ellas, sobre una caracterstica
X com un a todas ellas. Queremos ver si, a la vista de las muestras obtenidas, es
6 Contrastes
2
razonable admitir que las p muestras proceden de la misma poblacion o, equivalen-
temente, que las p poblaciones tienen una distribucion com un, es decir, queremos
ver si son poblaciones homogeneas.
Un ejemplo de este tipo de problemas, consiste en estudiar si son homgeneos
respecto a la ecacia (curaci on o no curacion) varios tratamientos aplicados a un
cierto tipo de enfermos.
As, tenemos:
H
0
: Las p poblaciones tienen una distribuci on com un
H
1
: Las p poblaciones no tienen una distribucion com un
Para contrastar H
0
frente a H
1
, hacemos una partici on arbitraria del espacio
com un a las p poblaciones en k clases A
1
, . . . , A
k
.
Despues, para la clase A
i
, con i = 1, . . . , k, y para la muestra de la poblaci on
j-esima, con j = 1, . . . , p, consideramos las siguientes frecuencias absolutas:
O
ij
: frecuencia observada en la clase A
i
con la muestra j-esima.
e
ij
: frecuencia esperada en la clase A
i
con la muestra j-esima, si la hip otesis
nula es cierta, es decir, n
j
P(A
i
), donde P(A
i
) es la probabilidad que el modelo de
probabilidad P, com un a las p poblaciones, da a la clase A
i
.
Estas probabilidades se podran obtener a partir del modelo de probabilidad P
com un a las p poblaciones, si este fuese conocido, pero normalmente no es conocido.
Adem as, lo unico que en realidad nos interesa es contrastar si las p poblaciones tienen
una distribucion com un, sin que sepamos ni nos importe cu al es esa distribucion
com un. Por tanto, tenemos que estimar P(A
i
), con i = 1, . . . , k, a partir de las
observaciones. A continuacion se da la mejor estimacion de estas probabilidades:

P(A
i
) =
1
n
p

j=1
O
ij
(i = 1, . . . , k)
Contrastes
2
7
Entonces, las frecuencias esperadas, para i = 1, . . . , k y j = 1, . . . , p, seran:
e
ij
= n
j

P(A
i
) =
n
j
n
p

j=1
O
ij
=
k

i=1
O
ij
p

j=1
O
ij
n
donde n = n
1
+. . . +n
p
, y el estadstico para este contraste es:
p

j=1
k

i=1
(O
ij
e
ij
)
2
e
ij
que tiene, aproximadamente, una distribucion
2
(k1)(p1)
si H
0
es cierta.
Por tanto, se tiene que:
Rechazamos la hip otesis nula (H
0
: Las p poblaciones tienen una dis-
tribucion com un) al nivel de signicaci on si:
p

j=1
k

i=1
(O
ij
e
ij
)
2
e
ij
>
2
(k1)(p1);
De manera similar al contraste de la bondad del ajuste, se puede demostrar que
p

j=1
k

i=1
(O
ij
e
ij
)
2
e
ij
=
p

j=1
k

i=1
O
2
ij
e
ij
n
lo que facilita el calculo del estadstico.
8 Contrastes
2
Normalmente las frecuencias observadas se disponen en una tabla de la siguiente
manera:
Muestra 1 Muestra j Muestra p Totales
A
1
O
11
O
1j
O
1p

p
j=1
O
1j
= T
A
1

A
i
O
i1
O
ij
O
ip

p
j=1
O
ij
= T
A
i

A
k
O
k1
O
kj
O
kp

p
j=1
O
kj
= T
A
k
Totales

k
i=1
O
i1


k
i=1
O
ij


k
i=1
O
ip
n
= T
M
1
= T
M
j
= T
M
p
y las frecuencias esperadas en otra tabla, que se construye a partir de los valores
de la primera:
Muestra 1 Muestra j Muestra p
A
1
e
11
=
T
M
1
T
A
1
n
e
1j
=
T
M
j
T
A
1
n
e
1p
=
T
M
p
T
A
1
n

A
i
e
i1
=
T
M
1
T
A
i
n
e
ij
=
T
M
j
T
A
i
n
e
ip
=
T
M
p
T
A
i
n

A
k
e
k1
=
T
M
1
T
A
k
n
e
kj
=
T
M
j
T
A
k
n
e
kp
=
T
M
p
T
A
k
n
Ejemplo
Para curar una cierta enfermedad, se sabe que existen cinco tratamientos diferentes.
Se aplican por separado, cada uno, a un grupo de enfermos que padecen esa enfer-
medad. Los resultados observados se dan en la tabla siguiente. Se puede considerar
que la ecacia de los cinco tratamientos es la misma, con un nivel de signicaci on
del 5%?
Contrastes
2
9
Curados No curados Total
Tratamiento A 61 15 76
Tratamiento B 50 14 64
Tratamiento C 63 18 81
Tratamiento D 66 23 89
Tratamiento E 60 30 90
Total 300 100 400
Queremos ver si se puede considerar que la ecacia de los cinco tratamientos es
la misma, es decir, queremos ver si las cinco muestras (tratamientos) proceden de
la misma poblaci on o, equivalentemente, si son poblaciones homogeneas.
Consideramos las clases: A
1
= curados y A
2
= no curados, y las cinco muestras:
los cinco tratamientos, y planteamos el siguiente contraste de hip otesis:
H
0
: la ecacia de los cinco tratamientos es la misma
frente
H
1
: la ecacia de los cinco tratamientos no es la misma
Se obtienen las frecuencias esperadas a partir de la tabla dada de frecuencias
observadas:
Curados No curados
Tratamiento A
76 300
400
= 57, 00
76 100
400
= 19, 00
Tratamiento B
64 300
400
= 48, 00
64 100
400
= 16, 00
Tratamiento C
81 300
400
= 60, 75
81 100
400
= 20, 25
Tratamiento D
89 300
400
= 66, 75
89 100
400
= 22, 25
Tratamiento E
90 300
400
= 67, 50
90 100
400
= 22, 50
10 Contrastes
2
Se calcula el valor del estadstico:
5

j=1
2

i=1
(O
ij
e
ij
)
2
e
ij
=
5

j=1
2

i=1
O
2
ij
e
ij
n =
61
2
57
+
15
2
19
+
50
2
48
+
14
2
16
+
63
2
60, 75
+
18
2
20, 25
+
66
2
66, 75
+
23
2
22, 25
+
60
2
67, 50
+
30
2
22, 50
400
= 5, 156
Rechazaremos H
0
si se verica que

5
j=1

2
i=1
(O
ij
e
ij
)
2
e
ij
>
2
51;0,05
.
Puesto que 5, 156 <
2
4;0,05
= 9, 488 (ver tablas de la distribucion
2
), aceptamos
H
0
, es decir, podemos aceptar que la ecacia de los cinco tratamientos es la misma
(al nivel de signicaci on 0,05).
Contraste de independencia
Suponemos ahora que estamos interesados en estudiar si dos caractersticas X e Y de
una poblacion est an relacionadas o no. Para ello, se obtiene una muestra aleatoria
de n pares de valores de estas caractersticas: ((x
1
, y
1
), . . . , (x
n
, y
n
)).
Queremos ver si, a la vista de la muestra, se puede admitir que las caractersticas
X e Y son independientes. As, tenemos:
H
0
: X e Y son independientes
H
1
: X e Y no son independientes
Por ejemplo, en una muestra de individuos podemos considerar, simult aneamente,
el color de la piel (oscura y clara) y el color del pelo (negro, casta no y rubio).
Para efectuar el contraste, se realiza una partici on arbitraria del espacio muestral
(posibles valores de X e Y ) en kp clases A
1
B
1
, . . . , A
i
B
j
, . . . , A
k
B
p
, donde
A
1
, . . . , A
k
son las clases elegidas para la caracterstica X y B
1
, . . . , B
p
las clases
elegidas para la caracterstica Y , que al cruzarlas se obtienen las kp clases anteriores.
Contrastes
2
11
Consideramos:
O
ij
: frecuencia observada en la clase A
i
B
j
.
e
ij
: frecuencia esperada en la clase A
i
B
j
, si la hip otesis nula es cierta, es decir,
nP(A
i
)P(B
j
).
Normalmente, las probabilidades P(A
i
) y P(B
j
) no son conocidas y tienen que
ser estimadas a partir de la muestra, de la manera siguiente:

P(A
i
) =
1
n
p

j=1
O
ij
y

P(B
j
) =
1
n
k

i=1
O
ij
Por tanto, las frecuencias esperadas seran:
e
ij
= n

P(A
i
)

P(B
j
) = n
p

j=1
O
ij
n
k

i=1
O
ij
n
=
p

j=1
O
ij
k

i=1
O
ij
n
y el estadstico para este contraste es:
p

j=1
k

i=1
(O
ij
e
ij
)
2
e
ij
que tiene, aproximadamente, una distribucion
2
(k1)(p1)
si H
0
es cierta.
Este estadstico coincide con el que se utiliza para el contraste de homogeneidad,
aunque tiene un origen diferente.
Por tanto:
Rechazamos la hipotesis nula (H
0
: X e Y son independientes) al nivel
de signicacion si:
p

j=1
k

i=1
(O
ij
e
ij
)
2
e
ij
>
2
(k1)(p1);
La disposicion en tablas de las frecuencias observadas y esperadas es igual que
en el contraste de homogeneidad:
12 Contrastes
2
Frecuencias observadas:
B
1
B
j
B
p
Totales
A
1
O
11
O
1j
O
1p

p
j=1
O
1j
= T
A
1

A
i
O
i1
O
ij
O
ip

p
j=1
O
ij
= T
A
i

A
k
O
k1
O
kj
O
kp

p
j=1
O
kj
= T
A
k
Totales

k
i=1
O
i1


k
i=1
O
ij


k
i=1
O
ip
n
= T
B
1
= T
B
j
= T
B
p
Frecuencias esperadas:
B
1
B
j
B
p
A
1
e
11
=
T
B
1
T
A
1
n
e
1j
=
T
B
j
T
A
1
n
e
1p
=
T
B
p
T
A
1
n

A
i
e
i1
=
T
B
1
T
A
i
n
e
ij
=
T
B
j
T
A
i
n
e
ip
=
T
B
p
T
A
i
n

A
k
e
k1
=
T
B
1
T
A
k
n
e
kj
=
T
B
j
T
A
k
n
e
kp
=
T
B
p
T
A
k
n
Ejemplo
Se ha realizado un estudio para determinar si existe relaci on entre el color de la piel
(oscura y clara) y el color del pelo (negro, casta no y rubio). Los datos obtenidos
sobre 70 individuos estudiados se muestran en la tabla siguiente.
Para decidir si existe relacion entre estas dos caractersticas, planteamos un
contraste de independencia:
H
0
: Las dos caractersticas son independientes
H
1
: Existe relacion entre las dos caractersticas
Contrastes
2
13
Pelo
Negro Casta no Rubio Total
Oscura 20 20 5 45
Piel
Clara 5 10 10 25
Total 25 30 15 70
(A este tipo de tablas se les denomina tablas de contingencia)
Se obtiene la tabla de frecuencias esperadas a partir de la tabla dada de frecuen-
cias observadas:
Pelo
Negro Casta no Rubio
Oscura
25 45
70
= 16, 07
30 45
70
= 19, 29
15 45
70
= 9, 64
Piel
Clara
25 25
70
= 8, 93
30 25
70
= 10, 71
15 25
70
= 5, 36
y se calcula el valor del estadstico:
3

j=1
2

i=1
(O
ij
e
ij
)
2
e
ij
=
3

j=1
2

i=1
O
2
ij
e
ij
n =
20
2
16, 07
+
5
2
8, 93
+
20
2
19, 29
+
10
2
10, 71
+
5
2
9, 64
+
10
2
5, 36
= 79, 01
Rechazaremos H
0
si se verica que

3
j=1

2
i=1
(O
ij
e
ij
)
2
e
ij
>
2
(21)(31);
.
Puesto que 79, 01 >
2
2;0,001
= 13, 815 (ver tablas de la distribuci on
2
), recha-
zamos H
0
y podemos concluir que existe relaci on entre el color de la piel y el color
del pelo (al nivel de signicacion 0,001).
14 Contrastes
2
Ejercicios
1. Se ha medido el peso en kg de una muestra de 37 individuos de una poblaci on,
cuyos valores se dan a continuacion:
50 51 53 55 56 57 58 58 58
59 60 60 61 61 62 62 63 64
64 64 64 65 66 67 67 67 68
68 69 69 71 71 72 73 74 77 79
Se puede aceptar que el peso sigue una distribucion Normal? Para realizar los
c alculos, agrupar en clases de amplitud uniforme de 5 kg, siendo una marca de clase
67,5 kg.
2. Se ha medido la tasa de colesterol en un grupo de pacientes considerando su
edad. Los resultados observados son los siguientes:
Edad Tasa de colesterol
(a nos)
0-30 5 1 1
30-60 2 2 3
60-90 1 3 4
Depende la tasa de colesterol de la edad?
3. Para un estudio sobre infecciones hospitalarias se divide un hospital en tres
secciones A, B y C, donde se aplican procedimientos distintos para evitar estas
infecciones ajenas al motivo del ingreso. Se ingresan 150 pacientes en la secci on
A, 250 en la secci on B y 100 en la secci on C. En la tabla siguiente se recogen los
resultados observados.
Contrastes
2
15
Secci on Infectados No infectados
A 27 123
B 20 230
C 24 76
Se puede considerar que las tres secciones son similares en lo que se reere a
contraer una infeccion hopitalaria?

You might also like