Professional Documents
Culture Documents
1 x
2
2
Mg Hugo Fernando Ayan
Contenidos
Programa Analtico ....................................................................................................... 7
Gua de Trabajos Prcticos ............................................................................................ 9
Programa de Examen Final ......................................................................................... 11
Estadstica y Biometra ................................................................................................... 13
Organizacin de Datos ................................................................................................ 15
Variables cualitativas o categricas ............................................................................. 15
Variables cuantitativas ................................................................................................ 16
Otras formas de clasificacin....................................................................................... 16
Modalidad - Clases...................................................................................................... 17
Tablas estadsticas ....................................................................................................... 17
Distribucin de frecuencias ......................................................................................... 18
Eleccin de intervalos para variables continuas ........................................................... 20
Representaciones Grficas........................................................................................... 22
Grficos para variables cualitativas ............................................................................. 24
Diagramas de sectores ................................................................................................. 25
Pictogramas ................................................................................................................ 25
Grficos para variables cuantitativas ........................................................................... 25
Diagramas diferenciales .............................................................................................. 26
Diagramas integrales ................................................................................................... 26
Grficos para variables discretas ................................................................................. 26
Grficos para variables continuas ................................................................................ 27
Histogramas ................................................................................................................ 27
Polgonos de frecuencias ............................................................................................. 27
Diagrama de barras de error ........................................................................................ 29
Diagramas de dispersin ............................................................................................. 30
Funciones matemticas lineales y cuadradas................................................................ 31
Funcin lineal y ecuacin de la recta ........................................................................... 31
Funcin lineal como propiedad de los sistemas generales ............................................ 32
Interpretacin geomtrica ............................................................................................ 32
Funcin cuadrtica ...................................................................................................... 34
Estudio de la funcin ................................................................................................... 35
Medidas descriptivas estadsticas ................................................................................ 41
Estadsticos de tendencia central ................................................................................. 41
Mediana ...................................................................................................................... 42
Moda .......................................................................................................................... 43
Estadsticos de posicin: Cuartiles (Ql)........................................................................ 45
Estadsticos de posicin: Percentiles ............................................................................ 45
Deciles ........................................................................................................................ 46
Medidas de dispersin ................................................................................................. 47
Amplitud (A) o Rango................................................................................................. 47
Varianza ...................................................................................................................... 49
Desviacin estndar .................................................................................................... 49
Grados de libertad ....................................................................................................... 49
Propiedades del desvo standard .................................................................................. 50
Coeficiente de Variacin ............................................................................................. 50
Asimetra o sesgo ........................................................................................................ 51
Apuntamiento (Curtosis) ............................................................................................. 52
Clculo de Probabilidades ........................................................................................... 55
Experimentos y Sucesos Aleatorios (condiciones) ....................................................... 55
2
Condicin de Regularidad
Programa Analtico
10
Bolilla N 1
1.1 Necesidad y finalidad de la Investigacin. Poblacin y Muestra.
1.2 Espacio muestral. Eventos. Concepto de Probabilidad.
1.3 La funcin de densidad normal. Estandarizacin.
1.4 Estimacin puntual. Propiedades de los buenos estimadores.
1.5 Concepto de prueba de Hiptesis.
1.6 Prueba de Hiptesis acerca de la esperanza de una distribucin cuando se conoce 2.
Estimacin por intervalos para la esperanza de una distribucin normal cuando se conoce
2
.
1.7 Anlisis de Regresin Lineal.
1.8 Pruebas No Paramtricas. Tablas de Contingencia.
1.9 ANAVA: Definiciones preliminares.
Bolilla N 2
2.1 Variables. Tipos de variables.
2.2 Evento Aleatorio. Concepto de variable aleatoria.
2.3 Funcin de distribucin acumulada normal. Uso de la tabla para distribucin normal.
2.4 Estimacin por intervalo. Procedimiento general para encontrar un intervalo de confianza
para un parmetro distribucional.
2.5 Hiptesis Nula y Alternativa.
2.6 Prueba de hiptesis acerca de la esperanza de una distribucin normal cuando 2 es
desconocida. Estimacin por intervalos para la esperanza de una distribucin normal
cuando 2 es desconocida.
2.7 Estimacin de la Recta de Regresin.
2.8 Test de Rachas. Medidas de Asociacin para tablas de contingencia.
2.9 Diseo completamente aleatorizado
Bolilla N 3
3.1 Distribuciones de frecuencia de una variable aleatoria.
3.2 Distribucin de una variable aleatoria. Funcin de distribucin acumulada.
3.3 Distribucin del Estadstico media muestral.
3.4 Interpretacin del intervalo de confianza.
3.5 Procedimiento de la prueba de Hiptesis.
3.6 Contraste de hiptesis referente a la varianza de una distribucin normal.
3.7 Regresin: Mtodo de los Mnimos Cuadrados.
3.8 Test de DAgostino. Hiptesis de homogeneidad de proporciones para tablas de
contingencia.
3.9 El anlisis de la varianza de efectos fijos a un criterio de clasificacin.
Bolilla N 4
4.1 Representaciones grficas de los resultados de estudios experimentales u observacionales.
4.2 Funcin de densidad para variables aleatorias discretas y continuas.
4.3 Teorema central de lmite.
4.4 Estimacin por intervalo de la esperanza de la distribucin de una variable aleatoria
normal.
4.5 Errores de Tipo I y Tipo II.
4.6 Estimacin por intervalo de la varianza de una distribucin.
11
Bolilla N 5
5.1 Medidas de resumen de la distribucin de frecuencias de una variable aleatoria en una
muestra. Funcin lineal.
5.2 Medidas resumen de la distribucin de una variable aleatoria.
5.3 Distribucin "t de Student". Distribucin de la diferencia de dos medias muestrales
(varianzas conocidas y desconocidas).
5.4 Clculo del tamao muestral para obtener un intervalo de confianza para
con una
amplitud determinada.
5.5 Relacin entre los intervalos de Confianza y las Pruebas de Hiptesis.
5.6 Estimacin por intervalo referente a las varianzas de dos distribuciones. Distribucin F.
5.7 Anlisis de la variacin en la variable dependiente Y. Prueba de Hiptesis.
5.8 Pruebas de bondad de ajuste para tablas de contingencia.
5.9 La particin de la suma de cuadrados y la tabla de ANAVA.
Bolilla N 6
6.1 Medidas descriptivas. Estadsticos de Tendencia central. Estadsticos de posicin.
Medidas de dispersin. Funcin cuadrtica.
6.2 Esperanza y Varianza de variables aleatorias. Propiedades. Cuantiles de una distribucin.
6.3 Distribucin de la varianza muestral. Distribucin "Chi-Cuadrado" ( 2).
6.4 Prueba de hiptesis referente a las esperanzas de dos distribuciones con varianzas
conocidas y desconocidas. Observaciones apareadas: prueba de hiptesis y estimacin por
intervalo.
6.5 Anlisis de Correlacin Lineal. Los supuestos del Anlisis de correlacin. Coeficiente de
Correlacin Lineal. Prueba de Hiptesis. Regresin Mltiple. Serie de Tiempo
6.6 Contraste de KrusKal-Wallis.
6.7 Supuestos del ANAVA. Anlisis de los residuales. Una Prueba a posteriori "el test de
Tukey y Fisher.
12
Estadstica y Biometra
Estadstica:
relacin de datos numricos presentada de forma ordenada y sistemtica?
Es algo ms: permite dar luz y obtener resultados, y por tanto beneficios, en
cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad
intrnseca, no puedan ser abordadas desde la perspectiva de las leyes
determinsticas.
Ciencia auxiliar para todas las ramas del saber; su utilidad se entiende mejor si
tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado
de incertidumbre... y la Estadstica ayuda en la incertidumbre, trabaja con ella y nos
orienta para tomar las decisiones con un determinado grado de confianza.
Definicin 1:
Ciencia que estudia cmo debe emplearse la informacin y cmo dar una gua de
accin en situaciones prcticas que entraan incertidumbre.
Usos y Abusos
Los crticos de la estadstica afirman que a travs de ella es posible probar
cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en
este campo y de lo polifactico de los mtodos estadsticos.
Muchos "investigadores" tendenciosos han cometido abusos con la estadstica,
elaborando "investigaciones" de intencin, teniendo previamente los resultados que
les interesan mostrar a personas ingenuas y desconocedoras de los hechos.
Otros, por ignorancia o negligencia, abusan de la estadstica utilizando modelos
inapropiados o razonamientos ilgicos y errneos que conducen al rotundo fracaso
de sus investigaciones.
Lincoln L. Chao (Estadstica para Ciencias Administrativas, en Biblioteca), hace
referencia a uno de los ms estruendosos fracasos, debido a los abusos en la toma de una
muestra
Se trata del error cometido por la Digest que, en sus pronsticos para las elecciones
presidenciales en EE.UU. para 1936, afirm que Franklin D. Roosvelt obtendra
161 votos electorales y Alfred Landon, 370. La realidad mostr a Roosvelt con 523
votos y a Landon con 8 solamente.
El error se debi a que la muestra fue tomada telefnicamente a partir de la lista de
suscriptores de la Digest y, en 1936, las personas que se daban el lujo de tener
telfonos y suscripciones a revistas no configuraban una muestra representativa de
los votantes de EE.UU. y, por ende, no poda hacerse un pronstico confiable con
tan sesgada informacin.
Divisin
La estadstica se divide en dos grandes ramas de estudio que son:
Estadstica descriptiva
Estadstica matemtica o inferencial
13
14
Organizacin de Datos
VARIABLES
Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.
Algunas de ellas son absolutamente predecibles con exactitud: son las variables
determinsticas.
Por ejemplo el rea de un cuadrado (figura geomtrica) de 20 cm de lado es 400
cm2
A = L2
En la realidad, el problema no es tan sencillo, la medicin del rea de una baldosa
aproximadamente cuadrada, de aproximadamente 20 cm de lado, puede dar como
resultado: 399, 400 401 cm2. Incluso en mediciones repetidas de la misma
baldosa. Esto puede deberse a varias causas : irregularidad de la baldosa ,
dilatacin o contraccin debida a la temperatura, errores humanos o instrumentales
en la medicin u otras absolutamente desconocidas. Este fenmeno genera las
variables llamadas aleatorias ( probabilsticas o estocsticas)
A = L2 +
donde psilon es el desvo no explicado respecto al valor esperado L2
Variables Estadsticas
Es una caracterstica o propiedad determinada del individuo o elemento, sea
medible o no. Esta propiedad hace que los elementos de un grupo puedan diferir de
las de otro grupo en la muestra o poblacin de estudio.
Cuando hablemos de variable haremos referencia a un smbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad (valor) de un conjunto determinado, que
llamaremos dominio de la variable o rango. En funcin del tipo de dominio, las
variables las clasificamos del siguiente modo:
Nominal
sta es una forma de observar o medir en la que los datos se ajustan por categoras
que no mantienen una relacin de orden entre s
1 ,2 ,3 ,4 ,...,10
Variables cuantitativas
son las que tienen por modalidades cantidades numricas con las que podemos
hacer operaciones aritmticas. Dentro de este tipo de variables podemos distinguir
dos grupos:
Discretas
cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de
sus modalidades. Suelen tomar solamente valores enteros (nmero de hijos,
nmero de partos, nmero de hermanos, etc). Es obvio que cada valor de la
variable es un nmero natural.
Continuas
cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades.
Ej. el peso X de un nio al nacer. En este caso los valores de las variables son nmeros
reales, es decir:
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como
discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisin
del aparato de medida de esa variable.
Ej. si medimos la altura en metros de plantas con dos decimales de precisin, podemos
obtener:
En realidad lo que ocurre es que con cada una de esas mediciones expresamos que
el verdadero valor de la misma se encuentra en un intervalo de radio 5.10 -3. Por lo
tanto, cada una de las observaciones de X representa ms bien un intervalo que un
valor concreto.
Modalidad - Clases
Las modalidades son las diferentes situaciones posibles que puede presentar la
variable. (p. Ej. cuando una variable es continua) y conviene reducir su nmero,
agrupndolas en una cantidad inferior de clases.
Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo
que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a
una y slo una de las clases.
Resumen
Variable cualitativa nominal: Aquella cuyas modalidades son de tipo nominal.
Variable cualitativa ordinal: Modalidades de tipo nominal, en las que existe un
orden.
Variable cuantitativa discreta: Sus modalidades son valores enteros.
Variable cuantitativa continua: Sus modalidades son valores reales.
Tablas estadsticas
Consideremos una poblacin estadstica de n individuos, descrita segn un carcter o
variable C cuyas modalidades han sido agrupadas en un nmero k de clases, que
denotamos mediante c1,c2,c3,...ck. Para cada una de las clases ci, i = 1,2,...,k, introducimos
las siguientes magnitudes:
Frecuencia absoluta
(de un determinado valor ni ) al nmero de veces que se repite dicho valor .
Frecuencia relativa
Es el cociente fi, entre las frecuencias absolutas de dicha clase y el nmero total de
observaciones, es decir:
fi
ni
n
Ni
n1 n2
n3 ... ni
nj
j 1
ni
n1 n2 ... nk
i 1
o lo que es lo mismo
k
fi
i 1
i 1
ni
n
i 1 i
n
1
n
Distribucin de frecuencias
Llamaremos distribucin de frecuencias al conjunto de clases junto a las
frecuencias correspondientes a cada una de ellas. Una tabla estadstica sirve para
presentar de forma ordenada las distribuciones de frecuencias. Su forma general es
la siguiente:
Variable
Frecuencia
Absoluta
Frecuencia
Relativa
Frec. Abs.
Acumulada
Frec. Rel.
Acumulada
ni
fi
Ni
Fi
c1
n1
...
...
cj
nj
...
...
ck
nk
N1 = n1
...
n
N j n1 n2 ...n j
...
nk
n
fk
N1
n
F1
...
nj
fj
n
Ejemplo completar tabla
li-1 -- li
n1
n
f1
fj
...
Fj
Nj
n
f1 ... f j
...
...
Nk = n
Fk = 1
1
ni
fi
Ni
0 -- 10
60
f1
60
10 -- 20
n2
0,4
N2
18
20 -- 30
30
f3
170
30 -- 100
n4
0,1
N4
100 -- 200
n5
f5
200
f4
n4
n
n4
f 4 * n 0,1x200 20
As:
N4= n4+N3=20+170 =190
Este ltimo clculo nos permite obtener:
n5= N5-N4=200-190=10
Al haber calculado todas las frecuencias absolutas, obtenemos las relativas:
f1
f3
f5
n1
n
n3
n
n5
n
60
0,3
200
30
0,15
200
10
0,05
200
li-1 -- li
ni
fi
Ni
0 -- 10
60
0,3
60
10 -- 20
80
0,4
140
20 -- 30
30
0,15
170
19
30 -- 100
20
0,1
190
100 -- 200
10
0,05
200
200
li 1 , li
x : li
x li
ci
li li
2
lj
lj
l j 1, l j
l0 l1
l0 ,l1
N intervalos
si n no es muy grande
20
Ejemplo
Si el nmero de observaciones que tenemos es n = 100, un buen criterio es agrupar las
observaciones en k
100 10 intervalos. Sin embargo si tenemos n = 1.000.000, ser
mas razonable elegir k 1 3,22log n 20 intervalos, que
k
1.000 .000 1.000
La amplitud de cada intervalo: ai = li -li-1 suele tomarse constante, considerando la
observacin ms pequea y ms grande de la poblacin ( l x
x m ax )
0
m in y l k
para calcular la amplitud total, A, de la poblacin:
A = lk - l0
de forma que la amplitud de cada intervalo sea:
A
ai a i 1,2,...,k donde a
k
Observacin
Podra ocurrir que la cantidad a fuese un nmero muy desagradable a la hora de
escribir los intervalos a = 10,325467). En este caso, es recomendable variar
simtricamente los extremos, l0 < xmin < xmax < lk, de forma que se tenga que a es
un nmero ms simple (Ej. a = 10).
Ejemplo
Sobre un grupo de n = 21 terneros se realizan las siguientes observaciones de sus pesos,
expresados en kilos:
X~x1,x2,,x21
58
42
51
54
40
39
49
56
58
57
59
63
58
66
70
72
71
69
70
68
64
21
A 33
6,6
5 5
A l5 l0 72 39 33
l0
xm in
39
l5
xm ax
72
ci
ni
fi
Ni
Fi
i=1
39 -- 45,6
42,3
0,1428
0,1428
i=2
45,6 -- 52,2
48,9
0,0952
0,2381
i=3
52,2 -- 58,8
55,5
0,2857
11
0,5238
i=4
58,8 -- 65,4
62,1
0,1428
14
0,6667
i=5
65,4 -- 72
68,7
7
21
0,3333
1
21
Representaciones Grficas
A pesar de la gran ayuda que prestan las tablas y cuadros con informacin
organizada, no todos los pblicos alcanzan a comprenderla o no disponen del
tiempo suficiente para analizarla.
Es por ello que la mayora de los investigadores acostumbran a reforzar la
descripcin a travs de dibujos, generalmente con formas geomtricas, que ayudan
a visualizar el comportamiento de las variables tratadas.
Definicin
Un grfico o diagrama es un dibujo complementario a una tabla o cuadro, que permite
observar las tendencias de un fenmeno en estudio y facilita el anlisis estadstico de las
variables all relacionadas.
Componentes
Ttulo adecuado: El cual debe ser claro y conciso, que responda a las preguntas:
Qu relaciona, cundo y dnde se hicieron las observaciones.
El cuerpo: o grfico en s, cuya eleccin debe considerar el o los tipos variables a
relacionar, el pblico a quien va dirigido y el diseo artstico del grfico.
Notas de pie de grfico: Donde se presentan aclaraciones respecto al grfico, las
escalas de los ejes, o se otorgan los crditos a las fuentes respectivas.
Es de anotar que por medio de grficos tendenciosos se pueden deformar o resaltar
situaciones o estados, que presentados en un grfico apropiado, mostraran un
comportamiento normal.
22
Donde:
La longitud del eje vertical es igual a tres cuartos de la longitud del eje horizontal.
1er trim.
2do trim.
3er trim.
4to trim.
Para comparar varias poblaciones entre s, existen otras modalidades. Cuando los
tamaos de las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas.
90
80
70
60
50
40
30
20
10
0
Este
Oeste
Norte
24
Diagramas de sectores
Tambin llamados tortas. Se divide un crculo en tantas porciones como clases
existan, de modo que a cada clase le corresponde un arco de crculo proporcional a
su frecuencia absolutas o relativas.
1er trim.
2do trim.
3er trim.
4to trim.
360
ni
xi
360.ni
n
Pictogramas
Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades
de la variable. Estos grficos se hacen representado a diferentes escalas un mismo
dibujo.
Diagramas diferenciales
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se
representa el nmero o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales
Son aquellos en los que se representan el nmero de elementos que presentan una
modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias
acumuladas .
Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuacin las diferentes representaciones grficas que pueden realizarse para
cada una de ellas as como los nombres especficos que reciben.
26
Histogramas
Se construyen a partir de la tabla estadstica, representando sobre cada intervalo, un
rectngulo que tiene a este segmento como base.
0.66
0.50
frecuencia relativa
0.33
0.17
0.00
0.0022
0.0030
0.0037
0.0045
0.0053
PS
Polgonos de frecuencias
Se construyen fcilmente si tenemos representado previamente el histograma.
Consiste en unir mediante lneas rectas los puntos del histograma que corresponden
a las marcas de clase.
0.66
0.50
frecuencia relativa
0.33
0.17
0.00
0.0022
0.0030
0.0037
0.0045
0.0053
PS
27
Ejemplo
Intervalos
ci
ni
Ni
0 -- 2
2 -- 4
4 -- 6
6 -- 8
8 10
7
9
3
2
12
10
12
Grfico de Lneas
Usado bsicamente para mostrar el comportamiento de una variable cuantitativa a
travs del tiempo. Consiste en segmentos rectilneos unidos entre s, los cuales
resaltan las variaciones de la variable por unidad de tiempo.
Para su construccin ha de procederse de la siguiente manera: en el eje de las
ordenadas se marcan los puntos de acuerdo con la escala que se est utilizando. En
el caso de una escala aritmtica, distancias iguales en el eje, representan distancias
iguales en la variable.
Variacin de La Inflacin en Argentina
1995-2000
28
29
Diagramas de dispersin
Se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el
valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la
relacin entre el peso y la talla de un sujeto. En l grfico puede observarse
claramente como existe una relacin directa entre ambas variables, y valorar hasta
qu punto dicha relacin puede modelizarse por la ecuacin de una recta. Este tipo
de grficos son, por lo tanto, especialmente tiles en la etapa de seleccin de
variables cuando se ajusta un modelo de regresin lineal.
30
Interpretacin geomtrica
32
En el anlisis matemtico y en la geometra, una funcin lineal de una variable real es una
funcin matemtica de la forma:
En la figura se ven tres rectas, que corresponden a las ecuaciones lineales siguientes:
Tiene el valor de la pendiente m= 1/2, igual que en el caso anterior, por eso estas dos
rectas son paralelas, como el valor de b= -1, esta recta corta el eje de las y en el punto y= 1.
La tercera ecuacin, es:
33
Funcin cuadrtica
De vital importancia en matemticas y fsica es la funcin cuadrtica o de segundo grado.
Las funciones cuadrticas son las que responden a la forma y=ax2+bx+c. Su grfica es una
parbola. Las parbolas son grficas simtricas respecto de un eje que pasa por el vrtice.
En su estudio es conveniente conocer la orientacin de la parbola, los puntos de cortes
con los ejes, tanto con el eje OX como con el eje OY y el vrtice de la parbola.
Esto es:
Es una parbola vertical, orientada hacia arriba o hacia abajo segn el signo de a.
34
Estudio de la funcin
Corte con el eje y
La funcin corta el eje y en el punto y = f(0), es decir, la parbola corta el eje y cuando x
vale cero (0):
lo que resulta:
La funcin corta el eje y en el punto (0, c), siendo c el termino independiente de la funcin.
Corte con el eje x
La funcin corta al eje x cuando y vale 0:
las distintas soluciones de esta ecuacin de segundo grado, son los casos de corte con el
eje x, que se obtienen por la expresin:
Donde:
se le llama discriminante, :
35
0
-12
-10
-8
-6
-4
-2
10
12
-2
-4
= 0, la ecuacin tiene una nica solucin en x1, la parbola solo tiene un punto en comn
con el eje x, el cual es el vrtice de la funcin donde las dos ramas de la parbola
confluyen.
b2 4ac = 0
1 interseccin
Ejemplo:
Ecuacin de la parbola:
y = x2 + 6x + 9
14
12
10
8
6
4
2
0
-12
-10
-8
-6
-4
-2
10
12
36
0
-12
-10
-8
-6
-4
-2
10
12
-2
-4
-6
-8
-10
b
2a
12
2.3
x
10
y
8
6
4
2
0
-12
-10
-8
-6
-4
-2
10
12
-2
-4
-6
37
Vrtice ( V )
Toda parbola tiene un y slo un vrtice ( V ) de coordenadas:
b 4.a.c b 2
,
2.a
4.a
2 4.1. 8 2 2
,
2.1
4.1
1, 9
6y
4
2
0
-14 -12 -10
-8
-6
-4
-2
10
12
14
-2
-4
-6
-8
-10
Dominio de la funcin ( Dom f )
El dominio de la funcin cuadrtica es R .
Dom f = R
Recorrido de la funcin ( Rec f )
El recorrido de la funcin cuadrtica est determinado por:
38
a > 0
Rec f =
4ac b2
,
4a
a < 0
Rec f =
4 a c b2
4a
f(2)-f(3)=8-6=2
Y entre los segundos 3 y 4 vuelve a recorrer la distancia que recorri en el primer segundo:
f(3)-f(4)=6-0=6
esto se refleja grficamente en la simetra de la curva con respecto a la recta vertical x=2.
Decir que esta curva es simtrica respecto a la recta x = 2, significa que si se rotara el
plano tomando la recta como eje, de manera que todo lo que est a la izquierda de la recta
pase a la derecha y viceversa, se obtendra una curva idntica a la original.
En otras palabras, si un observador imaginario, diminuto, se situara en algn punto de la
recta, lo que vera de la curva al mirar hacia la izquierda, sera idntico a lo que vera a su
derecha.
En trminos algebraicos, se tiene que la imagen, por medio de la funcin f (x)= -2x2+8x ,
de dos nmeros que estn a la derecha y a la izquierda de 2 y a la misma distancia de 2,
debe ser la misma.
Por ejemplo, los nmeros 1/2 y 7/2 son equidistantes de 2, pues
40
Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que
junto a una medida que indique el valor alrededor del cual se agrupan los datos, se
asocie una medida que haga referencia a la variabilidad que refleje dicha
fluctuacin.
La tendencia central de los datos.
La dispersin o variacin con respecto a este centro.
Los datos que ocupan ciertas posiciones.
La simetra de los datos.
La forma en la que los datos se agrupan.
Medidas representativas de un conjunto de datos estadsticos
Media =
( x1
x2
...
xn )
De forma compacta:
1
n
xi
i 1
41
Propiedades de la media
La suma de los desvos de los valores de la variable, calculado con respecto de la
media aritmtica es = 0
Mediana
Ejemplo:
Los salarios de siete empleados fueron los siguientes (en miles de $) :
28, 60, 26, 32, 30, 26, 29.
Cul es la mediana?
Nro. de observaciones es impar
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
26,26,28,29,30,32,60
Supongamos que se agrega al grupo el Salario de un empleado ms ($31.000).
Cul es la mediana?
Nro. de observaciones es par
Primero, ordenar los salarios.
Luego, localizar el valor en el medio.
Hay dos valores en el medio!
26,26,28,29, 29.5, 30,31,32,60
42
Moda
El gerente de una tienda de ropa posee la siguiente informacin sobre el talle de los
pantalones que se vendieron ayer:
31, 34, 36, 33, 28, 34, 30, 34, 32, 40.
La Moda es 34
En muchos casos, la moda nos da informacin mas valiosa que la mediana: 33.2.
Ejemplo
Vamos a utilizar la distribucin de frecuencias con datos de la estatura (altura a la
cruz) de los terneros de un lote a remate.
Variable
Frecuencias
absolutas
Frecuencias
relativas
1
4
4
2
1
2
3
3
4
3
3
1
5
9
11
12
14
17
20
24
27
30
3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%
3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%
Media aritmtica:
Luego:
Mediana: La mediana de esta muestra es 1,26 cm, ya que por debajo est el 50% de
los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de
frecuencias relativas acumuladas.
43
Variable
Frecuencias
absolutas
Frecuencias
relativas
1
4
4
2
1
2
3
3
4
3
1
5
9
11
12
14
17
20
24
27
3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
1,30
30
10,0% 100,0%
Frecuencias
absolutas
Frecuencias
relativas
1
4
4
2
1
2
3
3
4
3
3
1
5
9
11
12
14
17
20
24
27
30
3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%
3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%
Media y Mediana
La media es sensible a observaciones extremas y a outliers.
44
10
11
12
Ejemplo
Supongamos que el 78% de los resultados es menor o igual a 600 puntos.
Entonces, 600 es el percentil 78 de la distribucin.
45
Deciles
Ejemplo
ni
Ni
14
14
10
24
15
39
26
65
20
85
15
100
n = 100
46
Solucin
Medidas de dispersin
47
Rango intercuartlico
Es la diferencia entre el percentil 75% y el percentil 25%
Diagrama de caja
Los cinco nmeros resumen de una distribucin son representados grficamente
por un diagrama de caja.
L - Observacin mxima
Q3 - Tercer cuartil
Q2 - Mediana
Q1 - Primer cuartil
S - Observacin mnima
Los lados inferior y superior de la caja van del primer al tercer cuartil. Por tanto, la
altura de la caja es la amplitud del 50% de los datos centrales.
El segmento del interior de la caja indica la mediana. Los extremos de los
segmentos perpendiculares a los lados superior e inferior indican, respectivamente,
los valores mximo y mnimo de la distribucin.
Q1
Q2
Q3
Facturacion_sucursales_zona_norte
350
300
250
200
150
100
50
0
Facturacion_sucursales_zona_sur
240
200
160
120
80
40
0
48
Varianza
s2
( x1 x ) 2 ( x 2
s2
x ) 2 ... ( x n
n 1
1
n 1
(x i
x)2
x)2
xi
Desviacin estndar
S2
x ni
i 1
n 1
Grados de libertad
Ejemplo
Solucin
Para calcular dichas medidas de dispersin es necesario calcular previamente el
valor con respecto al cual vamos a medir las diferencias. sta es la media:
49
La varianza es:
Coeficiente de Variacin
CV
x
50
Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no
lo es si la media es 500.
Ejemplo
Asimetra o sesgo
S KP
x M ed
S
Apuntamiento (Curtosis)
Distribucin Mesocrtica
Distribucin Leptocrtica
52
Distribucin Platicrtica
Presenta un reducido grado de concentracin alrededor de los valores centrales de
la variable.
Coeficiente de Curtosis
g2
1
n
xi
ni
2
1
n
xi
ni
g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Ejemplo
Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura
(altura a la cruz) de los terneros de un lote a remate visto anteriormente.
Variable
Frecuencias
absolutas
Frecuencias
relativas
(Valor)
Simple
Acum
Simple
Acum
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1
4
4
2
1
2
3
3
4
3
3
1
5
9
11
12
14
17
20
24
27
30
3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%
3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%
g2
1
30
1
30
0,00004967
2
1,39
0,03046667
54
Clculo de Probabilidades
Introduccin
Si el nico propsito del investigador es describir los resultados de un experimento
concreto, los mtodos analizados anteriormente pueden considerarse suficientes.
Si lo que se pretende es utilizar la informacin obtenida para extraer conclusiones
generales sobre todos aquellos objetos del tipo de los que han sido estudiados,
entonces estos mtodos constituyen slo el principio del anlisis, y debe recurrirse
a mtodos de inferencia estadstica, los cuales implican el uso inteligente de la
teora de la probabilidad.
El clculo de probabilidades nos suministra las reglas para el estudio de los
experimentos aleatorios o de azar, constituyendo la base para la estadstica
inferencial.
Para trabajar con el clculo de probabilidades es necesario fijar previamente cierta
terminologa.
e1 , e2
e1 , e2 son sucesoselementale s
A, B
A, B son sucesosaleatorios
Sucesos aleatorios que aparecen con gran frecuencia en el clculo de probabilidades son
los siguientes:
Suceso seguro:
Es aquel que siempre se verifica despus del experimento aleatorio, es
decir, el mismo E
E es el sucesoseguro
55
Suceso imposible:
Es aquel que nunca se verifica como resultado del experimento aleatorio.
Como debe ser un subconjunto de E, la nica posibilidad es que el suceso imposible sea el
conjunto vaco ()
Ejemplo 1
Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:
56
Nociones de Probabilidad
Los eventos aleatorios no son predecibles con absoluta certeza, no obstante
podemos medir el grado de confianza con que se hace un pronstico, sobre la
ocurrencia o no de un determinado suceso.
Probabilidad Clsica
Si un evento puede ocurrir de n maneras, equiprobables y mutuamente excluyentes,
de las cuales m maneras son favorables al suceso A; se define probabilidad del
suceso A como:
Ejemplo
Lanzamos un dado de seis caras una vez, y queremos saber,
57
Probabilidad Frecuencial
Si un experimento se repite n veces ( n
A, entonces es de esperarse que:
Axiomas
La probabilidad slo puede tomar valores comprendidos entre 0 y 1(no puede haber
sucesos cuya probabilidad de ocurrir sea del 200% ni del 5%.
La probabilidad del suceso seguro es 1, es decir, el 100%.
La probabilidad del suceso imposible debe ser 0.
La probabilidad de la interseccin de dos sucesos debe ser menor o igual que la
probabilidad de cada uno de los sucesos por separado, es decir:
La probabilidad de la unin de sucesos debe ser mayor que la de cada uno de los
sucesos por separado:
58
Probabilidad Condicional
Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama
probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento A
dado que ya se ha presentado el suceso B.
Ejemplo
A un grupo de personas se le pregunta sobre la intencin de voto para las prximas
elecciones.
Independencia Estadstica
Modelos discretos
Experimentos de Bernoulli
Consideremos un experimento aleatorio con las siguientes caractersticas.
El experimento slo tiene dos posibles resultados, uno llamado
xito y el otro llamado fracaso.
La probabilidad de xito es p, y la de fracaso (1-p).
Ejemplo
Lanzamiento de una moneda.
Observar el 1 al lanzar el dado.
Encuestar a una persona y preguntar estado civil.
Medir un rbol y ver si cumple o no con una caracterstica especfica.
Modelo Matemtico
Sea
1 si hay xito
X
0 si hay
fracaso
60
Funcin de Probabilidad de X
p(x) = px(1-p)1-x si x =0 x=1
Notacin
X
Ber(p)
Bin(n,p)
p( x) P( X x)
n
x
p x (1 p) n x , x 1,2,...., n
Propiedades
El valor esperado de esta variable es
E(X) = n*p
La varianza de X es
V(X) = n*p*(1-p)
61
Ejemplo
Suponga que el 5% de la poblacin de pinos presenta alguna alteracin que
impide su talacin.
Si para desarrollar determinado estudio se tom una m.a. de 30 pinos
a)Cul es la probabilidad que 1 presente alguna alteracin?
b) Cul es el nmero esperado de pinos de la muestra con alguna alteracin?
c) Cul es la probabilidad que entre 2 y 3 pinos estn con alguna alteracin?
Variable Aleatoria
Definicin
Una variable aleatoria es una funcin definida sobre un espacio muestral a los nmeros
reales. Si ese espacio muestral especificado como dominio es numerable, decimos que la
variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.
Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.
Si su valor puede predecirse = variables determinsticas.
Por ejemplo el rea de un cuadrado
(figura geomtrica) A = L2
Si su valor SOLO puede conocerse al observarlo = variables aleatorias.
Al querer medir el rea de una baldosa aproximadamente cuadrada, puede dar diferentes
resultados. Incluso en mediciones repetidas de la misma baldosa . Esto puede deberse a
varias causas : irregularidad de la baldosa , cambios debida a la temperatura, errores
humanos o instrumentales en la medicin u otras absolutamente desconocidas. Este
fenmeno genera las variables llamadas aleatorias, probabilsticas o estocsticas
En Biologa, en general, el gran nmero de factores que intervienen en el valor de una
variable y las caractersticas del sistema hombre-instrumento de medicin, hacen que las
variables que manejemos sean variables aleatorias
El valor observado X entonces puede descomponerse en
X= m + e
Ejemplo
Consideremos el experimento que consiste en elegir al azar 50 perros y medir su peso. La
ley que asocia a cada perro con su peso es una variable aleatoria (continua).
15.
18
R
20
23
26
28.... etc
62
Esta correspondencia es una funcin del espacio muestral E en el conjunto de los nmeros
reales R.
A esta funcin la llamaremos variable aleatoria y la denotaremos por X.
X (c) = 0
X (s) = 1
Funcin de Probabilidad
Las variables aleatorias, transforman eventos del espacio muestral en eventos numricos,
los cuales desde luego, tienen asociada una probabilidad de ocurrencia.
Funcin de Probabilidad
f (x) = p (X = x)
Es una funcin definida sobre una variable aleatoria a los reales en el intervalo
[0,1] que cumple con los axiomas de la teora de la probabilidad.
63
Funcin de Distribucin
F (x) = p (X = x)
Es la acumulada de una funcin de probabilidad
64
Esperanza Matemtica
Media Aritmtica Poblacional
65
Si X es discreta
Si X es continua
Esta integral no siempre existe y en ese caso, se dir que la variable no tiene esperanza
Ejemplo
X es la Suma Obtenida en el Lanzamiento de Dos Dados
Varianza Poblacional
Similarmente a la definicin de la media aritmtica poblacional, la varianza se define
como:
66
Distribucin Normal
Curva de densidad
Una curva de densidad describe el aspecto general de una distribucin.
El rea por debajo de la curva, entre cualquier intervalo de valores, es la proporcin
de todas las observaciones que estn situadas en dicho intervalo.
El rea total bajo una curva de densidad es 1.
Dentro de las distribuciones continuas de probabilidad la ms importante, por la
frecuencia con que se encuentra y por sus aplicaciones tericas, es la DISTRIBUCIN
NORMAL o de Laplace-Gauss
La curva normal adopta un nmero infinito de formas, determinadas por sus
parmetros, expresada por la funcin: f(x) =
f ( x)
1 x
2
2
donde:
(media) y (desviacin estndar) son parmetros de la distribucin
x = valores observados de la variable en estudio
e = 2.718 (base de Ln)
Caractersticas de la distribucin Normal
Distribuciones normales
Todas las distribuciones normales tienen la misma forma general.
La curva de densidad de una distribucin normal se describe por su media y su
desvo standard .
La media se sita en el centro de la curva simtrica, en el mismo lugar que la
mediana.
Si se cambia sin cambiar se provoca un desplazamiento de la curva de
densidad a lo largo del eje de las abscisas sin que cambie su dispersin.
La desviacin tpica controla la dispersin de la curva normal.
La curva con mayor desvo standard es la curva que presenta mayor dispersin.
La desviacin tpica es la medida natural de la dispersin de una distribucin
normal. La forma de una curva normal no solo queda completamente determinada
por y , sino que adems es posible situar a simple vista en la curva.
Cuando nos alejamos de , en cualquier direccin, la curva pasa de descender
rpidamente a descender suavemente.
Estos puntos de inflexin estn situados a una distancia de .
68
En Distribuciones normales:
El 68 % de las observaciones se encuentra entre
El 95 % de las observaciones se encuentra entre
El 99.7 % de las observaciones se encuentra entre
.
2 .
3 .
x
2
Ejemplo
una variable aleatoria sigue el modelo de una distribucin normal con media 10 y
varianza 4:
X ~ N (10, 4)
x
2
x 10
2
Z ~ N (0, 1)
69
Tabla
La columna de la izquierda indica el valor cuya probabilidad acumulada queremos
conocer.
La primera fila nos indica el segundo decimal del valor que estamos consultando.
Queremos conocer la probabilidad acumulada en el valor 2,75.Buscamos en la columna de
la izquierda el valor 2,7 y en la primera fila el valor 0,05. La casilla en la que se
interseccionan es su probabilidad acumulada (0,99702, es decir 99.7%).
X
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
0,00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159
0,8416
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,97725
0,98214
0,98610
0,98928
0,99180
0,99379
0,99534
0,99653
0,99744
0,99813
0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,97778
0,98257
0,98645
0,98956
0,99202
0,99396
0,99547
0,99664
0,99752
0,99819
0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,97831
0,98300
0,98679
0,98983
0,99224
0,99413
0,99560
0,99674
0,99760
0,99825
0,03
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,97882
0,98341
0,98713
0,99010
0,99245
0,99430
0,99573
0,99683
0,99767
0,99831
0,04
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,97932
0,98382
0,98745
0,99036
0,99266
0,99446
0,99585
0,99693
0,99774
0,99836
0,05
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,97982
0,98422
0,98778
0,99061
0,99286
0,99461
0,99598
0,99702
0,99781
0,99841
0,06
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,98030
0,98461
0,98809
0,99086
0,99305
0,99477
0,99609
0,99711
0,99788
0,99846
0,07
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,98077
0,98500
0,98840
0,99111
0,99324
0,99492
0,99621
0,99720
0,99795
0,99851
0,08
0,5319
0,5714
0,6103
0,6480
0,6844
0,7090
0,7517
0,7813
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,98124
0,98537
0,98870
0,99134
0,99343
0,99506
0,99632
0,99728
0,99801
0,99856
0,09
0,5359
0,5723
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,98169
0,98574
0,98899
0,99158
0,99361
0,99520
0,99643
0,99736
0,99807
0,99861
70
x
2
x 5
1
7 5
2
1
71
75 68
1,4
5
60 68
5
1,6
72
2 3 6 8 11
5
30
5
)2
(x
n
16 9 0 4 25
5
3.2
(2 6) 2 (3 6) 2 (6 6) 2 (8 6) 2 (11 6) 2
5
54
5
10.8
= 20
150 / 25 = 6
6.5
22.5
7
30
8.5
35
9.5
42.5
11
5.4
300
200
100
Desv. est. = 4.75
Media = 99.9
N = 3600.00
82 84 86 88 90 92 94 96 98 10 10 10 10 10 11 11 11 11
.0 .0 .0 .0 .0 .0 .0 .0 .0 0. 2. 4. 6. 8. 0. 2. 4. 6.
0 0 0 0 0 0 0 0 0
N10
4.74
Media =100
(Varianza =225/50=4.5)
Desv. Estndar=2.12
Ejemplo
Las notas de cierto examen se distribuyen segn una normal de media 5,8 y
desviacin estndar 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes est comprendida entre 5 y 7
La poblacin es N(5,8;2,4), con n =16 la distribucin muestral de medias se
distribuye N(5,8;0,6)
Si
P(5 <
= P (z < 2)-[1-P (z < 1.33)] = 0,8854
n
Entonces, la distribucin z se aproxima a la distribucin normal estndar cuando n se
aproxima a infinito
Distribucin T de Student
Cuando la distribucin de la que obtenemos las medias muestrales es gaussiana
(distr.normal), la expresin anterior se distribuye segn la distribucin t de Student con
tn-1 grados de libertad.
Esta distribucin es bsica para efectuar inferencias entre dos medias.
X
S
n
76
tn
N 0,1
77
Muestreo
Definicin:
Proceso que nos permite la extraccin de una muestra a partir de una poblacin
Hay dos tipos bsicos de muestreo:
Muestreo probabilstico. En este tipo de muestreo, la probabilidad de aparicin en
una muestra de cualquier elemento de la poblacin es conocida (o calculable). Es el
nico cientficamente vlido, y es sobre el que nos extenderemos especialmente.
Muestreo no probabilstico. Es aquel en el que la seleccin de los elementos de la
muestra no se hacen al azar.
Muestreo probabilstico
Este muestreo garantiza que, a la larga, las muestras que se van obteniendo de la poblacin
sean representativas de la misma. Vamos a ver varios tipos de muestreo probabilstico.
Muestreo aleatorio simple
Muestreo estratificado
Muestreo por conglomerados
Muestreo por etapas (o polietpico)
Muestreo sistemtico (?)
1. Muestreo aleatorio simple
Es aquel en el que, a priori, todos los elementos de la muestra tienen la misma
probabilidad de aparicin.
Supongamos que tengamos una poblacin de 50.000 individuos, y que tenemos un
listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es
elegir al azar a 100 individuos de esos 50.000.
2. Muestreo estratificado
En el muestreo estratificado, los investigadores han de dividir a los sujetos en
diferentes subpoblaciones (o estratos), en funcin de cierta caracterstica relevante,
y despus lo que hacen es un muestro aleatorio simple de cada estrato.
Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada
individuo del estrato habr de tener la misma probabilidad de ser escogido como
parte de la muestra.
Ejemplo:
Supongamos que, en Chamical, 70% de los nios de primaria van a escuela pblica y el
30% a privada. Si queremos 1000 nios, lo que haremos es dividir los alumnos en 2
78
Muestreo no probabilstico
1. Muestreo sin norma (o de conveniencia)
Se elige a una muestra por ser conveniente, fcil, econmica. Pero no se hace en
base a un criterio de aleatoridad.
Ejemplo: las encuestas en los peridicos electrnico.
2. Muestreo intencional
En este caso, si bien el muestreo no es probabilstico, los investigadores procuran
que se garantice la representatividad de la muestra
79
Distribucin Chi-cuadrado
La funcin Chi-cuadrado es igual a la funcin normal elevada al cuadrado.
Esto es, el producto de dos distribuciones de Gauss es una distribucin de Chicuadrado.
Si de una poblacin normal, o aproximadamente normal, se extraen muestras
aleatorias e independientes, y se le calcula el estadstico 2 usando el valor muestral
de la varianza y el poblacional con:
n 1 S2
2
Al igual que la T-Student, el valor total del rea bajo la curva es igual a la unidad,
pero la diferencia principal es que esta no es simtrica respecto al origen, sino que
se extiende desde 0 hasta + porque no puede ser negativa.
A medida que los grados de libertad aumentan, la curva cambia de forma y sus
valores se han tabulado (ver tabla)
n 1 S2
2
10 1 100,4
2
62
23,6
21,666
27,877
M
3
2
q
p()
1
En la mayora de los casos, para conocer p() es necesario conocer la
distribucin de la variable y el tipo de muestreo
tipo de muestreo
p(x)
p()
82
VARIABLES
CATEGORICAS
FUNCIN DE
PROBABILIDAD
p( X
p(x)
0 .4
0 .3
0 .2
x)
0 .1
0
1
VARIABLES
NUMERICAS
DISCRETAS
FUNCIN DE
DISTRIBUCIN
F(X )
VARIABLES
NUMERICAS
CONTINUAS
p( X
F(x)
x)
f(x)
FUNCIN DE
DENSIDAD
f ( x)
dF ( x)
dx
F ( a)
P( x a )
VARIABLES DISCRETAS
F(x)
VARIABLES CONTINUAS
F(x)
a
F (a)
a
a
p ( x)
x a
F (a)
f ( x).dx
p( x) Cxn p x (1
p)
x
n y p
Variable en estudio
parmetros
x
l
e
Variable en estudio
parmetro
Base de ln = 2,718...
En la distribucin Poisson
x
p( x)
.e
x!
83
x. p ( x)
MEDIA
VARIANZA
(x
) 2 . p ( x)
84
Estimacin de Parmetros
En una poblacin cuya distribucin es conocida pero desconocemos algn
parmetro, podemos estimar dicho parmetro a partir de una muestra
representativa.
El Estimador
Es un valor que puede calcularse a partir de los datos muestrales y que proporciona
informacin sobre el valor del parmetro.
Por ejemplo la media muestral es un estimador de la media poblacional.
La proporcin observada en la muestra es un estimador de la proporcin en
la poblacin.
Estimacin puntual
Una estimacin es puntual cuando se obtiene un slo valor para el parmetro.
Los estimadores ms probables en este caso son los estadsticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Las dos medidas fundamentales son la media que indica el valor promedio del
estimador y la desviacin estndar, tambin denominada error estndar de
estimacin, que indica la desviacin promedio que podemos esperar entre el
estimador y el valor del parmetro.
Suficiencia
1. Ser insesgado. Diremos que es un estimador insesgado de si la esperanza de
es . Es decir, E ( )
lim P
n
0 lim P
2 si
1y
2 de
1 )<var(
1 es
si dicho
Conocemos
Nuestra distribucin es normal, pero con cierta media y cierta desviacin estndar,
las cuales sabemos por el tema anterior:
La media de la distribucin muestral de medias es la media poblacional
La varianza de la distribucin muestral de medias es 2/n
O lo que es lo mismo, la desviacin estndar de la dist. muestral de medias es
/ n
87
Sabemos que
Para estandarizar
Estimador de
Zi
Xi
es X
X
n
Pasamos de trminos
Xi
Zi
En Punt.tpicas
Aplicando la lgica de pasar
los valores estandarizados
z0.025
z0.975
En Punt. directas
En definitiva
P X
z0.025
z0.975
0.95
88
P X
z0.025
z0.975
0.95
S
n
Ahora la distribucin ya no es exactamente una distribucin normal...
X
Por el tema anterior sabemos que la distribucin muestral de
S/ n
no es una distribucin normal, sino una distribucin t de Student con n-1 grados de
libertad.
P X
z0.025
z0.975
0.95
P X
0.025 tn
s
n
0.975 t n
s
n
0.95
En todo caso, hay que recordar que si "n" es grande, la distribucin t de Student ser
virtualmente una distribucin normal N(0,1). En otras palabras, si "n" es grande, ambas
frmulas dan unos intervalos virtualmente idntico, y emplear la distribucin normal es
correcto.
Qu quiere decir la expresin siguiente?
P X
z0.025
z0.975
0.95
Quiere decir que cada vez que extraigamos una muestra y hallemos la media, el parmetro
desconocido m estar entre los lmites de dicho intervalo el 95% de las veces. (O el 99% si
hubiramos elegido un intervalo al 99%, etc.)
89
P X
z0.025
z0.975
0.95
Es claro que a medida que el tamao muestral aumente, la amplitud del intervalo
disminuye. (Evidentemente, esto es general, no slo para la media.) Veamos un ejemplo:
Caso A1. Media muestral =10, varianza pobl =4, tamao muestral =12
P 10 ( 1.96)
2
12
10 1.96
2
12
P 8.87
11.13
0.95
Caso A2. Media muestral =10, varianza pobl =4, tamao muestral =20
P 10 ( 1.96)
2
20
10 1.96
2
20
P 9.12
10.88
0.95
P X
z0.025
z0.975
0.95
P 10 ( 2.57)
2
12
10 2.57
2
12
P 8.52
11.48
0.99
90
P z.025
P(1 P)
n
P z.975
P(1 P)
n
0.95
n S2
.975
2
n 1
n S2
.025
2
n 1
0.95
91
Ejemplo 1
Suponiendo que a un paciente se le extrae una muestra de sangre y al suero
obtenido se lo fracciona en 50 alcuotas, luego a cada una se le determina la
creatinina, y con los valores medidos se obtienen un promedio de 10 mg/dl y un
desvo de 2,2 mg/dl. El verdadero valor de la creatinina en el paciente se puede
estimar con un nivel de confianza del 95 % ( = 1,96) con:
= ( 10 1,96 . 2,2 / 50 ) mg/dl
= (10,0 0,6) mg/dl
IC 95% (9,4 ; 10,6)
Eso significa que se tiene una probabilidad del 95 % de encontrar la creatinina real del
paciente entre 9,4 y 10,6 mg/dl.
Si se quiere aumentar la confianza al 99% el nuevo intervalo tendr una mayor
indeterminacin, o sea, el intervalo ser ms ancho: entre 9,2 y 10,8 mg/dl.
= ( 10 2,58 . 2,2 / 50 ) mg/dl
= (10,0 0,8) mg/dl
IC 99% (9,2 ; 10,8)
Y si todava se aumenta un poco ms al 99,9%:
= ( 10 3,29 . 2,2 / 50 ) mg/dl
= (10 1) mg/dl
IC 99,9%(9 ; 11)
Ejemplo 2
Se tomaron 200 muestras aleatorias de presin sistlica a nios cuyos padres son
hipertensos, obtenindose una media de 107 y un desvo de 7. Luego se tomaron
100 muestras de nios cuyos padres tienen la presin sangunea normal, y se
obtuvo una media de 98 con un desvo de 6. Obtener los lmites de confianza del 95
% a la diferencia de medias.
En este caso se trata de una diferencia de medias, pero con varianzas diferentes
estimadas con las muestras de la manera siguiente:
x1 x 2
S1
107 98 9
2
1
2
2
n1
n2
49 36
200 100
0,778
Calcular el tamao que debera tener una muestra para que se obtuviese un
intervalo de confianza para la media poblacional con un nivel de significacin =
0,01 (99 %) y con una precisin de d=1 cm.
Nota: el error cometido al estimar el intervalo al 95 % es de aproximadamente de
4,2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tamao de
la muestra, N, deber ser bastante mayor. En este caso se obtiene:
93
94
Contrastes de Hiptesis
Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que
puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la
informacin extrada de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error.
La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se
representa por H0.
Rechazar H0 implica aceptar una hiptesis alternativa (H1).
Decisin
H0 Verdadera
H0 Falsa
Mantengo H0
Decisin correcta
Decisin Incorrecta
Error de Tipo II
Rechazo H0
Decisin Incorrecta
Error de Tipo I
Decisin correcta
son:
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos
de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola.
3. Elegir un nivel de significacin: nivel crtico para
4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se conozca
en H0 y que est relacionado con y establecer, en base a dicha distribucin, la regin
95
crtica: regin en la que el estadstico tiene una probabilidad menor que si H0 fuera
cierta y, en consecuencia, si el estadstico cayera en la misma, se rechazara H0.
La regin de rechazo de la hiptesis nula es la sombreada. Se rechaza H 0 cuando el
estadstico zcalc toma un valor comprendido en la zona sombreada de la grfica
pequea, N (0,1), o equivalentemente, cuando el estadstico
en la zona sombreada de la grfica grande, N (0,2).
toma un valor
96
Ejemplo
Estamos estudiando el efecto del estrs sobre la presin arterial. Nuestra hiptesis es que la
presin sistlica media en varones jvenes estresados es mayor que 18 cm de Hg.
Estudiamos una muestra de 36 sujetos y encontramos
1. Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos rechazar) es:
2. la hiptesis alternativa
no est en la regin crtica (no es mayor que 1,69), por tanto no rechazamos H 0.
Como no se rechaza H0, se puede cometer un error tipo II. Cul es ?. De hecho,
sera la informacin relevante a comunicar en este estudio (la probabilidad del error
que se pude cometer en l).
Habitualmente, sin embargo, no se da porque los paquetes estadsticos no la
calculan.
Para calcularla se debe concretar H1,
ej. = 20 (el criterio para este valor no es estadstico)
es decir, se acepta H0 si
98
Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los
valores para hacer la tipificacin son conocidos). Si H 0 es cierta, entonces
esperamos que el valor zcalc obtenido sobre la muestra est cercano a cero con una
gran probabilidad.
99
zcalc
n
Esto se expresa fijando un nivel de significacin , y tomando como regin crtica
C, a los valores que son muy extremados y con probabilidad en total, o sea:
P Z calc
P Z calc
z1
/2
2
z
/2
/2
z1
/2
z1
/2
Z calc
z1
/2
/2
z calc
z1
-z1-
/2
/2
zcalc
z1
/2
H0:0
H1:<0
Bajo la hiptesis nula la distribucin de la media muestral es:
101
H 0 cierta
Tcalc
X
S
n
P Tcalc
P Tcalc
tn
tn
1, / 2
1,1
/2
2
t n 1,
/2
tn
1,1
P tn
/2
1,1
/2
Tcalc
tn
1,1
/2
Para dar una forma homognea a todos los contrastes de hiptesis es costumbre
denominar al valor del estadstico del contraste calculado sobre la muestra como
valor experimental y a los extremos de la regin crtica, como valores tericos.
Definiendo entonces
Tcalc
Tteo
X
S
n
tn
1,1
/2
102
Tcalc
S
n
Tteo
tn
1,1
/2
H1:>0
O tambin se escribe
H0:0
H1:>0
Regin crtica para el contrastes unilateral de una media contrario al anterior
Tcalc
x 174
S ~ tn-1 = t24
n
Tcalc
t24,1
/2
t24,0,975
2,06
104
Tcalc
170 174
10
25
t 24,0,975
2,06
Ejemplo 2
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si la
altura media es menor de 174 cm.
Ahora el contraste es
H0 : 174 cm
H1 : < 174 cm
Consideremos el caso lmite y observemos si la hiptesis nula debe ser rechazada o
no. Este es:
H0 : = 174 cm
H1 : < 174 cm
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadstico
Tcalc
x 174
S ~ tn-1 = t24
n
es aceptable bajo esta hiptesis, con un nivel de confianza del 95%. Se aceptar la
hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si
Tcalc
t 24,
t 24,1
t 24, 0,95
1,71
Mientras que en el ejemplo anterior no exista una evidencia significativa para decir que
174 cm, el simple hecho de plantearnos un contraste que parece el mismo pero en
versin unilateral nos conduce a rechazar de modo significativo que = 174 cm y
aceptamos que < 174 cm. Es por ello que podemos decir que no slo H 0' es rechazada,
sino tambin H0.
H0 :
2
0
, donde
2
0
es un valor prefijado
Contraste bilateral
Cuando el contraste a realizar es
H0 :
2
0
H1 :
2
0
106
definimos
2
calc
S 2
n 1
2
0
ateo
2
n 1, / 2
bteo
2
n 1,1
/2
2
Si ateo
calc
Si 2 calc < ateo
bteo no rechazamos la H0
calc > bteo rechazamos H0 y aceptamos H1
Contrastes unilaterales
Para un contraste de significacin al nivel del tipo
H0 : 2 = 2 0
H1 : 2 < 2 0
O tambin se escribe
H0: 2 20
H1 : 2 < 2 0
se tiene que el resultado del mismo es el que refleja en la siguiente figura
Contraste unilateral del tipo H0 2 20.
107
si
ateo
2
calc
si
2
calc
<
ateo
no rechazamos H 0
rechazamos H 0 y aceptamos H1
bteo
n-1
2
n 1,1
si
2
calc
si
bteo
bteo
<
2
calc
no rechazamos H 0
rechazamos H 0 y aceptamos H1
108
H0 :
=0
H1 :
Versus
H0 :
vs. H1 :
H0 :
vs. H1 :
2
109
Caso Normal
Se pueden distinguir cuatro situaciones:
m1 y m2 son muestras independientes
Poblaciones con varianzas conocidas
Poblaciones con varianzas desconocidas pero iguales
Poblaciones con varianzas desconocidas pero diferentes
m1 y m2 son muestras dependientes (valores apareados)
Caso Normal-Muestras independientes Varianzas conocidas
La inferencia se basa en el siguiente estadstico:
X1
X2
2
1
2
2
n1
n2
~ N (0,1)
Es una situacin de inters terico porque usualmente las varianzas son desconocidas.
Caso Normal-Muestras independientes Varianzas desconocidas pero iguales
La inferencia se basa en el siguiente estadstico:
X1
X2
S p2
1
n1
1
n2
S p2
~ Tn1
n2 2
x1
x2
t(1
/ 2) ; n1 n2 2
2
p
1
n1
1
n2
Ejemplo
Se desea comparar dos variedades de man, en cuanto al contenido de aceites de las
semillas. Las hiptesis de esta prueba son H0: 1= 2 vs H1: 1
2. Para probar las
hiptesis anteriores se disea un ensayo en el que, para cada variedad, se obtienen los
contenidos de aceite de 10 bolsas de 1 kg de semillas de man, extradas aleatoriamente,
de distintos productores de semillas.
Los resultados del ensayo son los siguientes:
Variedad
S2
10
160.4
65.3
10
165.6
67.9
s12
~ F( n1
2
s2
1, n2 1)
Hiptesis de la prueba:
H0 :
2
1
2
2
H1 :
2
1
2
2
111
65.3
67.9
0.96
0.0 0.248
1.5
3.0
4.03
4.5
6.0
La regin de aceptacin para un nivel de significacin del 5% est delimitada por 0,248 y
4,03, correspondientes a los cuantiles /2 y (1 - /2) respectivamente.
9 0.001 0.025 0.050 0.075 0.100 0.125 0.150 0.850 0.875 0.900 0.925 0.950 0.975 0.990
1 0.043 0.138 0.195 0.246 0.297 0.349 0.403 26.3967 38.1751 59.8575 106.70 240.543 963.279 6022.40
2 0.061 0.175 0.234 0.285 0.332 0.378 0.423 6.0427 7.3783 9.3805 12.716 19.3847 39.3866 99.3896
3 0.071 0.196 0.258 0.309 0.355 0.399 0.441 3.7945 4.3971 5.2400 6.5269 8.8123 14.4730 27.3449
4 0.079 0.212 0.275 0.326 0.371 0.413 0.454 3.0153 3.4070 3.9357 4.7077 5.9988 8.9046 14.6592
5 0.085 0.223 0.287 0.338 0.383 0.424 0.464 2.6268 2.9239 3.3163 3.8738 4.7725 6.6810 10.1577
6 0.089 0.231 0.296 0.347 0.392 0.433 0.472 2.3949 2.6396 2.9577 3.4015 4.0990 5.5234 7.9760
7 0.093 0.238 0.303 0.354 0.399 0.440 0.478 2.2411 2.4526 2.7247 3.0989 3.6767 4.8232 6.7188
8 0.096 0.243 0.309 0.360 0.405 0.445 0.483 2.1316 2.3204 2.5612 2.8891 3.3881 4.3572 5.9106
9 0.099 0.248 0.314 0.365 0.409 0.450 0.487 2.0496 2.2220 2.4403 2.7351 3.1789 4.0260 5.3511
10 0.101 0.252 0.318 0.369 0.413 0.453 0.491 1.9860 2.1459 2.3473 2.6174 3.0204 3.7790 4.9424
112
X1
X2
S
2
p
1
n1
1
n2
160.4 165.6
66.6
n2 2
S p2
~ Tn1
Grados de
Libertad
66.6
1.42
1 1
10 10
Distribucin T de Student
-4.0
-2.7
-2.101
-1.3
0.0
1.3
2.7
4.0
2.101
La regin de aceptacin para un nivel de significacin del 5% est delimitada por -2,101 y
2,101, correspondientes a los cuantiles /2 y (1 - /2) respectivamente y 18 grados de
libertad.
Como T=-1,42 est en el intervalo (-2,101; 2,101) se acepta H0: 1= 2
Se concluye que no hay diferencias entre las dos variedades de man considerando el
contenido de aceites en la semilla.
113
T'
X1
X2
2
1
S12
~T
2
2
S
n1
S
n2
S12
n1
2
n1
S22
n2
S22
n2
n1 estadstico
1
n2se conoce
1
La prueba de hiptesis para la diferencia de medias basada en este
como prueba T para muestras independientes cuando las varianzas no son homogneas
Intervalo de confianza bilateral 1- para la diferencia de medias est dado por:
x1
x2
t(1
s12
n1
/ 2) ;
s22
n2
Ejemplo
Comparar el efecto de dos drogas en pacientes con hipertensin arterial.
La prueba T es aplicable, en este caso, bajo la suposicin que las observaciones de
animales con y sin estrs son independientes, distribuidas normalmente con
varianzas desconocidas y supuestamente diferentes.
Caso Normal-Muestras dependientes (apareadas)
Los datos se obtienen de muestras que estn relacionadas, es decir, los resultados del
primer grupo no son independientes de los del segundo. Por ejemplo, esto ocurre cuando
se mide la presin arterial en cada uno de los individuos de un grupo experimental antes y
despus de la administracin de una droga.
El objetivo es comprobar si la droga produce efectos en la presin sangunea. Los pares de
observaciones (antes y despus) obtenidas en cada individuo no son independientes ya que
la presin arterial posterior a la administracin de la droga depende de la presin arterial
inicial.
Dadas las muestras m1 y m2 consideremos la muestra de las diferencias
md={X11- X12, X21 - X22 ,,Xn1- Xn2}= {D1, D2 ,,Dn}
(observar que n1=n2=n)
La inferencia se basa en el siguiente estadstico, que depende de la media y la varianza de
las diferencias y del valor hipotetizado para el promedio poblacional de las diferencias ( )
D
2
D
~ tn
S
n
114
t(1
/ 2); n 1
S D2
n
Ejemplo:
Comparacin de los niveles de monxido de carbono en aire entre la maana y la
tarde en una ciudad.
La prueba T para muestras apareadas es aplicable en este caso cuando las observaciones de
m1 y m2 se obtienen de a pares, como por ejemplo mediciones de monxido a la maana y
tarde de un mismo da.
Se quiere comparar el efecto de dos virus sobre plantas de tabaco. Para ello se
seleccionaron al azar 8 plantas y en cada una de ellas se tomaron 2 hojas apicales.
Sobre cada una de ellas se aplicaron los preparados conteniendo los virus cuyos efectos
se queran evaluar.
La variable de respuesta fue la superficie en mm2 de las lesiones locales que aparecan
como pequeas manchas oscuras en las hojas.
Los resultados fueron:
Preparado 1
Preparado 2
di
31
18
20
17
13
3
18
14
H0 :
H1 :
17
11
10
-1
H0 : = 0
10
H1 :
1= 15
2 = 11
= 4
D
S D2
n
4 0
4.30
8
=0
2.63
115
116
Anlisis de la Varianza
ANAVA
Es necesario definir un nuevo contraste de hiptesis que sea aplicable en aquellas
situaciones en las que el nmero de medias que queremos comparar sea superior a
dos.
Es por ello por lo que el anlisis de la varianza (ANAVA, ANDEVA, ANOVA)
surge como una generalizacin del contraste para dos medias de la t de Student,
cuando el nmero de muestras a contrastar es mayor que dos.
Definiciones preliminares
Unidad experimental
Se llama unidad o parcela experimental a la mnima porcin del material
experimental sobre el cual un tratamiento puede ser realizado.
Tratamiento
Se denomina tratamiento al conjunto de acciones que se aplican a las unidades
experimentales con la finalidad de observar como responden a stas. Tratamiento
Variable aleatoria observada o respuesta
Se llama variable aleatoria observada o respuesta a la medida u observacin que
se obtiene de cada una de las unidades experimentales.
Repeticin
Se llama repeticin a cada realizacin de un tratamiento
Modelo lineal
La tcnica de anlisis de la varianza presupone un modelo para la variable
respuesta. Este modelo recibe el nombre genrico de modelo lineal.
modelo lineal de ANAVA (a una va de clasificacin) para la observacin Y ij:
Yij = + i + ij ,
117
El efecto del tratamiento 1 (1) es la diferencia que hay entre la media del
tratamiento 1 y la media general. La hiptesis nula del ANAVA postula la igualdad
de medias de todos los tratamientos comparados. Si la hiptesis nula del ANAVA
fuera verdadera las a distribuciones estaran centradas sobre la misma esperanza, es
decir, en . Los valores de la variable aleatoria ij representan las diferencias entre
observaciones individuales y las esperanzas de la distribucin de la cual proviene la
observacin.
Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas
por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza -hiptesis de homocedasticidad:
j 1, , n i
X ij ~ N i ,
O lo que es lo mismo
2
X ij
ij
donde
ij ~
N 0,
De este modo i es el valor esperado para las observaciones del nivel i, y los
errores ij son variables aleatorias independientes, con valor esperado nulo, y con
el mismo grado de dispersin para todas las observaciones.
118
X ij
ij
donde
ij
~N
0,
N 0,
H0 :
H0 :
H1 : al menos un
t
i
Observacin
Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del
anlisis estadstico ser precisamente el estudio de la variabilidad. Tericamente es
posible dividir la variabilidad de la variable que se estudia en dos partes:
La originada por el factor en cuestin
La producida por los restantes factores que entran en juego, conocidos o no,
controlables o no, que se conocen con el nombre de error experimental.
Si mediante los contrastes estadsticos adecuados la variacin producida por cierto
factor es significativamente mayor que la producida por el error experimental
podemos aceptar la hiptesis de que los distintos tratamientos del factor actan de
forma distinta.
Ejemplo
Consideremos dos muestras tomadas en diferentes tratamientos de una variable, de
forma que ambas tengan la misma varianza muestral (lo que indica que no se puede
rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante
diferentes:
119
1,2,3
tratam iento 1
n1
S12 1
11,12,13
tratam iento 2
n2
n1 n2
S2
5,55
x 12
S 22
120
N
i 1
ni
xi
xi
xi
ni
ni
xij
i 1
x
N
ni x i
j 1
i 1
n i
i 1
j 1
n i
i 1
j 1
SCT
xij
SCD
xij
x
2
SCE
ni x i
i 1
Observacin
En el clculo del estadstico SCT intervienen N cantidades, ligadas por una
relacin:
t
n 1
xij
i 1
j 1
121
H0 :
H1 : algn
Fcalc
S E2
~ Ft
S D2
1, N t
Distribucin F de Fisher
(en algunos libros F de Snedecor)
Nunca adopta valores menores de 0
Es asimtrica positiva
Es en realidad una familia de curvas, en funcin de los llamados grados de
libertad del numerador y del denominador. Es decir, hay una F de Fisher con 1 gl
en el numerador y 10 gl en el denominador, etc.
Se puede demostrar que la distribucin F equivale a una razn entre dos chicuadrados; de ah que hablemos en el caso de F de grados de libertad en el
numerador y en el denominador.
Luego si al calcular Fcalc obtenemos que
Fcalc > Ft
1, N t ,1
donde
ni
xij2
A
i 1
t
B
i 1
j 1
2
i
x
ni
x2
N
122
Niveles
Nivel 1
Nivel 2
Observaciones de X
x11
x21
x12
...
Nivel t
x1n1
x22
Clculos al margen
n1
x2n2
n2
...
xt1
...
xt2
xtnt
nt
x1
x12
n1
x2
x 22
n2
n1
x12j
j 1
n2
x22 j
j 1
...
xt
x
xt2
nt
B
nt
xtj2
j 1
S E2
SCE
t 1
A B
S D2
SCD
N 1
Fcalc
S E2
S D2
SCE
B C
SCT
A C
SCD
Calculamos:
Fteo
Ft
1, N t ,1
123
Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 cultivos, obtenindose los
resultados de la tabla siguiente. Queremos saber si se puede concluir que todos los
tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en
condiciones de aplicar el modelo de un factor.
Trata
mientos
Observaciones
Tratamiento -1
1
j 1
1/5
Tratamiento -2 -4 -5 -4 -7
2
-22
484/5
110
Tratamiento
3
-1 -2 -4 -1
-8
64/5
22
Tratamiento
4
22
484/5
126
i 1
N = 20
ni
A
t
xij2
i 1
xi
ni
ni
-1
xi2
ni
2
ij
49
20
j 1
xi2
ni
x2
N
t
ni
A
i 1
t
B
i 1
1033
5
A = 265
xij2
j 1
xi2
ni
x2
N
124
Se rechaza la hiptesis de que los tratamientos tienen el mismo efecto en los tres grupos.
125
Normalidad
Q Q plot:
seleccionando los residuos como variable de anlisis, una de las tcnicas ms
usadas es construir un Q-Q plot normal. Mediante esta tcnica se obtiene un
diagrama de dispersin de los residuos obtenidos versus los cuantiles tericos
de una distribucin normal. Si los residuos son normales y no hay otros defectos
del modelo, se alinearn sobre una recta a 45.
Habiendo corrido un ANAVA y guardando los residuos, se debe seleccionar
del Men GRFICOS de la barra de herramientas de InfoStat para realizar
un grfico Q-Q plot (normal) usando como variable a los residuos del modelo.
260.80
n= 20 r= 0.984 (RDUO_Rendimiento)
132.50
Cuantiles observados(RDUO_Rendimiento)
4.20
-124.10
-252.40
-252.40 -124.10
4.20
132.50 260.80
Variable
RDUO_Rendimiento
n
20
Media D.E. W*
0.00 127.67 0.96
p (una cola)
0.7824
Homogeneidad de varianza:
prueba de Levene
Se utiliza la prueba de Levene. Si bien esta prueba fue desarrollada para diseos
completamente aleatorizados, se puede extender su uso a modelos ms complejos.
La prueba consiste en realizar un anlisis de la varianza usando como variable
dependiente el valor absoluto de los residuos.
Este anlisis se debe realizar con un modelo a una va de clasificacin.
Las hiptesis que se someten a prueba son:
H0: 12 = 22 = = n2
H1: Al menos dos varianzas son distintas donde i2 es la varianza del tratamiento i,
i=1,...,n.
Si el valor p del factor tratamiento de este ANAVA es menor al valor de
significacin nominal se rechaza la hiptesis de varianzas homogneas, caso
contrario el supuesto de igualdad de varianzas puede ser sostenido. InfoStat no
tiene implementada esta prueba como tal en la seccin de las pruebas de hiptesis,
pero se puede construir fcilmente ya que se pueden guardar automticamente los
valores absolutos de los residuos.
Anlisis de la varianza (Levene)
Variable
RABS_Rendimiento
N
20
R
0.44
R Aj CV
0.11 71.10
p-valor
0.3150
0.5154
1.73 0.2076
127
Homogeneidad de varianza:
grfico de dispersin
Cuando los errores son homocedsticos, haciendo un grfico de dispersin de
residuos versus valores predichos se debe observar una nube de puntos sin patrn
alguno (patrn aleatorio).
Si el grfico muestra estructura habr indicios para sospechar sobre el
cumplimiento del supuesto.
Un patrn tpico que indica falta de homogeneidad en las varianzas, se muestra
en la Figura 8 .
145.3
RDUO_Rendimiento
4.2
-136.9
-278.1
1791.8 2211.3 2630.8 3050.2 3469.7
PRED_Rendimiento
Independencia
Para verificar el supuesto de errores independientes, se realiza un grfico de
dispersin de los residuos en funcin de la variable que se presume puede generar
dependencias sobre las observaciones.
128
145.3
RDUO_Rendimiento
4.2
-136.9
-278.1
0.8
1.9
3.0
4.1
5.2
Tratamiento
129
Comparaciones Mltiples
Pruebas a posteriori
Los diferentes mtodos de hacer comparaciones mltiples se emplean slo cuando
el resultado del ANAVA resulta significativo. En tal caso, se sabe que existen
diferencias entre las muestras, pero sin poder especificar entre cuales de ellas. Se
necesita, entonces, alguna forma de poder compararlas entre s, y alcanzar as el
objetivo final del ANAVA.
Para analizar las diferencias de a pares. entre las medias de las distribuciones que
se comparan, es posible realizar una gran variedad de pruebas a posteriori o
pruebas de comparacin mltiple
Comparaciones a posteriori: Son aquellas comparaciones no planificadas de
antemano. Surgen a partir de los datos experimentales, cuando el investigador
descubre diferencias inesperadas y quiere testearlas.
Para cualquier procedimiento elegido, el software permite definir el nivel de
significacin nominal usado para la prueba seleccionada.
130
Regresin y Correlacin
Relaciones entre variables y regresin
Conclusin: los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos.
Qu vamos a estudiar
Vamos a tratar diferentes formas de describir la relacin entre dos variables cuando
estas son numricas.
Estudiar si hay relacin entre la altura y el peso.
Haremos mencin de pasada a otros casos:
Alguna de las variables es ordinal.
Estudiar la relacin entre el sobrepeso y el dolor de espalda (ordinal)
Hay ms de dos variables relacionadas.
Conocer el peso de una persona conociendo su altura y contorno de
cintura?
En la tabla tenemos una posible manera de recoger los datos obtenido observando
dos variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo
Cada columna representa los valores que toma una variable sobre los
mismos.
131
Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de
la otra.
Altura
en cm.
162
154
180
158
171
169
166
176
163
...
Peso en
Kg.
61
60
78
62
66
60
54
84
68
...
132
Incorrelacin
n
280
230
180
130
80
30
140
150
160
170
180
190
200
Para valores de X por encima de la media tenemos valores de Y por encima y por debajo
en proporciones similares. Incorrelacin.
133
100
Fuerte relacin
directa.
90
80
70
60
50
40
30
140
150
160
170
180
190
200
80
Cierta relacin
inversa
70
60
50
40
30
20
10
0
140
150
160
170
180
190
200
Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es
relacin inversa o decreciente.
Poca relacin
230
180
130
80
30
140
150
160
170
180
190
200
Dado un valor de X no podemos decir gran cosa sobre Y. Mala relacin. Independencia.
134
100
Fuerte relacin
directa.
90
80
70
60
50
40
30
140
150
160
170
180
190
200
Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relacin.
Lo de horquilla estrecha hay que entenderlo con respecto a la dispersin que
tiene la variable Y por si sola, cuando no se considera X.
80
Cierta relacin
inversa
70
60
50
40
30
20
10
0
140
150
160
170
180
190
200
La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos
variables es directa o inversa.
Directa: Sxy >0
Inversa: Sxy <0
Incorreladas: Sxy =0
S xy
1
n
( xi
x )( yi
y)
tiene el mismo signo que Sxy por lo tanto de su signo obtenemos el que la posible
relacin sea directa o inversa.
r es til para determinar si hay relacin lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica, logartmica,...)
S xy
SxS y
Propiedades de r
Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.
Siempre que no existan observaciones anmalas.
136
330
280
230
180
130
80
r=0,1
30
140
150
160
170
180
130
120
110
100
90
80
70
60
50
40
30
190
200
r=0,4
140
150
160
170
180
190
200
110
100
90
80
70
60
50
r=0,6
40
30
140
150
160
170
180
190
200
100
90
80
70
60
50
r=0,8
40
30
140
150
160
170
180
190
200
137
100
90
80
70
60
50
40
r=0,9
30
140
150
160
170
180
190
200
100
90
80
70
60
50
r=1
40
30
140
150
160
170
180
190
200
100
90
80
70
60
50
r=0,99
40
30
140
150
160
170
180
190
200
Correlaciones negativas
138
90
80
70
60
50
40
30
20
10
0
r=-0,5
140
150
160
170
180
190
200
160
170
180
190
200
160
170
180
190
200
160
170
180
190
200
80
70
60
50
40
30
20
10
r=-0,7
0
140
150
80
70
60
50
40
30
20
r=-0,95
10
0
140
150
80
70
60
50
40
30
20
r=-0,999
10
0
140
150
Preguntas frecuentes
Cuando las variables en vez de ser numricas son ordinales, es posible preguntarse
sobre si hay algn tipo de correlacin entre ellas.
Disponemos para estos casos de dos estadsticos, aunque no los usaremos en clase:
(ro) de Spearman
(tau) de Kendall
No hay que estudiar nada sobre ellos en este curso. Recordar slo que son
estadsticos anlogos a r y que los encontraran en publicaciones donde las variables
no puedan considerarse numricas.
Regresin
El anlisis de regresin sirve para predecir una medida en funcin de otra medida
(o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
140
predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
El ejemplo del estudio de la altura en grupos familiares de Pearson es del tipo que
desarrollaremos en el resto del tema.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
buscamos encontrar una funcin de X muy simple (lineal) que nos permita
aproximar Y mediante
= A + BX
A (ordenada en el origen, constante)
B (pendiente de la recta)
Y e rara vez coincidirn por muy bueno que sea el modelo de regresin. A la
cantidad
e=Y- se le denomina residuo o error residual.
En el ejemplo de Pearson y las alturas, l encontr:
= A + BX
A=85 cm (No interpretar como altura de un hijo cuyo padre mide 0
cm Extrapolacin salvaje!
B=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)
141
Que el error medio de las predicciones sea nulo no quiere decir que las
predicciones sean buenas.
Interpretacin de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cul es la variabilidad en el
eje Y.
La franja sombreada indica la zona donde varan los valores de Y. Proyeccin sobre el eje
Y = olvidar X
Interpretacin del residuo
Fijmonos ahora en los errores de prediccin (lneas verticales). Los proyectamos sobre el
eje Y.
Se observa que los errores de prediccin, residuos, estn menos dispersos que la variable Y
original.
Cuantos menos dispersos sean los residuos, mejor ser la bondad del ajuste.
143
Bondad de un ajuste
Resumiendo:
Eso hace que definamos como medida de bondad de un ajuste de regresin, o coeficiente
de regresin a:
Se2
1 2
SY
S e2
S Y2
144
Se pueden considerar otros tipos de modelos, en funcin del aspecto que presente
el diagrama de dispersin (regresin no lineal)
recta o parbola?
140
150
160
170
180
190
170
180
190
200
recta o cbica?
140
150
160
200
145
1 variable explicativa
explicativas
2+ variables
Modelos de
regresin
Simple
Lineal
No lineal
Mltiple
Lineal
No lineal
No ajustaremos modelos a mano. Usaremos para ello un software Estadstico (ej. InfoStat).
Repaso
Estos mtodos se emplean para conocer las relaciones y significacin entre series
de datos.
Cuando, simultneamente, contemplamos dos variables continuas, aunque por
extensin se pueden emplear para variables discretas cuantitativas, surgen
preguntas y problemas especficos.
Regresin Lineal
Claro est, si sabemos que la variable X est muy relacionada con Y, ello quiere
decir que podemos predecir Y a partir de X. Estamos ya en el terreno de la
prediccin. (Evidentemente si, X no est relacionada con Y, X no sirve como
predictor de Y)
El tema bsico en regresin (con 2 variables) es ajustar los puntos del diagrama de
dispersin de las variables X e Y. Para simplificar, nos centraremos especialmente (por
simplicidad) en el caso de que la relacin entre X e Y sea lineal.
146
Claro est, el tema ahora es cmo conseguir cul es la mejor lnea que parece unir los
puntos. Necesitamos para ello un criterio. Si bien hay otros criterios, el ms empleado
comnmente, y el que veremos aqu, es el criterio de mnimos cuadrados.
re
nd
im
ie
nt
o
inteligencia
Recordar: Que el criterio de mnimos cuadrados, es aquel que minimiza las distancias
cuadrticas de los puntos con la lnea.
Repaso de la ecuacin de una recta
Y=A+BX
A es la ordenada en el origen (es donde la recta corta el eje Y)
B es la pendiente (observad que en el caso de las relaciones positivas, B ser positivo; en
el caso de las relacin negativas, B ser negativo; si no hay relacin, B ser
aproximadamente 0)
r
e
n
di
m
ie
n
t
o
inteligencia
Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de relacin lineal) la
recta de regresin de Y sobre (a partir de) X.
El criterio de mnimos cuadrados nos proporciona un valor de A y uno de B, tal que
147
Yi
Yi
'
i 1
sea mnimo
Re
ndi
mi
en
to
(Y)
Inteligencia (X)
CI (X)
120
100
90
110
Rendim (Y)
10
9
4
6
Yi
i 1
Yi
'
es mnimo
148
Observar....
-Cada unidad de CI hace aumentar 0,15 la nota.
-Aunque en este caso, lo siguiente no tiene sentido, una persona con CI de 0, sacara un 8,5
Ordenada origen
A Y
BX
Pendiente
XY nXY
X 2 nX 2
Nota: Tanto A como B se pueden obtener fcilmente en cualquier calculadora con opcin
LR (Linear Regression)
suj1
suj2
suj3
suj4
X
120
100
90
110
Y
10
9
4
6
XY
1200
900
360
660
X2
14400
10000
8100
12100
SUMA
3120
SUMA
44600
PROMEDIO PROMEDIO
105
7.25
N
4
149
0 '15
8'5
Luego
Y=-8,5+0,15X
Errores de Prediccin
Los errores de prediccin en la recta de regresin de Y sobre X
Yi
Puntuaciones observadas
Puntuaciones predichas
Yi
Error de prediccin
con la recta de
regresin de Y sobre X
Yi Yi
(Y Y )2
es mnimo
s 2y
(Y Y )2
n
150
(Yi Yi ) 2
s 2y. x
s y2. x
s 2y (1 rxy2 )
rxy2
s y2. x
s y2
rxy2
s y2. x
s y2
rxy2
s y2. x
Yi
Yi
(Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto i-simo es igual a la
puntuacin predicha para dicho sujeto ms un error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de prediccin son
independientes, con lo que podemos sealar
s 2y
s y2
s y2 '
s y2.x
Varianza total de Y
2
y'
2
y.x
2
xy
s y2. x
s y2
luego
rxy2
s y2
s y2. x
s 2y
s y2
s y2
152
s 2y
s 2y. x
s y2
s y2 ' s y2. x
s 2y '
s 2y
Podemos despejar
s y2. x
Esto quiere decir que al emplear la recta de regresin para efectuar las estimaciones de Y
se reduce el error de estimacin en una cantidad igual a
2
xy
r
Puesto que sabemos que
s y2 '
s y2
s 2y
Por ejemplo, un coeficiente de regresin de 0,16 quiere decir que el emplear la recta de
regresin reduce el error en los pronsticos un 16% respecto al caso de que hubiramos
adjudicado la media aritmtica de Y a cada dato de la variable predicha.
Ejemplo
153
1014.74
894.25
Biomasa
773.77
653.29
532.80
2.80
3.90
5.00
6.10
7.20
pH
El diagrama indicara que hay una relacin positiva entre la biomasa y el pH. Solicitando
el anlisis de regresin se obtuvieron los siguientes resultados
154
928.01
Biomasa
792.48
656.95
521.43
2.80
3.90
5.00
6.10
7.20
pH
n= 45 r= 0.993 (RDUO_Biomasa)
35.31
-31.48
-64.87
-64.87
-31.48
1.92
35.31
68.70
Obsrvese que en el Q-Q plot fue realizado con los residuos del modelo de
regresin y usando como distribucin terica la Normal. Los puntos se disponen en una
recta a 45 indicando que el supuesto distribucional para los residuos se cumple.
Realizando la prueba se Shapiro-Wilks (modificada) en el men INFERENCIA
BASADA EN UNA MUESTRA se concluye que los datos siguen una distribucin
normal (p=0.8327).
155
Homocedasticidad:
puede verse que los puntos para los valores de pH ms altos presentan menor dispersin
que el resto, razn por la cual una prueba formal de homogeneidad de varianzas sera
recomendable.
2.63
1.35
RE_Biomasa
0.07
-1.21
-2.49
581.52
686.63
791.74
896.86
PRED_Biomasa
1001.97
Correlacin lineal
Es posible, que estudiando una variable bidimensional, no se desee establecer ninguna
relacin de subordinacin de una variable con respecto a la otra. En este supuesto, se
intenta cuantificar la asociacin entre las dos caractersticas.
Entramos en las tcnicas de correlacin lineal.
Es posible definir otro estadstico muestral a partir del las dos pendientes tericas
de las dos posibles rectas de regresin (y) sobre(x) y de (x) sobre (y).
Este estadstico es el coeficiente de correlacin r. Su cuadrado r2 es el coeficiente
de determinacin y da una medida entre 0 y 1 de la cantidad de informacin
compartida por dos caractersticas o variables continuas en los datos muestrales.
La magnitud de la asociacin entre dos variables continuas est en relacin con la
dispersin de la nube de puntos. Se puede establecer una relacin matemtica
perfecta entre la desviacin tpica de los residuos y el coeficiente de determinacin.
El hecho de que dos variables estn correlacionadas, e incluso que lo estn con
valores muy cercanos a 1, no implica que exista una relacin de causalidad entre
ellas. Se pueden producir correlaciones espurias (causales) entre dos variables, por
estar ambas relacionadas con otra tercera variable continua y anterior en el tiempo.
Los nuevos estadsticos generados en la regresin y correlacin lineal se emplean
como estimadores de los correspondiente parmetros poblacionales.
Para que los coeficientes de la regresin y correlacin sean estimadores adecuados
(centrados y de mnima varianza) de sus correspondientes parmetros
156
Ejemplo
En un experimento sobre crecimiento de una maleza se utilizan 20 unidades
experimentales consistentes en bandejas sembradas con 40 semillas al
comienzo de la experiencia. Se registra el nmero de semillas germinadas y al
cabo de un cierto tiempo en todas se obtiene un indicador del rea foliar y la
biomasa total. Se pretende estudiar las correlaciones de biomasa con rea foliar y
nmero de semillas germinadas, en un sistema donde la biomasa es considerada
como variable dependiente. Los datos se encuentran en el archivo Sendero.
Coeficientes de Sendero (Path Analysis)
Variable dependiente: Biomasa
Efecto
Via
Coeficientes p-valor
SemGerm
Directa
0.78168
SemGerm
AreaFoliar
-0.02020
r total
0.76148 0.00010
AreaFoliar
Directa
0.03017
AreaFoliar
SemGerm
-0.52326
r total
-0.49308 0.02717
La correlacin entre biomasa y rea foliar es significativa (r=-0.49, p=0.03) y est
fuertemente determinada (-0.52) por la correlacin entre biomasa y semillas germinadas.
La correlacin directa entre biomasa y semillas germinadas es alta y significativa
(r=0.78, p<0.0001).
Pearson
Correlacin de Pearson: coeficientes\probabilidades
Biomasa
SemGerm
AreaFoliar
Biomasa
1.00000
0.76148
-0.49308
SemGerm
0.00010
1.00000
-0.66940
AreaFoliar
0.02717
0.00125
1.00000
Regresin mltiple
Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta de
regresin de Y sobre X por el procedimiento de mnimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada conducta observada puede
ser influida por diferentes variables, resulta ms ecolgico examinar no ya cun bueno
es un predictor X para predecir Y, sino ms bien tendremos varios predictores X 1, X2, ....,
157
para predecir Y (o si se quiere, varios predictores, X2, X3,...., para predecir X1). Es el caso
de la regresin mltiple.
Hasta ahora tenamos:
Y= A + BX
Ahora tendremos k predictores:
X1
A B2 X 2
B3 X 3 ... Bk X k
X1
A B2 X 2
B3 X 3 ... Bk X k
x1
b2 x2
b3 x3 ... bk xk
Y aplicando la misma lgica, el valor de los pesos es el mismo que el que tenamos en
puntuaciones directas
b2=B2
b3=B3 etc
Datos (N=5)
Rendim
9
3
6
2
7
Ansied Neurot
3
5
12
15
8
8
9
7
7
6
Resumen del modelo
Modelo
1
R
R cuadrado
.904 a
.817
R cuadrado
corregida
.634
Error tp. de la
estimacin
1.744
158
Coeficientesa
Modelo
1
(Constante)
ANSIED
NEUROT
Coeficientes no
estandarizados
B
Error tp.
11.288
2.221
-1.139
.510
.365
.421
Coeficientes
estandarizad
os
Beta
-1.293
.502
t
5.082
-2.233
.868
Sig.
.037
.155
.477
R1.23
0,904
R12.23
S x2`1
S x21
Series de Tiempo
Anteriormente se plante el anlisis de regresin como una herramienta para la
elaboracin de modelos y prediccin. Ahora se presentar un mtodo cuantitativo de
elaboracin de pronsticos, llamado mtodo de series de tiempo. Los mtodos de
elaboracin de pronstico bsicamente se agrupan en mtodos cualitativos y mtodos
cuantitativos. Los mtodos cualitativos son altamente subjetivos y de criterio, son
importantes cuando no se cuenta con informacin histrica como pro ejemplo en el caso en
que se quiere predecir las ventas de un producto nuevo. Los mtodos cuantitativos por su
parte, se pueden subdividir en series de tiempo y causales. Los causales incluyen la
determinacin de factores que se relacionan con la variable a predecir. En tanto los
mtodos de series de tiempo incluyen las proyecciones de valores futuros de una variable,
basada completamente en observaciones pasadas.
La suposicin bsica que subyace en el anlisis de series de tiempo es que los factores que
han ocasionado patrones de actividad en el pasado y en el presente continuarn hacindolo,
ms o menos de la misma forma, en el futuro. Por consiguiente, los principales objetivo
del anlisis de series de tiempo consiste en identificar y aislar tales factores de influencia
con propsitos de hacer predicciones (pronsticos), as como para efectuar una planeacin
y un control administrativo.(Berenson y Levine).
160
Irregular:
Movimientos recurrentes que responden a una acumulacin de causas, o que no tienen una
causa especfica.
Para fijar ideas se presenta el siguiente ejemplo, extrado del libro de series de tiempo de
Box y Jenkins.
Ejemplo:
la serie a considerar es Cantidad de pasajeros en las lneas areas internacionales,
durante el perodo comprendido entre enero de 1949 y diciembre de 1961, son totales
mensuales, representados en miles de pasajeros. Estos datos fueron procesados con el
programa X- 11 ARIMA del Bureau of the Census, y los grficos que se muestran a
continuacin son los resultados de las estimaciones obtenidas por este programa En la
Figura 1 se representa la serie originaria. Se puede ver que esta serie tiene una marcada
tendencia ascendente, y adems existen oscilaciones dentro de los aos, que si bien tienen
aproximadamente la misma forma, la amplitud de las mismas se hace ms grande a travs
de los aos. Esto lleva a pensar en que la serie tiene adems de una componente de
tendencia una componente estacional. Al observar este grfico hay que tener presente que
no se pueden hacer comparaciones de la cantidad de pasajeros de las lneas areas
internacionales, en pares de meses arbitrarios, por ejemplo, julio de 1960 con junio o
marzo del mismo ao y concluir que hay mayor cantidad de personas que viajan en julio
que en marzo, ya que este aumento se puede haber debido al efecto estacional y no a la
realidad. Por lo tanto es importante hacer un estudio de cada una de las componentes y de
la serie sin estacionalidad
El grfico 3 de perodo completo y la Figura 4 (se grafica una porcin del perodo)
representan las oscilaciones dentro de los aos o intraanuales, o sea los factores
estacionales estimados. Se puede observar que hay picos para todos los aos en los meses
de junio, julio y agosto, que coincide con las vacaciones de verano, y que es la poca de
temporada alta para las lneas areas internacionales europeas. Se puede observar tambin,
un valle en los meses de enero y febrero, poca considerada como temporada baja. Es
decir, estas fluctuaciones pueden deberse a la presencia de temporada alta y baja en los
datos. Otro pico se produce, todos los aos, para los meses de marzo y abril, que puede
deberse al efecto Pascua.
Es importante entonces, eliminar estos efectos de los datos para poder observar el
verdadero comportamiento de los mismos.
162
163
En resumen se espera:
o Poder conocer las componentes de una serie de tiempo para analizar la
estructura de cada una de ellas por separado.
o Poder hacer comparaciones de un mismo mes en distintos aos (niveles de
tendencia).
o Poder hacer comparaciones de cualquier par de meses (serie estimada por
estacionalidad).
o Usar las estimaciones de las componentes para predecir el comportamiento
futuro de la serie.
164
Pruebas No Paramtricas
Hasta ahora todas las tcnicas utilizadas para realizar algn tipo de inferencia exigan:
bien asumir de ciertas hiptesis como la aleatoriedad en las observaciones que
componen la muestra, o la normalidad de la poblacin, o la igualdad de varianzas
de dos poblaciones, etc;
o bien, la estimacin de cualquier parmetro como la media, varianza, proporcin,
etc, de la poblacin.
El conjunto de estas tcnicas de inferencia se denominan tcnicas paramtricas. Existen sin
embargo otros mtodos paralelos cuyos procedimientos no precisan la estimacin de
parmetros ni suponer conocida ninguna ley de probabilidad subyacente en la poblacin de
la que se extrae la muestra. Estas son las denominadas tcnicas no paramtricas o
contrastes de distribuciones libres, algunos de los cuales desarrollamos a continuacin. Sus
mayores atractivos residen en que:
Son ms fciles de aplicar que las alternativas paramtricas;
Al no exigir ninguna condicin suplementaria a la muestra sobre su proveniencia
de una poblacin con cierto tipo de distribucin, son ms generales que las
paramtricas, pudindose aplicar en los mismos casos en que estas son vlidas.
Por otro lado, esta liberacin en los supuestos sobre la poblacin tiene inconvenientes. El
principal es la falta de sensibilidad que poseen para detectar efectos importantes. En las
tcnicas no paramtricas juega un papel fundamental la ordenacin de los datos, hasta el
punto de que en gran cantidad de casos ni siquiera es necesario hacer intervenir en los
clculos las magnitudes observadas, ms que para establecer una relacin de menor a
mayor entre las mismas, denominadas rangos.
165
Consideremos una muestra de tamao n que ha sido dividida en dos categoras y con
n1 y n2 observaciones cada una. Se denomina racha a una sucesin de valores de la misma
categora. Por ejemplo si estudiamos una poblacin de personas podemos considerar como
categora el sexo
Se define la v.a. R como el nmero de rachas. Su distribucin est tabulada para los casos
y
rechaza cuando
Y varianza:
Y se considera el estadstico:
166
Sin embargo a veces las hiptesis necesarias para el test paramtrico (normalidad de las
diferencias apareadas, di) no se verifican y es estrictamente necesario realizar el contraste
que presentamos aqu. Un caso muy claro de no normalidad es cuando los datos pertenecen
a una escala ordinal.
El procedimiento consiste en:
1. Ordenar las cantidades
de menor a mayor y obtener sus rangos.
2. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia
(no consideramos las cantidades di=0) y calculamos su suma, T
167
Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las
observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la
siguiente expresin de T' es ms sencilla de usar
T' = m(n+1)-T
donde
Contraste de Kruskal-Wallis
El contraste de Kruskall-Wallis es la alternativa no paramtrica del mtodo ANOVA, es
decir, sirve para contrastar la hiptesis de que k muestras cuantitativas han sido obtenidas
de la misma poblacin. La nica exigencia versa sobre la aleatoriedad en la extraccin de
las muestras, no haciendo referencia a ninguna de las otras condiciones adicionales de
homocedasticidad y normalidad necesarias para la aplicacin del test paramtrico
ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se
cumple algunas de las condiciones que se necesitan para aplicar dicho mtodo.
Al igual que las dems tcnicas no paramtricas, sta se apoya en el uso de los rangos
asignados a las observaciones.
Para la exposicin de este contraste, supongamos que tenemos k muestras representadas en
una tabla como sigue:
168
Niveles
Observaciones de X
Nivel
x11 x12
Nivel
x21 x22
...
Nivel
x1n1
x2n2
...
xk1 xk2
xknk
Se calcula el estadstico:
169
Tablas de Contingencia
Las tablas de contingencia (formas tabulares de presentar datos
categorizados) son tiles para el anlisis simultneo de dos o ms variables
categorizadas.
Una variable categorizada es aquella en la cual la escala de medida consiste en un conjunto
de categoras, por ejemplo la variable tipo de vivienda puede ser categorizada de acuerdo a
las siguientes dos categoras rural y urbana.
Para analizar e interpretar apropiadamente tablas de contingencia es necesario
tener en cuenta la escala de medida de las variables involucradas y el tipo
de estudio (aleatorizacin) usado para obtener los datos. Comnmente, las hiptesis
de inters en tablas de contingencia se refieren a la asociacin entre las variables
que definen las filas y las columnas de la tabla.
Las variables categorizadas con niveles que no tienen un ordenamiento
natural se denominan nominales (por ejemplo, afiliacin poltica con
categoras liberal y conservador). Un caso particular es aquel de las variables
binarias las cuales involucran 2 categoras de variables nominales, por ejemplo, si y
no, respuesta y no respuesta.
Si los niveles se encuentran ordenados la variable se denomina ordinal; por
ejemplo, grado de infeccin categorizada como leve, moderada y severa. Si
bien las categoras pueden ser ordenadas, a diferencia de las variables
cuantitativas las distancias absolutas entre categoras son desconocidas.
En algunas situaciones las tablas pueden ser construidas con variables medidas en
una escala de intervalos, esta escala implica que se conoce la distancia
numrica entre dos niveles cualesquiera de la escala (por ejemplo, intervalos de la
variable edad).
Las variables que constituyen la tabla pueden ser consideradas como variables de
respuesta o como variables de clasificacin.
Las primeras, tambin llamadas variables dependientes, son aleatorias y
describen lo que fue observado en las unidades muestrales.
Las segundas, tambin llamadas variables independientes o factores, son
fijas por condicionamiento y las combinaciones de sus niveles definen
estratos, poblaciones o subpoblaciones a las cuales las unidades muestrales
pertenecen.
Cuando todas las variables de la tabla son de respuesta generalmente se
analiza la asociacin entre ellas.
Cuando algunas son respuesta y otras de clasificacin, en general se estudian los
efectos de las variables de clasificacin sobre la distribucin de las variables
de respuesta.
Si denotamos por X a una variable categorizada con I categoras o niveles y por Y a
otra variable con J niveles, para clasificar sujetos sobre ambas variables existirn
IJ combinaciones de clasificacin.
Los pares (X,Y) asociados a cada sujeto seleccionados aleatoriamente desde una
poblacin tienen una distribucin de probabilidad. La distribucin se presenta en
una tabla con I filas y J columnas.
La probabilidad asociada al evento IJ, en general denotada por ij representa la
probabilidad de que la variable X asuma la categora I y la variable Y asuma la
categora J.
170
171
moderada
184
167
174
525
Total
501
546
517
1564
Estadstico
Chi Cuadrado Pearson
Chi Cuadrado MV-G2
Coef.Conting.Cramer
Coef.Conting.Pearson
Valor gl
48.84 4
48.33 4
0.10
0.17
p
<0.0001
<0.0001
Ejemplo 2
vamos a plantear otro ejemplo con 3 dimensiones, en la que se estudia la
proporcin de mujeres admitidas en una determinada Universidad frente a la
proporcin de hombres:
Se puede ver que apenas hay diferencias en las tasas de admisin, salvo en la
facultad A donde el porcentaje de hombres admitidos es del 62% y el de mujeres
es del 82%!
Tenemos aqu un ejemplo claro de cmo la asociacin entre dos variables
cualitativas resulta ser espuria cuando se considera los valores de una tercera
variable, situacin que se conoce como Paradoja de Simpson y que tambin se
puede dar en variables cuantitativas.
Ejemplo 3
En la siguiente figura se presenta un ejemplo de tabla de contigencia para dos
variables: en las filas se encuentra la variable ESTUDIOS, clasificada segn tres
categoras, y en las columnas representamos la variable HTA, segn la clasificacin
propuesta en el documento The VI Report of the JNC on Prevention, Detection,
Evaluation and Treatement of High Blood Pressure. Los datos corresponden a un
conjunto de pacientes diabticos.
173
donde Fij representa la frecuencia esperada para la celda situada en la fila i columna
j, y fij representa la frecuencia efectivamente observada para esa celda. En la
hiptesis de independencia este estadstico se distribuye de forma aproximada
segn una chi con grados de libertad (I-1)(J-1), siendo I el nmero de filas y J el
nmero de columnas.
174
Diseo de Experimentos
Este parte del documento trata de dar una visin muy simplificada de la utilidad y la
utilizacin del Diseo de Experimentos. En l se explican los conceptos clave de esta
herramienta como aleatorizacin, ruido o error experimental, anlisis de varianza, etc., y se
detalla el proceso de diseo, realizacin y anlisis de Experimentos que contemplan una
nica variable independiente.
175
7)
Interpretacin y evaluacin de resultados.
8)
Discusin de los resultados en relacin con los conocimientos vertidos
anteriormente, con los principios del razonamiento riguroso, o con resultados obtenidos
en otros experimentos similares realizados en diferente lugar y tiempo.
9)
Anlisis econmico y su utilidad prctica como contribucin a la comunidad.
10) Conclusiones.
El Mtodo Cientfico
El mtodo cientfico ha sido definido como una aplicacin de la lgica y la objetividad
para el entendimiento de los fenmenos naturales. Para ste, es esencial el estudio de lo
que ya se conoce; a partir de este conocimiento se formulan las hiptesis, las cuales se
ponen a prueba partiendo por lo general de situaciones experimentales, siendo sta la parte
crucial de todo el proceso ya que cualquier pregunta donde sus respuestas no pueden
obtenerse a partir de la investigacin no puede aceptarse como parte del mtodo cientfico.
El mtodo cientfico no es esttico, es de naturaleza circulante. De acuerdo con
Kempthorne (1952), la primera etapa es la observacin del fenmeno en estudio, donde se
colectan los elementos bsicos en trminos abstractos a partir de los cuales, se establecen
las bases lgicas de una teora, siendo sta la segunda etapa del mtodo. En la tercera
etapa, se lleva a cabo el desarrollo propiamente dicho de esta teora, de tal forma que en la
cuarta etapa se puede llegar a la prediccin de eventos futuros. Una vez termina este ciclo,
el proceso vuelve a repetirse, consolidando los fundamentos tericos, buscando siempre
una mayor precisin en la etapa de la prediccin. En este sentido, la estadstica juega un
papel importante en la fundamentacin del mtodo cientfico, donde de acuerdo con
Cramer (1960), tiene tres funciones fundamentales que son la descripcin, el anlisis y la
prediccin. En la investigacin cientfica, es comn la formulacin de la hiptesis, la cual
para su aprobacin o rechazo, debe estar sustentada por un conjunto de observaciones, las
cuales deben seleccionarse a travs de un patrn bien definido. Este patrn se conoce como
diseo experimental.
Se deben destacar dos aspectos esenciales en el mtodo cientfico:
i.
ii.
Estos dos aspectos implican una naturaleza interactiva para la experimentacin prctica.
Box (1957) ha establecido cuatro etapas bsicas, estas son:
1. Conjeturas, donde las investigaciones experimentales de resultados iniciales son
tenidas en cuenta para plantear nuevas hiptesis a ser probadas.
2. Diseo del experimento donde algunas formas para probar una nueva hiptesis son
desarrolladas.
3. Desarrollo del experimento y,
4. Anlisis, donde los datos experimentales son cuidadosamente examinados para
determinar que evidencia tienen en relacin con la hiptesis de estudio.
177
Una vez que se ha alcanzado la ltima etapa, el ciclo comienza nuevamente con la
formulacin de nuevas hiptesis. De esta manera, conceptos originales son modificados y
un mejor entendimiento del problema y sus posibles soluciones lentamente van
evolucionando.
Las principales contribuciones estadsticas a este proceso iterativo ocurren en el diseo de
experimentos y en el anlisis de los datos. Este es el propsito del anlisis, proveer una
explicacin razonable a la evidencia experimental, para determinar cuales hiptesis estn
en contradiccin con la evidencia, para proveer estimaciones de parmetros poblacionales,
para indicar el nivel de confianza que puede asignarse a cualquier conclusin alcanzada y
estimular el proceso de conjetura por parte del experimentador. Esto no podra ser
realizado a menos que un diseo de experimentos valido haya sido usado.
Es una funcin del diseo experimental estadstico, proveer los patrones de observacin
para ser recolectados con el fin de obtener estimaciones ms precisas y/o para tener la
capacidad de probar las distintas hiptesis con una potencia de discriminacin mxima.
Modelos
Los modelos de Diseo de experimentos son modelos estadsticos clsicos cuyo objetivo
es averiguar si unos determinados factores influyen en la variable de inters y, si existe
influencia de algn factor, cuantificarla. Ejemplos donde habra que utilizar estos modelos
son los siguientes:
En el rendimiento de un determinado tipo de mquinas (unidades producidas por
da) se desea estudiar la influencia del trabajador que la maneja y la marca de la mquina.
Se quiere estudiar la influencia del tipo de pila elctrica y de la marca en la
duracin de las pilas.
Una compaa telefnica est interesada en conocer la influencia de varios factores
en la variable de inters la duracin de una llamada telefnica. Los factores que se
consideran son los siguientes: hora a la que se produce la llamada; da de la semana en que
se realiza la llamada; zona de la ciudad desde la que se hace la llamada; sexo del que
realiza la llamada; tipo de telfono (pblico o privado) desde el que se realiza la llamada.
Una compaa de software est interesada en estudiar la variable porcentaje que se
comprime un fichero al utilizar un programa que comprime ficheros teniendo en cuenta el
tipo de programa utilizado y el tipo de fichero que se comprime.
Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se
desean controlar diferentes factores: profesor que imparte la asignatura; mtodo de
enseanza; sexo del alumno.
La metodologa del diseo de experimentos se basa en la experimentacin. Es conocido
que si se repite un experimento, en condiciones indistinguibles, los resultados presentan
variabilidad que puede ser grande o pequea. Si la experimentacin se realiza en un
laboratorio donde la mayora de las causas de variabilidad estn muy controladas, el error
experimental ser pequeo y habr poca variacin en los resultados del experimento. Pero
si se experimenta en procesos industriales, administrativos, ... la variabilidad es grande en
la mayora de los casos.
El objetivo del diseo de experimentos es estudiar si utilizar un determinado tratamiento
produce una mejora en el proceso o no. Para ello se debe experimentar utilizando el
tratamiento y no utilizndolo. Si la variabilidad experimental es grande, slo se detectar la
influencia del uso del tratamiento cuando ste produzca grandes cambios en relacin con el
error de observacin.
178
Tipos de variabilidad.
Uno de los principales objetivos de los modelos estadsticos y, en particular, de los
modelos de diseo de experimentos, es controlar la variabilidad de un proceso estocstico
que puede tener diferente origen. De hecho, los resultados de cualquier experimento estn
sometidos a tres tipos de variabilidad cuyas caractersticas son las siguientes:
Variabilidad sistemtica y planificada.
Esta variabilidad viene originada por la posible dispersin de los resultados debida a
diferencias sistemticas entre las distintas condiciones experimentales impuestas en el
diseo por expreso deseo del experimentador. Es el tipo de variabilidad que se intenta
identificar con el diseo estadstico.
Cuando este tipo de variabilidad est presente y tiene un tamao importante, se espera que
las respuestas tiendan a agruparse formando grupos (clusters).
Es deseable que exista esta variabilidad y que sea identificada y cuantificada por el
modelo.
Variabilidad tpica de la naturaleza del problema y del experimento.
Es la variabilidad debida al ruido aleatorio. Este trmino incluye, entre otros, a la
componente de variabilidad no planificada denominada error de medida. Es una
variabilidad impredecible e inevitable.
Esta variabilidad es la causante de que si en un laboratorio se toman medidas repetidas de
un mismo objeto ocurra que, en muchos casos, la segunda medida no sea igual a la
primera y, ms an, no se puede predecir sin error el valor de la tercera. Sin embargo, bajo
el aparente caos, existe un patrn regular de comportamiento en esas medidas: todas ellas
tendern a fluctuar en torno a un valor central y siguiendo un modelo de probabilidad que
ser importante estimar.
Esta variabilidad es inevitable pero, si el experimento ha sido bien planificado, es posible
estimar (medir) su valor, lo que es de gran importancia para obtener conclusiones y poder
hacer predicciones.
Es una variabilidad que va a estar siempre presente pero que es tolerable.
Variabilidad sistemtica y no planificada.
Esta variabilidad produce una variacin sistemtica en los resultados y es debida a causas
desconocidas y no planificadas. En otras palabras, los resultados estn siendo sesgados
sistemticamente por causas desconocidas. La presencia de esta variabilidad supone la
principal causa de conclusiones errneas y estudios incorrectos al ajustar un modelo
estadstico.
Como se estudiar posteriormente, existen dos estrategias bsicas para tratar de evitar la
presencia de este tipo de variabilidad: la aleatorizacin y la tcnica de bloques.
180
Planificacin de un experimento
La experimentacin forma parte natural de la mayora de las investigaciones cientficas e
industriales, en muchas de las cuales, los resultados del proceso de inters se ven afectados
por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad
de los resultados muestrales. Es fundamental conocer los factores que influyen realmente y
estimar esta influencia. Para conseguir esto es necesario experimentar, variar las
condiciones que afectan a las unidades experimentales y observar la variable respuesta.
Del anlisis y estudio de la informacin recogida se obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentacin, para el estudio de estos
problemas, se basaba en estudiar los factores uno a uno, esto es, variar los niveles de un
factor permaneciendo fijos los dems. Esta metodologa presenta grandes inconvenientes:
Es necesario un gran nmero de pruebas.
Las conclusiones obtenidas en el estudio de cada factor tiene un campo de validez
muy restringido.
No es posible estudiar la existencia de interaccin entre los factores.
Es inviable, en muchos casos, por problemas de tiempo o costo.
Las tcnicas de diseo de experimentos se basan en estudiar simultneamente los efectos
de todos los factores de inters, son ms eficaces y proporcionan mejores resultados con un
menor coste.
A continuacin se enumeran las etapas que deben seguirse para una correcta planificacin
de un diseo experimental, etapas que deben ser ejecutadas de forma secuencial. Tambin
se introducen algunos conceptos bsicos en el estudio de los modelos de diseo de
experimentos.
Las etapas a seguir en el desarrollo de un problema de diseo de experimentos son las
siguientes:
1) Definir los objetivos del experimento.
2) Identificar todas las posibles fuentes de variacin, incluyendo:
estudio (tratamientos).
4) Especificar las medidas con que se trabajar (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
181
5)
6)
7)
8)
9)
Los pasos del listado anterior no son independientes y en un determinado momento puede
ser necesario volver atrs y modificar decisiones tomadas en algn paso previo.
A continuacin se hace una breve descripcin de las decisiones que hay que tomar en cada
uno de los pasos enumerados. Slo despus de haber tomado estas decisiones se proceder
a realizar el experimento.
1.- Definir los objetivos del experimento.
Se debe hacer una lista completa de las preguntas concretas a las que debe dar respuesta el
experimento. Es importante indicar solamente cuestiones fundamentales ya que tratar de
abordar problemas colaterales puede complicar innecesariamente el experimento.
Una vez elaborada la lista de objetivos, puede ser til esquematizar el tipo de conclusiones
que se espera obtener en el posterior anlisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van ejecutando las etapas
del diseo de experimentos.
2.- Identificar todas las posibles fuentes de variacin.
Una fuente de variacin es cualquier cosa que pueda generar variabilidad en la
respuesta. Es recomendable hacer una lista de todas las posibles fuentes de variacin del
problema, distinguiendo aquellas que, a priori, generarn una mayor variabilidad. Se
distinguen dos tipos:
-
Factores nuisance: son aquellas fuentes que no son de inters directo pero que se
contemplan en el diseo para reducir la variabilidad no planificada.
Son el material donde evaluar la variable respuesta y al que se le aplican los distintos
niveles de los factores tratamiento.
Ejemplos de unidades experimentales son:
en informtica, ordenadores, pginas web, buscadores de internet,
en agricultura, parcelas de tierra,
en medicina, individuos humanos u animales,
en industria, lotes de material, trabajadores, mquinas.
183
184
Tipo
Planificada y sistemtica
(Factores tratamiento)
Debida al resto de condiciones
Planificada y sistemtica
controladas
(Factores nuisance)
Debida a condiciones no controladas
185
Yij
ij
En este modelo la respuesta viene dada por una combinacin lineal de trminos que
representan las principales fuentes de variacin planificada ms un trmino residual debido
a las fuentes de variacin no planificada. Los modelos que se estudian en este texto se
ajustan a esta forma general. El experimento piloto puede ayudar a comprobar si el modelo
se ajusta razonablemente bien a la realidad.
Los modelos de diseo de experimentos, segn sean los factores incluidos en el
mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos aleatorios y
modelos mixtos. A continuacin se precisan estas definiciones.
Factor de efectos fijos es un factor en el que los niveles han sido seleccionados por el
experimentador. Es apropiado cuando el inters se centra en comparar el efecto sobre la
respuesta de esos niveles especficos.
Factor de efectos aleatorios es un factor del que slo se incluyen en el experimento una
muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se
utilizan estos factores cuando tienen un nmero muy grande de niveles y no es razonable o
posible trabajar con todos ellos. En este caso se est interesado en examinar la variabilidad
de la respuesta debida a la poblacin entera de niveles del factor.
7.- Esquematizar los pasos del anlisis estadstico.
El anlisis estadstico a realizar depende de:
los objetivos indicados en el paso 1,
186
187
Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los
tratamientos a las unidades experimentales sin preocuparse de qu tratamientos considerar.
Por el contrario, la factorizacin del diseo define una estrategia eficiente para elegir los
tratamientos sin considerar en absoluto como asignarlos despus a las unidades
experimentales.
Aleatorizar
Aleatorizar todos los factores no controlados por el experimentador en el diseo
experimental y que pueden influir en los resultados sern asignados al azar a las unidades
experimentales.
Ventajas de aleatorizar los factores no controlados:
Transforma la variabilidad sistemtica no planificada en variabilidad no planificada o
ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la introduccin de sesgos
en el experimento.
Evita la dependencia entre observaciones al aleatorizar los instantes de recogida
muestral.
Valida muchos de los procedimientos estadsticos ms comunes.
Bloquear
Se deben dividir o particionar las unidades experimentales en grupos llamados bloques de
modo que las observaciones realizadas en cada bloque se realicen bajo condiciones
experimentales lo ms parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el experimentador no est
interesado en investigar las posibles diferencias de la respuesta entre los niveles de los
factores bloque.
Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades
experimentales en grupos de unidades similares.
La ventaja de bloquear un factor que se supone que tienen una clara influencia en la
respuesta pero en el que no se est interesado, es la siguiente:
Convierte la variabilidad sistemtica no planificada en variabilidad sistemtica
planificada.
Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar
y de bloquear en un experimento.
La factorizacin del diseo.
Un diseo factorial es una estrategia experimental que consiste en cruzar los niveles de
todos los factores tratamiento en todas las combinaciones posibles.
Ventajas de utilizar los diseos factoriales:
189
Fuentes de Error
Las discrepancias entre los observado y lo esperado para un tratamiento surgen de dos
fuentes principales de variacin cuya magnitud relativa depende del experimento que se
est considerando. La primera es el error que se introduce cuando se quiere reproducir
(repetir) el experimento sobre cada una de las unidades experimentales; la otra es la
respuesta diferencial de cada unidad experimental al tratamiento que recibe y que depende
de propiedades inherentes a la unidad experimental. A la primer fuente
de error se la conoce como error de tratamiento y a la segunda como error de muestreo.
Una vez realizado un experimento, ambas fuentes de error son indistinguibles y conforman
un nico error que se designa genricamente como error experimental.
Existen dos recursos bsicos para reducir el efecto no deseado de la presencia de los
errores. Estos recursos son la aleatorizacin y la repeticin.
Para modelar es importante identificar DOS tipos de estructuras
Estructura de
PARCELAS
Estructura de
TRATAMIENTOS
Estructura de parcelas
Anteriormente se estableci que la aleatorizacin era un mtodo de distribucin equitativa
de parcelas sobre y sub respondedoras a los tratamientos y que el mtodo se justificaba en
el hecho de que no era posible anticipar estas respuestas. A estos diseos en los que la
aleatorizacin no est restringida, se los llama completamente aleatorizados. En algunos
casos, sin embargo, es posible establecer que algunas parcelas o unidades experimentales
respondern de una manera y otras de otra. Un ejemplo simple se observa en los ensayos
de rendimiento cuando el terreno donde se realiza el experimento tiene una pendiente
marcada. En estos casos las parcelas de la parte elevada suelen tener rendimientos menores
que las de la parte baja y usar aleatorizacin (no restringida) como criterio de distribucin
de las parcelas no es la mejor decisin a la hora de planificar el experimento. Por el
contrario, si a cada tratamiento se le asigna una repeticin dentro de conjuntos de parcelas
ubicados por ejemplo en la parte superior, media e inferior del lote experimental y se
aplica aleatorizacin dentro de cada conjunto de esas parcelas, se habr reconocido desde
el punto de vista del diseo, una fuente sistemtica de variacin debida a la pendiente del
190
terreno. Para ser consistentes con el diseo, el modelo del experimento deber incorporar
los parmetros necesarios para dar cuenta de la estructura de parcelas. El resultado de esta
accin no es solo tener un modelo con mas parmetros sino un experimento mas preciso.
Completamente aleatorizado
Cuando las parcelas experimentales son homogneas o no se es capaz de anticipar
respuestas diferenciales de cada una de ellas, la mejor opcin desde el punto de vista del
diseo de experimentos es asignar los tratamientos, de manera completamente al azar. El
modelo para este diseo y el anlisis de la varianza discutidos cuando estudiamos el
Anlisis de la Varianza corresponden al anlisis de un experimento unifactorial sin
estructura de parcelas.
Ejemplo:
El porcentaje de humedad relativa (HR) es determinante para el ataque de hongos en
semillas. Para evaluar la susceptibilidad de las semillas de una forrajera al ataque de un
hongo se realiz un ensayo en cmaras de cra con tres porcentajes de HR: 70%, 80% y
90%. Se tomaron cinco observaciones para cada porcentaje de HR, registrndose el
nmero de semillas atacadas en un grupo de 100 semillas.
191
Comparaciones mltiples
Si se rechaza la hiptesis nula del ANAVA, la pregunta que sigue es cul o cules de las
medias poblacionales en estudio son las diferentes?
Existe una gama muy amplia de alternativas para llevar adelante este tipo de pruebas, entre
las que se destacan las pruebas de Tukey (Tukey, 1949), Scheff (Scheff, 1953), Duncan
(Duncan, 1955), Dunnet (Dunnet, 1964) y la de Fisher (Fisher, 1966), entre otras.
Prueba de Tukey
Examina con un mismo estadstico todas las diferencias de medias muestrales en estudio.
192
Para terminar con esta prueba basta controlar qu diferencias entre medias muestrales son
mayores que 4,37 para concluir que las esperanzas que estiman difieren entre s con un
nivel de significacin del 5%. Revisando la matriz de diferencias de medias se puede
verificar que :
193
Luego, el grado de ataque que se produce con un 80% de HR no difiere del que se produce
con 90% de HR, mientras que con 70% de HR se produce un ataque significativamente
menor que con 80 y 90%. Sintetizando se podra afirmar con un 95% de confianza que el
menor grado de ataque se produce con 70% de HR.
Prueba de Fisher
La prueba de Fisher es similar en su procedimiento a la prueba de Tukey, pero el
estadstico de la prueba es diferente. En vez de usar los cuantiles de la distribucin de
rangos estudentizados utiliza los cuantiles de una t con los grados de libertad del cuadrado
medio dentro de tratamientos y es particular para cada comparacin de medias ya que
depende del nmero de repeticiones por tratamiento. Luego, la diferencia mnima
significativa entre el tratamiento i-simo y el tratamiento j-simo est dada por:
Para el ejemplo que estamos tratando: t 12;(0.95)=1.782, CMD=6.73 y ni=nj=5 ij, luego la
diferencia mnima significativa por Fisher es para todas las comparaciones
194
Es interesante mostrar que mientras para Fisher la diferencia mnima significativa es 2,92,
para Tukey es 4,37. Esto implica que con Fisher es ms fcil rechazar la hiptesis de
igualdad de medias que con Tukey, por esta razn se dice que este ltimo es ms
conservador (menor error tipo I) y el primero ms potente (menor error tipo II).
195
El modelo lineal para un anlisis de la varianza con un factor (en este caso fertilizante) en
un diseo en bloques completos, es el siguiente:
determinista
Yij
ij
aleatorio
196
197
Cuadrado latino
Una extensin directa del concepto de bloques completos aleatorizado es la del cuadrado
latino, en el que se incorporan al diseo, el reconocimiento de dos fuentes sistemticas de
variacin entre parcelas.
Este diseo no es tan popular como el anterior ya que impone un nmero fijo de
repeticiones y cuando el nmero de tratamientos es grande, el experimento completo puede
ser inmanejable. De hecho, el nmero total de parcelas experimentales es igual al cuadrado
del nmero de tratamientos. No obstante estas dificultades, el cuadrado latino es un diseo
base de otros diseos como los llamados experimentos cross-over, populares en la
experimentacin con animales.
El diseo en cuadrado latino clsico de la experimentacin agrcola, en el que ensayan a
tratamientos, se obtiene ordenando a2 parcelas experimentales en un cuadrado de a.a
parcelas y asignando a parcelas a cada uno de los tratamientos de tal manera que en cada
fila y en cada columna haya slo una repeticin de cada tratamiento como muestra la
Figura
Yij
ijk
j y k
198
Ejemplo:
La siguiente tabla muestra los rendimientos de remolacha azucarera en toneladas por
hectrea bajo tres tipos de labores culturales:
Estructura de tratamientos
Anteriormente se present a los tratamientos como los distintos niveles de un nico factor
o como combinacin de niveles de varios factores.
En este ltimo caso, el experimentador se pregunta si es posible identificar los efectos de
cada uno de los factores, estimarlos y eventualmente probar hiptesis sobre ellos.
Aunque la respuesta es afirmativa an persiste una duda fundamental para qu disear
experimentos en los que hay que usar herramientas analticas especiales para separar los
efectos de los distintos factores si se pueden planificar experimentos ms sencillos para
cada factor evitando complicaciones?.
La respuesta a este problema est relacionada con el concepto de eficiencia y que en
trminos prcticos se relaciona con la cantidad de repeticiones que son necesarias en un
experimento para tener una precisin dada.
Por ejemplo si para evaluar los efectos de los factores A y B con tres niveles cada uno se
requieren tres repeticiones para cada nivel, se necesitarn 9 unidades experimentales para
el ensayo del factor A y otras 9 para el ensayo del factor B, haciendo un total de 18
unidades experimentales.
Si en vez de utilizar dos experimentos separados se planifica un experimento conjunto con
9 tratamientos (3 niveles de A x 3 niveles de B) y solo se repite una vez cada tratamiento,
solo se necesitarn 9 unidades experimentales para acomodar todo el experimento y an se
tendrn tres unidades tratadas con cada uno de los niveles de cada uno de los factores.
Es decir que, aunque no se cuentan con repeticiones para las combinaciones de niveles de
factores, si las hay (tres) para cada uno de los niveles de los factores individuales. En
consecuencia, con la mitad de las unidades experimentales necesarias para acomodar los
experimentos separados, se puede montar un experimento conjunto que provee la misma
precisin para la evaluacin de cada factor individual.
Si an se quisieran invertir las 18 unidades experimentales de los dos experimentos
originales, se podra hacer una repeticin completa de todo el experimento y se tendra el
doble de unidades experimentales para cada nivel de cada uno de los factores y en este
sentido, los EXPERIMENTOS FACTORIALES son ms eficientes para evaluar los
efectos de los factores individuales.
Pero los experimentos factoriales, cuando estn repetidos, permiten adems, probar la
existencia y estimar la magnitud de respuestas diferenciales a la combinacin de los
factores individuales, fenmeno que se conoce como interaccin. Dado que la interaccin
es comn en los sistemas biolgicos, los experimentos que son capaces de detectarla y
estimarla son siempre preferibles.
200
Experimentos Factoriales
En los modelos de los experimentos factoriales los parmetros i que hacen referencia a
los efectos de tratamientos se descompone en un conjunto de parmetros que dan cuenta de
cada uno de los factores intervinientes y se agrega segn sea necesario, conveniente y
posible, los trminos correspondientes a las interacciones.
MODELOS ADITIVOS
Los modelos factoriales aditivos son aquellos en los que los trminos que modelan la
interaccin estn ausentes. Para ejemplificar este caso se presenta un experimento factorial
2x2 (dos factores con dos niveles cada uno) en el que la interaccin se supone ausente y
montado en un diseo completamente aleatorizado.
Los Factores se han designado como A y B y sus niveles como A1,A2 y B1,B2. Como
existen 4 tratamientos (A1B1, A1B2, A2B1, A2B2) y estos no estn repetidos, se necesitan
slo cuatro parcelas experimentales. Dado que el diseo es completamente aleatorizado la
asignacin de las parcelas a cada uno de los tratamientos es al azar. Un arreglo posible se
presenta en la siguiente figura.
201
202
COEFICIENTE DE DETERMINACIN
Es el cuadrado del coeficiente de correlacin. Expresado en tanto por ciento mide el grado
de informacin compartida entre dos variables continuas
COEFICIENTES DE REGRESIN
En un modelo de regresin lineal son los valores de a y b que determinan la expresin de
la recta de regresin y=a + bx
COEFICIENTE DE VARIACIN
Es una medida de dispersin relativa. No tiene unidades y se calcula dividiendo la cuasidesviacin tpica entre la media muestral. Se suele expresar en tanto por ciento
CONTRASTE BILATERAL
Contraste de hiptesis en la que la hiptesis alternativa da opcin a igualdad o superioridad
CONTRASTE DE HIPTESIS
Es el proceso estadstico que se sigue para la toma de decisiones a partir de la informacin
de la muestra. Comparando el valor del estadstico experimental con le valor terico
rechazamos o no la hiptesis nula
CONTRASTE UNILATERAL
Contraste de hiptesis en la que la hiptesis alternativa da opcin a solo igualdad o a solo
superioridad
CORRELACIN
Expresa la concordancia entre dos variables segn el sentido de la relacin de estas en
trminos de aumento disminucin
COVARIABLES
Variables continuas independientes que junto a una o ms variables grupo de tratamiento
sirven para explicar una variable respuesta continua. Supongamos que pretendemos
explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento
A/B, teniendo en cuenta el peso. La variable peso es una covariable
COVARIANZA
Representa la media del producto de las desviaciones de dos variables en relacin a su
media.
CUARTILES
Existen tres cuartiles: Q!, Q2 y Q3. Estos nmeros dividen a los valores muestrales , una
vez ordenados, en cuatro partes homogneas en cuanto a nmero de observaciones. As Q 1
determina el valor que hace que haya un 25% de valores muestrales por debajo de ste, y
un 75% por encima de ste. Q2 es la mediana
CUASIVARIANZA
Caracterstica de una muestra o poblacin que cuantifica su dispersin o variabilidad. La
cuasi varianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral
es un estimador centrado (no sesgado) de la varianza poblacional.
D
DATOS CENSURADOS
203
Es una distribucin terica de probabilidad que se usa tanto en la estadstica aplicada como
en la terica. Aparece en la prctica con mucha frecuencia como consecuencia del
importante resultado que establece el teorema central del lmite. Tiene una forma en forma
de campana, y viene caracterizada por nicamente dos valores: la media y la varianza.
DISTRIBUCIN T STUDENT
Distribucin terica de probabilidad. Se usa para la comparacin de dos medias en
poblaciones independientes y normales
E
ECUACIN DE LA REGRESIN
Ver recta de regresin
ERROR ALFA
Es el error que se comete cuando se rechaza una hiptesis nula cuando sta verdadera.
Error de tipo I
ERROR ALFA GLOBAL
Es el error alfa que se comete por hacer mltiples comparaciones
ERROR BETA
Es el error que se comete cuando no se rechaza una hiptesis nula siendo sta falsa. Error
de tipo II
ERROR DE PRIMERA ESPECIE
Ver error alfa
ERROR DE SEGUNDA ESPECIE
Ver error beta
ERROR DE TIPO I
Ver error alfa
ERROR DE TIPO II
Ve error beta
ERROR ESTANDAR DE LA MEDIA
Es el cociente entre la cuasi varianza muestral y la raz cuadrada del tamao muestral
ERROR ESTANDAR DE LOS RESIDUOS
Estadstico de dispersin de los valores de los residuos despus de la regresin.
ERROR FALSO NEGATIVO
Ver error beta
ERROR FALSO POSITIVO
Ver error alfa
ESCALA
La distribucin de datos puede recogerse en distintas escalas: nominal, dicotmica,
discreta o continua
205
206
el tamao muestral .Las frecuencias relativas sumarn 1 100 segn se expresen en tanto
por uno o en tanto por ciento
FUNCIN
Funcin matemtica. Expresin que liga dos o mas variables de forma determinstica
FUNCIN TERICA DE PROBABILIDAD
Idealizacin matemtica que nos permite calcular probabilidades de que una variable tome
un valor (caso discreto) o rango de valores (caso continuo)
G
GAUSSIANA
Ver distribucin normal
GRADO DE CONFIANZA
Ver nivel de confianza
GRADOS DE LIBERTAD
El nmero de datos que se pueden variar para que a un total fijo podamos reconstruir dicho
total. as la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos
variar n-1 datos ya que restante vendr fijado. En una tabla 4x3, si nos dan las frecuencias
marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando
forzosamente determinadas las frecuencias de las celdas restantes. As, los grados de
libertad seran en este caso de 6
H
HETEROCEDASTICIDAD
Hiptesis de no igualdad de varianzas poblacionales en distintos grupos
HIPTESIS
Cualquier teora que formule posibles lneas de trabajo experimental. Ver hiptesis nula y
alternativa
HIPOTESIS ALTERNATIVA
Aquella que queremos probar. Representa la hiptesis renovadora
HIPOTESIS NULA
Aquella que queremos rechazar. Representa a la situacin actual
HISTOGRAMAS
Es un grfico en forma de barras de una variable continua que se ha discretizado en
intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia
relativa en ste.
HOMOCEDASTICIDAD
Hiptesis de igualdad de varianzas poblacionales en distintos grupos
I
IMPRECISION
Error que se comete en la prediccin
207
INDEPENDENCIA
Son datos que no estn ligados entre si
INTERVALO DE PROBABILIDAD
Proporcin de casos entre dos valores definidos de la muestra
INTERVALOS CONFIDENCIALES
Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mnima y mxima del
verdadero parmetro poblacional con un determinado nivel de confianza
J
JACKNIFE
Mtodo estadstico de estimacin por intervalos de confianza basado en la simulacin con
reeemplazamineto, propuesto por TuKey
L
LIMITES CONFIDENCIALES
Extremos de los intervalos confidenciales
M
MAXIMO
Es un valor muestral de forma que por encima de este no hay valores muestrales
MEDIANA
Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores
muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.
MEDIA
Es una medida de centralizacin para una variable continua. Se obtiene sumado todos los
valores muestrales y dividiendo por el tamao muestral
MNIMO
Es un valor muestral de forma que por debajo de este no hay valores muestrales
MODA
Es el valor que ms se repite en una variable nominal
MODELO
Intento matemtico / estadstico para explicar una variable respuesta por medio de una o
ms variables explicativas o factores
MUESTRAS
Subgrupos de observaciones de la poblacin de estudio.
N
NIVEL DE CONFIANZA
Se define como 1 menos el nivel de significacin. Se suele expresar en tanto por ciento
NIVEL DE SIGNIFICACIN
208
PREVALECIA
Cociente entre el nmero de individuos que poseen una caracterstica (p. ej. enfermedad)
entre el total de la poblacin
PROBABILIDAD
Asignacin de un nmero entre cero y uno a cada resultado experimental.
PROPORCION
Nmero de individuos que verifican una condicin entre el total del tamao muestral. Se
puede expresar en tanto por uno o en tanto por cien
PRUEBA CHI CUADRADO
Se utiliza para analizar tablas de contingencia y comparacin de proporciones en datos
independientes
PRUEBA DE F
Prueba estadstica que sirve para comparar varianzas. El estadstico F experimental es el
estadstico de contraste en el ANOVA y otras pruebas de comparacin de varianzas
PRUEBA DE FISHER
Es la prueba estadstica de eleccin cuando la prueba de chi cuadrado no puede ser
empleada por tamao muestral insuficiente.
PRUEBA DE LOS SIGNOS
Prueba estadstica que sirve para comparar dos variables en trminos de diferencias
positiva o negativa, y no en trminos de magnitud
PRUEBA DE MCNEMAR
Prueba estadstica que sirve para comparar proporciones en datos pareados
PRUEBA NO PARAMTRICA
Tcnica estadstica que no presupone ninguna distribucin de probabilidad terica de la
distribucin de nuestros datos
PRUEBA PARAMETRICA
En contraposicin de la tcnicas no paramtricas, las tcnicas paramtricas si presuponen
una distribucin terica de probabilidad subyacente para la distribucin de los datos. Son
ms potentes que las no paramtricas.
PRUEBA T DE STUDENT
Se utiliza para la comparacin de dos medias de poblaciones independientes y normales
PUNTO DE INFLEXIN
Representan los puntos de una funcin matemtica donde la curva pasa de ser cncava a
convexa o recprocamente
R
RANGO
210
SIMETRIA
Es una medida que refleja si los valores muestrales se extienden o no de igual forma a
ambos lados de la media.
SPEARMAN (rho de Spearman)
Coeficiente de correlacin ordinal anlogo al coeficiente r de Pearson de correlacin lineal
SUMATORIO
Estadstico descriptivo que suma los valores numricos de los datos muestrales de
distribuciones continuas
T
TABLAS DE CONTINGENCIA
Tablas de 2 o ms variables, donde en cada celda se contabilizan los individuos que
pertenecen a cada combinacin de los posibles niveles de estas variables
TABLAS DE FRECUENCIAS
Ver tablas de contingencia
TABLA DEL ANAVA
Es una forma de presentar la variabilidad observada en una variable respuesta en trminos
aditivos segn las distintas fuentes de variacin: modelo y residual
TAMAO MUESTRAL
Nmero de individuos u observaciones que componen la muestra
TECNICAS DE CORRELACION
Ver coeficiente de correlacin
TECNICAS DE REGRESION
Ver recta de regresin y regresin lineal mltiple
TECNICAS NO PARAMETRICAS
Son tcnicas estadsticas que no presuponen ningn modelo probabilstico terico. Son
menos potentes que las tcnicas paramtricas, aunque tienen la ventaja que se pueden
aplicar ms fcilmente
TEOREMA CENTRAL DEL LIMITE
Resultado bsico en la estadstica que afirma que la distribucin de las medias muestrales
ser normal para un n suficientemente grande con independencia de la distribucin de
datos de partida
TRANSFORMACIONES
Cambios de escala con el propsito de conseguir linealidad, normalidad en los datos
U
UNIDAD
212
213
Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las
variables llamadas explicativas o independientes
VARIABLES
Describen caractersticas en las observaciones realizadas
VARIANZA
Caracterstica de una muestra o poblacin que cuantifica su dispersin o variabilidad. La
varianza tiene unidades al cuadrado de la variable. Su raz cuadrada positiva es la
desviacin tpica. La varianza muestral es un estimador sesgado de la varianza poblacional
X
X2 Chi- cuadrado
Ver prueba de Chi cuadrado
W
WILCOXON
Prueba estadstica no paramtrica para la comparacin de dos muestras (dos tratamientos).
Las distribuciones de datos no necesitan seguir la distribucin normal. Es por tanto una
prueba menos restrictiva que la prueba t-Student.
214