Professional Documents
Culture Documents
Ciencias Geolgicas
Autor:
Arnaldo Mangeaud
Crdoba, 2014
Estadstica aplicada a las Ciencias Geolgicas
ndice
Captulo 1. Introduccin 3
Captulo 2. Anlisis descriptivo de una variable 9
Captulo 3. Anlisis descriptivo de dos variables conjuntas 23
Captulo 4. Probabilidad 26
Captulo 5. Variables Aleatorias I. 30
Captulo 6. Variables Aleatorias II. Distribucin de funciones de variables aleatorias 47
Captulo 7. Distribuciones en el muestreo 52
Captulo 8. Estimacin. 56
Captulo 9. Pruebas de Hiptesis 66
Captulo 10. Diseos Estadsticos. 84
Captulo 11. Correlacin y regresin 103
Captulo 12. Introduccin a la Geoestadstica 113
Arnaldo Mangeaud 2
Estadstica aplicada a las Ciencias Geolgicas
Captulo 1.
Introduccin
Concepto de Estadstica.
Para comenzar definiremos a la Estadstica como la ciencia que estudia la manera en que se
recolecta, se analiza, se interpreta la informacin proveniente de una poblacin, as como el
modo en que se extrapola esos resultados a otros casos similares.
La estadstica es una ciencia auxiliar de otras ciencias, ayuda a resolver problemas
planeados por otras disciplinas en la toma de decisiones o para explicar el comportamiento
de fenmenos determinados.
La Estadstica es transversal a diferentes disciplinas, desde las ciencias consideradas ms
duras como la Geologa, Biologa o Ingeniera hasta las llamadas ciencias blandas
como la Psicologa, todas necesitan de la ayuda de esta herramienta.
La estadstica se divide en dos grandes reas:
La estadstica inferencial, por su parte extrapola las conclusiones observadas para algunos
casos a otros casos de similares caractersticas.
La Estadstica es una ciencia y como tal posee un objeto de estudio. El objeto de estudio de
la estadstica son las poblaciones.
La definicin estadstica de poblacin es: conjunto de cosas, o conjunto de elementos, o
bien conjunto de unidades. Cada unidad, elemento o cosa ser definido por la persona a
cargo del trabajo (investigador u operador) y depender de los objetivos e hiptesis del
trabajo.
Recordemos que definimos como objetivo a aquella meta a la cual se pretende arribar y
como hiptesis a una conjetura, a una suposicin realizada de cmo funciona el sistema en
estudio. Entonces a partir de objetivos e hiptesis el operador decidir quin es el
elemento al que le tomar la informacin. El conjunto de todos estos elementos
(obviamente definidos en un espacio y tiempo) sern la poblacin en estudio.
Arnaldo Mangeaud 3
Estadstica aplicada a las Ciencias Geolgicas
Ejemplo 1.1. En un estudio en la lnea de costa se toman 120 porciones de 1 m2 del fondo
rocoso de una playa. Cada elemento es cada cuadrata de 1 m2, la muestra es el conjunto de
120 cuadratas y la poblacin van a ser todas las posibles cuadratas que componen la playa.
El modo de pensar en que la muestra sea representativa de la poblacin es pensar que cada
uno de los elementos de la poblacin debieran tener igual chance de formar parte de la
muestra (es decir de ser escogidos en ella). Si por alguna razn algunos de los elementos no
pueden formar parte de la muestra, entonces sus caractersticas propias no estarn
representadas.
Ejemplo 1.2. En el estudio del Ejemplo 1.1 por una cuestin de comodidad o de ineptitud
se toman slo porciones de los 10 primeros metros de la playa, excluyendo a las zonas ms
cercanas al mar. Esas 120 porciones de 1 m2 no representan el fondo rocoso de la playa.
Slo representan el fondo rocoso de los 10 primeros metros de playa.
Hay diferentes modos de realizar muestreos. Estos dependen del rea de aplicacin y de
quin es el elemento o unidad. Por ejemplo en estudios de mineraloga una porcin de roca
de 20cm3 es el elemento donde el conjunto de stos forman un cuerpo gneo (la poblacin).
En estudio de geoqumica de aguas, una alcuota de 200ml de agua es el elemento y el
conjunto de stos forman el ro en este momento (poblacin).
Arnaldo Mangeaud 4
Estadstica aplicada a las Ciencias Geolgicas
Muestreo aleatorio sistemtico: Este procedimiento exige, como el anterior, numerar todos
los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae
uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos
que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es
decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la
poblacin sobre el tamao de la muestra: k = N/n. El nmero i que empleamos como punto
de partida ser un nmero al azar entre 1 y k. El riesgo de este tipo de muestreo est en los
casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la
muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no
se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de
10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos
un muestreo aleatorio sistemtico con k=10 siempre seleccionaramos o slo hombres o
slo mujeres, no podra haber una representacin de los dos sexos. A su vez son muy
cmodos en control de calidad de una cinta de produccin. Es sencillo pensar que cada 100
productos que salen se tomar uno.
Arnaldo Mangeaud 5
Estadstica aplicada a las Ciencias Geolgicas
Estudios de caso: A los fines descriptivos se toma un grupo de unidades o elementos con
ciertas caractersticas. El investigador sabe que la poblacin est formada por un grupo
grande de unidades y las unidades que tom no las representan. Es muy comn el estudio
de todos los pacientes de un hospital. Los alumnos de un curso en particular o un colegio.
Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros,
y as hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente
Arnaldo Mangeaud 6
Estadstica aplicada a las Ciencias Geolgicas
Ya hemos visto el modo en que vamos a acceder a la muestra para que sta sea
representativa de la poblacin, ahora la pregunta es: qu informacin vamos a tomar de los
elementos o unidades?
Los elementos tienen muchsimas caractersticas que pueden ser tomadas y/o medidas y
volvemos a objetivos e hiptesis como los estandartes que van a llevar al operador a tomar
slo las caractersticas importantes. A su vez aquellas caractersticas que son constantes en
la poblacin no sern tomadas, siendo claro que se van a tomar caractersticas que son
variables.
Variables. Tipos
Las variables son entonces caractersticas que pueden variar de elemento en elemento.
Existen varias clasificaciones de las variables. Una de ellas combina clasificacin y formas
de medicin quedando entonces:
Variables cualitativas
Las variables cualitativas expresan una cualidad, se representa por una letra, no expresa una
cantidad. Pueden ser de dos tipos:
a) Variables nominales: Son aquellas que expresan el atributo como tal, no expresan
ni orden ni escala de medicin.
Ejemplo 1.4.Escala de dureza de Mohs: (1) Talco, (2) Yeso, (3) Calcita,., (9) Corindn,
(10) Diamante.
Variables cuantitativas
Expresan una cantidad, un nmero, una mtrica o medida. Pueden ser de dos tipos:
Arnaldo Mangeaud 7
Estadstica aplicada a las Ciencias Geolgicas
La naturaleza de la variable es la que marca a quel tipo de variable sta pertenece. Como
se ve, las variables cualitativas nominales son slo un nombre, sin orden preestablecido,
mientras que una variable cualitativa ordinal puede ser una letra pero entre estas letras ya
hay un orden establecido. Las variables discretas poseen una mtrica, una medida
verdadera, el salto de 1 a 2 es el mismo que de 4 a 5. A su vez las variables continuas
poseen infinitos decimales entre los enteros, las diferencias entre un valor y otro pueden ser
mucho ms pequeas, ms sutiles y precisas.
El operador puede decidir hacerle perder esta jerarqua a la variable, por cuestiones de
practicidad, pero no puede inventarle jerarqua. Esto quiere decir que se puede medir como
grande, mediano o pequeo a algo que es una variable cuantitativa, pero en una encuesta a
personas de una fbrica no existe razn alguna para colocarle el valor 1 si es mujer y 2 si es
varn.
Debemos advertir que se suele incurrir en una discrepancia de trminos entre la Geologa y
la Estadstica. Para los estadsticos la muestra es el conjunto de elementos. Para los
gelogos la muestra es cada uno de los elementos. Entonces debemos ser cautos en las
definiciones para no confundir los trminos. Por otra parte, a los fines coloquiales en este
apunte otorgaremos la definicin de dato a aquel valor de la variable, ya sea cuali como
cuantitativa. Por ejemplo un dato sera: 32,25 cm; 8 aos, Verde, Mujer, 42 grados
centgrados, etc.
Arnaldo Mangeaud 8
Estadstica aplicada a las Ciencias Geolgicas
Captulo 2.
Una vez que se ha tomado la decisin sobre cul ser la poblacin estadstica y la muestra a
analizar, una vez que se toman o miden las variables en cada elemento, deber registrarse
por escrito esta informacin. Despus de eso el operador puede adems trasladar esos datos
a una base de datos de modo informtico. Lo que nunca debe hacerse es destruir la base de
datos en formato papel. En algn libro alguna vez se ley que es ms duradera la ms suave
de las tintas sobre papel que la mejor de las memorias y esto incluye tanto a memoria
neuronal como informtica. El papel es siempre el mejor plan B ante la ausencia de un
valor, la confirmacin de un dato anmalo o un posible error de tipeo.
Ahora, ya sea en papel o en la computadora, se tiene un listado de letras o nmeros,
dependiendo si la variable es cualitativa o cuantitativa y debiramos entonces resumir esa
informacin. El modo en que la resumimos es mediante tablas, grficos o medidas de
resumen.
Se tiene una variable cualitativa nominal. Por ejemplo se tiran 20 agujas al azar en el fondo
de un ro serrano y se registra la roca en la cual toca la aguja. Los resultados son:
Variable
(X) (FA) (FR)
Cuarzo 11 0,55
Feldespato 6 0,3
Mica 3 0,15
Tabla 2.1: Distribucin de frecuencia del tipo de roca.
variable. En la tabla 2.1: una proporcin de 0,3 tocaron a Feldespato (dicho de otro modo,
el 30,00% del fondo del lecho del ro sera Feldespato).
Los grficos correspondientes a esta tabla son grficos de tortas y de barras (no confundir
con histograma).
Arnaldo Mangeaud 9
Estadstica aplicada a las Ciencias Geolgicas
Variables cuantitativas
Si ocurriera que la informacin que poseemos es escasa, con pocos nmeros diferentes, ni
vale la pena agruparla. Entonces se est en presencia de una Distribucin simple o de tipo
1. Por ejemplo:
Se estudia la ley de oro en una mina, se tiene una muestra de 5 porciones de roca y los
valores son (en g/tn):
12; 17; 11; 13; 08.
Distribucin de tipo 2
Se tiene una variable cuantitativa discreta con pocos valores diferentes. Por ejemplo en una
mina se le pregunta a cada empleado de una muestra de 130, el nmero de hijos que posee.
Los resultados son:
1; 2, 0; 5; 7; 3; 1; 1; 3;; 4.
Entonces ahora s podemos resumir en una tabla donde en cada fila colocaremos el valor de
la variable del siguiente modo:
Arnaldo Mangeaud 10
Estadstica aplicada a las Ciencias Geolgicas
Variable
(X) (FA) (FR) (FAAa) (FRAa) (FAAd) (FRAd)
0 20 0,1538 20 0,1538 130 1
1 31 0,2385 51 0,3923 110 0,8462
2 36 0,2769 87 0,6692 79 0,6077
3 19 0,1462 106 0,8154 43 0,3308
4 11 0,0846 117 0,9000 24 0,1846
5 9 0,0692 126 0,9692 13 0,1000
6 3 0,0231 129 0,9923 4 0,0308
7 1 0,0077 130 1 1 0,0077
Tabla 2.2: Tabla de distribucin de frecuencias de la variable nmero de hijos
variable. En la tabla 2.2: una proporcin de 0,2385 poseen 1 hijo (dicho de otro modo, el
poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2.2: una
poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.2: 110
poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.2: una
proporcin de 0,8426 poseen 1 hijo o ms.
Los grficos que corresponden a esta distribucin son los que se presentan en la Figura 2.2.
Arnaldo Mangeaud 11
Estadstica aplicada a las Ciencias Geolgicas
Distribucin de tipo 3
Se tiene una variable cuantitativa continua o una cuantitativa discreta con muchos valores
diferentes. Por ejemplo se tomaron 68 porciones de roca para estudiar la distribucin del
cobre en una mina. Los resultados (en g/tn) son:
Como se puede ver es imposible disponer una tabla en la forma de la tabla 2.2, ya que si
una variable es continua es poco probable tener dos valores iguales de la variable. De tal
modo, quedara una tabla con 68 filas donde cada fila poseer una frecuencia absoluta de 1
(uno) para resumir 68 valores. Por lo tanto es necesario dividir a la variable en distintos
intervalos de clase. Cada intervalo a su vez posee una amplitud determinada.
No hay un nmero de intervalos exactos, pero una aproximacin a ste fue propuesta por
Sturges en 1936 que se obtiene mediante la frmula:
k= 1+3,33 Log10(n),
Donde k es el nmero ptimo de intervalos.
-
MC
Variable X
(FA) (FR) (FAAa) (FRAa) (FAAd) (FRAd)
423,07 448,15 435,61 2 0,0294 2 0,0294 68 1
448,15 473,23 460,69 11 0,1618 13 0,1912 66 0,9706
473,23 498,30 485,77 18 0,2647 31 0,4559 55 0,8088
498,30 523,38 510,84 17 0,25 48 0,7059 37 0,5441
523,38 548,46 535,92 15 0,2206 63 0,9265 20 0,2941
548,46 573,54 561,00 5 0,0735 68 1 5 0,0735
Tabla 2.3. Tabla de distribucin de frecuencias de la variable ley de Cobre
Donde:
intervalo de valores de la variable. En la tabla 2.3: una proporcin de 0,1618 poseen entre
Arnaldo Mangeaud 12
Estadstica aplicada a las Ciencias Geolgicas
poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.3: una
proporcin de 0,9706 poseen ms de 448,15 g/tn.
a
b
Figura 2.4. Representacin grfica de una distribucin de tipo 3. Se presenta un histograma
de frecuencias y de frecuencias acumuladas.
Formas de la distribucin.
Es muy comn observar grficos de distribucin donde slo se grafican el eje x y una lnea
suavizada del polgono de frecuencias. De ese modo podremos observar la forma de la
distribucin de la variable. Esas formas pueden ser simtricas, asimtricas a la derecha, a la
izquierda, entre otros casos. (Figuras 2.5).
Arnaldo Mangeaud 13
Estadstica aplicada a las Ciencias Geolgicas
a b
c d
Figuras 2.5. Formas de diferentes distribuciones. a: simtrica, b: asimtrica a la derecha, c:
asimtrica a la izquierda, d: en forma de J invertida.
Medidas de resumen
Antes que explicar las medidas de resumen de la informacin, debemos advertir que en el
Captulo 8 se vern las diferencias que hay entre la informacin tomada de una poblacin
(exhaustiva) y la informacin tomada de una muestra (parcial). Es claro que la informacin
de la poblacin es total y completa, mientras que lo que tomamos en una muestra es
incompleta y depende de cules fueron los elementos que ingresaron en la muestra. Por esta
razn es que vamos a diferenciar algunas medidas de resumen dependiendo si han sido
tomadas de una poblacin o de una muestra.
Medidas de posicin
Media, media aritmtica o promedio.
Su definicin es exclusivamente algebraica: es la sumatoria de los valores de la variable,
dividido el nmero de elementos de la muestra o poblacin.
Poblacional Muestral
= =
: Media muestral
Donde: Donde:
Distribucin de tipo 1:
Arnaldo Mangeaud 14
Estadstica aplicada a las Ciencias Geolgicas
Volviendo al ejemplo sobre los 5 datos de ley de oro. 12; 17; 11; 13; 08.
Veremos que:
12 + 17 + 11 + 13 + 8 61
= = = 12,2
5 5
Distribucin de tipo 2:
Volviendo al ejemplo descripto en la tabla 2.2, el promedio de hijos por empleado se
calcula:
%
x n
=
n
&0 20) + &1 31) + &2 36) + &3 19) + &4 11) + &5 9) + &6 3) + &7 1)
= =
130
274
= = 2,1077
130
Distribucin de tipo 3:
Volviendo al ejemplo descripto en la tabla 2.3, el promedio de Cobre es de:
%
x n
=
n
&435,61 2) + & 460,69 11) + &485,77 18) + &510,84 17) + & 535,92 15) + & 561 5)
=
68
=
34210,75
= = 503,0993
68
Mediana
Es el valor de la variable que es superado por el 50% de los valores ms grandes de la
variable y supera al 50% ms pequeo. Dicho de otro modo, es el valor de la variable que
est (de modo ordenado) en el centro de la distribucin. La frmula que se presentar a
continuacin es la frmula para hallar la posicin de la mediana y no es la frmula de la
Mediana.
,-. &/0) = 2 ,
1
Arnaldo Mangeaud 15
Estadstica aplicada a las Ciencias Geolgicas
Distribucin de tipo 1:
Recurriendo al ejemplo sobre los 5 datos de ley de oro. 12; 17; 11; 13; 08.
Veremos que ordenados ellos son: 08; 11; 12; 13; 17.
Si n= 5, entonces Pos (Me)= 3, por lo que la Mediana= 12
Distribucin de tipo 2:
Recurriendo al ejemplo descripto en la tabla 2.2, la Mediana de hijos por empleado se
obtiene buscando al valor de la variable donde est el valor que ordenado es (n+1)/2. Como
n= 130, la posicin sera 131/2= 65,5. En la tabla se observa que el valor acumulado 65,5
corresponde a 2 hijos
Distribucin de tipo 3:
Con el ejemplo descripto en la tabla 2.3, la Mediana de Cobre se encuentra en el intervalo
que acumula al valor que ordenado est en la posicin (68+1)/2= 34,5. Entonces la mediana
est en el intervalo entre 498,30 y 523,38. Una manera de encontrar un valor estimado en
ese intervalo es mediante la siguiente frmula:
3
/0 &) = 3
+ 43 2
3 3
3
: Valor inferior de la variable en el intervalo determinado como que posee a la Me (x)
Donde:
Arnaldo Mangeaud 16
Estadstica aplicada a las Ciencias Geolgicas
Modo o moda
Es el valor de la variable ms frecuente, el valor que posee mayor frecuencia absoluta o
relativa (ni hi).
Distribucin de tipo 2:
Recurriendo al ejemplo descripto en la tabla 2.2, el Modo de hijos por empleado se obtiene
buscando al valor de la variable con mayor frecuencia. Esto es que con una frecuencia de
36 se encuentra el valor 2. Por lo tanto la moda es 2 hijos.
Distribucin de tipo 3:
Con el ejemplo descripto en la tabla 2.3, la Moda de Cobre se encuentra en el intervalo que
acumula al ni= 18. Entonces la Moda est en el intervalo entre 473,23 y 498,30. Una
manera de encontrar un valor estimado en ese intervalo es mediante la siguiente frmula:
3 3
/- &) = 3
+ 43
&3 3
) + &3 3
)
3
: Valor inferior de la variable en el intervalo determinado como que posee a la Mo(x)
Donde:
Arnaldo Mangeaud 17
Estadstica aplicada a las Ciencias Geolgicas
Existen otras medidas de posicin como Media geomtrica, Media armnica, entre otras
que poseen otras propiedades y las cuales escapan a los objetivos de este apunte.
En variables cuya distribucin es simtrica se observa que los valores de Media, Mediana y
Modo coinciden. Mientras que en las distribuciones asimtricas se van distanciando a
medida que se incrementa la asimetra.
a b
Figuras 2.8.a: Distribucin simtrica donde coinciden Media, Mediana y Modo. b:
Distribucin asimtrica a la derecha, donde Media > Mediana> Modo.
Medidas de dispersin.
Rango o recorrido.
Es la diferencia entre el mayor y el menor valor de la variable, es decir, que es la distancia
que recorre la variable desde el valor ms pequeo al ms grande:
67 = 897 81
Arnaldo Mangeaud 18
Estadstica aplicada a las Ciencias Geolgicas
67 = Rango o recorrido
Donde:
Recorrido intercuartlico
Es la diferencia entre el Cuartilo 3 y el Cuartilo 1 de la variable. Es decir es la distancia en
la que se encuentran el 50% central de los valores de loa variable
<
= Cuartilo 1
<= =Cuartilo 3
Desviacin cuartlica
Es el promedio de las distancias entre los Cuartilos 1 y 3 con la Mediana.
<= <
>;7 =
2
<
= Cuartilo 1
<= = Cuartilo 3
Varianza.
Varianzas
?2 = B2 =
& @)
A C )A
&
Arnaldo Mangeaud 19
Estadstica aplicada a las Ciencias Geolgicas
El desvo estndar no posee una frmula propia, sino que es la raz cuadrada de la Varianza.
? = ? 2 B = B 2
A A
Frmulas de trabajo
Para hacer ms sencillo el clculo manual de estas dos frmulas se puede trabajar con las
siguientes frmulas:
1 1
?2 = E& F)2 B2 = E& )2
1
1 1
?2 = E& 2 2F + F2 ) B2 = E& 2 2 + 2 )
1
1 1
?2 = &E 2 E 2F + E F2 ) B2 = &E 2 E 2 + E 2 )
1
1 1
?2 = &E 2 2F E + F2 ) B2 = &E 2 2 E + 2 )
1
1 1
?2 = &E 2 2FF + F2 ) B2 = &E 2 2 + 2 )
1
1 1
?2 = &E 2 2F2 + F2 ) B2 = &E 2 2 2 + 2 )
1
1
? 2 = &E 2 F2 ) 1
B2 = &E 2 2 )
1
?2 = 2 B2 = 1
A
A 17 A
Coeficiente de variacin.
Para realizar comparaciones entre variables con diferentes mtricas o escalas se utiliza el
Coeficiente de variacin. Este es una medida adimensional (se simplifican las unidades) y
se lo suele multiplicar x 100 para expresarlo en porcentajes. Expresa cun grande es el
desvo estndar con respecto a la media.
4G7 = @ 4G7 = C
H I
Donde: Donde:
Arnaldo Mangeaud 20
Estadstica aplicada a las Ciencias Geolgicas
Medidas de Asimetra
Asimetra de Pearson:
xC Mo
NO
=
.
3&xC Me)
NO2 =
.
Asimetra de Fisher
= %
&x xC)=
NS = =
.= .=
U %
&x xC)U
TS = U = 3
. .U
Momentos de orden r
Como se puede ver en las frmulas de Media, Varianza, Simetra (de Fisher) y Curtosis se
est ante frmulas muy similares que cambian slo a qu valor estn elevadas.
%
&x )W
CCCC
/V =
1
Arnaldo Mangeaud 21
Estadstica aplicada a las Ciencias Geolgicas
Y como se ha visto:
El momento de orden 1 corresponde a la Media, el de orden 2 a la Varianza, el de orden 3 a
la Asimetra y el de orden 4 a la Curtosis.
b
a
Figura 2.9. Grfico de cajas de una distribucin simtrica (a) y asimtrica (b). Se observan
Percentiles, Cuartilos y Mediana, as como el punto representa Media y datos extremos.
Arnaldo Mangeaud 22
Estadstica aplicada a las Ciencias Geolgicas
Captulo 3.
Introduccin.
Muchas veces ocurre que el investigador est interesado en estudiar no slo las variables
por separado sino que adems cmo se comportan conjuntamente dos variables. En este
captulo realizaremos la descripcin de esos casos, tal como lo hicimos en el captulo 2 con
slo una variable, mediante tablas, grficos y medidas de resumen.
Del mismo modo que describimos el modo en que se realizaban tablas para conocer la
distribucin de frecuencias de una variable, tambin ocurre que con dos variables se pueden
construir tablas que combinen distribuciones de tipo II o III de ambas variables.
Ejemplo 3.1. Se tienen 44 muestras de suelo en una zona contaminada y se desea saber
cmo se comportan conjuntamente el Cadmio y Nquel.
A partir de esto se construye una tabla conjunta, teniendo en cuenta que ambas
distribuciones son de tipo III.
Variable Nquel
8 a 20 20 a 32 32 a 44 44 a 56 n.j
MC 14 26 38 50
1a3 4 2 2 0 0 6
Cadmio 3 a 5 6 4 7 1 0 14
5a7 2 6 3 9 2 16
7a9 0 8 1 2 3 6
9 a 11 010 0 1 1 2
ni. 12 13 13 6 44
Tabla 3.1. Tabla de distribucin de frecuencias bidimensional de Cadmio y Nquel
A partir de las marcas de clases respectivas y los n marginales podremos calcular todas las
medidas de posicin y dispersin vistas en el Captulo 2.
Arnaldo Mangeaud 23
Estadstica aplicada a las Ciencias Geolgicas
Covarianza.
Covarianzas
?72 7A = B72 7A =
& @ ) &A @A ) C ) &A CA )
&
2
Cuando la Covarianza obtiene valores cero se dice que las variables x1 y x2 no poseen
asociacin lineal, cuando adquiere valore positivos se dice que x1 y x2 poseen una
asociacin lineal positiva (x1 y x2 incrementan juntos), cuando la covarianza es negativa se
dice que la asociacin lineal es inversa: cuando x1 sube, x2 baja. La Figura 3.1 muestra tres
casos de asociaciones, donde se interpreta porqu la Covarianza arroja diferentes valores.
A partir de un teorema que dice que: [ ?727A [ ?7 ?7A el investigador Karl Pearson(1857-
1936) estandariz la Covarianza en lo que se denomina el Coeficiente de Correlacin
Lineal, donde:
H^A^A I^A ^A
]7 7A = V7 7A =
H^ H^A I^ I^A
]7 7A : Coef. de correlacin lineal poblacional V7 7A : Coef. de correlacin lineal muestral
Donde: Donde:
1 < ] < 1
Arnaldo Mangeaud 24
Estadstica aplicada a las Ciencias Geolgicas
Cuando ] obtiene valores cero se dice que las variables x1 y x2 no estn correlacionadas,
a b
c d
Figura 3.1.Grficos con cuatro casos con valores de correlacin y covarianza. a: asociacin
lineal positiva, b: asociacin lineal negativa, c: ausencia de asociacin, d: presencia de una
asociacin pero no lineal.
Arnaldo Mangeaud 25
Estadstica aplicada a las Ciencias Geolgicas
Captulo 4.
Probabilidad.
Introduccin.
Cuando sin conocimientos previos pensamos en la idea de una probabilidad, surgen como
sinnimos palabras como posibilidad o chance. En principio continuaremos con la idea de
chance hasta que tengamos las herramientas para definir matemticamente a las
probabilidades.
Experimento aleatorio
Definiremos como experimento aleatorio a toda aquella experiencia que trae aparejado un
resultado que no se sabe a ciencia cierta cul ser. Es decir no hay certeza del resultado.
Aqu resulta sencillo pensar como ejemplos en los juegos de azar. Si una persona tiene en
sus manos una moneda y decide tirarla no hay certeza del resultado.
Espacio muestral.
Evento: Cada uno de los resultados posibles de una experiencia aleatoria se denominar
evento. En realidad se define como evento a cualquier subconjunto del espacio muestral
(pero a los fines prcticos en este apunte utilizaremos como sinnimos lo que en algunos
libros denominan eventos y sucesos).
Ahora, una vez definidos experimento aleatorio, espacio muestral y evento, definiremos
Probabilidad.
Sea E un experimento aleatorio, que genera un espacio muestral , compuesto por eventos,
una probabilidad es un nmero real que se le asigna a cada uno de los eventos, tal que
cumplen con los siguientes axiomas:
Arnaldo Mangeaud 26
Estadstica aplicada a las Ciencias Geolgicas
1) P (A) 0
La probabilidad de cualquier evento (por ejemplo A) es mayor o igual a cero (dicho
de otro modo, no existen las probabilidades negativas).
2) P ()= 1
La probabilidad del espacio muestral es igual a uno (no existen probabilidades
mayores a uno).
Figura 4.1. Diagrama de Venn, donde se observa que no existe interseccin entre A y B.
Propiedades
1) P ()= 0
La probabilidad del espacio vaco es igual a cero. Lo que no existe, tiene
probabilidad cero.
Arnaldo Mangeaud 27
Estadstica aplicada a las Ciencias Geolgicas
CCC = 1 ,&N)
3) , &N)
Podramos decir que el complemento del evento A es el conjunto de todos los
eventos que no son A, dicho de otro modo la probabilidad que no ocurra A. De ese
modo la probabilidad de que no ocurra A es la diferencia entre la probabilidad del
espacio muestral menos la del evento A.
Arnaldo Mangeaud 28
Estadstica aplicada a las Ciencias Geolgicas
Figura 4.4: Diagrama de Venn donde se destaca que la probabilidad de que ocurra A dado
que ya ocurri B es el cociente entre el nABy nB
Asignacin de probabilidad.
1) Asignacin Clsica:
Para aplicar esta asignacin es necesario que todos los eventos del espacio muestral
tengan igual probabilidad de ocurrencia:
Ejemplo 4.4: Para la experiencia aleatoria tirada de una moneda perfecta, cada una de los
dos resultados posibles posee una probabilidad de .
Ejemplo 4.5: Para la experiencia aleatoria tirada de un dado perfecto, cada uno de los
resultados posibles posee una probabilidad de 1/6.
2) Asignacin frecuencista:
Ejemplo 4.6: En el ejemplo 4.3, se realiza un muestreo y se divide el nmero de nios con virus
sobre el nmero de nios muestreados, eso arroja la probabilidad de encontrar nios con virus.
Ejemplo 4.7: La Tabla 2.1 del captulo 2 presenta la distribucin de frecuencias sobre las rocas
encontradas en el fondo de un ro serrano, a partir de eso decimos que existe una probabilidad de
0,55 de encontrar cuarzo (11/20).
3) Asignacin Bayesiana.
Arnaldo Mangeaud 29
Estadstica aplicada a las Ciencias Geolgicas
Arnaldo Mangeaud 30
Estadstica aplicada a las Ciencias Geolgicas
Captulo 5.
Variables Aleatorias I.
Introduccin.
Variable aleatoria
Ejemplo 5.1 Se tiran dos monedas y se anota el nmero de caras que salen.
Arnaldo Mangeaud 31
Estadstica aplicada a las Ciencias Geolgicas
X p (x) P (x)
0 1/4 1/4
1 2/4 3/4
2 1/4 1
Tabla 5.1. Valores de probabilidad basados en la asignacin clsica.
Funcin de probabilidad.
Funcin de distribucin.
,7x = E r&7)
7%7
Arnaldo Mangeaud 32
Estadstica aplicada a las Ciencias Geolgicas
De este modo se puede observar que la tabla 5.1 posee tres columnas: la columna de los
valores de la variable aleatoria discreta, la columna de la funcin de probabilidad y la de la
funcin de distribucin. Relacionemos esto con lo que se ha visto en el captulo 2, Tabla
2.1 y en el captulo 4: asignacin frecuencista de las probabilidades. Podemos observar que
lo que en forma descriptiva llambamos frecuencia relativa, y asumiendo que esa tabla fue
fruto de un experimento aleatorio, se tienen que esa columna coincide con la idea de la
funcin de probabilidad, estableciendo probabilidades de un modo frecuencista. La
diferencia fundamental es que lo desarrollado en el captulo 2 ocurre despus de haber
tomado la muestra, en este captulo se desarrolla de forma terica, antes de tomar la
muestra.
y&z) = E r&)
{^
X p (x) x *p (x)
0 1/4 0
1 2/4 2/4
2 1/4 2/4
4/4
Tabla 5.2. Procedimiento para el clculo de la E(x) en el ejemplo 5.1.
y&z) = 1
Resulta lgico pensar que si tiramos muchas veces dos monedas el valor esperado de
nmero de caras que sacaremos ser 1.
Arnaldo Mangeaud 33
Estadstica aplicada a las Ciencias Geolgicas
4/4 6/4
Tabla 5.3.Procedimiento para el clculo de la V(x) en el ejemplo 5.1.
Ejemplo 5.2: Supongamos que se toma de una poblacin de alcuotas de agua de un lago
(es decir todo el lago) una variable aleatoria continua, como por ejemplo pH. Entonces
definimos:
Funcin de densidad.
Sea X una v.a.c., se dice que f (x) es una funcin de densidad si satisface las siguientes
condiciones (recordemos que esto viene de los axiomas de probabilidad):
Funcin de distribucin.
Sea X una v.a.c., se denomina funcin de distribucin a la funcin F, tal que:
7
7 = } k&)h
t
Arnaldo Mangeaud 34
Estadstica aplicada a las Ciencias Geolgicas
F (x)= |~ 2 h | 2 |~ =
7
0 si x<0
2
;= si 0 < x < 1
1 si x > 1
Esperanza
y&z) = } k&)h
{
Arnaldo Mangeaud 35
Estadstica aplicada a las Ciencias Geolgicas
2 =
2
y&z) = } 2 h = =
2
{ 3 ~ 3
Varianza
2 1
G&z) = y& 2 ) &y&))2 = U & )2 =
4 ~ 3 18
1) E(c) = c
2) E (X + c) = E (X) + c
3) E (X * c) = E (X) * c
4) V(c) = 0
V (X * c) = V (X) * 2
5) V (X + c) = V (X)
6)
Esta distribucin no es aplicable a situaciones reales, sino que es terica y sirve como una
introduccin a aquellas distribuciones ms complejas:
Sea E un experimento aleatorio con un espacio muestral que posee slo dos resultados
posibles: xito o Fracaso (definido el xito por el operador, dependiendo de la situacin
estudiada). Se define a la variable aleatoria X como 1, si el resultado es xito y 0 si el
resultado es fracaso
Funcin de probabilidad
Arnaldo Mangeaud 36
Estadstica aplicada a las Ciencias Geolgicas
z~ a&r) = r 7 u
7
Lo que significa que la variable aleatoria X posee distribucin Binaria, con parmetro p.
Luego se expresa la funcin de probabilidad.
Como se puede observar si el evento es un xito, x=1, por lo que la probabilidad ser p,
mientras que si el evento es un fracaso, x=0, por lo que su probabilidad ser q.
E(X)= p V(X)=p q
Asumamos que el xito a los fines de esta investigacin estar dad por una muestra
contaminada, por lo tanto:
Entonces
,& = 1) = 0,85
0,15~ = 0,85
Podramos preguntarnos Cul es la probabilidad de tomar una porcin del suelo al azar y
que no est contaminada?
Aunque todas las distribuciones que veremos a continuacin poseen una definicin terica,
las veremos con el desarrollo de un ejemplo para que resulte ms sencilla su interpretacin.
b) Distribucin Binomial.
Ejemplo 5.5: Retomando el ejemplo anterior (Ejemplo 5.4) se pide ahora que un operador
tome 5 muestras en el suelo y la variable aleatoria X ser el nmero de muestras de suelo
contaminadas (Ntese que hemos utilizado el trmino muestra que en la jerga de la
geologa implica una porcin de suelo, aunque sabemos que estadsticamente nos estamos
refiriendo a unidad).
Arnaldo Mangeaud 37
Estadstica aplicada a las Ciencias Geolgicas
,& = 0) = u
7
Veamos que
0,85*0,15*0,15*0,15*0,15= 0,85
0,15U = 0,0004303125
,& = 1) = r 7 u
7
Veamos que
Pero no tenemos en cuenta que slo hemos tenido en cuenta que la primera muestra est
contaminada. Debemos darle la posibilidad a que la segunda muestra lo est, as como la
tercera, cuarta o quinta muestra. Para eso debiramos representar en la frmula a la
cantidad de combinaciones en que se puede acomodar una muestra contaminada en
grupos de 5 muestras. Para ello utilizaremos la frmula de combinatoria:
Cuando se expresa: =
1!
7!&1 7)!
5 5! 5! 5 4!
= = = =5
1 1! &5 1)! &4)! 4!
Lo que vimos cuando desarrollamos el espacio muestral, que una muestra contaminada se
puede acomodar de 5 maneras diferentes en un grupo de 5 muestras.
Arnaldo Mangeaud 38
Estadstica aplicada a las Ciencias Geolgicas
z~ ao&; r) = r 7 u
7
Donde:
X: variable aleatoria de distribucin Binomial
n: nmero de muestras (en realidad elementos de la muestra)
p: probabilidad del xito en la poblacin
q= 1-p: probabilidad de fracaso en la poblacin
Parmetros: n y p
E(X)= n p
V(X)= n p q
a b
Figura 5.6a. Funcin de Probabilidad de la distribucin Binomial del Ejemplo 5.5 y b:
Funcin de distribucin.
c) Distribucin Poisson.
Vamos a considerar dos formas diferentes de abordaje a esta distribucin (aunque hay ms
de dos formas).
I) Poisson como aproximacin a la Binomial
Imaginemos que el evento que se est estudiando tiene una probabilidad de ocurrencia de
0,5 (p=0,5), si esto ocurre, con un n de 4 estamos frente a un valor esperado de 2. Dicho de
otro modo con tomar una muestra de 4 tenemos altas chances de encontrar 2 unidades con
Arnaldo Mangeaud 39
Estadstica aplicada a las Ciencias Geolgicas
la caracterstica xito. Pero si el evento tiene una probabilidad de 0,1, debiramos tomar 10
para tener un valor esperado de 1. Del mismo modo, si la probabilidad del xito es de 0,01,
el n debiera ser 100. As se va observando que a menor probabilidad del xito el operador
0 7
lim r u
7
7
=
1t !
Donde:
=n*p
Parmetro:
E(X)=
V(X)=
a) Distribucin Uniforme.
Del mismo modo que la distribucin Binaria es a las variables discretas, la Uniforme es a
las continuas. Slo es una distribucin terica en la cual es difcil encontrar ejemplos de
aplicacin.
Arnaldo Mangeaud 40
Estadstica aplicada a las Ciencias Geolgicas
k&) = 9
7 9
0 para x < a
9
F(x) para a < x < b
1 para x > b
E(X)= &l + m) /2
Parmetros: a y b
Ejemplo 5.8. Una variable x posee distribucin Uniforme, con un rango de valores que van
de 1 a 3. La figura 5.7 representa su funcin de densidad.
b) Distribucin Normal.
1 &^)A
k&) = 0 A
2?
?
Arnaldo Mangeaud 41
Estadstica aplicada a las Ciencias Geolgicas
&^)A
&) = | t 0 A h < <
7
?
2?
Parmetros: ? 2
E(X)=
V(X)= ? 2
z~ &; ?2 )
Una de las preguntas que pueden surgir es qu probabilidad hay que los valores superen
los 10 ppm?
Como bien se vio anteriormente se debiera resolver la integral para calcular el espacio bajo
la curva entre el valor 10 e infinito. Como bien se supone, resolver una integral tan
compleja, cada vez que es necesario encontrar una probabilidad, es una tarea muy tediosa.
Como se vio anteriormente en distribuciones de Poisson y Binomial podra estar tabuladas,
pero recordemos que los parmetros de la distribucin normal (que son la media y la
Arnaldo Mangeaud 42
Estadstica aplicada a las Ciencias Geolgicas
Por esta primera razn se cre una tabla denominada Normal estandarizada o tipificada que
tiene caractersticas muy particulares. Es una distribucin Normal pero que posee
Esperanza cero (0) y Varianza uno (1), es decir es una variable llamada Z que:
~ &0; 1)
Esta distribucin Z est tabulada y mediante una sencilla operacin se pueden transformar
a todas las variables X en la variable Z, esta operacin se denomina Estandarizacin
Estandarizacin
Para este caso en particular (Ejemplo de una variable X) entonces: E(X)= y V(X)= ? 2 , la
frmula es:
=
?2
Observemos para el ejemplo 5.9 qu ocurre con la estandarizacin del valor 10:
10 8
= = 1,414
2
Arnaldo Mangeaud 43
Estadstica aplicada a las Ciencias Geolgicas
b
Figura 5.9a. Distribucin Normal y la ubicacin del valor x=10 y del mismo valor
estandarizado z=1,414 (b)
a c
b
d
Arnaldo Mangeaud 44
Estadstica aplicada a las Ciencias Geolgicas
Ahora ntese que se puede visualizar que los valores z estn mostrando cuntos desvos
antes o despus de la media se encuentra el valor de la variable, es decir si un valor est
alejado o no de la media. El valor de x= 6,583 se encuentra ubicado un desvo antes d ela
media, por eso su valor z es -1.
Entonces los valores z estn relativizando a los valores de la variable. Una persona de 1,85
m es alta o baja? La respuesta debiera ser: depende. Si esa persona naci en Argentina, es
una persona relativamente alta, para la media de este pas y su desvo esa persona tendr un
valor z de aproximadamente 2. Pero si naci en Finlandia, es una persona promedio, pues
su valor z es 0, ya que los finlandeses en promedio miden 1,85 m.
P (-1 < z < 1) = 0,68; es decir que entre 1 desvo a la derecha y uno a la izquierda se
encuentran aproximadamente el 68% central de los datos.
P (-1,96 < z < 1,96)= 0,95; es decir que casi 2 desvos a la derecha y a la izquierda
contienen aproximadamente el 95% central de los datos.
P (-3 < z < 3)= 0,99; es decir que 3 desvos a la derecha y a la izquierda contienen algo ms
del 99% central de los datos
a. P(-1<z<1)= 0,6827
Arnaldo Mangeaud 45
Estadstica aplicada a las Ciencias Geolgicas
Arnaldo Mangeaud 46
Estadstica aplicada a las Ciencias Geolgicas
Captulo 6.
Introduccin.
y&) = y&&z))
Y en el caso continuo:
Arnaldo Mangeaud 47
Estadstica aplicada a las Ciencias Geolgicas
21
= 1 + 2 + 3 + +
2 2 2 2
1 2
1
k& 1) =
2
& ) 0 2
, para 2 >0
2
2 A &
)
A
E (2 )= n-1
Parmetro: n-1 (grados de libertad)
V (2 )= 2 n-1
En las figuras 6.1 se observa que la distribucin Chi cuadrado es asimtrica a la derecha y
que va hacindose ms simtrica a medida que se incrementan los grados de libertad
a. Chi cuadrado con 3 grados de libertad b. Chi cuadrado con 8 grados de libertad
Dada Z una variable aleatoria con distribucin normal estndar (~ &0; 1)), y dada Y una
variable aleatoria con distribucin Chi cuadrado, entonces definimos a la distribucin t de
Student como:
z
j1
=
1
Arnaldo Mangeaud 48
Estadstica aplicada a las Ciencias Geolgicas
Es decir una distribucin t es una normal dividido la raz de una chi cuadrado dividida
sus grados de libertad
&)
!
k&j) = 1 + 1
, < j <
A A A
&)
! 1
Dada una variable aleatoria X con distribucin chi cuadrado y n-1 grados de libertad, dada
otra variable aleatoria Y con distribucin chi cuadrado y m-1 grados de libertad, definimos
a la variable aleatoria F (de Fisher) como:
z
1
;8
=
Arnaldo Mangeaud 49
Estadstica aplicada a las Ciencias Geolgicas
& A) A
!
k&) =
A 8 A S A
&A) &A)
! ! 1
, F>0
A
A A
Dadas X1, X2, X3; .... Xn, n variables aleatorias independientes e idnticamente distribuidas,
es decir todas con igual Esperanza () y con igual varianza (? 2 ). La sumatoria de estas
variables se distribuir con distribucin Normal, si el n es suficientemente grande, sin
importar la distribucin original de aquellas.
Arnaldo Mangeaud 50
Estadstica aplicada a las Ciencias Geolgicas
La aplicacin ms importante de este teorema tiene que ver con la distribucin de la media
muestral. Como se observa en la frmula de la media muestral:
%
x
=
n
1
zC = E z
n
Arnaldo Mangeaud 51
Estadstica aplicada a las Ciencias Geolgicas
Captulo 7.
Distribuciones en el muestreo
Introduccin.
Si hacemos un pequeo repaso de lo que se ha visto hasta ahora podramos destacar que en
los primeros captulos definimos estadstica, poblacin y muestra. Luego se describieron la
distribucin de las variables, medidas de posicin y dispersin. Pasamos luego a los
conceptos bsicos de probabilidad, de variables aleatorias con la distribucin de variables y
la distribucin de funciones de variables.
En este captulo uniremos muchos de esos conceptos y desarrollaremos las bases que
constituyen el puntapi inicial para comprender la inferencia estadstica.
Poblacional Muestral
= =
Media
?2 = B2 =
& @)
A C )A
&
Varianza
Arnaldo Mangeaud 52
Estadstica aplicada a las Ciencias Geolgicas
Como la media muestral es la sumatoria de variables aleatorias con distribucin normal, por
lo tanto va a tener distribucin normal como resultado de la suma de normales.
Qu pasara si las variables aleatorias no tienen distribucin normal? Si el n es
suficientemente grande, por teorema central del lmite, la media muestral tendr
distribucin normal.
1 1 1
y& ) =
G& ) = 1 ?2 ; G& ) =
?2
1
mayor cantidad de unidades que forman parte de la muestra, la media muestral vara cada
vez menos. Entonces para resumir:
?2
zC~ ;
De este modo el desvo de la variable media muestral recibe el nombre de error estndar y
est definido por:
?2 ?
yy = =
Arnaldo Mangeaud 53
Estadstica aplicada a las Ciencias Geolgicas
Para este caso en particular entonces donde y& ) = y G& ) = 1 , la frmula es:
?2
= ?
1
CCC
~ ;
Sea z
~ 1 ; ?21 y z
?21
CCC2 ~ ;
, y sea z2 ~ 2 ; ?22 y z
?22
1 1 2 1A
?21 ?22
CCC
z
z CCC2 ~ ;
+
2 1 2
+
?21 ?22
1 1A
& )
Distribucin del estadstico . Distribucin de la varianza muestral.
& 1)B2
21
=
?2
X
Distribucin del estadstico . Distribucin de la media con varianza
poblacionaldesconocida
zC
j1
= I
1
Distribucin del estadstico
Sea z
~ 1 ; ?21 y z2 ~ 2 ; ?22 ;B
2 la varianza muestral de la poblacin 1, obtenida
de una muestra de tamao n1; B22 la varianza muestral de la poblacin 2 obtenida de una
Arnaldo Mangeaud 54
Estadstica aplicada a las Ciencias Geolgicas
muestra de tamao n2. El cociente entre las varianzas muestrales de las muestras 1 y 2 se
distribuye como una F de Fisher bajo estas condiciones:
B
2 ?
2
&1
;1A
) = 2 2
B2 ?2
Arnaldo Mangeaud 55
Estadstica aplicada a las Ciencias Geolgicas
Captulo 8.
Estimacin.
Introduccin.
Estimacin puntual.
1) Insesgabilidad
y = ;
entendemos por sesgo entonces a la diferencia entre la esperanza del estimador y el
Sesgo = y
parmetro:
Ejemplo 8.2: En este ejemplo demostraremos la razn por la cual la frmula de la varianza
muestral es diferente del de la varianza poblacional.
Recordemos que en el captulo 2 se vieron dos frmulas que son semejantes, pero difieren
en el denominador:
?2 = B2 =
& @)
A C )A
&
Arnaldo Mangeaud 56
Estadstica aplicada a las Ciencias Geolgicas
ni=1&xi xC)2
BI2 =
n
1
y&BI2 ) = E y&2 y&C 2 ))
1
media:
y&BI2 ) = E&F2 + ?2 ) &F2C + ?2C )
1
y&BI2 ) = E F2 + E ?2 F2C + ?2C
1
y&BI2 ) = &F2 + ?2 F2C + ?2C )
y&BI2 ) = F2 + ?2 F2C + ?2C , como ya se explic en el Captulo 7, por Esperanza y varianza
?2
de la media:
y&BI2 ) = F2 + ?2 F2 +
y&BI2 ) =
?2
?2
,
Arnaldo Mangeaud 57
Estadstica aplicada a las Ciencias Geolgicas
1
y&BI2 ) = ?2 &1 )
y&BI2 ) = ?2 &
1
) ; por lo que se nota que el valor esperado de la varianza sesgada es menor
1
1
a la varianza poblacional, siendo el sesgo.
1
1
Entonces para corregir el sesgo se debe multiplicar a la varianza sesgada por de modo
tal que:
2) Consistencia
, &| | < ) = 1
3) Eficiencia
Sean
y 2 , ambos estimadores insesgados y consistentes de , se dice que
es un
estimador eficiente con respecto a 2 si se cumple que:
GlV &
) < GlV &2 )
Arnaldo Mangeaud 58
Estadstica aplicada a las Ciencias Geolgicas
y del n de la muestra. Al realizar una estimacin puntual no se tiene ningn indicio de cun alejado
est el estimador del parmetro. Por esa razn suele ser necesaria realizar tambin una
estimacin por intervalos, es decir plantear un intervalo que posea cierta probabilidad
definida de antemano de contener el valor del parmetro.
A continuacin vamos a ver varios casos desde los ms sencillos a los ms complejos:
Parmetro a estimar:
Estimador: xC, y ~ ;
?2
? conocida.
2
Definimos el estadstico como la funcin que relaciona al estimador con el parmetro, en este caso:
= ?
1
Definimos a una cierta probabilidad que llamaremos confianza (probabilidad del intervalo)
y denotaremos como 1-, as una doble igualdad queda:
,&
< < 2 ) = 1 , para no confundir con los subndices de Z, los obviaremos.
, < < = 1 ,
7
?
, < < = 1,
? ?
1 1
Ntese que por comodidad y debido a que la distribucin Z es simtrica no se trabaj con el
subndice de la probabilidad acumulada en los valores Z.
Ntese tambin que de este intervalo planteado se obtiene un lmite inferior (LI) y uno
Arnaldo Mangeaud 59
Estadstica aplicada a las Ciencias Geolgicas
?
B &1 ) = C +
Desde el punto de vista prctico, una vez obtenidos los valores, ya deja de ser una
probabilidad y pasa a denominarse confianza
Parmetro a estimar:
Estimador: xC
? 2 desconocida.
Estadstico: j =
7 @
Confianza: 1-,
,&j
< j < j2 ) = 1 , para no confundir con los subndices de t, los obviaremos.
El intervalo ser:
, j < < j = 1 ,
7
B
, j < < + j = 1,
B B
1 1
&1 ) = C j
B
1
B &1 ) = C + j
B
1
Parmetro a estimar:
2
Estimador: CCC
CCC2
?
y?2 conocidas
2 2
CCCCC CCCC
Estadstico: =
& A ) &@ @A )
A A
A
A
Confianza: 1-,
El intervalo ser:
,&
< < 2 ) = 1 , para no confundir con los subndices de Z, los obviaremos.
Arnaldo Mangeaud 60
Estadstica aplicada a las Ciencias Geolgicas
?2 ?2
1 2
A
,
?21
+
?22
CCCCC
z
< &z CCC2 ) & ) < ?1 + ?22
=1,
2
1 1A 1 2 1 1A
CCCCC
z
, &z CCC2 ) ?21
+
?22
CCCCC
z
< 1 2 < &z CCC2 ) + ?21
+
?22
= 1,
1 1A 1 1A
1 1A
CCCCC
z
B &1 ) = &z CCC2 ) + ?1 + ?22
2
1 1A
Parmetro a estimar:
2
Estimador: CCC
CCC2
?
y?2 desconocidasy
= 2
2 2
CCCCC CCCC
Estadstico: t =
& A ) &1 2 )
2
B2
B1 2
A
Confianza: 1-,
El intervalo ser:
,&j
< j < j2 ) = 1 , para no confundir con los subndices de t, los obviaremos.
A
, j11 +
B2 B22
CCCCC
z
< &z CCC2 ) & ) < j 1 + B2 B22
= 1,
1A 1 2 1 1A
CCCCC
z
, &z CCC2 ) j B1 + CCCCC
z
< 1 2 < &z CCC2 ) + j B1 + =1,
2
B22 2
B22
1 1A 1 1A
Arnaldo Mangeaud 61
Estadstica aplicada a las Ciencias Geolgicas
CCCCC
z
B &1 ) = &z CCCCC
2) + j
B21
+
B22
1 1A
Parmetro a estimar:
2
Estimador: CCC
CCC2
?
y?2 desconocidas, pero supuestas iguales y
2 , por lo que es necesario definir una
2 2
varianza ponderada o varianza amalgamada (Bc2 ), que es una varianza promedio entre las
dos varianzas muestrales, pero ponderadas por los grados de libertad de cada muestra:
&
1) B
2 + &2 1) B22
Bc2 =
&
+ 2 2)
CCCCC CCCC
Estadstico: t =
& A ) &1 2 )
A
& ) &A )A A
&
1
)
& A A) A
Confianza: 1-,
El intervalo ser:
,&j
< j < j2 ) = 1 , para no confundir con los subndices de t, los obviaremos.
CCCCC CCCC
, j < < j = 1 ,
& A ) &1 2 )
A& 1
I )
A
, jBc2 & 1 +
1
CCCCC
z
) < &z CCC2 ) & ) < jBc2 & 1 +
) = 1 ,
1A 1 2 1 1A
CCCCC
z
, &z CCCCC
2 ) jBc 1 +
2 1
CCCCC
z
< 1 2 < &z CCC2 ) + jBc2 & + 1
) = 1 ,
1A 1 1A
)
&1 1A 2) 1A
CCCCC
z
B &1 ) = &z CCC2 ) + j &1
)I &1A
)IA & 1 +
)
A A
&1 1 2) 1 A 1A
Arnaldo Mangeaud 62
Estadstica aplicada a las Ciencias Geolgicas
Parmetro a estimar: ? 2
CCCC
Estimador: B2
&1)B2
Estadstico: 21
=
HA
Confianza: 1-,
,21 < 2 < 22 = 1 , para no confundir con los subndices de Chi, los obviaremos.
El intervalo ser:
, 2 < < 2 = 1 ,
&1
)I A
?2
, 2 < < 2 = 1 ,
&1
)I A
?2
, &1
)IA < ?2 < &1
)IA = 1 ,
2
2
B &1 ) =
&1
)I A
2/2
HA
Parmetro a estimar: HA
A
IA
Estimador: IA
A
Estadstico: &1
;1A
) =
IA ?A
IAA ?AA
Confianza: 1-,
,&
< < 2 ) = 1 ,
El intervalo ser:
Arnaldo Mangeaud 63
Estadstica aplicada a las Ciencias Geolgicas
, < < = 1,
IA ?A
IA
IAA ?A
A IAA
81 =
A S2
A
Donde:
S 2 : varianza muestral
t: valor del estadstico t para n-1 y 1-.
Ejemplo 8.5. Se desea estimar a la media poblacional del contenido de sales minerales (en
con una muestra piloto de 20 muestras con los siguientes valores: xC = 3,5 %; S = 0, 05%.
%) del agua en el mar en una zona cercana a la Costa de la provincia de Chubut. Se cuenta
Se desea trabajar con una confianza del 95% y un error no mayor al 1%.
2,092 0,052
= = 8,91 9
0,0352
Por lo que para estimar a la media poblacional se deben tomar 9 elementos en la muestra.
Arnaldo Mangeaud 64
Estadstica aplicada a las Ciencias Geolgicas
A partir de la frmula anterior, se observa que a mayor precisin (menor error) el nmero
aumenta, que a mayor confianza el nmero aumenta y a mayor varianza, el nmero
aumenta.
81 =
A O
A
Donde:
Ntese que como la mxima varianza se obtiene con p=0,5, si se desconoce el valor de la
varianza poblacional o no existe una muestra piloto, se puede estimar a p=0,5 de un modo
conservador para trabajar con la mxima varianza posible.
Ejemplo 8.6.
Se desea saber qu nmero de personas se deber encuestar para conocer la intencin de
voto de una poblacin. Si se desconoce p, entonces
p=0,5; q= 0,5; e= 0,1 y 1-= 0,95 y valor Z de tabla: 1,96, entonces:
Por lo que para estimar la proporcin poblacional con una confianza del 95% y un error
mximo del 10% se deben encuestar 96 personas.
Arnaldo Mangeaud 65
Estadstica aplicada a las Ciencias Geolgicas
Captulo 9.
Pruebas de Hiptesis
Introduccin.
Antes que avanzar en este captulo debemos definir qu es para nosotros una hiptesis.
Vamos a definirla como una conjetura, una aseveracin de cmo funciona el sistema, es
una frase afirmativa.
En estos ejemplos se observa que transcurrido cierto tiempo, se pueden poner a prueba esas
hiptesis. Transcurrida la noche o despus del examen, se puede constatar si era o no cierta
la hiptesis. Cuando decimos si era o no cierta es porque existe la posibilidad de que la
hiptesis sea falsa.
Vamos a plantear de nuevo los ejemplos con las dos posibilidades, llamndole Hiptesis
nula (~ ) a la aseveracin a los resultados posibles donde sta es cierta e Hiptesis
alternativa (
) al complemento de sta, es decir a todos los resultados cuando demuestren
que la Hiptesis nula sea falsa
Si se tuviese a priori certeza del resultado, no sera una hiptesis, la prueba de hiptesis es
una experiencia aleatoria que arroja un espacio muestral, espacio que dividimos en 2, una
parte donde corresponde a la hiptesis nula y la otra a la alternativa.
Arnaldo Mangeaud 66
Estadstica aplicada a las Ciencias Geolgicas
Cmo hago para contar las patas de todos los gatos del mundo o para revisar toda la
formacin que puede tener millones de toneladas de roca? La respuesta es No lo voy a
poder hacer, voy a tener que tomar una muestra que represente la poblacin y extrapolar
las conclusiones de la muestra a la poblacin, pero como no tengo al TODO, voy a tener
que contemplar una tasa de errores (error en este caso entendido como equivocacin).
Hay muchsimas pruebas de hiptesis, y todos los das se inventan ms, vamos a ver slo
algunos casos, el primer caso lo vamos a desarrollar con un ejemplo y los conceptos
generales los trataremos despus de este caso para que resulte ms didctico.
Ejemplo 9.5. Un Gelogo necesita saber si el promedio poblacional de la ley de Oro en una
zona es mayor o igual a 12 g/Tn. Para eso realiza una serie de excavaciones y muestreando
sistemticamente toma una muestra de tamao n (como este es un ejemplo prctico y el
caso 1 es un caso terico, necesitamos asumir inocentemente que se conoce el valor de la
varianza poblacional).
~ ) 12
) < 12
Esta accin la podramos realizar slo si tuvisemos el verdadero valor de. Como no lo
resultado y si la media muestral es exactamente menor que 12 rechazamos la hiptesis nula.
Pensemos que por ms que la hiptesis nula sea cierta, por ms que 12,la media
tenemos y slo poseemos un estimador, debemos razonar de forma diferente:
muestral slo por azar podra ser ms pequea que 12 (por el azar de cules fueron los
elementos que ingresaron en la muestra), entonces debiramos permitirle a la media
muestral que se mueva slo por azar alrededor del 12, dicho de otro modo, si la media
muestral est cerquita del 12, debiramos considerarlo que no es significativamente
diferente de 12, debiramos considerar que se diferenci de 12 slo por azar. Pero si la
media muestral est muy alejada del 12, ya debiramos decir que no es slo producto del
azar, sino que debiramos decir que la media muestral est alejada de 12, porque la
hiptesis nula es falsa.
Cun alejada debiramos considerar a la media muestral del valor 12 para que sea lejos?
Esa pregunta ya la trataron muchsimas reuniones entre especialistas, y hace casi 100 aos
un grupo de ellos decidieron por consenso propiciar que si un evento se desarrollaba con
una probabilidad menor a 1/20 poda ser considerado un evento raro, pero si estaba en ms
del 1/20 de los caso era un evento comn. De all y por consenso surgi la idea del 5%. Un
evento con una probabilidad menor a 0,05 sera considerado raro y si est dentro del 95%
(p=0,95) es un evento comn.
Volviendo al tema de la media muestral, si est entonces ms alejada del 95% de los casos,
entonces es una media rara!
Arnaldo Mangeaud 67
Estadstica aplicada a las Ciencias Geolgicas
a b
c d
Figura 9.1. Distribucin de la ley de oro del Ejemplo 9.5.a: Distribucin de la media
muestral si la H0 es cierta, b: Distribucin de la variable x si la H0 es cierta, c: Distribucin
de la media muestral con las zonas de rechazo y no rechazo, d: Distribucin de z con las
zonas de rechazo y no rechazo
Resultados posibles:
Cuatro tipos de resultados diferentes pueden ocurrir y vamos a describirlos:
Ejemplo 9.5.a.Se toma la muestra, se calcula le media muestral y sta arroja un valor de
11,5 g/Tn, lo que se ubica en la Figura 9.2 del siguiente modo:
Arnaldo Mangeaud 68
Estadstica aplicada a las Ciencias Geolgicas
Figura 9.2. Ubicacin de un valor de media muestral de 11,5 en el caso de Ejemplo 9.5, cuando la
Hiptesis nula es cierta.
Ejemplo 9.5.b.Se toma la muestra, se calcula le media muestral y sta arroja un valor de
11,02 g/Tn, lo que se ubica en la Figura 9.3 del siguiente modo:
Figura 9.3.Ubicacin de un valor de media muestral de 11,02 en el caso de Ejemplo 9.5, cuando la
Hiptesis nula es cierta.
Entonces la decisin sera rechazar ~ . Rechazar la ~ cuando sta es cierta es algo malo,
es una equivocacin, se denomina Error de Tipo I y su probabilidad es de .
Ejemplo 9.5.c.Se toma la muestra y sta arroja el valor de la media muestral de 9,5, lo que
se ubica en la figura 9.4 del siguiente modo:
Arnaldo Mangeaud 69
Estadstica aplicada a las Ciencias Geolgicas
Figura 9.4. Ubicacin de un valor de media muestral de 9,5 en el caso de Ejemplo 9.5, cuando la
Hiptesis nula es falsa.
Entonces la decisin sera rechazar ~ . Rechazar la ~ cuando sta es falsa es algo bueno,
se denomina potencia y su probabilidad es de 1-. Ntese que toda la superficie con rayas
horizontales constituye la potencia.
Ejemplo 9.5.d.Se toma la muestra y sta arroja el valor de la media muestral de 11,9, lo
que se ubica en la figura 9.5 del siguiente modo:
Figura 9.5.Ubicacin de un valor de media muestral de 11,9 en el caso de Ejemplo 9.5, cuando la
Hiptesis nula es falsa.
Arnaldo Mangeaud 70
Estadstica aplicada a las Ciencias Geolgicas
Si la ~ es cierta Si la ~ es falsa
No se rechaza ~ Confianza Error de tipo II
Se rechaza ~
1-.
Potencia
Error de tipo I
.1-
Tabla 9.1. Cuadro de las cuatro posibles resultados en una prueba de errores.
Entonces el Gelogo antes de tomar la muestra posee cuatro resultados posibles. Una vez
~ ) 12
) < 12
Estadstico: ~ =
7
?
Confianza: 0,95.
n: 64
Anlisis:
11,95 12
~ = 2 = 0.2
U
Arnaldo Mangeaud 71
Estadstica aplicada a las Ciencias Geolgicas
Zona de Rechazo: & < ~ < 1,6449, entonces como Z0 es: -0,2, no se rechaza
~ ) 12
En las Figuras 9.6 se presentan los valores de la media muestral (11,95) y su valor
estandarizado (-0,2) en sus respectivas distribuciones.
b
Figura 9.6.Ubicacin del valor de media muestral de 11,95 (a) y su valor estandarizado (b) para la
resolucin del Caso 1 con el Ejemplo 9.5.
~ ) 12 ~ ) 12 ~ ) = 12
) < 12
) > 12
) 12
Prueba Unilateral Izquierda Prueba unilateral derecha Prueba bilateral
Arnaldo Mangeaud 72
Estadstica aplicada a las Ciencias Geolgicas
Ejemplo 9.6. Se quiere saber si cambi el pH de un Lago que hasta la dcada anterior
posea un pH de 7,3. Se tom una muestra de 27 alcuotas de agua, arrojando una media
muestral de 7.25 y una varianza muestral de 0,02.
~ ) = 7,3
) 7,3
Estadstico: j~ =
7
B
Confianza: 1-: 0,95
n: 27
Si j1
;/2 < j~ < j1
;
/2 , entonces no se rechaza ~ ) = 7,3
Regla de decisin:
7,25 7,3
Para este caso entonces:
j~ = 0,1414 = 1.8373
2
Como (-2,055 < 1.8373 < 2,055) entonces no se rechaza la Hiptesis nula, el lago no
cambi significativamente su pH.
independientes y y conocidas.
Caso 3) Pruebas para la igualdad entre dos medias poblacionales, muestras
~ ) 1 = 2 1 2 = 0
) 1 2 0
Arnaldo Mangeaud 73
Estadstica aplicada a las Ciencias Geolgicas
?2 ?2
1 2
A
2
Confianza: 1-,
Si /2 < ~ <
/2 , entonces no se rechaza ~ )
Si & < ~ < /2 , &
/2 < ~ < ), entonces se rechaza ~ )
independientes, y desconocidas y = .
Caso 4) Pruebas para la igualdad entre dos medias poblacionales, muestras
~ ) 1 2 = 0
) 1 2 0
= 2
Confianza: 1-,
Si j1
;/2 < j~ < j1
;
/2 , entonces no se rechaza ~ )
Regla de decisin:
independientes, y desconocidas y
Caso 5) Pruebas para la igualdad entre dos medias poblacionales, muestras
~ ) 1 2 = 0
) 1 2 0
Arnaldo Mangeaud 74
Estadstica aplicada a las Ciencias Geolgicas
CCCCC CCCC
Estadstico: t =
& A ) &1 2 )
A
& ) &A )A A
&
1
)
& A A) A
2
Confianza: 1-,
Si j1
;/2 < j~ < j1
;
/2 , entonces no se rechaza ~ )
Regla de decisin:
~ ) h = 0
) h 0
Si j1
;/2 < j~ < j1
;
/2 , entonces no se rechaza ~ )
Regla de decisin:
~ ) ? 2 = ?~2
) ? 2 ?~2
Confianza: 1-,
n; n0
Arnaldo Mangeaud 75
Estadstica aplicada a las Ciencias Geolgicas
?21
~ ) =1
?22
?21
) 1
?22
HA
Parmetro a poner a prueba: HA
A
IA
IAA
Estimador:
Estadstico: ~ =
IA ?A
IAA ?AA
2
Confianza: 1-,
Si &F1
; 1A
; /2 < 0 < F1
; 1A
;
/2 ), entonces no se rechaza ~ )
Regla de decisin:
~ ) z~ok-Vg0
) z~/ ok-Vg0
& )A
Arnaldo Mangeaud 76
Estadstica aplicada a las Ciencias Geolgicas
Donde
k: Nmero de categoras de la variable
Confianza: 1-,
Si &2 O
;
< 2~ < )entonces se rechaza ~ )
Ntese que el valor de Chi cuadrado implica la discrepancia entre la frecuencia observada y
la frecuencia esperada, por lo tanto un valor de Chi cuadrado de cero implicara igualdad
absoluta. A medida que lo observado es ms dismil a lo esperado el valor del estadstico va
incrementndose. Por esa razn esta prueba es slo unilateral derecha.
Los grados de libertad del 2~, con k-p-1, donde k es la cantidad de categoras (en este caso
3), p son los parmetros estimados (en este caso 0), por lo que299 = 5,995, por lo tanto se
rechaza H~ , se concluye que las diferencias observadas no pueden ser slo por azar.
As como se desarroll el ejemplo para una variable cualitativa, se puede aplicar la prueba
de Bondad de Ajuste Chi cuadrado para variables cuantitativas, pero posee menor potencia
que otras pruebas ms precisas.
Para tales casos, cuando se desea poner a prueba una distribucin Normal, la prueba de
Shapiro Wilks es la ms recomendada. Debido a que sta ltima es slo una prueba para
Normalidad, para el ajuste de otras distribuciones se recomienda la prueba de Kolmogorov
Smirnov. En ambas pruebas la hiptesis que se prueba es la de la distribucin de la
variable, utilizando cada una de ellas estadsticos especficos.
Ejemplo 9.10.Se quiere conocer si en una empresa internacional minera est asociada el
gnero de los empleados a su estado de complacencia por la remuneracin recibida, dicho
de otro modo, alguno de los gneros se percibe con peor remuneracin que el otro. Se
realiza un muestreo de 78 personas preguntndole a cada uno de ellos su gnero y si crean
que estaban cobrando lo que se merecan o menos, arrojando los siguientes resultados:
Cobra lo que se
Arnaldo Mangeaud 77
Estadstica aplicada a las Ciencias Geolgicas
merece
Gnero SI NO
Femenino 3 15
Masculino 21 39
Tabla 9.4. Frecuencia de personas segn gnero y su complacencia por la remuneracin
recibida.
~ ) z
0. oh0r0ho0j0 h0 z2
) z
- 0. oh0r0ho0j0 h0 z2
z
= Variable merecimiento de la remuneracin
Donde:
z2 = Gnero
& )A
Donde
k: Nmero de combinaciones de categoras de ambas variables
Confianza: 1-,
Si &2&
)&2
);
< 2~ < )entonces se rechaza ~ )
SI NO Total SI NO Marginal
Fem. 3 15 18 Fem. 0,2308
Masc. 21 39 60 Masc. 0,7692
Total 26 52 78 Marginal 0,3333 0,6667 1
a b
SI NO Marginal SI NO Total
Fem. 0,0769 0,1538 0,2308 Fem. 5,54 12,46 18
Masc. 0,2564 0,5128 0,7692 Masc. 18,46 41,54 60
Marginal 0,3333 0,6667 1 Total 26 52 78
Arnaldo Mangeaud 78
Estadstica aplicada a las Ciencias Geolgicas
c d
Tablas 9.5. a: Frecuencias absolutas, b: probabilidades marginales, c: probabilidades
esperadas por celda, d: frecuencias esperadas por celda.
2~ = 2,185
Transformaciones de variables
1) Transformacin logartmica
Sea X una variable aleatoria con distribucin No normal se dice que X es su transformada
cuando:
z = -p
~ &z) , o bien: z = &z)
2) Transformacin de Potencia
Sea X una variable aleatoria con distribucin No normal se dice que X es su transformada
cuando:
Arnaldo Mangeaud 79
Estadstica aplicada a las Ciencias Geolgicas
a) Cuando r < 1
z ~, = z
A
z = z ; z = z; z = z
A
b) Cuando r > 1
z = z 2 ; z = z = ; z = z U
Arnaldo Mangeaud 80
Estadstica aplicada a las Ciencias Geolgicas
~ ) /0h7 = /0h~
) /0h7 /0h~
muestras independientes,
2 y 22 desconocidas. Se presentan como alternativa dos
Alternativa a los casos 4 y 5: Pruebas para la igualdad entre dos medias poblacionales,
pruebas que son exactamente iguales, slo cambian en la construccin del estadstico:
Prueba de Wilcoxon para muestras independientes y prueba U de Mann Whitney. En
ambos casos las hiptesis nula y alternativas son:
~ ) /0h
= /0h2
) /0h
/0h2
Alternativa al caso 6: Pruebas para la igualdad entre dos medias poblacionales, muestras
dependientes (o apareadas). Se presenta como alternativa la Prueba de Wilcoxon para
muestras apareadas, con las hiptesis:
~ ) /0h = 0
) /0h 0
Valor p
En todo este captulo hemos estado presentando diferentes pruebas de hiptesis, donde la
regla de decisin para poner a prueba la hiptesis presenta los intervalos con las zonas de
rechazo y de no rechazo. Si el estadstico est comprendido en alguna de las zonas se
concluye como consecuencia de esto.
En esta seccin veremos otra manera de expresar el resultado de la prueba de hiptesis.
~ ) F 12
) F < 12
Con esa batera de hiptesis corresponde aplicar lo que denominamos como caso 1 o como
caso 2, segn corresponda y dependiendo si es conocida o no la varianza poblacional (2).
Arnaldo Mangeaud 81
Estadstica aplicada a las Ciencias Geolgicas
a b
c d
Figura 9.8. Cuatro diferentes posibilidades de la ubicacin de la media muestral con
respecto a la media poblacional bajo hiptesis.
Tanto en la Figura 9.8a como en la 9.8b, la conclusin ser que no se rechaza la hiptesis
Tanto en la Figura 9.8c como 9.8d la conclusin ser que se rechaza la hiptesis nula y
Miremos ahora si sombreamos toda la superficie desde el valor de la media hacia menos
infinito (Figuras 9.9).
Arnaldo Mangeaud 82
Estadstica aplicada a las Ciencias Geolgicas
a
b
c
d
Figura 9.9. Grficos de las Figuras 9.8 donde a las Cuatro diferentes posibilidades de la
ubicacin de la media muestral con respecto a la media poblacional bajo hiptesis muestra
la probabilidad desde el valor del estimador a menos infinito.
Esa superficie nos da la probabilidad de obtener medias muestrales al azar que estn igual o
ms alejadas que la nuestra del valor bajo hiptesis. Dicho de otro modo, el valor p nos da
la probabilidad de obtener estimadores igual o ms alejados que el estimador de la muestra
con respecto al parmetro bajo hiptesis.
De esta manera, una vez obtenido el valor p, se lo compara con y la regla de decisin es:
Cuando el operador realiza los clculo manualmente resulta sencillo establecer las zonas de
rechazo y no rechazo de la manera clsica ya que para algunas distribuciones es muy
complejo la bsqueda de los valores p. Sin embargo la totalidad de los programas
estadsticos responden a las pruebas de hiptesis exclusivamente expresando el resultado
con el valor p.
Arnaldo Mangeaud 83
Estadstica aplicada a las Ciencias Geolgicas
Captulo 10.
Diseos Estadsticos.
Introduccin.
Como destacamos anteriormente los Diseo estadstico pueden ser de dos tipos:
Ejemplo 10.2. Un Gelogo desea saber si antes y despus de una planta depuradora de
lquidos cloacales se mantienen constantes las variables que indican contaminacin
ambiental, es decir conocer si la planta est cumpliendo con los requisitos de calidad del
efluente. Para ello toma muestras de agua antes y despus de la planta y luego in situ o en
laboratorio mide la variable de inters (Concentracin de Nitrito).
El panorama ideal para un diseo sera aquel en que si se repite una experiencia, todos los
resultados obtenidos fuesen exactamente iguales. Si eso ocurriese estaramos en presencia
Arnaldo Mangeaud 84
Estadstica aplicada a las Ciencias Geolgicas
Se considera que el padre del Diseo Experimental fue Ronald Fisher (1890-1962), quien,
trabajando para una estacin agronmica Britnica desde 1919 desarroll las bases y los
principios que quedaron plasmados en su libro Diseo Experimental, publicado en 1935.
Cabe destacar que Fisher era Matemtico, dict clases de Gentica toda su vida y nunca
estuvo en ninguna Ctedra de Estadstica, pero ha sido el referente principal de la
Estadstica moderna.
Variable respuesta:
Constituye la variable aleatoria objeto del estudio, a la cual estn apuntando las hiptesis,
en el ejemplo 10.1, la cantidad (en l/m3) de petrleo, en el ejemplo 10.2, la concentracin
de Nitritos. Ntese que estamos observando que necesariamente la variable respuesta debe
ser cuantitativa.
Ejemplo 10.3. Se deseaba saber si la adicin de nitrgeno mejora el rendimiento del trigo.
Entonces el Factor es Nitrgeno y se establecen 3 niveles: Control, Concentracin de N1,
Concentracin de N2. En ese caso se presentan 3 tratamientos, siendo el control (cero
Nitrgeno) tambin un tratamiento. La variable respuesta es la produccin.
Unidad estadstica:
Es la unidad en la que se va a medir la variable respuesta. Sera un sinnimo de lo que en la
definicin de poblacin constituye un elemento. La unidad debe estar correctamente
elegida, pues el conjunto de unidades representan a una poblacin estadstica especfica.
Error estadstico
Arnaldo Mangeaud 85
Estadstica aplicada a las Ciencias Geolgicas
Reproduccin.
Si la aplicacin de un nivel del factor arrojara siempre una constante como respuesta, con
slo una unidad en cada nivel bastara. Pero como la respuesta posee variabilidad (error
experimental) es necesario repetir la experiencia en unidades independientes tantas veces
como las necesarias para que ese grupo de unidades represente la variabilidad de la
poblacin a inferir. Adems de esto, como se vio en el captulo 8, por la propiedad de la
consistencia, a medida que el n se incrementa se obtienen mejores estimaciones de los
parmetros.
Volviendo al ejemplo 10.1: Ser necesario repetir con cada tipo de extraccin n veces la
experiencia
Volviendo al ejemplo 10.2: Ser necesario tomar ms de una alcuota de agua, para
representar la variabilidad de la variable en cada una de las dos zonas muestreadas.
Aleatorizacin.
Recordemos que para conseguir una variable aleatoria, y poder gozar de las propiedades de
stas, se debe realizar un experimento aleatorio. Si las unidades son elegidas
subjetivamente no estaremos en presencia de una variable aleatoria.
Arnaldo Mangeaud 86
Estadstica aplicada a las Ciencias Geolgicas
En el ejemplo 10.2 el operador decide tomar 3 alcuotas de agua en cada uno de los 2 sitios.
La seleccin de los lugares debe necesariamente ser aleatoria.
Recordemos como se vio en los finales del captulo 8, cuanto mayor es la variabilidad entre
las unidades mayor es el n que represente esa variabilidad.
Control Local.
Definimos como Control Local a todos los procedimientos que realiza el investigador a los
fines de reducir la variabilidad no explicada o error experimental. Algunos autores lo
llaman precisin, pero para no confundir el trmino con las propiedades de los buenos
estimadores aqu ser llamado Control Local.
Obviamente el investigador siempre utilizar la prueba estadstica que le reporte mayor
potencia, as como el n ms grande posible y realizar, en la medida de lo posible, un
balanceo entre niveles (que los niveles del factor tengan igual n) a los fines de rechazar la
hiptesis nula
Controlar las variables. Implica realizar un control estadstico de las variables que pueden
afectar la investigacin y para esto hay dos formas:
Arnaldo Mangeaud 87
Estadstica aplicada a las Ciencias Geolgicas
Modelos Estadsticos
= .De ese modo, en cada una de las tres pruebas se tiene un error de tipo I (cuyo valor es )
y se concluye la prueba con un error de tipo I que casi triplica las expectativas iniciales.
Varianza (Anova o Anava) que con un solo anlisis...contrasta a k medias con un solo
valor fijo de probabilidad de error de tipo I.
Del mismo modo que en el Captulo 9 se explicaron los conceptos de las pruebas de
hiptesis con un ejemplo, en este captulo realizaremos el mismo procedimiento con la
explicacin del Anlisis de la Varianza.
Ejemplo 10.3. Un Gelogo que realiza estudios en volcanes extrae los valores de CO2 cada
1 hora en 4 chimeneas. Necesita saber si hay diferencias significativas en las emisiones de
estos 4 respiraderos. Los datos obtenidos fueron:
Vent 1 Vent 2 Vent 3 Vent 4
27 31 30 16
28 34 38 20
31 35 42 21
32 36 43 26
33 39 27
40 29
35
Arnaldo Mangeaud 88
Estadstica aplicada a las Ciencias Geolgicas
Ahora primero recordemos los tres principios del Diseo Estadstico. Se tomaron
repeticiones? Se tomaron o asignaron al azar las muestras?, Se realiz control local?
Asumamos que las tres respuestas son positivas, prosigamos con el anlisis que pondr a
prueba la hiptesis del investigador. En definitiva la hiptesis geolgica es que en alguna
chimenea se produce ms CO2. Eso se lo debe traducir a las bateras de hiptesis
estadstica, las que sern:
~ :
= 2 = = = U
Ntese que como hiptesis alternativa no se est pidiendo que sean todas diferentes de
todas, se pide que para rechazar la hiptesis nula, al menos una media poblacional sea
diferente a las otras.
Es cierto que las cuatro medias muestrales obtenidas son matemticamente diferentes, ellas
son: 30,2; 35,83; 38,25 y 24,86. Pero estas diferencias representarn diferencias entre las 4
poblaciones? o estas diferencias sern slo por azar y realmente slo hay una poblacin
estadstica con slo una media poblacional?
valor en particular. De cada grupo o nivel del factor, obtendremos una media: Xy para cada
denominaremos C .
uno de los cuatro grupos. Adems obtendremos la media general de todo el anlisis que
distancia entre cada media de nivel del factor con la media general: C C . Se la conoce
Una varianza del factor es la que es causada por el efector del factor, entonces es la
Nivel 1 Nivel 2
... Nivel k
1
2 2
...
2
=
... ...
3 ...
... ...
Arnaldo Mangeaud 89
Estadstica aplicada a las Ciencias Geolgicas
ni
1 21A ... 1
E . E
. E 2. E . E .
C C
C2 C C C
Tabla 10.2. Tabla General de la nomenclatura utilizada en el Anova a un factor.
%
&y yC)2 Bqgl h0 qlhVlh-.
B =
2
= = 4qlhVlh-. g0ho-.
n1 Vlh-. h0 om0Vjlh
La siguiente tabla mostrar ahora cmo se deben realizar los clculos para obtener esas tres
varianzas o cuadrados medios:
B4
variacin libertad
& . )2 & 3 )
2
E
Factor k-1
& . )2 B4y
E E 32
E
y
Error n-k
& 3 )2
E E 3 2
Total n-1
Tabla 10.3. Frmulas de Suma de cuadrados, grados de libertad y cuadrados medios para
cada fuente de variacin.
Debido a que las sumas de cuadrados del factor y del error son ortogonales (independientes
que no comparten informacin) se da que: SCF + SCE= SCT
Del mismo modo: GLF + GLE = GLT
Arnaldo Mangeaud 90
Estadstica aplicada a las Ciencias Geolgicas
a b
Figura 10.1. Tringulo de tres varianzas independientes en el Anova. a: Sentido en que se
estiman las diferencias entre variable y estimador. b: Ortogonalidad del tringulo entre las
tres sumas de cuadrados.
Como sabemos, si queremos saber si dos varianzas son iguales o difieren, podremos
construir el estadstico F.
F0= CMF/CME
De este modo si =
S A
A
Arnaldo Mangeaud 91
Estadstica aplicada a las Ciencias Geolgicas
Como F0> Ft entonces rechazamos la Hiptesis nula, es decir: al menos una es diferente a
las otras.
3 = + + 3
3 es la variable respuesta
Donde:
es la media poblacional
es el efecto de cada nivel del factor
3 es el error (variabilidad no explicada despus de ajustar el modelo)
Supuestos
3 ~ &0, ? 2 ) , es decir que los errores posean distribucin normal, sean independientes,
com media cero y homogeneidad de varianzas (una varianza comn y no una varianza para
cada nivel del factor).
Para que el modelo sea vlido y lo que se expres como conclusin de la tabla 10.4 sea
cierto, debemos corroborar el cumplimiento de los supuestos.
Para ello se presentan mtodos no formales y pruebas formales para hacerlo.
1) Normalidad.
El mtodo no formal para observar si los errores poseen distribucin normal es un grfico
de QQplot. Este es un grfico que contrasta los percentiles de una normal con la
Arnaldo Mangeaud 92
Estadstica aplicada a las Ciencias Geolgicas
distribucin de los errores del anlisis. Si los errores poseen distribucin normal seguirn
una recta de 45 grados.
a b
Figura 10.2. Grficos de QQplot para el ajuste de la normalidad de los errores.
En la figura 10.2a se observa que los errores siguen una distribucin normal, mientras que
en la Figura 10.2b se observa que se salen del patrn de una normal.
Por otra parte, como ya se ha visto en el Captulo 9, mediante una prueba de bondad de
ajuste (Shapiro Wilks) se podr contrastar la distribucin normal de los errores.
2) Homogeneidad de varianzas.
b
a
Figura 10.3. Grficos donde se observa la variabilidad de los residuos ante los diferentes
valores predichos. A. Ausencia de homogeneidad de varianzas, b: presencia de tal.
Diferentes mtodos formales se han propuesto para poner a prueba la homogeneidad de tres
o ms varianzas: la prueba de Levene, de Bartley, entre otras.
Arnaldo Mangeaud 93
Estadstica aplicada a las Ciencias Geolgicas
Ya hemos desarrollado la idea que el Anova utiliza las varianzas para comparar medias.
Tambin desarrollamos los supuestos estadsticos del modelo. El Anova, como lo vimos
anteriormente, concluye exclusivamente rechazando o no rechazando la hiptesis nula. Si el
modelo es vlido y no se rechaza la H0, el anlisis termina all. Pero como en el caso del
ejemplo 10.3, cuando el Anova dice que al menos una es diferente, la pregunta es cul. Para
ello se han creado un nmero extenso de pruebas que intentan dilucidar cules medias son
diferentes de cules.
Son llamadas tambin pruebas post hoc o pruebas a posteriori, se realizan despus que el
Anova ha rechazado la hiptesis nula, entre ellas por su simplicidad explicaremos la prueba
de Tukey.
Esta prueba busca una diferencia mnima significativa (DMS), que es una distancia a partir
de la cual dos medias son significativamente diferentes. Si la distancia entre medias no
llega a esa DMS se dice que las medias no son significativamente diferentes.
4/y
>/B = <;;
Donde Q es un valor de la tabla de rangos estudientizados de Tukey.
DMS= 3.997*
2=,
,
DMS= 8,412
Por lo tanto si dos medias estn alejadas en ms de 8,412 se las considera estadsticamente
diferentes. A partir de esto se observan si entre dos medias existen diferencias y se
construye la siguiente tabla:
Arnaldo Mangeaud 94
Estadstica aplicada a las Ciencias Geolgicas
Figura 10.4. Grfico de puntos de cuatro posibles diferencias entre cuatro medias. Figura la
media y el error estndar. Letras iguales muestran diferencias no significativas.
Corolario: Como se puede observar, las diferencias entre medias sern diferentes si el
CME es lo suficientemente pequeo para que se destaque la magnitud de la distancia (d)
entre medias. Lo que est mostrando el valor F es si la distancia entre las medias es mucho
ms grande que la distancia entre los datos de grupo de cada media. Por esa razn el
Control Local intenta disminuir el error, para hacer que si hay diferencias entre medias, el F
lo pueda encontrar. En definitiva y comparando el Anova a un factor con los casos 4 y 5 del
Captulo 9 en las tres pruebas se est mirando la misma tasa de distancias, mientras que la
prueba t de diferencia de medias realiza una tasa entre la distancia entre medias dividido el
desvo promedio entre ambos grupos, el Anova realiza una tasa entre la varianza entre
medias dividido la varianza interna dentro de los grupos.
Est probado que para el caso en que se realiza un anlisis de la varianza a un factor con
dos niveles, el resultado es exactamente el mismo que si se hiciera la prueba t de diferencia
de medias, pues t2=F.
Ejemplo 10.5. Modificaremos a los fines prcticos, el Ejemplo 10.2. del siguiente modo. A
los fines de realizar control local, el Gelogo que est estudiando los efectos de la planta
depuradora decide tomar muestras en las zonas, dividiendo a cada una en 4 partes: orilla
derecha, orilla izquierda, centro en la superficie y centro 1 metro bajo superficie.
Arnaldo Mangeaud 95
Estadstica aplicada a las Ciencias Geolgicas
Modelo estadstico
3 = + + 3 + 3
Supuestos
Hiptesis
~ :
= 2
Tabla de Anova
Donde:
Nivel 1 Nivel 2 ... Nivel k E .3.
Bloque 1
2
...
E .
Bloque 2
2 2
... ... E .2
Bloque 3
= ...
... ...
Bloque ni
1 21A ... 1 E .
E . E
. E 2. E . E .
C C
C2 C C C
Tabla 10.6Tabla General de la nomenclatura utilizada en el Anova a un factor con bloques.
Arnaldo Mangeaud 96
Estadstica aplicada a las Ciencias Geolgicas
B4 4/
variacin libertad medios
& . )2
E
4/y
Factor k-1 F(k-1; n-k; 1- )
& 3 )
2
& .3 )
2
E
Bloque ni - 1 ------
& 3 )
2
E E 3 2 B4y
y
Error (ni 1) * (k -1)
& . )
2
E
& .3 )2
E
& 3 )2
+
Total E E 3 2 n-1
& 3 )2
De igual modo al Anova a un factor, se deben probar si se cumplen los supuestos del
modelo. Una vez puestos a prueba si se rechazara la hiptesis nulase proceder, si es de
inters, a las pertinentes pruebas de comparaciones mltiples.
Para poner a prueba los supuestos se realizarn pruebas formales y se graficaran los errores
en QQplot o en un grfico de errores vs predichos. Adems de esto el supuesto de no
interaccin implica que no se comporta de una manera no lineal ningn nivel del factor en
ningn bloque. Dicho de otro modo, si hay un bloque propicio para la variable, lo ser en
cualquiera de los niveles del factor.
La figura 10.5 muestra cmo se observa una no interaccin y una interaccin factor bloque.
Arnaldo Mangeaud 97
Estadstica aplicada a las Ciencias Geolgicas
a
b
Figura 10.5. Grfico donde se observan los valores de la variable en los niveles del factor,
pero particionados por bloque. A. No se observa interaccin. B. Se observa interaccin.
Del mismo modo en que se plante la idea de que un factor afecta a la variable respuesta, se
puede pensar que dos factores la afectan y lo que es ms importante no slo la afectan por
separado sino que juntos podrn tener una accin sinrgica y presentar una interaccin
sobre sta.
3 = +
+ 23 + &
2 )3 + 3
3
Donde:
:es la media poblacional
23
:es el efecto de cada nivel del factor principal 1
&
2 )3 :es la interaccin de los efectos de los factores principales
:es el efecto de cada nivel del factor principal 2
Supuestos
3 ~ &0, ? 2 ) ,
Hiptesis
Se presentan tres bateras de hiptesis:
~ :
=
2 = =
~
= 0
: al menos una
es diferente a la otra
:
0
~ : 2
= 22 = = 22 ~ 23 = 0
: al menos una 23 es diferente a la otra
: 23 0
~ &
2 )3 = 0
&
2 )3 0
...
Arnaldo Mangeaud 98
Estadstica aplicada a las Ciencias Geolgicas
Ntese que las hiptesis referidas a los factores principales siguen siendo igualdades entre
medias, pero la hiptesis de la interaccin no busca esto mismo, ya que si los factores
principales poseen efectos significativos se podrn tener diferencias en las medias de las
celdas que constituyen la combinacin de niveles de ambos factores. Entonces lo que busca
la interaccin es saber si las diferencias que se observan entre medias de las celdas son slo
producto de un efecto aditivo entre los niveles del factor o se da es un patrn diferente. Es
lo que llamamos interaccin entre los factores.
C.3
Tabla de Anova, donde:
Nivel 11 Nivel 12 ... Nivel 1k1 E .3.
2 2
C.
Nivel 21
---------------
2
E 3.
...
C3. E .
C.2
Nivel 22
2 22 ... ... E .2
C.2
... ...
Nivel 2k2
21A ...
2 E .
E . E
. E 2. E . E E E 3
C C
. C2. C
. C
Tabla 10.8. Tabla General de la nomenclatura utilizada en el Anova a dos factores con
interaccin.
Arnaldo Mangeaud 99
Estadstica aplicada a las Ciencias Geolgicas
B41 4/1
Cuadrados medios F0 Ft
1 4/y
F(k1-1; gle; 1- )
B42 4/2
2 4/y
F(k2-2; gle; 1- )
B412 4/12
12 4/y
F((k1-1)(k2-1); gle; 1- )
B4y
y
Tabla 10.9. Frmulas de Suma de cuadrados, grados de libertad y cuadrados medios para
cada fuente de variacin.
En la tablas 10.9 la lectura de los valores F debe hacerse desde abajo hacia arriba:
La ausencia de interaccin permite mirar libremente los efectos de los factores principales.
Si se presenta interaccin deberemos mirar cuidadosamente a los efectos principales pues la
interaccin los puede enmascarar y tergiversar los resultados.
Si un factor principal no arroja diferencias significativas no tiene razn de ser el aplicar una
prueba de comparaciones mltiples para ese factor. Pero si al menos una de las tres
hiptesis ha sido rechazada es importante realizar una prueba para la combinacin de los
factores.
Ejemplo 10.6. Un Gelogo observa en un rea cuatro tipos de suelos diferentes y desea
conocer si es diferente la percolacin de agua de stos. Para ello traslada a laboratorio
porciones de los cuatro tipos de suelos (Factor 1: Suelo, con 4 niveles).
Por otra parte en condiciones controladas de laboratorio simula 3 caudales de lluvias
diferentes (Factor 2: Lluvias, con 3 niveles). Para terminar mide el porcentaje del volumen
de agua que percola a travs de cierta profundidad en un lapso determinado de tiempo.
3 = +
+ 23 + &
2 )3 + 3
3
Donde:
:es la media poblacional
23
:es el efecto de cada nivel del factor principal 1: suelo
&
2 )3 :es la interaccin de los efectos de los factores suelo y caudal
:es el efecto de cada nivel del factor principal 2: caudal de lluvia
Supuestos
3 ~ &0, ? 2 ) ,
~
= 0 , es decir que no existe efecto suelo
:
0
~ 23 = 0 , es decir que no existe efecto caudal
: 23 0
~ &
2 )3 = 0 , es decir no hay interaccin suelo caudal
&
2 )3 0
De este modo:
Fte. de Var SC GL CM Fo Ft Valor p
Suelo 1453,67 3 484,56 141,82 3,49 < 0,001
Caudal 1300,08 2 650,04 190,26 3,88 < 0,001
Interaccin 222,58 6 37,10 10,86 2,99 < 0,001
Error 41,00 12 3,42
Total 3017,33 23
Tabla 10.11. Resultados del anlisis de la varianza del ejemplo 10.6.
Ya sea comparando a los valores de Fo con los Ft o por la comparacin del valor p con alfa,
en los tres casos rechazamos las tres hiptesis nulas, entonces observaremos con una prueba
de Tukey:
Suelo Medias
B 71,17 A
D 78,00 B
A 79,50 B
C 92,67 C
Tabla 10.12. Valores de medias y prueba de Tukey del factor Suelo en el ejemplo 10.6.
Caudal Medias
Poco 71,30 A
Medio 79,75 B
Mucho 89,63 C
Tabla 10.13. Valores de medias y prueba de Tukey del factor Caudal en el ejemplo 10.6.
A partir del anlisis de estas tres ltimas tablas se pueden sacar diversas conclusiones tanto
para cada factor en particular como en la interaccin de stos.
Otros modelos
Si los diseos han permitido tener en cuenta otros factores y el investigador posee hiptesis
para los mismos, entonces es posible seguir incorporando factores al modelo, de tal forma
que se podrn realizar anovas a tres o ms factores, con la incorporacin de dos o ms
bloques y otras variables independientes cuantitativas denominadas covariables.
Captulo 11.
Correlacin y Regresin
Correlacin lineal
H^A^A I^A ^A
]7 7A = V7 7A =
H^ H^A I^ I^A
]7 7A : Coef. de correlacin lineal poblacional V7 7A : Coef. de correlacin lineal muestral
Donde: Donde:
Tambin recordemos que se aplica la correlacin lineal cuando se desea saber si dos
variables estn asociadas linealmente.
~ ]7 7A = 0
Hiptesis:
]7 7A 0
Estimador: V77A
Estadstico: j~ = , siendo B2 =
A
1 2
IA
= ~
Confianza: 1-
Regla de decisin:
Si j1
; /2 < j~ < j1
;
/2 , entonces no se rechaza ~
Si & < j~ < j1
; /2 , t1
;
/2 < j~ < , entonces se rechaza ~
b
Figura 11.1a: Distribucin de r si es cierta la hiptesis nula de la prueba de hiptesis para
rho. b: Distribucin t de la misma.
Esta prueba posee como supuestos que cada una de las dos variables (x1 y x2) posean
distribucin Normal y que entre x1 y x2 posean homogeneidad de varianzas. En el caso que
algunos de estos dos supuestos no se cumplieran, el investigador tiene dos opciones:
Spearman, que se lo conoce como ] , que no posee estos supuestos y tambin posee un
transformar una o las dos variables o aplicar el coeficiente de correlacin lineal de
Regresin lineal
Vamos a llamar Regresin lineal a aquel mtodo estadstico que propone un modelo
matemtico lineal y que observa la dependencia de una variable Y con respecto a otra
En cualquiera de los dos casos anteriores se puede hacer el ajuste estadstico. La lgica del
campo de aplicacin es la que impone si es factible que una variable dependa o no de otra
ya que las regresiones no prueban causalidad.
Ejemplo 11.2. Un Gelogo desea predecir el caudal mximo de los ros de una regin de
glaciares, en funcin la superficie de la cuenca de drenaje. Por lo tanto el investigador
decide que la variable independiente o regresora ser superficie de la cuenca y la
dependiente ser caudal. Los datos son:
x 128 140 161 186 199 216 231 244 250
y 33 41 42 49 60 59 75 76 81
Tabla 11.1. Valores de x e y del ejemplo 11.2.
Figura 11.2. Relacin lineal entre una variable X (independiente) y una variable Y
(dependiente).
Ahora pensemos en que el modelo ms sencillo para ajustar a esta nube de puntos es la
ecuacin de la recta, la cual vamos a definir con el Modelo estadstico:
= ~ +
+
Donde:
Supuestos
Decamos que podramos ajustar una recta a la nube de puntos establecida en la Figura
11.2, pero como se puede ver podran presentarse infinitas rectas. Debemos ajustar una
recta nica, la mejor recta con algn criterio. Por esa razn el mtodo ms utilizado de
ajuste se denomina mtodo de los mnimos cuadrados.
Este mtodo se define como aquel que consigue slo una recta que tenga como condicin
que la sumatoria de los errores al cuadrado sea un mnimo, y del mismo modo se consigue
que la sumatoria de los errores sea cero:
0 2 = gog-y 0 =0
Se pueden resolver en una demostracin donde se destaca que si es el valor estimado por
E& &m~ + m
))2 = g
m~ = C m
B72
m
=
B72
De este modo vamos a obtener una nica recta que graficada ser:
Donde la suma de los errores ser cero y la suma de los cuadrados de los mismos ser un
mnimo (Figura 11.4).
Figura 11.4. Ajuste de una funcin lineal entre X e Y, donde se expresan los errores para
cada valor de y.
b0= -16,39
b1= 0,3781
Hiptesis:
~ :
= 0
:
0
Estimador: b1
1 IA ( )A
Estadstico: j~ = , siendo B 2 = y B2 =
7 17 A
A 1 2
I A
Confianza: 1-
n:
Regla de decisin:
Si j99 < j~ < j99 , entonces no se rechaza ~
Si ( < j~ < j99 ] , [t99 < j~ < , entonces se rechaza ~
En todas las regresiones es necesario poner a prueba la pendiente, pero slo cuando los objetivos lo
requieren se puede poner a prueba tambin la ordenada al origen:
Hiptesis:
~ : ~ = 0
: ~ 0
Estimador: b0
0
7 A
Estadstico: j~ = , siendo B 2 = + B2
1 7 A 17 A
I A
Confianza: 1-
n:
Regla de decisin:
Si j99 < j~ < j99 , entonces no se rechaza ~
Si ( < j~ < j99 ] , [t99 < j~ < , entonces se rechaza ~
b0= -16,39, t0= 11,68; tt= -2,36; 2,36. Por lo tanto se rechaza H0 y ~ 0
b1= 0,3781 t0= -2,53; tt = -2,36; 2,36. Por lo tanto se rechaza H0 y
0
Una vez que se ha probado que existe pendiente, es decir que la x explica a la y, podemos
inferir los valores esperados de y para ciertos valores de x. Es imprescindible notar que
slo los podemos hacer en el rango de valores que se utiliz la x. En el modelo del ejemplo
entre 128 y 250. Para valores de caudales menores a 128 o mayores a 250 no se puede
predecir ya que no sabemos si la dependencia entre las variables sigue siendo lineal y con
ese mismo modelo.
La funcin ha quedado:
Caudal= -16,39+ 0,3781 superficie. De ese modo entre los valores mnimos y mximos de
superficie (entre 128 km2 y 250 km2) podremos inferir el caudal. Qu caudal traer un ro
de una cuenca de 200 km2)?
Vale recordar que la ordenada al origen nos estara diciendo que un ro con una superficie
de 0 km2 arrastrara un caudal de -16 m3, lo cual es cierto slo a los fines del modelo
estadstico y no tiene ninguna interpretacin ni lgica ni geolgica.
Hasta el momento hemos explicado el modelo, las pruebas de hiptesis del mismo, pero no
hablamos sobre cunto est siendo explicado por el modelo, para ello veremos tres grficos:
a b
c d
Figuras 11.5 Representacin del valor relativo del error con respecto a la distancia de cada
punto a la media de y. Desde a hasta c se representa la misma pendiente, pero con
incremento del error. En d se representa una pendiente cero, donde x no explica a y.
En las Figuras 11.5 vemos que desde 11.5a hacia 11.5c se va reduciendo el error, es decir la
variabilidad no explicada. El error de slo un punto es comparado con la distancia desde
ese punto a la media de y.
Coeficiente de Determinacin
Cuando el error es muy pequeo (la distancia entre los puntos y la recta), el R2 se va acercando al
valor uno, mientras que si el error es muy grande, el valor de R2 se va acercando a cero.
116,75
62 = 1 = 0,9512
2394,0
El modelo ser vlido slo para el caso en que se cumplan los supuestos.
Se deber poner a prueba el supuesto de normalidad y se podr realizar un QQplot para
realizar una verificacin visual.
No existe una prueba de homogeneidad de varianzas, por lo que se debe recurrir
exclusivamente al grfico de errores vs predichos. En l se deben observar:
- Por un lado corroborar que las varianzas al comienzo, al centro y al final de la lnea
de prediccin resulten similares.
- Por otro lado se debe observar que no exista ningn tipo de patrn. A modo de
ejemplo se presentan las Figuras 11.6.
a b
c d
Figuras 11.6. Grficos de predichos vs errores. a: No se observa ningn patrn. b: se
observa que a medida que aumenta el valor predicho, se incrementa la varianza. c: se
observan valores centrales con mucha varianza y los extremos con poca varianza. d: se
observa un patrn que implica que el modelo no es adecuado, ya que los valores centrales
son todos mayor al predicho, mientas que los extremos son siempre menores.
Como una ampliacin del modelo de regresin lineal simple se pueden ir incorporando
variables independientes que expliquen a la dependiente, tal que:
= ~ +
+ 2 2 + = = + O O +
Donde:
Supuestos
Al ajustar el modelo, se van a encontrar una pendiente para cada variable independiente y
se realizar una prueba de hiptesis para corroborar que sea significativa su influencia en y.
Ejemplo 11.4. Se quiere predecir el nivel de agua que tuvo cierta laguna en los ltimos 500
aos. Para ello se dispone como variable dependiente el nivel de agua y como
independientes: x1: istopos de Carbono y x2: Concentracin de slidos disueltos en los
sedimentos.
Modelos no lineales.
Ejemplo 11.5. A los fines de una datacin se estudia la relacin entre el C14 y el tiempo
transcurrido la que posee un ajuste no lineal, se transforma a logaritmo a una de las dos
variables para linealizar la funcin.
= m~ m
se linealiza mediante: log = log m~ + log m
z
Ejemplo 11.6. El modelo:
b) Modelos no linealizables
Se trata de modelo que necesitan otros mtodos de estimacin, como por ejemplo
algoritmos iterativos, que son computacionalmente complejos.
Se puede dar como ejemplo el modelo logstico, donde
y=
&)
, siendo alfa, beta y gamma, tres parmetros de la ecuacin
1 O
p: es el nmero de parmetros dentro del modelo.
En modelos no lineales para la eleccin del modelo se presentan otros criterios como el
criterio de Akaike o el criterio de Schwartz (BIC) en los que tambin la idea es cuantificar
la variabilidad que queda sin explicar mediante los grados de libertad consumidos por el
modelo.
Captulo 12.
Introduccin a la Geoestadstica
Introduccin.
Autocorrelacin
( @ ) ( @ )
H^A^
?72 7 =
]7 7 =
H^ H^
Donde: Donde:
Semivarianza
%
(x
x
)
2
2N&)
=
Donde:
: Es la semivarianza
NO&) : Nmero de pares a la distancia h
Figura 12.1. Semivariograma del Ejemplo 12.1. Se observan Co: efecto pepita, CT: meseta
y a: alcance.
Modelando el semivariograma
Modelo esfrico
=
= 4~ + 4 1,5 0,5
l l
a = alcance
C0 = efecto pepita
C= diferencia entre efecto pepita y meseta. CT= Co + C
h= paso (lag)
Modelo exponencial
= 4~ + 4 &1 0 ),
para el caso en que h a
A
= C~ + C &1 e ),
O bien:
A
= C~ + C (1 e ),
= 3 Ln (h)
Otros modelos:
Tambin se han desarrollado el Modelo lineal, el Modelo logartmico, el Modelo con efecto
de agujero, el Modelo transitivo, entre otros.
En el ejemplo 12.1 aplicamos la idea de una correlacin en una lnea recta, pero en la
realidad, un gelogo deber trabajar con datos espaciales, 2D o 3D. La figura 13.3 presenta
la informacin recabada en un muestreo donde se debe realizar un semivariograma entre los
puntos cercanos tanto en latitud como en longitud. Es obvio que en canteras o minas
adems se debe trabajar en 3 dimensiones por lo que las correlaciones se debern calcular
tanto en latitud como en longitud y en profundidad.
0m 44 40 42 40 39 37 36
100 m 42 43 42 39 39 41 40 38
200 m 37 37 37 35 38 37 37 33 34
300 m 35 38 35 37 36 36 35
400 m 36 35 36 35 34 33 32 29 28
500 m 38 37 35 30 29 30 32
0m 100 m 200 m 300 m 400 m 500 m 600 m 700 m 800 m
Figura 12.3. Diagrama de los valores de ley de un muestreo en forma de grilla. Cada punto
se encuentra a 100 metros del vecino ms cercano
Inferencia
a b
Figura 12.4. Ejemplo de puntos de muestreo y la necesidad de inferir sobre una incgnita.
Kriging.
Ese error se va a calcular pesando la suma de los errores de todos los datos vecinos de
modo tal que si un dato est ms lejos influye menos en el error de x* que si est ms cerca.
Ese peso lo imprime en la funcin un trmino llamado lambda () que deriva de la funcin
del semivariograma.
= E &x )
La solucin para obtener el valor de de cada punto para estimar a x* es muy compleja. A
partir de la premisa que se obtiene un x* que cumple con la propiedad de ser un valor tal
que minimice la varianza del error de prediccin se plantean ecuaciones lineales que
optimizan ese valor.
Existen diversas variaciones del mtodo de Kriging. Mientras que el Kriging ordinario
exige que los estimadores sean insesgados, el Kriging simple relaja esa condicin y el
Kriging por bloques requiere que un Gelogo conocedor de la zona defina bloque con
diferentes caractersticas geolgicas dentro de la regin.
Figura 12.5. Estimaciones de ley de dos minerales diferentes mediante el mtodo de Kriging. En los
tres ejes se representa latitud, longitud y concentracin.
Del mismo modo en que estudiamos en el Captulo 8 a los estimadores puntuales y sus
intervalos de confianza, aqu el mtodo de Kriging tambin otorgar intervalos para cada
punto estimado. Por ejemplo el punto estimado de la Figura 12.4.b. se modela con un
semivariograma de funcin esfrica, el Kriging arroja un valor de 31 4 g/Tn, lo que
significa que la ley de ese mineral estimada es 31 g/Tn, pero si se desea ser conservador el
valor ser 27 g/Tn y para una estimacin liberal se pensar en 35 g/Tn.