Professional Documents
Culture Documents
Origen de la Geoestadstica Geoestadstica: definicin y objeto Datos geogrficos y anlisis estadstico Conceptos bsicos de Estadstica Tcnicas bsicas de Estadstica para el Anlisis Exploratorio de Datos
Origen de la Geoestadstica Geoestadstica (i) La Geoestadstica tiene su origen en la bsqueda, exploracin y evaluacin de yacimientos minerales tiles. Se ha consolidado y desarrollado en los ltimos 30 aos como ciencia aplicada casi exclusivamente en el campo minero. La gran diversidad de formas en que se presentan los datos ha llevado a la utilizacin de tcnicas matemticas y estadsticas para resolver un nico problema: estimar
valores desconocidos a partir de los conocidos, para la ti l estimacin y caracterizacin de l recursos y i t i i d los reservas.
Origen de la Geoestadstica Geoestadstica (ii) Las investigaciones han buscado los mtodos ms eficientes que proporcionen la mayor informacin posible de los datos di d l d disponibles. ibl Mediante el mejor estimador que minimice la varianza del error de estimacin (error cuadrtico medio) surge la Geoestadstica por los trabajos de G. Matheron en la Escuela Superior de Minas de Pars (1949) Entre los mtodos ms recientes se pueden citar los geomatemticos: El Inverso de la Distancia, g p Triangulacin, Splines, etc.
Origen de la Geoestadstica Geoestadstica (antecedentes) Sichel (1947), 1949) observ la naturaleza asimtrica de (1947) la distribucin del contenido de oro en las minas surafricanas, la equipar a una distribucin de f , q p probabilidad lognormal y desarroll las frmulas bsicas para esta distribucin. D.G. Krige (1951) desarroll la aplicacin del anlisis de g m q m regresin entre muestras y bloques de mena (Mineral
metalfero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).
De la minera, las tcnicas geoestadsticas, se han , g , exportado a ms campos como la hidrologa, fsica del suelo, ciencias de la tierra y ms recientemente a la gestin ambiental y al procesado d i i bi l l d de imgenes d satlite. de li
La geoestadstica es una rama de la estadstica que trata fenmenos espaciales (J f i l (Journel & H ijb l Huijbregts, 1978) t 1978). Su inters primordial es la estimacin, prediccin y estimacin simulacin de dichos fenmenos (Myers, 1987). Se reconoce como una rama de la estadstica tradicional, que parte de la observacin de que la variabilidad o continuidad espacial d l variables di ib id en el i id d i l de las i bl distribuidas l espacio tienen una estructura particular que se estudia mediante las depencias entre ellas ellas.
Geoestadstica : Definicin Objeto D fi i i y Obj t (ii) > Matheron (1970) denomin a estas variables dependientes entre si, variables regionalizadas, adems p de elaborar su teora. [Journel y Huijbregts (1978), David (1977) y de Fouquet (1996)]. En resumen, la aplicacin de la teora de los procesos estocsticos a los problemas de evaluacin de reservas de distintos tipos de materias primas minerales y en general a las ciencias naturales en el anlisis de datos distribuidos espacial y temporalmente dio origen a lo que hoy se conoce como Geoestadstica.
Los SIG actuales incluyen posibilidades de exploracin y p p y anlisis de datos. Las i L tcnicas ms elementales son de E d i l l d Estadstica descriptiva (Anlisis Exploratorio de Datos, EDA). La Estadstica Descriptiva: para una, dos y hasta 3 variables, permite resumir conjuntos d valores y i bl i i j de l visualizar estructuras de distribuciones de probabilidad.
Caractersticas de los datos geogrficos: en un punto, adems de sus coordenadas, se di t d d d d dispone d de informacin multivariante (altitud, precipitacin, profundidad del suelo tipo de vegetacin ) suelo, vegetacin,) El denominado Anlisis exploratorio espacial de datos (ESDA), es una ampliacin y desarrollo del EDA. El ESDA incluye, junto a tcnicas exploratorias, muchas ideas tomadas del Anlisis espacial o Estadstica espacial.
Existen algunas dificultades fundamentales para que las tcnicas estadsticas convencionales manejen correctamente datos geogrficos: El empleo de las Tcnicas clsicas de Inferencia Estadstica, suponen, en los datos de partida : > la independencia d l observaciones l d d de las b > la distribucin en curva de Gauss (distribucin Normal) lo cual a menudo no se cumple en datos geogrficos. p g g f
Conceptos bsicos de Estadstica p Revisin de Tcnicas estadsticas Muestreo y anlisis Exploratorio d datos M t li i E l t i de d t Conceptos de Inferencia Estadstica paramtrica: Una variable: Estimador, propiedades, intervalos de confianza y tests de hiptesis. Dos ms variables: modelos lineales (regresin, Anlisis de la varianza) Conceptos de procesos estocsticos (variables dependientes, medidas de dependencia espacial)
Conceptos bsicos de Estadstica p Muestreo y anlisis Exploratorio de datos Poblacin (Universo) y Muestra. Muestreo (Obtencin de datos) Variables y tipos Antes de comenzar un estudio geoestadstico se deben discutir todos los elementos que aporten conocimientos del problema a resolver, fenmeno en estudio, estud o, organizacin y verificacin de la informacin disponible y finalmente realizar el anlisis exploratorio de los datos.
Poblacin estadstica o universo es el conjunto de referencia sobre el cual van a recaer las observaciones. Muestra: es el subconjunto de la poblacin en el que se mide una o ms variables de inters inters. -a partir de este subconjunto se obtienen conclusiones sobre las caractersticas de la poblacin. p - la muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben servir para el total de la poblacin. bl i Unidad muestral: elementos de la poblacin, no solapados en los que
se mide. Cada elemento de la poblacin pertenecer a una y slo una unidad muestral.
Estadstica bsica Tipos de muestras Muestra probabilstica: se elige mediante ciertas reglas, reglas de manera que la probabilidad de seleccin de cada unidad es conocida de antemano. Muestra no probabilstica: no se rige por las reglas matemticas de la probabilidad. en las muestras probabilsticas es posible calcular la magnitud del error muestral muestral, no es factible hacerlo en el caso de las muestras no p probabilsticas (puntos de fcil acceso, estaciones de p medicin de la calidad del aire en una ciudad)
Estadstica bsica Mtodos de muestreo Muestreo aleatorio simple: todos los componentes o unidades de la poblacin tienen la misma probabilidad p m m p de ser seleccionados. Es la modalidad ms elemental de m.
probabilistico.
Estadstica bsica Mtodos de muestreo Muestreo estratificado (i): -la poblacin en estudio se sub- di id en estratos o l bl i t di b divide t t subpoblaciones que tienen cierta homogeneidad en el terreno y en cada estrato se realiza un muestreo aleatorio simple (o sistemtico). -requisito principal para aplicar este mtodo de requisito muestreo: conocimiento previo de informacin que permita subdividir la poblacin,
Por ejemplo: divisin que se puede realizar con base en la topografa, los horizontes del suelo, la mancha del contaminante los cambios de color en suelo contaminante, el suelo, el crecimiento irregular de las plantas, etc.
Estadstica bsica Mtodos de muestreo Muestreo estratificado (ii): - garantiza que l puntos d muestreo se encuentren ti los t de t t repartidos ms uniformemente en toda la zona en funcin del tamao del estrato; - permite conocer de forma independiente las caractersticas particulares d cada estrato t ti ti l de d t t
-recomendable para reas mayores de diez hectreas y cuando el recomendable terreno no es homogneo (Mason 1992, Valencia y Hernndez 2002).
> Conjunto de unidades muestrales elementales. > Heterogeneidad de la variable a medir > El nmero total de conglomerados en la poblacin es conocido
Ventajas: Ahorro de costes y tiempo al efectuar visitas a las unidades seleccionadas. Disminucin de necesidad de desplazamientos al concentrar unidades elementales elementales. Inconvenientes: Menor precisin en l estimaciones, sobre t d con M i i las ti i b todo conglomerados de gran tamao
Estadstica bsica Variables y Tipos de variables Variable: cada una de las caractersticas de los elementos de una poblacin y que varan de una unidad a otra. Variables cualitativas (o categricas): aquellas que no tienen medida numrica; se representan por categoras p p o atributos (tipo de suelo, de vegetacin, textura,). Variables cuantitativas: las que pueden expresarse numricamente (temperatura, precipitacin, p profundidad suelo, altitud, pendiente, .) p
Estadstica bsica Variables cuantitativas Variables discretas: son el resultado de contar y slo toman valores enteros (nmero de puntos, de cuadrculas, de pxeles). Variables continuas: son el resultado de medir, y pueden contener decimales (temperatura (temperatura, profundidad, altura). Se pueden subdividir a voluntad. Pueden tomar entonces, cualquier valor de un tomar, entonces determinado intervalo
Estadstica bsica Estadstica Descriptiva Objetivo: conocer la informacin disponible. Clculos Cl l estadsticos o estadstica descriptiva. d i d i d i i Permiten determinar si la distribucin de los datos es normal, lognormal, normal lognormal o si no se ajustan a una distribucin estadstica conocida. Implica tener conocimiento de: Nmero de casos: representado por n, es el nmero de valores muestreados del fenmeno en estudio, estudio los datos representados por xi i = 1 . . . , n xi, 1, n. Frecuencia de cada xi n de veces que aparece el mismo valor medido.
Estadstica bsica Distribuciones de frecuencias Los valores de cada xi medidos y su frecuencia de aparicin en los n datos se conoce como la p m distribucin de la variable estudiada. Valores resumen: Medidas de posicin Media: Es la media aritmtica de la distribucin,
1 n x n = n xi i =1
Estadstica bsica Valores resumen: Medidas de posicin Moda: Es el valor ms frecuente de la distribucin Mediana: Es el valor para el cual la mitad de los datos d t son menores y la otra mitad estn por encima de l t it d t i d este valor. La mediana es tambin llamada percentil 50
Ordenando los datos en orden ascendente podemos calcular la mediana como. di X(n+1)/2 si n es impar. M = (Xn/2 + Xn/2+1)/2 si n es par.
Estadstica bsica Valores resumen: Medidas de posicin V l M did d i i Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y Q3 = percentil 75. Deciles si los datos se dividen en 10. De forma general estas medidas se pueden calcular por: [p(n+1)/100] sima observacin de los datos ordenados ascendentemente, donde p es el percentil , p que se desea calcular.
xmax=9,9
10
2 n 1
1 n = n 1 i=1 =1
(xi x n )
Se divide por (n-1) y no por n y se representa por S2 cuando se calcula con una muestra observada porque proporciona mejor estimacin de la varianza de la poblacin. (estimacin i i i d l i d l bl i ( i i insesgada) d ) Esto significa que si un experimento fuera repetido muchas veces se podra esperar que el promedio de los valores as obtenidos para S2 (valor muestral) igualara a 2.
Estadstica bsica Valores resumen Desviacin estndar: Tambin describe dispersin de la distribucin Es la raz de la medida de distribucin. desviacin alrededor de la media, 2 1 n
En las mismas unidades de medida que la variable estudiada.
Estadstica bsica Valores resumen Error estndar: que se comete al estimar la media de la variable medida con los n observaciones de la n muestra. A mayor tamao muestral menor error,
2 1 n
Coeficiente de variacin: Es una medida de la variacin relativa de los datos en porcentaje porcentaje,
n 1 CV % = 100 Xn
Coeficiente de asimetra (de Fisher): Describe l simetra d l di t ib i relativa a l D ib la i t de la distribucin l ti la distribucin normal.
1 n 3 3 = (xi Xn ) 3 n i=1
3 = 0
3 < 0
3 > 0
Asimetra A i t negativa = mayor concentracin de valores a la ti t i d l l izquierda de la media. Asimetra positiva = mayor concentracin de valores a la derecha de la media.
Estadstica bsica Valores resumen: De forma Curtosis (o apuntamiento): Describe el grado de esbeltez de la distribucin, en relacin a una , distribucin normal, 1 n 4 4 = (x i X n ) 4 n i=1
Eje de simetra
> 3
= 3
< 3
Dimetro
Grfico de dispersin
(scatterplot X-Y) X Y)
20 15 10 5 0 0 2 4 6 8
Copa 1
Exploracin de datos p
Grficos estadsticos Grficos descriptivos para una variable (i)
Histogram
12
fre equency
Histogramas
10 8 6 4 2 0 0 2 4 6 8
Copa 1
Grficos de cuantiles:
Percentiles for Copa 1 1,0% = 1,2 5,0% = 1,4 10,0% = 1,6 25,0% = 2,4 50,0% 50 0% = 3,2 3 2 75,0% = 4,3 90,0% = 5,1
proportion n
Quantile Plot
1 0,8 0,6 0,4 0,2 0 0 2 4 6 8
Copa 1
Exploracin de datos p
Grficos estadsticos Grficos descriptivos para una variable (ii) Grfico de cuantiles para verificar el ajuste de los datos a la distribucin Normal: (Q-Q Normal)
Eje Ej vertical: valores de l funcin de di t ib in d l N m l ti l: l d la f n in d distribucin de la Normal. Recta: grfico de los valores de la variable con los valores de probabilidad acumulada de ocurrencia segn la distribucin Normal.
Normal P b bilit Pl t N l Probability Plot
La proximidad de los valores observados a la recta indica que q los datos se pueden considerar con distribucin Normal
99,9 99 95 80 50 20 5 1 0,1 0 2 4 6 8
percenta age
Copa 1
Exploracin de datos p
Grficos estadsticos Grficos descriptivos para una variable (iii) Grficos de cajas (box plot) (box-plot)
Box-and-Whisker Plot
Media
2 2 cuartil 50%
(mediana)
Anmalo (outlier)
mn
Copa 1
Mx.
3er cuartil 75%
Exploracin de datos p
Grficos estadsticos Comparacin grfica de la variable silt (sedimento) en los distintos puntos de muestreo (1 a 4):
Box-and-Whisker Plot
1
Locatio on
2 3 4 15 25 35 45 55
Silt
Transformaciones T f i
Para modelos de interpolacin del tipo regresin, las hiptesis requieren, entre otras condiciones: p q , Normalidad de los datos Homogeneidad en la varianza Si en el anlisis exploratorio no se observa simetra en el histograma y con un contraste de bondad de ajuste (p (prueba chi-cuadrado o Kolmogorov-Smirnov) se confirma g ) la falta de normalidad, se tendr que recurrir a algn tipo de transformacin normalizante de los datos.
X 1 0 T(X ) = Y = ln X =0
=2, Y=X2 =1/2 Y=X1/2 1/2, Y X Se busca que la variable transformada se parezca a una distribucin normal
YX
( )
~ N ( , )
2
Ejemplo: X ~ Exp(3)
Rango: [0, 10] pasos de 0.05. j La mejor fue = 3.05
Exponencial( 3 ) QQPlot normalizado. Desv. Tipica = 0.364
1.5
Tran. Box-Cox con SD min. QQPlot norm. (lambda = 3.05 , Desv. Tip. = 0.221 )
1.5 Y
1.0
0.5
0.0
-2
-1
0.0
0.5
1.0
-2
-1
Exponencial( 3 ) Histograma
40 1.0 log(SD) 0.0 0.5 X 1.0 1.5 0.3 0.5 0 0.7
10
20
3 30
4 Lambda
10
1.0
0.8
0.6
0.4
Y -2 -1 0 1 2
0.2 2
0.0
0.0
0.2 2
0.4
0.6
0.8
1.0
-2
-1
25
10
log(SD)
0.2
0.4 X
0.6
0.8
1.0
10^-2 -10
10^1
10^3
15
10 0^5
2 20
10^7
-5
0 Lambda
10
Ejemplo: X ~ U(0.01, 1) j p ( , )
Rango: [-10, 10] pasos de 0.5. La L mejor f > 10 j fue >=
Uniforme( 0.01 , 1 ) QQPlot normalizado. Desv. Tipica = 0.286
1.0 0 0.8
Tran. Box-Cox con SD min. QQPlot norm. (lambda = 10 , Desv. Tip. = 0.0222 )
0.8 Y 1.0 0
0.6
0.4
0.2
0.0
-2
-1
0.0
0.2
0.4
0.6
-2
-1
-10
-5
0 Lambda
10