You are on page 1of 21

Formacin SIG

Clasificacin de datos
Estadstica y representacin cartogrfica: clasificacin de datos cuantitativos

Florent DEMORAES Marc SOURIS


Tomado de Estelle Ployon (Universidad de Saboya - Francia) Traduccin Tania Serrano Florent Demoraes

Organizacin de la presentacin

La clasificacin de datos : definicin La clasificacin de datos : las reglas bsicas Los grandes tipos de distribucin Algunos mtodos de clasificacin

La clasificacin de datos
Definiciones
Se denomina clasificacin a la divisin en clases (o en grupo de valores) de una serie estadstica para su representacin grfica o cartogrfica. La clasificacin debe conservar lo mejor posible la informacin contenida en la serie estadstica, con el objetivo de transmitirla, comunicarla de la mejor manera posible. Esta informacin tiene relacin con la forma de la distribucin de los datos. La eleccin de un mtodo de clasificacin y del nmero de clases est sujeta a diferentes limitaciones. Limitaciones tcnicas: Relacionadas con el mtodo de clasificacin (algunas imponen un nmero par o impar de clases) Limitaciones visuales : Relacionadas con la eleccin de un nmero ptimo de gamas de colores para que el ojo los pueda distinguir.

La clasificacin de datos
Reglas bsicas : Las clases deben cubrir la totalidad de valores de la distribucin y deben ser contiguas. Un valor debe pertenecer a una sola clase. Las clases no pueden estar vacas Los valores lmites de clase deben ser precisos y rpidamente comprensibles. No colocar en dos clases distintas valores que no son significativamente diferentes. No definir los lmites de las clases con un valor que contenga un nmero de decimales superior a aquel de la precisin de los datos.

Antes de toda clasificacin


Conocer perfectamente el objetivo de la clasificacin (representacin grfica cartogrfica? Con el fin de realizar una comparacin?). Conocer perfectamente las caractersticas de la variable a clasificar. De qu distribucin se trata?

Esto puede ayudar a definir los lmites de las clases que traducirn, de la mejor manera, las caractersticas de la variable.

Los grandes tipos de distribucin

1 Las distribuciones normales


Se caracterizan por concentrar un gran nmero de valores en las clases centrales. Este nmero disminuye progresivamente de cada ladode la media.

2 Las distribuciones asimtricas


Revelan una concentracin de frecuencias, ms o menos acentuada, en los valores bajos o altos, segn el caso.

3 Las distribuciones exponenciales y logartmicas


Revelan un aumento o disminucin exponencial de frecuencias (representacin muy alta de valores altos o bajos).

4 Las distribuciones bimodales o plurimodales


Corresponden a distribuciones donde la variable est compuesta en realidad de subpoblaciones ms o menos imbricadas. En este caso, la mayor parte de los parmetros estadsticos no tienen significado ni utilidad; nicamente los grficos permiten un correcto anlisis.

5 Las distribuciones en forma de U


Se caracterizan por el hecho de que los valores cercanos a la media son subrepresentados en relacin con los valores bajos o altos. Distribuciones poco comunes.

6 Las distribuciones uniformes


Se caracterizan por el hecho de que todos los valores posibles de la variable tienen frecuencias iguales. Distribuciones poco omunes.

Los mtodos de clasificacin

1 Clasificacin segn los umbrales naturales (natural breaks o Jenks)


Este mtodo, muy antiguo y muy usual, se basa en las particularidades de la distribucin. Procedimiento : El programa calcula las diferencias de valores entre los individuos estadsticos ordenados de forma creciente. El programa coloca un lmite para separar los grupos donde las diferencias de valores son altas. Ventajas e inconvenientes : - Permite tomar en cuenta las discontinuidades observables. - Solo se justifica si existen discontinuidades. - Est mtodo no permite comparaciones directas - Este mtodo automtico puede ser ajustado en base a un grfico

Clasificacin segn los umbrales observados en el histograma de valores

2 Clasificacin segn quantiles


Este mtodo asigna a cada clase un mismo nmero de individuos Procedimiento : Primer clculo: n= (nmero total de individuos N) / (nmero deseado de clases) n= nmero de individuos por clase.

Segundo clculo: Clculo de los lmites de clase


Los lmites de clase se determinan considerando el nmero de individuos definidos para cada clase en la distribucin ordenada en forma ascendente. El primer lmite corresponde a un valor que se escoge entre el valor tomado por el ltimo individuo de la clase c y el valor tomado por el primer individuo de la clase c+1. El segundo lmite corresponde a un valor que se escoge entre el valor tomado por el ltimo individuo de la clase c+1 y el valor tomado por el primer individuo de la clase c+2, etc.

Ventajas e inconvenientes : - Si la serie estadstica cuenta con valores ex-aequo, no siempre es posible obtener el mismo nmero de individuos en cada clase. - Si existen discontinuidades en la distribucin, es difcil elegir los valores lmites. - Este mtodo ignora las particularidades de la distribucin (los umbrales). - No requiere que la distribucin sea normal. - Este mtodo es til para realizar comparaciones de orden pero no de valores.

3 Clasificacin en clases de igual amplitud (Equal Intervals) En este mtodo, los intervalos de clase son iguales.
Procedimiento (mx-min) / nmero de clases = amplitud de cada clase

Ventajas e inconvenientes : Mtodo simple de fcil ejecucin Satisfactorio si la distribucin no es muy asimtrica Este mtodo no permite realizar comparaciones ya que la amplitud global de la variable es especfica a cada serie de datos Inconveniente: no destaca valores caractersticos de la distribucin

4 Clasificacin segn la desviacin estndar (Standard deviation)


Este mtodo de clasificacin se aplica en principio a las distribuciones normales o cercanas a la normalidad. Procedimiento : 1 Clculo de la media y de la desviacin estndar. 1er caso : el nmero de clases es impar (5 7). La clase central contiene el valor de la media 2do caso : el nmero de clases es par. El valor de la media es lmite de clase Ventajas e inconvenientes : - Permite realizar comparaciones, independientemente del tamao de las variables.

5 - Clasificacin segn promedios sucesivos (nested means)


Este mtodo considera a la media como centro de gravedad de la variable. Procedimiento: 1 Clculo de la media de primer orden. Este valor sirve para dividir la distribucin en dos subgrupos 2 Clculo de la media de cada subgrupo (media de 2do orden). Estos valores sirven para fijar los lmites de las clases y obtener 4 clases. 3 Eventualmente, clculo de la media de 3er orden (para obtener 8 clases). Ventajas e inconvenientes : -Este mtodo es de fcil ejecucin y comprensin ya que se basa en la nocin simple de la media. -Sin embargo, obliga a definir un nmero de clases par (mltiple de dos)

6 Clasificacin segn una proyeccin aritmtica


En este mtodo, la amplitud de los intervalos aumenta en funcin de una progresin aritmtica. Procedimiento: 1 Clculo de la razn R con k, el nmero de clases
R= max min 1 + 2 + ... + i + ... + k

2 Clculo de los lmites de clases : [e0 ; e0 + R[

[e1; e1 + 2 R[ .......... [ek 1; ek 1 + kR[


Ventajas e inconvenientes: -Este mtodo se adapta bien a las distribuciones caracterizadas por una fuerte representacin de valores bajos. - Sin embargo, se puede llegar a definir clases sin individuos.

7 Clasificacin segn una proyeccin geomtrica (Geometrical Intervals)


En este mtodo, las amplitudes de los intervalos aumentan rpidamente en funcin de una progresin geomtrica. Procedimiento: 1 Clculo de la razn R log 10 xn log 10 x1 log 10 R = con k, el nmero de clases k y n, el nmero total de individuos

[e0 ; e0 R[
2 Clculo de los lmites de clase : [e1 ; e1 2 R[

.......... [ek 1; ek 1 kR[


Ventajas e inconvenientes : - Se adapta bien a las distribuciones caracterizadas por una fuerte representacin de valores bajos. - Sin embargo, se puede llegar a definir clases sin individuos . - Este mtodo se aplica nicamente a las distribuciones cuyo valor mnimo es superior a cero.

Referencias bibliogrficas

BEGUIN M., PUMAIN D., 1994. La reprsentation des donnes gographiques : Statistique et cartographie. Collection Cursus, Edition Armand Colin, Paris. 192p. (Deuxime dition 2000) CHADULE (Groupe), 1997, Initiation aux pratiques statistiques en gographie, Armand Colin, Collection U, srie gographie, Paris, 203p. LAHOUSSE Ph., PIEDANNA V., 1998, L'outil statistique en gographie, Tome I, Les distributions une dimension, Srie " Synthse Gographie ", Armand Colin, Paris, 96p. LAHOUSSE Ph., PIEDANNA V., 1999, L'outil statistique en gographie, Tome II : L'analyse bivarie, Srie "Synthse Gographie ", Armand Colin, Paris, 96p. SANDERS L., 1989, Lanalyse des donnes appliques la gographie, Montpellier, RECLUS, Coll. Alidade

Fin

You might also like