You are on page 1of 11

Estadsticas bsicas

Las estadsticas bsicas presentadas a continuacin se usan primordialmente


para variables ordinales o escalares. La explicacin de los tipos de variables se
presenta al final de esta seccin a modo de repaso.
Las estadsticas pretenden describir un fenmeno (por ejemplo, los niveles de
ventas) a partir de los siguientes aspectos:

La tendencia central de los datos;


La dispersin o variacin de los datos;
La forma y simetra de la distribucin.
Posicin relativa de los datos.

Estadsticas de Tendencia Central: La funcin de las Estadsticas de


Medidas de Tendencia Central consiste en
determinar un centro, valor
medio o valor representativo de los datos de un grupo o distribucin.
Las medidas de tendencia central ms comunes, son:

Media : Es el clsico promedio de uso corriente en muchas situaciones.

Este estadgrafo es el ms usado pero tambin el ms abusado, debido a que


comnmente se emplea o se aplica indiscriminadamente en toda situacin.
La media es un valor representativo de la variable, pero no necesariamente un
valor que pueda tomar la variable. De ese modo, el nmero promedio de hijos
por familia puede ser de 2.3 hijos aunque ninguna familia real pueda tener ese
nmero de hijos. La media intenta anular la variabilidad de la variable
respondiendo a la pregunta: Si cada elemento tuviera el mismo valor de la
variable, qu valor sera? . Si cada vendedor, vendiera lo mismo, cunto
vendera?

Mediana:
Es el valor de la variable que supera no ms de la mitad de las observaciones
(datos) y que es superado por no ms de la mitad de las observaciones.
Lo anterior permite concluir que la mediana es un estadgrafo que no se deja
afectar por valores extremos y/o extraos de la variable, como si ocurre con la
media aritmtica.
La mediana, contrario a la media, suele ser un valor posible de la variable.
Si ordenramos los vendedores de menores ventas a mayores ventas, el
vendedor que quedara en la mitad sera la mediana.

Moda Valor Modal :


Tambin llamado valor modal, es el valor de la variable correspondiente a la
mxima frecuencia.

Estadsticos de posicin: Llamados Fractiles o Cuantiles son los que dividen una
distribucin en partes iguales.
Los tres tipos de fractiles ms usados son:
Cuartiles: parten la distribucin en cuartas partes.
Deciles: parten la distribucin en dcimas partes.
Percentiles: parten la distribucin en centsimas partes.
Cuartiles (Q):
Dividen la distribucin en cuatro partes, es decir, existen 3 cuartiles.

Q1

Q2

Q3

El Q2 se ubica en la mitad de la distribucin, por lo que Q2 = Me. Esto quiere decir que la
mediana tambin es un estadgrafo de posicin. Por tanto, la definicin de la Me facilita
definir estas medidas, as: Q1 es el valor de la variable que supera no ms de parte de la
distribucin pero es superado por no ms de partes de la distribucin.
Percentiles (P):
Dividen la distribucin en centsimas partes, es decir, existen 99 percentiles o centiles.

P3 P10

P25

P35

P50

P75

P90
Se entiende por percentil i aquel valor que supera el i% de los datos y es superado por el i%
de los datos.
Dispersin: Estadsticas que resumen la heterogeneidad de los valores de la
variable. En algunos casos, indican qu tan alejados estn los valores con
respecto a un punto de referencia o a un eje.
Las medidas de dispersin ms comunes, son:
Rango o recorrido (R):

Es el recorrido de la variable entre sus valores mnimo y mximo.


Rango o recorrido intercuartlico (RQ):

Es la diferencia entre los cuartiles mayor y menor

Con esta medida se excluyen los valores ms altos y bajos, pues elimina el 25% de los
valores ms altos y el 25% de los valores ms bajos de la distribucin. En este sentido, es
una medida ms adecuada que el rango. Sin embargo, no se obtiene informacin acerca de
la dispersin de los datos al interior de la distribucin entre los cuartiles uno y tres.
Desviacin estndar (S):
Mediante el clculo de la desviacin estndar se facilita el entendimiento del significado de
la medida de variabilidad, puesto que sus unidades son las mismas de la variable de origen.
Indica en promedio que tan distante est la informacin de la media.
Coeficiente de variacin (CV):
Es una medida de dispersin relativa, la cual facilita comparar distribuciones o grupos
dentro de una distribucin. Se expresa ordinariamente en trminos porcentuales como la
divisin de la desviacin sobre la media

Es una medida adimensional por su relatividad y representa la desviacin con respecto a la


media. Se ve limitada en la medida en que la variable pueda tomar valores tanto positivos
como negativos, o cuando la media tiende a ser cero. Cuando la media es menor que cero,
el C.V. se toma en valor absoluto.
Estadsticas de forma

Otros tipos de estadgrafos tienen que ver con la forma de distribucin. De inters particular
es la simetra de la distribucin de la variable, la cual puede ser simtrica o asimtrica
Para que exista Simetra debe ocurrir que haya equidistancia entre pares de puntos
respecto a un eje de simetra. El modelo normal, el cual se tratar ms adelante, es el
modelo simtrico por excelencia, en el cual la moda, la mediana y la media tienen el
mismo valor.
Para observar la simetra se utilizan los histogramas. El histograma de una variable con una
distribucin simtrica debe ser similar al siguiente grfico:

FIGURA 1.6 GRFICO DE SIMETRIA

DEFINICIN:
La Asimetra se da cuando no hay equidistancia entre pares de puntos respecto al eje.
Si la mayora de los datos estn ubicados hacia el lado positivo del eje, entonces es
asimetra positiva. Si la mayora estn hacia el lado negativo, entonces la asimetra es
negativa.
Las variables con una distribucin asimtrica negativa o asimtrica positiva se comportan
de la siguiente manera en un histograma:
FIGURA 1.7 GRFICO DE SIMETRIA

La medicin de la asimetra se hace por medio del coeficiente de Asimetra.


La interpretacin de los valores que puede tomar el coeficiente de asimetra se encuentra a
continuacin:

TIPOS DE VARIABLES (REPASO):


Variables escalares: Son aquellas variables susceptibles de medicin
cuantitativa, tambin denominadas variables mtricas.

De una manera un poco ms formal, son representaciones numricas reales de


una caracterstica de inters como el tiempo de produccin, el nmero de
defectos de una pieza o su longitud. stas a su vez se clasifican en:

Variables escalares discretas: Son aquellas variables que pueden tomar


slo ciertos valores dentro de un intervalo determinado de los nmeros reales.

Por ejemplo:
Nmero de hijos por familia
Nmero de trabajadores por empresa
Variables escalares continuas: Son aquellas variables que pueden tomar
todos los valores posibles dentro de un intervalo determinado de los nmeros
reales.

Por ejemplo:

Peso en Kg. de una persona.


Ingreso de un hogar.

DEFINICIN:
Variables categricas: Son aquellas variables cuyos posibles valores no
son susceptibles de medicin cuantitativa directa pero si pueden ser
clasificados. Tambin son conocidas como variables no mtricas.

Por ejemplo: el gnero de una persona, su estado civil o su estrato


socioeconmico son variables que generan clasificaciones aun cuando no
puedan realizarse operaciones matemticas sobre esas clasificaciones.

Las variables categricas a su vez se dividen en dos grupos: variables


nominales y variables ordinales.

Nominales: Variables cuyos posibles valores se identifican con una clase o


grupo de elementos de acuerdo con una caracterstica. Dicho de otro modo,
representan categoras sin propiedad de orden en las cuales se puede clasificar
un objeto de inters.
Por ejemplo:

Color de un carro.

Estado civil de una persona.


Ordinales: Variables
cuyos posibles valores indican una jerarqua u
ordenacin. Sus valores representan una propiedad de orden de un conjunto o
una posicin relativa, pero no son una representacin numrica real de la
variable por lo que, no son operables matemticamente.

Por ejemplo:

Nivel educativo de una persona.


Nivel de preferencia por un producto, en escala de 1 a 5.

Las variables escalares pueden convertirse en variables categricas o no


mtricas al asignarle a la caracterstica de inters susceptible de medicin
cuantitativa posibles valores que permitan clasificarla de algn modo en
particular. Por ejemplo, al tomar una variable escalar discreta como el nmero
de trabajadores en una organizacin, sta puede clasificarse en tres grupos
diferentes:

Esta variable pasa a ser entonces una variable categrica de tipo ordinal, pues
los valores asociados con cada tipo de empresa muestran una ordenacin o
jerarqua, sin llegar a ser operables las categoras entre si.

DEFINICIN:
Kurtosis es el grado de apuntamiento o agudeza de la distribucin, y se mide por medio
del coeficiente de kurtosis (C.K.).

Clculo del coeficiente de Kurtosis para Datos individuales

La interpretacin de los valores que puede tomar el coeficiente de Kurtosis se encuentra a


continuacin:

FIGURA 1.8 CURVAS ASOCIADAS CON EL COEFICIENTE DE KURTOSIS

La kurtosis suele indicar cul es la fuente de la varianza o variabilidad: Si la


curva es leptocrtica hay casos muy extremos o atpicos que hacen crecer la
varianza. Si la curva es platicrtica, todos los datos aportan un poco al
crecimiento o surgimiento de la varianza. El ingreso de las personas suele ser
una variable leptcrtica porque unas cuntas personas extremas son muy
ricas; la estatura suele ser platicrtica, porque todos somos un poco diferentes
en estatura pero no existen supergigantes o enanos del tamao de un duende,
luego la varianza es la suma de muchas pequeas diferencias y no el producto
de grandes desviaciones.

1.6 Un grfico especial: El diagrama de caja y bigotes

DEFINICIN:

Mediante el uso del grfico de caja y bigotes se busca identificar en una


misma figura, valores centrales, estadgrafos de posicin, valores
posiblemente atpicos y valores extremos (extraos) de una variable.

FIGURA 1.11- ESQUEMA DEL GRFICO DE CAJA Y BIGOTES


Rango
intercuartlico

Inferior Inferior
extern interno

Superio Superio
r
r

Median
Bigote

Bigote

Q1

Menor de los valores


adyacentes

Q3

Mayor de los valores


adyacentes

Valores adyacentes: valores de la variable que por su ubicacin son


considerados como no atpicos. Se denota con

Valores posiblemente atpicos: valores de la variable que por su ubicacin


son dudosos por estar cerca de la frontera. Se denota con

Valores extremos: valores de la variable que por su ubicacin son


propiamente atpicos. Se denota con

Barrera
Barrera
Barrera
Barrera

inferior interna = Mximo {Mnimo, Q1 1.5 RIC}


superior interna = Mnimo {Q3 + 1.5 RIC, Mximo}
inferior externa = Mximo {Mnimo, Q1 3 RIC}
superior externa = Mnimo {Q3 + 3 RIC, Mximo}

Ejemplo 1.21

Obtenga el grfico de cajas de los siguientes rendimientos de 21 empresas en


el ao anterior.

TABLA 1.16- INFORMACION DEL EJEMPLO 1.21

Rendimientos (%)
2.4

5.9

8.0

2.7

6.7

8.2

-2.6

-24.6

7.5

3.8

7.0

8.6

5.6

7.2

9.0

8.5

9.2

8.8

9.7

20.5

10.0

Solucin:

Mediana = 7.5 %
Q1 = 5.6 %
Q3 = 8.8 %
RIC = 3.2
Barrera inferior interna = 0.8
Barrera superior interna = 13.6

Barrera inferior externa = -4


Barrera superior externa = 18.4

RIC = 3.2

-4

0.
8

13.6
2.4

10

5.6
-24.6

-2.6

18.4

8.
8

20.5

Es posible notar que la grafica anterior representa una distribucin asimtrica


negativa. Ello se puede observar en la presencia de un valor posiblemente
atpico por debajo de la barrera interior inferior y un valor extremo bastante
lejano de la barrera inferior exterior, lo que indica alta dispersin de la
informacin por debajo del primer cuartil. No ocurre lo mismo en la parte alta
de los rendimientos, donde slo hay un valor atpico no tan lejano de la barrera
superior exterior. Por otra parte, la posicin relativa de la mediana dentro de la
caja (ms cerca del cuartil 3 que del cuartil 1) indica que del cuartil 1 a la
mediana hay una mayor dispersin de datos (en un mayor rango) que de la
mediana al cuartil 3. Todo ello muestra una mayor acumulacin de los datos
por encima de la mediana en un menor rango de rendimientos, y una larga cola
de datos dispersa, hacia los rendimientos bajos, comportamiento tpico de una
asimetra negativa.
Si se calcula el coeficiente de asimetra estandarizado
resulta ser de -0.999.

You might also like