You are on page 1of 24

CONCEPTOS BÁSICOS DE ESTADÍSTICA

Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
Organización de la información

Presentación de datos

Realizado el experimento o finalizada la investigación, el investigador ha recopilado un conjunto de


datos u observaciones los cuales requieren ser ordenados. La Estadística nos proporciona los
métodos apropiados para tal fin. Así tenemos:

1. Tablas o cuadros estadísticos. Es la presentación de datos ordenados en filas y columnas.


Partes principales de una tabla

 Número de la tabla: Es el código con el que se identifica la tabla que generalmente


es un número decimal. Ejemplo: Tabla Nº 3.7 la parte entera, 3, indica el capítulo o parte
de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la
séptima tabla de ese capítulo.

 El título de la tabla: La tabla se explicará por si misma por tanto se debe dar
suficiente información en el título, es decir, el título debe ser conciso y completo puesto que
es una descripción del contenido. Para que un título sea completo, éste debe responder a
cuatro preguntas claves: ¿Qué? Qué se estudia, es decir, cuál es la población que se está
estudiando?; ¿Cómo?, es decir, ¿cómo se clasifican los datos en la tabla, o sea, de acuerdo a
qué características?; ¿Dónde?, es decir, a qué institución o lugar geográfico pertenecen los
datos?; ¿Cuándo?, es decir, el período de tiempo o fecha en la que se realizó la
investigación.

 Fila de los encabezamientos o de los subtítulos. En esta fila se escriben los


nombres de las variables y sus categorías o niveles. Cuando la variable es cuantitativa se
anota sus unidades de medida.

 Columna matriz: es la primera columna del margen izquierdo. En esta columna se


anota las categorías o niveles de la variable que está considerada en la fila de los
encabezamientos.

1
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
 Cuerpo de la tabla: son las casillas o celdas en donde se consignan los datos.

 Fuente: Cuando los datos corresponden a investigaciones realizadas con objetivos


diferentes, es conveniente mencionar la fuente no solo como un reconocimiento al autor
sino también para orientar al lector y pueda consultar la fuente primaria.

2. Distribuciones de frecuencias
¿Qué es una distribución de frecuencias?

Es la organización de los datos obtenidos en grupos o clases llamados intervalos de clase,


los cuales son mutuamente excluyentes y colectivamente exhaustivos

¿Cuál es el objetivo al organizar los datos en una distribución de frecuencias?

Detectar la tendencia de la variable de estudio y hacer un análisis preliminar.

Se dice también que una distribución de frecuencias es una primera forma de resumir la
información.

3. Representaciones gráficas
La mayoría son figuras geométricas que se utilizan para visualizar el comportamiento o la
tendencia de la variable (s) de estudio.

Tipos de gráficos según la naturaleza de la variable de estudio:

 Para variables cuantitativas: Histogramas y polígonos.


 Para variables cualitativas: Gráficos de barras y gráficos circulares

2
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
DISTRIBUCIÓN DE FRECUENCIAS

Decíamos que una distribución de frecuencias es la organización de los datos en intervalos de clase,
mutuamente excluyentes y colectivamente exhaustivos. Ejemplo. La tabla Nº 2.6

Para variables nominales y ordinales, una distribución de frecuencias consiste en un conjunto de


categorías o clases con cantidades numéricas correspondientes a cada categoría que toman el
nombre de frecuencias. Ejemplo, la tabla Nº 2.4

Para presentar las observaciones correspondientes a una variable discreta o continua en forma de
una distribución de frecuencias debemos proceder de la siguiente manera:

a) Determinar el rango o recorrido, éste se define como la distancia entre el dato máximo y
el dato mínimo. Se denota por R.
b) Determinar el número el número de intervalos a considerar. En principio, ni pocos ni
demasiados intervalos. Si hay demasiados intervalos el resumen no tiene grandes
ventajas respecto de los datos a procesar. Si se consideran pocos, se sintetiza demasiado
de manera que se pierde gran cantidad de información. Una regla que se usa para
determinar el número de intervalos a considerar, se conoce con el nombre de regla de
Sturges, que consiste en calcular k

k = 1 + 3.322log N

siendo N el número de observaciones y k el número de intervalos. Se recomienda que el


número de intervalos no debe ser menor de 5 ni mayor de 20.

c) Se determina la amplitud del intervalo, para ello se divide el rango o recorrido entre k, y
de esa manera obtenemos la longitud de cada intervalo.
d) Se calculan los límites inferior y superior de cada intervalo de clase.

3
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Frecuencia Absoluta Simple


Es el número de veces que se repiten los valores dentro de los diferentes intervalos en que se ha
dividido la información.
Frecuencia Absoluta Acumulada
Se obtiene sumando y acumulando los valores absolutos clase por clase en orden ascendente.
Frecuencia Relativa Simple
Es el valor que resulta de dividir cada una de las frecuencias absolutas simples entre el total de
frecuencias o datos. Así se tiene:

Frecuencia Relativa Acumulada


Se obtiene sumando y acumulando los valores relativos clase por clase en orden ascendente.

Ejemplo:
Un investigador social desea determinar en la comunidad “X”, el número de horas semanales que
dedican los niños menores de 6 años de edad, a ver televisión. Una muestra de 25 años, arrojó los
siguientes resultados (en número de horas semanales).

10 19 25 19 26
16 19 27 27 25
23 22 17 12 20
15 21 23 26 14
18 25 23 24 21

a) Ordenar la información en una tabla de distribución de frecuencias.


b) Interpretar algunos valores de las frecuencias halladas.

4
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
Representaciones Gráficas

Existen diversidad de gráficos estadísticos; éstos se eligen de acuerdo al tipo de variable y al


propósito para el cual se construye. Los gráficos más importantes y de mayor uso son:

A. Cuando los datos son medidos a nivel Nominal u Ordinal


1. Gráfico de Barras
2. Gráfico Circular

B. Cuando los datos son medidos a nivel de Intervalo o razón


1. Histograma
Es un gráfico que se utiliza para representar la distribución de frecuencias absolutas o
relativas simples. Consiste en un grupo de rectángulos adyacentes que tienen sus bases en el
eje de las abscisas (donde se representan los intervalos de clase de la variable) y altura igual
a las frecuencias de cada clase.

2. Polígono de frecuencias
También es un gráfico que se utiliza para representar la distribución de frecuencias
absolutas o relativas simples. Consiste en un gráfico que se obtiene uniendo los puntos
hallados, mediante el par de valores de marca de clase y frecuencia correspondiente. Para

5
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
fines del gráfico se hace necesario incrementar un intervalo de clase en cada extremo, con
frecuencias cero.
3. Ojivas
Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o
relativas, y consiste en un gráfico lineal que nos permite observar la cantidad de elementos
que quedan por encima o por debajo de determinados valores.

Ejercicios:

1. Los siguientes datos corresponden al índice de rendimiento en una prueba de aptitud.

1.51 1.53 1.47 1.58 1.46 1.69 1.66 1.61


1.23 1.56 1.09 1.63 1.60 1.89 1.37 2.29
1.65 1.69 2.01 1.73 1.22 1.46 1.51 1.47
1.61 1.65 1.6 2.18 1.54 1.33 1.65 1.50
2.29 1.56 1.67 1.81 1.67 1.38 1.68 1.83

a) Elaborar una tabla completa de distribución de frecuencias.


b) Interpretar algunos valores de las frecuencias halladas.

6
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
2. Los siguientes datos corresponden al número de viajes que realizan por día, 80 personas
encuestadas, para ir y regresar de su centro de trabajo:

3 6 5 7 4 4 3 6 7 4 5 4 4
5 4 3 4 3 5 6 6 4 4 5 7 4
6 2 5 7 6 3 2 5 4 4 6 5 6
5 6 4 5 2 5 3 6 2 2 3 3 5
3 5 4 2 6 3 3 3 6 5 7 4 5
4 2 3 4 2 3 6 5 4 5 5 5 4

a) Ordenar los datos agrupándolos en un cuadro de distribución de frecuencias.


b) ¿Cuántas personas viajan 4 veces por día?
c) ¿Qué porcentaje de personas viajan 3 veces por día?
d) ¿Cuántas personas viajan 5 veces por día?
e) ¿Cuántas personas viajan a lo más veces por día?
3. Los siguientes datos corresponden a las lecturas de la presión sanguínea sistólica que se
hicieron a 58 adultos que se presentaron para un examen físico

104 112 128 139 118 132 132 112 106


126 126 115 118 117 116 113 122 123
116 114 129 117 106 124 115 118 123
105 120 146 121 120 102 138 106 113
114 122 116 108 122 112 112 123 116
124 111 121 111 114 123 107 120 120
124 122 134 131

a) Construir un cuadro de distribución de frecuencias


b) Analizar algunos valores de las frecuencias hallada.

4. Se muestra a continuación la estatura en centímetros de un grupo de niños y niñas normales,


de 0 a 12 años, residentes en las regiones de 4900 m. sobre el nivel del mar.

45 48 115 112 95 98 145 115 96 90


51 38 52 132 96 89 112 51 63 104
55 36 98 134 87 63 109 91 109 103
60 45 120 105 78 54 53 61 46 56
62 48 125 108 69 49 57 71 63 139

7
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
a) Construir una tabla de frecuencias
b) Analizar los datos agrupados.

Resumen de la Información

Las distribuciones de frecuencias y las tablas estadísticas son una primera forma de resumir la
información para hacer un análisis preliminar, pero no es suficiente. Se trata ahora de sustituir a
toda la serie de datos o distribución de frecuencias por unos pocos índices. Para elegir a esos índices
o parámetros debemos considerar tres aspectos básicos, y ellos son: la localización o ubicación,
dispersión o variación, y la forma, de la distribución

 Localización o ubicación de la distribución. Se trata de la ubicación de la masa de


datos en el eje real. Los indicadores o índices de la localización se conocen con el
nombre de medidas de tendencia central, y son: media aritmética, mediana, moda o
modo, media geométrica y la media armónica. En la Figura Nº 1 Se observan dos
poblaciones ubicadas en diferentes puntos del eje real

Población I Población II

µ1 µ2 X

Fig. Nº 1

8
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

 Dispersión o variación. Se refiere a la variabilidad de los datos que constituyen la


distribución. Los índices de la dispersión se conocen con el nombre de medidas de
dispersión, y estos son: la varianza, desviación estándar, coeficiente de variación,
recorrido intercuartílico y el recorrido o rango o amplitud total. En la Fig. Nº 2 se
observan poblaciones con diferente dispersión y también diferente ubicación
Población I Población II

σ1 σ2

µ1 µ2 X
Fig. Nº 2

 Forma de la distribución. La distribución puede ser simétrica, asimétrica o sesgada,


esta última puede ser de sesgo positivo o de sesgo negativo. El índice de la forma de la
distribución es el coeficiente de asimetría. En la Figura Nº3 se observan tres
distribuciones con diferente forma

Población I Población II Población III

Distribución con Distribución simétrica Distribución con

asimetría negativa asimetría positiva

Fig. Nº 3

9
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Vamos a describir a cada uno de estos índices.

3.1 MEDIDAS DE TENDENCIA CENTRAL

A este conjunto de medidas de resumen se les conoce como medidas de tendencia central, porque
tienden a ubicarse en el centro de la distribución. Estas medidas son: la media aritmética, mediana,
moda, media geométrica y también podemos considerar a las medidas de posición conocidos con el
nombre de percentiles

Media aritmética

Es la medida de tendencia central más conocida y de mayor uso, comúnmente la llaman promedio
aritmético o simplemente promedio, pero todas las tendencia central son promedios. Se define como
la suma de todas las observaciones dividida entre el número de observaciones, es decir,

x
X i

Ejemplo 1

Se han obtenido la cantidad de fósforo (en mg / g de hoja) en hojas secas:

Xi: 8.15, 8.26, 8.40, 8.58 y 8.60

La media aritmética es:

X =
X i

41.91
 8.398 mg / g
n 5

10
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Ejemplo 2

Se dispone del tiempo de vida (en meses) de dos especies de pájaros en cautiverio:

Especie A

Xi (meses) : 34 36 37 39 40 41 42 43 59

Especie B

Xi (meses) : 35 36 39 41 39 43 45 44 46 45

Se observa que la especie A tiene menor esperanza de vida en cautiverio. No olvide que la media
aritmética tiene la misma unidad de medida como la tienen las observaciones individuales.

Observaciones

a) La media aritmética se emplea en datos cuantitativos o numéricos; en cambio no debe


usarse en datos ordinales debido a la naturaleza arbitraria de la escala.
b) La media es sensible a valores extremos o discordantes y la presencia de ellos en un
conjunto de datos hacen que la media pierda su condición de ser representativa del
conjunto
c) Es la medida de tendencia central que mejor describe a un conjunto de datos cuando la
distribución es simétrica.
d) Se expresa en las mismas unidades de medida en que están dados los datos originales

11
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

La Mediana

La mediana de un conjunto de datos es la observación central, es decir, la mitad de las


observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales.

Cálculo de la mediana

a) Se ordenan los datos de menor a mayor (o viceversa)


b) Encontrar el valor que está ocupando el centro. Casos:

1º) En un número impar de observaciones la mediana es el valor que ocupa el centro.


En el ejemplo 2, especie A, la mediana es Md = 40 meses.

2º) En un número par de observaciones se define como mediana a la media aritmética


de los dos valores centrales, por ejemplo en la especie B de aves en cautiverio la
40  41
mediana es la semisuma de la quinta y sexta observación, es decir, M d =
2
= 40.5 meses.

Observaciones

a) La mediana no es sensible a los valores extremos, es decir, éstos no tienen efectos


importantes sobre la mediana ( no la modifican).
b) La mediana puede usarse con valores ordinales debido a que para su cálculo no se
usa los valores reales de las observaciones si no se ubica el valor central.
c) Se recomienda como representativa del conjunto de datos cuando existen valores
extremos (distribución asimétrica o sesgada).
d) Al igual que la media aritmética, se expresa en las mismas unidades de medida en
que están dados los datos originales.

12
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

La Moda

La moda o modo de un conjunto de observaciones se define como la observación que ocurre con
mayor frecuencia. Tal vez es mejor definir a la moda como una medición de mayor concentración.
En algunas distribuciones de frecuencia puede haber más de uno de esos puntos de mayor
concentración (moda), sin embargo esos puntos pueden no tener la misma frecuencia. Así por
ejemplo, una muestra consiste de los siguientes datos en mm.

4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14.

En este conjunto de datos observamos dos modas locales 9 y 12.

La Media Geométrica

Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa
cuando los datos están medidos en una escala logarítmica. Se emplea en microbiología para calcular
títulos desilusión promedio y para promediar cantidades en forma de progresiones y tasas de
crecimiento.

La media geométrica cuyo símbolo que utilizaremos es X g se define como la raíz enésima del
producto de las observaciones positivas. En símbolos:

Sean Xi > 0 ; X1, X2, ….., Xn

n observaciones positivas, entonces la media geométrica es:

Xg = n ( x1 )( x2 ).......( xn )

13
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

¿Qué medida de tendencia central usar?

Obtenida la información, (las observaciones) la pregunta es qué medida de tendencia central es


mejor para usar con los datos obtenidos. La respuesta está condicionada a dos factores: la escala de
medición (numérica u ordinal) y la forma de la distribución de las observaciones (simétrica o
asimétrica). Esta información ayuda a elegir la medida de tendencia central apropiada.

Si existen valores discrepantes o discordantes en una distribución se dice que la distribución es


asimétrica o sesgada, así tenemos: si los valores discordantes son pequeños la asimetría es o la
izquierda o negativa. Si sólo existen unos cuantos valores muy grandes comparados con el resto de
los datos, la asimetría es a la derecha o positiva. Una regla para deducir la asimetría de la
distribución es comparando la media y la median, como sigue:

a) Si la media y la mediana son iguales, la distribución es simétrica.

b) Si la media es mayor que la mediana, la distribución está sesgada o asimétrica a la


derecha.

c) Si la media es menor que la mediana, entonces la distribución está sesgada o


asimétrica a la izquierda.

Las siguientes recomendaciones para elegir la medida de tendencia central más adecuada:

i) La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).

ii) La mediana se usa en datos ordinales o si la distribución es sesgada.

iii) El modo se usa cuando se desea resaltar el dato más frecuente.

iv) La media geométrica se usa en observaciones medidas en una escala logarítmica.

14
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Las medidas de dispersión permiten estimar la representatividad de un promedio (media o


mediana), en ese sentido es necesario cuantificar la dispersión o variabilidad de los datos
alrededor del promedio correspondiente. Las principales medidas que calculan la dispersión son:
la varianza, la desviación estándar y el coeficiente de variación. Todas ellas miden desviaciones
respecto a la media, pero en tanto que, las dos primeras proporcionan desviaciones absolutas, la
última proporciona desviaciones en términos relativos a la media.

Varianza

La varianza muestral (s2) se define como:

( xi  X ) 2
s2 =  n 1

donde xi son los valores de la variable X, X es la media aritmética muestral y n es el tamaño de la


muestra. Como vemos, la varianza viene a ser la media aritmética de las distancias de cada uno de
los datos con respecto a la media X ; pero elevados al cuadrado, en ese sentido, la magnitud de s 2
medirá la mayor o menor dispersión de los valores de la variable respecto a la media aritmética; es
decir, mostrará el grado de representatividad de dicho promedio, de tal forma que a mayor valor de
s2 la dispersión será mayor y la media aritmética no será representativa (lo contrario sucederá
cuando s2 sea pequeña).

15
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Ejemplo: En el ejemplo 2, la varianza del tiempo de vida de la especie A es s A2 = 186.2760 meses2

y de la especie B es s B2 = 12.96 meses2. Con estos resultados deducimos que hay menor dispersión
en los datos del tiempo de vida correspondiente a la especie B comparada con la especie A, y por lo
tanto su media aritmética (tiempo medio de vida) será mejor representativa. Además, en la especie
A existe un valor atípico que es el dato 79 meses, es por eso que la varianza aumenta.

Desviación Estándar o Típica (s)

Un inconveniente de la varianza radica en que sus unidades de medida corresponde al de la variable


pero, elevadas al cuadrado, lo cual puede dificultar su interpretación. Por esta razón se define una
medida de dispersión la cuál si está expresada en las mismas unidades de medida que la variable
que se está analizando. Esta medida de dispersión se conoce con el nombre de desviación estándar,
es decir:

s s  2  (x i  X )2
n 1

En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes
desviaciones estándar son:

SA = 13.65 meses y SB = 3.60 meses.

16
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

No obstante la ventaja de interpretación que la desviación estándar supone respecto a la varianza,


sin embargo, es imposible efectuar comparaciones entre distribuciones de frecuencia cuando las
dimensiones de las variables no coinciden debido precisamente a que las distribuciones no poseen
idénticas unidades de medida. Este inconveniente da lugar a nuevas medidas de dispersión o
variabilidad relativa (adimensionales), entre ellas, el coeficiente de variación.

Coeficiente de Variación (C.V.)

Se define como la relación por cociente entre la desviación estándar y la media aritmética,
expresado en porcentaje, es decir:
s
C.V .  100%
x

Como, tanto s como x están expresadas en las mismas unidades de medida, el C.V. resulta un
indicador adimensional. Además expresa qué tanto por ciento es la desviación estándar de la media
aritmética.

Ejemplo 1

En un grupo de personas, el peso promedio fue de 145 libras con una desviación estándar de 7
libras; la estatura promedio fue 67 pulgadas con desviación estándar de 5 pulgadas. La pregunta es:
¿en cuál característica el grupo es más variable (heterogéneo)?. En este caso no podemos comparar
paso y estatura (características expresadas en diferentes unidades de medida). Para dar respuesta a
la pregunta calculamos el coeficiente de variación:

Peso Estatura

7 5
C.V. =  4.8% C.V. =  7.5%
145 67

17
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Por tanto decimos que en estatura el grupo es más heterogéneo.

Ejemplo 2

Consideremos las siguientes muestras de los pesos de hombres de 25 años y de niños de 11 años

Peso (Kg)
Muestra Media Desviación
Aritmética Estándar
Hombres 66 4.5
Mujeres 36 4.5

Si observamos las desviaciones estándar, aparentemente los dos grupos tienen la misma dispersión
o variabilidad en peso, sin embargo:

4.5
C.VHombres = (100)  6.82%
66

4.5
C.VNiños = (100)  12.5%
36

Los pesos de los niños son relativamente más variables (heterogéneos) que los pesos de los adultos.

Cuartiles
La mediana de una distribución divide los datos en dos partes iguales.

18
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado
de datos en cuatro partes iguales, los puntos de división se conocen como cuartiles y los
representamos por Q1, Q2 y Q3

Recorrido Intercuartílico

Cuando la distribución es asimétrica se utiliza como indicador de la dispersión de los datos el


recorrido intercuartílico que se define como la diferencia entre el tercer y primer cuartil, en
símbolos:

RIQ  Q3  Q1

Recorrido, Rango o Amplitud Total

Es la medida de dispersión que muy poco se usa porque no usa toda la información proporcionada
por la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la
diferencia entre el máximo y el mínimo valor de la distribución de datos.

R  X max  X min
Forma de la distribución

Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual hemos
estudiado las medidas de posición y dispersión de la distribución de una variable, necesitamos
conocer más sobre el comportamiento de la misma. No podemos basar nuestras conclusiones
únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. Si
bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio,

19
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
para lo cual las medidas de posición son nuestro mejor instrumento, no debemos proceder a una
intrepretación que implique un comportamiento de todos los elementos del colectivo
uniformemente constante e igual a la medida de posición en cuestión con un error dado por la
correspondiente medida de dispersión. Este error o disparidad se hace más ostensible al analizar
la representación gráfica de la distribución. Pues bien, las medidas de forma de una distribución
se basan en su representación grafica, sin llegar a realizar la misma.

Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o


apuntamiento.

Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el
grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su
representación grafica.

Supongamos que hemos representado gráficamente una distribución de frecuencias. Si trazamos


una perpendicular al eje de abscisas por x y tomamos esta perpendicular como eje de simetría,
diremos que una distribución es simétrica si existe el mismo numero de valores a ambos lados de
dicho eje, equidistantes de x dos a dos y tales que cada par de valores equidistantes a x tengan la
misma frecuencia. En caso contrario, las distribuciones serán asimétricas.

Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. La


mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la
distribución dará lugar a una distribución más o menos apuntada. Por esta razón a las medidas de
curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis se
aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría Para
estudiar la curtosis de una distribución es necesario definir previamente una distribución tipo, que
vamos a tomar como modelo de referencia. Esta distribución es la Normal, que corresponde a
fenómenos muy corrientes en la naturaleza, y cuya representación grafica es una campana de Gauss.

Tomando la normal como referencia, diremos que una distribución puede ser mas apuntada que la
normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica).

A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.

Con la curtosis se estudia la deformación, en sentido vertical, respecto a la normal, de una


distribución.

20
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

A continuación se definen las medidas de asimetría más comunes, entre las que destacan las
siguientes:

Coeficiente de asimetría de Fisher: Ahora se intenta buscar una medida que recoja la simetría o
asimetría de una distribución. Si la distribución es simétrica, el eje de simetría de su representación
grafica será una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media
aritmética. Por ello, cuando la distribución es asimétrica, referiremos los valores de la distribución a
este promedio. Si una distribución es simétrica. existe el mismo numero de valores a la derecha que
a la izquierda de x , y por tanto el mismo número de desviaciones con signo positivo que con signo
negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir.
pues, de las desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las
desviaciones.

Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones, elevadas
a la potencia impar más simple (que es tres), es decir, tomaríamos como medida de asimetría el
momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendría expresada en
las mismas unidades que las de la variable. pero elevadas al cubo, por lo que no es invariante ante
un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresión
anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de
la desviación típica, obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya expresión es:

k
1
m3 N
 (x j  x ) 3 ni
g1   i 1

 3
1 k

3/ 2

N


i 1
( x j  x ) ni 
2

Si g 1 =0 la distribución es simétrica, si g 1 >0 la distribución es asimétrica positiva (a derecha), y si g

1< 0 la distribución es asimétrica negativa (a izquierda). La distribución es asimétrica a derecha o


positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor
que la suma de las desviaciones con signo negativo (la grafica de la distribución tiene mas densidad
a la derecha de la media). En caso contrario, la distribución es asimétrica a la izquierda o negativa.

21
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón
Coeficiente de asimetría de Fisher estandarizado: Para N >150 el coeficiente de asimetría es
asintóticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el
coeficiente de asimetría estandarizado cuya expresión es:

g1
gs 
6
N

Este coeficiente es asintóticamente normal (0,1).

Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes,


unimodales y moderadamente asimétricas el coeficiente definido como Ap = ( x - Mo) /  , donde
Mo es la moda. Como en una distribución campaniforme simétrica. x = Mo = Me, si la
distribución es asimétrica positiva o a derechas . x se desplaza a la derecha de la moda, y por tanto,
x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa por debajo de Mo, por
lo que el valor x - Mo < 0. La desviación típica que aparece en el denominador no modifica el
signo de la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.
Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica
positiva y si Ap < 0 la distribución es asimétrica negativa. También Pearson comprobó
empíricamente para este tipo de distribuciones que se cumple 3(x - Me) .r - Mo (la mediana
siempre se situa entre la media y la moda en las distribuciones moderadamente asimétricas). Por
esta razón,algunos autores utilizan como coeficiente de asimetría de Pearson el valor:

Ap  3( x - Me) 

Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana, y


viene dado por la expresión Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la
distribución es simétrica, si Ab > 0 la distribuci6n es asimétrica positiva y si Ab < 0 la
distribución es asimétrica negativa. Cl y C3 son el primer y tercer cuartil respectivamente.

El coeficiente absoluto de asimetría: Está basado también en la posición de los cuartiles y la


mediana, y viene dado por la expresión:

A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S

Si A=0 la distribución es simétrica, si A >0 la distribución es asimétrica positiva y si A<0 la


distribución es asimétrica negativa. C1, C2 y C3 son los cuartiles de la distribución.

22
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Una vez presentadas las medidas de asimetría, a continuación se definen las medidas de curtosis
más comunes, entre las que destacan las siguientes:

Coeficiente de curtosis: En la distribución normal se verifica que m 4 = 3  4 siendo m 4 el

momento de orden 4 respecto a la media y  la desviación típica. Si consideramos la expresi6n g 2

= m 4 /  4 - 3, su valor será cero para la distribución normal. Por ello, como coeficiente de
apuntamiento o curtosis se utiliza la expresión:

k
1
m4 N
 (x j  x ) 4 ni
g2  3 i 1
3
4 1 k

2

N

 (x
i 1
j  x ) 2 ni 

Una distribución es:

mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0,

leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0,

platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.

El coeficiente de curtosis estandarizado: Para N > 150 el coeficiente de curtosis es


asintóticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el
coeficiente de curtosis estandarizado cuya expresión es:

g2
g ks 
6
N

Este coeficiente es asintóticamente normal (0,1).

23
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón

Valores extremos

Son valores que se alejan del conjunto de datos.

Regla para identificar valores o datos extremos

Vamos a definir una observación como extrema si:

24

You might also like