You are on page 1of 8

Unidad 1 Estadstica descriptiva

Ing. Cecilia Guadalupe Mota Gutirrez



1
1.1 Concepto, clasificacin y aplicaciones de la estadstica

Concepto y clasificacin de la estadstica

La estadstica es la rama de la ciencia que se encarga del conjunto de procedimientos que se
utilizan para la coleccin, presentacin y anlisis de observaciones.

Tiene como propsito la descripcin del conjunto de datos colectados, as como la
generalizacin y/o toma de decisiones acerca de las caractersticas de todas las
observaciones potenciales bajo consideracin. En consecuencia nos permite organizar y
resumir datos para poder realizar inferencias (conclusiones) relativas a los mismos.

En otras palabras es el vehculo que permite llevar a cabo el proceso relacionado con la
investigacin cientfica.

Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias
sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de
decisiones en reas de negocios o instituciones gubernamentales.
La estadstica se divide en dos grandes reas:
La estadstica descriptiva, se dedica a los mtodos de recoleccin, descripcin,
visualizacin y resumen de datos originados a partir de los fenmenos de estudio.
Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de
parmetros estadsticos son: la media y la desviacin estndar. Algunos ejemplos
grficos son: histograma, pirmide poblacional, clsters, entre otros.
La estadstica inferencial, se dedica a la generacin de los modelos, inferencias y
predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la
aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y
extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones
de caractersticas numricas (estimacin), pronsticos de futuras observaciones,
descripciones de asociacin (correlacin) o modelamiento de relaciones entre
variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen Anova,
series de tiempo y minera de datos.
La estadstica descriptiva es una parte de la estadstica que se dedica a analizar y
representar los datos. Este anlisis es muy bsico, pero fundamental en todo estudio.
Aunque hay tendencia a generalizar a toda la poblacin las primeras conclusiones obtenidas
tras un anlisis descriptivo, su poder inferencial es mnimo y debera evitarse tal proceder.
La estadstica descriptiva, es un proceso en el que los datos son ordenados, resumidos y
clasificados con objeto de tener una visin ms precisa y conjunta de las observaciones,
intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales
toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de
posible inters, etc.
Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

2
Bsicamente, se lleva a cabo un estudio calculando una serie de medidas de tendencia
central, para ver en qu medida los datos se agrupan o dispersan en torno a un valor central,
asimismo se calculan estas series de medidas para los datos no agrupados.

Conceptos bsicos

Poblacin: conjunto de elementos que comparten al menos una caracterstica bien definida.
Puede ser finita o infinita.

Muestra: es un conjunto de elementos extrados de una poblacin.

Variable: caracterstica de los elementos de una poblacin que puede tomar diversos
valores (al menos dos).

Datos: valores de los elementos obtenidos al medir una variable en una muestra o
poblacin.

Parmetro: es un valor numrico que expresa una caracterstica de una poblacin. Es una
funcin definida sobre una variable.

Estadstico: es un valor numrico que expresa una caracterstica de una muestra.

1.2 Datos no agrupados y agrupados

Datos no agrupados: Se le conoce con este nombre a los datos que se muestran en una
serie, es decir , que el nmero de valores que toma la variable es menor a 25, por lo tanto
no es necesario hacer un tabla de frecuencias para la concentracin de datos.

Datos agrupados: Este tipo de datos son los cuales en los que la variable toma un amplio
rango de datos que suele ser mayor o igual a 25. Los datos se agrupan en una tabla de
frecuencias o tambin llamada distribucin de frecuencias es una tabla en la que el
conjunto de datos se divide en un nmero adecuado de clases (intervalos), al mismo tiempo
se muestra el nmero de unidades perteneciente a cada clase (frecuencia).

En esta tabla se sacrifica parte de la informacin contenida en los datos; en lugar de
conocer el valor exacto de cada unidad, se conoce nicamente que pertenece a cierta clase.
En cambio, el tipo de agrupacin que esto representa suele destacar importantes
caractersticas de los datos, y por consiguiente, la ganancia en legibilidad suele ms que
compensar la prdida de informacin.

Existen varias formas de distribucin para la agrupacin de datos en las tablas de
frecuencias, la ms comn es la frecuencia absoluta es el nmero de veces que ocurre ese
valor en cada intervalo; la frecuencia relativa es la frecuencia absoluta de cada intervalo
por el total de frecuencias, se expresa en porcentaje; y por ltimo la frecuencia acumulada,
para un determinado punto es igual a la suma de las frecuencias anteriores al punto.

Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

3
Procedimiento para la elaboracin de una tabla de frecuencias:
Paso 1: Localizar el valor mximo
mx
x y mnimo
mn
x de los datos.
Paso 2: Determinar la unidad de medida mnima de los dgitos de los datos (A).
Paso 3: Determinar el nmero total posible de datos (r) entre los valores mximo y mnimo.
( )
1
mx mn
x x
r
A
l

l
=
l
l

Paso 4: Determinar el tamao del intervalo (clase), este se obtiene dividiendo r entre la raz
cuadrada de el numero de datos () multiplicado por la unidad de medida mnima (A).
( )
r
C A

l
l =
l
l

Paso 5: Determinar la frontera mnima
Cmn
L y mxima
Cmx
L de la clase menor de los
datos.
2
Cmn mn Cmx Cmn
A
L x L L C
1

= =


( )

Paso 6: Elaborar una tabla de frecuencias, que contenga los siguientes datos.

Tabla de frecuencias
Clase
Fronteras de
clase
Marca
de
clase
Conteo
Frecuencia
Absoluta
Frecuencia
Relativa
(%)
Frecuencia
Acumulada
i
Cmn
L
Cmx
L
i
x

i
f
Ri
f
Ai
f
1
2
.
.
.
k
=

Para determinar los lmites de las siguientes clases el
Cmx
L de la primera clase pasa a ser el
Cmn
L de la clase 2 y para obtener el
Cmx
L slo le sumas el tamao de la clase.
Marca de clase: es el promedio de los lmites de cada clase.
Frecuencia absoluta: es el nmero de veces que ocurre ese valor en cada intervalo de clase.
Frecuencia relativa: ( ) 100%
i
Ri
f
f

=
Frmula para la frecuencia acumulada:
( )
( )
1 Ai i A i
f f f

=

1.3 Medidas de tendencia central
Son los parmetros estadsticos que marcan, bajo distintos criterios, los valores en torno a
los cuales se disponen los datos de una distribucin. Son llamadas medidas de tendencia
central y de posicin, pues entorno a ellas se distribuyen los elementos.
Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

4
Las medidas de tendencia central son valores numricos que tienden a localizar la parte
central de un conjunto de datos.
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como
representativo de todos los datos. Hay diferentes modos para definir el "centro" de las
observaciones en un conjunto de datos. A continuacin se presentan los ms usados.

Media aritmtica: tambin denominada promedio, es la que se utiliza principalmente y se
define como la suma de los valores de todas las observaciones divididas por el nmero total
de datos. La media aritmtica de los valores,
1 2
, ,..., ,
n
x x x se designa por x si se refiere a
una muestra y si se refiere a una poblacin, se obtiene de la siguiente manera:

Datos no agrupados n<25 Datos agrupados n>25
( )
1 2 1
...
n
i
n i
x
x x x
x
n n
=

= =


1
k
i i
i
x f
x
n
=
=



Propiedades de la media aritmtica:

Puede ser calculada en distribuciones con escala relativa e intervalar.
Todos los valores son incluidos en el clculo de la media.
Una serie de datos solo tiene una media.
Es una medida muy til para comparar dos o ms poblaciones.
Es la nica medida de tendencia central donde la suma de las desviaciones de cada
valor respecto a la media es igual a cero. Por lo tanto, podemos considerar a la media
como el punto de balance de una serie de datos.

Desventajas:

Si alguno de los valores es extremadamente grande o extremadamente pequeo, la
media no es el promedio apropiado para representar la serie de datos.
No se puede determinar si en una distribucin de frecuencias hay intervalos de clase
abiertos.

Observaciones:

A veces se interpreta errneamente a la media como aquel valor que es tpico, o que
se esperara que la mayora de las personas tuvieran. Esta interpretacin puede ser
bastante absurda en algunos casos, por ejemplo, cuando se calcula la media de hijos
en un grupo de mujeres, se obtiene que es de 2.3 nios y, obviamente, no se puede
esperar encontrar una madre con exactamente 2.3 nios. Todo lo que la cifra dice,
es que si dividimos el nmero total de nios de las mujeres consideradas por el
nmero de mujeres, el resultado es 2.3 nios por mujer. Esto puede ser un
conocimiento til en la comparacin de tamao de familia, de dos o ms grupos,
pero no sugiere que alguna mujer tenga 2.3 nios.
Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

5
Otras veces se piensa que la media aritmtica tiene la caracterstica que la mitad de
las observaciones es menor o igual que la media. Este concepto es totalmente errado
en algunos casos, por ejemplo, si la distribucin es asimtrica a la derecha, como
puede ser la distribucin de salarios donde hay muchas personas que ganan poco y
hay pocas personas que ganan mucho, la media aritmtica resultar mucho ms
grande de lo que uno esperara encontrar, si se piensa que el valor central debe ser
tal que la mitad de las personas tiene un salario inferior a l y la otra mitad un
salario superior. Esto se debe a la presencia de unos pocos valores excesivamente
grandes que al tener demasiada influencia en el valor de la media aritmtica hacen
que ella se ubique en una posicin ms extrema a la esperada. En consecuencia
debera pensarse en otras medidas para evaluar un valor central con esta
caracterstica.

Mediana: Se define como el valor que deja igual nmero de observaciones a su izquierda
que a su derecha, es decir, divide al conjunto de datos en dos partes iguales y se denota por
Me.

Si los datos no estn tabulados la mediana se determina, ordenando las observaciones de
menor a mayor y determinando el valor central. Si la cantidad de datos es impar, la mediana
se representa justamente por ese valor. En cambio, si la cantidad es par, la mediana es el
promedio de los datos centrales.

Si los datos estn agrupados la mediana se calcula observando los siguientes pasos: primero
se debe determinar cunto es n/2, luego se ver en cul intervalo estar contenido este
valor. Una vez ubicado el intervalo que lo contiene se procede a reemplazar en la siguiente
frmula:

Datos no agrupados n<25 Datos agrupados n>25
n impar n par
( )
( )
2 ( 1)
n
A i
CMe
Me
f
Me L C
f

l 1

=

l

( )
l
l

1
2
n
Me x

=
2
2 2
2
n n
x x
Me

=

Donde:

( -1)
lmite inferior de la clase que contiene a la mediana
nmero total de datos (frecuencia total)
tamao de clase
frecuencia de la clase que contiene a la mediana
frecuencia acumulad
CMe
Me
A i
L
n
C
f
f
=
=
=
=
= a de la clase anterior a la que contiene a la mediana




Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

6
Propiedades:

No le afectan las observaciones extremas.
Es fcil de calcular.
Es siempre un valor de la variable.
La mediana divide el rea total del histograma en dos porciones iguales.

Moda: es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia
absoluta es mayor. Puede haber ms de una moda en una distribucin o no tener ninguna.
Se denota por Mo.

Datos agrupados n>25
( )
( ) ( )
( )
( 1)
( 1) ( 1)
Mo Mo i
CMo
Mo Mo i Mo Mo i
f f
Mo L C
f f f f

l
=
l

l
l

Donde:

lmite inferior de la clase que contiene a la moda
tamao de clase
frecuencia de la clase que contiene a la moda
CMo
Mo
L
C
f
=
=
=

( -1)
( 1)
frecuencia de la clase anterior de la que contiene a la moda
frecuencia de la clase posterior de la que contiene a la moda
Mo i
Mo i
f
f

=
=


Los resultados de las diferencias
( -1) ( 1)
( ) ( )
Mo Mo i Mo Mo i
f f y f f

es valor absoluto.

1.4 Medidas de dispersin

Son los parmetros estadsticos que miden cmo se encuentran de diseminados los datos de
una distribucin. Los ms utilizados se refieren al grado de lejana de los datos respecto a la
media y son la varianza, la desviacin estndar y el coeficiente de variacin.
Las medidas de dispersin indican la mayor o menor concentracin de los datos con respecto a
las medidas de centralizacin

Desviacin estndar: tambin llamada desviacin tpica, es una medida de dispersin
usada en estadstica que nos dice cunto tienden a alejarse los valores puntuales del
promedio en una distribucin. Especficamente, la desviacin estndar es "el promedio de
la distancia de cada punto respecto del promedio". Se suele representar por una s o con la
letra , segn se calcule en una muestra o en la poblacin.

Una desviacin estndar grande indica que los puntos estn lejos de la media, y una
desviacin pequea indica que los datos estn agrupados cerca de la media.

Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

7
La desviacin tpica o desviacin estndar, s, es la raz cuadrada de la varianza. La razn de
ser de este parmetro es conseguir que la medida de dispersin se exprese en las mismas
unidades que los datos a los que se refieren.

Datos no agrupados n<25 Datos agrupados n>25
( )
2
1
1
n
i
i
x x
s
n
=


( ) ( )
2
2
1 1
1
k k
i i i i
i i
n x f x f
s
n n
= =
1 1





( ) ( )
=




Coeficiente de variacin: El coeficiente de variacin, v, es el cociente entre la desviacin
estndar y la media de la distribucin. Este parmetro sirve para relativizar el valor de la
desviacin estndar y as poder comparar la dispersin de dos poblaciones estadsticas con
gamas de valores muy discretas.

Datos no agrupados n<25 Datos agrupados n>25
s
v
x
=

1.5 Representacin grfica de datos

Histogramas

Los histogramas se utilizan para representar tablas de frecuencias con datos agrupados en
intervalos. Si los intervalos son todos iguales, cada uno de ellos es la base de un rectngulo
(eje x ) cuya altura es proporcional a la frecuencia de cada intervalo (eje y )
correspondiente.
Siempre se necesario aadirle la informacin que se crea necesaria para hacer ms fcil la
lectura del histograma (fecha, ttulos, unidad de medida de los datos, etc.).

Procedimiento para la elaboracin de un histograma:
Paso 1 Elaborar la tabla de frecuencias.
Paso 2 y Paso 3 Dibujar los ejes X y Y , sobre el eje X se escriben los limites de cada
intervalo, y sobre el eje Y se escribe la escala de la frecuencia absoluta; y dibujar los
rectngulos a la altura de cada frecuencia.

Los histogramas siempre deben llevar ttulo y lo que se refiere a cada eje. Como se muestra
en el siguiente histograma.

Polgono de frecuencias

Esta es una grfica de lneas trazado sobre las marcas de clase de cada intervalo, se obtiene
uniendo las marcas de clase (punto medio de c/u de los intervalos) de los extremos
superiores de cada rectngulo. Esta grfica lleva los mismos datos de un histograma.
Unidad 1 Estadstica descriptiva



Ing. Cecilia Guadalupe Mota Gutirrez

8
Ojivas

La grfica de ojivas presenta las frecuencias acumulativas, similares a los polgonos de
frecuencia, solo que en este caso las frecuencias acumuladas de cada intervalo se trazan en
los lmites superiores de cada intervalo.

Al igual que el polgono de frecuencias y el histograma, en el eje X se escribe la escala de
frecuencias acumuladas y en el eje Y los lmites superiores de cada clase.

Diagrama de sectores

Consiste en dividir un crculo en tantos sectores como intervalos se tengan en la tabla de
frecuencias. Para este diagrama se utilizan las frecuencias relativas.

Los ngulos de cada sector se calcular de la siguiente manera:

( )
360
100%
i Ri
S f

You might also like