You are on page 1of 36

INTRODUCCION

La estadstica es una de las herramientas ms ampliamente utilizadas en la investigacin


cientfica.
Su aplicacin en instituciones educativas, en los negocios, en la industria, y otros
quehaceres diarios de la humanidad hace de la estadstica una herramienta
indispensable.
La estadstica descriptiva comprende la presentacin, organizacin y resumen de los
datos de una manera cientfica para obtener informacin de ellos que no es obtenible a
simple vista. Los mtodos ayudan a presentar los datos de modo tal que sobresalga su
estructura mediante la organizacin y representacin grfica de los datos, para dar una
idea de lo que nos muestran. Las tablas, los diagramas de barras, histogramas o de pay
son algunos de los elementos de la estadstica descriptiva. Tambin incluye varios
parmetros numricos (como la media aritmtica) que resumen los datos con muy pocos
nmeros clave.
Hay varias formas simples e interesantes de organizar los datos en grficos que permiten
detectar tanto las caractersticas sobresalientes como las caractersticas inesperadas. El
otro modo de describir los datos es resumirlos en uno o dos nmeros que pretenden
caracterizar el conjunto con la menor distorsin o prdida de informacin posible.
Estas tcnicas y conceptos que se desarrollan a lo largo del trabajo juegan un papel
importante en las actividades que realizan los profesionales de todas las ciencias.
El objetivo de este trabajo es que el lector comprenda y aplique algunas tcnicas de
recopilacin, organizacin y representacin de un conjunto de datos, proveniente del
planteamiento, la discusin y la resolucin de problemas, para interpretar y analizar el
comportamiento de variables en dicho conjunto, adems de llevar a la prctica este tema
en su vida cotidiana.

TABULACIN Y ORGANIZACIN DE DATOS


En este tema trabajaremos la tabulacin y organizacin de datos. Para poder comenzar
primero debemos de conocer lo que es la tabulacin.
Los datos son medidas y/o nmeros recopilados a partir de la observacin. Los datos
pueden concebirse como informacin numrica necesaria para ayudar a tomar una
decisin con ms bases en una situacin particular.
Hay datos que pueden ser de mucha utilidad a diferentes profesionales en la toma de
decisiones, para resolver problemas o para mostrar resultados de investigaciones. Una
vez que se haya recogido toda la informacin, se procede a crear una base de datos,
donde se registran todos los datos obtenidos.
Algunas veces, si los datos son muy complicados, se codifican, esto quiere decir que se le
coloca una palabra clave que identifica un ttulo muy largo. Cuando ya est elaborada la
base de datos se parece a una tabla.
Existen muchos mtodos mediante los cuales se pueden obtener datos necesarios.
Primero, se puede buscar datos ya publicados por otras fuentes. Segundo, se puede
disear un experimento. En tercer lugar, se puede conducir un estudio. Cuarto, se pueden
hacer observaciones del comportamiento, actitudes u opiniones de los individuos en los
que se est interesado.
Los datos se pueden clasificar en:

Datos discretos. Son respuestas numricas que surgen de un proceso de


conteo.
Datos continuos. Son respuestas numricas que surgen de un proceso de
medicin

La tabulacin de datos consiste en hacer un recuento de los datos que estn contenidos
en una encuesta.
Los resultados de las tabulaciones son presentados en tablas o mapas grficos que
muestren las relaciones que existen entre las diferentes variables analizadas.
Es importante recordar que nunca se colocan las tablas y las grficas juntos, porque en
realidad dicen lo mismo, corrientemente se utiliza o una tabla y su anlisis, o una grfica y
su anlisis.
A continuacin se podrn observar los ejercicios que realizamos con el fin de comprender
mejor lo que es la tabulacin y organizacin de datos.

Ejemplos de aplicacin:
EJERCICIO 1:
Se tienen las edades de 30 pacientes que fueron atendidos en el hospital de las horas
10:00 a.m. a 11:00 a.m.:
18

58

20

81

45

15

11

27

33

36

46

65

46

72

12

28

75

28

67

23

33

29

68

17

44

45

a) Tabular las edades en orden creciente.


Edad
1.

2.

3.

4.

5.

11

6.

12

7.

15

8.

17

9.

18

10

20

11. 23
12. 27
13. 28
14. 28
15. 29
16. 33

17. 33

18.

36

19.

44

20.

45

21.

45

22.

46

23.

46

24.

58

25.

65

26.

67

27.

68

28.

72

29.

75

30.

81

EJERCICIO 2:
Se realiz una encuesta a 20 personas de diferentes localidades del Distrito Federal
acerca de cuantas personas vivan en su casa. Aqu se encuentran los resultados:
4

a) Tabular la cantidad de personas en orden creciente.

N de personas que viven


En cada casa.
1.

14.

2.

15.

3.

16.

4.

17.

5.

18.

6.

19.

7.

20.

8.

9.

10

11.

12.

13.

EJERCICIO 3:

Se realiz una encuesta a 25 personas acerca de la edad en la cual aprendieron a


manejar. A continuacin los resultados:
16

20

17

15

13

14

16

19

18

17

17

15

16

17

16

18

18

19

14

17
6

15

17

13

16

14

a) Tabular la edades en forma creciente:

Edad
1.

13

2.

13

3.

14

4.

14

5.

14

6.

15

7.

15

8.

15

9.

16

10

16

11.

16

12.

16

13.

16

DISTRIBUCIN
DE
FRECUENCIAS:
ABSOLUTA, RELATIVA, ACUMULADA
En este tema vamos a hablar sobre la
distribucin de frecuencias.
La distribucin de frecuencias o tabla de
frecuencias es una ordenacin en forma de
tabla de los datos estadsticos, asignando a
cada dato su frecuencia correspondiente.

14.

17

15.

17

16.

17

17.

17

18.

17

19.

17

20.

18

21.

18

22.

18

23.

19

24.

19

25.

20

Hay diferentes tipos de frecuencias estas son: absolutas, acumulada, relativa, relativa
acumulada y acumulada complementaria.
7

FRECUENCIA ABSOLUTA: La frecuencia, tambin llamada frecuencia simple o absoluta,


se define como el nmero de veces que aparece un dato xi, y se denota por f.
x

1.52

1.53

1.57

1.58

1.60

1.64

1.66

1.74

1.76

1.79

FRECUENCIA ACUMULADA: es la suma de las frecuencias absolutas de todos los


valores menores o iguales al valor xi, y se representa por Fa.
FRECUENCIA RELATIVA es el nmero de veces que aparece cada valor de la variable
Xi, es decir cada dato, dividida entre el tamao de la muestra. Se representa con f r, y se
tiene que:

Estatura

Frecuencia

Xi

Frecuencia
Relativa
fr

= 0.1250
1.52

1.53

1.57

1.58

1.60

1.64

1.66

1.74

1.76

1.79

0.1250
0.0625
0.1250
0.0625
0.1875
0.1250
0.0625
0.0625
0.0625

FRECUENCIA RELATIVA ACUMULADA: es la suma de las frecuencias relativas de


todos los valores menores o iguales al valor xi, (o dividiendo las frecuencias acumuladas
entre el tamao de muestra), y se representa por Fra...
Estatura

Frecuencia

Xi

Frecuencia
Relativa

Frecuencia
Acumulada

Fr

Fa

Frecuencia
Relativa
Acumulada
Fra.

1.52

0.1250

2/16 = 0.1250

1.53

0.1250

2+2=4

4/16 = 0.2500

1.57

0.0625

2+2+1=5

5/16 = 0.3125

1.58

0.1250

2+2+1+2=7

0.4375

1.60

0.0625

0.5000

1.64

0.1875

11

0.6875

1.66

0.1250

13

0.8125

1.74

0.0625

14

0.8750
9

1.76

0.0625

15

0.9375

1.79

0.0625

16

1.0000

A continuacin presentamos algunos ejemplos de aplicacin para el refuerzo del tema de


distribucin de frecuencias.

EJERCICIO 1:
Se realiz una encuesta a 25 personas para saber a qu edad empezaron a consumir
bebidas alcohlicas. Estos fueron los resultados.

15

14

16

15

17

16

19

12

13

20

14

17

15

17

15

18

16

18

16

14

13

15

14

15

16

1. Tabular las edades en orden creciente.


2. Agrupar los datos en 5 eventos definiendo sus lmites reales inferior y
superior.
3. Obtener sus frecuencias absolutas, relativas, acumuladas y relativas
acumuladas.

10

1.
2.
3.
4.
5.
6.
7.
8.
9.
10
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.

Edad
12
13
13
14
14
14
14
15
15
15
15
15
15
16
16
16
16
16
17
17
17
18
18
19
20

Clase

Xi

Fi

F. ac

F. reli

F. rel ac

F.ac comp

10 - 12

11

0.04

0.04

0.96

12 - 14

13

0.24

0.28

0.72

14 - 16

15

11

18

0.44

0.72

0.28

16 - 18

17

23

0.2

0.92

0.08

18 - 20

19

25

0.08

1.00

0.00

25

1.00

INTERPRETACIN DE RESULTADOS: Como podemos observar en


nuestra tabla de frecuencias la edad en donde la mayora de las
personas empiezan a consumir bebidas alcohlicas se encuentra en el
grupo c que contiene las edades de entre 14 16 aos. Conforme a
estos resultados podemos deducir que el 92% de los adolescentes de
esta encuesta consume alcohol antes de cumplir su mayora de edad.

EJERCICIO 2:
Para conocer un poco ms acerca del inters de las personas en las redes sociales, se
hizo una encuesta a 20 de ellas para saber con cuantas redes sociales cuenta. Se pueden
observar los resultados a continuacin:

10

11

1. Tabular la(s) cantidad(es) de redes sociales en orden creciente.


2. Agrupar los datos en 5 eventos definiendo sus lmites reales inferior y superior.
3. Obtener sus frecuencias absolutas, relativas, acumuladas y relativas
acumuladas.
Edad
1.

2.

3.

4.

5.

6.

7.

8.

9.

10

11.

12.

13.

14.

15.

16.

17.

18.

19.

10

20.

10

Xi

Fi

F. ac

F. reli

F. rel ac

F.ac comp

02

0.05

0.05

0.95

24

0.35

0.4

0.6

46

14

0.3

0.7

0.3

68

16

0.1

0.8

0.2

8 10

20

0.2

1.00

0.00

20

1.00

12

INTERPRETACIN DE RESULTADOS: Con estos datos podemos observar que la


mayora de las personas cuentan con la cantidad de redes sociales del grupo b
que tiene las cantidades de
2 4. Esto nos muestra que son 7 personas de 20 y
que si fueran 100 personas serian 35 quienes tendran las cantidades del grupo b.
Y las personas que cuentan del grupo que contiene el mnimo de redes sociales
hasta el grupo que cuenta con las cantidades que se repiten ms frecuentemente
son el 40%.

EJERCICIO 3:
Se encuestaron a 25 personas con tendencia a fumar tabaco para conocer a que edad
empezaron a tener un consumo frecuente de este. Observa los resultados:
16

15

17

16

22

13

18

19

15

21

17

16

20

18

17

16

17

17

13

18

15

14

16

17

15

1. Tabular las edades en orden creciente.


2. Agrupar los datos en 5 eventos definiendo sus lmites reales inferior y
superior.
3. Obtener sus frecuencias absolutas, relativas, acumuladas y relativas
acumuladas.

13

Edad

13.

17

1.

13

14.

17

2.

13

15.

17

3.

14

16.

17

4.

15

17.

17

5.

15

18.

17

6.

15

19.

18

7.

15

20.

18

8.

16

21.

18

9.

16

22.

19

10

16

23.

20

11.

16

24.

21

12.

16

25.

22

Clases

Xi

Fi

F. ac

F. reli

F. rel ac

F.ac comp

12 14

13

0.12

0.12

0.88

14 16

15

12

0.36

0.48

0.52

16 18

17

21

0.36

0.84

0.16

18 20

19

23

0.08

0.92

0.08

20 22

21

25

0.08

1.00

0.00

25

1.00

INTERPRETACIN DE RESULTADOS: Como podemos observar en nuestra tabla de


frecuencias la edad en donde la mayora de las personas empiezan a fumar tabaco
se encuentran en el grupo b y c que contiene las edades de entre 14 18.
Conforme a estos resultados podemos deducir que el 72% de las personas que
fuman tabaco en esta grfica se encuentran en la edades de entre 14 y 18 aos.
14

PRESENTACION GRFICA DE DATOS


En estadstica se representan las tablas donde se ha recolectado toda la informacin, de
modo esquemtico y estas estn preparadas para los siguientes clculos. La estadstica
recolecta datos y estos son procesados para sintetizarlos, a fin de facilitar el anlisis. Las
grficas estadsticos nos transmiten informacin de modo ms expresivo, fcil de
entender, nos van a permitir, a simple vista, entender lo que se nos est exponiendo,
observar caractersticas ms importantes, sacar conclusiones sobre la muestra donde se
est realizando el estudio.
Los grficos estadsticos son muy tiles para comparar distintas tablas de frecuencia.
Existen diferentes tipos de grficas para representar los datos estos son:

HISTOGRAMAS
Se emplea cuando la variable independiente es categrica. Consiste en un grfico de
barras o rectngulos cuya altura corresponde a la frecuencia de cada valor o de cada
intervalo localizada sobre el eje vertical.
Cada barra slida, ya sea vertical u horizontal representa un tipo de dato.

Para datos no agrupados, cada frecuencia se representa por una barra cuya rea
sea proporcional a ella. Tpicamente, el ancho de cada barra se escoge como 1 y
as, la altura y el rea de la barra son iguales a la frecuencia del valor.
Para datos agrupados, el ancho de los rectngulos corresponde al tamao de los
intervalos de clase. Las barras, por lo tanto, son contiguas, y se encuentran
centrados en las marcas de clase.

Cuando es necesario representar divisiones de datos se utiliza un grfica de barras


subdivididas. Los histogramas de frecuencias pueden construirse no slo con las
frecuencias absolutas, sino tambin con las frecuencias acumuladas y las
frecuencias relativas. En este ltimo caso el histograma recibe el nombre de Histograma
de frecuencias relativas, Histograma de porcentajes o Histograma de proporciones.

POLIGONO DE FRECUENCIAS
Se utilizan para variables estadsticas cuantitativas, discretas o continuas. Para una
variable discreta, el polgono de frecuencias se obtiene uniendo por una poligonal, los
extremos superiores de las barras. Para una variable continua, el polgono de frecuencias
se obtiene uniendo por una poligonal los puntos medios de la base superior de los
polgonos del histograma.
Las escalas utilizadas para representar los polgonos de frecuencias influyen mucho por el
impacto visual de los mismos.

15

Para datos no agrupados, se trazan los puntos que corresponden a los valores de
la variable cuantitativa y la frecuencia (absoluta o relativa), a continuacin se unen
los puntos mediante segmentos de recta, los extremos se unen con el eje
horizontal con el primer valor menos una unidad y el extremo derecho ms una
unidad.
Para datos agrupados los vrtices tienen como coordenadas las marcas de clase y
las frecuencias correspondientes. Se debe cerrar sobre el eje horizontal en dos
puntos que corresponden a las marcas de clase de dos intervalos, uno anterior y el
otro posterior al primero y al ltimo intervalo, cuya frecuencia es cero.

DIAGRAMA DE BARRAS
Un diagrama de barras se utiliza para representar datos cualitativos o cuantitativos de tipo
discreto. Se representan sobre unos ejes de coordenadas, en el eje de las abscisas se
colocan los a valores de la variable y sobre el eje de ordenadas las frecuencias absolutas
o relativas acumuladas. Los datos son representados mediante barras de una altura
proporcional a la frecuencia.
Es la ms sencilla de las grficas y consiste en representar datos mediante una barra o
columna simple, la cual puede ser colocada horizontal o verticalmente.
Permite comparar las proporciones que guardan cada una de las partes con respecto al
todo, por lo que pueden construirse usando valores absolutos, proporciones o bien
porcentajes. Suelen utilizarse cuando se comparan grficamente las distribuciones de
iguales conceptos en dos o ms periodos.
La forma de elaborar estos diagramas es la siguiente:

Sobre unos ejes de coordenadas se representan en las abscisas los diferentes


valores de la variable y en las ordenadas las frecuencias.
Sobre cada valor de la variable se levanta una barra cuya altura sea la frecuencia
correspondiente.
Esta representacin ser un conjunto de barras; por ello se denomina diagrama de
barras.

DE PAY
Se utilizan para representar porcentajes y proporciones. El nmero de elementos
comparados dentro de un grfico circular puede ser de ms de 4.
Al igual que en la grfica de barras, el empleo de tonalidades o colores facilita la
diferenciacin de los porcentajes o proporciones. A diferencia de otros tipos de grficos, el
circular no tiene ejes x o y.

16

OJIVAS
La ojiva es la distribucin de frecuencias, en ella podemos observar cuantas se
encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los nmeros
asignados de cada intervalo.
La ojiva apropiada para presentar frecuencias mayores que el dato que se est
comparando tendr una pendiente negativa, es decir estar hacia abajo y a la derecha, y
si se asignan valores menores esta tendr una pendiente positiva. Se obtiene al aplicar
parcialmente la misma tcnica a una distribucin acumulativa, y las ojivas mayor que y
menor que.
Consiste en un polgono de frecuencias acumuladas, por lo tanto es una grfica de lneas
generalmente ascendente.

Para datos no agrupados se trazan los puntos que corresponden a los valores de
la variable cuantitativa y la frecuencia (acumulada o relativa acumulada), a
continuacin se unen los puntos mediante segmentos de recta, el extremo derecho
no se une con el eje horizontal.
Para datos agrupados los vrtices tienen como abscisa los valores de la variable
representados por los lmites reales superiores y como ordenada la frecuencia
acumulada o frecuencia relativa acumulada (ojiva porcentual).

MEDIDAS DE TENDENCIA CENTRAL:

Media o promedio aritmtico:


Es una medida de tendencia central de un conjunto de datos, tal que la suma de las
desviaciones de todas sus observaciones, desde esta medida, es igual a cero.
Cuando se dispone de datos no agrupados, la media aritmtica se puede calcular con
precisin al sumar todos los valores observados y dividir Calculo para datos no
agrupados: el total entre el nmero de observaciones.
Calculo para datos agrupados:
Se debe calcular partiendo de una distribucin de frecuencias; es preferible utilizar datos
agrupados para agilizar los clculos. Cada punto medio se multiplica por la frecuencia
absoluta de clase y la suma de estos productos se divide entre el valor de la poblacin.

Media geomtrica:
17

La media geomtrica (MG), de un conjunto de nmeros positivos se define como la ndel producto de los nmeros. Por tanto, la frmula para la media geomtrica es dada por
Existen dos usos principales de la media geomtrica:

Para promediar porcentajes, ndices y cifras relativas

Para determinar el incremento porcentual promedio en ventas, produccin u otras


actividades o series econmicas de un periodo a otro.

Mediana:
Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados
de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar slo para variables cuantitativas.
Clculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la
mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre .

Moda:
La moda es el valor que tiene mayor frecuencia absoluta.
Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia
es la mxima, la distribucin es bimodal o multimodal, es decir, tiene varias mo.

Cuartiles:
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los
datos.
Q2 coincide con la mediana.

Deciles:

18

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.

Percentiles:
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
P50 coincide con D5.

Trimedia:
La trimedia es el valor de la variable que se encuentra en un promedio, manejando el
primer cuartil, ms el segundo cuartil, ms el tercer cuartil y se divide entre cuatro

MEDIDAS DE DISPERSION
A las Medidas de Dispersin tambin se les
llama Medidas de Variacin. La variacin es la
cantidad de dispersin, o separacin, que
presentan los datos. Miden que tanto se
dispersan las observaciones alrededor de su
media.

Mientras mayor sea la amplitud de la curva en la


grfica, menor ser su dispersin, y si su
amplitud es menor mayor es su dispersin.

6
5
4
3
2
1
0

0.6
0.4
0.2
0
0

19

Una medida de dispersin sirve para evaluar la confiabilidad de 2 o ms medidas de


ubicacin.

RANGO O RECORRIDO
El rango mide la amplitud existente de los valores de un conjunto de nmeros y esta se
calcula mediante la diferencia entre el valor ms elevado (Lmite superior) y el menor de
todos ellos (Lmite inferior). En otras palabras representa la diferencia entre los valores
mximo y mnimo de un conjunto de datos.
Su frmula para obtenerlo es R = xn x1
Donde:
R: Rango
Xn: Valor ms elevado
X1: Valor ms bajo

RECORRIDO INTERCUARTILICO
Como consecuencia de los problemas que presenta el recorrido, en particular su
inestabilidad al considerar muestras diferentes o bien cuando se aaden nuevos
individuos, a veces se usa otro ndice de dispersin con datos ordinales, el recorrido
intercuartlico. Se calcula dividiendo en primer lugar los datos (previamente ordenados) en
cuatro partes iguales, obteniendo as los cuartiles Q1, Q2 y Q3; la diferencia entre el cuartil
Q3 y el Q1 es el recorrido intercuartlico, y abarca el 50% de los datos.
Su frmula para obtenerlo es RI= Q3 Q1
Donde:
RI: Rango Intercuartlico
Q3: tercer cuartil
Q1: primer cuartil

DESVIACION PROMEDIO
La desviacin promedio es la media aritmtica de los valores absolutos de las
desviaciones respecto a la media, la frmula de la desviacin promedio es

Donde:
| |: Indica el calor absoluto
Xi: Es el valor de cada observacin
20

: Es la media aritmtica de los valores


n: Numero de observaciones de la muestra

Ejemplos de aplicacin:
De cada uno de los 3 ejercicios obtenga su rango, recorrido intercuartlico y desviacin
promedio.
1. Hubo cinco representantes de servicio al cliente que trabajaron en Electronic Super
Store durante la pasada venta de fin de semana. Las cantidades de HDTV que vendieron
estos representantes son: 5, 8, 4, 10 y 3.
Rango: 10 3= 7

Datos ordenados: 3, 4, 5, 8, 10

R=7

Rango intercuartlico
Q1:

1.5 ->

Q3:

4.5 ->

Q1=3.5 RI: 8.5 3.5= 5

RI=5

Q3= 8.5

Desviacin Promedio
|

2. Una muestra de ocho compaas de la industria aeronutica participaron en una


encuesta sobre la recuperacin de la inversin que tuvieron el ao pasado. Los resultados
(en porcentaje) son los siguientes: 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.8
Datos ordenados: 10.6, 12.0, 12.2, 12.6, 14.8, 14.8, 15.8, 18.2
R: 18.2 10.6= 8.4
R=8.4
Rango intercuartlico
Q1:

2.25 ->

Q3:

Q1=12.05

RI: 15.55 12.05= 3.5

RI=3.5

6.75-> Q3= 15.55

Desviacin Promedio
|

21

3. Diez adultos jvenes que viven en California, elegidos al azar, calificaron el sabor de
una nueva pizza de sushi con atn, arroz y kelp en una escala de 1 a 50, en la que el 1
indica que no les gusta el sabor y 50 que si les gusta. Las calificaciones fueron las
siguientes: 34, 39, 40, 46, 33, 31, 34, 14, 15 y 45
Datos ordenados: 14, 15, 31, 33, 34, 34, 39, 40, 45, 46 R: 46- 14: 32
R= 32
Rango intercuartlico
Q1:

2.75 -> Q1=27 RI: 41.25 27=

Q3:

RI=14.25

8.25-> Q3= 41.25

Desviacin Promedio
|

VARIANZA
Es una medida de variabilidad que indica qu tanto se alejan (o se acercan) las distintas
observaciones al punto indicado por la media aritmtica de los propios datos. Existen dos
frmulas para la varianza
Datos Agrupados
Se denota por

, y se tiene:

Donde:
: Smbolo de la varianza
Xi: es el valor de un conjunto de datos
: es la media aritmtica
n: es el nmero de observaciones
E= sumatoria

Datos no agrupados

22

DESVIACION ESTANDAR
Un inconveniente de la varianza es que sus unidades de medicin se encuentran al
cuadrado, por lo que no se puede comparar con la media aritmtica. Debido a esto, se
define la Desviacin Estndar como la raz cuadrada de la varianza.
Datos agrupados

Donde:
S: es el smbolo de la desviacin
Xi: es el valor de nuestra marca de clase
: es la media aritmtica
N: es el nmero de observaciones
Datos no agrupados

COEFICIENTE DE VARIACION
El coeficiente de variacin es una medida relativa de la variacin. Mide la dispersin de
los datos con respecto de su media.
( )

Se denota por CV y se expresa en porcentaje:

El coeficiente de variacin se utiliza principalmente cuando se desea comparar dos


distribuciones de frecuencia que tienen diferente unidad de medida.

Ejemplo de aplicacin (datos agrupados):


La siguiente tabla muestra la distribucin de frecuencias de la edad de 57 personas que
trabajan en la delegacin Benito Jurez, en la Cd. de Mxico. Obtener Varianza, D.E Y
Coeficiente de variacin
Intervalo de
Clase

Marca de
clase

Frecuencia

23

16 - 22

19

-10.6

112.36

1011.24

23 29

26

26

-3.6

12.96

336.96

30 36

33

11

3.4

11.56

124.16

37 43

40

10.4

108.16

324.48

44 50
51 - 57

47
54

4
2

17.4
24.4

302.76
595.36

1211.01
1190.72

= 4201.60
x = 29.6
Varianza

= 77.8074

Desviacin Estndar S

= 8.8208

Coeficiente de Variacin CV =

= 29.80%

Interpretacin de datos
S: La edades de tales personas se desvan en promedio 8.82 aos de su media.
CV: Las estaturas varan 29.80% con respecto a su media
Ejemplo de aplicacin (datos no agrupados):
En un grupo, se observ la estatura de 16 alumnos y se obtuvieron los siguientes datos
(ya ordenados):
Estatura
1.52
1.53
1.57
1.58
1.6
1.64
1.66
1.74
1.76
1.79

Frecuencia
2
2
1
2
1
3
2
1
1
1

-0.1025
-0.0925
-0.0525
-0.0425
-0.0225
0.0175
0.0375
0.1175
0.1375
0.1675

0.01051
0.00856
0.00276
0.00181
0.00051
0.00031
0.00141
0.01381
0.01891
0.02806

0.02101
0.01711
0.00276
0.00361
0.00051
0.00092
0.00281
0.01381
0.01891
0.02806

= 1.6225

24

Varianza:
Desviacin Estndar:

Coeficiente de variacin: CV=


Interpretacin de datos:
S: Las estaturas de los estudiantes se desvan en promedio 8.54 cm. de su media.
(Equivalente a 0.08544 m.)
CV: Las estaturas varan 5.266% con respecto a su media
La dispersin indica que tan cercanos o lejanos se encuentran los valores unos de otros.
Dichos valores pueden pertenecer a un conjunto de datos agrupados (distribuciones de
frecuencias) o no agrupados (ordenados de acuerdo a su magnitud). Las medidas de
dispersin que son ms comunes son: rango, desviacin media, desviacin estndar,
varianza. Las medidas de dispersin que utilizan la media como referencia son:
desviacin media, desviacin estndar, varianza. Las medidas de dispersin vistas
fueron para datos mustrales.

MEDIDAS DE FORMA
Son las que nos ayudan a describir la forma que toma una distribucin de datos

ASIMETRA O SESGO
Las curvas que representan una serie de datos de la variable, pueden ser simtricas o
asimtricas (sesgadas), esto se debe a que en algunos casos ciertos valores demasiado
elevados afectan a la media, haciendo que la distribucin de la curva tienda hacia alguno
de los extremos.
En el caso de las curvas simtricas, su rea es dividida exactamente en dos partes
iguales, por ejemplo la curva de campana. Por lo tanto la media, mediana y moda se
ubicaran en el centro, y tendrn el mismo valor.

Asimetra positiva: Es cuando los valores de la distribucin de frecuencia de una curva


tienden a la derecha, en esta curva la moda es el punto ms alto, la mediana es el punto
25

medio, mientras que la media siempre tiende a ubicarse hacia la cola de la distribucin
porque siempre se afectar por los valores extremos. ( >Me>Mo.)

Asimetra negativa: Es cuando los valores de la distribucin de frecuencia de la curva


tienden a la izquierda, es decir disminuye gradualmente hacia el extremo inferior de la
escala. ( <Me<Mo).

El sesgo nos sirve para comprender la relacin de la media, la mediana y la moda, en


una distribucin de una sola cima e identificar si los datos se distribuyen de forma
uniforme alrededor del punto central. Cuando los datos estn ligeramente sesgados, se
prefiere la mediana como medida de localizacin.
A la medida estadstica que cuantifica el sesgo de un conjunto de datos se le llama
coeficiente de sesgo (CS).
Existen varias frmulas para obtener el CS,
Coeficiente asimetra:
Para datos no agrupados:

Datos agrupados:

CS: *

CS:

Donde:
Xi =observacin (dato) i
fi= frecuencia absoluta del intervalo i

s = desviacin estndar
n = nmero de datos en la muestra

Media aritmtica de la muestra


La interpretacin debe realizarse de la siguiente manera:
Si CS= 0 entonces los datos de la curva se distribuyen de manera simtrica
Si CS > 0 entonces los datos de la curva son sesgados a la derecha (asimetra positiva)
Si CS<0 entonces los datos de la curva son sesgados a la izquierda (asimetra negativa)
26

El coeficiente de asimetra de Bowley CAB.

El coeficiente de asimetra de Pearson CAP. Este procedimiento, es menos usado.

CURTOSIS (ESTADIGRAFOS DE APUNTAMIENTO)


La Curtosis es la medida de altura de la curva de una distribucin de frecuencias, que se
observa en la regin del modo, comparada con condiciones halladas para el mismo sitio
en una curva normal. Es decir con ella podemos observar que tan concentrados se
presentan los valores en la regin central de la distribucin.
Si existe una gran concentracin de valores la curva ser ms aguda o elevada que la
normal y se llamar Leptocrtica. Cuando hay una concentracin normal la curva se
distribuye simtricamente y recibe el nombre de Mesocrtica. Cuando hay una baja
concentracin de valores, o sea una curva ms plana que la normal se llamar
Platicrtica.

La Curtosis se determina por medio del coeficiente de curtosis, el cual se denota como
CC y se define de la siguiente manera:
Para datos no agrupados:
CC= [

+ ]

Dnde:
Xi =observacin (dato) i
= media aritmtica de la muestra

n = nmero de datos en la muestra


s = desviacin estndar

Para datos agrupados en una tabla de distribucin de frecuencias:


Donde:

27

CC=
Xi =observacin (dato) i

fi=frecuencia absoluta del intervalo i

n = nmero de datos en la muestra

= media aritmtica de la muestra

s = desviacin estndar de la muestra k= nmero total de clases o intervalos


El CC se interpreta de la manera siguiente:
Si CC =3 entonces los datos de la curva se distribuyen de manera simtrica en forma de
una curva de distribucin normal estandarizada.
Si CC >3 entonces los datos de la curva presentan un pico mayor que los de la curva de
distribucin normal estandarizada.
Si CC <3 entonces los datos se presentan ms aplanados que los de la curva distribucin
normal.

Ejemplos de aplicacin:
Ejemplo 1
1. Planteamiento: Los ingresos mensuales $ que reciben 15 ejecutivos medios en la
ciudad de Guadalajara se muestran a continuacin:
10000 10500 11500 10500 10300 10000 9900 11000 11000 11000 10500 10300 11500
11400 11000
n=15
Calcule el coeficiente de asimetra y el coeficiente de curtosis para determinar el
comportamiento de la serie de datos
Desarrollo matemtico:
Asimetra:
+

CS= *

+
ys

Necesitaremos calcular

s=
s=

s2 =

= 10693.33

= 299238.0964

= 547.03

28

xi

(xi - )

(xi - )2

10000

-693.33

480706.49

-2.00

-2.52

10500

-193.33

37376.49

-0.04

-0.01

11500

806.67

650716.49

3.17

4.66

10500

-193.33

37376.49

-0.04

-0.01

10300

-393.33

154708.49

-0.35

-0.25

10000

-693.33

480706.49

-2.00

-2.52

9900

-793.33

629372.49

-3.04

-4.42

11000

306.67

94046.49

0.17

0.1

11000

306.67

94046.49

0.17

0.1

11000

306.67

94046.49

0.17

0.1

10500

-193.33

37376.49

0.04

-0.01

10300

-393.33

154708.49

-0.35

-0.25

11500

806.67

650716.49

3.17

4.66

11400

706.67

499382.49

-1.66

2.76

11000

306.67

94046.49

0.17

0.1

total=160400

total=0.05

total=4189333.35

total= -2.42

total= 2.49

]3

]4

Sustituyendo los valores nos da:


CS= *

+[

CS= *

+[

CS= (0.08) (-2.42) = -0.19 resultado final

29

INGRESOS MENSUALES

INGRESOS
4
2
0
9900 10000 10300 10500 11000 11400 11500

Curtosis:

CC= [

+ ]

Necesitaremos calcular los siguientes valores

s=

s2 =

s=

= 10693.33
= 299238.0964

= 547.03

Sustituyendo los valores anteriores en la formula tenemos que:

CC= [
CC= [
CC= [

+ ]
]

*
*

+ ]

CC= 0.27-3.76= -3.49 resultado final

Interpretacin de resultados:
Como -0.19<0 la curva esta sesgada a la izquierda, es decir tiene asimetra negativa.
La moda que es de $11000 es mayor que la mediana y la media, siendo esta ltima
$10693.33 vindose afectada por ciertos valores bajos causando este sesgo, por lo
cual en este caso nos convendra usar la mediana en lugar de las dos medidas
anteriores. En conclusin no por ser la moda $11000, o la mediana $10693.33 la
mayora de ingresos de los empleados ronda esa cantidad, sino ms bien $10500
que es la mediana. Como 3.39 >3 entonces los datos de la curva, en este caso los
ingresos mensuales, presentan un pico mayor que los de la curva de una
distribucin normal estandarizada.
Ejemplo 2
30

2. Planteamiento: Debido a que las tasas de inters cayeron a comienzos de 1997, se


encontr que una muestra de las tasas hipotecarias para hipotecas a 15 aos de las
instituciones de crdito en Peoria, Illinois era:
7.1%,7.3%,6.3%, 6.7%,6.8%, 6.5%, 7.5% n=7
Calcule el coeficiente de Pearson como medida de sesgo y el CC:
Desarrollo matemtico:
Asimetra:

Necesitaremos los siguientes datos:


=

= 6.8

QMd=

6.3%, 6.5%, 6.7% 6.8%, 7.1%, 7.3%, 7.5% Md= 6.8%


s=

s2 =

= 0.19 s=

Sustituyendo los datos anteriores en la frmula:


P=
xi

=0 resultado final
(xi - )

(xi - )2

(xi

)/s

(xi
)/s4

6.3%

-0.5

0.25

-1.14

-1.690

6.5%

-0.3

0.09

-0.68

-0.210

6.7%

-0.1

0.01

-0.23

-0.002

6.8%

0.00

0.00

0.000

7.1%

0.3

0.09

0.68

0.210

7.3%

0.5

0.25

1.14

1.690

7.5%

0.7

0.49

1.60

6.550

=48.2

=1.18

=6.548

31

TASAS DE INTERES
8.00%
7.00%
TASAS DE
INTERES

6.00%
5.00%
1

TASAS DE INTERES
TASAS DE
INTERES

8.00%
7.00%
6.00%
5.00%
1

Curtosis:
CC= [

CC=[
CC=*

+[

+ ]

+ ]

*
*

+
+

+= 3.051-9.6= -6.54 resultado final

Interpretacin de resultados:
Como el resultado del coeficiente de asimetra de Pearson fue 0, quiere decir que
los datos de las tasas de inters se distribuyen de una manera simtrica, como se
puede observar ms claramente en la grfica de barras. Por lo tanto su media,
mediana y moda son iguales. Seria confiable usar el 6.8% de intereses como
referencia de la disminucin de las tasas de inters que hubo en 1997 en Peoria. Su
CC fue de -6.54, por lo cual se trata de una curva Platicrtica, es decir con un pico
menor que el de una curva normal.

Ejemplo 3
3. Planteamiento: En una
siguientes alumnos:

clase de ingls, se tom la muestra de la edad de los

32

EDADES
1. 19

10. 21

2. 19

11. 22

3. 19

12. 22

4. 20

13. 23

5. 20

14. 33

6. 20

15. 33

7. 20

16. 34

8. 20

17. 46

9. 21

Determina el sesgo por medio del coeficiente de Bowlye.

Desarrollo matemtico:

Primero necesitamos sacar los valores de Q1, Q2 y Q3


Q1=

= 4.5= 4 + 0.50

Q1=20
Q2=

=9

Q2=21
Q3=

=13.5

X14-X13=33-23=10
0.75*10=7.5
Q3= 23+7.5=30.5
33

Sustituyendo los valores anteriores en la formula tenemos que:


CAB=

= 0.80 resultado final

Curtosis:

CC= [

+ ]

Necesitamos obtener los siguientes valores:


=

=24.23

S=

=7.61

xi

(xi- )

(xi- )2

(xi- )/s

19

-5.23

27.35

-0.69

0.22

19

-5.23

27.35

-0.69

0.22

19

-5.23

27.35

-0.69

0.22

20

-4.23

17.89

-0.56

0.09

20

-4.23

17.89

-0.56

0.09

20

-4.23

17.89

-0.56

0.09

20

-4.23

17.89

-0.56

0.09

20

-4.23

17.89

-0.56

0.09

21

-3.23

-0.42

0.03

21

-3.23

-0.42

0.03

22

-2.23

-0.29

0.007

22

-2.23

-0.29

0.007

23

-1.23

1.51

-0.16

0.0006

33

8.77

76.91

1.15

1.76

33

8.77

76.91

1.15

1.76

34

9.77

95.45

1.28

2.71

46

21.77

473.93

2.86

66.97

total =412

10.43
10.43
4.97
4.97

total =927.01

]4

total= 74.38

34

Sustituyendo los valores anteriores en la frmula:


+[

CC= *
+[

CC=*

+=6.77-3.66= 3.11 resultado final

EDADES
EDADES

6
5
4
3
2
1
0
19

20

21

22

23

33

34

Interpretacin de resultados: Como el coeficiente de asimetra de Bowlye nos dio


0.80 y 0.80>0 los datos presentan asimetra positiva, es decir la media de los
valores, en este caso las edades se ve afectada por las de edades muy elevadas
como 33, 34 y 46 aos, que hacen que la distribucin tienda a la derecha. Por lo
cual la medida de tendencia central que se recomendara tomar en cuenta seria la
mediana por ser ms exacta. El CC es 3.11>3 esto quiere decir que la curva tiene
una distribucin Leptocrtica, ms elevada de lo normal es decir los datos muy
concentrados alrededor de la media.

CONCLUSION
La estadstica descriptiva es una herramienta matemtica que conjuga una serie de
indicadores numricos y grficos, as como los procedimientos con que stos se
construyen, para descubrir y describir, en forma abreviada y a travs de smbolos
precisos, la estructura inmersa en el conjunto de datos. Se dice que se conoce la
estructura cuando se sabe:
35

a) Lo que ocurre en ciertos puntos especficos de la distribucin de los datos.


b) En qu medida los valores de las observaciones difieren.
c) La forma general de la distribucin de los datos.
La confiabilidad y relevancia de los indicadores depende en buena medida de una
adecuada definicin del objeto bajo estudio y de la medicin correcta de sus atributos. De
hecho, se puede decir que de la manera en que se midan los atributos depender el tipo
de indicador que se puede construir.

BIBLIOGRAFA
MENDENHAL, W., & REINMUTH, J. E. (2000). Estadstica para administracin y
economa. D.F, Mxico: Grupo Editorial Iberoamrica S. A de C. V., 1981
SPIEGEL, M. R. Estadstica (2da ed.). D. F, Mxico: McGraw Hill. 1991
STEVENSON, W. J. Estadstica para administracin y economa. D. F, Mxico: Harla.
1981
LIND, Marchal, Wathen, Estadstica Aplicada a los negocios y la Economa. Editorial
McGraw-Hill, New York. 15 edicin. 2012
ANDERSON, R. David, Sweeney J. Dennis, Williams A. Thomas, Estadstica para
Administracin y Economa, Mxico, Thomson, 2008, (10a ed.), 1056 pp.
RODRIGUEZ Jess, PIERDANT Alberto. Estadstica para Administracin. Mxico.
Grupo editorial Patria. 2010, (1. Ed.) 370 pp.
DOUGLAS, A. Lind, William G. Marchal, Samuel A. Wathen, Estadstica Aplicada a los
Negocios y a la Economa, Mxico, McGraw-Hill, 2005, (12 ed.), 749 pp.
MARTNEZ, Ciro, Estadstica y muestreo, Colombia, ECOE, (13 ed.), 395pp.
36

37

You might also like