You are on page 1of 0

1

_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
CENTRO UNIVERSITARIO DE ORIENTE
CURSOS LIBRES
CURSO: ESTADISTICA BASICA
DOCENTE: LIC. ZOOT. LUIS VASQUEZ



Introduccin
Iniciamos con la definicin de algunos conceptos elementales y bsicos, y sin embargo
pilares, para una comprensin intuitiva y real de lo que es la estadstica. Pretendemos
introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numricos:
distinguir y clasificar las caractersticas en estudio, ensearle a organizar y tabular las
medidas obtenidas mediante la construccin de tablas de frecuencia y por ltimo los mtodos
para elaborar una imagen que sea capaz de mostrar grficamente unos resultados.
El aserto ``una imagen vale ms que mil palabras'' se puede aplicar al mbito de la
estadstica descriptiva diciendo que ``un grfico bien elaborado vale ms que mil tablas de
frecuencias''. Cada vez es ms habitual el uso de grficos o imgenes para representar la
informacin obtenida. No obstante, debemos ser prudente al confeccionar o interpretar
grficos, puesto que unas misma informacin se puede representar de formas muy diversas, y
no todas ellas son pertinentes, correctas o vlidas. Nuestro objetivo, en este captulo, consiste
en establecer los criterios y normas mnimas que deben verificarse para construir y presentar
adecuadamente los grficos en el mbito de la estadstica descriptiva.
Qu es la estadstica?
Cuando coloquialmente se habla de estadstica, se suele pensar en una relacin de
datos numricos presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del
concepto popular que existe sobre el trmino y que cada vez est ms extendido debido a la
influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de
difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo de
informacin estadstica sobre accidentes de trfico, ndices de crecimiento de poblacin,
turismo, tendencias polticas, etc.
Slo cuando nos adentramos en un mundo ms especfico como es el campo de la
investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a
percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica herramienta
que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier
tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca, no puedan ser
abordadas desde la perspectiva de las leyes deterministas. Podramos, desde un punto de vista
ms amplio, definir la estadstica como la ciencia que estudia cmo debe emplearse la
informacin y cmo dar una gua de accin en situaciones prcticas que entraan
incertidumbre.

ESTADISTICA
2
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Metodologa Estadstica

Los mtodos estadsticos son muy numerosos y variables, van desde descripciones
elementales, por ejemplo como hacer un cuadro estadstico; hasta procedimientos
matemticos complicados, solo del dominio de expertos, como el muestreo estadstico.

En toda investigacin, los mtodos estadsticos comprenden cinco reas:
a) Recopilacin
b) Organizacin
c) Presentacin
d) Anlisis
e) Interpretacin

Los mtodos estadsticos son de uso general, y pueden ser aplicados en cualquier campo,
es difcil encontrar una actividad en la que no sea til la estadstica.

Divisin de la estadstica

Estadstica Descriptiva
Es la parte de la estadstica que da los procedimientos para transformar los datos del
anlisis de un fenmeno colectivo, o sea que al calcular los valores del fenmeno o variable
en estudio: medidas de tendencia central, medidas de dispersin, etc., estas medidas
describirn el fenmeno completamente y para esto se vale de la recoleccin, presentacin,
tabulacin y anlisis de datos.

Los datos de una muestra los podemos describir en tres formas:

a) Tabular: la utilizaremos mediante la construccin de tablas.
b) Grfica: la utilizaremos cuando queramos representar informacin por medio
visual como histogramas o poligonos etc.
c) Aritmtica: la usaremos para calcular determinados nmeros cuya interpretacin
proporciona aspectos de la naturaleza del conjunto de datos. (Medidas de
Tendencia Central, Medidas de Dispersin y Coeficientes)

Estadstica Inferencial
La estadstica inferencial o inductiva es la parte de los mtodos estadsticos que ayuda
a conocer algn aspecto de la poblacin mediante el conocimiento de ciertos aspectos de la
muestra.

Los aspectos que generalmente deseamos conocer de una poblacin son: la estimacin
de un promedio o de un porcentaje, o la prueba de una hiptesis. La estimacin y la prueba de
hiptesis son dos partes importantes de la estadstica inferencial.

Las tcnicas de estimacin permiten como su nombre lo indica, estimar parmetros,
mediante valores estadsticos. Por ejemplo: puede estimarse la resistencia promedio de los
resortes producidos por una fbrica o el porcentaje de electores que votarn por un candidato,
en una eleccin presidencial.



3
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Distribucin de frecuencias

La tabla de frecuencias tiene como objetivo presentar en forma ordenada los valores
que toman las diferentes caractersticas obtenidas en una investigacin. Los datos se
clasifican y ordenan de acuerdo a las caractersticas cualitativas o cuantitativas, indicndose el
nmero de veces que se repite el atributo o variable.

Un conjunto de datos lo podemos organizar de diferentes maneras. La forma que se
elegir depender de la naturaleza de los datos, la cantidad de datos o el aspecto que se desea
describir.

Distribucin de frecuencias simples

Una distribucin de frecuencias simples nos indicar la frecuencia con que aparecen
los nmeros, desde el menor del conjunto de los datos hasta el mayor de ese conjunto o
viceversa.

Distribucin de frecuencias acumuladas

En una distribucin de frecuencias acumuladas (fa), escribiremos al principio de cada
posibilidad (x), el total de frecuencias correspondientes a sta x ms todas las
correspondientes a las x menores. Por lo que la f (sumatoria de las frecuencias)
corresponder siempre a las fa que figuran enfrente de la ltima posibilidad indicada en la
columna de las x.

Distribucin de frecuencias de valores agrupados en intervalos de amplitud constante

La distribucin de frecuencias es un mtodo estadstico que se utiliza para estudiar el
comportamiento de un conjunto de datos y consiste en arreglar los datos ordenndolos en
intervalos de clase e indicando el nmero de datos comprendidos encada clase.

Cuando los datos estadsticos de que se disponen son numerosos, se pueden organizar
y clasificar en una distribucin de frecuencias de valores agrupados en intervalos de amplitud
constante y variable.

D
DDi
iis
sst
ttr
rri
iib
bbu
uuc
cci
ii
n
nn d
dde
ee f
ffr
rre
eec
ccu
uue
een
nnc
cci
iia
aas
ss
La distribucin de frecuencias es como se denomina en estadstica a la agrupacin de
datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada
categora. Esto significa una de las cosas ms importantes de la matemtica, su estadstica con
la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas
de modo que se pueda ver el nmero existente en cada clase.
La tabla de frecuencias tiene como objetivo presentar en forma ordenada los valores
que toman las diferentes caractersticas obtenidas en una investigacin. Los datos se
clasifican y ordenan de acuerdo a las caractersticas cualitativas o cuantitativas, indicndose el
nmero de veces que se repite el atributo o variable.
4
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Un conjunto de datos lo podemos organizar de diferentes maneras. La forma que se
elegir depender de la naturaleza de los datos, la cantidad de datos o el aspecto que se desea
describir.
Comnmente llamada tabla de frecuencias, se utiliza para hacer la presentacin de
datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden
mediante la divisin en clases y registro de la cantidad de observaciones correspondientes a
cada clase. Lo anterior facilita la realizacin de un mejor anlisis e interpretacin de las
caractersticas que describen y que no son evidentes en el conjunto de datos brutos o sin
procesar. Una distribucin de frecuencias constituye una tabla en el mbito de investigacin.
La distribucin de frecuencias puede ser simple o agrupada.
Distribucin de frecuencias simples
Una distribucin de frecuencias simples nos indicara la frecuencia con que aparecen
los nmeros, desde el menor del conjunto de los datos hasta el mayor de ese conjunto o
viceversa.
Ejemplo:
Organizar en una distribucin de frecuencias simples, los punteos obtenidos en un
examen de estadstica por 30 alumnos.
58 76 88 45 58 76 48 60 78 58
75 82 53 60 79 55 65 80 57 72
82 50 60 78 57 68 82 53 60 80
Para organizar la distribucin, el primer paso es encontrar el dato menor y el dato
mayor. Podemos observar que el dato menor es 45 y el mayor es 88.
A continuacin listamos todos los nmeros en forma ascendente de menor a mayor o
en forma descendente de mayor a menor.
45 48 50 53 53 55 57 57 58 58
58 60 60 60 60 65 68 72 75 76
76 78 78 79 80 80 82 82 82 88
Despus contamos las veces que aparece cada nmero, poniendo una marca o tarjado a
la par del nmero cada vez que aparezca este; el nmero de marcas ser la frecuencia de cada
uno y representaremos la distribucin en la siguiente forma:
PUNTEOS TABULACION F
45 / 1
48 / 1
50 / 1
53 // 2
55 / 1
5
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

57 // 2
58 /// 3
60 //// 4
65 / 1
68 / 1
72 / 1
75 / 1
76 // 2
78 // 2
79 / 1
80 // 2
82 /// 3
88 / 1
f = 30
Distribucin de frecuencias acumuladas
En una distribucin de frecuencias acumuladas (fa), escribiremos al principio de cada
posibilidad (x), el total de frecuencias correspondientes a est x ms todas las
correspondientes a las x menos. Por lo que f (sumatoria de las frecuencias) corresponder
siempre a las fa que figuran enfrente de la ltima posibilidad indicada en la columna de las x.
Ejemplo:
Utilizaremos los datos del ejemplo anterior y de esa cuenta tendremos la siguiente
distribucin de frecuencias acumuladas.
PUNTEOS f Fa
45 1 1
48 1 2
50 1 3
53 2 5
55 1 6
57 2 8
58 3 11
60 4 15
65 1 16
68 1 17
72 1 18
75 1 19
76 2 21
78 2 23
79 1 24
80 2 26
82 3 29
6
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

88 1 30

f = 30

Datos agrupados y distribucin de frecuencias
Aunque un conjunto de observaciones puede hacerse ms comprensible y ms
significativo por medio de un arreglo ordenado, es ms til el resumen que se obtiene
mediante la agrupacin de datos. Antes de la era de las computadoras, uno de los principales
objetivos de la agrupacin de grandes conjuntos de datos era el de facilitar el clculo de varias
medidas descriptivas como porcentajes y promedios. Debido a que las computadoras pueden
ejecutar esos clculos sobre grandes conjuntos sin agrupacin previa, actualmente el propsito
principal de ello es el de resumir la informacin. Uno debe tener en mente que los datos
contienen informacin y que el resumen es una forma sencilla para determinar su naturaleza.
Al agrupar un conjunto de observaciones se debe de seleccionar un conjunto de
intervalos contiguos que no se traslapen, para que cada valor en el conjunto de observaciones
pueda ser puesto en uno y slo uno de los intervalos. Estos intervalos normalmente se
identifican como intervalos de clase.
Una de las primeras consideraciones cuando se agrupan datos es la de cuantos
intervalos se deben incluir. Resulta inadecuado incluir demasiado pocos intervalos, porque se
perdera la informacin. Por otro lado, si se utilizan muchos intervalos, el objetivo de resumir
no se consigue. La mejor gua en este caso, as como para otras decisiones tomadas con base
en datos agrupados, es el conocimiento de los datos. Puede ser que los intervalos de clase
queden determinados por los precedentes, como en el caso de las tabulaciones anuales, en las
que los intervalos de clase de los aos anteriores se conservan para propsitos comparativos.
Una regla emprica habitualmente seguida establece que debe ser entre seis y quince
intervalos. Si hay menos de seis intervalos, los datos se han resumido en exceso y la
informacin que contiene se pierde. Si hay ms de 15 intervalos, los datos no fueron
resumidos lo suficiente.
Una de las guas ms especficas para decidir cuntos intervalos de clase son
necesarios, pueden utilizar la frmula propuesta por Sturges
10
. Esta frmula se enuncia k = 1
+ 3.322(log
10
n), en donde k es el nmero de intervalos de clase y n es el nmero de valores
en el conjunto de datos en observacin. La respuesta que se obtiene con la regla de Sturges
no es definitiva y se debe de considerar nicamente como una gua. El nmero de intervalos
de clase especificado por la regla deber incrementarse o disminuirse por conveniencia y para
lograr una presentacin ms clara.
Por ejemplo, supngase que una muestra tiene 275 observaciones que se quieren
agrupar. El logaritmo de base 10 de 275 es 2.4393. Con la aplicacin de la frmula de
Sturges se obtiene que k = 1 + 3.322 (2.4393) 9. En la prctica, otras consideraciones
pueden sugerir el uso de 8 o menos, o quizs 10 o ms intervalos de clase.
Otra pregunta que se debe de responder se refiere a la dimensin del intervalo de clase.
Aunque algunas veces es imposible determinar esto ltimo, los intervalos de clase
generalmente tienen la misma dimensin. Esta se determina mediante la divisin de la
amplitud entre k, que es el nmero de intervalos de clase. Simblicamente, la dimensin de
los intervalos de clase est dada por
7
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

W = R/k
donde R (la amplitud) es la diferencia entre la observacin ms pequea y la ms grande
dentro del conjunto de datos. Generalmente, este procedimiento deja una dimensin que no
es conveniente para su uso y nuevamente se debe utilizar el sentido comn para elegir la
dimensin (normalmente cercana a la que se obtiene con la ecuacin de Sturges) que sea ms
conveniente.
Ejemplo
En la siguiente tabla se muestra los pesos en onzas de los tumores malignos extirpados del
abdomen de 57 pacientes. Se pretende conocer cuntos intervalos de clase se deben usar para
la distribucin de frecuencias de los datos. Tambin se pretende conocer la dimensin de los
intervalos.
68 65 12 22
63 43 32 43
42 25 49 27
27 74 38 49
30 51 42 28
36 36 27 23
28 42 31 19
32 28 50 46
79 31 38 30
27 28 21 43
22 25 16 49
23 45 24 12
24 12 69
25 57 47
44 51 23
Para organizar la distribucin, el primer paso es encontrar el dato menor y el dato
mayor. Podemos observar que el dato menor es 12 y el mayor es 79.
A continuacin listamos todos los nmeros en forma ascendente de menor a mayor.
12 25 36 49
12 27 36 49
12 27 38 50
16 27 38 51
19 27 42 51
21 28 42 57
22 28 42 63
22 28 43 65
23 28 43 68
23 30 43 69
8
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

23 30 44 74
24 31 45 79
24 31 46
25 32 47
25 32 49
Solucin
Para dar una idea del nmero de intervalos a utilizar, es necesario la aplicacin de la
regla de Sturges:
k = 1 + 3.322(log

57)
= 1+ 3.322(1.7559)
= 7
Ahora, al dividir la amplitud entre 7 para dar una idea de la dimensin de los
intervalos de clase, se obtiene:
I = R/k
I = 79 12 = 67 = 9.6
7 7

Intervalos de clase Tabulacin f
12 21 //// / 6
22 31 //// //// //// //// // 22
32 41 //// / 6
42 51 //// //// //// / 16
52 61 / 1
62 71 //// 4
72 81 // 2
f = 57


Puede observarse que hay siete de esos intervalos, es decir, el nmero de intervalos
calculados con la regla de Sturges.

Existen otras reglas empricas que son muy tiles para determinar el nmero de
intervalos de clase. Cuando la naturaleza de los datos lo permite, las dimensiones de 5, 10 y
otras que sean mltiplos de 10, hacen que los resmenes tengan un mayor alcance. Cuando se
utilizan estas dimensiones, es recomendable que el lmite inferior de cada intervalo termine en
0 en 5. Normalmente, los intervalos de clase contiene las mediciones ms pequeas y el
ultimo contiene las mediciones ms grandes. Cuando este es el caso, el lmite inferior del
primer intervalo de clase debe ser menor o igual a la medicin ms pequea del conjunto de
datos y el lmite superior debe ser mayor o igual a la medicin ms grande.





9
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Distribucin de frecuencias acumuladas
Intervalos de
clase
Intervalo
real
Marca de
clase
f fa f
relativa
fa
relativa
12 21 11.5 21.5 16.5 6 6 0.1053 0.1053
22 31 21.5 31.5 26.5 22 28 0.3859 0.4912
32 41 31.5 41.5 36.5 6 34 0.1053 0.5964
42 51 41.5 51.5 46.5 16 50 0.2807 0.8771
52 61 51.5 61.5 56.5 1 51 0.0175 0.8947
62 71 61.5 71.5 66.5 4 55 0.0701 0.9649
72 81 71.5 81.5 76.5 2 57 0.0350 1.0000
f = 57

Finalmente, se identifica la proporcin de valores que caen dentro un intervalo de
clase como frecuencia relativa de ocurrencias en ese intervalo.

Para determinar la frecuencia de valores que caen dentro de dos o ms intervalos de
clase, se obtiene la suma del nmero de valores que caen dentro de los intervalos de clase
correspondientes. Anlogamente, si se pretende conocer la frecuencia relativa de ocurrencia
de valores que caen dentro de dos o ms intervalos de clase, entonces, se suman las
frecuencias relativas respectivas. Se pueden sumar, o acumular, las frecuencias y las
frecuencias relativas y facilitar la obtencin de informacin acerca de las frecuencias o
frecuencias relativas de dos o ms intervalos de clase contiguos.

Si el inters est centrado en la frecuencia relativa de los valores que caen entre 40 y
69, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla anterior,
y se resta 0.5964 de 0.9649 para obtener 0.3685.


R
RRe
eep
ppr
rre
ees
sse
een
nnt
tta
aac
cci
ii
n
nn G
GGr
rra
aaf
ffi
iic
cca
aa
La representacin grfica es una ayuda para el estudio de una funcin. Una funcin
con una variable dependiente y otra independiente se puede representar grficamente en un
eje de ordenadas y abscisas correspondiendo el valor de cada variable a la posicin de los
ejes.

Es la representacin de datos, generalmente numricos, mediante lneas, superficies o
smbolos, para ver la relacin que guardan entre s. Tambin puede ser un conjunto de puntos,
que se plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un
proceso, o un conjunto de elementos o signos que permiten la interpretacin de un fenmeno.

Una presentacin en grfico puede ser fcilmente interpretada por todo tipo de pblico
sin necesidad de que un intermediario presente una exposicin extensa de los resultados
obtenidos. Los tipos de grficos para variables cuantitativas son 3:

Histograma de Pearson
Polgono de frecuencia
Ojiva


10
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Histograma de Pearson

En estadstica, un histograma es una representacin grfica de una variable en forma
de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores
representados. Sirven para obtener una "primera vista" general, o panorama, de la distribucin
de la poblacin, o la muestra, respecto a una caracterstica, cuantitativa y continua, de la
misma y que es de inters para el observador (como la longitud o la masa).

De esta manera ofrece una visin en grupo permitiendo observar una preferencia, o
tendencia, por parte de la muestra o poblacin por ubicarse hacia una determinada regin de
valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la
caracterstica. As pues, podemos evidenciar comportamientos, observar el grado de
homogeneidad, acuerdo o concisin entre los valores de todas las partes que componen la
poblacin o la muestra, o, en contraposicin, poder observar el grado de variabilidad, y por
ende, la dispersin de todos los valores que toman las partes, tambin es posible no evidenciar
ninguna tendencia y obtener que cada miembro de la poblacin toma por su lado y adquiere
un valor de la caracterstica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre
otras cosas.




Polgono de frecuencias

Polgono de frecuencia es el nombre que recibe una clase de grfico que se crea a
partir de un histograma de Pearson. Estos histogramas emplean columnas verticales para
reflejar frecuencias; el polgono de frecuencia es realizado uniendo los puntos de mayor altura
de estas columnas.
Es decir, por tanto, podramos establecer que un polgono de frecuencia es aquel que
se forma a partir de la unin de los distintos puntos medios de las cimas de las columnas que
configuran lo que es un histograma de Pearson. Este se caracteriza porque utiliza siempre lo
que son columnas de tipo vertical y porque nunca debe haber espacios entre lo que son unas y
otras.

11
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

En las ciencias sociales, en las ciencias naturales y tambin en las econmicas es
donde con ms frecuencia se hace uso de estos mencionados histogramas ya que se emplean
para llevar a cabo lo que es la comparacin de los resultados de un proceso determinado.



Ojiva

La ojiva es el polgono de frecuencias acumuladas, es decir, que en ella se permite ver
cuntas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo
exhibir los nmeros asignados a cada intervalo.

La ojiva apropiada para informacin que presente frecuencias mayores que el dato que
se est comparando tendr una pendiente negativa (hacia abajo y a la derecha) y en cambio la
que se asigna a valores menores, tendr una pendiente positiva. Una grfica similar al
polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la misma
tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayor
que y las ojivas menor que.

Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias
(y por esto la aplicacin de la tcnica es parcial). Un extremo de la ojiva no se toca al eje
horizontal, para la ojiva "mayor que" sucede con el extremo izquierdo; para la ojiva "menor
que", con el derecho.

En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de
clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la
mayor.


12
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz




M
MMe
eed
ddi
iid
dda
aas
ss d
dde
ee t
tte
een
nnd
dde
een
nnc
cci
iia
aa c
cce
een
nnt
ttr
rra
aal
ll
La estadstica descriptiva en su funcin bsica de reducir datos, propone una serie de
indicadores que permiten tener una percepcin rpida de lo que ocurre en un fenmeno.

La primera gama de indicadores corresponde a las Medidas de Tendencia Central.
Existen varios procedimientos para expresar matemticamente las medidas de tendencia
central, de los cuales, los ms conocidos son: la media aritmtica, la moda y la mediana.

Tendencia central se refiere al punto medio de una distribucin. Las medidas de
tendencia central son conocidas tambin como medidas de posicin.

Las Medidas de tendencia central:

Son indicadores estadsticos que muestran hacia que valor (o valores) se agrupan los
datos.

Esta primera parte la dedicaremos a analizar tres medidas de tendencia central:

La media aritmtica
La moda
La mediana

LA MEDIA ARITMTICA

Equivale al clculo del promedio simple de un conjunto de datos. Para diferenciar
datos mustrales de datos poblacionales, la media aritmtica se representa con un smbolo
para cada uno de ellos: si trabajamos con la poblacin, este indicador ser ; en el caso de que
estemos trabajando con una muestra, el smbolo ser x.

13
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Cuando nos referimos al promedio de algo, estamos hablando de la media
aritmtica. Para encontrar la media aritmtica, sumamos los valores y el resultado lo
dividimos entre el nmero de observaciones.

Es el valor resultante que se obtiene al dividir la sumatoria de un conjunto de datos
sobre el nmero total de datos. Solo es aplicable para el tratamiento de datos cuantitativos.

Hay que entender que existen dos formas distintas de trabajar con los datos tanto
poblacionales como mustrales: sin agruparlos o agrupndolos en tablas de frecuencias. Esta
apreciacin nos sugiere dos formas de representar la media aritmtica.

Media aritmtica para datos no agrupados

Podemos diferenciar la frmula del promedio simple para datos poblaciones y
mustrales:

x = x
1
+ x
2
+ x
3
+.+x
n

N

En donde:
N = Nmero de observaciones
x = Valor de cada observacin
x = Media aritmtica


Media aritmtica para datos agrupados en una distribucin de frecuencias simples

x = fx x = A + fd
N N

En donde:
N = Nmero de observaciones
x = Valor de cada observacin
f = Frecuencia
d = Desviacin
A = Cantidad arbitraria
x = Media aritmtica


Media aritmtica para datos agrupados en intervalos de amplitud constante:


x = fx
s
x = x
s
+ (fd/N) i
N


En donde:
N = Nmero de observaciones
x
s
= Marca de clase o punto medio
f = Frecuencia
14
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

d = Desviacin
i = Amplitud del intervalo en donde esta la mediana
x = Media aritmtica


Ventajas:

La media aritmtica, en su carcter de un solo nmero que representa a un conjunto de
datos completo, tiene importantes ventajas:

Es sensible a cualquier cambio en los datos (puede ser usado como un detector de
variaciones en los datos).
Se emplea a menudo en clculos estadsticos posteriores.
Presenta rigor matemtico.
En la grfica de frecuencia representa el centro de gravedad.
Se trata de un concepto familiar para la mayora de las personas y es intuitivamente
claro.
Cada conjunto de datos tiene una media, es una medida que puede calcularse y es
nica debido a que cada conjunto de datos posee una y slo una media.
Es til para lleva a cabo procedimientos estadsticos como la comparacin de medias
de varios conjuntos de datos.

Desventajas:

Puede verse afectada por valores extremos que no son representativos del resto de los
datos.
Resulta tediosos calcular la media debido a que utilizamos cada uno de los puntos de
datos de nuestro clculo.
Somos incapaces de calcular la media para un conjunto de datos que tiene clases de
extremo abierto, ya sea en el inferior o en el superior de la escala.
Es sensible a los valores extremos.
No es recomendable emplearla en distribuciones muy asimtricas.
Si se emplean variables discretas o cuasi-cualitativas, la media aritmtica puede no
pertenecer al conjunto de valores de la variable.

MEDIANA

La mediana es un solo valor calculado a partir del conjunto de datos que mide la
observacin central de stos. Esta sola observacin es la ms central o la que est ms en
15
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

medio en el conjunto de nmeros. La mitad de los elementos estn por encima de este punto
y la otra mitad est por debajo.

Entonces decimos que la mediana es el valor que divide una serie de datos en dos
partes iguales. Ya que la cantidad de datos que queda por debajo y por arriba de la mediana
son iguales.

La definicin de geomtrica se refiere al punto que divide en dos partes a un
segmento. Por ejemplo, la mediana del segmento AB es el punto C.




A C B

Existen entonces dos segmentos iguales:

AC = CB


Clculo de la mediana a partir de datos no agrupados:

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un nmero impar de elementos, el
de en medio en el arreglo es la mediana. Si hay un nmero par de observaciones, la mediana
es el promedio de los dos elementos de en medio.

Md = N + 1
2


Media aritmtica para datos agrupados en intervalos de amplitud constante:


Md = L + N/2 faa i
f
m


En donde:
L = Limite real inferior del intervalo en donde est la mediana
N = Nmero de observaciones
faa = Frecuencia acumulada del intervalo inmediato inferior
f
m
= Frecuencia del intervalo en donde est la mediana
i = Amplitud del intervalo en donde est la mediana
Md = Mediana


Ventajas y desventajas de la mediana

Los valores extremos no afectan a la mediana tan intensamente como a la media.
16
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

La mediana es fcil de entender y se puede calcular a partir de cualquier tipo de datos
(incluso a partir de datos agrupados con clases de extremo abierto) amenos que la
mediana entre en una clase de extremo abierto.
Podemos encontrar la mediana incluso cuando nuestros datos son descripciones
cualitativas, en lugar de nmeros.
Ciertos procedimientos estadsticos que se utilizan en la mediana son ms complejos
que aquellos que se utilizan en la media.
Debido a que la mediana es una posicin promedio, debemos ordenar los datos antes
de llevar a cabo cualquier clculo. Esto implica consumo de tiempo para cualquier
conjunto de datos que contenga un gran nmero de elementos. Por consiguiente, si
deseamos utilizar una estadstica de muestra para estimar un parmetro de poblacin,
la media es ms fcil de usar que la mediana.


LA MODA (Mo)

La moda es una medida de tendencia central diferente de la media, pero un tanto
parecida a la mediana, pues en realidad no se calcula mediante algn proceso aritmtico
ordinario. La moda es aquel valor que ms se repite en el conjunto de datos.

En ocasiones, el azar hace que un solo elemento no representativo se repita lo
suficiente para ser el valor ms frecuente del conjunto de datos. Es por esta razn que rara
vez utilizamos la moda de un conjunto de datos no agrupados como medida de tendencia
central.

Por tal razn, siempre que utilizamos la moda como medida de tendencia central de un
conjunto de datos, debemos calcular la moda de datos agrupados (buscar la clase modal).


Moda para datos agrupados en intervalos de amplitud constante:


Mo = L +
1
i

1
+
2


En donde:
L = Limite real inferior del intervalo en donde esta la mediana

1
= Frecuencia en donde se encuentra la moda menos la
frecuencia del intervalo anterior

2
= Frecuencia en donde se encuentra la moda menos la
frecuencia del intervalo superior
f
m
= Frecuencia del intervalo en donde esta la mediana
i = Amplitud del intervalo en donde esta la mediana
Mo = Moda
17
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz



Ventajas y desventajas de la moda


La moda al igual que la mediana, se puede utilizar como una posicin central para
datos tanto cualitativos como cuantitativos.
Es estable a los valores extremos.
Es recomendable para el tratamiento de variables cualitativas.
En distribuciones muy asimtricas suele ser un dato muy poco representativo.
Carece de rigor matemtico
Tambin, al igual que la mediana, la moda no se ve mayormente afectada por los
valores extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros
escogemos el valor ms frecuente del conjunto de datos como el valor modal.
Podemos utilizar la moda sin importar qu tan grandes o qu tan pequeos sean los
valores del conjunto de datos, e independientemente de cul sea su dispersin.
La podemos utilizar aun cuando una o ms clases sean de extremo abierto.
Muy a menudo, no existe un valor modal debido a que el conjunto de datos no
contiene valores que se presenten ms de una vez. En otras ocasiones, cada valor es la
moda, pues cada uno de ellos se presenta el mismo nmero de veces.
Otra desventaja consiste en que cuando los datos contienen dos, tres o ms modas,
resultan difciles de interpretar y comparar.

M
MMe
eed
ddi
iid
dda
aas
ss d
dde
ee d
ddi
iis
ssp
ppe
eer
rrs
ssi
ii
n
nn o
oo v
vva
aar
rri
iia
aab
bbi
iil
lli
iid
dda
aad
dd
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersin dicen hasta qu punto estas medidas de
tendencia central son representativas como sntesis de la informacin. Las medidas de
dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la
distribucin respecto al valor central. Se distinguen las medidas de dispersin absolutas, que
no son comparables entre diferentes muestras y las relativas que permiten comparar varias
muestras. Para variables numricas o cuantitativas, en las que puede haber un gran nmero de
valores observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a
las siguientes preguntas:

a. Alrededor de qu valor se agrupan los datos?

b. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados?
muy dispersos?

18
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

La Varianza (S
2
)

La varianza es una mediada de dispersin relativa a algn punto de referencia. Ese punto de
referencia es la media aritmtica de la distribucin. Mas especficamente, la varianza es una
medida de que tan cerca, o que tan lejos estn los diferentes valores de su propia media
aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la
varianza; cuando ms cerca estn de la Xi a su media menos es la varianza.

En otras palabras, es el promedio de los cuadrados de las desviaciones, (x
i
- x)
2
, de cada
elemento, x
i,
respecto a la media, x:


S
2
= (x
i
- x)
2
+ (x
i
- x)
2
++(x
n
- x)
2
= (x
i
- x)
2

N N

Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no
son intuitivamente claras o fciles de interpretar. Por esta razn, tenemos que hacer un
cambio significativo en la varianza para calcular una medida til de la desviacin, que sea
menos confusa. Esta medida se conoce como la desviacin estndar, y es la raz cuadrada de
la varianza. La desviacin estndar, entonces, est en las mismas unidades que los datos
originales.


Desviacin estndar de la poblacin.

La desviacin estndar de la poblacin, es simplemente la raz cuadrada de la varianza de la
poblacin. Como la varianza es el promedio de las distancias al cuadrado que van desde las
observaciones a la media, la desviacin estndar es la raz cuadrada del promedio de las
distancias al cuadrado que van desde las observaciones a la media. La desviacin estndar
est en las mismas unidades que las que se usaron para medir los datos.

La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa. Cuando
tomamos la raz cuadrad de la varianza para calcular la desviacin estndar, los estadsticos
solamente consideran la raz cuadrada positiva.

Para calcular la varianza o la desviacin estndar, construimos una tabla utilizando todos los
elementos de la poblacin.


Usos de la desviacin estndar.

La desviacin estndar nos permite determinar, con un buen grado de precisin, donde estn
localizados los valores de una distribucin de frecuencias con relacin a la media. El teorema
de Chebyshev dice que no importa qu forma tenga la distribucin, al menos 75% de los
valores caen dentro de
+
2 desviaciones estndar a partir de la media de la distribucin, y al
menos 89% de los valores caen dentro de
+
3 desviaciones estndar a partir de la media.

1. Aproximadamente 68% de los valores de la poblacin cae dentro de
+
1 desviaciones
estndar a partir de la media.
19
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

2. Aproximadamente 95% de los valores estar dentro de
+
2 desviaciones estndar a
partir de la media.
3. Aproximadamente 99% de los valores estar en el intervalo que va desde tres
desviaciones estndar por debajo de la media hasta tres desviaciones estndar por
arriba de la media.

Propiedades de la desviacin estndar.
A su vez la desviacin estndar, tambin tiene una serie de propiedades que se deducen
fcilmente de las de la varianza (ya que la desviacin tpica es la raz cuadrada positiva de la
varianza):

La desviacin estndar es siempre un valor no negativo S ser siempre 0 por
definicin. Cuando S = 0 X = x
i
(parta todo i).
Es la medida de dispersin ptima por ser la ms pequea.
La desviacin estndar toma en cuenta las desviaciones de todos los valores de la
variable.
Si a todos los valores de la variable se le suma una misma constante la desviacin
estndar no vara.
Si a todos los valores de la variable se multiplican por una misma constante, la
desviacin estndar queda multiplicada por el valor absoluto de dicha constante.

Resultado estndar:

La desviacin estndar es tambin til para describir qu tan lejos las observaciones
individuales de una distribucin de frecuencias se apartan de la media de la distribucin. Una
medida que se conoce como resultado estndar no da el nmero de desviaciones estndar que
una observacin en particular ocupa por debajo o por encima de la media:

Resultado estndar = (x x) Z = x x =1,2,3
S S



S = (x - x)
2

N





S = f (x - x)
2

N




S = f (x
s
- x)
2

N


En una serie de datos simples
En una serie de datos agrupados de una distribucin de frecuencias simple
En una serie de datos agrupados en intervalos
20
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Coeficiente de variacin o dispersin

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de
tendencia central son representativas como sntesis de la informacin. Las medidas de
dispersin cuantifican la separacin, la dispersin la variabilidad de los valores de la
distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas,
que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar
varias muestras.

El problema de las medidas de dispersin absolutas es que normalmente son un indicador que
no da problemas a la hora de comparar. Comparar muestras de variables que entre si no
tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a medidas de
dispersin relativas.

Un problema que plantea, tanto la varianza como la desviacin estndar, especialmente a
efectos de comparaciones entre distribuciones es el de la dependencia respecto a las unidades
de medida de la variable. Cuando se quiere comparar el grado de dispersin de dos
distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se
utiliza el llamado coeficiente de variacin de Pearson, del que se demuestra que nos da un
nmero independiente de las unidades de medidas empleadas, por lo que entre dos
distribuciones dadas diremos que posee menor dispersin aquella cuyo coeficiente de
variacin sea menor., y que se define como la relacin por cociente entre la desviacin
estndar y la media aritmtica; o en otras palabras es la desviacin estndar expresada como
porcentaje de la media aritmtica.

C.V. = S x 100
x

L
LLa
aa c
ccu
uur
rrv
vva
aa d
dde
ee d
ddi
iis
sst
ttr
rri
iib
bbu
uuc
cci
ii
n
nn n
nno
oor
rrm
mma
aal
ll
La curva normal puede utilizarse para describir distribuciones de puntajes, para
interpretar la desviacin estndar y para hacer un informe de probabilidades. En los captulos
siguientes veremos que la curva normal es un ingrediente esencial en la toma de decisiones en
estadstica, por medio de la cual el investigador social generaliza sus resultados de muestras y
poblaciones. Antes de proceder a un estudio de las tcnicas de la toma de decisiones es
necesario lograr primero una comprensin de las propiedades de la curva normal.


Caractersticas de la curva normal.

Cmo puede caracterizarse la curva normal? Y cules son las propiedades que la
distinguen de otras distribuciones? Como se muestra en la siguiente figura, la curva normal
es un tipo de curva uniforme y simtrica cuya forma recuerda a muchos una campana y por lo
tanto se conoce como la curva en forma de campana. Tal vez rasgo ms sobresaliente de
la curva normal es su simetra: si doblamos la curva en su punto ms alto al centro,
crearamos dos mitades iguales, cada una fiel imagen de la otra.

21
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

Adems, la curva normal es unimodal, ya que slo tiene un pico o punto de mxima
frecuencia aquel punto en la mitad de la curva en el cual coinciden la media, la mediana y la
moda Desde el pico central redondeado de la distribucin normal, la curva cae gradualmente
en ambas colas, extendindose indefinidamente en una y otra direccin y acercndose ms y
ms a la lnea de base sin alcanzarla realmente.


Propiedades de la distribucin normal.

La forma de la campana de Gauss depende de los parmetros y .
Tiene una nica moda que coincide con su media y su mediana.
La curva normal es asinttica al eje de X.
Es simtrica con respecto a su media . Segn esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.


Utilidad.

Se utiliza muy a menudo porque hay muchas variables asociadas a fenmenos naturales
que siguen el modelo de la norma.

Caracteres morfolgicos de individuos (personas, animales, plantas,...) de una especie,
por ejemplo: tallas, pesos, dimetros, distancias, permetros,...

Caracteres fisiolgicos, por ejemplo: efecto de una misma dosis de un frmaco, o de
una misma cantidad de abono.

Caracteres sociolgicos, por ejemplo: consumo de cierto producto por un mismo
grupo de individuos, puntuaciones de examen

Caracteres psicolgicos, por ejemplo: cociente intelectual, grado de adaptacin a un
medio,...

Errores cometidos al medir ciertas magnitudes

Valores estadsticos mustrales como la media, varianza y moda.


El rea bajo la curva normal.
22
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz


Para poder emplear la curva normal en la resolucin de problemas, debemos
familiarizarnos con el rea bajo la curva normal: aquella rea que est entre la curva y la lnea
base y que contiene el 100 por ciento, o todos los casos, en una distribucin normal dada.
Podramos encerrar una porcin de esta rea total dibujando lneas a partir de dos puntos
cualesquiera en la lnea base hasta la curva. Por ejemplo, usando la media como punto de
partida, podramos dibujar una lnea en X y otra en el punto que est a 1S (una distancia
sigma) sobre la X.

Como veremos, una porcin constante del rea total, bajo la curva normal estar entre
la media y cualquier distancia dada de X, medida en unidades de desviacin estndar
muestral esto es cierto a pesar de la media y la S de la distribucin en particular, y se aplica
universalmente a todos los datos normales distribuidos. As, el rea bajo la curva normal
entre X y el punto 1S arriba de la X incluye siempre el 34.13% del total de casos, as estemos
estudiando la distribucin de estatura, inteligencia, orientacin poltica o el patrn de uso en
una entrada. El requisito bsico, en cada caso, es slo que estemos trabajando con una
distribucin normal de puntajes.

La naturaleza simtrica de la curva normal nos lleva a otra importante conclusin; a
saber, que cualquier distancia sigma dada arriba de la media contiene una proporcin idntica
de casos que la misma distancia sigma por debajo de la media. As, si el 34.13% del rea est
entre la media y 1S por arriba de la media, entonces el 34.13% del rea total est entre la
media y 1S por debajo de la media. A 2S de la media se encuentra el 47.72% de los casos
aproximadamente 95% de los valores estar dentro de
+
2 desviaciones estndar a partir de la
media. A 3S de la media se encuentra el 49.87% aproximadamente 99% de los valores estar
en el intervalo que va desde tres desviaciones estndar por debajo de la media hasta tres
desviaciones estndar por arriba de la media.



Distribucin normal estndar.

La ltima caracterstica mencionada de la distribucin implica que la distribucin
normal es realmente una familia de distribuciones en la que un miembro se distingue de otro
segn los valores de y . El miembro ms importante de esta familia es la distribucin
normal estndar o distribucin normal unitaria, llamada as porque tiene una media igual a
cero y una desviacin estndar igual a 1.

Si deseramos convertir centmetros a metros, simplemente dividiramos el nmero de
centmetros entre 100 ya que hay 100 en un metro. Igualmente, si estuviramos convirtiendo
minutos en horas, dividiramos el nmero de minutos entre 60, ya que hay 60 minutos en cada
hora. Exactamente de la misma manera, podemos convertir cualquier puntaje crudo en
23
_|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz _|vA mA _| X|x ix V{xz

unidades DE dividiendo la distancia entre ste y la media entre la DE, creando una variable
aleatoria Z = (x - )/.

Debemos hacer notar que siempre hay 100 centmetros en 1 metro y 60 minutos en una hora,
sin importar la situacin de medicin. La desviacin estndar no comparte la constancia que
marca a estas otras medias estndares, sino que cambia de una distribucin a otra. Es por esto
que debemos conocer la desviacin estndar de una distribucin, ya sea que la calculemos, la
estimemos o la sepamos de otra persona, antes de poder convertir cualquier puntaje particular
a unidades de desviacin estndar. Como se deduce, no existe una nica distribucin normal,
sino una familia de distribuciones con una forma comn, diferenciadas por los valores de su
media y su desviacin estndar.

You might also like