You are on page 1of 27

CONTENIDOS

I. Estadstica Descriptiva.
II. Distribuciones conjuntas y marginales.
III. Medidas de asociacin.
IV. Probabilidades.
V. Variables aleatorias.
VI. Distribucin Normal.
VII. Regresin lineal.

BIBLIOGRAFA

Introduccin a las probabilidades y aplicaciones estadsticas
Meyer.Paul ( Addison-Wesley).

Teora y problemas de probabilidad y estadstica. Serie Schaum.

Probabilidad y Estadstica para ingeniera y ciencias. Gabriel Velasco Sotomayor ,
Piotri Marian Wisniewski.
I. ESTADSTICA DESCRIPTIVA

Objetivo: Reconocer los conceptos bsicos de la Estadstica Descriptiva.

1.Resea Histrica.

Qu es Estadstica?, etimolgicamente el vocablo deriva de Estado y significa
"contar los bienes del Estado", los albores de esta disciplina se encuentran en la
Antigedad, las autoridades del Egipto faranico contaban sus bienes y registraban la
profundidad del ro Nilo en cada estacin del ao, recurdese tambin que Jesucristo nace
en Beln, porque un edicto del emperador romano ordena un censo, para conocer el
nmero y caractersticas de los habitantes del Imperio, as las personas deban reportarse
a sus lugares de nacimiento y San Jos es nacido en Beln de Jud.
Sin embargo la disciplina, desde aquellos lejanos tiempos hasta nuestros das ha
ampliado su quehacer, perfeccionado tanto sus mtodos, que hoy es la disciplina mas
usada por el resto de las Ciencias, lo que ha conllevado su vertiginoso desarrollo,
sobretodo en el siglo XX.
As, hoy decimos que la Estadstica es la disciplina que se ocupa de:
1) la recoleccin, organizacin y procesamiento de datos, y
2) la obtencin de inferencias a partir de un volumen de datos cuando se observa
slo una parte.

1.1.- Mtodo Cientfico y Estadstico.

El hombre busca en forma inclaudicable una explicacin racional a los fenmenos
que lo rodean. El Mtodo Cientfico le ayuda a organizar adecuadamente la observacin de
los hechos y a enunciar las leyes que los rigen. En la gran mayora de los casos reales el
enunciado de las leyes se complica porque el fenmeno estudiado tiene una
multicausalidad y esta contingencia se trata de superar con el Mtodo Estadstico.

Mtodo Cientfico es un procedimiento que se aplica al ciclo completo de la
investigacin, desde el enunciado del problema hasta la evaluacin de los resultados
obtenidos. Al aplicar el Mtodo Cientfico se distinguen las siguientes etapas:
1) Deteccin y Enunciado del Problema: Es la descripcin de una situacin problema o es
el planteamiento de una pregunta.
2) Formulacin de la Hiptesis: Es una respuesta o explicacin al problema enunciado,
que se hace en base al conocimiento cientfico existente.
3) Deduccin de una consecuencia verificable: Como la hiptesis es una explicacin
general, a menudo ocurre que no se puede investigar directamente, luego se procede
a deducir, lgicamente, consecuencias particulares de la hiptesis.
4) Verificacin de la consecuencia: En ciencias exactas esto se realiza usando lgica
pura, sin embargo en ciencias no exactas la verificacin se hace a travs de la
recoleccin de informacin o la observacin de los fenmenos, lo que hace necesario
la aplicacin de Procedimientos Estadsticos.
5) Conclusin: aceptacin, modificacin o total rechazo de la hiptesis planteada.

Mtodo Estadstico es el que proporciona las tcnicas necesarias para recolectar y
Analizar la informacin requerida. El Mtodo Estadstico distingue dos etapas: la
Planificacin y la Ejecucin.
En la Planificacin se deben considerar los siguientes aspectos:
1) Definicin de objetivos: es la descripcin formal del problema que da origen a la
investigacin. Se debe sealar detalladamente lo que se va a investigar, el qu, cmo,
dnde, cundo y por qu.
2) Universo del estudio: es la definicin del conjunto desde el cual se extraer la
informacin y hacia el que se generalizarn las conclusiones obtenidas.
3) Diseo de la muestra: la Teora de Muestreo garantiza que la informacin que
generaremos nos permita proyectar vlidamente las conclusiones al Universo de
inters.
4) Definicin de las unidades de observacin (que objetos observaremos), las escalas de
clasificacin y las unidades de medida.
5) Preparacin del Plan de Tabulacin y Anlisis de la informacin: aqu se determinan
las formas de presentar y analizar la informacin recolectada.

En la fase de Ejecucin se pueden reconocer los siguientes aspectos:
1) Recoleccin de la informacin.
2) Elaboracin de la informacin.
3) Anlisis de los resultados.

1.2.- Unidad de anlisis, atributos, variables, escalas de medida, poblacin y
muestra.

Unidad de anlisis: Una vez definido el problema que se va a investigar, se
definen naturalmente los objetos que sern observados (botellas de cerveza, seres
humanos, automviles, etc.), los que llamaremos en lenguaje tcnico unidades de anlisis.

Atributos: Teniendo definidas las unidades de anlisis, obviamente ellas
presentan caractersticas que nos importan para nuestro estudio: Por ejemplo, si es de
nuestro inters analizar las distintas Cervezas que se venden en nuestro pas, podemos
consignar algunas caractersticas esenciales tales como:
- Marca
- Tipo de envase
- Volumen del envase
- Grado alcohlico
- Color
- Sabor, etc...
Estas caractersticas las denominaremos atributos.
Variables: Cuando se han definido los atributos a estudiar, podemos ya observar
unidades de anlisis especificadas y los atributos quedan consignados como caractersticas
nicas del objeto que estamos estudiando. Por ejemplo si observamos un envase
individual especfico de Cerveza podemos consignar:
- Marca : Cristal
- Tipo de envase : Lata
- Volumen del envase : 258 cc.
- Grado alcohlico : 4,7
- Color : Amarillo medio
- Sabor : Amargo moderado
Cuando los atributos ya han sido evaluados, reciben el nombre de Variables del estudio.
Escalas de medida: Cuando procedemos a medir las variables del estudio,
debemos tener presente que estamos consignando valores con unidades de medida y por
consiguiente introduciendo unidades de medida. Estas escalas de medidas pueden ser:
Nominales, Ordinales o Intervalares (o de Razn). Estas escalas tienen diferente Poder de
Clasificacin. Presentemos el siguiente esquema:
Escala de Medida Poder de Clasificacin
Nominal Slo es capaz de nombrar o etiquetar la unidad de anlisis.
Por ejemplo: Marca de Cerveza, Tipo de envase, Color...
Ordinal Es capaz de nombrar pero adems introduce una jerarqua en
las unidades observadas. Por ejemplo: Grado que se cursa en
el sistema escolar bsico, Predileccin por la Cerveza....
Intervalar Es capaz de nombrar, jerarquizar pero adems permite hacer
comparaciones matemticas entre las unidades de anlisis.
Por ejemplo: Grado Alcohlico, la Edad, el Peso, la
Temperatura

Estas escalas de medida son inherentes a la variable que se mide. Puntualicemos
en las variables de escala intervalar, pues debido a su naturaleza numrica estas se
pueden clasificar en variables Discretas o Continuas. Las variables discretas, formalmente
estn relacionadas con los nmeros Naturales (0,1,2,3,....) es decir, su funcin es Contar,
como ejemplo tenemos: Cantidad de Hijos, Cantidad de caries, Das trabajados etc. Las
variables continuas, formalmente estn relacionadas con los nmeros Reales, su funcin
es medir, en el sentido fsico, como ejemplo tenemos: la Masa, la longitud, el Tiempo,
etc...
Una importante observacin es que una variable inherentemente continua, por
razones operativas se discretiza, esto es: si a Ud. le preguntan por su Edad, su respuesta
estar en Aos Cumplidos (30 aos, 23 aos,..), sin embargo la Edad de una persona es
una variable que indica tiempo de vida, si se quisiera ser exacto se tendra que contestar
30.213 aos (30 aos con 2 meses, 16 das, 16 horas y 19 minutos) lo que parece
impracticable. La precisin con que se mide una variable va de acuerdo al inters de la
investigacin, como se seal en el prrafo de Mtodo Estadstico.
Poblacin: Llamamos Poblacin al Conjunto Universo de las unidades de anlisis,
la poblacin puede ser de tamao finito o infinito. Por ejemplo, si se desea averiguar el
tamao del grano de cebada, la poblacin en estudio son Todos los granos de cebada que
existen en la tierra, esta poblacin en la prctica es infinita. Si se desea analizar el
volumen de cerveza en las botellas diseadas para un litro producidas el da de ayer, la
poblacin es finita.
Muestra: Como se puede apreciar, en muchos casos trabajar con una poblacin
completa puede resultar muy costoso o simplemente impracticable, de aqu la necesidad
de tomar una Muestra de la Poblacin, formalmente una muestra es un SUBCONJUNTO
FINITO de la Poblacin, que debe cumplir caractersticas ineludibles para lograr que las
conclusiones estadsticas sean vlidas, as las caractersticas de una "buena muestra" son:
1) Aleatoria: garantiza que los elementos que componen la muestra fueron
escogidos completamente al azar, es decir no hay predileccin alguna por
incluir o excluir determinada unidad de anlisis.
2) El tamao de la muestra, que es el nmero de unidades de anlisis que se
deben escoger, debe ser lo suficientemente grande como para garantizar la
generalidad de los resultados.

La determinacin del tamao de una muestra no es un problema trivial y constituye una
especializacin de la estadstica llamada Teora de Muestreo. Con todo, los resultados
comienzan a ser aceptables para muestras cuyo tamao sea superior a 30.

2. Estadstica Descriptiva
Se llama estadstica descriptiva, al conjunto de tcnicas que permiten ordenar,
resumir y representar la informacin recolectada, como su nombre lo indica, slo pretende
hacer una descripcin cuantitativa del fenmeno sin proyectar, an, sus resultados a la
universalidad del fenmeno.

2.1.- Recoleccin, ordenacin y representacin de datos: Obtenida la informacin
que se desea analizar es necesario: Ordenarla, para ello utilizaremos tcnicas que
dependen de la naturaleza de la variable y su escala de medida; Representarla en tablas
y/o grficos que nos permitan una primera impresin de la muestra en anlisis, tambin
los grficos y tablas se adecuan a la naturaleza de la variable y su escala de medida. El
detalle de este tema lo trataremos a continuacin con ejemplos prcticos:

2.2.- Datos en escalas nominales y ordinales, tablas de frecuencia, grfico de
barras y circular.
Consideremos la siguiente situacin: Para saber la apreciacin que tienen los
bebedores de cerveza a cerca de los productos "Cerveza Nieve" y "Cerveza Tostada"; se
seleccionan 50 personas bebedoras de cerveza, cada persona dir que tipo de cerveza
prefiri y que tan amarga sabe la cerveza. Para ello se tienen las siguientes codificaciones
de las variables:
Tipo de Cerveza: 0 = Cerveza Nieve y 1 = Cerveza Tostada
Grado de Amargo: 0 = Amargo leve; 1 = Amargo moderado y 2 = Muy amargo.

Notemos que la variable Tipo de Cerveza est medida en escala NOMINAL y el Grado de
Amargo en escala ORDINAL. Los datos recogidos se muestran a continuacin:
Persona Tipo de Cerveza Grado de Amargo Persona Tipo de Cerveza Grado de Amargo
1 1 1 26 1 0
2 1 0 27 1 2
3 0 1 28 0 0
4 1 2 29 0 2
5 1 1 30 1 0
6 1 0 31 1 2
7 0 1 32 1 0
8 1 1 33 1 2
9 1 1 34 0 2
10 1 2 35 1 2
11 1 1 36 1 1
12 1 0 37 0 2
13 0 1 38 0 1
14 1 1 39 0 1
15 1 2 40 0 2
16 1 1 41 0 2
17 0 1 42 1 1
18 0 1 43 1 2
19 0 0 44 1 0
20 1 0 45 1 2
21 0 0 46 1 2
22 1 1 47 0 0
23 1 1 48 1 2
24 0 1 49 1 2
25 1 2 50 1 0
Al tabular el TIPO DE CERVEZA, es decir contabilizar las preferencias de cerveza
del TIPO 1 y del TIPO 2 vaciando el resultado en una tabla se obtiene:


Tipo | Freq. Percent Cum.
------------+-----------------------------------
0 | 17 34.00 34.00
1 | 33 66.00 100.00
------------+-----------------------------------
Total | 50 100.00

La informacin que contiene es la siguiente: 17 personas o bien el 34% de las
personas encuestadas prefieren cerveza TIPO 1 y el resto, o sea 33 personas o bien el
66% prefieren cerveza TIPO 2. Los nmeros en negritas no tienen significado en este
contexto.
Esta informacin se puede representar en un grfico de barras o en un grfico
circular, como se muestra a continuacin:










Notemos que el grfico circular presenta una gran ventaja visual frente al grfico de
barras, por esta razn se prefiere para representar variables medidas en escala nominal.
Al tabular el GRADO DE AMARGO, es decir contabilizar que tan amargas fueron
percibidas las cervezas, sin distinguir el TIPO, se obtiene la siguiente tabla:

G. Amargo| Freq. Percent Cum.
------------+-----------------------------------
0 | 13 26.00 26.00
1 | 19 38.00 64.00
2 | 18 36.00 100.00
------------+-----------------------------------
Total | 50 100.00

Preferencias de Cerveza
0
33
tipo_de_== 0.0000 tipo_de_== 1.0000
Preferencias de Cerveza
34% tipo_de_== 0.0000
66% tipo_de_== 1.0000
La informacin que contiene es la siguiente: 13 personas o bien el 26% de las
personas encuestadas encuentran la cerveza levemente amarga, 19 personas o bien el
38% de las personas encuestadas encuentran la cerveza moderadamente amarga y el
resto, es decir 18 personas o el 36% encuentran la cerveza muy amarga. Notemos que la
forma de la tabla es idntica a la anterior, sin embargo ahora los nmeros en negritas
tienen significado, esto se debe a que la variable est medida en escala ordinal, es decir
aparece una jerarqua en la percepcin de la "amargura" que se refleja en su codificacin,
as el 64%, destacado en negritas, dice que el 64% de las personas encuestadas perciben
la cerveza levemente amarga o moderadamente amarga. Esta informacin tambin se
puede representar en un grfico de barras o en un grfico circular, sin embargo de dichos
grficos no se puede desprender esta ltima conclusin:







2.3.- Datos en escala intervalar, diagrama de Tallo y hoja, tablas e histograma.

La ordenacin de datos en escala intervalar, actualmente se realiza usando el
algoritmo llamado Diagrama de tallo y hoja, inventado por Tukey en 1977, consiste en
mantener la decena del dato y clasificar la unidad numrica, si se desea clasificar los
nmeros 58, 67, 42, 57, 59 y 45 se procede como sigue:
4 2 5
5 7 8 9
6 7

Notemos que las unidades, por cada decena, han sido puestas en orden, as observamos
que los nmeros ordenados ascendentemente son 42, 45, 57, 58, 59 y 67.
Grado de Amargo
0
19
grado_de== 0.0000 grado_de== 1.0000
grado_de== 2.0000
Grado de Amargo
26% grado_de== 0.0000
38% grado_de== 1.0000
36% grado_de== 2.0000
Veamos un ejemplo: Se tienen las edades, en aos cumplidos, de 30 consumidores
de cerveza, los datos se muestran a continuacin:

32 37 42
45 58 35
32 26 19
27 35 31
33 35 46
45 31 35
16 23 22
39 51 27
45 57 36
48 44 32

Si ordenamos estos datos usando el diagrama de Tallo y hoja se obtiene:
1. | 69
2* | 23
2. | 677
3* | 112223
3. | 5555679
4* | 24
4. | 55568
5* | 1
5. | 78
Ahora es fcil observar, por ejemplo que:
1) la persona con menor edad tiene 16 aos
2) la persona de mayor edad tiene 58 aos
3) existen tres personas con 45 aos, etc.
La informacin anterior se puede representar en una tabla, pero como se
ver la prdida de informacin que se produce es bastante considerable, pues se debe
agrupar la informacin. La tabla para las Edades se muestra a continuacin:
Edad | Freq. Percent Cum
10-20 | 2 6.67 6.67
20-30 | 5 16.67 23.33
30-40 | 13 43.33 66.67
40-50 | 7 23.33 90.00
50-60 | 3 10.00 100.00
------------+-----------------------------------
Total | 30 100.00
Como se observa, la prdida de informacin radica en que, si bien sabemos que
hay 5 individuos con edad entre 20 y 29 aos, no es posible al observar la tabla cul es la
edad exacta de estas personas. Volvemos a observar que la tabulacin es similar a la
hecha para variables ordinales, las columnas Percent y Cum tienen igual significado que
antes, pero adems se pueden hacer otras comparaciones numricas.
La informacin de la tabla puede representarse grficamente, a este grfico se le
llama Histograma:






Al graficar las frecuencias acumuladas se obtiene un grfico llamado OJIVA, que se
muestra a continuacin:

- Frecuencias ajustadas: Cuando se desea construir un histograma en que la
tabulacin presenta intervalos de clase de distinta longitud, es necesario ajustar
por dichos largos usando la siguiente frmula:
k
k
k
l
f
f =
*

F
r
a
c
t
i
o
n
Edad de bebedores de Cerveza
edad
10 20 30 40 50 60
0
.2
.4
6,67
23,33
66,67
90
100
0
10
20
30
40
50
60
70
80
90
100
10-20 20-30 30-40 40-50 50-60
F
r
e
c
.

A
c
u
m
u
l
a
d
a

e
n

%
Edad
Revisemos el siguiente ejemplo: La siguiente tabla muestra la frecuencia de
accidentes caseros por rango de edad:
Edad frec. largo frec.*
0 - 3 30 3.0 10.00
3 - 5 50 2.0 25.00
5 - 10 40 5.0 8.00
10 - 30 60 20.0 3.00
30 - 60 40 30.0 1.33
60 - 95 35 35.0 1.00


2.4.- Estadgrafos.
Estadgrafos: llamaremos estadgrafo o estadstico, a nmeros resmenes, que
nos permiten establecer conclusiones a cerca de la estructura de una muestra, estos
nmeros son construidos considerando TODA la informacin que contiene dicha muestra,
es decir consideran TODOS los datos que han sido recolectados. Pueden construirse
estadgrafos para distintos fines, sin embargo estudiaremos cuatro tipos de ellos,
estadgrafos de: posicin, tendencia central, variabilidad y de forma.

Cada vez que la muestra de datos, medidos en al menos en escala ordinal, ha
sido ordenada, se establece un Ranking para cada una de las observaciones, este ranking,
indica en que posicin, en direccin ascendente, se encuentra el dato respecto a la
muestra. Este ranking se denota por un subndice encerrado entre parntesis. Por ejemplo
si se tienen los datos 12, 7, 15 y 13, al ordenarlos se tiene 7, 12, 13 y 15, es decir el
primer dato ordenado es 7, el segundo es 12 etc. Este hecho lo anotamos simblicamente
como sigue: X
(1)
=7, X
(2)
=12, X
(3)
=13 y X
(4)
=15
30
50
40
60
40
35
0
10
20
30
40
50
60
70
0 - 3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95
N


d
e

a
c
c
i
d
e
n
t
e
s
Edad en aos
10,00
25,00
8,00
3,00
1,33 1,00
0,00
5,00
10,00
15,00
20,00
25,00
30,00
0 - 3 3 - 5 5 - 10 10 -
30
30 -
60
60 -
95
f
r
e
c
u
e
n
c
i
a

a
j
u
s
t
a
d
a
Edad en aos

Con esta notacin, si tenemos n datos, el menor valor observado, que llamaremos
el mnimo ser denotado por X
(1)
y el mayor valor observado, que llamaremos mximo
ser denotado por X
(n)
.

Estadgrafos de posicin: son aquellos que dan informacin acerca del orden en
la estructura de una muestra. Ya hemos mencionado dos de ellos que aparecen en forma
instantnea al ordenar la muestra, nos referimos al mximo, X
(n)
, y al mnimo, X
(1)
.
Llamaremos PERCENTILES, a cada uno de los nmeros que dividen la muestra en
100 partes iguales, en consecuencia son 99, y se denotan por P
(k)
, donde k es el orden del
percentil indicado. Dado el percentil P
(k)
, este divide la muestra en dos partes, la inferior
que contiene el k% inferior de las observaciones y la superior que contiene el (100-k)%
de las observaciones.
Para calcular el percentil P
(k)
, se procede como sigue: se multiplica el tamao de la
muestra por k/100, y se ubica la observacin cuyo ranking iguale o supere por primera vez
el nmero calculado. Retomemos el ejemplo de la muestra de edades de bebedores de
cerveza, cuyo tallo y hoja es:
1. | 69
2* | 23
2. | 677
3* | 112223
3. | 5555679
4* | 24
4. | 55568
5* | 1
5. | 78

Aqu nuestro tamao de muestra es n = 30, por lo tanto el percentil P
(k)
es la observacin
cuyo ranking supere o iguale por primera vez 30k/100. Calculemos P
10
, hacemos la
operacin 3010/100 = 3 es decir buscamos X
(3)
, mirando el tallo y hoja encontramos que
P
(10)
= X
(3)
=22 aos. Calculemos ahora P
70
, hacemos la operacin 3070/100 = 21 es
decir buscamos P
(70)
=X
(21)
= 42 aos. Por ltimo calculemos P
96
, buscamos X
(3096/100=28.8)
es decir X
(29)
= 57 aos. La interpretacin concreta de un percentil es la siguiente, hemos
calculado que P
(70)
= 42 aos, es decir el 70% de los consumidores de cerveza son
menores de 42 aos o bien tienen a lo ms 42 aos, equivalentemente podemos decir que
el 30% ms viejo de los consumidores de cerveza tiene ms de 42 aos.

Hay percentiles, que por la popularidad de interpretacin que tienen, reciben
nombre propio, entre ellos estn:
1) Los Cuartiles: son tres, denotados por Q
1
, Q
2
y Q
3
, que corresponden
respectivamente a los percentiles P
25
, P
50
y P
75
, ellos dividen la muestra
en cuatro partes iguales.

2) Los deciles: son nueve, denotados por D
1
, D
2
,...,D
9
, que corresponden
respectivamente a los percentiles P
10
, P
20
,..., P
90
, ellos dividen la
muestra en diez partes iguales.

En general la manera de calcular percentiles para datos tabulados es:

i
i
i p
n
c
N
pN
LI P
(

+ =
1
100

En las salidas computacionales es muy fcil identificar los percentiles, como se
muestra a continuacin:
Edad
-------------------------------------------------------------
Percentiles Smallest 1% 16 16 5%
19 19
10% 22.5 22 Obs 30
25% 31 23 Sum of Wgt. 30

50% 35 Mean 36.13333
Largest Std. Dev. 10.46087
75% 45 48
90% 49.5 51 Variance 109.4299
95% 57 57 Skewness .2114185
99% 58 58 Kurtosis 2.58257


En esta salida se han destacado en negritas los tres cuartiles, Q
1
=31 aos, Q
2
=35
aos y Q
3
=45 aos.
Cuando la informacin se presenta en forma de tabulacin, es decir se ha perdido
informacin debido al agrupamiento, es posible hacer una aproximacin de los percentiles,
esta aproximacin puede afinarse usando una tcnica de interpolacin lineal, sin embargo
para una primera aproximacin, podemos dar como valor del percentil, el punto medio del
intervalo para el cual se iguala o supera por primera vez el orden del percentil buscado.
Como ejemplo, consideremos la tabulacin de los datos de la Edad, que estamos
analizando:
Edad | Freq. Percent Cum.
------------+-----------------------------------
10-19 | 2 6.67 6.67
20-29 | 5 16.67 23.33
30-39 | 13 43.33 66.67
40-49 | 7 23.33 90.00
50-60 | 3 10.00 100.00
------------+-----------------------------------
Total | 30 100.00

Si deseamos buscar P
10
, miramos en la columna Cum cuando es superado o igualado por
primera vez el 10%, esto ocurre cuando la Edad est entre los 20 y 29 aos, luego
entregamos como valor APROXIMADO de P
10
= 25 aos, notar que el valor para este
percentil, calculado a partir del tallo y hoja es de 22 aos y en la salida computacional es
de 22.5 aos. Como se ve el error de agrupamiento se hace sentir muy fuerte en este
caso.
2.5.- Estadgrafos de tendencia central.

Cada vez que se observa un fenmeno cuantitativo, nos interesa saber si los datos
recolectados se aglutinan en torno a ciertos valores representativos que son propios del
fenmeno estudiado. Por ejemplo si pensamos en la Edad de los jugadores profesionales
de ftbol, la experiencia nos dice que sus edades varan entre los 17 y 35 aos, siendo
raro pero no imposible, encontrar jugadores con ms de 35 aos o menores de 17 aos,
adems sabemos que la gran mayora de estos jugadores tienen entre 23 y 30 aos.
Ahora la pregunta general se hace obvia, dada una coleccin de datos, es posible saber a
que valores tienden dichos datos?, la respuesta la entregan los llamados estadgrafos de
tendencia central.
En consecuencia llamamos estadsticos de tendencia central a aquellos valores
hacia los cuales tienden a aglomerarse los datos de una muestra. Los ms utilizados son:

1) La Mediana: es aquel valor que divide la muestra en dos partes iguales, de
esta definicin nos damos cuenta que la mediana no es otra cosa que el
Percentil cincuenta o Cuartil 2, es decir Mediana=P
50
=Q
2
. Notemos que la
mediana es tanto un estadgrafo de posicin y de centralizacin.

2) La Moda: es aquel valor que ms se repite en una muestra y se denota por
M
o
, por ejemplo si consideramos los datos 2,2,3,3,4,4,4,4,5,5 la moda en
cuestin es 4. Sin embargo la definicin dada cobra validez slo si la variable
es discreta.

Si la variable es continua, formalmente la moda no existe, pues es muy difcil
que al sacar una muestra de nmeros reales dos o ms de ellos coincidan. Por
ejemplo si se hilara muy fino y midiramos el peso de las personas en
milgramos, sera muy poco probable encontrar dos o ms personas con igual
peso en una muestra, pero generalmente el peso es medido en kilgramos
enteros y en este caso, como se ha discretizado la variable es posible
calcularla.
Cuando se dispone de un tallo y hoja, la moda corresponde al valor que
ms se repite dentro de la hoja ms grande del tallo. Retomemos nuestro
ejemplo de las edades de los bebedores de cerveza, el tallo y hoja se muestra
a continuacin, donde se ha destacado en negritas la hoja ms larga:
1. | 69
2* | 23
2. | 677
3* | 112223
3. | 5555679
4* | 24
4. | 55568
5* | 1
5. | 78

Observamos que el valor ms repetido en esta hoja es 35 aos, que corresponde al valor
de la moda. Si se dispone de una tabulacin, para aproximar el valor de la moda, es
necesario utilizar la siguiente frmula:
d D
L d L D
M
d i
o
+
+
=

1 2 1 1
2 1
1
;
+
= A = A
A + A
A
+ =
i i i i i
n n n n donde c LI Moda

Observacin: los n
i
, es otra manera de simbolizar frecuencias absolutas de la clase i.
donde: L
i
: lmite inferior del intervalo que contiene la frecuencia ms alta
L
d
: lmite superior del intervalo que contiene la frecuencia ms alta
D : diferencia entre la frecuencia ms alta y la del intervalo siguiente
d : diferencia entre la frecuencia ms alta y la del intervalo anterior.
Veamos el ejemplo respectivo: Consideremos la tabulacin de las edades,
donde se ha ennegrecido el intervalo y la frecuencia modal:
Edad | Freq. Percent Cum.
------------+-----------------------------------
10-19 | 2 6.67 6.67
20-29 | 5 16.67 23.33
30-39 | 13 43.33 66.67
40-49 | 7 23.33 90.00
50-60 | 3 10.00 100.00
------------+-----------------------------------
Total | 30 100.00

Aqu: L
i
: 30 aos
L
d
: 40 aos
D : 13-7=6
d : 13-5=8
con lo que: 7 , 35
8 6
40 8 30 6
=
+
+
=
o
M aos
valor muy coincidente con el calculado a partir del tallo y hoja.

3) La Media aritmtica o Promedio aritmtico: es el estadgrafo de tendencia
central ms conocido, usado y abusado. Dada una coleccin de datos X
1
,X
2
,....X
n

, el promedio se define como LA SUMA DE LOS DATOS DIVIDIDA POR LA
CANTIDAD DE DATOS y se denota por , en smbolos el promedio es:

=
=
+ + +
=
n
1 i
i
n 2 1
X
n
1
n
X .... X X


formalmente ella representa el Centro de Masas de la muestra, en la
prctica, esto significa que se puede considerar que cada dato tiene valor igual
al promedio. Esta idea no es tan lejana, pues en el lenguaje corriente, muchas
veces se habla del hombre promedio chileno de la familia promedio chilena,
etc. es decir hablamos de un sujeto TIPO al cual asimilamos a todos los sujetos
estudiados. Obviamente esta asimilacin podra resultar errnea, como veremos
mas adelante.


El promedio aritmtico posee las siguientes propiedades frente a cambios de escala:
a ) a (
) X ( a ) aX (
a ) X ( ) a X (
=
=
= +




Veamos un ejemplo numrico: si las calificaciones de un escolar en matemticas
durante un semestre son 5, 6, 3, 5 y 7, su calificacin promedio es:
2 . 5
5
7 5 3 6 5
=
+ + + +
=
es decir podemos asumir, que su rendimiento general en mat. es 5.2.
Si se dispone de una base de datos de gran tamao, resulta trabajoso
calcular . En este caso podemos obtener un valor aproximado para , a
partir de la informacin que contiene una tabulacin, esta aproximacin se
obtiene de
MULTIPLICAR LOS PUNTOS MEDIOS DE CADA INTERVALO POR LAS
RESPECTIVAS FRECUENCIAS, SUMAR ESTOS PRODUCTOS Y LUEGO DIVIDIR
POR LA CANTIDAD DE DATOS. Ejemplifiquemos usando la tabla de Edad de los
consumidores de cerveza.
Edad | Freq. Percent Cum.
------------+-----------------------------------
10-19 | 2 6.67 6.67
20-29 | 5 16.67 23.33
30-39 | 13 43.33 66.67
40-49 | 7 23.33 90.00
50-60 | 3 10.00 100.00
------------+-----------------------------------
Total | 30 100.00
(Tarea calcularla en clase)

Cuando se usa el promedio como medida de centralizacin, debemos tener cuidado
de que los datos sean homogneos, es decir razonablemente parecidos, pues el promedio
es muy sensible a valores extremos, esto es valores demasiado elevados o demasiado
minimizados. En estos casos el promedio como resumen miente. Por ejemplo,
supongamos que preguntamos por el sueldo, en miles de pesos, a cinco personas que
ofician de ascensoristas en edificios distintos, obteniendo 140, 150, 142, 160 y el sueldo
del ltimo encuestado sea 350, puesto que trabaja para una Empresa de Ensueos, al
observar los datos vemos que los sueldos de los ascensoristas, en general estn alrededor
de los $ 150 mil, sin embargo si los promediamos tenemos que dicho promedio es de $
188.400, obviamente esta distorsin se produce por el astronmico sueldo de $ 350 mil.
En estos casos, lo justo es no incluir en el promedio el sueldo astronmico, con lo que el
promedio es de $ 148 mil o bien en vez del promedio usar el valor mediana que es $ 150
mil, lo que concuerda con la realidad que estamos estudiando.

2.6.- Estadgrafos de variabilidad.

Acabamos de ejemplificar una situacin en que los datos analizados no son
homogneos, cuando se tienen pocos datos, por simple inspeccin sabramos si los datos
son homogneos o heterogneos. Sin embargo resulta extremadamente til manejar
medidas para la variabilidad, con el objeto de establecer comparaciones posteriores.
Consideremos las calificaciones en estadstica de dos alumnos: Pedro y Pablo
Alumno

Promedio
Pedro 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0
Pablo 2.0 3.0 7.0 4.0 6.0 5.0 1.0 4.0

Como se observa, tanto Pedro como Pablo tienen idntico rendimiento promedio. Sin
embargo quin tiene rendimiento ms homogneo?, por inspeccin vemos que Pedro,
pues obtuvo slo notas 4.0, mientras que Pablo obtuvo toda la gama de notas. Para
contestar la pregunta propuesta mediante el uso de indicadores estadsticos se
desarrollaron los ESTADIGRAFOS DE VARIABILIDAD. Aqu presentaremos slo dos de
ellos:
1) Rango o Recorrido: se define el rango o recorrido de los datos como el
mximo menos el mnimo, en smbolos:
) 1 ( ) (
X X Rango
n
=

En nuestro ejemplo Rango(Pablo)=6 y Rango(Pedro)=0. Observamos que mientras
ms heterognea es la coleccin de datos mayor es el valor del rango. Sin
embargo el Rango puede exagerar el grado de heterogeneidad del los datos, para
prevenir este hecho se prefiere usar como medida de variabilidad la conocida

2) Desviacin Estndar: para definir la desviacin estndar, previamente
presentaremos lo que se llama desviacin de un dato respecto al promedio, que
denotamos por d
i
as =
i i
X d , es decir la diferencia entre cada dato y
el promedio.
En consecuencia definimos la Desviacin Estndar, denotada por o
x
como:
( )
n
X X
n
d ... d d
2
n
1 i
i
2
n
2
2
2
1
x

=

=
+ + +
= o
El cuadrado de la desviacin estndar recibe el nombre de VARIANZA, es decir:
( )
n
X X
n
d ... d d
) X ( Var
2
n
1 i
i
2
n
2
2
2
1
2
x

=

=
+ + +
= = o

es decir es LA RAIZ CUADRADA DE LA SUMA DE LOS DESVIOS ELEVADOS AL
CUADRADO DIVIDIDO POR LA CANTIDAD DE DATOS MENOS 1.
Por ejemplo calculemos la desviacin estndar para las notas de Pablo, para
ello dispongamos las notas as:



As:

2
7
28
7
28
n
d ... d d
2
n
2
2
2
1
x
= = =
+ + +
= o


La interpretacin de la desviacin estndar, bajo ciertas condiciones de
regularidad, es que la mayora de los datos est entre EL PROMEDIO MENOS LA
DESVIACION y EL PROMEDIO MAS LA DESVIACION, lo que en el ejemplo es que
las notas de Pablo estn entre 4-2 y 4+2, es decir entre 2.0 y 6.0, lo que es
bastante real.
Nota Desvo=Nota-Prom Desvo
2
2 -2 4
3 -1 1
7 3 9
4 0 0
6 2 4
5 1 1
1 -3 9
Suma=28
Para obtener una medida ms interpretable del grado de heterogeneidad
solamente, es til definir el COEFICIENTE DE VARIABILIDAD que se entrega como
un valor porcentual y se define como 100 por el cuociente entre la desviacin
estndar y el promedio, en smbolos:
% 100 . V . C
x
=

o

Para nuestro ejemplo % 55 % 100
0 . 4
2 . 2
. . = = V C , es decir un 55% de
variabilidad, que es moderadamente alto.

Criterio para determinar si los datos son homogneos o Heterogneos:

Si el % 5 s
X
CV los datos se dirn muy homogneos.
Si % 25 % 5 s <
X
CV los datos se dirn homogneos.
Si % 50 % 25 s <
X
CV los datos se dirn heterogneos.
Si % 50 >
X
CV los datos se dirn muy heterogneos.


Ejemplifiquemos esto, calculando la desviacin estndar para la Edad de los consumidores
de cerveza, cuya tabulacin es la siguiente:
Edad | Freq. Percent Cum.
------------+-----------------------------------
10-19 | 2 6.67 6.67
20-29 | 5 16.67 23.33
30-39 | 13 43.33 66.67
40-49 | 7 23.33 90.00
50-60 | 3 10.00 100.00
------------+-----------------------------------
Total | 30 100.00

Calcular en clase y comprobar que: 10 ~
x
S aos.
La varianza posee las siguientes propiedades frente a cambios de escala:
0 ) (
) ( ) (
) ( ) (
2
=
=
=
a Var
X Var a X a Var
X Var a X Var


Si deseramos calcular el coeficiente de variabilidad, a partir de la salida
computacional, no hay problemas pues disponemos de todos los elementos necesarios
para este efecto, la rpida evaluacin de la frmula nos lleva a:
% 0 . 29 % 100
13 . 36
46 . 10
% 100 . V . C
x
= = =

o

Lo que indica bastante homogeneidad de los datos. En conjunto, el promedio y la
desviacin estndar, indican que la mayora de las Edades de los consumidores de
cerveza fluctan entre los 25.7 y 46.6 aos.

2.7.- Estadgrafos de forma.
Son aquellos nmeros resmenes, que indican la morfologa de la distribucin de los
datos, es decir de la simetra y apuntamiento que tiene el histograma de la variable en
estudio. Se estudiarn dos estadgrafos alusivos:
- Sesgo: mide el grado de asimetra, respecto de la moda, que tienen los datos.
Una forma de medir el sesgo es usando la frmula:
o

o
M
Sesgo

=
Sesgo = 0 Sesgo > 0 Sesgo < 0

- Curtosis: mide el grado de apuntamiento que tienen los datos. Una forma de
medir la curtosis es usando la frmula:
( )
10 90
1 3
2
1
P P
Q Q
K

=
Tabla de resumen para las medidas antes mencionadas, cuando se les aplica alguna
transformacin a los datos:

Transformacin Indicador Inicial Modificado
i
x
se transforma en
b x a
i
+ *
Promedio

b * a +
Moda Moda b Moda a + *
Percentil x
x
P b P a
x
+ *
Varianza
2
o
2 2
* a o
Desviacin
Estndar
o . * | a | o
Coeficiente
de
variacin

o
= CV
b a
* a
CV
+
=

o



RECORDAR:
Si n es Impar mediana =
|
.
|

\
| +
2
1 n
X , Si n es par, Mediana =
2
) 1
2
( )
2
( +
+
n n
X X

Para datos agrupados: Mediana=
i
i
i i
n
c
N
n
LI ) -
100
* 50
(
1 -
+ .

P
o
=
i
i
i i
n
c
N
n
LI ) -
100
*
(
1 -
o
+















EJERCICIOS
1. Identifique cul fue la medida que se utiliz en los casos siguientes:

a) Si todos los nacidos vivos pesaran lo mismo, sus pesos seran de 2950 grs.
b) La mitad de los escolares tiene seis caries o ms.
c) El diagnstico que ms se repite en la consulta infantil es resfro comn.
d) La variabilidad con respecto al promedio de la estada hospitalaria es de 1,9 das.
e) El 8 % de la poblacin de Santiago tiene ms de 65 aos.
f) El 35% de la poblacin de Chile tiene 15 aos o menos.
g) Ocho caries es la diferencia entre el escolar con ms caries y el con menos caries.
h) La cuarta parte de una poblacin tiene un peso de 60 kg o ms.

2. Seale la respuesta correcta:

I) Un Mdico Veterinario dice: La gran mayora de los animales se recuper debido al
tratamiento, entonces, se est refiriendo a:
a) La Mediana.
b) La Media.
c) La Moda.
d) Frecuencia Absoluta Acumulada.
e) N.A.

II) Al decir un Preparador: Del corral, slo cinco caballos estn enfermos, se est refiriendo a:
a) La Mediana.
b) La Moda.
c) La Media.
d) La Frecuencia Relativa.
e) N.A.

III) Al decir un Mdico Veterinario: La mitad de los animales supera los 300 Kgs., se est
refiriendo a:
a) La Media.
b) La Mediana.
c) La Moda.
d) La Frecuencia Relativa.
e) N.A.

3. Cierto genetista analiza la informacin de 80 pequeos animales que posee en su
laboratorio, los cuales presentan un peso que flucta entre los 100 y 700 grs. Al enviar a un
Mdico Veterinario para que los analice, ste le informa al genetista que: 20 de ellos tienen un
peso inferior a los 300 grs. Y 10, estn con un peso de al menos los 500 grs., es decir, con
sobrepeso.
Determine:

a) El peso ms frecuente o ms comn que presentan estos animales.
b) Cuntos animales tienen un peso superior a 350 grs?.
c) El genetista sabe que la altura media de estos animales es de 15 cms. con una desviacin
de 3 cms. Cul de las dos variables es ms homognea?.

4. En un curso las notas obtenidas por algunos alumnos fueron las siguientes:
4, 5, 6, 4, 6, 7, 3, 4, 5, 4, 4, 1.
Determine:

a) La nota media.
b) La nota ms frecuente.
c) Una nota que la supere el 50% de los alumnos.

5. La siguiente tabla, muestra el valor de la matrcula que cobran algunos colegios:

Valor Matrcula ($) Nro. De Colegios
50.000 60.000 20
60.000 70.000 31
70.000 80.000 49
Determine:
a) El valor medio de matrcula cobrado por estos colegios.
b) El valor de la matrcula ms comn cobrado por estos colegios.
c) Un valor de la matrcula, de manera que el 50% de los colegios supere este monto.
d) El porcentaje de variacin de la variable.

6. Cada uno de los apoderados que asintieron a la reunin mensual, dieron una cuota
voluntaria, que son mostradas a continuacin (en $):
400, 500, 600, 400, 600, 700, 300, 400, 500, 400, 400, 1.000 Determine:

a) El monto de la cuota media.
b) El monto de la cuota ms comn.
c) El profesor piensa que el 50% de los apoderados dio ms de $ 380, Qu puede
decir Ud?, Justifique.
7. Se cuenta con la distribucin del peso (en kilos), de algunos caprinos, los que se muestran
a continuacin:

Peso Caprinos
2,0 a 2,8
2,8 a 3,6
3,6 a 4,4
4,4 a 5,2
10
17
12
6

a) Determine la variabilidad en los pesos de estos caprinos.
b) Qu porcentaje de caprinos pesan como mnimo 4,0 kilos?
c) Cul es el nivel de peso que se observa con mayor frecuencia en este grupo de
caprinos?
d) Cierto investigador al analizar la informacin argumenta que, la altura de los
caprinos tiene media de 60 cms con desviacin 10 cms.
Determine que variable es ms homognea.

8. Se desean comparar los tiempos que demoraron en algunas prcticas deportivas los
participantes de dos Grupos, los que se observan en lo que sigue:

Tiempo en
segundos
Nmero de participantes
Grupo1

25 a 35
35 a 45

3
8
45 a 55
55 a 65

15
8










a. Determine el tiempo que demoran con mayor frecuencia los participantes del Grupo1.
b. Puede Ud. afirmar que el tiempo medio en las prcticas del grupo 1 es superior al
tiempo medio que demoran las prcticas del grupo 2? Interprete en trminos de qu
grupo es, en media, ms rpido.
c. Qu porcentaje de participantes del grupo 2 demoran al menos 55 segundos en sus
prcticas?
d. A las personas ms rpidas, aquellas que demoran menos de 35 segundos; se les
ofrecer pertenecer a un equipo de seleccin, Qu porcentaje recibir el ofrecimiento?

9. Se registr el nmero de veces que algunos deportistas obtuvieron el primer lugar en
competencias deportivas, observndose lo siguiente:


Deportista A B C D E F
Nm. De veces 6 5 8 5 4 6


a) Identifique la variable, su tipo y escala de medida.
b) Determine si el porcentaje de variabilidad supera el 15%.
c) Cul es el nmero de veces ms comn que han obtenido primer lugar estos
deportistas? Qu nombre recibe este indicador?
d) Determine la mediana.

10. Un criador tiene 10 animales para mejorarlos genticamente, de los cuales cinco de ellos
pesan 500 kgs., dos pesan 600 kgs. y el resto 750 kgs. El criador, piensa que el peso medio
supera al peso mediano. Qu puede decir Ud. al respecto?, justifique.

11. En cierta poblacin de animales, se encuentra la siguiente informacin.

SANOS ENFERMOS
MACHOS 400 100
HEMBRAS 1200 600

a) Qu porcentaje de la poblacin de animales est sana?.
b) Son las hembras ms propensas a enfermarse, justifique.
c) Si los animales se agrupan por sexo, determine e interprete la medida de tendencia
central ms adecuada.

12. En un curso secundario hay 35 hombres con una edad media de 17,5 aos y 15 mujeres
las que, en promedio, son un 25% ms jvenes. Cul es la edad media del curso?
Tiempo en
segundos
Nmero de participantes
Grupo2

25 a 35
35 a 45
45 a 55
56 a 65


9
10
8
2

You might also like