Professional Documents
Culture Documents
APUNTES DOCENTES
ASIGNATURA: ESTADSTICA
VERSIN 5
FECHA: 2011
Pgina 1
VERSIN 5
FECHA: 2011
Pgina 2
VERSIN 5
FECHA: 2011
Pgina 3
VERSIN 5
FECHA: 2011
Pgina 4
VERSIN 5
FECHA: 2011
Pgina 5
Como se puede observar, en los ejemplos, cada una de estas variables se expresa a travs de dos o ms
modalidades o categoras: soltero, casado, unin libre; bueno, regular, defectuoso.
Los datos que se registran cuando las variables son cualitativas o categricas corresponden a la cantidad o
proporcin de elementos que caen dentro de cada categora que toma la variable, por ejemplo: el nmero de
abogados o de maestros, el nmero de individuos que prefieren el color blanco, la proporcin de productos
defectuosos.
Las variables categricas se pueden a su vez subdividir en variables nominales y variables ordinales.
Variables Nominales: son las que no tienen una forma particular de organizar sus categoras. Por ejemplo,
no existe una forma comn de ordenar los colores o el estado civil de las personas.
Variables ordinales: cuando existe una forma comn de organizar las categoras que toma la variable. Por
ejemplo: las modalidades como se puede expresar la calidad de un producto se pueden ordenar como
bueno, regular, defectuoso o al contrario, en defectuoso, regular, bueno. Las categoras con las que se
califica el servicio que presta una EPS se pueden ordenar como psimo, malo, regular, bueno o excelente.
Variables cuantitativas: Son las que se describen por medio de nmeros, por ejemplo, la edad de los
empleados de una empresa, las personas que visitan por da un museo, los saldos de las cuentas por
cobrar de una empresa, el peso de los paquetes que moviliza una empresa transportadora, el nmero de
vehculos que vende un concesionario, etc.
Las variables cuantitativas se pueden clasificar, tambin, en discretas o continuas:
Variables cuantitativas discretas son las que nicamente pueden tomar valores enteros tales como el
nmero de vehculos que vende un concesionario o el nmero de personas que asisten a una sala de cine
Variables cuantitativas continuas son las que se refieren a mediciones de magnitudes fsicas o a
caractersticas apreciables en unidades monetarias y admiten valores fraccionarios o decimales tales como
el peso de los paquetes que moviliza una transportadora, los saldos de las cuentas de ahorro de una entidad
financiera o el tiempo que dura el recorrido de un bus urbano.
Variables cuantitativas categricas: Cuando se quiere facilitar el manejo de los datos o aumentar la
comprensin de un fenmeno, las variable cuantitativas se pueden convertir en categricas, como cuando
las personas que miden menos de 1.50 metros se clasifican como de estatura pequea, las personas que
miden entre 1.50 metros y menos de 1.70 se clasifican como de estatura mediana y las personas que miden
1.70 metros o mas se clasifican como de estatura alta.
CENSO
Es cuando se observa y registra el estado de una caracterstica examinado a todos los elementos de una
poblacin
Los censos rara vez se realizan debido al tiempo que demandan y a la cantidad de recursos que necesitan
por lo que se recurre a tomar datos del estado de la variable en algunos de los elementos de la poblacin
MUESTRA
Es cuando se observa y registra el estado de una caracterstica variable examinado a una parte de los
elementos que pertenecen a una poblacin
Las muestras deben ser representativas y para esto se requiere que las caractersticas de la poblacin estn
VERSIN 5
FECHA: 2011
Pgina 6
VERSIN 5
FECHA: 2011
Pgina 7
VERSIN 5
FECHA: 2011
Pgina 8
El primer caso se presenta, por ejemplo, cuando el estudio actual se va a comparar con un estudio anterior o
un estudio realizado por otro investigador. Entonces, para facilitar las comparaciones entre los dos estudios,
es deseable que los datos del estudio actual se agrupen con el mismo nmero de clases del estudio anterior
La norma emprica de la estadstica indica que el nmero de clases en que se deben agrupar cualquier
conjunto de datos debe ser como mnimo 5 6 clases y como mximo alrededor de 20 clases
K
En la expresin No.C = 2 , No.C es abreviatura de nmero de clases y K indica las clases en que, segn
esta expresin, se deben agrupar los datos.
Para un estudio contiene 155 datos esta expresin funciona as:
6
S K = 6 clases, entonces, No.C = 2 = 64 como 64 < 155 el nmero de clases igual a 6 no es conveniente
7
S K = 7 clases, entonces, No.C = 2 = 128 como 128< 155 el nmero de clases igual a 7 no es conveniente
8
S K = 8 clases, entonces, No.C = 2 = 256 como 256> 155 el nmero de clases igual a 8, segn este
procedimiento, es al ms adecuado para agrupar los 155 datos del estudio.
En la expresin No.C = 1 + 3,3 log( n ), No,C es tambin, abreviatura de nmero de clases, log se refiere
a logaritmo con base 10 y n es la cantidad de datos que se desean agrupar
Para el estudio de 155 datos se tiene: No.C = 1 + 3,3 log(155) = 8,23, quiere decir que el nmero
conveniente de clases, para agrupar estos 155 datos est entre 8 y 9 clases
Otros criterios pueden ser, por ejemplo, nmeros de clases que hacen que los lmites de las clases sean
muy fciles de establecer o que las clases automticamente queden mutuamente excluyentes.
EJEMPLO PRCTICO
La siguiente tabla se refiere a los galones de gasolina corriente que tanquearon la semana pasada, en un
autoservicio, una muestra de vehculos escogidos al azar
3,8
1,7
2,8
2,0
2,5
1,8
2,9
3,6
2,2
3,0
2,8
4,7
3,3
6,9
5,0
2,6
4,0
2,7
4,1
3,4
4,8
5,3
4,9
3,0
3,9
2,0
5,6
2,3
4,5
2,9
6,1
3,0
1,9
6,4
2,6
2,0
2,0
2,6
3,1
VERSIN 5
FECHA: 2011
Pgina 9
= 6,9
= 1,7
= 5,2
=
6
A
=
Amod =
Rmod =
Rmod-R =
0,87
0,9
5,4
0,2
Xmin = 1,5
No.
1
2
3
4
5
6
CLASES
1,5
2,4
2,4
3,3
3,3
4,2
4,2
5,1
5,1
6,0
6,0
6,9
FA
9
14
6
5
2
3
39
FAA
9
23
29
34
36
39
FR
0,23
0,36
0,15
0,13
0,05
0,08
1,00
FRA
0,23
0,59
0,74
0,87
0,92
1,00
Menor
Que
1,5
2,4
3,3
4,2
5,1
6,0
6,9
FRA
0
0,23
0,59
0,74
0,87
0,92
1,00
Esta tabla recibe el nombre de Distribucin de Frecuencias. Los detalles de su construccin sern
explicados por el docente en la exposicin que haga sobre este tema
LA DISTRIBUCIN DE FRECUENCIAS
Es la tabla compuesta por la columna CLASES y por una o varias de las siguientes columnas de
frecuencias:
Frecuencia Absoluta FA: Es la cantidad de datos de la muestra que corresponden a cada clase. Se
obtiene por conteo
Frecuencia Absoluta Acumulada FAA: Se obtiene, para cada clase, sumando la frecuencia absoluta
de la clase, FA, con la frecuencia absoluta de la clase anterior
Frecuencia Relativa FR: Se calcula, para cada clase, dividiendo la frecuencia absoluta de la clase, FA,
entre el total de datos de la muestra. Es prctico que los valores de la frecuencia relativa se tomen con
dos decimales y su suma se ajuste para que d exactamente uno
VERSIN 5
FECHA: 2011
Pgina 10
Frecuencia Relativa Acumulada FRA: Se calcula, para cualquier clase, sumando la frecuencia relativa
de la clase, FR, con la frecuencia relativa de la clase anterior
HISTOGRAMA
0,40
0,36
FRECUENCIA RELATIVA
0,35
0,30
0,25
0,23
0,20
0,15
0,13
0,15
0,08
0,10
0,05
0,05
0,00
1.5
2.4
3.3
4.2
5.1
6.0
6.9
GALONES
VERSIN 5
FECHA: 2011
Pgina 11
Xi =
:
2
Donde LS es el lmite superior de la clase y LI es el lmite inferior de la clase. Por ejemplo, para construir la
marca de clase de la primera clase se procede as:
Xi =
1,5 : 2,4
2
1,95
POLGONO DE FRECUENCIAS
0,40
0,36
FRECUENCIA RELATIVA
0,35
0,30
0,23
0,25
0,20
0,15
0,15
0,13
0,08
0,10
0,05
0,05
0,00
0,00
0,00
1,0
1,9
2,9
3,8
4,7
5,6
6,5
7,4
GALONES
Las marcas de clase se utilizan, tambin, cuando se requiere representar todos los valores de una clase por
un solo nmero. Por ejemplo, 1,95 galones representa todos los valores de la muestra que se encuentran
entre 1,5 galones y 2,4 galones
Tanto el histograma como el polgono de frecuencias permiten visualizar algunas de las caractersticas de la
situacin o fenmeno que se est estudiando, tales como:
El rango de los datos
Alrededor de qu valores tienden a agruparse los datos
Valores de la muestra que se presentan con ms o menos frecuencia
A qu lado de la grfica parecen agruparse ms los datos
VERSIN 5
FECHA: 2011
Pgina 12
Los dems detalles de la construccin del polgono de frecuencias sern explicados por el docente en la
exposicin que haga sobre este tema
COMO INTERPRETAR UN HISTOGRAMA O UN POLGONO DE FRECUENCIAS
Los histogramas y los polgonos de frecuencias facilitan a las personas que tienen que tomar decisiones
sobre una determinada situacin una visin rpida del comportamiento y caractersticas de la situacin que
se estudia. Algunas de las preguntas que se pueden responder observando estas grficas son:
Cul es el rango de los datos?
En qu clases se concentran el mayor nmero de datos?
Cul clase contiene menos datos?
Qu valores de la muestra se presentan con ms o menos frecuencia?
A qu lado de la grfica parecen concentrarse ms los datos?
Se presentan huecos o clases vacas?
Se presentan valores aislados de los dems?
La grfica presenta subidas o bajadas bruscas o suaves?
Cuntos picos tiene la grfica?
Es simtrica la grfica?
LA OJIVA
La ojiva es un grfico de frecuencias acumuladas que describe que cuantas unidades o qu porcentaje de
unidades se encuentran por encima o por debajo de un determinado valor de la variable.
Este grfico se construye a partir de la tabla MENOR QUE, utilizando la frecuencia absoluta acumulada, FAA
o la frecuencia relativa acumulada, FRA. En el grfico que se presenta a continuacin se utiliz la frecuencia
relativa acumulada.
OJIVA
1,2
1,00
FRECUENCIA RELATIVA
0,87
0,92
0,74
0,8
0,59
0,6
0,4
0,23
0,2
0
0
1,5
2,4
3,3
4,2
5,1
6,0
6,9
GALONES
Los detalles sobre la construccin de estos grficos sern explicados por el docente en la exposicin que
haga sobre este tema
VERSIN 5
FECHA: 2011
Pgina 13
X0 = 4,2
X1 = 4,8
X2 = 5,1
Y0
Y1
Y2
= 0,74
= ?
= 0,87
Y1 = Y0 +
(1 ;0 )
(2 ;0 )
(Y2 - Y0)
Y1 = 0,74 +
( 4,8 ;4,2 )
( 5,1 ; 4,2 )
Esto quiere decir que el 83% de los vehculos de la muestra tanquearon menos de 4,8 galones, pero, como
se quiere saber es que porcentaje tanque mas de 4,8 galones, se debe restar el resultado anterior de 1
1 - 0,83 = 0,17 = 17% = porcentaje de vehculos de la muestra que tanquearon mas de 4,8 galones
VERSIN 5
FECHA: 2011
Pgina 14
68
56
91
81
84
76
79
78
54
36
71
62
49
90
67
60
64
91
77
51
41
87
72
63
45
91
66
63
52
61
67
74
68
75
57
85
91
36
55
6
9,16667
9
En el clculo anterior se puede observar que para construir la amplitud modificada, se borra toda la parte
decimal de la amplitud, A, calculada
Cuando la amplitud modificada es un nmero impar, las marcas de clase, que se utilizan para representar a
las clases, son valores fraccionarios, como ocurre en este ejemplo; esta situacin es incmoda porque no
refleja la realidad en los casos de variable discreta, por lo que se prefiere agrupar los datos en clases que
sean de amplitud par, como se presenta a continuacin, para el mismo ejemplo, donde la amplitud se cambi
VERSIN 5
FECHA: 2011
Pgina 15
No.
1
2
3
4
5
6
7
CLASES
36
44
45
53
54
62
63
71
72
80
81
89
90
98
FA
2
5
6
9
9
6
4
41
FR
0,05
0,12
0,14
0,22
0,22
0,15
0,10
1,00
FRA
0,05
0,17
0,31
0,53
0,75
0,90
1,00
Menor
Que
36
45
54
63
72
81
90
99
FRA
0
0,05
0,17
0,31
0,53
0,75
0,90
1,00
Se observa, tambin, que el lmite inferior de cada clase es igual al lmite inferior de la clase anterior ms
uno. Tambin se puede ver que el lmite superior de la ltima clase, (98), no coincide con el Xmax, (91), de
los datos y el lmite inferior de la primera clase es el Xmin (36), de los datos.
Las clases construidas de esta manera se llaman CLASES CERRADAS, porque en cada clase se
contabilizan todos los datos incluidos entre los dos lmites de la clase. Sin embargo, estas clases, como se
puede observar, son de amplitudes constantes, mutuamente excluyentes y exhaustivas.
Tambin se observa que la tabla MENOR QUE, se construye de manera un poco distinta a como se hizo
para el caso de variable continua, ntese que el ltimo valor de la columna Menor Que, no es igual al lmite
superior de la ltima clase, sino a se valor ms uno.
.
REPRESENTACIN GRFICA
HISTOGRAMA
Para el caso de variable discreta el histograma, recibe tambin el nombre de DIAGRAMA DE FRECUENCIAS y
en l las clases se encuentran separadas, como se ve en el siguiente grfico:
VERSIN 5
FECHA: 2011
Pgina 16
DIAGRAMA DE FRECUENCIAS
Frecuencia Relativa
0,25
0,22
0,22
0,2
0,15
0,14
0,15
0,12
0,1
0,1
0,05
0,05
0
36 44
45 53
54 62
63 71
72 80
81 89
90 98
Nmero de transacciones
Con frecuencia, en lugar de identificar cada clase con sus lmites de clase, es ms prctico utilizar la marca de clase,
como se muestra en este grfico, a continuacin
Diagrama de Frecuencias
Frecuencia relativa
0,25
0,22
0,22
0,20
0,15
0,14
0,15
0,12
0,10
0,10
0,05
0,05
0,00
40
49
58
67
76
85
94
Nmero de transacciones
Ahora es mucho ms fcil leer el diagrama de frecuencias, por ejemplo, en el 14% de los das de la muestra
se realizaron 58 transacciones, el nmero de transacciones por da menos frecuente, en la muestra, fue de
40 transacciones por da
POLGONO DE FRECUENCIAS
Se construye de la misma manera, a partir del diagrama de frecuencias y las marcas de clase, como se hizo
en el caso de variable continua. Ntese que en esta grfica se presenta una distorsin debido a que las
clases no son adyacentes
VERSIN 5
FECHA: 2011
Pgina 17
Polgono de Frecuencias
Frecuencia Relativa
0,25
0,22
0,22
0,2
0,15
0,14
0,15
0,12
0,10
0,1
0,05
0,05
0
0,00
0
31
40
49
58
67
76
85
94
103
Nmero de Transacciones
OJIVA
Cuando la variable es discreta, como en este caso, la ojiva se construye de forma diferente, porque la
variable slo toma valores enteros, aunque, aqu tambin, este grfico se construye a partir de la tabla
MENOR QUE
OJIVA
1,2
1,00
1
0,9
0,75
0,8
0,53
0,6
0,4
0,2
0
0,31
0,17
0,05
36
45
54
63
72
81
90
99
Nmero de transacciones
Los detalles sobre la construccin de este grfico sern explicados por el docente en la exposicin que haga
sobre este tema
VERSIN 5
FECHA: 2011
Pgina 18
0
1
3
1
2
0
1
1
0
1
0
3
X
0
1
2
3
4
2
1
0
0
3
1
FA
25
19
10
4
2
60
FR
0,42
0,31
0,17
0,07
0,03
1,00
0
0
1
0
3
2
FAA
25
44
54
58
60
0
1
0
0
1
2
1
4
1
1
0
0
FRA
0,42
0,73
0,90
0,97
1,00
0
0
2
0
2
1
MENOR
QUE
0
1
2
3
4
5
0
0
2
0
2
1
1
0
0
1
0
1
FRA
0
0,42
0,73
0,90
0,97
1,00
Diagrama de Frecuencias
30
25
No. de facturas
25
19
20
15
10
10
4
0
0
No. de errores
VERSIN 5
FECHA: 2011
Pgina 19
Quatro
Pepsicola
Cocacola
Postobn
Link
Postobn
Postobn
Pepsicola
Seven Up
Pepsicola
Cocacola
Cocacola
Quatro
Quatro
Link
Cocacola
Postobn
Pepsicola
Sprite
Pepsicola
Sprite
Cocacola
Postobn
Cocacola
Postobn
Cocacola
Postobn
Cocacola
Quatro
Pepsicola
Link
Cocacola
Postobn
Sprite
No.
1
2
3
4
5
6
7
CLASES
Cocacola
Link
Pepsicola
Postobn
Quatro
Seven Up
Sprite
FA
10
3
6
8
4
1
3
35
FR
0,29
0,09
0,17
0,23
0,11
0,03
0,08
1,00
Diagrama de Frecuencias
0,35
Frecuencia Relativa
0,3
0,29
0,23
0,25
0,2
0,17
0,15
0,11
0,09
0,1
0,08
0,03
0,05
0
Cocacola
Link
Sprite
Tipo de bebida
VERSIN 5
FECHA: 2011
Pgina 20
Diagrama Circular
Seven Up
3%
Sprite
8%
Quatro
11%
Cocacola
29%
Postobn
23%
Link
9%
Pepsicola
17%
VERSIN 5
FECHA: 2011
Pgina 21
VERSIN 5
FECHA: 2011
Pgina 22
Xi
N
Para Poblaciones
Xi
n
Para Muestras
EJEMPLO
Las comisiones que un vendedor ha recibido en los 6 primeros meses del ao se presentan en la siguiente
tabla:
La expresin para calcular la media aritmtica indica
que se deben sumar todos los valores que toma la
variable y dividir por el nmero de datos
Ingresos
MES
(Miles de $ )
Enero
800
Febrero
950
Marzo
920
Abril
1000
Mayo
830
Junio
900
800:950:920:1000:830:900
6
= $900 miles
e
VERSIN 5
FECHA: 2011
Pgina 23
SOLUCIN:
Ingresos
MES
(Miles de $ )
Enero
800
Febrero
950
Marzo
920
Abril
1000
Mayo
830
Junio
900
Suma
= 5400
5400
6
= $900 miles
5400
XiFAi
Para Poblaciones
XiFAi
n
Para Muestras
N Es el tamao de la poblacin
n Es el tamao de la muestra
Es la marca de clase de cada una de las clases en que se han agrupado los datos
Es la frecuencia absoluta de cada una de las clases en que se han agrupado los datos
EJEMPLO
Una muestra del valor de las facturas, en miles de pesos, que se cancelan con tarjetas de crdito en una
cadena de almacenes de modas se presenta en la siguiente tabla:
Ventas
No. de
(Miles de $) Facturas
30
36
25
36
42
38
42
48
49
48
54
51
54
60
32
60
66
29
224
Calcular la media aritmtica
interpretar el significado
Ventas
No. de
(Miles de $) Facturas
XiFAi
30
36
25
33
825
36
42
38
39
1.482
42
48
49
45
2.205
48
54
51
51
2.601
54
60
32
57
1.824
60
66
29
63
1.827
224
Xi
VERSIN 5
10.764
FECHA: 2011
Pgina 24
SOLUCIN:
El total de la cuarta columna es = 10.764 y el total de datos, n, es 224, por lo que la media aritmtica
buscada es:
10.764
224
= $48.054 miles
Interpretacin: El valor de promedio de cada factura pagada con tarjeta de crdito es de $48.054 miles, que
es como si cada factura fuera de este valor
9.3 SIGNIFICADO DE LA MEDIA ARITMTICA
La media aritmtica o promedio calculada para un conjunto de datos significa que al remplazar el valor
promedio por cada uno de los datos se obtiene el mismo resultado general
10. MEDIA ARITMTICA PONDERADA
Existen situaciones en las cuales los datos registrados sobre una situacin traen in formacin adicional que
indica que estos valores no tienen la misma importancia relativa, como se presenta en el siguiente caso:
EJEMPLO
Las notas obtenidas por un estudiante en 3 quices de un corte y las notas finales, del semestre, extradas del
polgrafo correspondiente, se presentan en la siguiente tabla:
PRUEBA
Quiz No.1
Quiz No.2
Quiz No.3
Promedio
NOTA
3.5
4.1
2.4
3.3
ASIGNATURA
A
B
C
NOTA
FINAL
4.9
3.1
3.0
CRDITOS
2
4
3
En el caso de los quices no existe ninguna informacin que permita pensar que estas tres notas tienen
diferente nivel de importancia, por lo que su promedio se puede calcular utilizando la frmula de la media
para datos no agrupados, lo que no ocurre para el caso del polgrafo donde, por ejemplo, la nota de la
asignatura B vale el doble que la nota de la asignatura A; en casos como este, para calcular el promedio, se
utiliza una variante de la media aritmtica que recibe el nombre de Media Aritmtica Ponderada o Promedio
Ponderado, cuya expresin matemtica es la siguiente:
Xi Wi
p =
Media aritmtica ponderada
Wi
p Es el smbolo de la media ponderada
xi Representa los valores que toma la variable. En el ejemplo, las notas (4.9, 3.1 y 3.0)
Representa el valor relativo de cada uno de los datos, llamados Factores de Ponderacin. En el
ejemplo, los crditos de cada una de las asignaturas (2, 4 y 3)
VERSIN 5
FECHA: 2011
Pgina 25
CRDITOS
ASIGNATURA
Xi
Wi
XiW i
4,9
9,8
3,1
12,4
3.0
9.0
31,2
Suma
Xi Wi = 31.2
Wi = 9
= 3.47
S para este caso del polgrafo el promedio se calculara como media aritmtica simple, ignorando la
informacin de los crditos, este clculo dara 3.7 que es diferente del promedio ponderado que da un valor
de 3.47
11. PROPIEDADES DE LA MEDIA ARITMTICA
El clculo de la media aritmtica tiene en cuenta todos los valores de la variable en estudio registrados
A todas las variables cuantitativas se les puede calcular la media aritmtica
Un conjunto de datos slo tiene una media
La media permite hacer comparaciones entre poblaciones o muestras
La media se puede trabajar matemticamente
La media es afectada por los valores extremos
No se puede calcular la media en distribuciones de frecuencias que tienen clase de extremo abierto
100
VERSIN 5
FECHA: 2011
Pgina 26
100
EJEMPLO
La rentabilidad de un ttulo valor ha estado variando en las ltimas semanas como se presenta en la
siguiente tabla:
RentaSemana
bilidad
3%
1%
-2%
0,7%
1,5%
bilidad
FC
3%
1,03
1%
1,01
6
1%
A qu tasa promedio semanal ha estado
variando la rentabilidad de este ttulo?
-2%
0,98
0,7%
1,007
1,5%
1,015
1%
1,01
(1.03)(1.01)(0.98)(1.007)(1.015)(1.01)
100
Por lo tanto:
Tasa promedio = (1.00856 1 ) x 100 = 0.856% 0.9%
Respuesta: El ttulo ha estado aumentado a una tasa promedio del 0.9% semanal
Cuando los datos se presentan en valores absolutos, pero, se debe calcular un porcentaje promedio, los
factores de crecimiento se determinan como se indica en el siguiente ejemplo:
VERSIN 5
FECHA: 2011
Pgina 27
AO
Ventas
(Millone
s)
2001
68
2002
75
2003
32
2004
59
2005
73
2006
92
2007
108
TABLA No.2
AO
Ventas
(Millone
s)
2001
68
2002
75
1,1029
2003
32
0,4267
2004
59
1,8438
2005
73
1,2373
2006
92
1,2603
2007
108
1,1739
FC
G = (1.1029)(0.4267)(1.8438)(1.2373)(1.2603)(1.1739)
G = 1.08017 (Factor de Crecimiento promedio)
Tasa Promedio = (1.08017 1) x 100 = 8.017%
Respuesta: Las ventas estn creciendo a una tasa promedio
del 8% anual
Tambin se puede calcular la media geomtrica para el caso de valores que varan en funcin del tiempo y
slo se conocen los valores inciales y finales del periodo, como se puede ver en el siguiente ejemplo:
EJEMPLO
Una persona invirti $25 millones a 3 aos, recibiendo al final de este periodo la suma de $33,306 millones
A qu tasa promedio mensual creci esta inversin?
La expresin de la media geomtrica para casos como este es la siguiente:
G=
valor final
valor inicial
VERSIN 5
FECHA: 2011
Pgina 28
G=
33.306
25
Como la tasa que se pide es mensual el nmero de periodos es 36, por lo tanto, el ndice de la raz es 36
Para calcular la tasa promedio se aplica la expresin:
Tasa = ( FC 1 )x100
Tasa promedio = (1.008 1) x 100
Tasa promedio = 0.8%
Es decir, la inversin est creciendo, en promedio al 0.8% mensual.
12.2 PROPIEDADES DE LA MEDIA GEOMTRICA
La media geomtrica siempre es menor o igual a la media aritmtica, es decir: G
12.3 USOS DE LA MEDIA GEOMTRICA
La media geomtrica se utiliza para calcular promedios de cantidades expresadas en porcentajes o en
proporciones
13. LA MEDIANA
La mediana es el valor que ocupa la posicin central de un conjunto de datos cuando estos estn ordenados
de menor a mayor.
Para aclarar este concepto veamos el siguiente ejemplo:
EJEMPLO
La siguiente tabla presenta las notas obtenidas por una muestra de estudiantes en un examen
ESTUDIANTE
R. Martnez
P. Ardila
M. Castellanos
A. Manjarrs
O. Len
NOTA
4.3
1.7
3.8
4.8
3.5
ESTUDIANTE
L. Rueda
J. Zrate
G. Torres
Z. Bentez
NOTA
2.9
4.0
1.2
4.7
Ordenando estos datos de menor a mayor donde el menor est en el extremo izquierdo y el mayor en el
extremo derecho de la fila se tiene:
1.2
1.7
2.9
3.5
3.8
4.0
4.3
4.7
4.8
El nmero que ocupa la posicin central es 3.8 porque por debajo de l hay 4 datos y por encima otros 4, por
lo tanto, 3.8 es el valor mediano
13.1 INTERPRETACIN DE LA MEDIANA
El docente que tom la muestra podra describir el comportamiento de los estudiantes en la prueba diciendo
que la mitad de las notas de la muestra se encuentran por debajo de 3.8 o por encima de 3.8
Alternativamente, el docente podra haber utilizado el promedio o media aritmtica para describir el
comportamiento de los estudiantes en la muestra, como se vio anteriormente, pero, la mediana, entonces, es
otra manera de describir una situacin que es diferente de la media aritmtica
VERSIN 5
FECHA: 2011
Pgina 29
= 3.8
13.3 CLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS
Nmero impar de datos
Cuando en nmero de datos que componen la muestra es impar, como en el ejemplo de las notas, la
mediana se puede calcular por simple inspeccin como se hizo anteriormente. Pero, para situaciones que
representen un mayor nmero de datos existe una expresin matemtica que es la siguiente.
= Xn+1
2
Esta expresin indica que el valor mediano ocupa la posicin (n + 1)/2 cuando los datos estn ordenados en
orden ascendente
Para aplicar esta expresin es preciso ordenar, entonces, los datos en orden ascendente e indicar la
posicin u orden de cada dato como se muestra a continuacin:
X1
1.2
X2
1.7
X3
2.9
X4
3.5
X5
3.8
X6
4.0
X7
4.3
X8
4.7
X9
4.8
Los Xi indican la posicin de cada dato, por ejemplo, X 7 indica que 4.3 ocupa la sptima posicin cuando
los datos estn ordenados de forma ascendente
Como el nmero de datos es 9, entonces (n+1)/2 es igual a 5, esto quiere decir que el valor mediano es el
valor que ocupa la quinta posicin cuando los datos estn ordenados de menor a mayor
= X5 = 3.8
tal como se haba establecido anteriormente por simple inspeccin
Nmero par de datos
Cuando el nmero de datos sin agrupar es par, la expresin para calcular la mediana es la siguiente.
=
X n / 2 X n / 21
2
Esto quiere decir que el valor mediano es el resultado de promediar los valores que ocupan las posiciones
X n / 2 y X n / 21
Para explicar esta expresin veamos el siguiente ejemplo:
VERSIN 5
FECHA: 2011
Pgina 30
ESTUDIANTE
ESTATURA
ESTUDIANTE
ESTATURA
M. Rodrguez
1.75
G. Lpez
1.69
L. Snchez
1.68
H. Nez
1.57
D. Rojas
1.81
T. Garca
1.77
J. Acevedo
1.65
R. Orduz
1.62
F. Daz
1.73
P. Pinzn
1.71
Al ordenar estos datos de forma ascendente e indicar la posicin de cada uno de ellos se llega a la siguiente
tabla:
X1
1.57
X2
1.62
X3
1.65
X4
1.68
X5
1.69
X6
1.71
X7
1.73
X8
1.75
X9
1.77
X10
1.81
Como se puede observar, en esta ocasin, no existe un valor nico que se localice en el centro del conjunto
de datos ordenado, los valores X5 y X6 ocupan el centro de este conjunto y la mediana se localiza en el
punto medio entre estos dos datos , por lo que para establecer su valor se promedian 1.69 y 1.71 as:
=
X5 X6
2
1.69 1.71
= 1.70
2
Este valor se interpreta como que la mitad de los estudiantes de esta muestra miden menos de 1.70 metros
se deja al lector de estas notas, que como ejercicio, verifique que la expresin de la mediana para nmero
par de datos produce el mismo resultado anterior
13.4 CLCULO MEDIANA PARA DATOS AGRUPADOS
Recordemos que cuando se habla de datos agrupados nos referimos a datos agrupados en clases
Se presentan dos casos para el clculo de la mediana
Primer Caso
La frecuencia absoluta acumulada, FAA, hasta alguna de las clases, de la distribucin de frecuencias,
coincide con la cantidad total de datos dividida entre 2, es decir, ( n / 2), como se puede ver en el siguiente
ejemplo:
EJEMPLO
Los ingresos en una semana, en millones de pesos, de una muestra de tabernas se presenta en la siguiente
tabla:
clase
No.
1
2
3
4
5
6
7
Ingresos
(Millones de $)
1,6
1,9
1,9
2,2
2,2
2,5
2,5
2,8
2,8
3,1
3,1
3,4
3,4
3,7
Suma
No. De
tabernas
6
11
18
25
29
20
11
120
VERSIN 5
FAA
6
17
35
60
89
109
120
FECHA: 2011
Pgina 31
n / 2 FAAi 1
FAi
= + A
Clase
No.
1
2
3
4
5
6
7
8
9
SALDO
MENSUAL
(Miles de $)
0
300
300
600
600
900
900
1.200
1.200 1.500
1.500 1.800
1.800 2.100
2.100 2.400
Mas de 2.400
No. De
depsitos
25
36
51
42
37
30
22
19
17
FAA
25
61
112
154
191
221
243
262
279
clase i - 1
clase i
El nmero total de datos de la muestra es 279 depsitos, por lo tanto, n/2 es $139.5 miles. El valor, de la
frecuencia absoluta acumulada, FAA; inmediatamente superior a ste es $154 miles, es decir, que la clase
en la que se encuentra la mediana es la cuarta clase que va de $900 a $1.200 miles. Esta es entonces la
clase i. La clase anterior a sta es la tercera clase y su frecuencia absoluta acumulada hasta aqu es $112
miles.
VERSIN 5
FECHA: 2011
Pgina 32
139.5 112
= $1.096 miles
42
esto quiere decir que la mitad de los clientes de la muestra tenan un saldo, al final del mes observado,
inferior a $1.096.000
14. MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICI{ON
14.1 LOS CUARTILES
Los cuartiles son tres valores que se determinan o calculan a partir de un conjunto de datos, con la
particularidad de que dividen el conjunto de datos en cuatro partes iguales cuando este conjunto est
ordenado en forma ascendente. Estos valores son:
Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los
datos cuando estn ordenados de menor a mayor
Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los
datos cuando estn ordenados de menor a mayor, es decir, es la misma mediana
Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75%
de los datos cuando estn ordenados de menor a mayor
Precisemos estas ideas con el siguiente ejemplo:
EJEMPLO
El nmero de clientes que atendieron en un da once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla
15
20
18
28
32
23
28
32
Q1
Q2
Q3
Como se puede observar los nmeros 8, 15 y 23 dividen el conjunto en cuatro partes iguales. Estos valores
reciben, respectivamente, los nombres de Primer Cuartil, Segundo Cuartil y Tercer Cuartil
14.1.1 CUARTILES PARA DATOS NO AGRUPADOS
Revise el material CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS, de estos mismos
apuntes
14.1.2 CUARTILES PARA DATOS AGRUPADOS
Primer caso:
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operacin
Qi x n
100
Donde:
VERSIN 5
FECHA: 2011
Pgina 33
No. DE
ACCIN
ACCIONES
FAA
1300
1400
100
100
1400
1500
175
275
1500
1600
230
505
1600
1700
190
695
1700
1800
150
845
1800
1900
130
975
1900
2000
125
1100
1100
100
25 x 1100
100
= 275
Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
operacin Qixn/100
En este caso, el clculo del cuartil se hace de manera parecida al segundo caso del clculo de la mediana.
La expresin que se utiliza es la siguiente:
FAi
= + A
VERSIN 5
FECHA: 2011
Pgina 34
UTILIDAD POR
No. DE
ACCIN
ACCIONES
FAA
1300
1400
100
100
1400
1500
175
275
1500
1600
230
505
1600
1700
190
695
1700
1800
150
845
1800
1900
130
975
1900
2000
125
1100
100
75 1100
100
= 825
1100
825 ; 695
150
Q3 = $1787
Interpretacin: El 75% de las acciones tienen una utilidad inferior a $1787
14.2 LOS PERCENTILES
Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales, cuando este conjunto
est ordenado de menor a mayor
Un percentil, por lo tanto, es un valor por debajo del cual se encuentra un determinado porcentaje de los
datos. Por ejemplo:
P30 = 200 que se lee: Percentil 30 igual a 200, quiere decir que por debajo del valor 200, del conjunto
ordenado de datos, se encuentran el 30% de los datos.
14.2.1 PERCENTILES PARA DATOS NO AGRUPADOS
Revise el material CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS, en estos mismos
apuntes
14.2.2 PERCENTILES PARA DATOS AGRUPADOS
Primer caso:
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operacin:
Donde:
P es el percentil que se quiere calcular
n es el tamao de la muestra.
Pxn
100
S el percentil que se quiere calcular es igual al lmite superior de la clase cuya frecuencia absoluta
EJEMPLO
La siguiente tabla se refiere a una muestra, al azar, del tiempo que duraron las llamadas telefnicas
realizadas por el personal de oficina de una empresa
VERSIN 5
FECHA: 2011
Pgina 35
No. de
en minutos
Llamadas
0,0
2,0
46
46
2,0
4,0
67
113
4,0
6,0
44
157
6,0
8,0
31
188
8,0
10,0
25
213
Mas de
10,0
17
230
230
100
20 230
100
= 46
Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
operacin
100
En este caso, el clculo del percentil se hace de manera parecida al segundo caso del clculo de la
mediana. La expresin que se utiliza es la siguiente:
FAi
Pi = + A
No. de
en minutos
Llamadas
FAA
46
46
100
0,0
2,0
2,0
4,0
67
113
4,0
6,0
44
157
Clase i -
6,0
8,0
31
188
Clase i
8,0
10,0
25
213
Mas de
10,0
17
230
70 230
100
= 161
230
Interpretacin: El 70% de las llamadas, de la
muestra, fue inferior a 6.26 minutos
VERSIN 5
161 ; 157
31
FECHA: 2011
Pgina 36
21
19
23
22
27
21
23
22
18
20
22
21
19
21
26
28
22
25
24
22
20
19
31
22
24
30
28
22
26
EJEMPLO
Los puntajes alcanzados, en una escala de 100 puntos, en las pruebas de ingreso, por los aspirantes a
trabajar en una empresa se presentan en la siguiente tabla:
71
68
70
55
57
36
51
57
68
40
57
85
50
49
68
68
39
45
57
25
VERSIN 5
FECHA: 2011
Pgina 37
6,8
5,5
6,1
6,4
6,2
5,7
6,3
5,6
5,1
6,9
7,0
7,4
6,6
6,0
5,4
6,5
6,7
5,8
5,9
7,5
No. de
Motos
Semanas
12
19
16
10
ms de 6
No. de
Celular
Profesionales
Sony
18
Motorola
32
L. G.
15
Nokia
47
Samsung
30
iPhone
10
Otras marcas
= Nokia
Interpretacin: La marca de celular que con
ms frecuencia utilizan los profesionales, de la
muestra, es Nokia
Como se puede observar se puede calcular la
moda para datos de variable cualitativa
VERSIN 5
FECHA: 2011
Pgina 38
Tercer caso: Datos de variable discreta o continua agrupados en clases de amplitud mayor que cero
Se aplica la frmula como se muestra en el siguiente ejemplo
EJEMPLO
Utilizando un radar de carretera los agentes de trnsito tomaron una muestra de la velocidad, en kilmetros
por hora, a la que se desplazan los vehculos al pasar por un puente. Los resultados estn en la siguiente
tabla:
Clase
Velocidad
No. de
No.
(Kmts / hora)
Vehculos
Hasta
40
40
50
36
50
60
44
60
70
61
70
80
55
80
90
19
90
14
Mas de
1
1 : 2
= 60 + 10
17
17:6
VERSIN 5
FECHA: 2011
Pgina 39
= 4
SEGUNDO CASO
Algn valor de la frecuencia absoluta acumulada coincide con n/2
Este caso se da cuando en la distribucin de frecuencias de la frecuencia absoluta acumulada, FAA, algn
valor de esta columna, es igual al tamao de la muestra dividido por 2, es decir, n/2
EJEMPLO
Se tom una muestra del nmero de estufas elctricas que vendieron en el ao una muestra de
distribuidores escogidos al azar
VERSIN 5
FECHA: 2011
Pgina 40
VERSIN 5
FECHA: 2011
Pgina 41
= X(n+1)Qi/100
es la posicin que ocupa el cuartil cuando los datos estn ordenados de menor a mayor
Qi corresponde a Q1, Q2, o Q3 y toman los valores 25, 50 y 75 respectivamente
EJEMPLO No. 1
El nmero de clientes que atendieron en un da once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla:
15
20
10
18
28
32
la tabla de datos ordenados de menor a mayor se presenta en la siguiente tabla donde X1, X2, X3, etc,
representan la posicin que ocupan los datos:
X1
3
X2
5
X3
8
X4
10
X9
23
Q2
Q3
Q1
X10
28
X11
32
Por simple inspeccin se puede establecer que los nmeros 8, 15 y 23 dividen el conjunto de datos en 4
partes iguales, donde:
El primer cuartil ocupa la tercera posicin, es decir, 1 = X3 = 8
El segundo cuartil ocupa la sexta posicin, es decir, 2 = X6 = 15
El tercer cuartil ocupa la novena posicin, es decir, 3 = X9 = 23
No siempre es fcil establecer los cuartiles por simple inspeccin por lo que se debe aplicar la frmula para
calcular cada uno de los cuartiles.
Clculo del primer cuartil
1 = X (11+1)25/100 = X(12)25/100 = X300/100 = X3 = 8
INTERPRETACIN:
La cuarta parte de los vendedores, de la muestra, atendieron menos de 8 clientes
VERSIN 5
FECHA: 2011
Pgina 42
13
16
28
23
25
X10
25
X11
28
X12
30
X1
4
X2
6
X3
9
Q1
Q2
Q3
En este caso ningn cuartil coincide exactamente con alguno de los valores de la tabla de datos ordenada
Clculo del primer cuartil
1 = X(12+1)25/100 = X(13)25/100 = X325/100 = X3.25
X3.25 quiere decir que el primer cuartil se encuentra entre el tercero y cuarto valor en orden ascendente. Esto
quiere decir que es un valor superior a X3 pero inferior a X4. Para calcular el cuartil se interpola el excedente
de X3, es decir, 0.25 por la distancia que hay entre X3 y X4 as:
1 = X3.25 = X3 + 0.25( X4 X3 )
Por lo tanto: Q1 = 9+0.25(11 9 ) = 9+0.25( 2 ) = 9+0.5 = 9.5
Clculo del segundo cuartil
2 = X(12+1)50/100 = X(13)50/100 = X650/100 = X6.5
2 = X6.5 = X6 + 0.5( X7 X6 )
Por lo tanto Q2 = 16+ 0.5(18-16) = 16+0.5(2) = 16+1 = 17
Observe que el segundo cuartil es la misma mediana
Clculo del tercer cuartil
3 = X(12+1)75/100 = X(13)75/100 = X 975/100 = X9.75
VERSIN 5
FECHA: 2011
Pgina 43
INTERPRETACIN:
El 35 % de los vendedores atendieron 10 o menos clientes
El 65% de los vendedores atendieron 11 o mas clientes
El mximo nmero de clientes atendidos por el 35% de los vendedores fue de 10
El mnimo nmero de cliente que atendieron el 65% de los vendedores fue de 11
EJEMPLO 4
Para el caso del ejemplo 2 calcule P78 e interprete el resultado
X P78 = X(12+1)78/100 = X(13)78/100 = X1014/100 = X10.14
X10.14 = X10 + 0.14( X11 X10 )
Por lo tanto: P78 = 25 + 0.14( 28 25 ) = 25 + 0.14(3) = 25.42
VERSIN 5
FECHA: 2011
Pgina 44
INTERPRETACIN
El 78% de los taxis de la muestra tuvieron ingresos por debajo de $25.42 miles
El 22% de los taxis de la muestra tuvieron ingresos superiores a $25.42 miles
El ingreso mximo del 78% de los taxis de la muestra fue de $25.42 miles
El ingreso mnimo del 22% de los taxis de la muestra fue de $25.42 miles
VERSIN 5
FECHA: 2011
Pgina 45
VENTAS
MENSUALES
No. De
(MILLONES)
MESES
10
14
11
14
18
32
18
22
19
22
26
12
26
30
30
34
5
86
MENSUALES
No. De
(MILLONES)
MESES
10
14
10
14
13
14
18
16
18
22
11
22
26
10
26
30
10
30
34
34
38
5
86
35
30
Meses
25
20
15
ARMANY
10
GALAXIA
5
0
4
12 16 20 24 28 32 36 40
Millones de pesos
CONCEPTO DE DISPERSIN
Se llama DISPERSIN al grado de variabilidad de un conjunto de datos alrededor de algn valor que se
toma como referencia. Usualmente se toma como referencia alguna de las medidas de tendencia central.
VERSIN 5
FECHA: 2011
Pgina 46
1
3,8
10
3,8
En este caso todas las notas son iguales, por lo tanto, no hay ninguna variabilidad y ninguna dispersin
1
3,8
10
3,8
Ahora hay una nota diferente a las dems, por lo tanto, existe una pequea variabilidad entre los datos y una
pequea dispersin con respecto a la primera muestra
1
3,0
2
3,5
10
1,9
En esta ltima muestra, hay un aumento notorio en la variabilidad entre los datos y en la dispersin con
respecto a la muestra anterior
Es preciso resaltar, que la dispersin es un concepto relativo, siempre se evala comparando una muestra o
poblacin con algn valor de referencia o con otra muestra o poblacin
IMPORTANCIA DE LA DISPERSIN
Para que una medida de tendencia central sea representativa de los datos que la originaron se requiere que
su valor sea similar a los datos de esa muestra o poblacin que pretende describir, como se puede ver en el
siguiente ejemplo:
MUESTRA DE BAJA DISPERSIN
10
3,2
3,5
3,8
3,5
3,8
3,7
3,6
3,8
3,9
3,5
10
0,1 3,5 0,7 5,0 1,0 4,7 4,9 3,8 3,9 0,9
= 3,6
= 2,9
Como se puede observar, en la muestra de baja dispersin, el valor del promedio es similar o est cerca de
los valores de la muestra, en cambio, en la muestra de alta dispersin, ninguno de los valores de la muestra
es parecido al valor de la media. Por lo tanto, el promedio de la primera muestra es verdaderamente
representativo de los datos de esta muestra y el de la segunda muestra no.
El concepto de dispersin, entonces, es importante porque entre mayor sea la dispersin de un conjunto de
datos, menor es la fuerza representativa que tiene la medida de tendencia central calculada con esos datos
CLASES DE MEDIDAS DE DISPERSIN
Las medidas de dispersin que se van a estudiar en estos apuntes son las siguientes:
El Rango
El Rango Intercuartlico
La Desviacin Media
VERSIN 5
FECHA: 2011
Pgina 47
La Varianza
La desviacin Estndar
EL RANGO
Es la diferencia o distancia entre el mayor valor, de un conjunto de datos y el valor menor. Este concepto ya
se haba mencionado para agrupar los datos en clases estadsticas, por lo tanto se utilizar para enunciarlo
el mismo smbolo, es decir la letra R, es decir,
R = Xmax - Xmin
EJEMPLO
Calcular el rango de los siguientes conjuntos de datos
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
10
10
3,2
3,5
3,8
3,5
3,8
3,7
3,6
3,8
3,9
3,5
0,1
3,5
0,7
5,0
1,0
4,7
4,9
3,8
3,9
0,9
La dispersin de la muestra de la izquierda, medida por el rango, es menor que la dispersin de la muestra
de la derecha
El clculo anterior se realiz con muestras de datos que no estn agrupados. Cuando los datos ya estn
agrupados en clases el rango se establece restando del valor del lmite superior de la clase mas alta el valor
del lmite inferior de la clase mas baja. En smbolos:
No. de
(Miles de $) Facturas
30
36
25
36
42
38
42
48
49
48
54
51
54
60
32
60
66
29
224
CARACTERSTICAS DEL RANGO
Es fcil de entender y de calcular
Da una idea rpida de la dispersin
En el clculo nicamente se tienen en cuenta los valores mximo y mnimo
Vara mucho de una muestra a otra
No se puede calcula con distribuciones de frecuencia que tienen clases de extremo abierto
EL RANGO INTERCUARTLICO
VERSIN 5
FECHA: 2011
Pgina 48
RQ = Q3 - Q1
Este rango muestra la dispersin de la porcin ms central de los datos que abarca el 50% del total
EJEMPLO
Las distancias en kilmetros, recorrida en un da por dos muestras de vehculos se presentan en la siguiente
tabla
MUESTRA B
MUESTRA A
Distancia
No. De
Distancia
No. De
(Kilmetros)
Vehculos
(Kilmetros)
Vehculos
25
35
35
45
45
55
12
55
65
15
65
75
10
75
85
25
35
45
55
35
45
55
65
3
7
11
19
65
75
75
85
7
6
53
53
Q3 = 67,75 Kmts
Q1 = 48,0 Kmts
RQ = 20,05 Kmts
Q3 = 64,9 Kmts
RQ = 16,9 Kmts
Como se ve, aunque las dos muestras tienen el mismo rango, R, el rango intercuartlico es diferente, lo que
indica que la muestra B es menos dispersa que la muestra A
LA DESVIACIN MEDIA
Es la diferencia promedio, en valor absoluto, de los datos de la muestra o poblacin con respecto a su
propia media. La forma de la expresin de clculo vara dependiendo de que se trate de datos no agrupados
o datos agrupados
El smbolo que se utiliza en estos apuntes para la desviacin media son las iniciales DM
Desviacin media para datos no agrupados
Donde:
DM: Smbolo de la desviacin media
|
| ;
DM =
: Cada uno de los datos de la muestra
EJEMPLO
VERSIN 5
FECHA: 2011
Pgina 49
14
24
12
3
14
24
9
7
12
= 11,5
-8,5
2,5
12,5
-2,5
-4,5
0,5
DM =
31
| |
8,5
2,5
12,5
2,5
4,5
0,5
31
= 5,2 minutos
6
Interpretacin: En promedio, la diferencia de cada llamada con respecto a la media es de 5,2 minutos
Desviacin media para datos agrupados
Donde:
DM : smbolo de la desviacin media
DM =
| ;|
No. De
Valor arriendo
(miles de pesos)
viviendas
(miles de pesos)
210
230
250
270
290
310
330
200
220
12
200
220
12
220
240
15
220
240
15
240
260
23
240
260
23
260
280
22
260
280
22
280
300
20
280
300
20
300
320
18
300
320
18
320
340
15
320
340
15
125
= $271,92 miles
-61,920
-41,920
-21,920
-1,920
18,080
38,080
58,080
61,92
41,92
21,92
1,92
18,08
38,08
58,08
125
DM =
743,04
628,8
504,16
42,24
361,6
685,44
871,2
3836,48
3836,48
= $30,7 miles
125
En promedio, los arriendos de la muestra, se diferencian de la media en $30,7 miles
La desviacin media tiene en cuenta, para su clculo, todos los datos de la muestra y es fcil de interpretar.
Pero, la operacin del valor absoluto para soslayar la propiedad anteriormente mencionada de los de los
nmeros, da una descripcin incompleta de la situacin. Obsrvese que no se sabe s la diferencia de $30,7
VERSIN 5
FECHA: 2011
Pgina 50
Smbolo:
( ; )2
Donde :
N = El tamao de la poblacin
EJEMPLO
Los siguientes datos corresponden a los puntajes obtenidos por los aspirantes a un cargo en una empresa
Tabla de clculo
PUNTAJES
60
81
77
72
91
90
= 78,5 puntos
)2
60
-18,5
342,25
81
2,5
6,25
77
-1,5
2,25
72
-6,5
42,25
91
12,5
156,25
90
11,5
132,25
681,5
6
= 113,58 puntos al
cuadrado
681,5
( ; )2
= La media de la poblacin
= Es la frecuencia absoluta de cada clase
N = El tamao de la poblacin
EJEMPLO
DEPARTAMENTO DE CIENCIAS BSICAS
VERSIN 5
FECHA: 2011
Pgina 51
No. de
Kilogramos Empleados
39
49
49
59
11
59
69
50
69
79
31
79
89
27
89
99
18
99
109
9
151
= 74,2 kilogramos
Peso en
Kilogramos
)2
)2
39
49
44
-30,2
912,04
4560,20
49
59
11
54
-20,2
408,04
4488,44
59
69
50
64
-10,2
104,04
5202,00
69
79
31
74
-0,2
0,04
1,24
79
89
27
84
9,8
96,04
2593,08
89
99
18
94
19,8
392,04
7056,72
99
109
104
29,8
888,04
7992,36
151
31894,04
151
31894,04
Ntese que si la poblacin es infinita no se puede calcular la varianza poblacional porque el valor de N sera
infinito.
VARIANZA MUESTRAL
Es la varianza que se calcula sobre los datos de una muestra. El clculo con respecto a la varianza
poblacional difiere en que, el divisor de la expresin ya no es N, el tamao de la poblacin, ahora es (n 1),
que es el tamao de la muestra, n, menos una unidad.
Smbolo:
La razn por la cual se divide entre n - 1 es porque, de esta manera, s , es un estimador insesgado de la
varianza de la poblacin de la cual se extrajo la muestra. El concepto de estimador insesgado se estudia en
el curso de Estadstica Inferencial.
EJEMPLO
VERSIN 5
FECHA: 2011
Pgina 52
)2
157
157
-55,5
3080,25
62
-150,5
22650,25
234
21,5
462,25
532
319,5
102080,25
200
-12,5
156,25
90
-122,5
15006,25
62
234
532
200
90
= $212,5 miles
143.435,5
(6 ; 1)
= 28.687,10 miles de
pesos al cuadrado
143.435,50
2 =
muestra
( ; 1)
EJEMPLO
Una muestra del tiempo, en horas, que demora el almacn de materiales de una fbrica en surtir los pedidos
que recibe:
Datos
Tabla de clculo
Tiempo
No. de
Tiempo
(Horas)
pedidos
(Horas)
)2
)2
10
10
-5,3
28,09
280,90
16
16
-3,3
10,89
174,24
33
33
-1,3
1,69
55,77
45
0,7
0,49
22,05
26
2,7
7,29
189,54
10
11
4,7
22,09
220,90
45
10
26
10
10
12
10
10
12
140
140
= 6,3 horas
2 =
943,40
(140 ; 1)
943,40
Como se puede observar, en los ejemplos anteriores, todas las unidades de la desviacin estndar estn
elevadas al cuadrado por lo que es difcil interpretar el significado del valor de la varianza; esta en una de las
razones por las cuales, para medir la dispersin, se prefiere otra medida que es la Desviacin Estndar
LA DESVIACIN ESTNDAR
Conocida tambin como Desviacin Tpica, la desviacin estndar es la raz cuadrada de la varianza. Los
smbolos que se utilizan son , para clculo de la dispersin en poblaciones y s, para el clculo de la
dispersin en muestras
VERSIN 5
FECHA: 2011
Pgina 53
= 2 =
Datos agrupados
( ; )2
= 2
( ; )2
Datos agrupados
( ; )2
( ; 1)
( ; )2
( ; 1)
Las tablas de clculo para la desviacin estndar son idnticas a las que se utilizan para la varianza, con un
clculo adicional: extraer la raz cuadrada de la varianza
EJEMPLO
En un ejemplo anterior se vio que los puntajes de los aspirantes a un cargo, en una empresa fueron:
y se calcul que:
2 = 113,58 puntos al cuadrado
Por lo tanto,
= 2 = 113,58 = 10,7 puntos
PUNTAJES
60
81
77
72
91
90
EJEMPLO
En otro caso se estableci que el tiempo, en horas, que demora el almacn de materiales de una fbrica en
surtir los pedidos que recibe
Tiempo
No. de
(Horas)
pedidos
Y se calcul que:
10
16
Por lo tanto:
33
45
10
26
10
12
10
140
Aunque es indispensable que se conozca, a ciencia cierta, como se obtienen la cifras de los clculos de la
media aritmtica y la desviacin estndar, en la prctica, la tecnologa disponible permite que estas
operaciones se hagan de forma ms rpida y segura utilizando las funciones estadsticas de las calculadoras
cientficas o de las hojas electrnicas de los programas de computador, por lo que se debe consultar, por lo
menos, en los manuales de las calculadoras, los detalles de la forma como se ejecutan estas funciones.
VERSIN 5
FECHA: 2011
Pgina 54
EL COEFICIENTE DE VARIACIN
Para introducir el concepto del coeficiente de variacin se analiza la siguiente situacin:
En la seccin de materiales livianos del almacn de materiales de una fbrica se tom una muestra del peso
de elementos de esa seccin escogidos al azar, lo mismo se hizo en la seccin de materiales pesados, de la
misma bodega y para ambas muestras se calcul su peso promedio y la desviacin estndar. Los resultados
son los que se presentan a continuacin:
SECCIN DE MATERIALES LIVIANOS
= 4 Kilos
= 50 Kilos
S = 2 Kilos
S = 2 kilos
La primera impresin que se obtiene de una observacin desprevenida de estos resultados es que las dos
muestras tienen la misma dispersin porque sus desviaciones estndar son iguales. Sin embargo, si se
examina con ms atencin, se puede ver que en el caso de la seccin de materiales livianos, la desviacin
estndar equivale a la mitad del peso promedio de los materiales de la muestra. En cambio, en la seccin de
materiales pesados la desviacin estndar equivale nicamente a 1/25 del peso promedio de los paquetes.
Por lo que comparadas las dos desviaciones estndar con la magnitud de su respectivo promedio, es mucho
ms alta la dispersin de la seccin de materiales livianos.
De este anlisis se concluye que la desviacin estndar en casos como el del ejemplo, no permite comparar
la dispersin de dos muestras y se puede agregar que esta dificultad se presenta cuando las medias de las
muestras que se estn comparando son muy diferentes entre s.
Para resolver este inconveniente, la estadstica dispone de un indicador para medir la dispersin. Este
indicador es el Coeficiente de Variacin y se calcula con la siguiente expresin:
COEFICIENTE DE VARIACIN PARA POBLACIONES
SMBOLO : CV
SMBOLO : CV
CV =
CV =
El coeficiente de variacin es un nmero sin dimensiones por lo que se puede expresar en fracciones
decimales o en porcentaje
EJEMPLO
Se tomaron muestras de las ventas diarias, en miles de pesos, de dos vendedores de una empresa. Cul
de las dos muestras es mas dispersa?
VENTAS DEL VENDEDOR A
500
450
390
600
290
440
80
25
= $438,6 miles
S = $96,5 miles
CV = 0,22
23
57
90
10
= $47,5 miles
=
$33,1 miles
CV = 0,70
Como se puede notar, la desviacin estndar del vendedor A es mayor que la desviacin estndar del
VERSIN 5
FECHA: 2011
Pgina 55
DISTRIMODA
VENTAS POR DA
VENTAS POR DA
(Millones de pesos)
(Millones de pesos)
Ventas
No. de
Ventas
No. de
por da
das
por da
das
0,9
1,1
9,2
10,3
12
1,1
1,3
1,3
10,3
11,4
16
1,5
16
11,4
12,5
25
1,5
1,7
23
12,5
13,6
19
1,7
1,9
29
13,6
14,7
10
1,9
2,1
20
14,7
15,8
2,1
2,3
11
9
91
111
Solamente se necesita establecer la marca de clase de ambas tablas y el resto de los clculos se realizan
directamente aplicando las funciones estadsticas de las calculadoras cientficas
JEANS AND BREECHES
DISTRIMODA
VENTAS POR DA
VENTAS POR DA
(Millones de pesos)
(Millones de pesos)
Ventas
No. de
por da
das
Xi
Ventas
No. de
por da
das
Xi
0,9
1,1
1,0
9,2
10,3
12
9,75
1,1
1,3
1,2
10,3
11,4
16
10,85
1,3
1,5
16
1,4
11,4
12,5
25
11,95
1,5
1,7
23
1,6
12,5
13,6
19
13,05
1,7
1,9
29
1,8
13,6
14,7
10
14,15
1,9
2,1
20
2,0
14,7
15,8
15,25
2,1
2,3
11
2,2
91
111
= 1,706306306
CV = 0,17868609
= 12,26428571
S
CV
= 0,13255294
= 1,62566714
S = 0,30489321
Respuesta: Es ms confiable el promedio diario de Distrimoda porque tiene el menor coeficiente de variacin
DESIGUALDAD DE CHEBYSHEV
DEPARTAMENTO DE CIENCIAS BSICAS
VERSIN 5
FECHA: 2011
Pgina 56
1 -
1
2
LI = - Ks
LS = + Ks
Donde s es la desviacin estndar de la distribucin de frecuencias
EJEMPLO
Una muestra del tiempo que tienen que esperar los afiliados a una EPS para que los atiendan en el servicio
de urgencias de una clnica dio una media aritmtica de 32 minutos, con una desviacin estndar de 8,3
minutos. Entre qu intervalo de tiempo tuvieron que esperar como mnimo el 80% de los afiliados de la
muestra?
2
1 -
1
2
UNIDAD 3:
DEPARTAMENTO DE CIENCIAS BSICAS
REGRESIN Y CORRELACIN
VERSIN 5
FECHA: 2011
Pgina 57
REGRESIN
1. INTRODUCCIN
En muchas situaciones de la actividad administrativa o cotidiana se presentan circunstancias en las que
parecen estar relacionadas dos o ms variables. Por ejemplo:
El nmero de vehculos que circulan por las vas de una ciudad y los ndices de contaminacin de la
misma
La tasa de desempleo y las ventas del comercio
Las ventas de licor y el nmero de accidentes de trnsito
Las horas de tutoras y el nmero de estudiantes que reprueban los parciales
El numero de apartamentos construidos en un determinado periodo y las ventas de muebles
El nmero de personas que se movilizan en bus y las ventas de motos y el estado del clima
Existe una tcnica para establecer matemticamente la relacin que puede existir entre variables como las
sealadas anteriormente. Esta tcnica es el anlisis de regresin
2. CONCEPTO DE REGRESIN
Es un mtodo de clculo para establecer una relacin matemtica entre dos o ms variables. Este mtodo
aplicado al anlisis estadstico permite predecir matemticamente el comportamiento de una variable a partir
del comportamiento conocido de otra u otras variables. Esta relacin entre las variables se establece a
travs de una ecuacin que se llama Ecuacin de Regresin
3. VARIABLES DEPENDIENTES E INDEPENDIENTES
Al establecer la relacin entre dos variables se encuentra que el comportamiento de una variable depende
del comportamiento de otra u otras variables o que la manifestacin de una variable ocurre primero que la
manifestacin de otra u otras variables. A la variable que ocurre primero o que determina el comportamiento
de otra se le llama Variable Independiente y se suele representar por la letra X y a la otra variable se le
llama Variable Dependiente y se suele representar por la letra Y
EJEMPLOS:
Tasa de desempleo y ventas del comercio: La variable independiente o variable x es la tasa de
desempleo y la variable dependiente o variable y es las ventas del comercio
Accidentes de trnsito y ventas de licor: La variable independiente es las ventas de licor y la variable
dependiente los accidentes de trnsito
El nmero de personas que se movilizan en bus puede depender de las ventas de motocicletas y del
estado del clima, por lo que el nmero de personas que utilizan el servicio de bus es la variable
dependiente y las otras dos son las variables independientes
4. GRFICO DE DISPERSIN
Es la representacin grfica, en el plano cartesiano, en forma simultnea, de los valores que toman la
variable independiente (x) y la variable dependiente (y)
EJEMPLO
VERSIN 5
FECHA: 2011
Pgina 58
Kilmetros
X
30
50
10
40
60
20
Galones
Y
5,95
8,55
2,35
9,25
13,85
6,75
La representacin grfica de los valores de esta tabla en el plano cartesiano, recibe el nombre de Grfico de
Dispersin como se muestra a continuacin:
Grfico de dispersin
Galones consumidos
16
14
12
10
8
6
4
2
0
0
10
20
30
40
50
60
70
Kilmetros recorridos
VERSIN 5
FECHA: 2011
Pgina 59
TIPOS DE REGRESIN
5.1 Regresin Univariada
Se presenta cuando slo interviene una variable independiente
5.2 Regresin Multivariada
Se presenta cuando interviene ms de una variable independiente
5.3 Regresin lineal
Se presenta cuando la representacin grfica de la ecuacin de regresin es una lnea recta.
5.4 Regresin Curvilnea
Se presenta cuando la representacin grfica de la ecuacin de regresin es una curva
Tanto la regresin lineal como la curvilnea tienen dos formas de manifestarse: en forma directa o en forma
inversa
6. Regresin Lineal Directa
Ocurre cuando al aumentar el valor de la variable independiente aumenta, proporcionalmente, el valor de la
variable dependiente. Por lo tanto, una recta parece describir de manera apropiada la relacin entre estas
variables, como se puede ver en el siguiente grfico
VERSIN 5
FECHA: 2011
Pgina 60
10
Y
5
4
3
9
7
5
9
8
7
Variable Y
X
8
13
6
24
18
20
6
5
4
3
2
1
0
0
10
15
20
25
30
Variable X
10
9
8
variable Y
7
La curva de regresin
(una recta), que mejor
describe la relacin
entre estas dos
variables, se presenta
en la grfica de la
izquierda
6
5
4
3
2
1
0
0
10
15
20
25
30
Variable X
VERSIN 5
FECHA: 2011
Pgina 61
Y
9
24
11
6
14
30
25
Variable Y
X
19
3
16
24
8
20
15
10
5
0
0
10
15
20
25
30
Variable X
La curva de regresin (una recta), que mejor describe la relacin entre estas dos variables, se presenta
en la siguiente grfica:
30
25
variable Y
20
15
10
5
0
0
10
15
20
25
30
Variable X
VERSIN 5
FECHA: 2011
Pgina 62
Y
12
21
6
7
17
8
20
15
Variable Y
X
16
18
8
12
17
10
10
5
0
0
10
15
20
Variable X
La curva de regresin, que mejor describe la relacin entre estas dos variables, se presenta en la siguiente
grfica
25
Variable y
20
15
10
5
0
0
10
15
20
Variable X
VERSIN 5
FECHA: 2011
Pgina 63
Y
2
9
7
18
2
Variable Y
X
14
5
10
2
20
20
18
16
14
12
10
8
6
4
2
0
0
10
15
20
25
Variable X
La curva de regresin, que mejor describe la relacin entre estas dos variables, se presenta en la siguiente
grfica:
20
18
16
Variable Y
14
12
10
8
6
4
2
0
0
10
15
20
25
Variable X
VERSIN 5
FECHA: 2011
Pgina 64
12
10
Variable Y
X
13
2
15
5
4
7
0
0
10
12
14
16
Variable X
LA CORRELACIN
El inters del analista no est solamente en establecer la forma como se relacionan dos variables, sino,
tambin, en medir que tan fuerte es el grado de esta relacin.
La regresin univariada es un caso extrao, lo comn es que en comportamiento total de una variable
dependiente sea el resultado de la interaccin de varias variables dependientes, como se muestra en las
siguientes grficas:
VOLUMEN DE TRFICO
CLIMA
COSTO DE
REPARACIN
DE VAS
VERSIN 5
FECHA: 2011
Pgina 65
ESTADO MECNICO
ESTILO DE CONDUCCIN
TOPOGRAFA DE LA VA
EDAD DEL VEHCULO
Como es lgico pensar, la influencia que tiene cada una de estas variables independientes en el
comportamiento total de la variable dependiente no es igual para todas las variables independientes. Habr
algunas variables independientes que determinan, en buena medida, el comportamiento de la variable
independiente y, tambin, habr algunas variables independientes cuya influencia en el costo de reparacin
de vas o en el consumo de combustible, para estos ejemplos, es muy reducida.
Para cualquier observador que analice estas situaciones, es de capital importancia determinar cules son las
variables que ejercen un efecto notable en el comportamiento de otra, es decir, establecer la fuerza o
intensidad con la que una variable independiente y otra dependiente estn relacionadas. A esta fuerza o
intensidad se le llama Correlacin
1. EL COEFICIENTE DE CORRELACIN
Es una medida del grado en que una variable independiente influye en una variable dependiente
Este grado de la relacin entre dos variables se mide con un indicador que recibe el nombre de coeficiente
de correlacin.
El coeficiente de correlacin es un nmero adimensional que se representa por la letra r y toma valores entre
-1 y +1. El significado de estos valores que toma r es el siguiente:
VERSIN 5
FECHA: 2011
Pgina 66
VERSIN 5
FECHA: 2011
Pgina 67