Professional Documents
Culture Documents
SECCIN ACADMICA.
COMPENDIO DE ESTADSTICA
DESCRIPTIVA.
SEGUNDO AO.
(1/er. SEMESTRE).
MATERIA
ESTADSTICA DESCRIPTIVA
NDICE.
I.
INTRODUCCIN A LA ESTADSTICA.
PGS
1.1.
1.2
1.3.
1.4
1.5
II.
DEFINICIN DE ESTADSTICA....
CONCEPTO DE ESTADSTICA DESCRIPTIVA....
CONCEPTO DE ESTADSTICA INFERENCIAL.....
APLICACIONES DE LA ESTADSTICA EN OTRAS REAS..
ELEMENTOS DE APLICACIN DE LA ESTADSTICA...
4
4
5
6
6
III.
9
DEFINICIN DE POBLACIN Y MUESTRA
CONCEPTO GENERAL DE VARIABLE, VARIABLE CONTINUA Y 10
DISCRETA..
DEFINICIN DE EXPERIMENTO,
EXPERIMENTO ALEATORIO Y 11
DETERMINSTICO..
DISTRIBUCIN DE FRECUENCIAS.
13
14
15
15
15
16
16
17
18
18
19
CONCEPTO DE HISTOGRAMA. ..
DEFINICIN DE POLGONO DE FRECUENCIAS.
DEFINICIN DE OJIVA
TRAZADO DEL HISTOGRAMA Y POLGONO DE FRECUENCIAS.......
ESCALAS DE LA OJIVA..
TRAZADO DE LA OJIVA ..
20
21
21
22
23
23
DEFINICIN. .
DEFINICIN DE PERCENTIL...
FRMULA DE LA POSICIN DEL PERCENTIL. ..
CALCULO DE LA POSICIN DE UN PERCENTIL.
FRMULA DEL VALOR DE UN PERCENTIL.
CLCULO DEL VALOR DE UN PERCENTIL..
24
24
24
25
25
26
DEFINICIN.
CONCEPTO DE MEDIA ARITMTICA..
FRMULA DE LA MEDIA ARITMTICA...
CLCULO DE LA MEDIA ARITMTICA.
CONCEPTO DE MODA. ...
FRMULA Y CLCULO DE LA MODA...
CONCEPTO DE MEDIANA...
FRMULA Y CLCULO DE LA MEDIANA.
27
27
27
29
30
30
34
34
DEFINICIN. ..
CONCEPTO Y FRMULA DEL DESVO....
REGISTRO DEL DESVO.....
DESVIACIN MEDIA....
ECUACIN Y CLCULO DE LA DESVIACIN MEDIA..
VARIANZA.
CLCULO DE REGISTRO DEL DESVO AL CUADRADO.
FRMULA Y CLCULO DE LA VARIANZA. ...
CONCEPTO Y FRMULA DE LA DESVIACIN ESTNDAR.
..
CLCULO DE LA DESVIACIN ESTNDAR..
37
38
38
39
39
41
41
42
43
44
DEFINICIN. .
FRMULA DE LA MEDIA...
CLCULO DE LA MEDIA DE LA VARIABLE X
CLCULO DE LA MEDIA DE LA VARIABLE Y. ...
FRMULA DEL DESVO. ....
CLCULO DEL DESVO DE LA VARIABLE X. ....
CLCULO DEL DESVO DE LA VARIABLE Y. ....
FRMULA DE LA DESVIACIN ESTNDAR DE LA VARIABLE X.
CLCULO DE LA DESVIACIN ESTNDAR DE LA VARIABLE X..
FRMULA DE LA DESVIACIN ESTNDAR DE LA VARIABLE Y..
CLCULO DE LA DESVIACIN ESTNDAR DE LA VARIABLE Y
FRMULA DE LA COVARIANZA. ..
CLCULO DE LA COVARIANZA. ...
FRMULA
DEL
COEFICIENTE
DE
PEARSON
O
DE
CORRELACIN.
CLCULO DEL COEFICIENTE DE PEARSON.
DEFINICIN DE LA RECTA DE REGRESIN...
ECUACIN DE LA RECTA DE REGRESIN.
FRMULA DE LA ORDENADA..
CLCULO DE LA ORDENADA AL ORIGEN (b). ...
FRMULA DE LA PENDIENTE. ..
CLCULO DE LA PENDIENTE..
DEFINICIN DE ERROR ESTNDAR DE ESTIMACIN (E.E.E.).
FRMULA DEL ERROR ESTNDAR DE ESTIMACIN..
CLCULO DEL ERROR ESTNDAR DE ESTIMACIN..
REPRESENTACIN GRFICA DEL ERROR ESTNDAR DE
ESTIMACIN..
45
47
48
49
50
50
51
52
52
53
53
54
54
55
57
58
58
58
59
60
60
61
62
63
64
ESTADSTICA DESCRIPTIVA.
I.
INTRODUCCIN A LA ESTADSTICA.
Pedro un vendedor ambulante de peridicos, se dio cuenta de que no todos los
das venda lo mismo.
Haba ocasiones en que venda menos de los que traa, en otras la demanda era
mayor y pocas veces lograba vender la totalidad de los ejemplares. Preocupado por
esta situacin que le impeda ganar ms dinero, decidi consultar a Ramiro, un
amigo suyo que tena conocimientos de Estadstica, y le planteo el problema. Ramiro
le propuso que da a da anotara cuantos ejemplares haba vendido y le llevara la
informacin, necesaria para solucionar el problema. Un mes despus, Pedro llevo la
informacin solicitada; Ramiro de inmediato organizo los datos, elaboro una tabla,
calculo los valores medios y las desviaciones. Al finalizar le recomend que adquiriera
150 ejemplares diarios para asegurar su venta. Pedro sigui las indicaciones y
observo que sus ventas semanales mejoraban. Esto fue posible gracias al tratamiento
estadstico que dio Ramiro a la informacin de Pedro.
ESTADSTICA
1.4
La Estadstica es una ciencia joven en su aplicacin, aunque lleva cerca de 200 aos
de estudiarse tericamente. Es una herramienta que se utiliza en la mayora de las
reas profesionales para tomar decisiones.
En nuestros das, la estadstica se ha convertido en un mtodo efectivo para describir
con exactitud los valores de datos econmicos, polticos, sociales, psicolgicos,
biolgicos o fsicos, y sirve como herramienta para relacionar y analizar dichos datos.
El trabajo del experto estadstico no consiste ya slo en reunir y tabular los datos, sino
sobre todo en el proceso de interpretacin de esa informacin. El desarrollo de la
teora de la probabilidad ha aumentado el alcance de las aplicaciones de la estadstica.
Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando
determinadas distribuciones probabilsticas; los resultados de stas se pueden utilizar
para analizar datos estadsticos. La probabilidad es til para comprobar la fiabilidad de
las inferencias estadsticas y para predecir el tipo y la cantidad de datos necesarios en
un determinado estudio estadstico.
1.5
CUADROS ESTADSTICOS.
LAS GRAFICAS.
LAS GRAFICAS:
HISTOGRAMA.
Los histogramas se utilizan para representar tablas de frecuencias con datos
agrupados en intervalos. Si los intervalos son todos iguales, cada uno de ellos es la
base de un rectngulo cuya altura es proporcional a la frecuencia correspondiente.
POLGONO DE FRECUENCIAS.
Si se unen los puntos medios de la base superior de los rectngulos se obtiene el polgono
de frecuencias.
OJIVA
La ojiva es una grfica asociada a la distribucin de frecuencias, es decir, que en ella
se permite ver cuntas observaciones se encuentran por encima o debajo de ciertos
valores, en lugar de solo exhibir los nmeros asignados a cada intervalo.
II.
Para poder recopilar los datos adecuadamente se debe conocer la poblacin objeto de
estudio, por medio de una muestra representativa.
Poblacin:
Se llama poblacin (matemticas), al total de sujetos observables o sea; el conjunto de
todos los individuos cuyo conocimiento es objeto de inters desde un punto de vista
estadstico.
10
2.2
CONCEPTO
DISCRETA.
GENERAL
DE
VARIABLE,
VARIABLE
CONTINUA
El peso, color de la piel, el grosor del pelo etctera, son las caractersticas o variables
de la muestra de una poblacin.
Variable:
En un estudio estadstico, la variable es aquello que hemos elegido como objeto de
estudio y que va a ser observado y analizado sobre la muestra de poblacin
seleccionada.
Es una caracterstica de los sujetos de la poblacin que puede tomar cualquiera de los
valores de un conjunto y que se evala por medio de una muestra.las variables pueden
ser:
11
2.3
DEFINICIN
DETERMINSTICO.
DE
EXPERIMENTO,
EXPERIMENTO
ALEATORIO
12
Si tomamos una piedra y la dejamos caer estamos seguros de que caer. Se trata de
una experiencia determinista, sabemos de antemano lo que
suceder.
Si lanzamos una moneda al aire, sabemos con certeza que
saldr cara? No tenemos la seguridad, puede salir cruz. Se trata
de una experiencia de azar.
13
Donde el 1 significa que gana el equipo de casa, la X que empatan y el 2 que gana el
equipo visitante.
3.1
14
3.2
15
3.4
LIMITES DE UN INTERVALO.
Los lmites de los intervalos de clase son los extremos de cada uno de los tramos en
que se han dividido los valores que puede tomar la variable; el lmite inferior se
corresponde con el valor mnimo y el lmite superior se corresponde con el valor
mximo que puede tomar la variable en cada intervalo. El lmite verdadero de intervalo
o clase se obtiene sumando al lmite ms alto de una clase, el ms bajo de la clase
siguiente y dividiendo el resultado entre dos. El nmero de intervalos es arbitrario, el
nmero de intervalos ideal es aproximadamente 9. Es conveniente un nmero impar de
intervalos, para fijarnos en la simetra de la distribucin
3.5
16
De forma similar, podemos encontrar los dems lmites para obtener para obtener la
tabla siguiente:
De este procedimiento observamos que el lmite inferior del primer intervalo
corresponde al valor menor y el lmite superior del ltimo intervalo corresponde al valor
mayor.
Los dos lmites antes sealados definen las llamadas clases, categoras o intervalos.
En nuestro ejemplo el primer intervalo o clase es 28 - 39.
3.6
Una vez que tenemos definidas los lmites de cada intervalo, calculamos el valor medio entre los
dos lmites, llamado maraca de clase o marca del intervalo (mc). La marca de clase se calcula as
para el primer intervalo:
17
De igual manera se calculan las dems y se anotan en la tabla o cuadro estadstico.
Para cada intervalo se tendr una frecuencia determinada. Esta frecuencia ser el nmero de
veces que se repite cada variable Para ello elaboramos una tabla como esta:
Variable
(X)
28
39
41
46
48
54
57
59
60
61
62
63
64
Frecuencia
(f)
1
1
1
1
2
1
3
2
1
3
1
1
3
Variable
(X)
65
66
67
68
69
71
72
75
76
78
80
86
94
Frecuencia (f)
2
1
3
4
1
1
2
1
2
1
1
1
1
Una vez que se obtiene la frecuencia, se registra la frecuencia absoluta que es el nmero de
observaciones que comprenden a cada intervalo representado por su marca de clase, en la columna
correspondiente del cuadro estadstico, como se muestra en el siguiente:
18
3.9
No.
intervalo
o clase
1
2
3
4
5
6
3.10
FRECUENCIA RELATIVA.
fa
f .r.
x100
n
Donde:
19
Las frecuencias relativas en nuestro problema son:
Una vez calculada la frecuencia relativa de cada intervalo es necesario registrar dichos valores en el
cuadro estadstico, agregando la columna necesaria, como se muestra en el siguiente cuadro:
No.
intervalo
o clase
1
2
3
4
5
6
Intervalos
28 - 39
39 - 50
50 - 61
61 - 72
72 - 83
83 - 94
33.5
44.5
55.5
66.5
77.5
88.5
2
4
10
19
5
2
= 42
2
56
16
35
40
42
Frecuencia
relativa
(f. r.)
4.76%
9.52%
23.81%
45.24%
11.91%
4.76%
20
No.
intervalo
o clase
1
2
3
4
5
6
Intervalos
28 - 39
39 - 50
50 - 61
61 - 72
72 - 83
83 - 94
33.5
44.5
55.5
66.5
77.5
88.5
2
4
10
19
5
2
2
56
16
35
40
42
Frecuencia
relativa
acumulada
(f. r. a.)
4.76%
4.76%
9.52% 14.28%
23.81% 38.09%
45.24% 83.33%
11.91% 95.24%
4.76% 100.00%
= 42
(CUADRO 1)
IV.
21
4.3
DEFINICIN DE OJIVA
Es una grfica que muestra las frecuencias relativas acumuladas menores que cualquier lmite
superior de clase trazado sobre los lmites superiores de clase.
22
Para trazar un polgono, se hace una marca para cada frecuencia en el eje vertical sobre el
punto medio del intervalo del eje de las X (suponiendo que los intervalos de clase son de
igual amplitud). Despus se unen estos puntos por medio de lneas rectas y se extienden
hacia ambos extremos. Un convencionalismo grfico permite cerrar el polgono, inicindolo y
terminndolo sobre el eje de las abscisas en dos puntos medios hipotticos, considerando
una propiedad geomtrica que dice que el rea del polgono es igual a la suma del rea de
los rectngulos del histograma.
23
20
18
16
14
12
10
8
6
4
2
0
33.5
44.5
55.5
66.5
7.5
88.5
39
50
61
72
83
94 lim sup
24
DEFINICIN.
Son aquellas medidas que sirven para descubrir la localizacin de un dato especfico en
relacin al resto de la muestra.
Cuando una muestra de datos est ordenado en forma ascendente, el valor central( o a
la media de los valores centrales), es la mediana y divide a la muestra en dos partes
iguales. Con esta misma idea, se puede pensar en los valores que dividen en la muestra
en cuatro partes, en diez o en cien partes.
5.2
DEFINICIN DE PERCENTIL.
Los valores que dividen a la muestra en cuatro partes iguales se les da el nombre de
cuartiles, los valores que dividen a la muestra en diez partes iguales se les denomina
deciles y a los que dividen en cien partes se les llama percentiles, desde el 1 hasta
el 99 que dejan desde 1% hasta el 99% de observaciones con categoras menores. El
primero, segundo, tercero,.nonagsimo noveno percentil, son los valores que
corresponden a los nmeros de orden
PN
Nn
100
25
5.4
Ejemplo: Los siguientes datos corresponden a las estaturas de los alumnos del grupo
201 de Heroico Colegio Militar.
Intervalos
162 - 167.6
167.6 173.2
173.2 178.8
178.8 184.8
184.8 - 190
15
41
181.6
18
59
187.2
13
72
= 72
Considerando la distribucin anterior, calcular la posicin o nmero de orden del
percentil 30.
PN
P30
Nn
100
30(72)
21.6
100
El nmero de posicin o de orden 21.6 indica el lugar que ocupa el valor del percentil
30 en la distribucin de frecuencias anterior.
5.5 FRMULA DEL VALOR DE UN PERCENTIL.
Una vez que se ha encontrado la posicin o nmero de orden del percentil, se procede
a buscar la frecuencia acumulada que los contenga; ya localizada esa frecuencia, se
aplica la siguiente frmula para calcular el valor exacto:
P f1
PK Lim inf N
a
f2
Donde: K= Valor del percentil a calcular.
Lim inf = Limite inferior del intervalo que contiene el percentil.
n=No. de datos.
PN= Posicin o nmero de rden del percentil calculado..
F1= Frecuencia absoluta acumulada anterior del intervalo que contienen el percentil.
F2= Frecuencia absoluta del intervalo que contienen el percentil.
26
5.6
Tomando en cuenta el cuadro de distribucin de las estaturas de los alumnos del 201
del Heroico Colegio Militar y considerando que la posicin o nmero de orden del
percentil 30 es el 21.6, se considera que est contenido en la segunda frecuencia
absoluta acumulada, correspondiente al segundo intervalo.
ESTATURA DE LOS ALUMNOS DEL GRUPO 201
Intervalos
162 - 167.6
167.6 - 173.2
173.2 - 178.8
178.8 - 184.8
184.8 - 190
Marca
clase
(m. c.)
de Frecuencia
absoluta
(f. a.)
164.8
170.4
176
181.6
187.2
12
14
15
18
13
Frecuencia
Absoluta
acumulada
(f. a. a.)
12
26
41
59
72
= 72
Una vez localizada la posicin se procede a continuacin a calcular el valor del
percentil aplicando la siguiente frmula:
P f1
PK Lim inf N
a
f2
Sustitucin:
21.6 12
P30 167.6
5.6
14
P30 171.43
Por lo tanto el valor del percentil que representa el 30% del total de los datos es igual a
171.43, lo que quiere decir, que el 30% por ciento de alumnos miden 171.43 cms.
27
DEFINICIN.
Como se vio en temas anteriores, en un histograma hay una zona donde las barra son
ms altas, es decir, hay valores de las variables que son ms frecuentes, en cambio
existen zonas extremas donde los valores de la variable son menos frecuentes.
Las medidas de tendencia central son valores de la variable que nos indican alrededor
de que valor se agrupan el mayor nmero de casos estudiados.
Las medidas de tendencia central son representativas de toda la poblacin y las
principales son:
Cuando tenemos pocas observaciones, se pueden hacer los clculos con datos
aislados, por ejemplo: Si en la ciudad de Guanajuato se registraron al medio da las
siguientes temperaturas: lunes 21C, martes 25C, mircoles 24C, jueves 22C,
viernes 23C, sbado 21C y domingo 20C.
28
X 2 X 3 .... X n
n
Sustitucin:
21 25 24 22 23 21 20
7
156
X
7
X 22.286C
X
En el ejemplo anterior, donde las observaciones son pocas y tienen frecuencia unitaria, el
clculo se hace mediante la aplicacin de la frmula para datos aislados, pero en este
curso se trabajar con datos agrupados donde cada observacin o variable tiene
frecuencia distinta.
Un criador de cerdos registr, en 334 partos, el nmero de lechones por camada y obtuvo
el resultado siguiente:
Nmero de
lechones
por camada 2
Frecuencia
con que se
presentaron 1
10
11
12
13
14
15
16
17
20
30
35
51
52
39
45
21
Si se quiere saber cul es la media, haremos la suma total de observaciones, como sigue:
Nota: al trabajar con datos agrupados multiplicamos cada valor de la variable por la
frecuencia correspondiente.
29
Si se tiene en cuenta que cada valor distinto Xi de la variable se repite tantas veces como
indica su frecuencia fi , la suma de todas las observaciones iguales ser igual al producto
Xifi, por tanto, la media aritmtica es:
=
Como al definir la media hemos hablado de una suma de los valores observados,
introduciremos el smbolo (sigma mayscula) para denotar la suma o sumatoria de una
variable. Al aplicar el operador suma la frmula anterior queda:
fi X i
f
i
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
35
45
55
65
75
15
30
60
10
5
= 120
15
45
105
115
120
12.5%
25%
50%
8.33%
4.17%
12.5%
37.5%
87.5%
95.83%
100%
525
1350
3300
650
375
= 6200
30
Frmula:
Sustitucin:
fX
X i i
f
i
6200
X
120
Resultado:
X 51.66
El valor de la media es representativo del total de la poblacin y ste nos indica que los
120 cadetes realizan en promedio 51.66 abdominales en 10 minutos.
Si dibujamos el histograma correspondiente y ubicamos la media obtendremos el
siguiente diagrama.
30
40
50
60
70
80
Como se puede observar, la media es un valor centrado entre los lmites del rango y se
interpreta de sta manera: en promedio, el nmero de abdominales realizadas por los
cadetes en diez minutos es de 51.66.
6.5 CONCEPTO DE MODA
Es el valor de la variable que se presenta con mayor frecuencia. Se considera como el
valor ms frecuente, es decir, el punto donde se concentra el mayor nmero de
observaciones.
La moda sirve en los negocios, por ejemplo, para determinar que tamao o talla del
producto es el de mayor demanda. El fabricante de zapatos estar interesado en saber
cul es la medida que ms se vende. Similarmente, para programar la produccin de
un medicamento, el fabricante estar interesado en saber cul es la dosis que con
frecuencia recetan los medicamentos.
31
Mayor
frecuencia
100
50
50
UNIMODAL
BIMODAL
32
70
60
50
40
30
20
10
0
MULTIMODAL
6.6 FORMULA Y CALCULO DE LA MODA.
En una serie simple y en una serie de frecuencias la determinacin del valor de la moda
no ofrece problemas, pues como ya se dijo, es el valor de mxima frecuencia o sea
aquel que ms se repite en el conjunto de observaciones.
En una serie de intervalos y frecuencias se complica su clculo por su misma estructura
(el nmero de casos de cada intervalo) pero se pude determinar su valor utilizando la
siguiente frmula:
Donde:
33
Intervalos
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
FORMULA
35
45
55
65
75
15
30
60
10
5
= 120
15
45
105
115
120
SUSTITUCIN
12.5%
25%
50%
8.33%
4.17%
12.5%
37.5%
87.5%
95.83%
100%
525
1350
3300
650
375
= 6200
RESULTADO
53.75
53.75
34
35
X~ Liminf
f1
a
2
f med
Donde:
Lim inf lim ite inf erior del int ervalo que contiene la mitad de los datos.
N nmerototal de datos.
f1 frecuenciaacumulada anterior a la clase mediana.
f med frecuenciaabsoluta de la clase mediana.
a amplitud de los int ervalos.
Tomando el ejemplo de la distribucin del nmero de abdominales que realizan 120 cadetes
del HCM en 10 minutos, utilizaremos la frmula anterior para determinar el valor de la
mediana.
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
35
45
55
65
75
FORMULA
X~ Liminf
f1
a
2
f med
15
30
60
10
5
= 120
15
45
105
115
120
SUSTITUCIN
120
45
~
2
10
X 50
60
12.5%
25%
50%
8.33%
4.17%
12.5%
37.5%
87.5%
95.83%
100%
525
1350
3300
650
375
= 6200
RESULTADO
X~ 52.5
El resultado de la mediana nos dice que el 50% de los cadetes realizan menos de 52.5
abdominales en diez minutos y el otro 50% realiza ms de 52.5 abdominales en el tiempo
citado.
36
Solucin grfica.
Este mtodo se basa en la construccin de la ojiva sobre la base menor que y o ms.
Cuando la distribucin ha sido adecuadamente representada en la ojiva el valor de la
mediana puede obtenerse de la manera siguiente: primero localizamos el 50% en la escala
de las Y; luego, se traza una lnea horizontal desde ese punto hasta cortar la ojiva, y se traza
una lnea vertical desde el punto en que la lnea horizontal corta a la ojiva hasta el eje de las
X. El punto en que la lnea vertical corta al eje de las X es el valor de la mediana.
f. r.a
%
100
90
80
70
60
50
40
30
20
10
40
50
60
70
80
lim sup
(Nmero
abdominales
cadetes)
de
y la moda
de
120
37
VI MEDIDAS DE DISPERSIN.
7.1 DEFINICIN.
Las medidas de tendencia central, pueden no ser suficientes para caracterizar la
informacin obtenida en forma adecuada. La utilidad de un promedio depende de su
poder representativo del conjunto de observaciones. Si los valores observados de la
variable estn muy concentrados alrededor del promedio, ste es muy representativo;
pero si aquellos valores estn muy dispersos con relacin al promedio, ste es poco
representativo.
El significado de las medidas de tendencia central gana mucho si lo respalda una
medida de la dispersin de las observaciones en torno a l.
El concepto de dispersin resulta importante para los estudios econmicos, ya que
puede darse el caso de poblaciones con igual valor central, pero una puede estar ms
dispersa que la otra.
Las medidas de dispersin o tambin llamadas de variacin, indican que tan alejados
o dispersos se encuentran los datos, con respecto a la media del conjunto de datos.
Cuando se requiere conocer la dispersin de una variable, lo que se intenta es obtener
una medida, que indique el mayor o menor grado en que estn dispersos los datos.
Las medidas ms utilizadas se denominan:
Rango (R)
Desvo (d)
Desviacin media (dm)
Varianza (S2)
Desviacin estndar (S)
38
7.2
7.3
Variable
Millones
de
pesos
5 - 20
20 - 35
35 - 50
50 - 65
65 - 80
frecuencia
(fi)
8
9
10
7
4
INTERVALOS
5 - 20
M. C.
Xi
12.5
F.A.
Fi
8
20 - 35
27.5
247.5
35 - 50
42.5
10
425.0
50 - 65
57.5
402.5
65 - 80
72.5
290.0
=38
FiXi
100.0
=1465
DESVO
X i X
12.538.55=26.05
27.538.55=11.05
42.538.55=3.95
57.538.55=18.95
72.538.55=33.95
39
Media X
f i X i 1465
38.55
38
fi
7.4
DESVIACIN MEDIA.
Como la suma de todos los desvos en cualquier grupo de datos es nula, tendremos
que pensar en calcular el valor absoluto del desvo, al promedio de los valores
absolutos del desvo se le denomina desviacin media, indica en promedio el nmero
de unidades en que cada dato se encuentra alejado de la media.
7.5
fi X i X
dm
n
Donde:
40
Al colocar
FiXi
DESVO
X i X
Valor
absoluto
100.0
-26.05
26.05
208.4
27.5
247.5
-11.05
11.05
99.45
35 - 50
42.5
10
425.0
3.95
3.95
39.5
50 - 65
57.5
402.5
18.95
18.95
132.65
65 - 80
72.5
290.0
33.95
33.95
135.8
=38
=1465
INTERVALOS M. C.
Xi
F.A.
Fi
5 - 20
12.5
20 - 35
Media X
=615.8
f i X i 1465
38.55
38
fi
fi X i X
Desviacin media dm
n
dm
615.8
16.20
38
Como podemos observar en el cuadro anterior se agreg una columna con el valor absoluto
del desvi (columna 6), una vez hecho esto, se multiplica el valor absoluto del desvo por la
frecuencia absoluta para encontrar el valor de la desviacin media (columna 7).
41
7.6
DEFINICIN DE VARIANZA.
Se define como el promedio de los cuadrados de las desviaciones de los datos con
respecto a la media. Su valor indica la forma en que estn distribuidos los datos con
respecto a la media.
No obstante que la desviacin media es una
inconveniente de que no sigue en su proceso
generalmente se prefiere emplear la varianza o la
de los cuadrados de las desviaciones
desviaciones sea igual a cero. La suma de los cuadrados de las desviaciones se divide
entre el nmero de trminos y se obtiene la varianza.
7.7
Para calcular el valor de la varianza precisa elevar al cuadrado el valor de los desvos,
por lo tanto al cuadro estadstico se le agrega una columna (columna 8) para registrar
dicho valor, quedando de la siguiente manera:
INTERVALOS
Fi
5 - 20
12.5
100.0
-26.05
26.05
208.4
678.60
20 - 35
27.5
247.5
-11.05
11.05
99.45
122.10
35 - 50
42.5
10
425.0
3.95
3.95
39.5
15.60
50 - 65
57.5
402.5
18.95
18.95
132.65 359.10
65 - 80
72.5
290.0
33.95
33.95
135.8
=38
=1465
Media
f X
X
f
i
1465
38.55
38
=615.8
1152.60
42
fi X i X
Desviacin media dm
n
615.8
dm
16.20
38
7.8
f X X
12.5
100.0
-26.05
26.05
208.4
678.60
5428.8
20 - 35
27.5
247.5
-11.05
11.05
99.45
122.10
1098.9
35 - 50
42.5
10
425.0
3.95
3.95
39.5
15.60
156.0
50 - 65
57.5
402.5
18.95
18.95
132.65
359.10
2513.7
65 - 80
72.5
290.0
33.95
33.95
135.8
1152.60 4610.4
=38
=1465
Media X
=615.8
f i X i 1465
38.55
38
fi
=13807.8
43
Desviacin media dm
dm
Varianza
fi X i X
n
615.8
16.20
38
f i X i X 2
2
S
fi
S2
13807.8
363.36
38
f X X
f
La frmula nos indica que al valor de la varianza hay que extraerle la raz cuadrada.
44
7.10
M. C.
Xi
F.A.
Fi
DESVO
FiXi
X i X
Valor
absoluto
5 - 20
12.5
100.0
-26.05
26.05
208.4
678.60
5428.8
20 - 35
27.5
247.5
-11.05
11.05
99.45
122.10
1098.9
35 - 50
42.5
10
425.0
3.95
3.95
39.5
15.60
156.0
50 - 65
57.5
402.5
18.95
18.95
132.65
359.10
2513.7
65 - 80
72.5
290.0
33.95
33.95
135.8
1152.60
4610.4
=38
=1465
Media X
=615.8
f i X i 1465
38.55
38
fi
fi X i X
Desviacin media dm
n
615.8
dm
16.20
38
Varianza
f i X i X 2
2
S
fi
S2
13807.8
363.36
38
=13807.8
45
Desviacin estndar S
f i X i X 2
fi
V.
13807.8
363.36 19.06
38
MEDIDAS DE CORRELACIN.
8.1 DEFINICIN.
En la vida diaria, es comn encontrar dos variables que guardan dependencia entre s,
es decir, el valor de una de ellas est sujeta al valor de la otra o viceversa. Esta
interdependencia se conoce como correlacin de dos variables.
Por ejemplo:
Los tcnicos de la Secretara de Agricultura al analizar la produccin de maz en una de
las zonas agrcolas del pas, encontrar que la mayor produccin se concentraba en
aquellas regiones donde se haban utilizado mayor cantidad de un producto qumico
para abonar la tierra.
Despus de discutir si la concentracin de la produccin se deba al producto qumico
utilizado o a algn otro factor, decidieron hacer un anlisis de correlacin entre la
produccin de maz y el nivel de precipitacin pluvial, y otro entre la produccin de maz
y la cantidad de abono. Por lo anterior, se concluy que el abono fue el factor que
permiti obtener una buena cosecha.
Este tipo de anlisis es necesario cuando dos variables en estudio estn
correlacionadas.
La correlacin entre dos variables se debe estudiar muy bien, pues a veces es posible
encontrar una buena relacin entre variables independientes, aunque no haya
causalidad. Para ilustrar lo anterior, citaremos lo que dice Rivett* al respecto.
El autor cita el caso de Noruega, donde existe una buena relacin entre el ndice de
natalidad de la poblacin y el nmero de cigeas inmigrantes. Lo anterior nos hace
pensar en el mito de que los nios vienen de Pars; sin embargo, se hace una anlisis
46
minucioso del problema, concluiremos que como en las comarcas noruegas existe una
buena produccin agrcola, hay bienestar econmico y esto estimula el aumento en la
tasa de natalidad. Por otro lado, la abundancia de grano favorece el desarrollo de la vida
animal y por consiguiente la inmigracin de cigeas.
El caso anterior ejemplifica de manera clara, porque no es correcto relacionar las
variables para calcular un coeficiente de correlacin, pues sucede que aunque son
variables dependientes, solo en ciertas ocasiones existe la causalidad.
Tomemos un ejemplo que nos permita ver mejor el fenmeno de la correlacin de dos
variables.
*Patrick Rivett. La investigacin operativa. Nueva coleccin Labor 1971.
Cantidad de
12
18
24
30
agua (x).
Rendimiento
5.27 5.68 6.25 7.2
del cultivo (y)
36
42
44
47
Es importante hacer notar que puede haber correlaciones no lineales, es decir, que sus
grficas, y por tanto sus funciones, no sean lineales, como se observa a continuacin:
Donde:
48
Para hacer el clculo de la media de cada variable hasta obtener el grado de correlacin
de dos variables, utilizaremos los datos de la siguiente tabla en donde se muestra el
rendimiento de un cierto cultivo (Y), en funcin de la cantidad d agua (X).
49
Tomando en cuenta los datos del cuadro anterior calcularemos el valor de la media de
Y.
50
8.5
FRMULA DEL DESVO.
Como sabemos el desvo es una medida de dispersin, que nos indica que tan alejados
o dispersos se encuentran los datos con respecto a la media.
51
8.7
18
5.68
--11.42
24
6.25
-5.42
4
5
30
36
7.2
8.02
0.58
6.58
42
8.71
12.58
44
8.42
14.58
=206
=49.55
5.27-7.07=1.81
5.68-7.07=1.39
6.25-7.07=0.82
7.2-7.07=0.13
8.027.07=0.95
8.717.07=1.64
8.427.07=1.35
52
8.8
Para poder llegar a determinar el grado de relacin entre dos variables, adems de la
media de las variables y los desvos de cada una, es necesario definir la desviacin
estndar de la variable X. Mediante la siguiente frmula:
-1.81
-1.39
303.45
130.41
-0.82
0.13
0.95
1.64
1.35
29.37
0.33
43.29
158.25
212.57
=877.67
53
12
18
24
30
36
42
44
=206
5.27
5.68
6.25
7.2
8.02
8.71
8.42
=49.55
-17.42
--11.42
-5.42
0.58
6.58
12.58
14.58
-1.81
-1.39
-0.82
0.13
0.95
1.64
1.35
303.45
130.41
29.37
0.33
43.29
158.25
212.57
=877.67
3.27
1.93
0.67
0.01
0.90
2.68
1.82
= 11.28
54
8.12
FRMULA DE LA COVARIANZA
Adems de la desviacin estndar, para cada variable es necesario tener una medida de
dispersin de la correlacin que existe entre X y Y. Esta medida la denominaremos
covarianza y la calcularemos mediante la siguiente frmula:
8.13
CALCULO DE LA COVARIANZA.
55
Nmero
Cantidad Rendimiento
de
de agua del cultivo
sucesos
( )
( )
(N)
1
12
5.27
-17.42
2
18
5.68
--11.42
3
24
6.25
-5.42
4
30
7.2
0.58
5
36
8.02
6.58
6
42
8.71
12.58
7
44
8.42
14.58
=206
=49.55
8.14
-1.81
-1.39
-0.82
0.13
0.95
1.64
1.35
303.45
130.41
29.37
0.33
43.29
158.25
212.57
=877.67
3.27
1.93
0.67
0.01
0.90
2.68
1.82
=
11.28
31.53
15.87
4.44
0.07
6.25
20.63
19.68
=98.47
La medida que nos permite saber si hay relacin entre dos variables es el coeficiente de
Pearson.
COEFICIENTE DE PEARSON.
Esta medida refleja el grado de relacin o efecto que tiene el cambio de una variable sobre
la otra y lo podemos definir mediante la siguiente frmula:
56
Por otro lado, r tiene como mximo valor absoluto a la unidad, por lo que se puede escribir:
-1 r 1
Cuando r=0 la correlacin es nula, es decir, no hay ninguna dependencia entre las variables.
Cuando
En nuestro problema la correlacin es positiva y muy cercana al valor uno, por lo cual hay
una dependencia aceptable entre la cantidad de agua y el rendimiento del cultivo.
TIPOS DE RELACIN SEGN LOS VALORES DE R.
r=0 relacin nula.
57
8.15
-1.81
-1.39
-0.82
0.13
0.95
1.64
1.35
303.45
130.41
29.37
0.33
43.29
158.25
212.57
=877.67
3.27
1.93
0.67
0.01
0.90
2.68
1.82
=
11.28
31.53
15.87
4.44
0.07
6.25
20.63
19.68
=98.47
58
59
Es decir:
12
18
24
30
36
42
44
=206
5.27
5.68
6.25
7.2
8.02
8.71
8.42
=49.55
63.24
102.24
150.0
216
288.72
365.82
370.48
=1556.5
144
324
576
900
1296
1764
1936
=6940
60
Es decir:
m
b
CLCULO DE LA PENDIENTE.
Continuando con los datos del ejercicio anterior, el clculo de la pendiente sera de la
siguiente manera:
SUCESOS
1
2
3
4
5
6
7
12
18
24
30
36
42
44
=206
5.27
5.68
6.25
7.2
8.02
8.71
8.42
=49.55
63.24
102.24
150.0
216
288.72
365.82
370.48
=1556.5
144
324
576
900
1296
1764
1936
=6940
61
m= 0.11
b= 3.78
Cantidad de agua
62
Resulta fcil comprender que cuanto mayor sea el coeficiente de correlacin, menores
sern las diferencias entre los valores originales y los calculados en la variable y
El error estndar de estimacin es la medida que se toma verticalmente, arriba y
debajo de la recta de regresin, y que permite definir dos rectas paralelas, dentro de las
cuales se encuentran el 68% de los puntos de las observaciones. Es como la
desviacin que tienen los valores estimados tomando la recta de regresin como valor
medio.
Se puede decir que en una grfica el punto
es el centro de gravedad.
63
12
18
24
30
36
42
44
5.27
5.68
6.25
7.2
8.02
8.71
8.42
y=.11(12)+3.78=5.10
y=.11(18)+3.78=5.76
y=.11(24)+3.78=6.42
y=.11(30)+3.78=7.08
y=.11(36)+3.78=7.74
y=.11(42)+3.78=8.40
y=.11(44)+3.78=8.62
0.17
-0.08
-0.17
0.12
0.28
0.31
-0.20
0.02
0.00
0.02
0.01
0.07
0.09
0.04
=0.25
64
e. e. e
e
65
BIBLIOGRAFA:
MURRIA R. SPIEGEL. ESTADSTICA., ED. Mc GRAW-HILL., MXICO 2000.
NAPOLEN LABASTIDA LPEZ. ESTADSTICA I. INSTITUTO POLITCNICO NACIONAL. MXICO
1991.