You are on page 1of 22

ESTADSTICA

SEMANA 5

Estadstica bivariada

Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No est
permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposicin del pblico ni 1
ESTE
utilizarDOCUMENTO
los contenidos paraCONTIENE LAdeSEMANA
fines comerciales 5
ninguna clase.
2
ESTE DOCUMENTO CONTIENE LA SEMANA 5
NDICE

OBJETIVOS ESPECFICOS ........................................................................................................................... 4


INTRODUCCIN ...................................................................................................................................... 4
1. TABLAS DE FRECUENCIAS BIVARIADAS................................................................................................ 5
2. CMO SE RELACIONAN LAS VARIABLES? ......................................................................................... 10
2.1. COVARIANZA ..................................................................................................................... 10
2.2. COEFICIENTE DE CORRELACIN ........................................................................................ 12
2.3. COEFICIENTE DE DETERMINACIN ................................................................................... 15
3. ESTADSTICA BIVARIADA CON EXCEL................................................................................................. 16
COMENTARIO FINAL.......................................................................................................................... 20
REFERENCIAS........................................................................................................................................ 21

3
ESTE DOCUMENTO CONTIENE LA SEMANA 5
ESTADSTICA BIVARIADA

OBJETIVOS ESPECFICOS
Conocer y comprender el concepto de estadstica bivariada.

Aplicar el concepto de estadstica bivariada a casos.

Aplicar conceptos de covarianza, coeficiente de correlacin y de determinacin.

INTRODUCCIN
En las aplicaciones de la estadstica hay muchos problemas que requieren un anlisis combinado
de dos variables. En las siguientes reas: administracin, en educacin y en muchas otras materias,
a menudo es necesario contestar preguntas como: Estn relacionadas estas dos variables? Si es
as, de qu manera? Existe una correlacin entre las variables?. Considere los siguientes
ejemplos:

- Existe alguna relacin entre la estatura y el peso?

- Los mdicos prueban frmacos nuevos para combatir la fiebre amarilla, al prescribir dosis
diferentes y observar las respuestas de sus pacientes.

4
ESTE DOCUMENTO CONTIENE LA SEMANA 5
1. TABLAS DE FRECUENCIAS BIVARIADAS
Una tabla de frecuencias bivariada tambin es llamada tabla de frecuencias bidimensional y lo que
hace es resumir la distribucin de frecuencias de dos variables de manera simultnea.

En donde:

nij : es la frecuencia conjunta del valor de la clase xi y del valor de la clase yj


ni : es la frecuencia marginal de la clase xi
n j : es la frecuencia marginal de la clase yj
n : es el tamao de la muestra.

Adems se cumple que:

Para un mejor entendimiento a continuacin se revisarn ejemplos, teniendo en cuenta los


contenidos vistos en semanas anteriores:

5
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Ejemplo 1:

Se tiene la siguiente informacin acerca de la edad X y del nmero de aos de estudio Y, de un


grupo de personas de una localidad del sur de Chile:

Si se quiere calcular el promedio de edad de las personas que estudiaron 14 aos, se transforma
en un problema de una sola variable:

Como la variable es continua (se debe considerar la marca de clase de la variable edad), el tiempo
promedio es:

20 2 24 1 28 2
Tiempo
5

Cabe destacar que el total de individuos es 5, ya que son ellos los que cumplen la condicin de
estudiar 14 aos y que 2 tienen 20 aos, 1 tiene 24 y 2, 28 aos, entonces:

20 2 24 1 28 2 40 24 56 120
Tiempo 24
5 5 5

Luego, la edad promedio de las personas que estudiaron 14 aos es de 24 aos.

6
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Ejemplo 2:

Se desea estudiar el promedio de aos de estudio, pero solo de aquellas personas menores de
26 aos:

Nuevamente se transforma en un problema de una sola variable.

Luego, se tiene:

12 7 13 1 14 3 15 3 84 13 42 45 184
Aos 13,14
14 14 14

As, el promedio de aos de estudio para los menores de 26 aos es de aproximadamente 13 aos.

Ejemplo 3:

Para un grupo de matrimonios la


informacin de la edad del marido (X)
y la edad de la mujer (Y) est dada en
la siguiente tabla:

a) Determine el porcentaje de matrimonios en que ambos cnyuges tienen entre 20 y 30 aos.


b) Determine la media de la edad de las mujeres cuyos maridos tienen a lo ms 35 aos.
c) Determine cul rango de edad de los maridos es ms homogneo, de las mujeres que tienen
entre 20 y 25 aos o de las que tienen entre 35 y 40 aos?

7
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Solucin:

a) El total de matrimonios es de 93 (que es la suma de datos de la tabla).

El nmero de matrimonios que cumplen con la condicin de edad (entre 20 y 30) son:

Es decir:
35 + 7 + 3 + 14 = 59

Luego, el porcentaje es = (59/93) * 100 = 63,44%

b) A lo ms 35 aos significa que la edad de los maridos es menor o igual a dicho nmero.
Entonces, el grupo que se debe evaluar es:

As, se puede escribir la tabla de la siguiente manera. Recordar que la marca de clases es
calcular los extremos dividido por dos, es decir y tomando como ejemplo el primer intervalo, se
tiene (20 + 25)/2 = 45/2 = 22,5.

Y(aos) N matrimonios Marca de


Clase Y(aos) N matrimonios Mc*Nmatri
20 - 25 40
22,5 20 - 25 40 900
25 - 30 24 27,5 25 - 30 24 660
30 - 35 22 32,5 30 - 35 22 715
35 - 40 6 37,5 35 - 40 6 225
2500

8
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Luego, si la cantidad total de matrimonios es 92:

2.500
YX 35 27,174
92

Por lo tanto, la media de la edad de las mujeres cuyos maridos tienen a lo ms 35 aos es de 27
aos aproximadamente.

c) Finalmente, para determinar cul rango de edad de los maridos es ms homogneo, hay que
calcular el coeficiente de variacin para las siguientes tablas:

X(aos) N matrimonios X(aos) N matrimonios


20 - 25 35 20 - 25 1
25 - 30 3 25 - 30 3
30 - 35 2 30 - 35 2
35 - 40 0 35 - 40 1

- Para la primera tabla se tiene:

Recordar que las frmulas son:

Luego:

22.100
23,375 .
935 23,375 2 6,11 2,47
X 20Y 25
40 40

2,47
CV ( X 20Y 25 ) 0,1057 10,57%
23,375

9
ESTE DOCUMENTO CONTIENE LA SEMANA 5
- Para la segunda tabla se tiene:

Marca de
Clase X(aos) N matrimonios Mc*Nmatri Mc^2*Nmatrim
22,5 20 - 25 1 22,5 506,3
27,5 25 - 30 3 82,5 2.268,8
32,5 30 - 35 2 65 2.112,5
37,5 35 - 40 1 37,5 1.406,3
207,5 6.293,8

Luego:

207,5
X 35Y 40 29,642
7

6.293,8
29,642 2 20,46 4,523
7

4,523
CV ( X 35Y 40 ) 0,1526 15,26%
29,642

Por lo tanto el grupo ms homogneo son los matrimonios cuya edad de la mujer es menor a
25 aos, ya que su coeficiente de variacin es menor.

2. CMO SE RELACIONAN LAS VARIABLES?


En este segmento se explicarn tres conceptos bsicos de la estadstica bivariada muy importantes
para determinar cmo se pueden relacionar las variables, llamadas medidas de correlacin, cuya
tcnica permite justamente determinar si existe o no relacin entre dos o ms variables.

2.1. COVARIANZA
La covarianza entre dos variables es una medida estadstica para determinar el tipo de relacin
entre dichas variables. Se la identificar como: S xy

S xy XY X Y

10
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Observaciones:

La covarianza pertenece a los nmeros reales.

Si S 0 La relacin entre la variable x e y es directa, es decir, si una de las variables


xy
aumenta la otra tambin o si una de ellas disminuye la otra tambin.

Si S 0 La relacin entre la variable x e y es inversa, es decir, si una de las variables


xy
aumenta la otra disminuye o si una de ellas disminuye la otra aumenta.

Si S 0 No existe relacin entre la variable x e y.


xy

Ejemplo:

Una empresa desea estudiar la relacin entre la edad de sus trabajadores y los das no trabajados.
Considerar:

X = edad.

Y = n de das no trabajados.

Los datos son:

Edad de los N das no trabajados


trabajadores 06 6 12 12 18
20 25 0 4 1
25 30 12 6 0
30 40 3 4 6
40 50 1 2 8

Al completar la tabla con los totales, se calculan los promedios:

11
ESTE DOCUMENTO CONTIENE LA SEMANA 5
De este modo:

22,5 5 27,5 18 35 13 45 11 1.557,5


Edad 33,14
47 47

3 16 9 16 15 15 417
Dias 8,8723
47 47

Para el promedio de la multiplicacin de las variables, observe la siguiente tabla:

Edad N das no trabajados


06 6 12 12 18 Total fila Mc (Edad)
20 25 0/0 4 / 810 1 / 337,5 5 22,5
25 30 12 / 990 6 / 1.485 0/0 18 27,5
30 40 3 / 315 4 / 1.260 6 / 3.150 13 35
40 50 1 / 135 2 / 810 8 / 5.400 11 45
Total columna 16 16 15 N 47
Mc (N das no 3 9 15
trabajados)

Donde los nmeros destacados se obtienen multiplicando la Mc de X, Mc de Y y la frecuencia (por


ejemplo: 990 = 27,5 * 3 * 12)

0 810 337,5 990 1485 0 315 1260 3150 135 810 5400
Edad Das 312,61
47

S xy XY X Y 312,61 33,14 8,8723 18,58 0

Entonces, se puede concluir que la relacin es directa, pues, si la edad de los trabajadores
aumenta, los das no trabajados tambin.

2.2. COEFICIENTE DE CORRELACIN


En una distribucin bivariada (bidimensional) puede ocurrir que las dos variables tengan algn tipo
de relacin entre s. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es
muy posible que exista relacin entre ambas variables: mientras ms alto sea el alumno, mayor
ser su peso. El coeficiente de correlacin mide el grado de intensidad de esta posible relacin
entre las variables.

Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal (es decir,
si se representara en un grfico los pares de valores de las dos variables, la nube de puntos se

12
ESTE DOCUMENTO CONTIENE LA SEMANA 5
aproximara a una recta). No obstante, puede que exista una relacin que no sea lineal, sino
exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal no medira
correctamente la intensidad de la relacin de las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado.

S
xy
rxy
S S
x y

Observaciones:

El coeficiente de correlacin pertenece al intervalo:


1 r 1
xy

Si r 1
xy

La relacin entre la variable x e y es lineal con


pendiente positiva, es decir, la nube de
puntos puede aproximarse a una lnea recta
con pendiente positiva (una recta creciente).
Por ejemplo, altura y peso: los alumnos ms
altos suelen pesar ms.

Si r 1
xy

La relacin entre la variable x e y es lineal con


pendiente negativa, es decir, la nube de
puntos puede aproximarse por una lnea recta
con pendiente negativa (una recta
decreciente). Por ejemplo, peso y velocidad:
los alumnos ms gordos suelen correr menos.

13
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Si r 0
xy

Significa que no existe relacin lineal entre la


variable x e y. Aunque podra existir otro tipo
de correlacin (parablica, exponencial, etc.).

Ejemplo:

La siguiente tabla muestra el nmero de trabajadores y las utilidades (en millones de $) de un


grupo de 56 empresas. Considerar:

X = n de trabajadores.
Y = utilidades (en millones de $).

N de Utilidades
trabajadores (en millones de $)
14 48 8 12 ni MCi
0 100 12 / 1.500 6 / 1.800 0/0 18 50
100 200 6 / 2.250 3 / 2.700 1 / 1.500 10 150
200 300 4 / 2.500 5 / 7.500 3 / 7.500 12 250
300 400 0/0 6 / 12.600 10 / 35.000 16 350
nj 22 20 14 N 56

MC j 2,5 6 10

Calculando el coeficiente de correlacin ( r ).


xy

X 50 18 150 10 250 12 350 16 11.000 196,428


56 56

2,5 22 6 20 10 14 315
Y 5,625
56 56

14
ESTE DOCUMENTO CONTIENE LA SEMANA 5
2,5 50 12 6 50 6 10 50 0 2,5 150 6 6 150 3 10 150 1 2,5 250 4
6 250 5 10 250 3 2,5 350 0 6 350 6 10 350 10
XY
56
74.850
1.336,607
56

Por lo tanto:
S XY X Y S 1.336 ,607 196 ,428 5,625
xy xy

S 231,6995
xy

Entonces la covarianza indica que existe relacin directa entre el nmero de trabajadores y las
utilidades de las empresas, es decir, a mayor nmero de trabajadores, mayor cantidad de
utilidades).

2.980 .000 11.000 2


s 14.630 ,102 120 ,955
x 56 56

2.257 ,5 315 2
s 8,672 2,945
y 56 56

231,6995
rxy 0,65
120 ,955 2,945

El coeficiente de correlacin indica que existe relacin lineal entre el nmero de trabajadores y las
utilidades, con pendiente positiva.

2.3. COEFICIENTE DE DETERMINACIN


El coeficiente de determinacin es un instrumento de medicin estadstica que sirve para conocer
cunto influye la variable x (independiente) en la y (dependiente).

2
S
2 xy
rxy
S x S y

Es decir, al calcular el coeficiente de correlacin, se eleva al cuadrado.

Siguiendo el ejemplo anterior:

15
ESTE DOCUMENTO CONTIENE LA SEMANA 5
231,6995
rxy 0,65
120 ,955 2,945
231,6995
rxy ( ) 2 0,42
120 ,955 2,945

Luego, el coeficiente de determinacin indica que el 42% de las utilidades son influenciadas por la
cantidad de trabajadores o que el 42% de los trabajadores tiene influencias sobre las utilidades.

3. ESTADSTICA BIVARIADA CON EXCEL


Para desarrollar algunos ejemplos en Excel se ocupar la base de datos que se encuentra en el
archivo Excel de esta semana (Contenidos Semana 5.xlsx) y se contestar lo siguiente:

Ejemplo 1:

Construir una tabla que cuente los datos clasificados por rango de estatura y nivel
socioeconmico.

a) Cuntas personas tienen una estatura sobre 161 cm y hasta 179 cm?

b) Cuntas personas tienen una estatura de a lo ms 170 cm y poseen un nivel socioeconmico


bajo o medio?

c) Qu porcentaje de personas son de nivel socioeconmico medio o alto?

d) De las personas que tienen una estatura desde 152 cm y hasta 170 cm, qu porcentaje poseen
un nivel socioeconmico bajo?

Solucin:

Para desarrollar este ejercicio, se debe construir una tabla dinmica que presente las variables
descritas, esto es:

Cuenta de ID Nivel socioeconmico


Rango Estatura Bajo Medio Alto Total general
152 - 161 59 122 47 228
161 - 170 56 119 40 215
170 - 179 11 25 21 57
Total general 126 266 108 500

16
ESTE DOCUMENTO CONTIENE LA SEMANA 5
a) Cuntas personas tienen una estatura sobre 161 cm y hasta 179 cm?

Para resolver esto, se debe filtrar la variable Rango Estatura segn la o las filas que se deban
ocupar:

Cuenta de ID Nivel socioeconmico


Rango Estatura Bajo Medio Alto Total general
161 - 170 56 119 40 215
170 - 179 11 25 21 57
Total general 67 144 61 272

Entonces, hay 272 personas que tienen una estatura sobre 161 cm y hasta 179 cm.

b) Para saber cuntas personas tienen una estatura de a lo ms 170 cm y poseen un nivel
socioeconmico bajo o medio?

Al realizar los filtros se tiene:

Cuenta de ID Nivel socioeconmico


Rango Estatura Bajo Medio Total general
152 - 161 59 122 181
161 - 170 56 119 175
Total general 115 241 356

Hay 356 personas que miden a lo ms 170 cm y son de nivel socioeconmico bajo o medio.

c) Ahora qu porcentaje de personas son de nivel socioeconmico medio o alto?

Al realizar los filtros se ordenan los datos como porcentaje del total:
Cuenta de ID Nivel socioeconmico
Rango Estatura Bajo Medio Alto Total general
152 - 161 11,80% 24,40% 9,40% 45,60%
161 - 170 11,20% 23,80% 8,00% 43,00%
170 - 179 2,20% 5,00% 4,20% 11,40%
Total general 25,20% 53,20% 21,60% 100,00%

Por tanto, el 74,8% (53,2% + 21,6%) de las personas son de nivel socioeconmico medio o alto.

d) Y de las personas que tienen una estatura desde 152 cm y hasta 170 cm, qu porcentaje
poseen un nivel socioeconmico bajo?

Al realizar los filtros se ordenan los datos como porcentaje del total:

Cuenta de ID Nivel socioeconmico


Rango Estatura Bajo Medio Alto Total general
152 - 161 13,32% 27,54% 10,61% 51,47%
161 - 170 12,64% 26,86% 9,03% 48,53%
Total general 25,96% 54,40% 19,64% 100,00%

Entonces el resultado arroja que el 25,96% de los que miden desde 152 cm y hasta 170 cm,
tienen un nivel socioeconmico bajo.

17
ESTE DOCUMENTO CONTIENE LA SEMANA 5
Ejemplo 2:

Construir una tabla que cuente con los datos clasificados por rango de peso y rango de estatura.

a) Cuntas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179 cm?

b) De las personas que miden a lo ms 170 cm, qu porcentaje pesa ms de 68,5 kg?

c) Con respecto a qu variable la muestra presenta menos variabilidad? Justifique.

Cuenta de ID Rango Estatura


Rango peso 152 - 161 161 - 170 170 - 179 Total general
51,3 - 59,9 106 39 0 145
59,9 - 68,5 111 88 17 216
68,5 - 77,1 11 88 40 139
Total general 228 215 57 500

Solucin:

a) La primera pregunta es cuntas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179
cm?

Se obtiene que:

Cuenta de ID Rango Estatura


Rango peso Total general
Total general 0

Entonces, no hay personas que pesan entre 51,3 y 59,9 kg, y que midan entre 170 y 179 cm.

b) Luego, se obtiene la siguiente tabla de acuerdo a los datos obtenidos:

Cuenta de ID Rango Estatura


Rango peso 152 - 161 161 - 170 Total general
51,3 - 59,9 23,93% 8,80% 32,73%
59,9 - 68,5 25,06% 19,86% 44,92%
68,5 - 77,1 2,48% 19,86% 22,35%
Total general 51,47% 48,53% 100,00%

Aproximadamente un 22,35% de los que miden a lo ms 170 cm, pesan ms de 68,5 kg.

18
ESTE DOCUMENTO CONTIENE LA SEMANA 5
c) Finalmente para responder qu variable presenta menos variabilidad:

Promedio de Peso (kg) Promedio de Estatura (cm)


Rango peso Total Rango Estatura Total
51,3 - 59,9 57,7 152 - 161 159
59,9 - 68,5 63,4 161 - 170 165
68,5 - 77,1 71,5 170 - 179 173
Total general 64,0 Total general 163

Desvest de Peso (kg) Desvest de Estatura (cm)


Rango peso Total Rango Estatura Total
51,3 - 59,9 1,8 152 - 161 2,2
59,9 - 68,5 2,6 161 - 170 2,6
68,5 - 77,1 2,1 170 - 179 1,8
Total general 5,7 Total general 5,3

CV (peso) = 8,9% CV (estatura) = 3,3%

Otra manera para responder la pregunta de variabilidad, es con el resumen de estadstica


descriptiva, de la funcin anlisis de datos.

Para calcular la covarianza y coeficiente de correlacin se debe digitar las siguientes frmulas:

Covarianza:

=COVAR(DATOS_DE_X ; DATOS_DE_Y)

Coeficiente de correlacin:

=COEF.DE.CORREL(DATOS_DE_X; DATOS_DE_Y)

19
ESTE DOCUMENTO CONTIENE LA SEMANA 5
COMENTARIO FINAL
En esta semana se aprendi como introduccin el estudio de la estadstica bivariada, ya que es el
comienzo de las aplicaciones ms comunes de esta rea en, por ejemplo, medicina, psicologa, y
especialmente en economa y econometra. Sin lugar a dudas, estas reas sern beneficiadas con
estos conocimientos y herramientas estadsticas aplicadas en la vida del futuro profesional, que no
solo las necesitar, sino que sacar mucho provecho en su diario quehacer al obtener valiosos
resultados inapelables.

20
ESTE DOCUMENTO CONTIENE LA SEMANA 5
REFERENCIAS
Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadstica para administracin y economa, 10.

edicin. Mxico: Cengage Learning.

Devore, J. (1998). Probabilidad y estadstica para ingeniera y ciencias. Mxico: International

Thomson Editores.

Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gmez, R. (2004). Estadstica para

administracin y economa. 7. edicin. Mxico: Pearson, Prentice-Hall.

Ross, S. (1997). A first course in Probability. Berkeley. Universidad de California.

PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE:

IACC (2016). Estadstica bivariada. Estadstica. Semana 5.

21
ESTE DOCUMENTO CONTIENE LA SEMANA 5
22
ESTE DOCUMENTO CONTIENE LA SEMANA 5

You might also like