You are on page 1of 7

Nombre

6. VARIABLES BIDIMENSIONALES: COVARIANZA, COEFICIENTE DE


CORRELACIN Y REGRESIN LINEAL

OBJETIVO
Medir y ajustar una relacin lineal entre dos variables cuantitativas.

INDICE
1. Covarianza y sus propiedades
2. Correlacin y sus propiedades
3. Cmo calcular la covarianza y correlacin con datos agrupados
4. La recta de regresin y sus propiedades

COVARIANZA
La covarianza es una medida de la fuerza de la relacin lineal entre dos variables cuantitativas..

COVARIANZA PARA DATOS NO AGRUPADOS

Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que

o lo que es lo mismo

Definicin
Para una muestra de n datos bivariantes, sean (xi, yi ) pares de observaciones de dos
caractersticas X y Y, y sean sus respectivas medias. La covarianza entre las dos variables se

define por :

Donde xi e yi representan los pares de valores de la variable y el producto corresponde al

producto de las medias aritmticas de las variables x e y respectivamente.

Roco Thierry Llarena 52


Nombre

Pasos para calcular la covarianza de una serie de eventos


Paso 1: Se calcula xiyi , esto es la sumatoria de los productos de las variablares x y y;
o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )

Paso 2: se define n, que el numero de eventos o el numero de pares de variables

Paso 3: Se calcula , que es el producto de las medias de ambas variables

Paso 4: Obtenidos todos los datos se sustituyen en la formula y se obtiene el resultado

COVARIANZA PARA DATOS AGRUPADOS (TABLA DE DOBLE ENTRADA)

La covarianza , es una manera de generalizar la varianza y se define como:

Como se ve, la frmula es muy parecida a las de las varianzas. Es sencillo comprobar que se

verifica la siguiente expresin de , ms til en la prctica:

Proposicin

La covarianza es positiva si existe una relacin (lineal) creciente


(relacin directa) y negativa si existe una relacin decreciente (inversa).

De este modo podemos utilizar la covarianza para medir la variacin


conjunta (covariacin) de las variables X e Y. Esta medida no
debe ser utilizada de modo exclusivo para medir la relacin entre
las dos variables, ya que es sensible al cambio de unidad de
medida.

Roco Thierry Llarena 53


Nombre

Una interpretacin geomtrica de la covarianza

Figura: Interpretacin geomtrica de

Figura: Cuando los puntos se reparte de modo ms o menos homogneo entre

los cuadrantes primero y tercero, y segundo y cuarto, se tiene que . Eso


no quiere decir de ningn modo que no pueda existir ninguna relacin entre las
dos variables, ya que sta puede existir como se aprecia en la figura de la
derecha.

Roco Thierry Llarena 54


Nombre

CORRELACIN
La correlacin es independiente de las unidades de las variables.

La covarianza entre dos variables aleatorias es una medida de la relacin lineal conjunta entre
ellas.
No obstante, la covarianza es til en identificar la naturaleza de la relacin entre X e Y, tiene el
problema de que su valor depende de la magnitud en que estn medidas las variables.
Por ejemplo, si X e Y son dos variables financieras podran estar medidas en dlares o en miles de
dlares y entonces la covarianza aumentara multiplicada por 1000.
Para evitar este problema se utiliza una medida "normalizada" denominada coeficiente de
correlacin entre X e Y, xy .
Corrxy = Covxy = S xy
SxSy SxSy

Propiedades
-1 Corrxy 1
Corrxy = 1 si y slo si existen constantes xi y yi > 0 donde yi = a + bxi para i = 1, . . . n.
Es
decir, que existe una relacin lineal positiva exacta entre las dos variables.
Corrxy = -1 si y slo si existen constantes xi y yi < 0 donde yi = a+bxi para i = 1, . . . n.
Es
decir que existe una relacin lineal negativa exacta entre las dos variables.

Si Corrxy = 0 entonces no existe ninguna relacin entre las dos variables (son
independientes)

Si Corrxy 0 (la correlacin se aproxima a 0) entonces existe muy poca o casi


nula relacin entre las dos variables,.

Si la correlacin est cerca de 1 -1, entonces hay una relacin aproximadamente lineal.

Cuando el coeficiente de correlacin est cerca de 1 -1, los caracteres se dicen que estn
''fuertemente correlacionados''. Hay que tener cuidado con la confusin frecuente entre
correlacin y causalidad. Que dos fenmenos estn correlacionados no implica, de ninguna
manera, que uno sea causa del otro. Es muy frecuente que una correlacin fuerte indica que los
dos caracteres dependen de un tercero que no ha sido medido. Este tercer carcter se llama
''factor de confusin''. Que exista una fuerte correlacin entre la recaudacin de impuestos en
Inglaterra y la criminalidad en el Japn, indica que ambos estn ligados al aumento global de la
poblacin. El precio del trigo y la poblacin de roedores estn negativamente correlacionados,
porque ambos dependen del nivel de la cosecha de trigo. Puede ser que una fuerte correlacin
exprese una verdadera causalidad, como entre el nmero de cigarrillos que se fuma al da y la
aparicin de un cncer de pulmn. Pero no es la estadstica la que demuestra la causalidad, ella
permite solamente detectarla. La influencia del consumo del tabaco en la aparicin de un cncer
de pulmn ha sido cientficamente demostrada en la medida en que se pudieron analizar los
mecanismos fisiolgicos y bioqumicos que hacen que el alquitrn y la nicotina induzcan errores en
la reproduccin del cdigo gentico de las clulas.

Tipos de correlacin;
a) positiva o negativa
Roco Thierry Llarena 55
Nombre
b) Fuerte, moderada, dbil, no correlacionados

EJERCICIOS:
72.- El gerente de un parque de diversiones piensa que el nmero de visitantes al parque depende
de la temperatura.

Temperatura C 16 22 31 19 23 26 21 17 24 29 21 25 23 29
Nmero de
205 248 298 223 252 280 233 211 258 295 229 252 248 284
Visitantes

a) Grafica los datos anteriores en un diagrama de dispersin.


b) Indica que tipo de correlacin tienen a partir de lo que observaste en la grfica
c) Encuentra la media de la temperatura y la media del nmero de visitantes
d) Grafica el punto medio y dibuja una lnea recta que mejor ajusta a los datos
e) Usa tu diagrama para estimar el nmero de visitantes si la temp es de 27 grados
f) Calcula el coeficiente de correlacin r.

73.- Un estudiante quiere saber si existe alguna correlacin entre la altura predicha para las
margaritas y su actual altura

Altura predicha
(cm) 5.3 6.2 4.9 5.0 4.8 6.6 7.3 7.5 6.8 5.5 4.7 6.8 5.9 7.1
Altura actual
(cm) 4.7 7.0 5.3 4.5 5.6 5.9 7.2 6.5 7.2 5.8 5.3 5.9 6.8 7.6

a) Dibuja un diagrama de dispersin para ilustrar los datos anteriores y comenta acerca de su
correlacin
b) Calcula el coeficiente de correlacin

74.- La siguiente tabla muestra la altura y pesos de 12 jirafas


Altura (x m) 4.8 4.1 4.2 4.7 5.0 5.0 4.8 5.2 5.3 4.3 5.5 4.5
Peso (y kg) 900 600 650 750 1100 950 850 1150 1100 650 1250 800

a) Grafica los datos anteriores en un diagrama de dispersin.


b) Indica que tipo de correlacin tienen a partir de lo que observaste en la grfica
c) Encuentra la media de la altura y la media del peso
d) Grafica el punto medio y dibuja una lnea recta que mejor ajusta a los datos
e) Usa tu diagrama para estimar el peso de la jirafa si la altura es de 4.6m
f) Calcula el coeficiente de correlacin r.

75.- Un granjero seleccion una muestra de 12 gallinas. Durante un periodo de dos semanas anoto el
nmero de huevos que produjeron y la cantidad de alimento que consumieron. Los resultados se
indican en la siguiente tabla;
Num. De
huevos 11 10 13 10 11 15 9 12 11 12 13 9
Unidades de
alimento 6.2 4.9 7.1 6.2 5.0 7.9 4.8 6.9 5.3 5.9 6.5 4.5

Calcula el coeficiente de correlacin, r, comenta acerca de tu resultado

Roco Thierry Llarena 56


Nombre
RECTA DE REGRESIN LINEAL
La recta de regresin debe pasar por el punto correspondiente a las medias de ambas variables y
que debe tener por pendiente la covarianza dividida por la varianza de la variable x.
Con ello la expresin de la recta de regresin ser:

Esta es la llamada "Recta de regresin de y sobre x". Si se deseara estudiar la dependencia de x


respecto a y slo habra que cambiar en la expresin de la recta x por y, obtenindose la recta
regresin de x sobre y

Utilidad de la Recta de Regresin

Mediante la recta de regresin podramos obtener de manera aproximada el valor de la


variable dependiente (y) de la que conociramos la variable independiente (x), en una
poblacin semejante a aquella de la que se ha obtenido la muestra

De manera ms precisa, si conocemos la expresin de la recta de regresin, se pueden


calcular valores para la variable y, conocidos los de x, como si se tratara de una funcin

EJERCICIOS:
76.- Para los ejercicios de la pgina anterior calcula la ecuacin de la recta de regresin.

77- Cinco nios de 2, 3, 5, 7 y 8 aos de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
a) Hallar la ecuacin de la recta de regresin de la edad sobre el peso.
b) Cul sera el peso aproximado de un nio de seis aos?

78 - Un ce ntro come rci al sa be en fu nci n de l a di sta nci a, en ki l me tro s, a l a q ue se


si te de u n n cle o de po bl aci n, acude n l os cl ie nte s, e n ci e ntos, que fi g ura n e n l a
tabl a:
N de clientes
(X) 8 7 6 4 2 1
Distancia (Y) 15 19 25 23 34 40
a)Calcular el coeficiente de correlacin lineal.
b)Si el centro comercial se sita a 2 km, cuntos clientes puede esperar?
c)Si desea recibir a 500 clientes, a qu distancia del ncleo de poblacin debe situarse?

Roco Thierry Llarena 57


Nombre

79- Las notas obtenidas por cinco alumnos en Matemticas y Qumica son:

Matemticas 6 4 8 5 3. 5

Qumica 6. 5 4. 5 7 5 4
a) Determinar las rectas de regresin y calcular la nota esperada en Qumica para un alumno que
tiene 7.5 en Matemticas.

80.- Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de correlacin r = 0.9, siendo
las medias de las distribuciones marginales x= 1, y= 2. Se sabe que una de las cuatro
ecuaciones siguientes corresponde a la recta de regresin de Y sobre X:
y = -x + 2 3x - y = 1 2x + y = 4 y=x+1
Seleccionar razonadamente esta recta.

81.- Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Estatura (X) 186 189 190 192 193 193 198 201 203 205

Pesos (Y) 85 85 86 90 87 91 93 103 100 101


Calcular:
a) La recta de regresin de Y sobre X.
b) El coeficiente de correlacin.
c) El peso estimado de un jugador que mide 208 cm.

(ver presentacin ppt. Variables Bidimensionales)


BIBLIOGRAFA

http://www.bioestadistica.uma.es/libro/node37.htm
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Bioestadstica: Apuntes en vdeo

http://200.32.4.58/~mrozada/mfin/pye2.pdf
Roco Thierry Llarena 58

You might also like