Professional Documents
Culture Documents
OBJETIVO
Medir y ajustar una relacin lineal entre dos variables cuantitativas.
INDICE
1. Covarianza y sus propiedades
2. Correlacin y sus propiedades
3. Cmo calcular la covarianza y correlacin con datos agrupados
4. La recta de regresin y sus propiedades
COVARIANZA
La covarianza es una medida de la fuerza de la relacin lineal entre dos variables cuantitativas..
Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que
o lo que es lo mismo
Definicin
Para una muestra de n datos bivariantes, sean (xi, yi ) pares de observaciones de dos
caractersticas X y Y, y sean sus respectivas medias. La covarianza entre las dos variables se
define por :
Como se ve, la frmula es muy parecida a las de las varianzas. Es sencillo comprobar que se
Proposicin
CORRELACIN
La correlacin es independiente de las unidades de las variables.
La covarianza entre dos variables aleatorias es una medida de la relacin lineal conjunta entre
ellas.
No obstante, la covarianza es til en identificar la naturaleza de la relacin entre X e Y, tiene el
problema de que su valor depende de la magnitud en que estn medidas las variables.
Por ejemplo, si X e Y son dos variables financieras podran estar medidas en dlares o en miles de
dlares y entonces la covarianza aumentara multiplicada por 1000.
Para evitar este problema se utiliza una medida "normalizada" denominada coeficiente de
correlacin entre X e Y, xy .
Corrxy = Covxy = S xy
SxSy SxSy
Propiedades
-1 Corrxy 1
Corrxy = 1 si y slo si existen constantes xi y yi > 0 donde yi = a + bxi para i = 1, . . . n.
Es
decir, que existe una relacin lineal positiva exacta entre las dos variables.
Corrxy = -1 si y slo si existen constantes xi y yi < 0 donde yi = a+bxi para i = 1, . . . n.
Es
decir que existe una relacin lineal negativa exacta entre las dos variables.
Si Corrxy = 0 entonces no existe ninguna relacin entre las dos variables (son
independientes)
Si la correlacin est cerca de 1 -1, entonces hay una relacin aproximadamente lineal.
Cuando el coeficiente de correlacin est cerca de 1 -1, los caracteres se dicen que estn
''fuertemente correlacionados''. Hay que tener cuidado con la confusin frecuente entre
correlacin y causalidad. Que dos fenmenos estn correlacionados no implica, de ninguna
manera, que uno sea causa del otro. Es muy frecuente que una correlacin fuerte indica que los
dos caracteres dependen de un tercero que no ha sido medido. Este tercer carcter se llama
''factor de confusin''. Que exista una fuerte correlacin entre la recaudacin de impuestos en
Inglaterra y la criminalidad en el Japn, indica que ambos estn ligados al aumento global de la
poblacin. El precio del trigo y la poblacin de roedores estn negativamente correlacionados,
porque ambos dependen del nivel de la cosecha de trigo. Puede ser que una fuerte correlacin
exprese una verdadera causalidad, como entre el nmero de cigarrillos que se fuma al da y la
aparicin de un cncer de pulmn. Pero no es la estadstica la que demuestra la causalidad, ella
permite solamente detectarla. La influencia del consumo del tabaco en la aparicin de un cncer
de pulmn ha sido cientficamente demostrada en la medida en que se pudieron analizar los
mecanismos fisiolgicos y bioqumicos que hacen que el alquitrn y la nicotina induzcan errores en
la reproduccin del cdigo gentico de las clulas.
Tipos de correlacin;
a) positiva o negativa
Roco Thierry Llarena 55
Nombre
b) Fuerte, moderada, dbil, no correlacionados
EJERCICIOS:
72.- El gerente de un parque de diversiones piensa que el nmero de visitantes al parque depende
de la temperatura.
Temperatura C 16 22 31 19 23 26 21 17 24 29 21 25 23 29
Nmero de
205 248 298 223 252 280 233 211 258 295 229 252 248 284
Visitantes
73.- Un estudiante quiere saber si existe alguna correlacin entre la altura predicha para las
margaritas y su actual altura
Altura predicha
(cm) 5.3 6.2 4.9 5.0 4.8 6.6 7.3 7.5 6.8 5.5 4.7 6.8 5.9 7.1
Altura actual
(cm) 4.7 7.0 5.3 4.5 5.6 5.9 7.2 6.5 7.2 5.8 5.3 5.9 6.8 7.6
a) Dibuja un diagrama de dispersin para ilustrar los datos anteriores y comenta acerca de su
correlacin
b) Calcula el coeficiente de correlacin
75.- Un granjero seleccion una muestra de 12 gallinas. Durante un periodo de dos semanas anoto el
nmero de huevos que produjeron y la cantidad de alimento que consumieron. Los resultados se
indican en la siguiente tabla;
Num. De
huevos 11 10 13 10 11 15 9 12 11 12 13 9
Unidades de
alimento 6.2 4.9 7.1 6.2 5.0 7.9 4.8 6.9 5.3 5.9 6.5 4.5
EJERCICIOS:
76.- Para los ejercicios de la pgina anterior calcula la ecuacin de la recta de regresin.
77- Cinco nios de 2, 3, 5, 7 y 8 aos de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
a) Hallar la ecuacin de la recta de regresin de la edad sobre el peso.
b) Cul sera el peso aproximado de un nio de seis aos?
79- Las notas obtenidas por cinco alumnos en Matemticas y Qumica son:
Matemticas 6 4 8 5 3. 5
Qumica 6. 5 4. 5 7 5 4
a) Determinar las rectas de regresin y calcular la nota esperada en Qumica para un alumno que
tiene 7.5 en Matemticas.
80.- Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de correlacin r = 0.9, siendo
las medias de las distribuciones marginales x= 1, y= 2. Se sabe que una de las cuatro
ecuaciones siguientes corresponde a la recta de regresin de Y sobre X:
y = -x + 2 3x - y = 1 2x + y = 4 y=x+1
Seleccionar razonadamente esta recta.
Estatura (X) 186 189 190 192 193 193 198 201 203 205
http://www.bioestadistica.uma.es/libro/node37.htm
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Bioestadstica: Apuntes en vdeo
http://200.32.4.58/~mrozada/mfin/pye2.pdf
Roco Thierry Llarena 58