You are on page 1of 5

UNIDAD 4

ANLISIS DE REGRESIN Y CORRELACIN

ANLISIS DE VARIANZA

Existe una tcnica de anlisis de la varianza que se utiliza para comprobar si una linea recta muestra una

cantidad significativa de la variabilidad observada de Y, es decir si la variable Y depende

significativamente de X

El procedimiento consiste en comparar las desviaciones de los puntos con relacin a la recta de regresin

con las desviaciones alrededor de la recta Y, ( Y= valor medio de los valores o

bservados de Y). Si consideramos un punto cualquiera (X i, Yi ), la distancia vertical del valor observado Y i a

Y es llamada desviacin total y la designamos por (Yi Y). Si medimos la distancia vertical desde la recta

de regresin Y i a la recta Y, obtenemos (Y i Y) que llamamos desviacin explicada, y finalmente, a la

distancia vertical del punto (Xi ,Yi ) a la recta de regresin Yi , (Yi -Yi) que es el error, la llamamos

desviacin inexplicada

Entonces tenemos:

(Yi Y) = (Yi Y) + (Yi -Yi)

Desv. Total desv. Explicada desv. Inexplicada

Si se miden estas desviaciones para todos los puntos, se elevan al cuadrado y se suman se obtiene:

(Yi Y)2 = (Yi Y)2 + (Yi -Yi)2

suma de cuadrados suma cuadrados suma de cuadrados

total explicada inexplicada

Esta suma de cuadrados explicada entre la suma de cuadrados total es el coeficiente de determinacin.

Usando las tres sumas de cuadrados y los grados de libertad asociados a ellas, podemos construir una

tabla de anlisis de varianza para la regresin lineal

TABLA DE ADEVA PARA REGRESIN LINEAL SIMPLE

Fuente de Grados Suma de cuadrados Cuadrados medios Fcalc

variacin libertad
Total n-1 SC total F = S2 expl/ S2
Regresin 2-1=1 Scexplicada S2 expl = SCexpli/1
inexpl
Error n-2 SC inexplicada S2 inexpl = SCinexpli/n-2
Este valor Fcalculado, se compara con el valor F terico(tablas), el mismo que se lo localiza considerando

el nivel de confianza, y los g.l regresin y g.l del error.. Si el Fcalc, es mayor que el F terico, se concluye

que Y depende significativamente de X

SUGERENCIA

Cuando desarrolla una linea de regresin, no omita el importante paso de preguntarse: El coeficiente de

regresin es significativamente diferente de cero?. Si no es as, entonces no existe una relacin

demostrada entre las variables. Por ejemplo, el propietario de un saln de bronceado tiene la corazonada

de que es ms probable que la gente vaya a una sesin en los das nublados. Saber esto sera de utilidad

para calendarizar al personal o el mantenimiento de las mquinas. Si una regresin de nmero de visitas

en horas de sol reportada por el servicio metereolgico local produce una linea de regresin para la cual

la pendiente no es significativamente distinta de cero, entonces el propietario debera concluir que seguir

las noticias sobre el tiempo no es de utilidad en la calendarizacin de su negocio

EJERCICIOS

1.- Se ha establecido un ndice numrico del grado de enfermedad de pacientes que sufren el mal de

Crohn. El ndice requiere que el paciente lleve un diario e incluya informacin sobre ocho variables

clnicas. El ndice, si bien til es molesto de obtener en la prctica y se ha ideado un nuevo ndice que es

ms fcil de calcular. Se cree que los valores obtenidos con el nuevo ndice pueden ser utilizados para

predecir el valor que se habra obtenido utilizando el antiguo ndice ya comprobado. Se eval. a ciento seis

pacientes utilizando ambos ndices. Los valores de X recorren de 0.5 a 14.0. El diagrama de dispersin

para los datos exhibe una tendencia lineal. Se tiene:

X = 366.1 Y = 12 623 X2 = 2435,63 XY = 75 989,6 X = 3,45 Y = 119,08

Manejar esta informacin para estimar a y b, . Cul es la clasificacin predicha mediante el ndice antiguo

de un paciente que est clasificado en X = 16 mediante el nuevo ndice. Razonar la respuesta.

2.- Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la concentracin

de estrona en saliva para predecir la concentracin de esteroide en plasma libre. Se extrajeron los

siguientes datos de 11 varones sanos:

Concentr.estrona 7.4 7.5 8.5 9.0 9.0 11.0 13.0 14.0 14.5 16.0 18.0
en saliva, pg/ml
Concentr.de 30.0 25.0 31.5 27.5 39.5 38.0 43.0 49.0 55.0 48.5 51.0
estronaen plasma,
a) La relacin entre estas variables es de tipo lineal? B) Encuentre la ecuacin de mejor ajuste y

dibjela en el diagrama. C) Utilizar la linea estimada de regresin para predecir el nivel de

estrona en plasma libre de un varn cuyo nivel de estrona en saliva es de 17.5 pg/ml.

3.- Considrense las siguientes observaciones sobre las variables X y Y

X 2.0 2.1 2.5 3.0 3.5 3.9 4.0


Y 4.0 4.4 6.3 9.0 6.2 4.3 4.0
2
a) En base al diagrama de dispersin, se puede esperar que r (coeficiente de determinacin) est

prximo a 1, -1 o 0? B) Calcular r2 e interpretarlo.

4.- Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen en un lago, se toman

medidas de la concentracin de nitrato en el agua. Para monitorizar la variable se ha utilizado un antiguo

mtodo manual. Se idea un nuevo mtodo automtico. Si se pone de manifiesto una alta correlacin

positiva entre las medidas tomadas empleando los dos mtodos, entonces se har uso habitual del mtodo

automtico. Los datos obtenidos son los siguientes (las unidades son microgramos de nitrato por litro de

agua)

Manual 25 40 120 75 150 300 270 400 450 575


Automtico 30 80 150 80 200 350 240 320 470 583
a) Aconsejara poner en uso el mtodo automtico?

5.- Se ha realizado un estudio para evaluar la precisin en que las madres pueden juzgar el consumo de

alimentos de sus hijos. Se obtuvieron datos de las madres y de un observador externo que pas mucho

tiempo observando la preparacin de los alimentos y los hbitos nutritivos del nio. Entre el informe de la

madre y el del observador se hallaron estas correlaciones:

Alimento Grasas g Grasas sat. g Fsforo mg Calcio mg Niacina mg Hierro


R 0.52 0.38 -0.10 0.28 0.70 0.90
a) Construir diagramas de dispersin para ilustrar cmo espera usted que aparezcan los datos en

cada caso

b) Explicar en un sentido prctico el significado de la correlacin negativa del fsforo

c) Hallar el coeficiente de determinacin para cada tipo de alimento . Cul es el porcentaje de

variacin de variacin mxima en Y (el informe de la madre) explicado por su asociacin lineal con

X (informe del observador)

6.- Se lleva a cabo un estudio sobre las caractersticas corporales y el modo de actuar de los

levantadores de peso olmpicos, superiores y de primera clase. Se estudian dos variables, peso corporal
del sujeto, e Y, su mejor levantamiento dictaminado en cuanto a limpieza y empuje. Se obtuvieron los

siguientes datos en libras:

Peso 134 138 154 178 176 190 190 205 205 206
Mejor levantam. 185 238 260 290 312 336 339 341 358 359

a) Dibuje la nube de puntos. Basndose en ella, se puede esperar que b (coeficiente de regresin )

sea positivo o negativo?

b) Halle e interprete el coeficiente de determinacin

c) Comprobar la idoneidad del modelo lineal de regresin. Si es adecuado, hallar la lnea de

regresin estimada de Y sobre X y utilizarla para estimar el mejor levantamiento en cuanto a

limpieza y empuje para un levantador de peso que pese 200 libras

7.- Se lleva a cabo un estudio, por medio de detectores


radiactivos, de la capacidad corporal para absorver hierro y
plomo. Participan en el estudio diez sujetos. A cada uno se le da
una dosis oral idntica de hierro (sulfato ferroso) y de plomo
(cloruro de plomo-203). Despus de doce das se mide la cantidad
de cada componente retenida en el sistema corporal y, a partir de
sta, se determina el porcentaje absorbido por el cuerpo. Se
obtuvieron los siguientes datos:
X(%Fe absorv) 17 22 35 43 80 85 91 92 96 100
Y(%Pbabsorv) 8 17 18 25 58 59 41 30 43 58

a)Dibuje la nube de puntos. Basndose en ella, se puede esperar que b (coeficiente de regresin ) sea

positivo o negativo?

b) Halle e interprete el coeficiente de determinacin

c) Comprobar la idoneidad del modelo lineal de regresin. Si es adecuado, estimar la verdadera linea de

regresin y utilizarla para predecir el % de hierro absorbido por un individuo cuyo sistema corporal

absorbe el 15% del plomo ingerido.

8.- Se realiza un estudio para investigar la depresin en los adolescentes. Entre los factores

considerados estn la preocupacin y la satisfaccin con el entorno inmediato. Las puntuaciones altas

indican altos niveles de depresin, preocupacin o satisfaccin. Se hacen las siguientes afirmaciones: La
depresin est positivamente correlacionada con la preocupacin, r = 0.3; La depresin est

negativamente correlacionada con la satisfaccin, r = - 0.36; Las puntuaciones de la satisfaccin y la

preocupacin estn correlacionadas negativamente, r = - 0.16.

a) Construir nubes de puntos para ilustrar cmo espera usted que aparezcan los datos en cada caso.

b) Un amigo que no sabe nada sobre estadstica, le pide que interprete estas afirmaciones en un

sentido prctico. Qu dira usted?

9.-Se usa un reactivo qumico para obtener un precipitado de una sustancia en una solucin dada. Los

datos son los siguientes:

Reactivo 7.2 4.8 5.2 4.9 5.4 6.4 6.8 8.0 6.0 6.7
Precipitado 8.4 5.4 6.3 6.8 8.0 11.1 12.3 13.3 8.4 9.5
a) La relacin entre estas variables es lineal? b) Determine la mejor curva de ajuste y represntela

en el diagrama. c) Se puede estimar la cantidad de precipitado si se usa 10 de reactivo. Razone

su respuesta? d) Estime el grado de relacin entre estas variables, e interprete ese resultado.

10.- Los investigadores estn estudiando la correlacin entre obesidad y la respuesta individual al dolor .

La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al dolor se mide utilizando el

umbral de reflejo de flexin nociceptiva (Y), que es una medida de sensacin de punzada. Se obtiene la

siguiente informacin:

X(% 89 90 75 30 51 75 62 45 90 20
sobrepeso)
Y (umbral 2 3 4 4.5 5.5 7 9 13 15 14
reflejo)

a) En base a la informacin anterior, determine el grado de relacin entre estas variables

11.- Supongamos que usted tiene a su cargo el dinero de cierta regin del pas. Se le dan los
siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto(en
millones de dlares).
Sum. De dinero 2.0 2.5 3.2 3.6 3.3 4.0 4.2 4.6 4.8 5.0
Prod. Nac. bruto 5.0 5.5 6.0 7.0 7.2 7.7 8.4 9.0 9.7 10.0
a)La relacin entre estas variables es lineal? b) Desarrolle la ecuacin de estimacin para predecir el
producto nacional bruto en funcin del suministro de dinero. c) Se puede estimar el producto nacional
bruto cuando el suministro de dinero es de 6.0 millones de dlares? Razone su respuesta? d) Estime
el grado de relacin entre estas variables, e interprete ese resultado.

You might also like