You are on page 1of 21

ING. ORLANDO F. OCHOA CH.

C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL



UBA-ESTADISTICA I-2011 Pgina 1


TABLA DE CONTENIDO

CAPITULO VI: CORRELACION Y REGRESI ON LINEAL. PROPI EDADES Y CALCULO.

1. Generalidades:
1.1. Concepto de funcin
1.2. Funcin afn

2. Distribuciones bidimensionales:

2.1. Distribuciones bidimensionales: tablas de doble entrada o de contingencia:
2.2. Distribuciones marginales:
2.3. Representaciones grficas: diagramas de dispersin o nube de puntos:

3. Covarianza (S
XY
):

3.1. Propiedades de la covarianza

4. Coeficiente de correlacin lineal, (R)

5. Recta de regresin:

5.1. Determinacin de lneas de regresin:
5.1.1. Mtodo de Mnimos Cuadrados:
5.1.2. Ajuste de una Recta:

6. Bondad del ajuste:

6.1. Varianza no explicada, (S
e
2
):
6.2. Varianza explicada, (

2
):
6.3. Varianza total, (

2
):

7. Coeficiente de determinacin; (R):

8. Ejercicios






ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 2



UNIDAD VI: CORRELACION Y REGRESI ON LINEAL. PROPIEDADES Y CALCULO.

- Coeficiente de Correlacin Lineal. Propiedades
- Recta de Regresin Lineal. Propiedades
- Frmulas para calcular Correlacin Lineal y Recta de Regresin Lineal.

1. Generalidades:
1.1. Concepto de funcin:
Una funcin es un tipo de relacin en la cual no existen dos pares ordenados diferentes con la
misma primera componente y cada elemento del conjunto de partida (dominio) est
relacionado con un elemento del conjunto de llegada (rango), o lo que es lo mismo, cada
elemento del conjunto de partida tiene imagen en el conjunto de llegada.


= {(, )| = ()}
Fig. N 1
Cada punto que pertenece a la funcin F, est definido por sus coordenadas, la abscisa x y
la ordenada y.

As se tiene:

P
1
(x
1
,y
1
) P
2
(x
2
,y
2
) P
3
(x
3
,y
3
)

Otra forma de expresar las notaciones anteriores es de la forma y = f(x), que significa que y
es la imagen de x, por lo tanto:

y
1
= f(x
1
) lo que es lo mismo las coordenadas de P
1
[x
1
,f(x
1
)]
y
2
= f(x
2
) lo que es lo mismo las coordenadas de P
2
[x
2
,f(x
2
)]
y
3
= f(x
3
) lo que es lo mismo las coordenadas de P
3
[x
3
,f(x
3
)]

ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 3


1.2. Funcin lineal:

La funcin lineal tiene como ecuacin: y = mx + b, donde los parmetros m y b,
representan a la pendiente (m) de la recta y la interseccin de la misma con el eje Y, en el
punto P(0,b).
Como se sabe el valor de la pendiente (m), viene dado por la frmula:
=

=

Fig. N 2

2. Distribuciones bidimensionales:
En los temas anteriores se discutieron los mtodos para el anlisis de una cierta variable x y
su distribucin de frecuencias, sin embargo es frecuente en Estadstica, el estudio de la relacin
entre dos o ms variables: estatura peso, gastos de publicidad ventas de un artculo,
cantidad de un abono aplicado produccin de un cultivo, longitud latitud, etc.
Cuando se dispone de un conjunto de observaciones de las variables x e y, se puede
considerar la variable dimensional (x,y) y sus pares de valores (x
1
,y
1
), (x
2
,y
2
), ...... (x
n
,y
n
).
De forma general, si se estudian sobre una misma poblacin y se miden por las mismas
unidades estadsticas una variable X y una variable Y, se obtienen series estadsticas de las
variables X e Y.
Considerando simultneamente las dos series, se suele decir que estamos ante una variable
estadstica bidimensional.
En general, una Distribucin bidimensional es una distribucin estadstica en la que
intervienen dos variables, x e y, y, por tanto, a cada individuo le corresponden dos valores,
x
i
, y
i
.


ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 4



2.1. Distribuciones estadsticas bidimensionales: tablas de doble entrada o de contingencia
o de correlacin:
Sea una poblacin estudiada simultaneamente segn dos caracteres X e Y; que
representaremos genricamente como (x
i
; y
j
; n
ij
), donde x
i
; y
j
, son dos valores cualesquiera
y n
ij
es la frecuencia absoluta conjunta del valor i-simo de X con el i-simo de Y.
Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla
de contingencia, la cual se puede representar como sigue:

Y
X

y
1


y
2




y
j




y
k


n
i

x
1
n
11
n
12
n
1j
n
1k
n
1
.
x
2
n
21
n
22
n
2j
n
2k
n
2
.

x
i
n
i1
n
i2
n
ij
n
ik
n
i
.

x
h
n
h1
n
h2
n
hj
n
hk
n
h
.
n.
j
n.
1
n.
2
n.j n.
k
N

En este caso, n
11
nos indica el nmero de veces que aparece x
1
conjuntamente con y
1
; n
12
,
nos indica la frecuencia conjunta de x
1

con y
2
, etc., y N es el nmero total de
observaciones.

2.2. Distribuciones marginales:
Al analizar una distribucin bidimensional, se puede centrar el estudio en el comportamiento
de una de las variables, con independencia del comportamiento de la otra. Estaramos as en
realizando el anlisis de una distribucin marginal.

De cada distribucin bidimensional se pueden deducir dos distribuciones marginales: una
correspondiente a la variable x, y otra correspondiente a la variable y.

Distribucin marginal de X
X n
i.

X
1
n
1.

X
2
n
2.


X
n-1
n
n-1.

X
n
n
n.

Distribucin marginal de Y
Y n.
j

Y
1
n.
1

Y
2
n.
2


Y
m-1
n.
m-1

Y
m
n.
m


2.3. Representaciones grficas: diagramas de dispersin o nube de puntos:
Si se dispone de los valores de las observaciones de la variable bidimensional (x
i
,y
i
), como
son (x
1
,y
1
), (x
2
,y
2
), .............. (x
n
,y
n
), y se representan en un plano de coordenadas cartesianas,
se obtiene lo que se denomina diagrama de dispersin o nube de puntos.

ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 5


Ejemplo:









Fig. N 3 Fig. N 4









Fig. N 5 Fig. N 6

Como se puede apreciar en los grficos anteriores, los puntos tienden a agruparse en
lneas cuyas expresiones matemticas son conocidas, en los casos de las figuras N 3 y
N 4, los puntos tienden a formar lneas rectas, mientras que en las figuras N 5 y N 6, se
aproximan a otras curvas conocidas como la parbola y la espiral. En los dos primeros
casos se dice que existe una relacin lineal, es decir que la relacin matemtica entre las
dos variables viene dada por la ecuacin de una lnea recta.

3. Covarianza (S
XY
):
Es una medida descriptiva que sirve para medir o cuantificar la relacin entre dos variables,
permite definir si la relacin existente entre dos variables es lineal o no, adems de indicar el
tipo de relacin lineal (directa o inversa) entre las dos variables.





Fig. N 3 Fig. N 4
Fig. N 5 Fig. N 6
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 6



Donde:

S
XY
= covarianza entre las variables x e y
X

= media aritmtica de los valores de la variable x


X
i
= valores de la variable x
Y

= media aritmtica de los valores de la variable y


Y
i
= valores de la variable y

Si S
xy
> 0 hay dependencia directa (positiva), es decir a grandes valores de x corresponden
grandes valores de y.

Si S
xy
= 0 las variables estn incorreladas, es decir no hay relacin lineal.

Si S
xy
< 0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden
pequeos valores de y.

Grficamente, la covarianza indicara, que los datos, se ajustan a una recta, en los siguientes
casos:



y = mx + b y = mx + b
S
xy
> 0 S
xy
< 0
m > 0 m < 0

3.1. Propiedades de la covarianza:

a) Si a todos los valores de la variable x, les sumamos una constante k y a todos los
valores de la variable y les sumamos una constante k, la covarianza no vara.

b) Si a todos los valores de una variable x los multiplicamos por una constante k y a todos
los valores de la variable y los multiplicamos por una constante k, su covarianza queda
multiplicada por el producto de las constantes.
c) A partir de las anteriores: si tenemos dos variables x e y con la covarianza S
xy
, y
transformaciones lineales de las variables de la forma z = ax + b, y t = cy +d, la nueva
covarianza se relaciona con la anterior de la forma; S
zt
= acS
xy


ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 7



4. Coeficiente de correlacin lineal, (R):

El coeficiente de correlacin lineal mide el grado de intensidad de esta posible
relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede
existir entre las variables es lineal (es decir, si se representa en un grfico los pares
de valores de las dos variables la nube de puntos se aproximara a una recta).


No obstante, puede que exista una relacin que no sea lineal, sino exponencial,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la
intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de
coeficiente ms apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es
representar los pares de valores en un grfico y ver que tendencia describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

=


Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de
valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el
resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la
muestra
.
Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le
calcula la raz cuadrada.

Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 8



Si "R" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra).
La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.

Si "R" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la
otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.

Si "R" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de
correlacin (parablica, exponencial, etc.)

De todos modos, aunque el valor de "R" fuera prximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este
resultado podra haberse debido al puro azar.

5. Recta de regresin:

El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas
(Antropometra rama de la Antropologa que estudia las medidas del hombre): al comparar la
estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy
superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran
muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban"
al promedio.

La constatacin emprica de esta propiedad se vio reforzada ms tarde con la
justificacin terica de ese fenmeno.

El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean
modelos basados en cualquier clase defuncin matemtica. Los modelos lineales son una
explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la
matemtica y la estadstica mucho ms extenso.

Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados
en cualquier clase de aplicacin.

Las lneas de regresin siguen una lnea recta y tienen como ecuacin general la ecuacin de
la funcin afn:

= +


5.1. Determinacin de lneas de regresin:

5.1.1. Mtodo de Mnimos Cuadrados:

El mtodo de mnimos cuadrados es una tcnica de anlisis numrico encuadrada dentro
de la optimizacin matemtica, en la que, dados un conjunto de pares (o ternas, etc), se
intenta encontrar la funcin que mejor se aproxime a los datos (un "mejor ajuste"), de
acuerdo con el criterio de mnimo error cuadrtico.

ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 9


y = f(x,b,m,.......,k)
di = y
i
y
ci

S =

=
N
1 i
2
i
d
S =

=

N
1 i
2
ci i
) y ( y = | |

=

N
1 i
2
i
k) m,. . . . , b, f( x, y sea mnima
0
d
d
b
S
= ; 0
d
d
m
S
= ; 0
d
d
k
S
=
5.1.2. Ajuste de una Recta:
| |
2
1 1
2
c1 1
2
1
b) (mx y ) y (y d + = =
| |
2
2 2
2
c2 2
2
2
b) (mx y ) y (y d + = =
| |
2
n
2
cn n
2
n
b) (mx y ) y (y d + = =
n

S = | |

= =
+ =
N
1 1
N
1 i
2
i i
2
i
b) ( mx y d
Derivando parcialmente con respecto a b y luego con respecto a m, e igualando a cero la
expresin anterior, se tiene:
| |

= = = = =
= = = + =
N
1 i
N
1 i
N
1 i
N
1 i
i i i i
2
i i
b
S 2
i i
b
S
N
1 i
2
i
b
S
b) mx ( y 2 1) b)( mx 2( y b) mx ( y
d
d
b) ( mx y
d
d
d
d
d

igualando a cero la derivada:

=
=
N
1 i
i i
0 b) mx ( y 2
se obtiene:

=
=
N
1 i
i i
0 b) mx ( y lo que es lo mismo:

= = =
+ =
N
1 i
N
1 i
N
1 i
i i
b mx y
pero:

= =
=
N
1 i
N
1 i
i i
x m mx y adems

=
=
N
1 i
Nb b por lo tanto:

= =
+ =
N
1 i
N
1 i
i i
Nb x m y Ecuacin N 1
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 10


Igualmente al derivar parcialmente los desvos con respecto a m, se tiene:
| |

= = = =
= = = + =
N
1 i
N
1 i
N
1 i
i i i
2
i i
m
S 2
i i
m
S
N
1 i
2
i
m
S
) b)( -x mx 2( y b) mx ( y
d
d
b) ( mx y
d
d
d
d
d

=
+ + =
N
1 i
i
2
i i i
) bx mx y x ( 2
Haciendo cero sta expresin:
0 = + + =

=
N
1 i
i
2
i i i
) bx mx y x ( 2
0 = + + =

=
N
1 i
i
2
i i i
) bx mx y x ( lo que es lo mismo: 0 = + +

= = =
n
1 i
N
1 i
N
1 i
i
2
i i i
x b X m y x

= = =
+ =
n
1 i
N
1 i
N
1 i
i
2
i i i
x b X m y x Ecuacin N 2
Las ecuaciones nmeros 1 y 2, son las denominadas Ecuaciones Normales, partiendo de
ellas se pueden determinar los parmetros b y m, en funcin de las variables X e Y, de
la siguiente forma:



= =
+ =
N
1 i
N
1 i
i i
Nb x m y Ecuacin N 1


= = =
+ =
n
1 i
N
1 i
N
1 i
i
2
i i i
x b X m y x Ecuacin N 2

Despejando el parmetro b de la ecuacin N 1:
N
x m y
b
N
1 i
N
1 i
i i

= =

= Ecuacin N 3
Sustituyendo el valor de b obtenido en la ecuacin N 3, en la ecuacin N 2, se obtiene:
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 11




=
= = =
= = =
= =
|
|
|
.
|

\
|

+ =
|
|
|
|
|
|
|
.
|

\
|

+ =
N
1 i
N
1 i
2
N
1 i
i
N
1 i
i i
2
i
N
1 i
N
1 i
N
1 i
i
N
1 i
N
1 i
i i
2
i i i
N
x m y x
x m x
N
x m y
x m y x
N
x m y x x Nm
y x
N
1 i
2
N
1 i
i
N
1 i
i i
N
1 i
2
i
N
1 i
i i

= = = =
=
|
|
|
.
|

\
|
+
=

= = = = =
|
|
|
.
|

\
|
+ =
N
1 i
N
1 i
2
N
1 i
i
N
1 i
i i
2
i
N
1 i
i i
x m y x x Nm y x N

= = = = =
|
|
|
.
|

\
|
=
N
1 i
2
N
1 i
i
2
i
N
1 i i
N
1 i
i i
N
1 i
i i
x m x Nm y x y x N
(
(
(

|
|
|
.
|

\
|
=

= = = = =
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
i i
N
1 i
i i
x x N m y x y x N
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
N
1 i
i i i i
x x N
y x y x N
m
|
|
|
.
|

\
|

=


= =
= = =

Dividiendo el numerador y el denominador por N:
N
x x N
N
y x y x N
m
N
1 i
2
N
1 i
i
2
i
N
1 i
N
1 i
N
1 i
i i i i


= =
= = =
|
|
|
.
|

\
|

=
por lo tanto, se tiene:
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 12


N
x
x
N
y x
y x
m
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i i
N
1 i
i i
i i
|
|
|
.
|

\
|


=
=
=
= =

Sustituyendo eL valor de b obtenido en la ecuacin N 3, se tiene:
N
x
N
x
x
N
y x
y x
y
N
x m y
b
N
1 i
i
N
1 i
2
N
1 i
i
2
i
N
1 i
N
1 i
N
1 i
i i
i
N
1 i
i
N
1 i
N
1 i
i i


=
=
=
=
= =
=
= =
|
|
|
|
|
|
|
|
|
|
|
|
.
|

\
|
|
|
|
.
|

\
|

=
N
x
x x N
y x y x N
y
N
x
N
x x N
N
y x y x N
y
b
N
1 i
i
N
1 i
2
N
1 i
N
1 i
i
2
i
N
1 i
N
1 i i
N
1 i
i i i i
i
N
1 i
i
N
1 i
N
1 i
2
N
1 i
i
2
i
N
1 i
N
1 i i
N
1 i
i i i i
i






= =
= =
= = =
= =
= =
= = =
(
(
(
(
(
(
(
(

|
|
|
.
|

\
|

=
(
(
(
(
(
(
(
(
(
(

|
|
|
.
|

\
|

=
N
x x N
x y x x y x N x x y N
N
x x N
x y x x y x N
y
b
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
N
1 i
N
1 i
N
1 i
N
1 i
i i i i i i
N
1 i
2
N
1 i
i
2
i i
N
1 i
N
1 i
2
N
1 i
i
2
i
N
1 i
N
1 i
N
1 i
N
1 i
i
N
1 i
i i i i i
i
|
|
|
.
|

\
|

+
(
(
(

|
|
|
.
|

\
|

=
(
(
(
(
(
(
(
(

|
|
|
.
|

\
|



= =
= = = = = = = =
=
= =
= = = = =

N
x x N
x y x y x N x y x y N
b
2
N
1 i
i
N
1 i
2
i
2
N
1 i
N
1 i
N
1 i
N
1 i
N
1 i
N
1 i
N
1 i
i i i i
2
N
1 i
i i
2
i i
|
|
|
.
|

\
|

|
|
|
.
|

\
|
+
|
|
|
.
|

\
|

=


= =
= = = = = = = =

ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 13


2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
N
1 i
i i i
N
1 i
2
i i
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
N
1 i
i i i
N
1 i
2
i i
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
N
1 i
i i i
N
1 i
2
i i
x x N
x y x x y
x x N N
x y x x y N
x x N N
x y x N x y N
b
|
|
|
.
|

\
|

=
(
(
(

|
|
|
.
|

\
|

|
|
|
.
|

\
|

=
(
(
(

|
|
|
.
|

\
|

=






= =
= = = =
= =
= = = =
= =
= = = =

Dividiendo numerador y denominador por N, se tiene:
N
x
N
x N
N
x y x
N
x y
b
2
N
1 i
i
N
1 i
2
i
N
1 i
N
1 i
i i i
N
1 i
2
i
N
1 i
i
|
|
|
.
|

\
|


=
=
= = = =

Pero:
y
N
y
N
1 i
i
=

=
(media de la variable y) y x
N
x
N
1 i
i
=

=
(media de la variable x), por lo
tanto:
N
x
x
y x x x y
b
2
N
1 i
i
N
1 i
2
i
i i
N
1 i
2
i
|
|
|
.
|

\
|


=
=
=

Las ecuaciones para m y para b se pueden expresar de la siguiente forma:
=

=
=


=


=

=
=



ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 14


=
(

=


=



Es la media de la variable "y", menos la media de la variable "x" multiplicada por el
parmetro "b" que hemos calculado.
Escriba aqu la ecuacin.
6. Bondad del ajuste:
Una vez ajustada la recta de regresin a la nube de observaciones es importante disponer de
una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es
suficiente o se deben buscar modelos alternativos.
6.1. Varianza no explicada, (

):
Esta medida se puede obtener estudiando la dispersin entre las ordenadas medias
obtenidas, (Yt) y las ordenadas observadas, (Yi), esta medida de la dispersin de los valores
de Yi observados con respecto a los valores tericos, Yt, es la denominada desviacin
tpica de la estimacin o error tpico de la estimacin. El cuadrado de sta medida recibe
el nombre de varianza residual o no explicada y las diferencias (Yi Yt) son los errores o
residuos.


6.2. Varianza explicada, (

):

La variacin explicada de Y se define como el promedio de los cuadrados de los desvos de
los valores calculados o tericos, (Yt), con respecto a la media, (

).




6.3. Varianza total, (

):

La variacin total de Y se define como el promedio de los cuadrados de los desvos de los
valores observados, (Yi), con respecto a su media, (

).



En general,



ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 15


7. Coeficiente de determinacin; (R
2
):
Como medida de bondad del ajuste se utiliza el coeficiente de determinacin, (R), definido
como sigue: el coeficiente de determinacin mide la proporcin de variabilidad total de la
variable dependiente Y respecto a su media que es explicada por el modelo de regresin.

=


=


=

Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza
explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre es igual al
cuadrado del coeficiente de correlacin (R).

Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.
Tambin se le denomina bondad del ajuste.

8. Ejercicios:

























ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 16


Problema N 1
En la tabla siguiente aparecen el peso y la presin sangunea sistlica de 10 individuos del
sexo masculino, que pertenecen al grupo de edades comprendido entre los 25 y 30 aos.
Suponga que el peso y presin sangunea tienen una distribucin conjunta normal.







a) Elabore el diagrama de dispersin.
b) Encuentre la regresin que mejor ajuste a estos valores.
c) Determine la bondad del ajuste realizado
d) Cual seria la presin promedio para alguien que tiene un peso de 160 lbs.
e) Suponga que el peso promedio es de 172 lbs. Calcule el valor ajustado de la PS
sistlica y el residuo correspondiente.
Problema N 2

La siguiente tabla muestra el nmero de accidentes de trfico en los ltimos 7 aos:
Ao 1996 1997 1998 1999 2000 2001 2002
N
Accidentes
510 515 518 522 528 532 536
Determinar:
a) Promedio de accidentes por ao
b) Diagrama de dispersin
c) Recta de regresin de X (aos) sobre Y (N de accidentes)
d) Coeficiente de correlacin lineal
e) Cuantos accidentes estimara para el ao 2004
Problema N 3

El ingreso anual disponible y los gastos de consumo de 12 familias, seleccionadas
aleatoriamente en una zona de nuestra ciudad han los siguientes:

Ingreso
80.000 150.0000 200.000 350.000 280.000 250.000 80.000 130.000 70.000 90.000 120.000 150.000
Gastos
70.000 120.000 180.000 300.000 200.000 240.000 80.000 110.000 80.000 60.000 100.000 180.000
Sujeto Peso PS sistlica
1 165 130
2 167 133
3 180 150
4 155 128
5 212 151
6 175 146
7 190 150
8 210 140
9 200 148
10 149 125
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 17


Haciendo uso de sta informacin, responda las siguientes preguntas:
a) Cual es el ingreso promedio de las familias estudiadas
b) Cual es el promedio de los gastos de consumo
c) Ajuste por mnimos cuadrados una recta en la que el consumo sea funcin de los ingresos.
d) Proporcione una medida de la bondad del ajuste
e) Comente el significado econmico de los coeficientes de la recta ajustada.
Problema N 4
A partir de los siguientes datos, calcular la Covarianza (Sxy), el coeficiente de correlacin (R)
y la funcin de ajuste:

Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58















ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 18



Respuestas:
Problema N 1

Peso (Xi)
PS sistlica
(Yi) XiYi Xi
2
Yi
2
Xi - Xm Yi - Ym (Xi - Xm)
2
(Yi - Ym)
2
(Xi-Xm)(Yi-Ym)

165 130 21.450 27.225 16.900 -15,3 -10,1 234,09 102,01 154,53

167 133 22.211 27.889 17.689 -13,3 -7,1 176,89 50,41 94,43

180 150 27.000 32.400 22.500 -0,3 9,9 0,09 98,01 -2,97

155 128 19.840 24.025 16.384 -25,3 -12,1 640,09 146,41 306,13

212 151 32.012 44.944 22.801 31,7 10,9 1.004,89 118,81 345,53

175 146 25.550 30.625 21.316 -5,3 5,9 28,09 34,81 -31,27

190 150 28.500 36.100 22.500 9,7 9,9 94,09 98,01 96,03

210 140 29.400 44.100 19.600 29,7 -0,1 882,09 0,01 -2,97

200 148 29.600 40.000 21.904 19,7 7,9 388,09 62,41 155,63

149 125 18.625 22.201 15.625 -31,3 -15,1 979,69 228,01 472,63

1803 1401 254.188 329.509 197.219 0 0 4.428,10 938,90 1.587,70
PROM 180,30 140,10
o
22,18 10,21

1.1.- Covarianza entre X e Y (S
xy
):
Determina si existe relacin entre las dos variables y que tipo de relacin.
S
xy
=
N
Ym) Xm)( Yi ( Xi
N
1 i

=

=
10
1. 587,70
= 158,77
Como S
xy
> 0, existe relacin entre las dos variables y adems es directa.
1.2.- Curva de ajuste, Coeficiente de regresin (m):
Se realiza el ajuste por medio del mtodo de mnimos cuadrados con la finalidad de
encontrar la recta de ajuste y = mx + b; para determinar los parmetros m y b, se utilizan
las siguientes frmulas:
m =
N
Xi
Xi
N
Yi Xi
XiYi
2
N
1 i
N
1 i
2
N
1 i
N
1 i
N
1 i
|
|
|
.
|

\
|

=
=
= =
=
=
10
3. 250. 809
329. 509
10
2. 526. 003
254. 188

=
325. 080,9 329. 509
252. 600,3 254. 188

=
4. 428,1
1. 587,7
=
m = 0,359

ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 19


b =



=
=
= =
|
|
|
.
|

\
|

N
1 i
2
N
1 i 2
N
1 i
N
1 i
2
N
Xi
Xi
XiYi Xm Xi Ym
=
10
3. 250. 809
329. 509
254. 188 * 180,30 329. 509 * 140,10

=
325. 080,9 329. 509
,4 45. 830. 096 ,9 46. 164. 210

=
b = 75,453
Por lo tanto la ecuacin de la recta de ajuste ser: y = 0,359x + 75,453
1.3.- Grfico del ajuste:

1.4.- Bondad del Ajuste o Coeficiente de Correlacin (R):
R =
y

xy
S
=
10,21 * 22,18
158,77
=
226,46
158,77

R = 0,701
De acuerdo al resultado existe una bondad de ajuste equivalente al 70%, por lo tanto el
ajuste realizado se considera bueno.
1.5.- Utilizacin de los resultados:
- Presin arterial para una persona cuyo peso sea 160 lb
Aplicando la ecuacin de ajuste: y = 0,359x + 75,453
La presin arterial de esa persona ser: y = 0,359*160 + 75,453
y = 132,89
y = 0,358x + 75,45
0
20
40
60
80
100
120
140
160
0 50 100 150 200 250
P
S
PESO
PESO VS PS sistlica (Yi)
PS sistlica (Yi)
Lineal (PS sistlica (Yi))
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 20


- Presin arterial para una persona cuyo peso sea 172 lb
Y = 0,359*172 + 75,453
Y = 137,20
- Residuo:
El residuo, es la diferencia existente entre los datos observados o reales (y
r
)y los
datos calculados mediante el ajuste de mnimos cuadrados o tericos (y
t
), en ste caso
no se dispone de datos observados de la tensin arterial para una persona de 172 lb
de peso, por lo tanto no se puede determinar el residuo.

Problema N 2

(AO)Xi (N ACCID)Yi XiYi Xi
2
Yi
2
Xi - Xm Yi - Ym (Xi - Xm)
2
(Yi - Ym)
2
(Xi-Xm)(Yi-Ym)

1996 510 1017960 3984016 260100 -3 -13 9 169,00 39

1997 515 1028455 3988009 265225 -2 -8 4 64,00 16

1998 518 1034964 3992004 268324 -1 -5 1 25,00 5

1999 522 1043478 3996001 272484 0 -1 0 1,00 0

2000 528 1056000 4000000 278784 1 5 1 25,00 5

2001 532 1064532 4004001 283024 2 9 4 81,00 18

2002 536 1073072 4008004 287296 3 13 9 169,00 39

13993 3661 7318461 27972035 1915237 0 0 28 534,00 122
PROM 1.999,00 523,00
o
2,16 9,43

2.1.- Covarianza entre X e Y (S
xy
):
S
xy
=
N
Ym) Xm)( Yi ( Xi
N
1 i

=

=
7
122
= 17,42

2.2.- Curva de ajuste, Coeficiente de regresin (m):
m =
N
Xi
Xi
N
Yi Xi
XiYi
2
N
1 i
N
1 i
2
N
1 i
N
1 i
N
1 i
|
|
|
.
|

\
|

=
=
= =
=
=
7
9 195. 804. 04
27. 972. 035
7
51. 228. 373
7. 318. 461

=
27. 972. 007 27. 972. 035
7. 318. 339 7. 318. 461

=
28
122

m = 4,357
ING. ORLANDO F. OCHOA CH.
C.I.V. N 12-326 CORRELACION Y REGRESION LINEAL

UBA-ESTADISTICA I-2011 Pgina 21


b =



=
=
= =
|
|
|
.
|

\
|

N
1 i
2
N
1 i 2
N
1 i
N
1 i
2
N
Xi
Xi
XiYi Xm Xi Ym
=
7
9 195. 804. 04
27. 972. 035
7. 318. 461 * 1. 999 27. 972. 035 * 523

=
27. 972. 007 27. 972. 035
. 539 14. 629. 603 . 305 14. 629. 374

=
b =
28
229. 234
= - 8.186,93
b = - 8.186,93
Ecuacin de ajuste: y = 4,357x 8.186,93
2.3.- Grfico del ajuste:

2.4.- Bondad del Ajuste o Coeficiente de Correlacin (R):

R =
y

xy
S
=
9,43 * 2,16
17,42
=
20,37
17,42

R = 0,855

De acuerdo al resultado existe una bondad de ajuste equivalente al 85,5%, por lo tanto el
ajuste realizado se considera bueno.
2.5.- Utilizacin de los resultados:
- Estimacin del nmero de accidentes para el ao 2004

y = 4,357x 8.186,93

y = 4,357*2004 8.186,93

y = 544 accidentes

y = 4,357x - 8186,
505
510
515
520
525
530
535
540
1995 1996 1997 1998 1999 2000 2001 2002 2003
NUMERO DE ACCIDENTES POR AO
(N ACCID)Yi
Lineal ((N ACCID)Yi)

You might also like