You are on page 1of 11

REGRESIN Y CORRELACIN LINEAL

2007

P. Reyes / Sept.

REGRESIN Y CORRELACIN LINEAL

H. Hernndez / P. Reyes
Septiembre 2007

Pgina 1 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

REGRESIN Y CORRELACIN LINEAL


Son dos herramientas para investigar la dependencia de una variable dependiente Y en funcin de
una variable independiente X. Y = f(X)
Y = Variable dependiente que se desea explicar o predecir, tambin se llama regresor o respuesta
X = Variable independiente, tambin se llama variable explicativa, regresor o predictor
Regresin lineal - La relacin entre X y Y se representa por medio de una lnea recta
Regresin curvilinea - La relacin entre X y Y se representa por medio de una curva.

*
**
*

*
*

*
*

b1

* *

* *

*
*

*
*

*
*

b0
Correlacin positiva

Correlacin negativa

X
Sin correlacin

La ecuacin de la recta es la siguiente:

El trmino de error es la diferencia entre los valores reales observados Yi y los valores estimados por
la ecuacin de la recta. Se trata de que estos sean mnimos, para lo cual se utiliza el mtodo de
mnimos cuadrados.

Pgina 2 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

Error Re siduo (Yi Yi )

Y
*

*
X

Se trata de minimizar la suma de todos los errores o residuos:

Las frmulas resultado de la minimizacin de lo cuadrados del error se aplicarn en el siguiente


ejemplo por claridad. Se tienen los siguientes supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresin poblacional
2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad)
en caso contrario se tiene (Heteroscedasticidad)
3. Los errores o residuos son independientes: No se muestra algun patrn definido.
El coeficiente de Correlacin r desarrollado por Carl Pearson es un indicador de la fuerza de la
relacin entre las variables X y Y, puede asumir valores entre -1 y 1 para correlacin negativa y
positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presin tiene una
correlacin positiva con el rendimiento de una caldera, se deben buscar soluciones al problema
mediante acciones asociadas con la variable presin; de lo contrario, sera necesario buscar la
solucin por otro lado.

Pgina 3 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

Se identifican tres medidas de desviacin como sigue:

Y
Yest = 4.4 + 1.08 X
Yi = 23

Desviacin no explicada
Error = (Yi - Yest) = 1.32

Variacin total
(Yi-Ymedia)=5.13

Desviaci explicada
(Yest-Ymedia) = 3.81

Ymedia =17.87

X = 16

Ejemplo: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo est
relacionado con su nmero. Calcular el coeficiente de correlacin y graficar. Los datos de tiempo
tomados para n = 25 servicios se muestran a continuacin:
X Servicios
2
8
11
10
8
4
2
2
9
8
4
11
12
2
4
4
20
1
10
15
15

Y Tiempo
9.95
24.45
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
34.93
46.59
44.88

(Xi-X)*(Yi-Y)
119.076672
1.099872
7.499472
10.502272
0.963072
51.612672
91.433472
121.260672
-3.558928
0.367872
50.679872
21.989472
48.568672
108.406272
31.303072
47.245472
470.014272
135.625472
10.379072
118.686672
107.127072

(Xi-X)^2
38.9376
0.0576
7.6176
3.0976
0.0576
17.9776
38.9376
38.9376
0.5776
0.0576
17.9776
7.6176
14.1376
38.9376
17.9776
17.9776
138.2976
52.4176
3.0976
45.6976
45.6976

Pgina 4 de 11

(Yi-Y)^2
364.1533
21.0021
7.3832
35.6075
16.1026
148.1771
214.7045
377.6337
21.9286
2.3495
142.8694
63.4763
166.8541
301.8142
54.5057
124.1620
1,597.3771
350.9178
34.7770
308.2553
251.1337

Yest
10.9199
28.3362
37.0443
34.1416
28.3362
16.7253
10.9199
10.9199
31.2389
28.3362
16.7253
37.0443
39.9470
10.9199
16.7253
16.7253
63.1686
8.0172
34.1416
48.6551
48.6551

Error
0.9408
15.1022
28.0292
0.7369
10.9969
0.0181
11.9721
1.7422
47.4563
0.6991
0.1258
0.0020
4.0121
0.5477
24.2523
1.3564
34.0052
5.2111
0.6216
4.2646
14.2512

REGRESIN Y CORRELACIN LINEAL


2007

16
17
6
5
206

54.12
56.63
22.13
21.15
725.82

X promedio

P. Reyes / Sept.

194.676672
241.751472
15.462272
25.540272
2,027.7132
Sxy

60.2176
76.7376
5.0176
10.4976
698.5600
Sxx

629.3676
761.6054
47.6486
62.1385
6,105.9447
Syy = SST

51.5578
54.4605
22.5307
19.6280

6.5649
4.7068
0.1606
2.3164
220.0926
SSE

Y Promedio

Sxy

Sxx

Syy

Si todos los puntos estuvieran completamente sobre la recta la ecuacin lineal sera
y = a + bx. Como la correlacin no siempre es perfecta, se calculan a y b de tal forma que se
minimice la distancia total entre puntos y la recta. Los clculos tomando las sumas de cuadrados
siguientes se muestran a continuacin:
Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94
Las ecuaciones para el clculo manual son las siguientes:

b1 1

b0 0

( Xi X )(Yi Y ) S
S
( Xi X )

XY

1 X i
n

= 2.902704421

XX

Y X = 5.114515575

Las sumas de cuadrados son:


SST (Yi Y ) 2 6,105.9447

SSE (Yi Yi ) 2 (Yi (bo b1 * X i )) 2 220.0926

SSR SST SSE 5,885.8521

Pgina 5 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

El coeficiente de determinacin r2 y el coeficiente de correlacin r se calculan a continuacin:

r2 1

SSE ( SST SSE ) SSR

= 0.9639
SST
SST
SST

El coeficiente de determinacin indica el porcentaje de la variacin total que es explicada por la


regresin.
r r 2 = 0.9816

El coeficiente de correlacin proporciona el nivel de ajuste que tienen los puntos a la lnea recta
indicando el nivel de influencia de una variable en la otra. El factor de correlacin r es un nmero
entre 1 (correlacin negativa evidente) y +1 (correlacin positiva evidente), y r = 0 indicara
correlacin nula.
El coeficiente de correlacin r = 0.98 por lo cual tenemos suficiente evidencia estadstica para
afirmar que el tiempo de atencin esta relacionado con el nmero de servicios atendidos.
USO DE EXCEL
1. En el men Herramientas seleccione la opcin Anlisis de datos. Datos de ejemplo 6.
2. Seleccione la opcin Regresin.
3. Seleccione el rango de entrada, estos corresponden a los datos numricos de la tabla.
4. Seleccione Resumen de estadsticas.
5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que
este en blanco ( a partir de est celda sern insertados los resultados).
Resumen
Estadsticas de la regresin
Coeficiente de correlacin
mltiple
Coeficiente de determinacin R^2
R^2 ajustado

0.981811778
0.963954368
0.962387167

Pgina 6 de 11

REGRESIN Y CORRELACIN LINEAL


2007
Error tpico
Observaciones

P. Reyes / Sept.

3.093419627
25

ANLISIS DE VARIANZA

Suma de

Promedio de

Grados de

Valor crtico de

libertad
Regresin
Residuos
Total

Intercepcin
XServicios

1
23
24

Cuadrados
cuadrados
F
5885.852069 5885.852069 615.0800898
220.0926348 9.569244992
6105.944704

F
4.24118E-18

Coeficientes
5.114515575
2.902704421

Error tpico
Estadstico t Probabilidad
1.145804127 4.463691004 0.000177215
0.117040719 24.80080825 4.24118E-18

Inferior 95%
2.744239161
2.660587249

En la grfica observamos que al aumentar el nmero de servicios el tiempo de atencin aumenta.


USO DE MINITAB
Para determinar la funcin de regresin y correlacin en Minitab se siguen los pasos siguientes
(despus de cargar los datos correspondientes a X y a Y en las columnas C1 y C2):

Stat >Regresin ... Indicar la columna de Respuestas Y y la de predictores X y aceptar con


OK. Observar el valor del coeficiente de correlacin y de determinacin.

Para obtener la lnea de mejor ajuste de la regresin, se procede como sigue en Minitab:
Pgina 7 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X,

seleccionar si se quiere ajustar con los datos con una lnea, una funcin cuadrtica o cbica
y aceptar con OK. Observar el mayor valor del coeficiente de correlacin que indica el mejor
ajuste.

En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X.

En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals

La grfica de residuos debe apegarse a la recta y tener siempre un valor P value >0.05.
Fitted Line Plot
Y Tiempo = 5.115 + 2.903 X Servicios
Regression
95% CI
95% PI

70
60

S
R-Sq
R-Sq(adj)

Y Tiempo

50

3.09342
96.4%
96.2%

40
30
20
10
0
0

10
X Servicios

15

20

Regression Analysis: Y Tiempo versus X Servicios


The regression equation is
Y Tiempo = 5.115 + 2.903 X Servicios
S = 3.09342
R-Sq = 96.4%
R-Sq(adj) = 96.2%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
1 5885.85 5885.85 615.08 0.000
Error
23
220.09
9.57
Total
24 6105.94
La regresin tiene una r^2 de 96.4% y la influencia de una variable X en Y es significativo.
Los intervalos de confianza para la media y el intervalo de prediccin para un punto especfico X
son los siguientes:

Pgina 8 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

Pgina 9 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

EJERCICIOS:
1. La energia consumida en un proceso depende del ajuste de mquinas que se
realice, realizar una regresin cuadrtica con los datos siguientes y responder las preguntas.
Ajuste
Cons_energa
Y
21.6
4
1.8
1
1
0.8
3.8
7.4
4.3
36.2

Mq.
X
11.15
15.7
18.9
19.4
21.4
21.7
25.3
26.4
26.7
29.1

a) Trazar un diagrama de dispersin


b) Obtener la ecuacin de regresin lineal y cuadrtica y comparar
c) Estimar el consumo de energa para un ajuste de mquina de 20 con regresin cuadrtica
d) Obtener los intervalos de prediccin y de confianza para
un ajuste de mquina de 20
e) Obtener el coeficiente de correlacin y de determinacin
2. En base al porcentaje de puntualidad se trata de ver si hay correlacin con las quejas en una lnea
area. Las quejas son por cada 100000 pasajeros.

Aerolinea
A
B
C
D
E
F
G
H

%puntos Quejas
X
Y
81.8
0.21
76.6
0.58
76.6
0.85
75.7
0.68
73.8
0.74
72.2
0.93
70.8
0.72
68.5
1.22
Pgina 10 de 11

REGRESIN Y CORRELACIN LINEAL


2007

P. Reyes / Sept.

a) Trazar un diagrama de dispersin


b) Obtener la ecuacin de regresin lineal
c) Estimar las quejas para un porcentaje de puntualidad de 80%
d) Obtener los interalos de prediccin y de confianza para una altura de 63"
e) Obtener el coeficiente de correlacin y de detemrinacin

Pgina 11 de 11

You might also like