You are on page 1of 10

1

Departamento de Sociologa
Anlisis estadstico II

REGRESION SIMPLE O BIVARIADA.

1. Supongamos dos variables X e Y. Designemos Y como la variable dependiente (esto es,


el efecto o la variable respuesta o la variable a ser explicada). Designemos X como la
variable independiente o predictora (esto, la causa supuesta de Y). El modelo
estadstico denominado regresin lineal simple o bivariada es apropiado para
verificar hiptesis cuando ambas variables, dependiente e independiente, son
continuas.
2. Dos variables pueden ser expresadas matemticamente de acuerdo a diferentes formas
funcionales. Una de las formas posibles es la relacin lineal, esto es, aquella relacin
entre las variables que puede ser graficada por una lnea recta. La frmula de la relacin
lineal entre dos variables, denominada ecuacin de regresin, es la siguiente:

Y = + iXi +

(1)

3. El trmino y el trmino deben ser estimados. El trmino es llamado trmino


constante o intercepto de la ecuacin de regresin. El trmino i es la pendiente de
la linea de regresin, se denomina coeficiente de regresin y mide el efecto de la
variable Xi sobre la variable dependiente Yi. El trmino intercepto tambin puede ser
simbolizado como 0.
4. Las frmulas para estimar los coeficientes de regresin e intercepto son las siguientes:

Sxy
xi = 2 =
S x

(ii ) XY
N

Xi

2
(
i )

(2)

5. Interpretacin de los coeficientes de regresin:

(3)

En regresin lineal los coeficientes o parmetros tienen la siguiente interpretacin:


El coeficiente denominado intercepto (simbolizado como o o) es la cantidad o valor
estimado de la variable dependiente cuando el predictor o variable independiente (X)
es igual a 0. El coeficiente (
x) de regresin lineal debe interpretarse como el valor
estimado de la variable dependiente (Y) frente al cambio de una unidad en la variable
independiente (Xi).
En la interpretacin del coeficiente de regresin tiene mucha importancia el signo
positivo o negativo del parmetro. Cuando el coeficiente de regresin tiene signo
positivo eso significa que, de existir relacin o asociacin significativa entre la
variable independiente y la variable dependiente, esa relacin es positiva o directa: es
decir, cuando crece la variable independiente, tambin crece la variable dependiente y
viceversa. Cuando el signo del coeficiente de regresin es negativo, entonces de
existir una relacin entre el predictor y la variable dependiente, esa relacin es
negativa o inversa: cuando el predictor crece o aumenta, la variable dependiente decrece o
disminuye, y viceversa.
6. En el modelo de regresin lineal se puede determinar la proporcin de variacin
explicada por el predictor mediante la siguiente medida, denominada coeficiente de
determinacin y que se simboliza de la siguiente manera:
R2=

SS modelo
---------------- =
SS Total

(4)
2

R en regresin tiene la misma interpretacin que en Anlisis de varianza o que


en T de Student: es la proporcin de variacin total de la variable dependiente que es
explicada por el predictor o variable independiente en la hiptesis.
7. Verificacin de la significacin del coeficiente de determinacin (R2):

Para probar la significacin estadstica de R2 en regresiones bivariadas se debe utilizar en la


prueba de hiptesis una prueba F muy similar a la usada en Anlisis de Varianza (ANOVA).
La frmula a utilizar en la prueba estadstica es:
MS Regresion
F = ------------------MS Error

(5)

Los grados de libertad en esta prueba F son 1 en el numerador y N-2 en el


denominador.
Como sabemos en la Tabla de Varianza la suma total de cuadrados (SS Total) tiene N-1
grados de libertad. En regresin bivariada, la suma de cuadrados del modelo (SS

Regresion) tiene siempre 1 grado de libertad porque la ecuacin de regresin estima 2


parmetros (intercepto y coeficiente b de regresin). Entonces si J= nmero de
parmetros, J-1 ser igual al nmero de grados de libertad de SS Regresion, lo que es igual
a J-1=1.
Los grados de libertad de SS Error se determinan en cambio mediante la frmula siguiente:
gl SS Total= gl Regresion + gl Error
N-1= 1

+ gl Error

gl Error = N-2
Sabemos que la Tabla Anova en el modelo de regresin se llena de la siguiente manera:
FUENTE

SS

Regresion (modelo)
Error

SS regresion
SS Error

GL

MS

J-1
N-2

SS regresion/J-1 MS Regresion/Ms Error


SSError / N-2

___________________________________________________
TOTAL
N-1
La hiptesis nula a verificar es la existencia de un coeficiente de determinacin
2=0.
8. Significacin estadstica del coeficiente b de regresin lineal:
Para probar que el coeficiente b de regresin lineal existe, o lo que es lo mismo, para
concluir que la variable predictora est linealmente relacionada con la variable dependiente
se debe hacer una prueba de hiptesis en rden a demostrar que el coeficiente b difiere
significativamente de cero.
Las hipotesis nula y de trabajo sern :
Ho: B1=0
H1: B1 > 0
La prueba estadstica a utilizar ser:
b1 - 0
t = --------- =
sb1

(6)

El error estndar de la frmula es sb1 =

MSError
s2x

(7)

PROGRAMACION E INTERPRETACION COMPUTACIONAL DE REGRESION LINEAL.


Ejercicio 1: Para las siguientes 10 personas construya una nube de puntos (scatterplot) que demuestre
la relacin entre los ingresos salariales y el nmero de hijos:
Persona
1 2
Ingresos (miles) 25 17
N de hijos
0 0

3
20
1

4
14
2

5
11
2

6
10
3

7
6
4

(A) calcular la ecuacin de regresion


(B) calcular el n de hijos de una familia con 15 mil de ingresos.
*--------------------------------------------------------------------------*
PROGRAMA SAS PARA DESARROLLO EJERCICIO 1:
*--------------------------------------------------------------------------*
options linesize=80;
data ej1;
input ingresos num_hijos;
datalines;
25 0
17 0
20 1
14 2
11 2
10 3
6 4
8 5
6 6
4 7
;
proc reg data=ej1;
model num_hijos=ingresos;
plot num_hijos*ingresos;
run;

8
8
5

9
6
6

10
4_
7_

*-----------------------------------------------------------------------*
OUTPUT GENERADO POR SAS PARA EJERCICIO 1:
*-----------------------------------------------------------------------*;

ECUACION DE REGRESION DE NUMERO DE HIJOS POR INGRESOS:


The SAS System
The REG Procedure
Dependent Variable: num_hijos

Analysis of Variance

DF
1
8
9

Sum of
Squares
43.50680
10.49320
54.00000

Root MSE
Dependent Mean
Coeff Var

1.14527
3.00000
38.17576

Source
Model
Error
Corrected Total

Mean
Square
43.50680
1.31165

R-Square
Adj R-Sq

F Value
33.17

0.8057
0.7814

Pr > F
0.0004

Parameter Estimates

Variable
Intercept
ingresos

DF
1
1

Parameter
Estimate
6.89950
-0.32227

Standard
Error
0.76785
0.05596

t Value
8.99
-5.76

Pr > |t|
<.0001
0.0004

Ejercicio 2: Un artculo en la revista Measurement and Evaluation in Couseling and Development


(October 1990, pages 121-127) discute un instrumento que es utilizado para determinar el nivel de
ansiedad frente a las matemticas (llamado el Math Anxiety Scale for Children, MASC). Uno de los
resultados encontrados establece que el coeficiente de correlacin entre el puntaje en la escala MASC y
las notas en matemticas era -0.37. Suponga que el MASC fue aplicado a 10 nios de quinto bsico
con los siguientes resultados:
---------------------------------------------------------------------------------------------------------Notas en Mat.
75 85 60
90
80
75
70
90
95
80
---------------------------------------------------------------------------------------------------------Puntajes MASC 67 37 70
40
35
65
40
35
30
40
---------------------------------------------------------------------------------------------------------(a) Calcular el coeficiente de correlacin lineal entre las notas y la escala.
(b) Calcule el coeficiente de correlacin.
(c) Cunta variacin total de notas explica el puntaje en la escala MASC?
*----------------------------------------------------------------------------------- -*
PROGRAMA SAS PARA EL DESARROLLO DEL EJERCICIO 2:
*-------------------------------------------------------------------------------------*;
options linesize=80;
data ej2;
input notas ansiedad;
datalines;
75 67
85 37
60 70
90 40
80 35
75 65
70 40
90 35
95 30
80 40
;

proc reg data=ej2;


model notas=ansiedad;
plot notas*ansiedad;
run;
*------------------------------------------------------------------------*
OUTPUT GENERADO POR SAS PARA EJERCICIO 2:
*------------------------------------------------------------------------*;

REGRESION DE NOTAS EN MATEMATICAS POR NIVEL DE ANSIEDAD:


The SAS System
The REG Procedure
Dependent Variable: notas
Analysis of Variance

Source
Model
Error
Corrected Total

DF

Sum of
Squares

Mean
Square

1
8
9

559.65180
440.34820
1000.00000

559.65180
55.04353

F Value

Pr > F

10.17

0.0128

Root MSE
Dependent Mean
Coeff Var

7.41913
R-Square
80.00000
Adj R-Sq
9.27392
Parameter Estimates

0.5597
0.5046

Variable

DF

Parameter
Estimate

Standard
Error

t Value

Pr > |t|

Intercept
ansiedad

1
1

103.89583
-0.52061

7.85271
0.16327

13.23
-3.19

<.0001
0.0128

Ejercicio 3: El nmero de Mayo/Junio de 1989 de la revista Public Health Reports (pages 222-225)
public un artculo titulado Un anlisis multi-estado de la esperanza de vida activa. Dos de las
variables estudiadas fueron la edad actual de la persona y el nmero esperado de aos por vivir:
---------------------------------------------------------------------------------------------------------edad (X)
65 67
69
71
73
75
77
79
81
83
---------------------------------------------------------------------------------------------------------aos por vivir(Y) 16.5 15.1 13.7 12.4 11.2 10.1 9.0
8.4
7.1
6.4
---------------------------------------------------------------------------------------------------------(a) Dibuje la nube de puntos
(b) Calcule la ecuacin de regresin.
(c) Para una persona de 70 aos, cul es su esperanza de vida?
*--------------------------------------------------------------------------------*
PROGRAMA SAS PARA DESARROLLO DEL EJERCICIO 3:
*--------------------------------------------------------------------------------*;
options linesize=80;
data ej3;
input edad expect;
datalines;
65 16.5
67 15.1
69 13.7
71 12.4
73 11.2
75 10.1
77 9.0
79 8.4
81 7.1
83 6.4
;

proc reg data=ej3;


model expect=edad;
plot expect*edad;
run;
*-------------------------------------------------------------------------------------------------*
OUTPUT GENERADO POR SAS PARA DESARROLLO DE EJERCICIO 3
*-------------------------------------------------------------------------------------------------*;

ECUACION DE REGRESION PARA EJERCICIO 3:


The SAS System
The REG Procedure
Dependent Variable: expect
Analysis of Variance

Source
Model
Error
Corrected Total

DF

Sum of
Squares

Mean
Square

1
8
9

103.37603
0.91297
104.28900

103.37603
0.11412

F Value

Pr > F

905.84

<.0001

10

Root MSE
Dependent Mean
Coeff Var

0.33782
10.99000
3.07387

R-Square
Adj R-Sq

0.9912
0.9902

Parameter Estimates

Variable

DF

Parameter
Estimate

Standard
Error

t Value

Pr > |t|

Intercept
edad

1
1

52.40758
-0.55970

1.38027
0.01860

37.97
-30.10

<.0001
<.0001

You might also like