You are on page 1of 13

REGRESION Y CORRELACION

1 REGRESION LINEAL
Iniciemos diciendo que el anlisis de regresin se relaciona en gran medida con la estimacin o
prediccin de la media (de la poblacin) o valor promedio de la variable dependiente, con base en
los valores conocidos o fijos de las variables explicativas. Para entender esto, consideremos los
datos de la tabla 2.1. Estos datos se refieren a la poblacin total de 60 familias de una comunidad
hipottica, as como a su ingreso semanal (X) y su gasto de consumo semanal (Y), en dlares.
Las 60 familias se dividen en 10 grupos de ingresos (de 80 dlares a 260); asimismo, aparecen los
gastos semanales de cada familia de los diversos grupos. Por consiguiente, hay 10 valores fijos de X
y los correspondientes valores Y para cada valor X; as, hay 10 subpoblaciones Y.
Se observa una variacin considerable en el consumo semanal de cada grupo de ingreso, lo cual se
aprecia con claridad en la figura 2.1. No obstante, el panorama general es que, a pesar de la
variabilidad del consumo semanal en cada nivel de ingreso considerado, en promedio, el consumo
semanal se incrementa a medida que aumenta el ingreso. Para verificar lo anterior, en la tabla 2.1 se
proporciona la media, o promedio, del consumo semanal que corresponde a cada uno de los 10
niveles de ingresos. As, al nivel de ingreso de 80 dlares le corresponde una media de consumo
igual a 65 dlares, pero para el nivel de 200, la media es de 137. En total hay 10 valores medios
para las 10 subpoblaciones de Y. A estos valores medios se les llama valores esperados
condicionales, en virtud de que dependen de los valores de la variable (condicional) X. En forma
simblica, se denotan con E(Y | X ), lo cual se lee como el valor esperado de Y, dado el valor de X.

Es importante distinguir entre los valores esperados condicionales y el valor esperado


incondicional del consumo semanal, E(Y). Si sumamos los consumos semanales de las 60 familias
que forman la poblacin y dividimos este nmero entre 60, obtendremos la cantidad de 121.20
dlares ($7 272/60), que es el valor de la media incondicional, o esperada, del consumo semanal,
1

REGRESION Y CORRELACION
E(Y); es incondicional porque, para obtener esta cifra, obviamos los niveles de ingreso de las
diversas familias. Como es lgico, los diferentes valores esperados condicionales de Y de la tabla
2.1 varan respecto del valor esperado incondicional de Y, igual a 121.20 dlares. Cuando se plantea
la pregunta cul es el valor esperado del consumo semanal de una familia?, la respuesta es
121.20 dlares (la media incondicional). Pero si se pregunta cul es el valor esperado del
consumo semanal de una familia cuyo ingreso mensual es de 140 dlares?, la respuesta es 101 (la
media condicional). En otras palabras, a la pregunta cul es la mejor prediccin (media) del gasto
semanal de las familias con un ingreso semanal de 140 dlares?, la respuesta es 101 dlares. Por
consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del consumo que si
se ignora esa informacin. Tal vez sea sta la esencia del anlisis de regresin, como lo
descubriremos a lo largo de este libro.
Los puntos oscuros dentro de crculos de la figura 2.1 muestran los valores medios condicionales de
Y, graficados en funcin de los diferentes valores de X. Al unir esos valores obtenemos la lnea de
regresin poblacional (LRP), o, ms general, la curva de regresin poblacional (CRP).5 Con
palabras ms sencillas, es la regresin de Y sobre X. El adjetivo poblacional se debe a que en
este ejemplo trabajamos con la poblacin total de 60 familias. Por supuesto, en realidad una
poblacin tendra ms familias.
As, desde el punto de vista geomtrico, una curva de regresin poblacional es tan slo el lugar
geomtrico de las medias condicionales de la variable dependiente para los valores fijos de la(s)
variable(s) explicativa(s) o independientes.
En palabras ms simples, es la curva que conecta las medias de las subpoblaciones de Y que
corresponden a los valores dados de la regresora X. Lo anterior se ve de manera grfica en la figura
2.2. Esta figura muestra que para cada X (es decir, el nivel de ingresos) existe una poblacin de
valores Y (consumo semanal) que se distribuyen alrededor de la media (condicional) de dichos
valores Y. Por simplicidad, suponemos que tales valores Y estn distribuidos simtricamente
alrededor de sus respectivos valores medios (condicionales). Asimismo, la recta (o curva) de
regresin pasa a travs de los mencionados valores medios (condicionales).

REGRESION Y CORRELACION

Concepto de funcin de regresin poblacional (FRP)


De la anterior exposicin, y en especial de las figuras 2.1 y 2.2, es claro que cada media condicional
E(Y | Xi) es funcin de Xi, donde Xi es un valor dado de X. Simblicamente,
E(Y | Xi ) = f (Xi )

(2.2.1)

donde (Xi) denota alguna funcin de la variable explicativa X. En el ejemplo, E(Y | Xi) es una
funcin lineal de Xi. La ecuacin (2.2.1) se conoce como funcin de esperanza condicional
(FEC), funcin de regresin poblacional (FRP) o regresin poblacional (RP), para abreviar.
Dicha funcin slo denota que el valor esperado de la distribucin de Y dada Xi se relaciona
funcionalmente con Xi. En otras palabras, dice cmo la media o respuesta promedio de Y vara con
X.
Qu forma adopta la funcin (Xi)? Esta pregunta es importante porque en una situacin real no
disponemos de toda la poblacin para efectuar el anlisis. La forma funcional de la FRP es por
consiguiente una pregunta emprica, aunque en casos especficos la teora tiene algo que decir.
Por ejemplo, un economista puede plantear que el consumo manifiesta una relacin lineal con el
ingreso. Por tanto, como primera aproximacin o hiptesis de trabajo, podemos suponer que la FRP
E(Y | Xi) es una funcin lineal de Xi, del tipo
E(Y | Xi ) = 1 + 2Xi

(2.2.2)

donde 1 y 2 son parmetros no conocidos pero fijos que se denominan coeficientes de regresin;
1 y 2 se conocen tambin como coeficientes de interseccin y de pendiente, respectivamente. La
ecuacin (2.2.1) se conoce como funcin de regresin poblacional lineal. En la bibliografa
aparecen otras expresiones, como modelo de regresin poblacional lineal o slo regresin
poblacional lineal. En lo sucesivo, consideraremos sinnimos los trminos regresin, ecuacin de
regresin y modelo de regresin.
En el anlisis de regresin, la idea es estimar las FRP como la ecuacin (2.2.2); es decir, estimar los
valores no conocidos de 1 y 2 con base en las observaciones de Y y X.

Funcin de regresin muestral (FRM)


Hasta el momento, nos hemos limitado a la poblacin de valores Y que corresponden a valores fijos
de X. Con toda deliberacin evitamos consideraciones muestrales (observe que los datos de la tabla
2.1 representan la poblacin, no una muestra). No obstante, es momento de enfrentar los problemas
muestrales, porque en la prctica lo que se tiene al alcance no es ms que una muestra de valores de
Y que corresponden a algunos valores fijos de X. Por tanto, la labor ahora es estimar la FRP con
base en informacin muestral.
A manera de ilustracin, supongamos que no se conoca la poblacin de la tabla 2.1 y que la nica
informacin que se tena era una muestra de valores de Y seleccionada al azar para valores dados de
X como se presentan en la tabla 2.4. A diferencia de la tabla 2.1, ahora se tiene slo un valor de Y
correspondiente a los valores dados de X; cada Y (dada Xi) en la tabla 2.4 se selecciona
aleatoriamente de las Y similares que corresponden a la misma Xi de la poblacin de la tabla 2.1.

REGRESION Y CORRELACION

La cuestin es la siguiente: con base en la muestra de la tabla 2.4, es posible predecir el consumo
semanal promedio Y de la poblacin en su conjunto correspondiente a los valores de X
seleccionados? En otras palabras, se puede estimar la FRP a partir de los datos de la muestra?
Como el lector con seguridad sospecha, quiz no pueda calcularse la FRP con precisin debido a
las fluctuaciones muestrales. Para ver esto, supongamos que se toma otra muestra aleatoria de la
poblacin de la tabla 2.1, la cual se presenta en la tabla 2.5.
Al graficar los datos de las tablas 2.4 y 2.5 se obtiene el diagrama de dispersin de la figura 2.4. En
el diagrama de dispersin se trazaron dos lneas de regresin muestral con el fin de ajustar
razonablemente bien las dispersiones: FRM 1 se basa en la primera muestra y FRM 2 en la segunda.
Cul de las dos lneas de regresin representa a la lnea de regresin poblacional verdadera? Si
evitamos la tentacin de mirar la figura 2.1, que a propsito representa la RP, no hay forma de estar
por completo seguro de que alguna de las lneas de regresin de la figura 2.4 representa la verdadera
recta (o curva) de regresin poblacional. Las lneas de regresin en la figura 2.4 se conocen como
lneas de regresin muestral.

REGRESION Y CORRELACION
Se supone que representan la lnea de regresin poblacional, pero, debido a fluctuaciones
muestrales, son, en el mejor de los casos, slo una aproximacin de la verdadera RP. En general, se
obtendran N FRM diferentes para N muestras diferentes, y estas FRM no por fuerza son iguales.
Ahora, igual que la FRP en la cual se basa la lnea de regresin poblacional, se desarrolla el
concepto de funcin de regresin muestral (FRM) para representar la lnea de regresin muestral.
La contraparte muestral de la ecuacin (2.2.2) puede escribirse como:

Advierta que un estimador, conocido tambin como estadstico (muestral), no es ms que una
regla, frmula o mtodo para estimar el parmetro poblacional a partir de la informacin
suministrada por la muestra disponible. Un valor numrico particular obtenido por el estimador en
un anlisis se conoce como estimacin.
Ahora, tal como la FRP se expresa en dos formas equivalentes, (2.2.2) y (2.4.2), la FRM (2.6.1) se
expresa en su forma estocstica de la siguiente manera:

REGRESION Y CORRELACION

Mtodo de mnimos cuadrados ordinarios (MCO)


El mtodo de mnimos cuadrados ordinarios se atribuye a Carl Friedrich Gauss, matemtico alemn.
A partir de ciertos supuestos (estudiados en la seccin 3.2), el mtodo de mnimos cuadrados
presenta propiedades estadsticas muy atractivas que lo han convertido en uno de los ms eficaces y
6

REGRESION Y CORRELACION
populares del anlisis de regresin. Para entenderlo, primero explicaremos el principio de los
mnimos cuadrados.
Recuerde la FRP de dos variables:

Yi = 1 + 2Xi + ui

(2.4.2)

Sin embargo, como mencionamos anteriormente, la FRP no es observable directamente. Se calcula


a partir de la FRM:

REGRESION Y CORRELACION

Aplicando el clculo diferencial tenemos:

Estas ecuaciones simultneas se conocen como ecuaciones Normales. Resolviendo tal sistema
tenemos:

Y = ^1 + ^
2 X

REGRESION Y CORRELACION

2 CORRELACION
Coeficiente de correlacin rectilnea de Pearson
El coeficiente de correlacin, es una medida del grado de asociacin entre dos variables, trata de
cuantificar el grado de relacin existente entre las variables, es adimensional y en ese sentido es una
medida relativa.

COEFICIENTE DE CORRELACION LINEAL DE PEARSON

Tambin podemos expresar en trminos de la covarianza

r = 0: no existe correlacin
r = 1: correlacin lineal perfecta positiva
r=-1: correlacin lineal perfecta negativa

De manera que la sumatoria de Xi por Yi desde uno hasta n, da una idea significativa del sentido
y de la magnitud de la relacin lineal entre X y Y, pero con defectos importantes.

1) Puede variar si arbitrariamente se incrementa el tamao de la muestra.


2) Esta fuertemente afectado por las unidades de medida de cada una de las variables.

Para evitar estos problemas PEARSON, muy inteligentemente sugiere promediar la suma de los
productos de las desviaciones sobre el tamao de la muestra y al mismo tiempo ponderarlos, por las
correspondientes desviaciones tpicas de ambas variables.

REGRESION Y CORRELACION

3 ANLISIS DE LA VARIANZA
10

REGRESION Y CORRELACION

As la varianza total se descompone en:

VARIANZA TOTAL = VARIANZA EXPLICADA + VARIANZA INEXPLICADA

SCT = SCE + SCR


SUMA CUADRADOS TOTAL = SUMA CUADRADOS EXPLICADA + SUMA CUADRADOS DE LOS RESIDUOS

Muestra que la variacin total en los valores Y observados alrededor del valor de su
media dividida en dos partes, una atribuible a la lnea de regresin y la otra a fuerzas
aleatorias, pues no todas las observaciones Y caen sobre la lnea ajustada.

As al dividir la ecuacin anterior entre la SCT en ambos lados, se obtiene:

11

REGRESION Y CORRELACION

Ahora, definimos

como:

O tambin como:

La cantidad

asi definida se conoce como coeficiente de determinacin

(muestral), y es la medida ms comn de la bondad del ajuste de una lnea de


regresin. Verbalmente, r 2 mide la proporcin o el porcentaje de la variacin total en Y
explicada por el modelo de regresin.
Pueden observarse dos propiedades de r 2:
1. Es una cantidad no negativa.
2. Sus lmites son 0

r 2 1. Un

r 2 de 1 significa un ajuste perfecto, es decir,

Y^ i=Y i por cada i. Por otra parte, un de cero significa que no hay relacin alguna
entre la variable regresada y la variable regresora.

EJEMPLO:
En una encuesta de hogares (por muestro estadstico) realizado a 7 familias, se obtuvo la siguiente
informacin relativa al ingreso y gasto familiar en bolivianos:
Y (GASTOS)
62
51
42
55
51
58
43
a)

X (INGRESO)
70
60
50
70
55
60
45

Estimar la recta regresin mnimo cuadrtica y estimar el gasto para un ingreso de 100 Bs

b) Determine el grado de relacin existente entre ambas variables (


c)

Halle el coeficiente de determinacin (

r ).

BIBLIOGRAFIA RECOMENDADA:

ECONOMETRIA
Autores: Damodar N. Gujarati - Dawn C. Porter

12

REGRESION Y CORRELACION
ESTADISTICA ELEMENTAL DESCRIPTIVA E INFERENCIAL PARA: ECONOMISTAS,
AUDITORES Y ADMINISTRADORES DE EMPRESAS

Autor: Ral Arias Murillo

13

You might also like