You are on page 1of 30

Estadstica y Diseos Experimentales

Captulo 5

Anlisis de Regresin y Correlacin


5.1 Introduccin
En muchos problemas cabe la posibilidad de que una variable est influenciada por dos
o ms variables relacionadas y puede que sea importante modelar y explorar est
relacin. Por ejemplo, la ganancia de peso en nios desnutridos est influenciada por la
cantidad de alimento que ingieran, la prdida de caloras con el nmero de horas de
actividad fsica, el nmero de latidos del corazn con la edad de la persona, la presin
arterial en ancianos con la altura sobre el nivel del mar, etc.

Si el cambio de valor de una variable, est influenciada, por el cambio de valor de otra u
otras variables, el anlisis estadstico se har mediante el anlisis de regresin y
correlacin. A la variable que depende de la influencia se la denomina variable
dependiente y a las variables influyentes, variables independientes o factores.

Deduzca que en los casos mencionados en el primer prrafo, la relacin entre las
variables es de causa-efecto y no debe ser una relacin meramente matemtica. La
causa es la variable independiente y el efecto la variable dependiente. La variable
independiente es una variable predeterminada no aleatoria, sin errores, esto es, se
supone que en su medicin no tiene errores y los que se cometan son despreciados. Por
el contrario, la variable dependiente mide el efecto obtenido a causa de la manipulacin,
movimiento o cambio natural de la variable predeterminada, es de naturaleza aleatoria y
los errores que se obtengan de su medicin sern significativos.

En sntesis podemos concluir que, todo anlisis de regresin tiene como meta la
bsqueda de:

Una relacin causal entre las variables.

Un modelo matemtico de ajuste a los datos.

y todo anlisis de correlacin, persigue la bsqueda de:

La proporcin de explicacin

La proporcin de asociacin

La proporcin de ajuste

La dispersin de los puntos

Los lmites mximos de ajuste del modelo de regresin.

Ambos anlisis deben complementarse tan igual como la media y la varianza en los
estudios unidimensionales, para cumplir con el objetivo final de todo anlisis de
regresin y correlacin, el cual es:

1 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

Pronosticar los valores para la variable dependiente.

Es tambin importante hacer mencin que, una variable dependiente puede estar
influenciada aritmticamente por una variable independiente o por varias variables
independientes; el primer caso lo trata el anlisis de regresin y correlacin lineal
simple y el segundo caso lo trata el anlisis de regresin y correlacin lineal mltiple. Si
la variable dependiente est influenciada geomtricamente por una o ms variables
independientes el caso lo tratar el anlisis de regresin y correlacin no lineal y puede
ser tambin simple o mltiple.

Una influencia aritmtica est referida a que la variable dependiente crece o decrece a
cierto valor constante, por cada paso de la variable independiente o de las variables
independientes con quien se las est relacionando. Cuando la influencia es geomtrica
la variable dependiente crece o decrece ms rpidamente y no en forma constante, por
cada paso constante de la variable independiente o de las variables independientes en
relacin.

5.2 Anlisis de regresin


Tericamente, toda variable de estudio por naturaleza est relacionada con mltiples
factores. La variable de estudio cambiar su valor dados los cambios que se producen
en los factores o variables independientes que pueden ser ms de una. As por ejemplo,
en el caso siguiente, la variable dependiente est relacionada con 10 factores, causas o
variables independientes.

CASO N 5.1

Los cambios en la demanda de un artculo se producen por los cambios que se producen
en el precio, en el costo de los insumos de fabricacin, en el costo de mano de obra, en
el costo de maquinaria, en el gasto administrativo, en el gasto de impuestos, en el gasto
de mantenimiento, en el gasto de incentivos, en el costo de promocin, en el tiempo,
etc.

Sin embargo, los casos de comportamiento real, pueden demostrar que, algunos de los
factores mencionados tendrn influencias significativas, otros tendrn menos
influencias significativas y otros tal vez, no manifestaran ninguna influencia
significativa que repercuta sobre los valores de la variable de estudio. Debemos
entender por influencia significativa a aquella que produce cambios, beneficios o
utilidades que sobresalen por encima de las normales. As por ejemplo:

CASO N 5.2

En la demanda de un artculo, un cambio de precio del artculo en relacin al poder


adquisitivo del consumidor repercutir ms en la demanda, que el cambio que se pueda
producir en el gasto de promocin del artculo.

La relacin, la explicacin, la influencia, la asociacin, la dependencia, el ajuste, la


variabilidad y la precisin son los trminos que debern involucrar todo anlisis de
regresin y correlacin para llegar a un pronstico vlido y confiable.

2 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

5.3 Anlisis de relacin


Un anlisis de relacin consiste en la bsqueda de los factores que tengan una relacin y
que produzcan un efecto sobre la variable de estudio, sea o no, importante.

Hay que indicar que si bien la relacin terica que encontremos puede ser perfecta, los
datos en el proceso de anlisis pueden manifestar lo contrario. Si lo ltimo sucediese
hay que buscar los antecedentes del no cumplimiento de dicha relacin que pueden
aportar con ideas a la toma de decisin final.

Los siguientes son casos de relacin causa-efecto:

CASO N 5.3

Cantidad de alimentacin, Ganancia de peso

Esta relacin tericamente manifiesta que si se administrara ms alimento, el efecto


sera de ms ganancia de peso.

CASO N 5.4

Ingreso familiar, Gasto familiar

Tericamente, la relacin nos manifiesta, que si el ingreso familiar se incrementara, el


gasto familiar mejorara.

CASO N 5.5

Precio de un artculo, Gasto en promocin, Demanda

Este caso de relacin tericamente nos expresa que si el precio de un artculo bajara y el
gasto de promocin se incrementara, la demanda del artculo subira.

5.4 Variable dependiente y variable independiente


El anlisis de regresin y correlacin debe estar enmarcado en el anlisis de relaciones
en donde toda variable debe ser de naturaleza cuantitativa, esto es, que los valores de las
variables deben ser nmeros. Como se dijo antes, la variable dependiente es la variable
principal o de estudio y es la que recoge los efectos y para quien est dirigida el anlisis
y las variables independientes son las que causan los cambios en la variable
dependiente.

A continuacin se dan las denominaciones usadas para referenciar a la variable


dependiente y a las variables independientes:

3 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

rea Variable de estudio Variable causa


Caso general V. dependiente V. independiente
V. influyente V. influida
Salud V. dao Factor de riesgo
Economa V. endgena V. exgena
V. explicada V. no explicada
V. no explicativa V. explicativa
Agronoma V. rendimiento Factor
V. produccin Factor

5.5 Unidad de estudio o de anlisis


En el anlisis de regresin y correlacin es de mucha importancia que sean definidas las
unidades de anlisis, las cuales estarn sujetas a la definicin de las variables en el
anlisis y a la relacin causa-efecto que entre ellas puedan tener, luego podrn ser
especificadas bien como elementos o bien como conglomerados.

CASO N 5.6

La unidad de anlisis y las variables en el anlisis de la relacin del precio (en soles) y
del costo de promocin (en soles por artculo producido) sobre la demanda (tanto por
mil) de una marca de detergente son:

Individuo o unidad de anlisis:

Detergente

Variable dependiente:

Demanda (tanto por mil)

Variables independientes:

Precio (en soles)

Costo de Promocin (en soles por artculo producido)

Es conveniente que se aclare que para cada una de las variables debe darse adjunto, la
mtrica (unidad de medida) sobre la que es observada o medida cada una de las
variables. Es un punto muy importante para realizar las interpretaciones respectivas.

5.6 Modelo de regresin


El modelo estadstico de regresin que mide el cambio constante o aritmtico de cada
uno de los valores de la variable dependiente ( Y ) dado el incremento de cada uno de

4 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

los valores de la variable independiente ( X ) , es funcionalmente escrito por el modelo


de una lnea recta:

Yi 0 1 X i e i i 1, 2, ..., n

donde

Yi : isima observacin para la variable dependiente

Xi : isima observacin para la variable independiente

0 y 1 son los parmetros de la regresin, se les da tambin la denominacin de


coeficientes y sus valores son desconocidos.

0 : es el intercepto de Y con el eje de las X , en x 0

1 : es la pendiente de la recta, indica la tasa de cambio en Y 0 en el orden


de 1 cuando X se incrementa en una unidad. Es conocida como
coeficiente de regresin.

e i : es el error que se comete al medir u observar el esimo valor de Y .

Cada uno de los valores de Y tiene la forma de lnea recta, dada la influencia de cada
valor de la variable X , as tenemos:

Y1 0 1 X1 e1
Y2 0 1 X 2 e 2
...............
Yi 0 1 X i e i
...............
Yn 0 1 X n e n

Observaciones

1) Si 1 0 o 1 0 , no existe regresin. La lnea de regresin est casi horizontal y


el ngulo de inclinacin tiene un valor prximo a cero.

Yi 0 e i Yi 0 e i

1 0 1 0

lo cual es un indicio de que la variable X tericamente puede estar relacionada con


la variable Y , pero los datos con los cuales se est realizando el anlisis de
regresin, no estn asociados, esto es, la variable X no dar ninguna explicacin o
aporte a los cambios que se observan en Y y no se justifica que sea analizada

5 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

mediante la regresin, por tanto, debe limitarse a solamente un anlisis univariable


de Y .

2) Cuando la pendiente tiene signo positivo, la lnea tiene tendencia creciente y si el


ngulo es significativo, el grfico que corresponde ser como sigue:

Yi 0 1 X i e i

3) Si la pendiente tiene signo negativo, la tendencia de la recta ser decreciente. Para


un ngulo significativo, el grfico tendr la forma siguiente:

Yi 0 1 X i e i

4) Cuando la regresin est presente, hay relacin y asociacin de las variables,


manifestndose cambios en la variable Y por causa de los cambios en la variable X
.

5.7 Diagrama de dispersin


Dado un conjunto de n pares de puntos (x 1 , y1 ) , (x 2 , y 2 ) , . . ., ( x i , y i ) , . . ., (x n , y n ) ,
al plotearlos o graficarlos sobre el plano dar lugar a un grfico conocido con el nombre
de diagrama de dispersin o nube de puntos. Este ltimo nombre es recibido por que
cuando se tiene una gran cantidad de puntos, tiene la apariencia de una nube.

Un diagrama de dispersin es de bastante utilidad ya que permite visualizar la tendencia


de la nube para proponer el modelo de mejor ajuste o relacin a los datos.

GRAFIC0 N 46
DIAGRAMA DE DISPERSION O NUBE DE PUNTOS
30

24

18

12
Y

0
1978

1982

1986

1990

1994

1998

2002

6 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

5.8 Ajuste de un modelo de regresin lineal simple


Cuando se tiene una nube de puntos y estos tienen un agrupamiento y un movimiento en
lnea recta, el modelo estadstico de regresin debe ser propuesto para realizar el
anlisis de datos.

En el ajuste debe tenerse en cuenta que, el modelo de ajuste debe pasar, sino es por
encima, lo ms cerca posible de los puntos, garantizando con ello, una buena estimacin
de los parmetros y por ende una buena prediccin de algn valor futuro.

5.9 Estimacin de parmetros


Como podemos apreciar en el grfico N 46, los puntos sobre la recta que deben ser
estimados tienen por modelo a la expresin:

Yi 0 1 X i i 1, 2, ..., n

y los puntos por encima o por debajo de la recta tienen por modelo a:

Yi 0 1 X i e i i 1, 2, ..., n

Los modelos sern coincidentes si los ei se hace cero. Este es el principio seguido para
la estimacin de los parmetros. Al primero se ele llama modelo matemtico y al
segundo modelo estadstico o aleatorio.

La variable e i recoge los diversos errores que se producen en la variable Yi debido a:


una mala medicin, una mala observacin, una mala especificacin del modelo, una
mala especificacin de variables, etc.

El grfico N 47 muestra la dispersin de un conjunto de puntos sobre el modelo


matemtico:

GRAFICO N 47
Diagrama de dispersin y ajuste de un modelo estadstic o lineal

7 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

Como el modelo matemtico debe ser ajustado a los datos, la estimacin se realizar
para este modelo y no para el modelo estadstico. El mtodo preparado para tal fin es
conocido como Mtodo de los Mnimos Cuadrados Ordinarios (MCO), con el cual se
persigue obtener estimaciones de los parmetros de tal forma que los errores tiendan
hacia cero.

El modelo matemtico estimado que servir para hallar los coeficientes estimados
tendr la forma:

Yi 0 1 X i i 1, 2, ..., n

que es la ecuacin que estimar a los puntos Yi .

Dada la limitacin del conocimiento del Clculo Diferencial, en este tratado, se utilizar
un procedimiento mediante el cual se obtendr un sistema con dos ecuaciones las que a
su vez nos proporcionar dos frmulas de estimacin teniendo en cuenta que en el
modelo se tiene dos parmetros. El procedimiento es como sigue:

1) Aplique sumatoria al modelo matemtico estimado:


n n n

Yi 0 1X i
i 1 i 1 i 1

n n

Yi n 0 1 X i
i 1 i 1
(1)

2) Multiplique X i a cada uno de los trminos del modelo matemtico y luego aplique
sumatoria:

X i Yi 0 X i 1 X i2

n n n

X i Yi 0 X i 1 X i2
i 1 i 1 i 1
(2)

3) Luego, las ecuaciones del sistema son:


n n

Yi 0 1 X i
i 1 i 1

n n n

X Y
i 1
i i 0 X i 1 X i2
i 1 i 1

De este sistema de ecuaciones se hallan las frmulas para hallar las estimaciones de
los parmetros. Utilizaremos en este caso, el mtodo de los determinantes, estas
frmulas son:

8 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n
n Y i 1
i

n n n n n
Xi
i 1
X Y
i 1
i i n X i Yi X i Yi
Sx
1 i 1 i 1 i 1
2

n
n
Sy
X
n
n i n X i2 X i
n
i 1
n
i 1 i 1
X X
i 1
i
i 1
2
i

n n

Yi
i 1
X i 1
i

n n n n n n

X i Yi
i 1
X i2
i 1
Yi X i2 X i X i Yi
i 1 i 1 i 1 i 1
0 i
2

n

X
n n
n i n X i2 X i
n
i 1
n
i 1 i 1
X X
i 1
i
i 1
2
i

Y 1 X
finalmente, los valores hallados para los coeficientes deben ser reemplazados en el
modelo matemtico estimado. Luego, los valores estimados para Yi pueden ser
estimados en la forma:

Yi Y e i

despejando, los e i son estimados mediante:

e i Yi Yi

EJEMPLO N 5.1

El gasto en alimentacin mensual (en soles) de 8 empleados que est en relacin al


ingreso mensual (en soles) se da en la tabla siguiente:

Empleado 1 2 3 4 5 6 7 8
Ingreso 800 850 900 950 1000 1050 1100 1150
Gasto 300 360 400 470 600 580 700 650

Hallar:

a) El diagrama de dispersin

b) La recta de regresin ajustada.

9 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

SOLUCION

Se define entonces:

X i : Ingreso mensual (en soles)

Yi : Gasto mensual (en soles)

a) El diagrama de dispersin que muestra visualmente la asociacin de los puntos y


que fue obtenido mediante un paquete estadstico es:

GRAFICO N 48
DIAGRAMA DE DISPERSIN PARA EL GASTO SEGUN EL INGRESO
750

650

550

450
GASTO (Y)

350

250
750 800 850 900 950 1000 1050 1100 1150 1200
INGRESO (X)

El diagrama de dispersin muestra que los puntos tienen una tendencia lineal y
una dispersin bastante aceptable para que sea ajustada por una recta. Tambin se
puede observar que la recta que se ajuste tendr una pendiente que hace suponer
que el coeficiente de regresin es significativo, esto es, que se puede aceptar que
es diferente de cero. Esta pendiente ser determinante para aceptar que el gasto
est influenciado o asociado positivamente por el ingreso, lo cual quiere decir que,
si el ingreso mensual de un empleado se incrementara en el futuro, el gasto
mensual de este empleado tambin se incrementara.

b) Para hallar la recta ajustada Yi 0 1 X i se deben encontrar los coeficientes


estimados los cuales son las incgnitas del sistema de ecuaciones normales y las
sumatorias son los valores que deben ser calculadas con los datos. Este sistema lo
reproducimos enseguida:
n n

Y i 1
i 0 1 X i
i 1

n n n

X i Yi 0 X i 1 X i2
i 1 i 1 i 1

La tabla de clculo para hallar las sumatorias es:

10 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

Empleado
N Xi Yi X i Yi X i2
1 800 300 240000 640000
2 850 360 306000 722500
3 900 400 360000 810000
4 950 470 446500 902500
5 1000 600 600000 1000000
6 1050 580 609000 1102500
7 1100 700 770000 1210000
8 1150 650 747500 1322500
Total 7800 4060 4079000 7710000

donde:
n n n

X i 7800
i 1
Yi 4060
i 1
X Y
i 1
i i 4079000

X
i 1
2
i 7710000

reemplazando las sumatorias en el sistema se tendr:

4060 8 0 7800 1

4079000 7800 0 7710000 1

Los determinantes para las incgnitas son:

4060 7800
4079000 7710000
0 661.429
8 7800
7800 7710000
8 4060
7800 4079000
1 1.148
8 7800
7800 7710000

Por tanto, el modelo estimado es:

Yi 661.429 1.148 X i

5.10 Anlisis de correlacin lineal simple


Despus de hallar los estimadores de los coeficientes, el siguiente paso es determinar
los indicadores siguientes:

11 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

El coeficiente de determinacin
El coeficiente de correlacin
El coeficiente de determinacin ajustado.

El grfico que se muestra a continuacin nos presenta a los elementos que intervienen
en el anlisis de la correlacin:

GRAFICO N 49
Descomposi cin del valor Yi en sus partes componente s
Y

Yi
Y i Y i

Y Yi Y

X
En forma de desviaciones, la ordenada Yi puede ser expresada como se muestra:

Yi Y (Yi Y) (Yi Yi )

y en forma de desviacin respecto de la media de Y se tiene:

(Yi Y) (Yi Y) (Yi Yi )

donde:

Desviacin total = (Yi Y)

Desviacin explicada por la regresin = (Yi Y)

Desviacin no explicada por la regresin = (Yi Yi )

Por tanto:

Desviacin Desviacin
Desviacin total exp licada no exp licada
por la regresin por la regresin

elevando al cuadrado las desviaciones y sumndolas para todos los puntos, se tendr las
siguientes sumas de cuadrados:

12 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n n n

(Yi Y) 2 (Yi Y) 2 (Yi Yi ) 2


i 1 i 1 i 1

n
SCT = SUMA DE CUADRADOS DEL TOTAL = (Y Y)
i 1
i
2

n
SCR = SUMA DE CUADRADOS DE LA REGRESION = (Y
i 1
i Y) 2

n
SCE = SUMA DE CUADRADOS DEL ERROR = (Y
i 1
i Yi ) 2

luego, la suma de cuadrados del total la podremos escribir como:

SCT SCR SCE

como apreciamos en las frmulas de las sumas de cuadrados, la SCT recoge la


variabilidad respecto de la media total de la variable dependiente Y , la SCR recoge la
variabilidad explicada por la recta de regresin y la SCE recoge la variabilidad que no
es explicada por la recta de regresin.

Estas sumas de cuadrados funcionan como sigue:

1) Si los puntos estn sobre la recta, la SCR recoge toda la variabilidad de los datos y
la SCE es cero.

2) Conforme la recta se va retirando de los puntos, la SCR ir disminuyendo su valor


en el recojo de la variabilidad explicada y la SCE ir aumentando en variacin no
explicada.

3) Para que exista buen ajuste mediante la lnea recta, la SCR debe estar bastante cerca
de la SCT.

5.11 Interpretacin de los residuales


Los errores de la regresin e i conocidos como residuales, son las desviaciones que nos
muestran que tan cerca est el valor estimado por la recta de regresin Yi del valor
observado Yi , esto es:

e i Yi Yi

En el anlisis de la correlacin tenga en cuenta las siguientes observaciones:

a) Una relacin exacta o perfecta en la prctica conllevar a que los puntos sean
coincidentes con la recta lo cual implicar que los errores para todos los puntos sean
cero, esto es, e i 0 i 1, 2 ,..., n . Este hecho en la prctica es imposible que
ocurra y los puntos se colocarn por encima, por debajo o por encima de la recta.

13 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

ei Yi Yi 0
Yi Yi

b) Si el valor Yi se aproxima al valor observado Yi , los errores se aproximaran a


cero, esto es, e i 0 .

c) Cuando los valores observados Yi , estn por encima de los valores esperados Yi ,
los residuales son positivos e i 0 , luego, los valores esperados subestiman a los
valores observados.

Yi
e i Yi Yi 0
Yi

d) Si los valores observados Yi estn por debajo de los valores esperados Yi , esto
es, los residuales son negativos e i 0 , los valores esperados sobreestimaran a los
valores esperados.

Yi
ei Yi Yi 0
Yi

El inters fundamental de todo anlisis de regresin y correlacin es ajustar un modelo


estadstico lineal o no lineal, simple o mltiple a los valores observados de tal manera
que los errores aleatorios sean mnimos. A este proceso se le llama Ajuste de curva.
No debe olvidarse que la proyeccin de los valores Yi es la finalidad de todo anlisis de
regresin.

5.12 Coeficiente de determinacin


El coeficiente de determinacin representado por R 2 , halla el grado de explicacin de
la variable independiente. La frmula se deduce a partir de la descomposicin de la
suma de cuadrados del total, dividindola sobre s misma.

14 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

SCT SCR SCE



SCT SCT SCT

SCR SCE
1
SCT SCT

como el coeficiente de determinacin debe medir el grado de explicacin de la variable


independiente, hay que relacionarlo con las desviaciones explicadas por la recta de
regresin, con lo cual se tendr dos frmulas para calcularlo:

En relacin a la suma de cuadrados de la regresin:


n

SCR
(Y i Y) 2
R2 i 1
n

(Y
SCT
i Y) 2
i 1

En relacin a la suma de cuadrados del error:


n

SCR (Y i Yi ) 2
R2 1 1 i 1
n

(Y
SCT
i Y) 2
i 1

esta ltima expresin nos muestra que el R 2 tiene un rango de variacin de 0 a 1, esto
es, 0 R 2 1 . En razn de lograr una buena interpretacin, se recomienda convertirlo a
porcentaje. La variacin en forma porcentual ser ahora de 0 al 100 %, es decir,
0 % R 2 % 100 % .

El coeficiente de determinacin puede mostrar los efectos siguientes sobre la variable


dependiente:

a) Si R 2 0 , la variable independiente no da ninguna explicacin a los cambios que


se producen sobre la variable dependiente.

b) Si R 2 0 , la variable independiente explica muy poco a los cambios que se


producen sobre la variable dependiente.

c) Si R 2 1 , los cambios en la variable dependiente son casi explicados por la


variable independiente.

d) Si R 2 1 , los cambios en la variable dependiente son totalmente explicados por la


variable independiente.

15 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

5.13 Coeficiente de correlacin


El coeficiente de correlacin, nos indica en qu grado la variable dependiente est
asociada o influenciada por la variable independiente. Es la raz cuadrada del
coeficiente e determinacin:

R R2

con el siguiente rango de variacin:

1 R 1

Para la interpretacin, debe ser expresado en forma porcentual con una variacin del
0% al 100%. El signo solamente debe hacer referencia al sentido o tendencia de la recta
de regresin.

El coeficiente de correlacin puede mostrar los efectos siguientes sobre la variable


independiente.

a) Si R 0 , los cambios de la variable dependiente no estn asociados o influenciados


a los cambios que se producen sobre la variable dependiente. El coeficiente de
regresin 1 es cero y la lnea de regresin es paralela al eje X .

R 0
Yi 0

b) Si R 0 , los cambios de la variable dependiente estn poco asociados o


influenciados a los cambios que se producen en la variable independiente. El
coeficiente de regresin 1 est prximo a cero y la lnea de regresin es casi
paralela al eje X . Este caso puede darse tambin debido que la influencia de la
variable independiente sea segn otro modelo de relacin y no por el modelo de la
lnea recta.

R 0 Yi 0 1 X i
Yi 0 1 X i
R 0

R 0

Yi 0 1 X i

16 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

c) Si R 1 , los cambios en la variable dependiente estn casi influenciados por los


cambios que se realizan en la variable independiente. Los puntos se ubican
aproximadamente sobre la recta.

R 1 Yi 0 1 X i

d) Si R 1 , los cambios en la variable dependiente estn perfectamente influenciados


por los cambios que se producen en la variable independiente. Los puntos se
posicionan exactamente sobre la recta.

R 1
Yi 0 1 X i

5.14 Coeficiente de determinacin ajustado


2
El coeficiente de determinacin ajustado que se simbolizar con R ajustado , es utilizado
para que nos informe en que grado, el modelo de regresin lineal simple ajusta a los
datos. La frmula para calcularlos es la siguiente:
SCE
S2
R 2 1 n 2 1 Y2.X
SCT SY
n 1
S 2Y .X : Varianza no explicada por la regresin

S2Y : Varianza total para Y respecto de la media Y .

El rango para la variacin de este coeficiente es:

0 R ajustado
2
1 y en forma porcentual 0% R ajustado
2
% 100%

a) 2
Si R ajustado 1 , todos los puntos estn sobre la lnea recta. Esta informacin del
coeficiente es equivalente a decir que el 100% de los puntos son ajustados por la
lnea recta. Otra equivalencia de interpretacin es que, de 100 puntos, los 100
puntos pasan sobre la lnea recta.

b) 2
Si R ajustado 1 , los puntos se disponen cerca y por encima de la recta.

17 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

c) 2
Si R ajustado 0 , la recta est tan alejada de los puntos que no refleja ningn ajuste
o solo el ajuste es para muy pocos puntos.

Es conveniente indicar que, las tres medidas tratadas se complementan, de tal manera
que pueden llegar a ser confundidas en su interpretacin, as por ejemplo, un alto grado
en el coeficiente de determinacin implicar un alto grado de correlacin y un alto
grado de ajuste.

5.15 Desviacin estndar de la regresin


La desviacin estndar de la regresin, es hallada al extraer la raz cuadrada de la
varianza no explicada. Su utilidad es para establecer los mrgenes de confianza o de
estimacin de los valores de Y y en la estimacin de los parmetros. Esta es:

S Y .X S 2Y .X

Como hemos apreciado en el diagrama de dispersin los puntos estn esparcidos


alrededor de la recta. Mientras ms cercanos estn los puntos a la recta, menor ser el
valor de la desviacin estndar de regresin. Por lo tanto, las estimaciones de los
valores de Y , basados en la recta son ms confiables. Por otro lado, mientras ms
dispersos estn los puntos de la recta, mayor ser la dispersin estndar de regresin y
menor ser la confiabilidad de las estimaciones basadas en la recta de regresin.

En el siguiente grfico, se aprecia un intervalo de confianza para estimar los valores de


Y , usando una amplitud de una desviacin estndar. Los valores de Y dentro del
intervalo son estimados por la recta y los que estn fuera, no.

Yi SY.X

SY.X

SY.X

Yi SY.X

18 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

5.16 Prediccin de un valor de Y


Con la seguridad que nos pueden mostrar los coeficientes hallados, el paso siguiente es
el pronstico, que consiste en dar un valor a X fuera de la serie dada y reemplazarlo en
el modelo estimado para hallar un valor de Y a futuro. Se recomienda que el valor
proyectado tenga una amplitud de estimacin, pues es imposible pronosticarlo por
completo y s en aproximacin.

Dado el valor x 0 para X , hay que reemplazarlo en la ecuacin estimada y luego se


realizarn los clculos para hallar el valor y 0 :

y 0 0 1 x 0

Su estimacin de intervalo ser:

y 0 S Y .X Y0 y 0 S Y .X

EJEMPLO N 5.2

Para los datos del ejemplo 5.1, en la cual se da el gasto en alimentacin mensual (en
soles) de 8 empleados que est en relacin al ingreso mensual (en soles) se reproduce en
la tabla siguiente:

Empleado 1 2 3 4 5 6 7 8

Ingreso 800 850 900 950 1000 1050 1100 1150

Gasto 300 360 400 470 600 580 700 650

Halle:

a) Las estimaciones puntuales de los gastos para los ingresos dados.

b) Los errores de estimacin.

c) Las sumas de cuadrados SCT, SCR, SCE

d) Las medidas de correlacin.

e) Las estimaciones de intervalo de los gastos para los ingresos dados.

f) El pronostico del gasto para un empleado que probablemente tenga un ingreso de


2000.

SOLUCION

Las variables son definidas como:

X i : Ingreso mensual (en soles)

19 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

Yi : Gasto mensual (en soles)

donde:

Y 507.5 soles

a) Las estimaciones de los gastos para los ingresos son:

Empleado Xi Yi Yi
1 800 300 306.6667
2 850 360 364.0476
3 900 400 421.4286
4 950 470 478.8095
5 1000 600 536.1905
6 1050 580 593.5714
7 1100 700 650.9524
8 1150 650 708.3333

las estimaciones de los gastos fueron calculados al reemplazar los ingresos dados
en la recta ajustada como sigue:

Y1 611.429 1.148(800) 306.6667

Y2 611.429 1.148(850) 364.0476

Y3 611 .429 1.148(900 ) 421 .4286

Y4 611.429 1.148(950) 478.8095

Y5 611 .429 1.148(1000 ) 536 .1905

Y6 611 .429 1.148(1050 ) 593 .5714

Y7 611 .429 1.148(1100 ) 650 .9524

Y8 611 .429 1.148(1150 ) 708 .3333

b) Los errores de estimacin son:

Empleado Yi Yi e i Yi Yi
1 300 306.6667 -6.66666
2 360 364.0476 -4.04761
3 400 421.4286 -21.42860
4 470 478.8095 -8.80951
5 600 536.1905 63.80951
6 580 593.5714 -13.57140
7 700 650.9524 49.04761
8 650 708.3333 -58.33330

20 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

que se obtuvieron en la forma siguiente:

e1 Y1 Y1 300 306.6667 6.66666

e 2 Y2 Y2 360 364.0476 4.04761

e 3 Y3 Y3 400 421 .4286 21.42860

y as sucesivamente para hallar todos los errores.

c) Las sumas de cuadrados son:


8
SCR ( Yi 507.5) 2 138288 .1
i 1

8
SCE ( Yi Yi ) 2 10661.9
i 1

8
SCT ( Yi 507.5) 2 148950 .0
i 1

d) Las 3 medidas de la correlacin son:

Coeficiente de determinacin

SCR 138288 .1
R2% * 100 * 100 92.84%
SCT 148950 .0

El ingreso explica al gasto en un 92.84%, lo cual implica que por cada 100 puntos
de gasto, aproximadamente 93 puntos de los gastos son explicados por el ingreso.
Otra equivalencia de interpretacin es que por cada 100 soles de gasto, 93 soles
son explicados por el ingreso.

Coeficiente de correlacin

R % 0.92842 *100 96.36%

Esta medida expresa en que cantidad los gastos estn asociados o influenciados al
ingreso, por tanto, se puede decir que, aproximadamente 96 de los 100 gastos
estn influenciados por el ingreso, que es una buena medida de asociacin.

Coeficiente de determinacin ajustado

SCE 138288.1
2
R ajustado % (1 n 2 ) *100 1 8 2 *100
SCT 148950.0
n 1 8 1

91 .65 %

21 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

Este valor indica el grado de ajuste o cercana de la recta a los puntos, por tanto,
se puede decir que de 100 puntos, aproximadamente 92 puntos estn cercanos y 8
estn alejados de la recta de ajuste.

e) Las estimaciones de intervalo son:

Empleado Yi Yi S Y.X Yi S Y.X


1 306.6667 264.51 348.82
2 364.0476 321.89 406.20
3 421.4286 379.27 463.58
4 478.8095 436.66 520.96
5 536.1905 494.04 578.34
6 593.5714 551.42 635.73
7 650.9524 608.80 693.11
8 708.3333 666.18 750.49

donde:

SCE 10661 .9
S Y .X 42.15428
n2 82

f) Se estima que un empleado que tenga un ingreso de 2000 realizar un gasto que
vara entre 1642.42 a 1726.73, segn se muestra en el intervalo que se calcula
como sigue:

Yp 611.429 1.148(2000) 1684.571

1642.42 Yp 1726.73

5.17 Anlisis de regresin lineal mltiple


En el anlisis de regresin lineal mltiple la variable dependiente est asociada por una
relacin causa-efecto a dos o ms variables independientes. Matemticamente cada
valor de la variable Y est asociado con los valores de cada una de las k variables cuya
relacin de asociacin es escrita como:

Yi 0 1 X i1 2 X i 2 ... k X ik e i

para el conjunto de datos i 1, 2, ..., n , esto es, cada valor podr ser escrito como:

Y1 0 1 X 11 2 X 12 ... k X 1k e1

Y2 0 1 X 21 2 X 22 ... k X 2 k e 2
..
Yi 0 1 X i1 2 X i 2 ... k X ik e i
..
Yn 0 1 X n1 2 X n 2 ... k X nk e n

22 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

ANALISIS DE REGRESION LINEAL TRIDIMENSIONAL

Para este anlisis se toman en cuenta a una variable dependiente y dos variables
independientes ( k 2) . El modelo estadstico lineal es el siguiente:

Yi 0 1 X i1 2 X i 2 e i

0 : es el intercepto de Y cuando x1 0 y x 2 0

1 : es la tasa de cambio en Y 0 en el orden de 1 cuando X1 se incrementa en una


unidad permaneciendo constante en X 2 . Es un coeficiente de regresin.

2 : es la tasa de cambio en Y 0 en el orden de 2 cuando X 2 se incrementa en una


unidad permaneciendo constante en X1 . Es tambin un coeficiente de regresin.

e i : es el error que se comete al medir u observar el esimo valor de Y .

Para estimar a los parmetros debe emplearse el modelo matemtico estimado, el cual
es:

Yi 0 1 X i1 2 X i 2

y del cual para hallar los estimadores de los coeficientes debe seguirse el procedimiento
que se describe a continuacin, teniendo presente que se deben construir k 1
ecuaciones ( k 1 parmetros en el modelo). En este caso deben construirse un sistema
con 3 ecuaciones:

1) Aplique sumatoria al modelo matemtico estimado:


n n n n

Yi 0 1X i1 2 X i 2
i 1 i 1 i 1 i 1

n n n

Y
i 1
i n 0 1 X i1 2 X i 2
i 1 i 1
(1)

2) Multiplique por X i1 a cada uno de los trminos del modelo matemtico y luego
aplique sumatoria:

X i1 Yi 0 X i1 1 X i21 2 X i1 X i 2

n n n n

X
i 1
i1 Yi 0 X i1 1 X i21 2 X i1 X i 2
i 1 i 1 i 1
(2)

3) De igual manera multiplique por X i 2 a cada uno de los trminos del modelo
matemtico y luego aplique sumatoria:

X i 2 Yi 0 X i 2 1 X i1 X i 2 2 X i22

23 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n n n n

X i 2 Yi 0 X i 2 1 X i1X i 2 2 X i22
i 1 i 1 i 1 i 1
(3)

4) Luego, las ecuaciones del sistema son:


n n n

Yi n 0 1 X i1 2 X i 2
i 1 i 1 i 1
(1)

n n n n

X i1Yi 0 X i1 1 X i21 2 X i1X i 2


i 1 i 1 i 1 i 1
(2)

n n n n

X i 2 Yi 0 X i 2 1 X i1X i 2 2 X i22
i 1 i 1 i 1 i 1
(3)

5) De este sistema de ecuaciones se encuentran las frmulas para hallar las


estimaciones de los parmetros. Si se utiliza el mtodo de los determinantes las
frmulas son:

n n n

Yi X i1 X i2
i 1 i 1 i 1
n n n

X i1Yi X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n

X Y X i 2
i2 i X 2
i1 X i2
0 i 1 i 1 i 1
n n

n

X
i 1
i1 i 1
X i2

n n n

X i1 X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n

X X i 2
i2 X 2
i1 X i2
i 1 i 1 i 1

0 1 X 1 2 X 2

24 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n n

n

Yi 1
i Xi 1
i2

n n n

X i1 X i1 Yi X i1 X i 2
in1 i 1
n
i 1
n
X X i 2
i2 X 2
i2 Yi
1 i 1 i 1 i 1
n n

n

X
i 1
i1 i 1
X i2

n n n

X i1 X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n
X X i 2
i2 X 2
i1 X i2
i 1 i 1 i 1

n n

n

X i1
i 1
Y i 1
i

n n n

X i1 X
2
i1 X i1 Yi
in1 n
i 1 i 1
n
X X i 2 Yi
i2 X i1 X i2
2 i 1 i 1 i 1
n n

n

Xi 1
i1 i 1
X i2

n n n

X i1 X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n
X X i 2
i2 X 2
i1 X i2
i 1 i 1 i 1

Para el caso de tres a ms variables independientes, el procedimiento de estimacin se


vuelve complicado, ya que por cada variable que se ingrese al modelo, se incrementar
una ecuacin en el sistema, recomendndose por tanto para darle solucin, el uso de un
paquete estadstico. En el caso de k variables se tendr k 1 ecuaciones en el sistema.

5.18 Anlisis de correlacin lineal mltiple


En el anlisis de correlacin lineal mltiple, adems de las medidas tratadas en el caso
de una regresin lineal simple como son el coeficiente de determinacin, el coeficiente
de correlacin y el coeficiente de determinacin ajustado se calculan los coeficientes de
correlacin parciales.

Estas medidas son deducidas de la misma manera y se parte del principio de la


descomposicin de la suma de cuadrados del total en sus dos trminos de sumas de
cuadrados de variabilidad que son, la suma de cuadrados de la regresin y la suma de
cuadrados del error, esto es,

SCT SCR SCE

donde

25 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n
SCT ( Yi Y ) 2
i 1

n
SCR ( Yi Y ) 2
i 1

n
SCE ( Yi Yi) 2
i 1

con Yi 0 1 X i1 2 X i1 ... k X ik

luego el coeficiente de determinacin mltiple es:

SCR SCE
R 2Y.X1X 2 ...X k 1
SCT SCT

el coeficiente de correlacin:

R Y.X1X 2 ...X k R 2Y.X1X 2 ...X k

y el coeficiente de determinacin ajustado:

SCE
n k S 2Y.X1X 2 ...X k
R 2Y.X1X 2 ...X k 1 1
SCT S 2Y
n 1

El coeficiente de correlacin parcial es una medida del grado en que la SCE disminuye
cada vez que ingresa una variable estando presente una o ms variables en el modelo.
Por ejemplo, el coeficiente de correlacin parcial para determinar la proporcin de SCE
que ha disminuido al ingresar la variable X i 2 en un modelo en donde est presente la
variable X i1 est dado por:

SCE(Xi1 ) SCE(Xi2 , X i1 ) SCE(Xi2 /X i1 )


2
R YX
2 .X1 SCE(Xi1 ) SCE(Xi1 )

SCR(X i1 , X i2 ) SCR(X i1 ) SCR(X i2 /X i1 )



SCE(Xi1 ) SCE(Xi1 )

n n
La SCE(X i1 ) (Yi Yi ) 2 y la SCR(X i1 ) (Yi Y i ) 2
i 1 i 1

son calculadas con el modelo estimado Yi 0 1 X i1

n
La SCE(X i1 , X i2 ) (Yi Yi ) 2
i 1

26 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n
y la SCR(X i1 , X i2 ) (Yi Y ) 2
i 1

son calculadas con el modelo estimado Yi 0 1 X i1 2 X i2 .

Otro caso de frmula de coeficiente de correlacin parcial es el siguiente:

SCE(Xi1 , X i2 ) SCE(Xi1 , X i2 , X i3 )
2
R YX
3 .X1X 2 SCE(Xi1 , X i2 )

SCR(X i1 , X i2 , X i3 ) SCR(X i1 , X i2 )

SCE(Xi1 , X i2 )

el cual mide la proporcin de varianza que se ha disminuido al ingresar la variable X i3


si estn presentes en el modelo las variables Xi1 y Xi2 . Este indicador tambin puede
ser expresado en forma porcentual.

5.19 Anlisis de regresin no lineal simple


Una regresin no lineal simple relaciona a una variable dependiente y una variable
independiente a travs de un modelo estadstico que crece geomtricamente.

Las siguientes estructuras corresponden a modelos estimados no lineales:


a) Yi 0 1X i b) Yi 0 X i 1

1
c) Yi 0 1 d) Yi 0 1 ln X i
Xi

e) ln Yi 0 1 ln X i f) ln Yi 0 1 X i

1
g) Yi
(0 1Xi1...k Xik )
1 e

( X ... k Xik )
h) Yi 10 0 1 i1

i) Yi
Xi

j) Yi 0 1 X i 1 X i2 3 X 3i ... k X ik

En la estimacin de los parmetros de algunos de estos modelos puede usarse el


artificio de linealizarlos. Cuando un modelo no lineal puede ser linealizado el modelo es
llamado modelo intrnsicamente lineal en otro caso es llamado modelo intrnsicamente
no lineal.

27 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

La linealizacn de los modelos intrnsicamente lineales puede realizarse mediante la


aplicacin de logaritmos y otros por el cambio de variables. Para los modelos
intrnsicamente no lineales se utiliza algn procedimiento de aproximacin que conlleve
a la estimacin.

Estimacin de parmetros del modelo exponencial

Este modelo es intrnsicamente lineal con la utilizacin de los logaritmos.

Aplicando logaritmo al modelo Yi 0 1X i se tendr:

ln Yi ln 0 (ln 1 ) X i

realizando el cambio de variables se tiene:

Z i ln Yi A ln 0 B ln 1

Z i A B X i

que es un modelo que tiene la forma lineal, luego las ecuaciones del sistema son:
n n

Z
i 1
i n A B X i
i 1

n n n

X i Z i A X i B X i2
i 1 i 1 i 1

por tanto, las frmulas para la estimacin de los parmetros obtenidas por el mtodo de
los determinantes son:

n n

Zi X i
i 1 i 1
n n
2
X i Zi Xi
A i 1 i 1 Z BX
n

n


i 1
Xi

n n

Xi X i2
i 1 i 1

28 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

n n

Xi Z i
i 1 i 1
n 2 n

Xi X i Zi
B i 1 i 1
n

n

i 1
Xi

n n
2
Xi Xi
i 1 i 1

aplicando antilogaritmo se obtienen los estimadores de los parmetros:

A ln 0 0 e A

B ln 1 1 e B

5.20 Ejercicios propuestos


1. Responda brevemente a las siguientes preguntas:
a) Para que sirve un diagrama de dispersin?
b) Cul es la diferencia entre un modelo estadstico y un modelo matemtico?
c) Cundo se dice que un modelo estimado es adecuado para estimar a los datos.
d) Seale en qu caso debe realizarse un anlisis de regresin lineal simple,
mltiple y no lineal?
2. El volumen de la poblacin (en personas) en un distrito crece anualmente segn el
siguiente modelo :
0 1 * Tiempo

a) Interprete para 0 12,000 y 1 15

b) Suponiendo que 1 0 , que observaciones puede Ud. hacer respecto de la


relacin entre las variables (mnimas 2 observaciones).
c) Cuntas personas se incrementarn al volumen despus que transcurran 5 aos?
d) Es un modelo longitudinal transversal?.
3. El incremento de peso (en gramos) y el incremento de talla (en cms.) en peces se da a
continuacin:

Incremento 10 15 20 17 15 20 23 29 20
de Peso
Incremento 3 2 5 7 4 6 5 7 5
de talla
a) Construya el diagrama de dispersin.

29 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.


Estadstica y Diseos Experimentales

b) Con los datos estime los siguientes modelos


i) Y 0 1 X
ii ) Y 0 * 1X
c) Cul de los dos modelos estimados es mas adecuado para estimar a los datos?.
d) Con el modelo estimado adecuado pronostique el incremento de peso para un
incremento de talla de 10 cms.
4. Si es posible, realice la linealizacin de las siguientes funciones.
a) Y X

Y X
2
b)
c) ln Y e ( 0 1 X )

5. Se ha estudiado la situacin problemtica en una ciudad comercial en lo que concierne al


incremento de robos menores y se ha llegado a plantear la siguiente hiptesis, El nmero de
robos menores aumenta en la medida que aumenta la razn de desocupados respecto de los
ocupados, aumenta la razn de desercin en la educacin secundaria respecto de los que no
desertan, disminuye la razn de oferta de puestos de trabajo respecto del nmero de centros de
trabajo y aumenta respecto del tiempo. De un estudio al respecto se ha obtenido la siguiente
informacin:

Mes Nmero de Razn de Razn de Razn de


robos desocupados desercin oferta de
menores respecto de (Xi3) trabajo (Xi4)
(Xi1) los ocupados (o/oo) (o/oo)
(Xi2)
(tanto por 10)
Al 31 de Ene 99 3.1 1.0 4.9
Feb 87 3.8 1.8 5.1
Mar 85 4.2 2.0 5.0
Abr 120 4.5 2.3 3.5
May 206 4.9 2.7 4.1
Jun 188 5.3 3.5 3.6
Jul 215 5.7 4.1 4.2
Ago 169 5.4 4.3 3.5
Set 197 6.1 5.1 3.8
Oct 176 6.3 5.6 3.0
Nov 268 5.8 5.7 2.0
Dic 358 8.4 4.9 1.0

a) Con la informacin dada realice el anlisis de regresin y correlacin correspondiente.


b) Halle e interprete los siguientes coeficientes

RY2.Xi 2Xi3 , RY.Xi 2Xi3 , RY2.Xi 2Xi3(ajustado)


2 2
RYXi 2 . Xi 3 y RYXi 3. Xi 2

30 Recopilacin por Tefilo Donaires Flores. Facultad de Ingeniera Qumica.

You might also like