Professional Documents
Culture Documents
Captulo 5
Si el cambio de valor de una variable, est influenciada, por el cambio de valor de otra u
otras variables, el anlisis estadstico se har mediante el anlisis de regresin y
correlacin. A la variable que depende de la influencia se la denomina variable
dependiente y a las variables influyentes, variables independientes o factores.
Deduzca que en los casos mencionados en el primer prrafo, la relacin entre las
variables es de causa-efecto y no debe ser una relacin meramente matemtica. La
causa es la variable independiente y el efecto la variable dependiente. La variable
independiente es una variable predeterminada no aleatoria, sin errores, esto es, se
supone que en su medicin no tiene errores y los que se cometan son despreciados. Por
el contrario, la variable dependiente mide el efecto obtenido a causa de la manipulacin,
movimiento o cambio natural de la variable predeterminada, es de naturaleza aleatoria y
los errores que se obtengan de su medicin sern significativos.
En sntesis podemos concluir que, todo anlisis de regresin tiene como meta la
bsqueda de:
La proporcin de explicacin
La proporcin de asociacin
La proporcin de ajuste
Ambos anlisis deben complementarse tan igual como la media y la varianza en los
estudios unidimensionales, para cumplir con el objetivo final de todo anlisis de
regresin y correlacin, el cual es:
Es tambin importante hacer mencin que, una variable dependiente puede estar
influenciada aritmticamente por una variable independiente o por varias variables
independientes; el primer caso lo trata el anlisis de regresin y correlacin lineal
simple y el segundo caso lo trata el anlisis de regresin y correlacin lineal mltiple. Si
la variable dependiente est influenciada geomtricamente por una o ms variables
independientes el caso lo tratar el anlisis de regresin y correlacin no lineal y puede
ser tambin simple o mltiple.
Una influencia aritmtica est referida a que la variable dependiente crece o decrece a
cierto valor constante, por cada paso de la variable independiente o de las variables
independientes con quien se las est relacionando. Cuando la influencia es geomtrica
la variable dependiente crece o decrece ms rpidamente y no en forma constante, por
cada paso constante de la variable independiente o de las variables independientes en
relacin.
CASO N 5.1
Los cambios en la demanda de un artculo se producen por los cambios que se producen
en el precio, en el costo de los insumos de fabricacin, en el costo de mano de obra, en
el costo de maquinaria, en el gasto administrativo, en el gasto de impuestos, en el gasto
de mantenimiento, en el gasto de incentivos, en el costo de promocin, en el tiempo,
etc.
Sin embargo, los casos de comportamiento real, pueden demostrar que, algunos de los
factores mencionados tendrn influencias significativas, otros tendrn menos
influencias significativas y otros tal vez, no manifestaran ninguna influencia
significativa que repercuta sobre los valores de la variable de estudio. Debemos
entender por influencia significativa a aquella que produce cambios, beneficios o
utilidades que sobresalen por encima de las normales. As por ejemplo:
CASO N 5.2
Hay que indicar que si bien la relacin terica que encontremos puede ser perfecta, los
datos en el proceso de anlisis pueden manifestar lo contrario. Si lo ltimo sucediese
hay que buscar los antecedentes del no cumplimiento de dicha relacin que pueden
aportar con ideas a la toma de decisin final.
CASO N 5.3
CASO N 5.4
CASO N 5.5
Este caso de relacin tericamente nos expresa que si el precio de un artculo bajara y el
gasto de promocin se incrementara, la demanda del artculo subira.
CASO N 5.6
La unidad de anlisis y las variables en el anlisis de la relacin del precio (en soles) y
del costo de promocin (en soles por artculo producido) sobre la demanda (tanto por
mil) de una marca de detergente son:
Detergente
Variable dependiente:
Variables independientes:
Es conveniente que se aclare que para cada una de las variables debe darse adjunto, la
mtrica (unidad de medida) sobre la que es observada o medida cada una de las
variables. Es un punto muy importante para realizar las interpretaciones respectivas.
Yi 0 1 X i e i i 1, 2, ..., n
donde
Cada uno de los valores de Y tiene la forma de lnea recta, dada la influencia de cada
valor de la variable X , as tenemos:
Y1 0 1 X1 e1
Y2 0 1 X 2 e 2
...............
Yi 0 1 X i e i
...............
Yn 0 1 X n e n
Observaciones
Yi 0 e i Yi 0 e i
1 0 1 0
Yi 0 1 X i e i
Yi 0 1 X i e i
GRAFIC0 N 46
DIAGRAMA DE DISPERSION O NUBE DE PUNTOS
30
24
18
12
Y
0
1978
1982
1986
1990
1994
1998
2002
En el ajuste debe tenerse en cuenta que, el modelo de ajuste debe pasar, sino es por
encima, lo ms cerca posible de los puntos, garantizando con ello, una buena estimacin
de los parmetros y por ende una buena prediccin de algn valor futuro.
Yi 0 1 X i i 1, 2, ..., n
y los puntos por encima o por debajo de la recta tienen por modelo a:
Yi 0 1 X i e i i 1, 2, ..., n
Los modelos sern coincidentes si los ei se hace cero. Este es el principio seguido para
la estimacin de los parmetros. Al primero se ele llama modelo matemtico y al
segundo modelo estadstico o aleatorio.
GRAFICO N 47
Diagrama de dispersin y ajuste de un modelo estadstic o lineal
Como el modelo matemtico debe ser ajustado a los datos, la estimacin se realizar
para este modelo y no para el modelo estadstico. El mtodo preparado para tal fin es
conocido como Mtodo de los Mnimos Cuadrados Ordinarios (MCO), con el cual se
persigue obtener estimaciones de los parmetros de tal forma que los errores tiendan
hacia cero.
El modelo matemtico estimado que servir para hallar los coeficientes estimados
tendr la forma:
Yi 0 1 X i i 1, 2, ..., n
Dada la limitacin del conocimiento del Clculo Diferencial, en este tratado, se utilizar
un procedimiento mediante el cual se obtendr un sistema con dos ecuaciones las que a
su vez nos proporcionar dos frmulas de estimacin teniendo en cuenta que en el
modelo se tiene dos parmetros. El procedimiento es como sigue:
Yi 0 1X i
i 1 i 1 i 1
n n
Yi n 0 1 X i
i 1 i 1
(1)
2) Multiplique X i a cada uno de los trminos del modelo matemtico y luego aplique
sumatoria:
X i Yi 0 X i 1 X i2
n n n
X i Yi 0 X i 1 X i2
i 1 i 1 i 1
(2)
Yi 0 1 X i
i 1 i 1
n n n
X Y
i 1
i i 0 X i 1 X i2
i 1 i 1
De este sistema de ecuaciones se hallan las frmulas para hallar las estimaciones de
los parmetros. Utilizaremos en este caso, el mtodo de los determinantes, estas
frmulas son:
n
n Y i 1
i
n n n n n
Xi
i 1
X Y
i 1
i i n X i Yi X i Yi
Sx
1 i 1 i 1 i 1
2
n
n
Sy
X
n
n i n X i2 X i
n
i 1
n
i 1 i 1
X X
i 1
i
i 1
2
i
n n
Yi
i 1
X i 1
i
n n n n n n
X i Yi
i 1
X i2
i 1
Yi X i2 X i X i Yi
i 1 i 1 i 1 i 1
0 i
2
n
X
n n
n i n X i2 X i
n
i 1
n
i 1 i 1
X X
i 1
i
i 1
2
i
Y 1 X
finalmente, los valores hallados para los coeficientes deben ser reemplazados en el
modelo matemtico estimado. Luego, los valores estimados para Yi pueden ser
estimados en la forma:
Yi Y e i
e i Yi Yi
EJEMPLO N 5.1
Empleado 1 2 3 4 5 6 7 8
Ingreso 800 850 900 950 1000 1050 1100 1150
Gasto 300 360 400 470 600 580 700 650
Hallar:
a) El diagrama de dispersin
SOLUCION
Se define entonces:
GRAFICO N 48
DIAGRAMA DE DISPERSIN PARA EL GASTO SEGUN EL INGRESO
750
650
550
450
GASTO (Y)
350
250
750 800 850 900 950 1000 1050 1100 1150 1200
INGRESO (X)
El diagrama de dispersin muestra que los puntos tienen una tendencia lineal y
una dispersin bastante aceptable para que sea ajustada por una recta. Tambin se
puede observar que la recta que se ajuste tendr una pendiente que hace suponer
que el coeficiente de regresin es significativo, esto es, que se puede aceptar que
es diferente de cero. Esta pendiente ser determinante para aceptar que el gasto
est influenciado o asociado positivamente por el ingreso, lo cual quiere decir que,
si el ingreso mensual de un empleado se incrementara en el futuro, el gasto
mensual de este empleado tambin se incrementara.
Y i 1
i 0 1 X i
i 1
n n n
X i Yi 0 X i 1 X i2
i 1 i 1 i 1
Empleado
N Xi Yi X i Yi X i2
1 800 300 240000 640000
2 850 360 306000 722500
3 900 400 360000 810000
4 950 470 446500 902500
5 1000 600 600000 1000000
6 1050 580 609000 1102500
7 1100 700 770000 1210000
8 1150 650 747500 1322500
Total 7800 4060 4079000 7710000
donde:
n n n
X i 7800
i 1
Yi 4060
i 1
X Y
i 1
i i 4079000
X
i 1
2
i 7710000
4060 8 0 7800 1
4060 7800
4079000 7710000
0 661.429
8 7800
7800 7710000
8 4060
7800 4079000
1 1.148
8 7800
7800 7710000
Yi 661.429 1.148 X i
El coeficiente de determinacin
El coeficiente de correlacin
El coeficiente de determinacin ajustado.
El grfico que se muestra a continuacin nos presenta a los elementos que intervienen
en el anlisis de la correlacin:
GRAFICO N 49
Descomposi cin del valor Yi en sus partes componente s
Y
Yi
Y i Y i
Y Yi Y
X
En forma de desviaciones, la ordenada Yi puede ser expresada como se muestra:
Yi Y (Yi Y) (Yi Yi )
donde:
Por tanto:
Desviacin Desviacin
Desviacin total exp licada no exp licada
por la regresin por la regresin
elevando al cuadrado las desviaciones y sumndolas para todos los puntos, se tendr las
siguientes sumas de cuadrados:
n n n
n
SCT = SUMA DE CUADRADOS DEL TOTAL = (Y Y)
i 1
i
2
n
SCR = SUMA DE CUADRADOS DE LA REGRESION = (Y
i 1
i Y) 2
n
SCE = SUMA DE CUADRADOS DEL ERROR = (Y
i 1
i Yi ) 2
1) Si los puntos estn sobre la recta, la SCR recoge toda la variabilidad de los datos y
la SCE es cero.
3) Para que exista buen ajuste mediante la lnea recta, la SCR debe estar bastante cerca
de la SCT.
e i Yi Yi
a) Una relacin exacta o perfecta en la prctica conllevar a que los puntos sean
coincidentes con la recta lo cual implicar que los errores para todos los puntos sean
cero, esto es, e i 0 i 1, 2 ,..., n . Este hecho en la prctica es imposible que
ocurra y los puntos se colocarn por encima, por debajo o por encima de la recta.
ei Yi Yi 0
Yi Yi
c) Cuando los valores observados Yi , estn por encima de los valores esperados Yi ,
los residuales son positivos e i 0 , luego, los valores esperados subestiman a los
valores observados.
Yi
e i Yi Yi 0
Yi
d) Si los valores observados Yi estn por debajo de los valores esperados Yi , esto
es, los residuales son negativos e i 0 , los valores esperados sobreestimaran a los
valores esperados.
Yi
ei Yi Yi 0
Yi
SCR SCE
1
SCT SCT
SCR
(Y i Y) 2
R2 i 1
n
(Y
SCT
i Y) 2
i 1
SCR (Y i Yi ) 2
R2 1 1 i 1
n
(Y
SCT
i Y) 2
i 1
esta ltima expresin nos muestra que el R 2 tiene un rango de variacin de 0 a 1, esto
es, 0 R 2 1 . En razn de lograr una buena interpretacin, se recomienda convertirlo a
porcentaje. La variacin en forma porcentual ser ahora de 0 al 100 %, es decir,
0 % R 2 % 100 % .
R R2
1 R 1
Para la interpretacin, debe ser expresado en forma porcentual con una variacin del
0% al 100%. El signo solamente debe hacer referencia al sentido o tendencia de la recta
de regresin.
R 0
Yi 0
R 0 Yi 0 1 X i
Yi 0 1 X i
R 0
R 0
Yi 0 1 X i
R 1 Yi 0 1 X i
R 1
Yi 0 1 X i
0 R ajustado
2
1 y en forma porcentual 0% R ajustado
2
% 100%
a) 2
Si R ajustado 1 , todos los puntos estn sobre la lnea recta. Esta informacin del
coeficiente es equivalente a decir que el 100% de los puntos son ajustados por la
lnea recta. Otra equivalencia de interpretacin es que, de 100 puntos, los 100
puntos pasan sobre la lnea recta.
b) 2
Si R ajustado 1 , los puntos se disponen cerca y por encima de la recta.
c) 2
Si R ajustado 0 , la recta est tan alejada de los puntos que no refleja ningn ajuste
o solo el ajuste es para muy pocos puntos.
Es conveniente indicar que, las tres medidas tratadas se complementan, de tal manera
que pueden llegar a ser confundidas en su interpretacin, as por ejemplo, un alto grado
en el coeficiente de determinacin implicar un alto grado de correlacin y un alto
grado de ajuste.
S Y .X S 2Y .X
Yi SY.X
SY.X
SY.X
Yi SY.X
y 0 0 1 x 0
y 0 S Y .X Y0 y 0 S Y .X
EJEMPLO N 5.2
Para los datos del ejemplo 5.1, en la cual se da el gasto en alimentacin mensual (en
soles) de 8 empleados que est en relacin al ingreso mensual (en soles) se reproduce en
la tabla siguiente:
Empleado 1 2 3 4 5 6 7 8
Halle:
SOLUCION
donde:
Y 507.5 soles
Empleado Xi Yi Yi
1 800 300 306.6667
2 850 360 364.0476
3 900 400 421.4286
4 950 470 478.8095
5 1000 600 536.1905
6 1050 580 593.5714
7 1100 700 650.9524
8 1150 650 708.3333
las estimaciones de los gastos fueron calculados al reemplazar los ingresos dados
en la recta ajustada como sigue:
Empleado Yi Yi e i Yi Yi
1 300 306.6667 -6.66666
2 360 364.0476 -4.04761
3 400 421.4286 -21.42860
4 470 478.8095 -8.80951
5 600 536.1905 63.80951
6 580 593.5714 -13.57140
7 700 650.9524 49.04761
8 650 708.3333 -58.33330
8
SCE ( Yi Yi ) 2 10661.9
i 1
8
SCT ( Yi 507.5) 2 148950 .0
i 1
Coeficiente de determinacin
SCR 138288 .1
R2% * 100 * 100 92.84%
SCT 148950 .0
El ingreso explica al gasto en un 92.84%, lo cual implica que por cada 100 puntos
de gasto, aproximadamente 93 puntos de los gastos son explicados por el ingreso.
Otra equivalencia de interpretacin es que por cada 100 soles de gasto, 93 soles
son explicados por el ingreso.
Coeficiente de correlacin
Esta medida expresa en que cantidad los gastos estn asociados o influenciados al
ingreso, por tanto, se puede decir que, aproximadamente 96 de los 100 gastos
estn influenciados por el ingreso, que es una buena medida de asociacin.
SCE 138288.1
2
R ajustado % (1 n 2 ) *100 1 8 2 *100
SCT 148950.0
n 1 8 1
91 .65 %
Este valor indica el grado de ajuste o cercana de la recta a los puntos, por tanto,
se puede decir que de 100 puntos, aproximadamente 92 puntos estn cercanos y 8
estn alejados de la recta de ajuste.
donde:
SCE 10661 .9
S Y .X 42.15428
n2 82
f) Se estima que un empleado que tenga un ingreso de 2000 realizar un gasto que
vara entre 1642.42 a 1726.73, segn se muestra en el intervalo que se calcula
como sigue:
1642.42 Yp 1726.73
Yi 0 1 X i1 2 X i 2 ... k X ik e i
para el conjunto de datos i 1, 2, ..., n , esto es, cada valor podr ser escrito como:
Y1 0 1 X 11 2 X 12 ... k X 1k e1
Y2 0 1 X 21 2 X 22 ... k X 2 k e 2
..
Yi 0 1 X i1 2 X i 2 ... k X ik e i
..
Yn 0 1 X n1 2 X n 2 ... k X nk e n
Para este anlisis se toman en cuenta a una variable dependiente y dos variables
independientes ( k 2) . El modelo estadstico lineal es el siguiente:
Yi 0 1 X i1 2 X i 2 e i
0 : es el intercepto de Y cuando x1 0 y x 2 0
Para estimar a los parmetros debe emplearse el modelo matemtico estimado, el cual
es:
Yi 0 1 X i1 2 X i 2
y del cual para hallar los estimadores de los coeficientes debe seguirse el procedimiento
que se describe a continuacin, teniendo presente que se deben construir k 1
ecuaciones ( k 1 parmetros en el modelo). En este caso deben construirse un sistema
con 3 ecuaciones:
Yi 0 1X i1 2 X i 2
i 1 i 1 i 1 i 1
n n n
Y
i 1
i n 0 1 X i1 2 X i 2
i 1 i 1
(1)
2) Multiplique por X i1 a cada uno de los trminos del modelo matemtico y luego
aplique sumatoria:
X i1 Yi 0 X i1 1 X i21 2 X i1 X i 2
n n n n
X
i 1
i1 Yi 0 X i1 1 X i21 2 X i1 X i 2
i 1 i 1 i 1
(2)
3) De igual manera multiplique por X i 2 a cada uno de los trminos del modelo
matemtico y luego aplique sumatoria:
X i 2 Yi 0 X i 2 1 X i1 X i 2 2 X i22
n n n n
X i 2 Yi 0 X i 2 1 X i1X i 2 2 X i22
i 1 i 1 i 1 i 1
(3)
Yi n 0 1 X i1 2 X i 2
i 1 i 1 i 1
(1)
n n n n
n n n n
X i 2 Yi 0 X i 2 1 X i1X i 2 2 X i22
i 1 i 1 i 1 i 1
(3)
n n n
Yi X i1 X i2
i 1 i 1 i 1
n n n
X i1Yi X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n
X Y X i 2
i2 i X 2
i1 X i2
0 i 1 i 1 i 1
n n
n
X
i 1
i1 i 1
X i2
n n n
X i1 X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n
X X i 2
i2 X 2
i1 X i2
i 1 i 1 i 1
0 1 X 1 2 X 2
n n
n
Yi 1
i Xi 1
i2
n n n
X i1 X i1 Yi X i1 X i 2
in1 i 1
n
i 1
n
X X i 2
i2 X 2
i2 Yi
1 i 1 i 1 i 1
n n
n
X
i 1
i1 i 1
X i2
n n n
X i1 X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n
X X i 2
i2 X 2
i1 X i2
i 1 i 1 i 1
n n
n
X i1
i 1
Y i 1
i
n n n
X i1 X
2
i1 X i1 Yi
in1 n
i 1 i 1
n
X X i 2 Yi
i2 X i1 X i2
2 i 1 i 1 i 1
n n
n
Xi 1
i1 i 1
X i2
n n n
X i1 X
2
i1 X i1 X i 2
in1 n
i 1 i 1
n
X X i 2
i2 X 2
i1 X i2
i 1 i 1 i 1
donde
n
SCT ( Yi Y ) 2
i 1
n
SCR ( Yi Y ) 2
i 1
n
SCE ( Yi Yi) 2
i 1
con Yi 0 1 X i1 2 X i1 ... k X ik
SCR SCE
R 2Y.X1X 2 ...X k 1
SCT SCT
el coeficiente de correlacin:
SCE
n k S 2Y.X1X 2 ...X k
R 2Y.X1X 2 ...X k 1 1
SCT S 2Y
n 1
El coeficiente de correlacin parcial es una medida del grado en que la SCE disminuye
cada vez que ingresa una variable estando presente una o ms variables en el modelo.
Por ejemplo, el coeficiente de correlacin parcial para determinar la proporcin de SCE
que ha disminuido al ingresar la variable X i 2 en un modelo en donde est presente la
variable X i1 est dado por:
n n
La SCE(X i1 ) (Yi Yi ) 2 y la SCR(X i1 ) (Yi Y i ) 2
i 1 i 1
n
La SCE(X i1 , X i2 ) (Yi Yi ) 2
i 1
n
y la SCR(X i1 , X i2 ) (Yi Y ) 2
i 1
SCE(Xi1 , X i2 ) SCE(Xi1 , X i2 , X i3 )
2
R YX
3 .X1X 2 SCE(Xi1 , X i2 )
SCR(X i1 , X i2 , X i3 ) SCR(X i1 , X i2 )
SCE(Xi1 , X i2 )
a) Yi 0 1X i b) Yi 0 X i 1
1
c) Yi 0 1 d) Yi 0 1 ln X i
Xi
e) ln Yi 0 1 ln X i f) ln Yi 0 1 X i
1
g) Yi
(0 1Xi1...k Xik )
1 e
( X ... k Xik )
h) Yi 10 0 1 i1
i) Yi
Xi
j) Yi 0 1 X i 1 X i2 3 X 3i ... k X ik
ln Yi ln 0 (ln 1 ) X i
Z i ln Yi A ln 0 B ln 1
Z i A B X i
que es un modelo que tiene la forma lineal, luego las ecuaciones del sistema son:
n n
Z
i 1
i n A B X i
i 1
n n n
X i Z i A X i B X i2
i 1 i 1 i 1
por tanto, las frmulas para la estimacin de los parmetros obtenidas por el mtodo de
los determinantes son:
n n
Zi X i
i 1 i 1
n n
2
X i Zi Xi
A i 1 i 1 Z BX
n
n
i 1
Xi
n n
Xi X i2
i 1 i 1
n n
Xi Z i
i 1 i 1
n 2 n
Xi X i Zi
B i 1 i 1
n
n
i 1
Xi
n n
2
Xi Xi
i 1 i 1
A ln 0 0 e A
B ln 1 1 e B
Incremento 10 15 20 17 15 20 23 29 20
de Peso
Incremento 3 2 5 7 4 6 5 7 5
de talla
a) Construya el diagrama de dispersin.
Y X
2
b)
c) ln Y e ( 0 1 X )