Professional Documents
Culture Documents
Universidad de El Salvador
Facultad de Ciencias Econmicas
Escuela de Economa
Departamento de Matemticas y Estadsticas
Asignatura:
Estadistica II
Catedrtica:
Lic. Sal Orlando Quintanilla Lemus
Grupo Teorico:
N 11
Contenido:
Regresion Lineal Mltiple en las Ramas de la Actividad
Econmica de la Construccin, Industria
Manufacturera y Transporte, Amacenaje y
Comunicaciones en el perodo de 1995 a 2009 con
respecto a la Poblacin Econmicamente Activa.
Integrantes:
Efran Ernesto Arvalo Aparicio
AA09016
Doris Irene Castro Daz
CD10003
Moiss Alexander Chvez Vsquez CV10003
Universidad de El Salvador
Facultad de Ciencias Econmicas
Escuela de Economa
Departamento de Matemticas y Estadsticas
Asignatura:
Estadstica II
Catedrtica:
Lic. Sal Orlando Quintanilla Lemus
Grupo Teorico:
N 11
Contenido:
Regresin Lineal Mltiple en las Ramas de la Actividad
Econmica de la Construccin, Industria
Manufacturera y Transporte, Amacenaje y
Comuncaciones en el perodo de 1995 a 2009 con
respecto a la Poblacin Econmicamente Activa.
Integrantes:
Nombre
Carne
AA09016
Porcentaje de
Participacin
50%
Aparicio
Doris Irene Castro Daz
Moises Alexander Chvez
Vsquez
Adriana Guadalupe
Martnez Ayala
CD10003
CV10003
100%
MA09008
90%
100%
NDICE
ndice........................................................................................................................................i
Objetivos.................................................................................................................................ii
Investigacin Realizada..........................................................................................................6
Poblacin Econmicamente Activa.....................................................................................6
Especificacin del modelo de regresin..............................................................................8
Hipotesis del Modelo...................................................................................................9
Fuente de Datos y Descripcion de Variables.......................................................................9
Resultados de la Regresin................................................................................................11
1. Variables Introducidas/Eliminadas.........................................................................11
2. Estadisticos descriptivos........................................................................................12
3.Modelo de Regresin..............................................................................................13
Resumen del Modelo...............................................................................................13
Test sobre Supuestos de Modelo.......................................................................................14
Test sobre el supuesto del modelo. (Normalidad: Test de JarqueBera).....................14
Test Significancia global del modelo: Prueba F.........................................................18
Test de significancia de coeficientes: Prueba T.........................................................18
Determincacion de Intervalos de confianza...............................................................19
Proyecciones con la regresin
obtenida2O
Conclusiones.........................................................................................................................21
Recomendaciones..................................................................................................................22
Bibliografa...........................................................................................................................24
Anexos
ii
OBJETIVOS
Objetivo General:
Analizar del modelo de Regresin Lineal Mltiple al tema de la Poblacin
Econmicamente Activa segn la rama de Actividad econmica durante el periodo
comprendido entre 1995 a 2009.
Objetivo Especfico:
1. Aplicacin del Mtodo de Regresin Mltiple al Tema de Investigacin.
2. Adquirir conocimiento sobre el manejo del Mtodo de Regresin Lineal Mltiple.
3. Elaborar un Modelo de Regresin Lineal Mltiple que explique de manera precisa
el comportamiento de las variables de estudio segn Actividad Econmica en la
Poblacin Econmicamente Activa.
ii
24
INVESTIGACIN REALIZADA
POBLACIN ECONMICAMENTE ACTIVA
La poblacin econmicamente activa PEA- es una variable utilizada para medir la fuerza
de trabajo de una nacin o territorio, ya que contabiliza el nmero de personas que son
capaces de trabajar y desean hacerlo. Segn el VI Censo de Poblacin 2007, la PEA se
refiere a las personas de 10 aos y ms, vinculadas a la actividad econmica que
conforman la fuerza de trabajo; ya que se encuentren ocupados, desocupados pero
buscando trabajo, o que buscan trabajo por primera vez (Ministerio de Economa, 2008).
Los resultados del VI Censo de Poblacin 2007 indican que en El Salvador existe una
PEA de 1, 909,256 personas, las cuales representan el 33.24% de la poblacin total
censada a nivel nacional. Al comparar los resultados del VI Censo de Poblacin 2007 con
los obtenidos por el V Censo de Poblacin 1992, se observan algunos cambios en la
composicin de la PEA de nacional.
Este es el caso de la PEA en la zona urbana, la cual ha aumentado su participacin del
55.5% de la PEA nacional en 1992 al 73.1% en el 2007. En contraste, la PEA en la zona
rural ha disminuido del 44.5% al 26.9% de la PEA nacional en el mismo perodo.
Es importante mencionar que de acuerdo al VI Censo de Poblacin 2007, en la zona urbana
se concentra el 62.7% de la poblacin a nivel nacional, y en la zona rural el 37.3%;
mostrando as que existe una mayor concentracin de poblacin en la zona urbana. Llmese
as a la parte de la poblacin total que participa en la produccin econmica. En la prctica,
para fines estadsticos, se contabiliza en la PEA a todas las personas mayores de una cierta
edad (10 aos, por ejemplo) que tienen Empleo o que, no tenindolo, estn buscndolo o a
la espera de alguno. Ello excluye a los pensionados y jubilados, a las amas de casa,
estudiantes y rentistas as como, por supuesto, a los menores de edad.
Si se calcula el porcentaje entre la PEA y la poblacin total se obtiene la tasa de actividad
general de un pas. Cuando un pas tiene altas tasas de Crecimiento demogrfico la tasa de
actividad suele ser baja, pues existe un alto nmero de menores de edad y estudiantes en
relacin al total. Ello ocurre frecuentemente en los pases menos desarrollados, como
Producto de la llamada transicin demogrfica, constituyndose en una traba para alcanzar
un mayor Crecimiento econmico, pues las personas que laboran tienen que producir
-directa o indirectamente- para un gran nmero de personas que no generan Bienes.
24
Industria.
La industria surge con el fin de producir bienes para el consumo humano. Estos bienes se
obtienen mediante la transformacin directa o indirecta de los recursos naturales.
Actualmente, en El Salvador las actividades industriales se llevan a cabo a diferentes
niveles; por ejemplo, se considera industria desde un taller familiar que elabora vestidos,
hasta una gran fbrica que produce maquinaria.
Las principales actividades industriales en El Salvador son: fabricacin de
productos metlicos, elaboracin de sustancias qumicas, productos de caucho y plstico;
produccin de alimentos, bebidas y tabaco; elaboracin de textiles y prendas de vestir, entre
otras. Muy probablemente, la mayor cantidad de las personas que se encuentran trabajando
la industria manufacturera sean trabajadoras (es) de las maquilas de ropa. En El Salvador, el
total de personas trabajando en estas empresas son cerca m de 80,000, lo cual corresponde
al 84% de las personas que trabajan en la actividad de Textiles y cerca del 37% del total de
personal empleado en la rama de Industria manufacturera a nivel nacional. El 83% de estas
personas son mujeres con edades promedio entre los 18 y 24 aos y con una escolaridad
promedio de octavo grado de educacin bsica (mientras que el promedio nacional de
escolaridad de la PEA es de 5 grados de educacin primaria).
Algunos autores reconocen la maquila de ropa como una de las reas en que se
concentra la produccin para la exportacin -eje de acumulacin de las economas
centroamericanas de la posguerra- y por lo tanto, estos volmenes de empleo ms las
caractersticas de la mano de obra, se pueden caracterizar como un fenmeno de nueva
24
Comercio.
En nuestros das, el comercio en El Salvador se ha visto favorecido por el aumento delos
medios y vas de comunicacin. Existe una gran variedad en cuanto a giro de actividad y
tamao, que va desde los pequeos hasta los grandes establecimientos. Los comercios se
concentran en las zonas urbanas, especialmente en las entidades donde existe un gran
nmero de poblacin.
Transporte, almacenaje y comunicaciones.
En nuestro pas, desde hace varios aos se ha impulsado el desarrollo de los transportes y
de los medios de comunicacin. Ambos se encuentran muy relacionados con el crecimiento
de la poblacin, as como con sus necesidades.
24
Hiptesis Nula:
No existe relacin lineal entre la PEA y las ramas de actividad Econmica - Industria
Manufacturera, Construccin y Transporte, almacenaje y comunicaciones, de tal manera
que la contribucin de estas ramas de actividad econmicas no son significativas a la PEA
Hiptesis Alternas:
1. Existe relacin lineal entre la PEA y la rama de Actividad Econmica Industria
Manufacturera, de tal manera que la contribucin de esta rama es significativa para
la PEA.
2. Existe relacin lineal entre la PEA y la rama de Actividad Econmica
Construccin., de tal manera que la contribucin de esta rama es significativa para
la PEA.
3. Existe relacin lineal entre la PEA y la rama de Actividad Econmica Transporte,
almacenaje y comunicaciones de tal manera que la contribucin de esta rama es
significativa para la PEA.
24
Ao
s
199
5
199
6
199
7
199
8
199
9
200
0
200
1
200
2
200
3
200
4
200
5
200
6
200
7
200
8
200
9
Industria
Manufacturera
(X1)
Construcc
Transporte,
in
Almacenaje
(X2)
y Comunicaciones
(X3)
Total general
PEA
Y
402945
146885
86460
1274575
393117
53415
97494
1090048
353867
157904
101797
1229133
438791
146699
98214
1369406
451386
152599
108332
1426633
432169
134455
113636
1362520
425834
147588
113373
1375591
424559
151816
103099
1360950
423449
176624
109228
1420605
397600
176759
119258
1389238
391034
165332
115475
1345687
385646
181907
110207
1357526
404258
169487
109011
1367519
417507
159527
105121
1366318
381156
147139
107691
1273981
24
En esta tabla se presenta un resumen del proceso de regresin mltiple que se realiza. En
esta tabla la columna de variables introducidas muestra las variables tomadas en cuenta
para realizar el anlisis de regresin, que en este caso son Industria Manufacturera,
Construccin y Transporte, almacenaje y comunicacin. La segunda columna indica si
se eliminaron variables, que en este caso se nos haba designado tres variables para el inicio
24
de la investigacin, al momento de una mayor recopilacin de los datos, nos dimos cuenta
que las ramas de la Poblacin Econmicamente Activa han ido segmentndose y con el
pasar de los aos algunas de sus componentes cambiaron, la nica que eliminamos fue
Administracin pblica y defensa y se sustituy por Transporte, almacenaje y
comunicacin, las otras dos permanecieron constantes. En la ltima columna aparece el
mtodo utilizado, introducir en este caso, que permiti decidir que variables se introducen
o extraen del modelo.
CUADRO N 1
VARIABLES INTRODUCIDAS/ELIMINADAS
Modelo
Variables introducidas
Variables
eliminadas
Mtodo
Industria Manufacturera,
Administracin
Construccin,
Dimensin 1
pblica y
Introducir
Transporte, almacenaje y
defensa.
comunicacin.a
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Poblacin Econmicamente Activa por rama de actividad
econmica.
24
ESTADISTICOS DESCRIPTIVOS
Media
Desviacin
Estndar
N. Observaciones
2398364
114272.359343806
15
408224.533333333
25554.3768570549
15
157875.733333333
13571.3606248424
15
107226.4
8876.13454156707
15
24
MODELO DE REGRESIN
Fuente
Interseccin
Industria Manufacturera
Construccin
Transporte, almacenaje y
comunicacin.
Valor
952114.728
0.932
1.247
Desviacin tpica
574604.687
1.002
2.076
8.105
2.996
24
que significa que las variables independientes no son lo suficientemente significativas para
poder explicar el modelo.
Modelo
R2
R2 corregido
0.728010988
0.530
0.402
24
P-P plot (PEA (por ao))
1
0.8
0.6
Conclusin:
Al umbral de significacin Alfa=0.050 no se puede rechazar la hiptesis nula segn la cual
la muestra sigue una ley normal. Dicho de otro modo, la anormalidad no es significativa.
Adems, al observar los puntos vemos que su comportamiento pertenece a una distribucin
normal, ya que estos se encuentran cerca de la lnea recta.
24
0.5
0.4
0.3
0.2
0.1
0
0 0.10.20.30.40.50.60.70.80.9 1
La grfica nos indica que existe una distribucin normal de la variable Industria
Manufacturera debido a que los puntos observados se posicionan muy cerca de la lnea
recta y de forma casual. Esto es evidencia suficiente para aceptar que existe una
distribucin normal de dicha variable independiente.
Prueba de Jarque-Bera
(Construccin)
JB (Valor observado)
0.683
JB (Valor crtico)
5.991
GDL
2
p-valor
0.711
alfa
0.05
Interpretacin de la prueba:
H0: La muestra sigue una ley Normal.
Ha: La muestra no sigue una ley Normal.
Como el p-valor calculado es mayor que el nivel de significacin alfa=0.05, no se puede
rechazar la hiptesis nula H0.
El riesgo de rechazar la hiptesis nula H0 cuando es verdadera es de 71.06%.
24
0.5
0.4
0.3
0.2
0.1
0
0 0.10.20.30.40.50.60.70.80.9 1
La grfica nos indica que existe una distribucin normal de la variable Construccin debido
a que los puntos observados se posicionan muy cerca de la lnea recta y de forma casual.
Esto es evidencia suficiente para aceptar que existe una distribucin normal de dicha
variable independiente.
Prueba de Jarque-Bera (Transporte, almacenaje y
comunicacin.)
JB (Valor observado)
1.142
JB (Valor crtico)
5.991
GDL
2
p-valor
0.565
alfa
0.05
Interpretacin de la prueba:
H0: La muestra sigue una ley Normal.
Ha: La muestra no sigue una ley Normal.
Como el p-valor calculado es mayor que el nivel de significacin alfa=0.05, no se puede
rechazar la hiptesis nula H0.
El riesgo de rechazar la hiptesis nula H0 cuando es verdadera es de 56.49%.
24
P-P plot (Transporte, almacenaje y comunicacin.)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
La grfica nos indica que existe una distribucin normal de la variable Transporte,
almacenaje y comunicacin, debido a que los puntos observados se posicionan mucho ms
cerca de la lnea recta y de forma casual. Esto es evidencia suficiente para aceptar que
existe una distribucin normal de dicha variable independiente.
TEST SIGNIFICANCIA GLOBAL DEL MODELO: PRUEBA F.
Fuente
Modelo
Error
Total
corregido
GDL
3
11
Suma de los
cuadrados
96880380742.881
85934028797.119
14
182814409540.000
Media de los
cuadrados
32293460247.627
7812184436.102
Pr> F
4.134
0.034
El valor del nivel critico Pr>F = 0.034 indica que si existe una relacin lineal significativa
entre la variable dependiente que es la Poblacin Econmicamente Activa segn la rama de
actividad econmica y el conjunto de variables independientes que son la Industria
Manufacturera, Construccin y Transporte, almacenaje y comunicacin.
Ya que el valor del nivel critico (Pr>F = 0.034), es menor que = 0.05. Por lo tanto se
rechaza H0 ya que Pr>F < .
24
H 0 : B0 =B 1=B 2=0
H a : B0 0 B1 0 B2 0
Fuente
Industria Manufacturera
Construccin
Transporte, almacenaje y
comunicacin.
Valor
0.208
0.148
0.630
Desviacin
tpica
0.224
0.247
0.233
Pr> |t|
0.929
0.601
2.705
0.373
0.560
0.020
Las pruebas t y sus niveles crticos (las ltimas dos columnas de la tabla): en las tres
variables podemos observar que tienen valores significativamente distintos de cero por lo
cual las tres variables son relevantes en la ecuacin de regresin, esto se corrobora ya que
el valor crtico sig., para los casos de Industria Manufacturera y Transporte, almacenaje
y comunicacin es menor que 0,05. Esto implica una relacin significativa lineal entre
estas dos variables, con la variable dependiente PEA segn rama de actividad econmica y
se rechaza que no existe relacin lineal entre las variables independientes con la variable
dependiente. En el caso de la variable Construccin su valor es mayor que 0.05 (valor de
significancia) por lo tanto con esta variable no se rechaza que no haya una relacin lineal
con respeto a la PEA segn rama de actividad econmica. Aun considerando que las
variables en estudio tienen relevancia en el modelo por ser distintas a cero.
PRUEBA DE SIGNIFICANCIA t : Tambin llamada prueba de significancia
individual, esta se utiliza para determinar si cada una de las variables independientes
tienen significancia, es decir que habr que hacer una prueba t para cada variable
independiente especificada en el modelo.
Hiptesis Nula:
No existe relacin lineal entre la PEA y las ramas de actividad Econmica - Industria
Manufacturera, Construccin y Transporte, almacenaje y comunicaciones, de tal manera
que la contribucin de estas ramas de actividad econmicas no son significativas a la PEA
DETERMINCACION DE INTERVALOS DE CONFIANZA
Fuente
Industria Manufacturera
-0.285
0.702
24
Construccin
-0.394
0.691
Transporte, almacenaje y
comunicacin.
0.117
1.142
Estos intervalos proporcionan la informacin sobre los lmites entre los que se pueden
esperar que se encuentre el valor de cada coeficiente de regresin.
Los intervalos de confianza indican una estimacin precisa y estable ya que el rango entre
los intervalos no es muy amplio.
24
Aos
PEA (por
ao) (y)
1995
2,136,450
1996
2,227,409
1997
2,245,419
1998
2,403,194
1999
2,444,959
2000
2,363,352
2001
2,445,467
2002
2,366,969
2003
2,450,081
2004
2,417,670
2005
2,461,187
2006
2,501,328
2007
2,464,400
2008
2,495,908
2009
2,551,667
2010
2602700.34
2011 2654754.347
2012 2707849.434
2013 2762006.422
2014 2817246.551
X
4029
95
3931
17
3538
67
4387
91
4513
86
4321
69
4258
34
4245
59
4234
49
3976
00
3910
34
3856
46
4042
58
4175
07
3811
56
3887
79
3965
55
4044
86
4125
76
4208
27
(X)
1468
85
1534
15
1579
04
1466
99
1525
99
1344
55
1475
88
1518
16
1766
24
1767
59
1653
32
1819
07
1694
87
1595
27
1471
39
1500
82
1530
83
1561
45
1592
68
1624
53
(X)
8646
0
9749
4
1017
97
9821
4
1083
32
1136
36
1133
73
1030
99
1092
28
1192
58
1154
75
1102
07
1190
11
1051
21
1076
91
1098
45
1120
42
1142
83
1165
68
1189
00
=952114.728+0.932X+1.24
7X+8.105X
2211629.963
2299997.147
2303889.745
2340026.063
2441128.293
/Y-/
75,179.96
3
72,588.14
7
58,470.74
5
63,167.93
7
2443581.401
3,830.707
80,229.40
1
2451922.417
6,455.417
2372735.663
5,766.663
2452312.264
2,231.264
92,012.49
1
2509682.491
2458652.295
2431602.564
2504817.628
2392167.126
2363670.008
2,391,901
2,420,697
2,450,068
2,480,028
2,510,586
2,534.705
69,725.43
6
40,417.62
8
103,740.8
74
187,996.9
92
210,799.
2264
234,057.
5055
257,780.
9502
281,978.
8637
306,660.
7356
24
Como nos muestra el resultado de la estimacin en base a la ecuacin del modelo, con el valor
de cada coeficiente y con los datos estimado de las variables en estudio se puede lograr una
estimacin para el periodo comprendido entre 2010 y 2014. Como no se dispone de los datos
para esos aos de las variables en estudio, estos se obtuvieron mediante un aumento del 2%
para cada ao posterior en cada variable y as lograr una estimacin que pueda reflejar en base
a este modelo la Poblacin Econmicamente Activa para esos aos.
Se puede observar que las proyecciones () estn ms o menos cercanas al valor observado en
(Y). Donde se observ las mayores variaciones estimadas sern en los aos 2013 y 2014 con
281,798.8637 y 306,660.7356 respectivamente y la menor en el ao 2003 con 2,231.264.
Tomando en cuenta siempre que los datos estn en funcin del nmero de personas
pertenecientes a esa rama de la actividad econmica.
24
CONCLUSIONES
Por medio del mtodo de regresin lnea, se hizo el anlisis correspondiente de relacin que
existe entre el Total de la PEA y las ramas de Actividad Econmica de la Industria
Manufacturera, Construccin y Transporte, Almacenaje y Comunicaciones. Al procesar lo
datos de la base de datos de por medio del programa Excel utilizando el complemento
XLSTAT se obtuvieron los siguientes resultados:
El valor de R2 nos indica que la proporcin de la variacin de las variables de
Industria Manufacturera, Construccin y Transporte, almacenaje y comunicacin
que son explicadas por la lnea de regresin es de 53% tambin podemos decir que
el modelo no es tan confiable.
El valor de R nos indica que hay una relacin moderada positiva entre las variables
Industria Manufacturera, Construccin y Transporte, almacenaje y comunicacin
con respecto a la PEA del 72.8%.
La prueba de Jarque-Bera nos indica que hay suficiente evidencia para aceptar que
existe una distribucin normal de cada una de las variables independientes, debido a
que existe una distribucin normal.
El test de significancia global del modelo Prueba F nos indica que si existe una
relacin lineal significativa entre la variable dependiente que es la Poblacin
Econmicamente Activa y las variables independientes Industria Manufacturera,
Construccin y Transporte, almacenaje y comunicacin ya que F=0.034, siendo
menor que =0.05, por lo que se concluye que se rechaza Ho.
24
RECOMENDACIONES
Usar una mayor cantidad de variables independientes que ayuden a explicar de una
mejor manera el comportamiento de la variable dependiente, para obtener una
buena representacin del modelo lineal
Utilizar un modelo de regresin lineal mltiple para analizar la relacin existente en
una variable dependiente y una o ms variables independientes, de esta manera se
obtendr un estudio confiable de las mismas.
Para mejores resultados se debera utilizar una base de datos lo ms grande posible,
esto har que los resultados de la prueba T y la prueba F, sean ms representativos.
Investigar bases de datos de largos periodos, que permitan una mayor confiabilidad
en el anlisis de los resultados.
Incentivar a las personas que deseen realizar una investigacin mediante un modelo
de regresin lineal mltiple a que utilicen programas estadsticos tales como el que
se emple en la presente investigacin que fue
Excel con su complemento
XLSTAT o los programas SPSS, Eviews, o Minitab.
Si los resultados obtenidos son desfavorables son desfavorables para el caso en
estudio, el investigador y analista de los datos debe hacer propuestas de como se
pueden mejorar estos resultados, mediante estrategias que permitan alcanzar los
resultados deseados
BIBLIOGRAFA
LIBROS.
INTERNET.
1. http://www.ecofinanzas.com/diccionario/P/POBLACION_ECONOMICAMENTE_ACTIVA.htm
2. http://www.eclac.org/publicaciones/xml/4/41104/DocW49.pdf
3. http://www.ilo.org/public/english/dialogue/ifpdial/downloads/wpnr/elsalvador.pdf
4. http://www.bcr.gob.sv/uploaded/content/category/949040148.pdf
ANEXOS
Bitcora de Actividades
Fecha
Responsable
Actividad Desarrollada
3de Noviembre
2011
A.G.M.A
4 de
Noviembre
2011
A.G.M.A
D.I.C.D
M.A.C.V
8 de
Noviembre
2011
A.G.M.A
M.A.C.V
10 de
Noviembre
2011
A.G.M.A
D.I.C.D
M.A.C.V
12 de
Noviembre
2011
A.G.M.A
D.I.C.D
M.A.C.V
14 de
Noviembre
2011
A.G.M.A
D.I.C.D
M.A.C.V
15 de
Noviembre
2011
D.I.C.D
M.A.C.V
Especificaciones del
modelo de regresin.
Hiptesis del Modelo de
regresin
Resultados de la regresin
Observacione
s
Objetivos de la
Investigacin
Marco Terico de la
Investigacin
Limitaciones
Eleccin de
tema
Del 17 al 21 de
Noviembre
2011
22 de
Noviembre
2011
28 de
Noviembre
2011
Fecha
23 de
Noviembre
2011
29 de
Noviembre
2011
D.I.C.D
M.A.C.V
A.G.M.A
D.I.C.D
M.A.C.V
Responsable
A.G.M.A
D.I.C.D
M.A.C.V
Actividad Desarrollada
Proyeccin con la regresin
obtenida Portada
ndice
Introduccin
Bibliografa
Anexos
A.G.M.A
D.I.C.D
M.A.C.V
E.E.A.A
No Hubo Limitacin
Hubo Limitacin
A.G.M.A: Adriana Guadalupe Martnez Ayala
D.I.C.D Doris Irene Castro Diaz
M.A.C.V Moises Alexander Chavez Vasquez
E.E.A.A Efrain Ernesto Arevalo Aparicio
Limitaciones
Problemas para
utilizar el
complemento
XLSTAT
Observaciones
Conceptos bsicos
Modelo de regresin
Y = 0 + 1 x 1 + 2 x 2+ + P x p +
En el modelo de regresin mltiple
0 , 1 , 2 ++ P
psilon) es una variable aleatoria. Un examen detallado de este modelo indica que y es un
1Anderson Sweeney Willians Estadstica Para Administracin y Economa, Sptima edicin
funcin lineal de x1, x2,xp mas psilon. El trmino de erros explica la variabilidad en que
y que no puede explicar el efecto lineal de las p variables independientes.2
Interpretacin.
Este trmino de modelo de regresin mltiple es de mucha importancia ya que permite
relacionar variables independientes con una variable dependiente, y mediante esta relacin
que hace este modelo se puede realizar un estudio que permita conocer la relacin que
existe entre dichas variables.
Ejemplo.
Por ejemplo se tiene que el ingreso total del gobierno, depende de los ingresos de capital e
ingresos corrientes, es decir que los ingresos totales es la variable dependiente mientras que
los ingresos de capital y los ingresos corrientes son las variables independientes.
Linealidad de variables
El principal y quizs ms natural significado de linealidad es que la expectativa condicional
de Y es una funcin lineal de X1.3
Interpretacin.
Este concepto permite sencillamente identificar cuando una ecuacin es lineal o no
depender de cmo las variables estn constituidas, ya que si estn estas elevadas a la
potencia 1 es una funcin lineal pero si estn elevadas a otra potencia diferente de uno ya
no es una funcin lineal.
Ejemplo
Por ejemplo tenemos la siguiente ecuacin:
Y = 0 + 1 x 1 + 2 x 2
Linealidad en parmetros
Error estocstico
El error estocstico es la parte de la ecuacin que no recoge con ninguna variable. El
termino perturbacin sustituye todas aquellas variables que han sido excluidas del modelo
pero afectan conjuntamente a Y. 5
No es que sirve o no para algo, es algo que est, en econometra por lo menos el objetivo es
estimar de tal forma que la perturbacin sea mnima (a travs de minimizar los errores al
cuadrado).
Cuanto se desarrolla un modelo se tiene una variable "Y" que se quiere explicar su
comportamiento a travs de las variables independientes.
Y = 0 + 1x1 + 2x2 +ui
4 Econometra Bsica, Damonar N. Gujarati, Bogot, 1997
5 Econometra Bsica, Damonar N. Gujarati, Bogot, 1997
Ui
es
la
perturbacin
Esto existe por varias razones:
estocstica
error
estocstico.
Ejemplo
Si se quiere explicar la inflacin, se sabe que se mueve por el tipo de cambio, el producto,
entre otras, pero nunca, se puede explicarla al 100% porque hay factores inobservables que
no se pueden definir por varias razones: o no se tienen datos, o son factores aleatorios, etc.
Regresin muestral
En muchas ocasiones los parmetros, en general no se conocen y se deben determinar a
partir de los datos de una muestra. Para calcular los estadsticos de la muestra b 0, b1, b2,
,bp que se utilizan como estimadores puntuales de los parmetros 0, 1, 2, p, se usan
en una muestra aleatoria. Esos estadsticos dan como resultado la ecuacin de regresin
mltiple estimada.
La ecuacin de regresin mltiple estimada se define como la estimacin de la ecuacin de
regresin mltiple, basada en los datos de la muestra y en el mtodo de los mnimos
cuadrados; y esta es:
6 http://es.answers.com/question/index?qid=20070914160028AANekSM
^y =b 0+ b1 x1 +b 2 x 2+ +b p x p
Generalmente es necesario trabajar con informacin muestral y no poblacional, por lo tanto,
esta ecuacin servir para trabajar con datos mustrales.7
Interpretacin.
La importancia de este concepto radica en que muchas veces no se pueden manejar o
trabajar con datos poblacionales porque son demasiados, sin embargo este concepto
proporciona una alternativa para trabajar con datos mustrales que no son ms que datos
sacados de un poblacin. Y a partir de la ecuacin se hace una estimacin de los resultados.
Ejemplo.
Como ejemplo se tiene que para trabajar con datos poblacionales con respecto al producto
financiero como variable dependiente, y los intereses sobre prestamos e intereses sobre
inversiones como variables independientes, los datos poblacionales son demasiados por lo
que para realizar un anlisis estimado se hace en base a una seleccin de una muestra y los
resultados del anlisis que se le realice a esta muestra se inferirn a la poblacin.
^
Var ( ) =
Se (
) i
i
N i
^
Var ( ) =
^
Se ( ) =
i
N i
ei
N 2
es directamente proporcional a
^
y
pero inversamente
^
.
^
es directamente proporcional a
inversamente proporcional a
^
.
ya
y al tamao de la muestra.
pero
3. Puesto que
^
y
^
. Son estimadores no solo varan de una muestra a otra si
no que dentro de una muestra dada tienden a depender entre si. Esta dependencia
entre los estimadores se mide mediante la covarianza existente entre ellos.
Ejemplo.
Se recolectan datos de de una muestra de 10 restaurantes (ARMAND PIZZA PARLORS).
Calcular el error estndar.
Restaurante
Xi
yi
ventas ventas
pronosticadas
poblacin de trimestrales
y = 60+5xi
estudiantes
(miles de $)
(miles)
Error
yi
58
70
-12
144
105
90
15
225
88
100
-12
144
118
100
18
324
12
117
120
-3
16
137
140
-3
20
157
160
-3
20
169
160
81
22
149
178
-21
441
10
26
202
190
12
144
SCE =
1530
s = ECM =
SCE
n2
Error
al
cuadrado (
yi
-
1530
8
S=
S=
= 191.25
ECM
ECM
SCE
n2
191.25 = 13.829
Interpretacin.
El error estndar o desviacin estndar es el que no determina el numero de desvos de un
conjunto de datos con respecto a su media aritmtica, y el error estndar de los estimadores
^
de los mnimos cuadrados nos ayuda a verificar en que proporcin los estimadores y
^
. Se desvan de su media con respecto a todas las muestras posibles.
ui
Xi
ui
es igual a cero)
)=0
ui
, dado un valor de
Xi
, es igual a cero.
Todo lo que se plantea es que aquellos factores que no estn incluidos explcitamente en el
ui
modelo, incorporados, por tanto, en
, no afecta sistemticamente el valor promedio de
Y; dicho de otro modo, los valores positivos de
ui
ui
Var (
uj
) =E
[ u j E(u j) ]
E ( ui por el supuesto 1
A varianza condicional de
ui
Cov (
ui
=E(
ui u j
i
u
uj
,
) = E uiE [ u jE(u j ) ]
) por el supuesto 1
=0i j
Donde i y j son dos observaciones diferentes y cov significa covarianza, este supuesto se
conoce como el supuesto de correlacin no serial o de no auto correlacin.
Supuesto 4 las variables explicativas son no estocsticas (es decir fijas para muestreos
repetitivos) o si son estocsticas estn distribuidas independientemente de la perturbaciones
ui
Supuesto 5 no existe multicolinealidad entre las variables explicativas (las X).
Supuesto 6
Cov (
ui
Xi
ui
Xi
i
u
) = E uiE [ ( X iE X i ) ]
E=
[ u ( X E ( X ) ) ] ,
i
supuesto que E (
ui
)=0
Interpretacin.
Los supuestos son suposiciones o hiptesis con las que se debe relacionar la validez de
cualquier conclusin alcanzada mediante le mtodo de regresin lineal, y para poder
^
^
1
2
estimar
y
y conocer sus respectivas estimaciones y no solo basta
con la especificacin del modelo sino se deben plantear los supuestos antes mencionados
yi
xi
ui
para demostrar que
depende tanto de
como de
y estos supuestos son
importantes para realizar una una interpretacin vlida.
Como se menciono anteriormente, dados los supuestos del modelo de regresin lineal
clsica, los estimativos de mnimos cuadrados poseen propiedades ideales y optimas, las
cuales se encuentran resumidas en el teorema de Gauss- Harkov. Para comprender este
teorema es necesario tener en cuenta la propiedad por la cual un estimador se considera el
2
mejor estimador lineal insesgado. Un estimador, digamos el estimador
, de MCO, es
el mejor estimador lineal insesgado (MELI) de
si:
1. Es lineal, es decir, una funcin lineal de una variable aleatoria tal como la variable
dependiente Y en el modelo de regresin.
, es igual al valor
3. Tiene varianza mnima entre la clase de todos los estimadores lineales insesgado; a
un estimador insesgado con varianza mnima se le conoce como un estimador
eficiente.
En el contexto del anlisis de regresin se pude demostrar que los estimadores de MCO son
MELI. Esta es la clave del famoso teorema de Gauss-Markov, el cual se puede enunciar de
la siguiente forma:
13Econometra bsica/ Damodar N. Gujarati, Bogot: McGraw-Hill, 1997.
Teorema de Gauss-Markov: Dados los supuestos del modelo clsico de regresin lineal,
los estimadores de mnimos cuadrados, en la clase de estimadores lineales insesgado, tienen
la varianza mnima; es decir, son MELI.
Ejemplo. 14
1.
Demostracin
y como
entonces
es cov
Demostracin
La demostracin es la misma vista en notacin matricial para regresin simple.
Ejemplo
Para los datos del ejemplo se tiene que la estimacin de la matriz de varianzas-covarianzas
del vector
es
14virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_html/capitulo_5/leccion3/propi
edadesparametros
Error estndar
Interpretacin:
2
^
Esta simtricamente distribuido y el valor del estimador ( ) es igual al valor
verdadero de
igual al parmetro, su varianza tambin debe ser mnima la distribucin debe ser
concentrado alrededor del valor de la media.
Test de supuestos
Normalidad: Test de JarqueBera.15
Es una prueba asinttica de normalidad para grandes muestras. Una prueba de normalidad
es un proceso estadstico utilizado para determinar si una muestra o cualquier grupo de
datos se ajustan a una distribucin normal.
Analiza la relacin entre el coeficiente de asimetra y la curtosis de los residuos de la
ecuacin estimada y los correspondientes de una distribucin normal, de forma tal que si
estas relaciones son suficientemente diferentes se rechazar la hiptesis nula de normalidad.
La prueba lleva el nombre de Carlos Jarque y Anil K. Bera. El estadstico de prueba JB se
define como
Donde
respectivamente,
es la estimacin de la varianza .
15xa.yimg.com/.../Asimetr%C3%ADa+%C2%96+Curtosis+
%C2%96+Jarque+Bera.pptx
Curtosis
de
3.269
Tamao de la
Muestra= 30
Sustituyendo en la formula:
0.010
3.269
JB=
+ 1 ( 2)
30
4
6
JB=13.36
Conclusin: en este caso se rechaza la hiptesis nula, entonces el estadstico no se ajusta a
la normal.
Test de significancia global del modelo: Prueba F.17
La prueba F global se utiliza para probar la significancia del modelo de regresin mltiple
global. Esta prueba determina si existe una relacin significativa entre la variable
dependiente y todo el conjunto de variables independientes.
Prueba F para significancia general
0 : 1= 2== p=0
MSR
MSE
Donde:
=Estadistico de prueba de una distribucin F con K y nk1 grados de libertad
K= Nmero de variables independientes en el modelo de regresin
Tabla resumida del anlisis de varianza (ANOVA)
Fuente
Regresin
Grados de
Libertad
Suma de
Cuadrados
SSR
Error
Total
Media
cuadrtica
(Varianza)
MSR=
SSR
K
F=
MSR
MSE
MSE=
n-k-1
SSE
n-1
SST
SSE
nk 1
Ejemplo.
Se tiene la siguiente ecuacin de regresin estimada para relacionar ventas con activo en
inventario y gastos de publicidad18:
^ =25+10 1 +8 2
Los datos que se usaron para determinar el modelo provinieron de una encuesta de 10
tiendas; para esos datos, SST= 16000 y SSR= 12000
a) Calcule SSE, MSE y MSR
SSE= SST-SSR = 16000
MSR=
SSR
K
MSE=
SSE
nk 1
12000
2
12000 = 4000
=6000
4000
1021
= 571.4285714
b) Mediante una prueba F con un nivel de significancia de 0.05, determine si hay una
relacin entre las variables.
Prueba F:
MSR
Grados de libertad para el denominador: 7 F= MSE
6000
571.4285714 = 10.5
x2
), donde:
Grados de Libertad= 31
Valor t= 2.0395
Valor de
= -53.2173
Valor
S b1
= 6.8522
b j t nk1 S b j
-53.2173
(2.0395)(6.8522)
-53.2173
13.9752
-67.1925
-39.2421
Conclusin:
Tomando en cuenta el efecto de los gastos promocionales, el efecto estimado de un
aumento de 1 centavo en el precio reduce la media de las ventas de 39.2 a 67.2 barras,
aproximadamente. Hay un 95% de confianza de que este intervalo estima de manera
correcta la relacin entre estas variables. Desde el punto de vista de la prueba de hiptesis,
como este intervalo de confianza no incluye al 0 se concluye que el coeficiente de
1
regresin
tiene un efecto significativo.
La prueba t se aplica para determinar si cada una de las variables independientes tiene
significancia. Se hace una prueba t por separado para cada variable independiente en el
modelo; a cada una de esas pruebas t se le llama prueba de significancia individual.
20 Anderson Sweeney Willians, Estadstica para Administracin y Economa, sptima
edicin.
1 H 0 : i =0
H a : i 0
Estadstico de prueba
t=
bi
S bi
Ao
s
199
5
199
Industria
Manufacturera
(X1)
402945
393117
Construcc
Transporte,
in
Almacenaje
(X2)
y Comunicaciones
(X3)
146885
53415
86460
97494
Total general
PEA
Y
1274575
1090048
6
199
7
199
8
199
9
200
0
200
1
200
2
200
3
200
4
200
5
200
6
200
7
200
8
200
9
353867
157904
101797
1229133
438791
146699
98214
1369406
451386
152599
108332
1426633
432169
134455
113636
1362520
425834
147588
113373
1375591
424559
151816
103099
1360950
423449
176624
109228
1420605
397600
176759
119258
1389238
391034
165332
115475
1345687
385646
181907
110207
1357526
404258
169487
109011
1367519
417507
159527
105121
1366318
381156
147139
107691
1273981
DICCIONARIO.
PEA. La poblacin econmicamente activa (PEA) est compuesta por todas las
personas de 10 y ms, que se encuentran en condiciones de trabajar, y est
formada por los ocupados y desocupados. Grupo poblacional constituido por
las personas que estando en edad de trabajar, efectivamente forma parte de la
fuerza de trabajo, al mantenerse en una ocupacin o buscarla activamente
TABLAS Y GRAFICOS.
Matriz de Correlacion:
Variables
Industria
Manufacturera
Construccin
Transporte,
almacenaje y
comunicacin.
PEA (por ao)
Industria
Manufactu
rera
1.000
Construc
cin
PEA (por
ao)
-0.332
Transporte,
almacenaje y
comunicacin.
0.042
-0.332
0.042
1.000
0.418
0.418
1.000
0.342
0.700
0.185
0.342
0.700
1.000
0.185
Estadisticas de Multicolienalidad:
Estadsti
ca
Tolerancia
VIF
Industria
Manufacturera
0.850
1.176
Construcci
n
0.703
1.422
Transporte, almacenaje y
comunicacin.
0.789
1.267
Residuos estandarizados
0.5
0
2100000
-0.5
2300000
-1
-1.5
2500000
0.630
0.6
0.5
0.4
C oeficientes estandarizados
0.3
0.2
0.208
0.148
0.1
0
Variable
Residuos estandarizados
0.5
0
2200000 2250000 2300000 2350000 2400000 2450000 2500000 2550000
-0.5
-1
-1.5
2150000
2250000
2350000
2450000
2550000
2100000
2200000
2300000
2400000
2500000
2600000