You are on page 1of 16

ANALISIS DE DATOS

ICI2202
Clase 2: Variables Cualitativas y Validación de los
Modelos de Regresión Lineal

JOHN HENRY RIOS GRIEGO


Salario de Maestros en Escuelas Publicas

Las áreas se dividen en tres regiones geográficas: 1) Noreste y Norte-Centro (21 estados); 2) Sur (17 estados); 3) Oeste (13
estados).
Ciudad Salario Gasto D2 D3 Ciudad Salario Gasto D2 D3
Connecticut 60822 12436 1 0 Georgia 49905 8534 0 1
Illinois 58246 9275 1 0 Kentucky 43646 8300 0 1
Indiana 47831 8935 1 0 Louisiana 42816 8519 0 1 • D2=1 para estados del Noreste y Norte-
Iowa 43130 7807 1 0 Maryland 56927 9771 0 1 centro; 0 para otra región.
Kansas 43334 8373 1 0 Mississpi 40182 7215 0 1
North
• D3=1 para estados del Sur; 0 para otra región.
Mine 41596 11285 1 0 Carolina 46410 7675 0 1
Massachesetts 58624 12596 1 0 Oklahoma 42379 6944 0 1
Suth
Micigan 54895 9880 1 0 Carolina 44133 8367 0 1
Tennesse
Minnesota 49634 9675 1 0 e 43816 6979 0 1
Missouri 41839 7840 1 0 Tesas 44897 7547 0 1
Nebraska 42044 7900 1 0 Virginia 44727 9275 0 1 Salario = 48, 014.62 +1, 524.09 × D2 -1, 721.03× D3
New West
Hampshire 46527 10206 1 0 Virginia 40531 9886 0 1
Nueva Jersey 59920 13781 1 0 Alaska 54658 10171 0 0
Nueva York 58537 13551 1 0 Arizona 45941 5585 0 0
Dakota del
Norte 38822 7807 1 0 Califormia 63640 8486 0 0
Ohio 51937 10034 1 0 Colorado 45833 8861 0 0
Pennsylvania 54970 10711 1 0 Hawaii 51922 9879 0 0
Rhode Island 55956 11089 1 0 Idaho 42798 7042 0 0
Dakota del Sur 35378 7911 1 0 Montana 41225 8361 0 0
Vermont 48370 12475 1 0 Nevada 45342 6755 0 0
New
Wiconsin 47901 9965 1 0 Mexico 42780 8622 0 0
Alabama 43389 7706 0 1 Oregon 50911 8649 0 0
Arkansas 44245 8402 0 1 Utah 40566 5347 0 0
Washingt
Delaware 54680 12036 0 1 on D.C. 47882 7958 0 0
Distrito de
Columbia 59000 15508 0 1 Wyoming 50692 11596 0 0
Florida 45308 7762 0 1

Gujarati D., Porter D., Econometría, Mc Graw Hill.


Variables Dicotómicas o Cualitativas

Variable dicótoma para cada categoría (D1: toma el valor de 1 siempre que un estado sea del Oeste y 0 en otro caso)

Salario = b0 + b1 × D1 + b2 × D2 + b3 × D33

El modelo anterior presenta un caso de colinealidad perfecta, dado que al sumar la tres variables dicotómicas, se tiene, en la
matriz X, una columna con 51 número 1, igual a la columna del intercepto.

La categoría a la cual no se asigna variable dicotómica se conoce como categoría base, de comparación, de control, de
referencia u omitida.

Los coeficientes asociados a la variable dicotómica, se conoce como coeficientes de intercepto diferencial.

En resumen si una variable cualitativa tiene m categorías, sólo hay que agregar (m-1) variable dicotómica. Si no se cumple
esta regla, se provocará lo que se conoce como la trampa de la variable dicotómica.

La colinealidad perfecta se puede eliminar suprimiendo el intercepto, con lo cual se tiene:

Salario = b1 × D1 + b2 × D2 + b3 × D3

Salario = 48, 014.62× D1 + 49, 538.71× D2 + 46, 293.59× D3

Salario = 48, 014.62 +1, 524.09 × D2 -1, 721.03× D3


Motor de Turbina

Un motor de turbina se fabrica ensamblando dos tipos de cargas propulsoras, un mecanismo de ignición y un soporte. Se
piensa que la resistencia al corte de la unidad ensamblada y es una función lineal de la antigüedad de la carga propulsora x
cuando se moldea el motor.
Promedio de Regresando Variación del Variación del
Variación
Antigüedad Resistencia al las muestras estimado Regresando regresando
Observación residual o no
(semana) corte (PSI) del con el explicada por con respecto
explicada
regresando modelo el Regresor a la media
æ^ ö æ ^ ö

# x y y
^
y
ç yi - y ÷
è ø
ç yi - yi ÷
è ø
( y - y)
i

1 15.50 2158.70 2082.21 2023.22 -59.0 135.5 76.5


2 23.75 1678.15 2082.21 1798.18 -284.0 -120.0 -404.1
3 8.00 2316.00 2082.21 2227.80 145.6 88.2 233.8
4 17.00 2061.30 2082.21 1982.30 -99.9 79.0 -20.9
5 5.00 2207.50 2082.21 2309.63 227.4 -102.1 125.3
6 19.00 1708.30 2082.21 1927.75 -154.5 -219.4 -373.9
7 24.00 1780.70 2082.21 1791.36 -290.8 -10.7 -301.5
8 2.50 1575.00 2082.21 2377.83 295.6 -802.8 -507.2
9 7.50 2357.90 2082.21 2241.44 159.2 116.5 275.7
10 11.00 2277.70 2082.21 2145.97 63.8 131.7 195.5
11 13.00 2165.20 2082.21 2091.41 9.2 73.8 83.0
12 3.75 2399.55 2082.21 2343.73 261.5 55.8 317.3
13 25.00 1779.80 2082.21 1764.09 -318.1 15.7 -302.4
14 9.75 2336.75 2082.21 2180.07 97.9 156.7 254.5
15 22.00 1765.30 2082.21 1845.92 -236.3 -80.6 -316.9
16 18.00 2053.50 2082.21 1955.03 -127.2 98.5 -28.7
17 6.00 2414.40 2082.21 2282.36 200.1 132.0 332.2
18 12.50 2200.50 2082.21 2105.05 22.8 95.4 118.3
19 2.00 2654.20 2082.21 2391.46 309.3 262.7 572.0
20 21.50 1753.70 2082.21 1859.56 -222.7 -105.9 -328.5

æ^ ö æ ^ ö
Resistencia al corte = 2446.02 - 27.28× Antiguedad ( )
yi - y = ç yi - y ÷ + ç yi - yi ÷
è ø è ø
Montgomery D., Runger G., Probabilidad y Estadística Aplicada a la Ingeniería, Limusa Wiey.
Motor de Turbina

Un motor de turbina se fabrica ensamblando dos tipos de cargas propulsoras, un mecanismo de ignición y un soporte. Se
piensa que la resistencia al corte de la unidad ensamblada y es una función lineal de la antigüedad de la carga propulsora x
cuando se moldea el motor.
Promedio de Regresando Variación del Variación del
Variación
Antigüedad Resistencia al las muestras estimado Regresando regresando
Observación residual o no
(semana) corte (PSI) del con el explicada por con respecto
explicada
regresando modelo el Regresor a la media
æ^ ö æ ^ ö

# x y y
^
y
ç yi - y ÷
è ø
ç yi - yi ÷
è ø
( y - y)
i

1 15.50 2158.70 2082.21 2023.22 -59.0 135.5 76.5


2 23.75 1678.15 2082.21 1798.18 -284.0 -120.0 -404.1
3 8.00 2316.00 2082.21 2227.80 145.6 88.2 233.8
4 17.00 2061.30 2082.21 1982.30 -99.9 79.0 -20.9
5 5.00 2207.50 2082.21 2309.63 227.4 -102.1 125.3
6 19.00 1708.30 2082.21 1927.75 -154.5 -219.4 -373.9
7 24.00 1780.70 2082.21 1791.36 -290.8 -10.7 -301.5
8 2.50 1575.00 2082.21 2377.83 295.6 -802.8 -507.2
9 7.50 2357.90 2082.21 2241.44 159.2 116.5 275.7
10 11.00 2277.70 2082.21 2145.97 63.8 131.7 195.5
11 13.00 2165.20 2082.21 2091.41 9.2 73.8 83.0
12 3.75 2399.55 2082.21 2343.73 261.5 55.8 317.3
13 25.00 1779.80 2082.21 1764.09 -318.1 15.7 -302.4
14 9.75 2336.75 2082.21 2180.07 97.9 156.7 254.5
15 22.00 1765.30 2082.21 1845.92 -236.3 -80.6 -316.9
16 18.00 2053.50 2082.21 1955.03 -127.2 98.5 -28.7
17 6.00 2414.40 2082.21 2282.36 200.1 132.0 332.2
18 12.50 2200.50 2082.21 2105.05 22.8 95.4 118.3
19 2.00 2654.20 2082.21 2391.46 309.3 262.7 572.0
20 21.50 1753.70 2082.21 1859.56 -222.7 -105.9 -328.5

æ^ ö æ ^ ö
Resistencia al corte = 2446.02 - 27.28× Antiguedad ( )
yi - y = ç yi - y ÷ + ç yi - yi ÷
è ø è ø
Montgomery D., Runger G., Probabilidad y Estadística Aplicada a la Ingeniería, Limusa Wiey.
Análisis de Varianza

Se emplea para probar el significado de la regresión y se realiza con base en el análisis de la variabilidad total de la
variable y de respuesta:
Análisis de Varianza

De acuerdo con la entidad:

Se eleva al cuadrado ambos lados de la ecuación y se suma para todas las n observaciones:
Análisis de Varianza

Análisis de varianza para probar la significancia de la regresión

H 0 : b0 = b1 = ... = bn = 0
H a : bi ¹ 0 para al menos una i

Fuente de Grados de Cuadrado


Suma de cuadrados F0
variación libertad medio

n
æ^ ö
2

SSR = åç yi - y ÷ k MSR MSR MSE


Regresión
i=1
è ø
n
æ ^ ö 2

Residual SSE = åç yi - yi ÷ n - ( k +1) MSE


i=1
è ø
n

(
SST = å yi - y ) n -1
2
Total
i=1

Se rechaza la hipótesis nula si:


F0 > Fa,k,n-2 o Valor Crítico < a
De acuerdo con lo anterior el estimados de σ2 viene dado por:

SSE
s = MSE = 2

n - ( k +1)
Fecundidad y otros Datos de 54 Países

Observa Observa
ción MI TAF PIBPC TFT ción MI TAF PIBPC TFT • MI: mortalidad infantil, el número de niños menores de 5
1 128 37 1870 6.66 33 142 50 8640 7.17 años en un año por cada 1,000 nacidos vivos.
2 204 22 130 6.15 34 104 62 350 6.6
3 202 16 310 7 35 287 31 230 7
4 197 65 570 7.25 36 41 66 1620 3.91 • TAF: tasa de alfabetismo femenino (porcentaje).
5 96 76 2050 3.81 37 312 11 190 6.7
6 209 26 200 6.44 38 77 88 2090 4.2
7 170 45 670 6.19 39 142 22 900 5.43 • PIBPC: PIB per cápita en 1980
8 240 29 300 5.89 40 262 22 230 6.5
9 241 11 120 5.89 41 215 12 140 6.25
10 55 55 290 2.36 42 246 9 330 7.1
• TFT: tasa de fecundidad total, 1980-1985, cantidad
11 75 87 1180 3.93 43 191 31 1010 7.1 promedio de hijos por mujer, con tasa de fecundidad para
12 129 55 900 5.99 44 182 19 300 7 edades especificas en un año determinado.
13 24 93 1730 3.5 45 37 88 1730 3.46
14 165 31 1150 7.41 46 103 35 780 5.66
15 94 77 1160 4.21 47 67 85 1300 4.82
16 96 80 1270 5 48 143 78 930 5 MI = 261.79 - 2.2323×TAF - 0.0054× PIBPC
17 148 30 580 5.27 49 83 85 690 4.75
18 98 69 560 5.21 50 222 33 200 8.49
19 161 43 420 6.5 51 240 19 450 6.5
20 118 47 1080 6.12 52 312 21 280 6.5
21
22
269
189
17
35
290
270
6.19
5.05
53
54
12
52
79
83
4430
270
1.69
3.25
H 0 : b0 = b1 = b3 = 0
23
24
126
12
58
81
560
4240
6.16
1.8
55
56
79
61
43
88
1340
670
7.17
3.52 H a : bi ¹ 0 para al menos una i
25 167 29 240 4.75 57 168 28 410 6.09
26 135 65 430 4.1 58 28 95 4370 2.86
27 107 87 3020 6.66 59 121 41 1310 4.88
28 72 63 1420 7.28 60 115 62 1470 3.89
29 28 49 420 8.12 61 186 45 300 6.9
30 27 63 19830 5.23 62 47 85 3630 4.1
31 152 84 420 5.79 63 178 45 220 6.09
32 224 23 530 6.5 64 142 67 560 7.2

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los
libertad cuadrados cuadrados F Valor crítico de F
Regresión 2 255197.2442 127598.6221 64.40143004 9.21141E-16
Residuos 61 120859.3651 1981.301068
Total 63 376056.6094
Coeficiente de Determinación (R2)
El coeficiente de determinación R2 se define como:
SSR SS
R2 = =1- E
SST SST
Conocido también como la proporción de la variación explicada por el regresor x.
Dado que: 0 £ SSE £ SST

Entonces: 0 £ R2 £1

La magnitud de R2 depende, entre otras cosas, del intervalo de variabilidad de la variable regresora. En general R2
aumenta a medida que aumenta la dispersión de las x, siempre y cuando sea correcta la forma supuesta del modelo.

De acuerdo con lo anterior, se define un coeficiente de determinación alterno llamado coeficiente de determinación
ajustado (R2) y definido como:
SSE ( n - ( k +1)) MSE ( n -1)
=1- (1- R 2 )
2
R =1- =1-
SST ( n -1) MST ( n - ( k +1))
Según Theil (1978)
2
“… es una buena costumbre utilizar R en lugar de R 2 porque R 2 tiende a dar una imagen demasiado optimista del
ajuste de la regresión, en particular cuando el número de variables explicativas no es muy pequeño comparado con
el de observaciones.”

Los valores del coeficiente de determinación ajustado pueden ser negativos y cuando esto ocurre, su valor se toma
cero, en consecuencia su rango es:
2
0 £ R £1

Henry Theil, Introduction to Econometrics, Prentice-Hall, Englewod Cliffs, Nueva Jersey, 1978, p. 135.
Fecundidad y otros Datos de 54 Países
Observa Observa
ción MI TAF PIBPC TFT ción MI TAF PIBPC TFT • MI mortalidad infantil, el número de niños menores de 5
1 128 37 1870 6.66 33 142 50 8640 7.17 años en un año por cada 1,000 nacidos vivos.
2 204 22 130 6.15 34 104 62 350 6.6
3 202 16 310 7 35 287 31 230 7
4 197 65 570 7.25 36 41 66 1620 3.91 • TAF tasa de alfabetismo femenino (porcentaje).
5 96 76 2050 3.81 37 312 11 190 6.7
6 209 26 200 6.44 38 77 88 2090 4.2
7 170 45 670 6.19 39 142 22 900 5.43 • PIBPC PIB per cápita en 1980
8 240 29 300 5.89 40 262 22 230 6.5
9 241 11 120 5.89 41 215 12 140 6.25
10 55 55 290 2.36 42 246 9 330 7.1
• TFT tasa de fecundidad total, 1980-1985, cantidad
11 75 87 1180 3.93 43 191 31 1010 7.1 promedio de hijos por mujer, con tasa de fecundidad para
12 129 55 900 5.99 44 182 19 300 7 edades especificas en un año determinado.
13 24 93 1730 3.5 45 37 88 1730 3.46
14 165 31 1150 7.41 46 103 35 780 5.66
15 94 77 1160 4.21 47 67 85 1300 4.82
16 96 80 1270 5 48 143 78 930 5 MI = 261.79 - 2.2323×TAF - 0.0054× PIBPC
17 148 30 580 5.27 49 83 85 690 4.75
18 98 69 560 5.21 50 222 33 200 8.49
19 161 43 420 6.5 51 240 19 450 6.5
20 118 47 1080 6.12 52 312 21 280 6.5
21 269 17 290 6.19 53 12 79 4430 1.69
Estadísticas de la regresión
22 189 35 270 5.05 54 52 83 270 3.25 Coeficiente de correlación múltiple 0.823780253
23 126 58 560 6.16 55 79 43 1340 7.17
24 12 81 4240 1.8 56 61 88 670 3.52
Coeficiente de determinación R^2 0.678613905
25 167 29 240 4.75 57 168 28 410 6.09 R^2 ajustado 0.668076656
26 135 65 430 4.1 58 28 95 4370 2.86
27 107 87 3020 6.66 59 121 41 1310 4.88 Observaciones 64
28 72 63 1420 7.28 60 115 62 1470 3.89
29 28 49 420 8.12 61 186 45 300 6.9
30 27 63 19830 5.23 62 47 85 3630 4.1
31 152 84 420 5.79 63 178 45 220 6.09
32 224 23 530 6.5 64 142 67 560 7.2

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los
libertad cuadrados cuadrados F Valor crítico de F
Regresión 2 255197.2442 127598.6221 64.40143004 9.21141E-16
Residuos 61 120859.3651 1981.301068
Total 63 376056.6094
Prueba para los Coeficientes de la Regresión

La hipótesis para probar a significación de cualquier coeficiente de regresión individual βi es:


H 0 : bi = 0

Ha : b j ¹ 0

El estadístico de prueba viene dado por:

Se rechaza la hipótesis nula si:

t0 > ta 2,n-(k+1) o Valor Crítico < a 2

A la prueba anterior se le llama “prueba parcial o magina”, debido a que el coeficiente de regresión βi depende de
todas las demás variables regresoras xj (i≠j) que están en el modelo.
Fecundidad y otros Datos de 54 Países
• MI mortalidad infantil, el número de niños menores de 5
Observa Observa años en un año por cada 1,000 nacidos vivos.
ción MI TAF PIBPC TFT ción MI TAF PIBPC TFT
1 128 37 1870 6.66 33 142 50 8640 7.17
2 204 22 130 6.15 34 104 62 350 6.6 • TAF tasa de alfabetismo femenino (porcentaje).
3 202 16 310 7 35 287 31 230 7
4 197 65 570 7.25 36 41 66 1620 3.91
5 96 76 2050 3.81 37 312 11 190 6.7 • PIBPC PIB per cápita en 1980
6 209 26 200 6.44 38 77 88 2090 4.2
7 170 45 670 6.19 39 142 22 900 5.43
8 240 29 300 5.89 40 262 22 230 6.5 • TFT tasa de fecundidad total, 1980-1985, cantidad
9 241 11 120 5.89 41 215 12 140 6.25 promedio de hijos por mujer, con tasa de fecundidad para
10 55 55 290 2.36 42 246 9 330 7.1
11 75 87 1180 3.93 43 191 31 1010 7.1
edades especificas en un año determinado.
12 129 55 900 5.99 44 182 19 300 7
13 24 93 1730 3.5 45 37 88 1730 3.46
14
15
165
94
31
77
1150
1160
7.41
4.21
46
47
103
67
35
85
780
1300
5.66
4.82
MI = 261.79 - 2.2323×TAF - 0.0054× PIBPC
16 96 80 1270 5 48 143 78 930 5
17 148 30 580 5.27 49 83 85 690 4.75 Estadísticas de la regresión
18 98 69 560 5.21 50 222 33 200 8.49
19 161 43 420 6.5 51 240 19 450 6.5 Coeficiente de correlación múltiple 0.823780253
20 118 47 1080 6.12 52 312 21 280 6.5 Coeficiente de determinación R^2 0.678613905
21 269 17 290 6.19 53 12 79 4430 1.69
22 189 35 270 5.05 54 52 83 270 3.25 R^2 ajustado 0.668076656
23 126 58 560 6.16 55 79 43 1340 7.17 Observaciones 64
24 12 81 4240 1.8 56 61 88 670 3.52
25 167 29 240 4.75 57 168 28 410 6.09
26 135 65 430 4.1 58 28 95 4370 2.86
27 107 87 3020 6.66 59 121 41 1310 4.88 Prueba para
28 72 63 1420 7.28 60 115 62 1470 3.89 los
29 28 49 420 8.12 61 186 45 300 6.9
30 27 63 19830 5.23 62 47 85 3630 4.1
coeficientes Coeficientes Error típico Estadístico t Probabilidad
31 152 84 420 5.79 63 178 45 220 6.09 Intercepción 261.7904931 12.36072253 21.17922253 8.27E-30
32 224 23 530 6.5 64 142 67 560 7.2
TAF -2.232344066 0.223818484 -9.973903964 1.97E-14
PIBPC -0.005430145 0.002135255 -2.543089232 0.0135
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los
libertad cuadrados cuadrados F Valor crítico de F
Regresión 2 255197.2442 127598.6221 64.40143004 9.21141E-16
Residuos 61 120859.3651 1981.301068
Total 63 376056.6094
ANÁLISIS DE VARIANZA

Grados de Suma de Promedio de los


libertad cuadrados cuadrados F Valor crítico de F

Regresión 2 255197.2442 127598.6221 64.40143004 9.21141E-16

Residuos 61 120859.3651 1981.301068

Total 63 376056.6094
INTERVALOS DE CONFIANZA

Intervalo de confianza para la media de “Y”

Intervalo de confianza para “Y” individual o Intervalo de


predicción

Intervalo de confianza para el coeficiente de regresión:

Gujarati D. y Porter D., Econometría, Mc Graw Hill, México D. F., 2010, p. 145-146.
ANALISIS DE DATOS

ICI2202
Clase 2: Variables Cualitativas y Validación de los
Modelos de Regresión Lineal

JOHN HENRY RIOS GRIEGO

You might also like