You are on page 1of 32

Universidad del Valle

Facultad de Ciencias de la Administración


Maestría en Ciencias de la Organización
Seminario Métodos Cuantitativos
Profesor: Mario Yepes
Estudiantes: Venus Carvajal Ordoñez – Carlos Osorio Andrade
Actividad: trabajo final- caso de la Inmobiliaria (Real-Estate-2005)
___________________________________________________________________

1. LAS VARIABLES
Para la realización del análisis estadístico del presenta caso se hace necesario, en primer lugar
presentar la caracterización de las variables, lo cual se indica en la tabla 1.

Tabla 1. Caracterización de variables


Nombre Caracterización
Precio Variable cuantitativa continúa.
Cuartos Variable cuantitativa discreta.
Área Variable cuantitativa continúa.
Piscina Variable cualitativa nominal.
Variable cuantitativa continua, sin embargo, dados los
Distancia datos pareciera que se está tratando como variable de
naturaleza discreta.
Barrio Variable cualitativa nominal
Garaje Variable cualitativa nominal.
Variable cuantitativa discreta, sin embargo, dados los
Baños datos pareciera que la variable está siendo asumida como
de naturaleza continua.
Fuente: elaboración propia.
2. ANÁLISIS EXPLORATORIO
A continuación se presente el análisis descriptivo de toda la variable del estudio, entre las tablas,
gráficas y estadísticas disponible en la herramienta STATGRAPHICS se consideró pertinente el
uso del resumen estadístico, el grafico de caja y bigotes, histograma y gráfico de densidad
suavizada.

2.1.Análisis exploratorio de la variable precio

A. Resumen estadístico

Tabla 2. Resumen estadístico para precio


Recuento 105
Promedio 221,103
Mediana 213,6
Moda 188,3
Varianza 2218,92
Desviación Estándar 47,1054
Coeficiente de Variación 21,3047%
Mínimo 125,0
Máximo 345,3
Rango 220,3
Sesgo Estandarizado 1,98294
Curtosis -0,276801
Curtosis Estandarizada -0,57897
Fuente: elaboración propia.
Del resumen estadístico descriptivo que se presentó en la tabla 2 se desprenden conclusiones
importantes para el tratamiento del variable precio:

1. El valor de casas de mayor frecuencia es 188,3 dólares.


2. La media aritmética es una buena representante de los datos puesto que el coeficiente de variación
se encuentra alrededor del 20%. En otras palabras, la dispersión de los datos con respecto a la media
es parecida a una distribución normal, por lo tanto, se pueden realizar análisis de datos teniendo como
estadístico principal a la media aritmética.
3. La casa de mayor valor dentro de la muestra es de 345,3 miles de dólares.
4. La casa de menor valor dentro de la muestra es de 125,0 miles de dólares.
5. El valor de la curtosis se encuentra dentro de los rangos esperados, lo que confirma que la dispersión
de los datos es tolerable para proceder a realizar pruebas estadísticas teniendo como referencia a la
desviación estándar.
B. Diagrama de cajas y bigotes

Gráfico de Caj a y Bigotes


Grafico 1. Gráfico de caja y bigotes de la variable precio

120 160 200 240 280 320 360


Precio

Fuente: elaboración propia.

El diagrama de cajas y bigotes para la variable precio que se presenta a continuación, da cuenta de que
dentro de este constructo no se reportan valores atípicos, es decir, valores que están por fuera del rango
intercuartilico los cuales podrían señalar posibles falencias en la recolección de los datos

C. Histograma
En el histograma presentado en el grafico 2 se pueden observar las concentraciones de los datos
referentes a la variable precio.
Histograma
Grafico 2. Histograma de la variable precio
15

12
frecuencia

0
110 160 210 260 310 360
Precio

Fuente: elaboración propia

D. Gráfico de densidad suavizada

Grafico 3. Gráfico de densidad


Gráficosuavizada de Suav
de Densidad la variable
izada precio

(X 0,001)
8

6
densidad

0
120 160 200 240 280 320 360
Precio

Fuente: elaboración propia

Al observar el gráfico de densidad suavizada para la variable precio, se puede concluir que dicha
variable se comporta de manera similar a una distribución normal, teniendo una leve asimetría positiva
que refleja que la mayoría de los datos se concentran en los rangos más pequeños de precios, situación
que es comprensible debido a la naturaleza de la variable PRECIO. El hecho de que la variable ostente
una distribución similar a la normal, es positivo para futuros análisis ya que se puede aplicar la regla
empírica para la prueba de hipótesis o comparaciones.
2.2.Análisis exploratorio de la variable área

A. Resumen estadístico

Tabla 3. Resumen estadístico de la variable área


Recuento 105
Promedio 2223,81
Mediana 2200,0
Moda 2100,0
Desviación Estándar 248,659
Coeficiente de Variación 11,1817%
Mínimo 1600,0
Máximo 2900,0
Rango 1300,0
Cuartil Inferior 2100,0
Cuartil Superior 2400,0
Sesgo 0,32276
Sesgo Estandarizado 1,3502
Curtosis Estandarizada 1,26181
Fuente: elaboración propia

Del resumen estadístico para la variable Área se desprenden las siguientes conclusiones:
1. El dato de mayor frecuencia es de 2100 metros cuadrados.
2. El coeficiente de variación para la variable Área es del 11,1%, lo cual indica que la dispersión de
los datos con respecto a la media aritmética no es grande lo que implica que puede utilizarse para
realizar pruebas estadísticas más complejas.
3. La casa con mayor área construida tiene 2900 metros cuadrados.
4. La casa con menor área construida cuenta con 1600 metros cuadrados.
5. El sesgo estandarizado se encuentra dentro de los rangos esperados, por lo tanto, la desviación
estándar puede utilizarse para realizar pruebas estadísticas.
B. Diagrama de cajas y bigotes

Grafico 4. Gráfico de caja y bigotes de la variable área

Gráfico de Caj a y Bigotes

1600 1900 2200 2500 2800 3100


Área

Fuente: elaboración propia.

El diagrama de cajas y bigotes para la variable Área construida, muestra la presencia de datos atípicos
extremos a la derecha y a la izquierda del diagrama. Dado que los datos atípicos son pocos, podría
reflejar un error en la recolección de la información o en la aplicación de los instrumentos de medición,

C. Histograma
En el histograma presentado en el grafico 5 se pueden observar las concentraciones de los datos
referentes a la variable área.

Grafico 5. Histograma de la variable área

Fuente: elaboración propia.


D. Gráfico de densidad suavizada

Grafico 6. Gráfico de densidad suavizada


Gráfico de Densidad deizada
Suav la variable área
(X 0,0001)
15

12
densidad

0
1600 1900 2200 2500 2800 3100
Área

Fuente: elaboración propia.

Como se puede apreciar en el gráfico de densidad suavizada, la variable Área se comporta de una
manera similar a la distribución normal. Lo cual es positivo puesto que se puede utilizar la regla
empírica para realizar análisis.

2.3.Análisis exploratorio de la variable baños

A. Resumen estadístico
Tabla 4. Resumen estadístico de la variable baños
Recuento 105
Promedio 2,08095
Mediana 2,0
Moda 2,0
Desviación Estándar 0,39299
Coeficiente de Variación 18,8851%
Mínimo 1,5
Máximo 3,0
Rango 1,5
Sesgo 0,794347
Sesgo Estandarizado 3,32299
Curtosis Estandarizada 1,31924
Fuente: elaboración propia.

De acuerdo al resumen estadístico para la variable Baños, se puede concluir lo siguiente:

1. La mayoría de las casas tienen 2 baños.


2. La casa que tiene menos baños cuenta con 1,5.
3. La casa con un mayor número de baños tiene 3.
4. El coeficiente de variación para la variable baños es de 18,8% lo cual se asemeja a la regla del
20% y por lo tanto valida cualquier tipo de prueba estadística teniendo como referente a la
media aritmética.

El sesgo estandarizado se encuentra por fuera de los rangos esperados, esto implica que la desviación
estándar no podría utilizarse para pruebas estadísticas futuras

B. Diagrama de cajas y bigotes

Grafico 7. Gráfico de caja y bigotes de la variable baños

Gráfico de Caj a y Bigotes

1,5 1,8 2,1 2,4 2,7 3


Baños

Fuente: elaboración propia.

El diagrama de cajas y bigotes para la variable Baños refleja una amplia dispersión de datos y valores
atípicos a la izquierda y a la derecha del diagrama, esto puede deberse a un mal tratamiento de la
variable discreta, la cual está siendo asumida como una variable continua.
C. Histograma
En el histograma presentado en el grafico 8 se pueden observar las concentraciones de los datos
referentes a la variable baños.

Grafico 8. Histograma de la variable baños

Histograma

80

60
frecuencia

40

20

0
1,4 1,7 2 2,3 2,6 2,9 3,2
Baños

Fuente: elaboración propia.

D. Gráfico de densidad suavizada

Gráfico de Densidad Suav izada


Grafico 9. Gráfico de densidad suavizada de la variable baños
1,5

1,2
densidad

0,9

0,6

0,3

0
1,5 1,8 2,1 2,4 2,7 3
Baños

Fuente: elaboración propia.

De acuerdo al gráfico de densidad suavizada la variable baños tiene una distribución asimétrica
negativa, lo que implica que la mayoría de las casas tienen un mayor número de baños. La distribución
de la variable no se asemeja a la distribución normal, por lo tanto, la regla empírica no se podría aplicar
y se debería convertir la distribución a una T de Student
2.4.Análisis exploratorio de la variable distancia

A. Resumen estadístico
Tabla 5. Resumen estadístico de la variable distancia
Recuento 105
Promedio 14,6286
Mediana 15,0
Moda 16,0
Desviación Estándar 4,8739
Coeficiente de Variación 33,3177%
Mínimo 6,0
Máximo 28,0
Rango 22,0
Sesgo 0,40191
Sesgo Estandarizado 1,68131
Curtosis Estandarizada -0,36318
Fuente: elaboración propia.

Con respecto al resumen estadístico para la variable distancia se puede concluir lo siguiente:

1. El dato de mayor frecuencia es de 16.


2. El coeficiente de variación para la variable Distancia alcanza un 33,3%, lo cual se aleja de la regla
del 20% y tendería a invalidad cualquier prueba estadística que tenga como referente a la media
aritmética.
3. La casa más cercana al centro se encuentra ubicada a una distancia de 6 kilómetros.
4. La caja más alejada del centro se encuentra ubicada a una distancia de 28 kilómetros.
5. El sesgo estandarizado se encuentra dentro de los rangos esperados, por lo tanto, se pueden
realizar todo tipo de pruebas estadísticas teniendo como referente a la desviación estándar.

B. Diagrama de cajas y bigotes

Gráfico de Caj a y Bigotes


Grafico 10. Gráfico de caja y bigotes de la variable distancia

0 5 10 15 20 25 30
Distancia

Fuente: elaboración propia.


De acuerdo con el grafico de cajas y bigotes para la variable distancia, no se evidencian valores
atípicos, esto incita a pensar que no existieron errores en la recolección de información o en la
aplicación de instrumentos de medición.

C. Histograma
En el histograma presentado en el grafico 11 se pueden observar las concentraciones de los datos
referentes a la variable precio

Histograma
Grafico 11. Histograma de la variable distancia
16

12
frecuencia

0
0 5 10 15 20 25 30
Distancia

Fuente: elaboración propia.

D. Gráfico de densidad suavizada

Gráfico de Densidad Suav izada


Grafico 12. Gráfico de densidad suavizada de la variable distancia
0,08

0,06
densidad

0,04

0,02

0
0 5 10 15 20 25 30
Distancia

Fuente: elaboración propia.

El grafico de densidad suavizada para la variable distancia, se comporta de una manera similar a una
distribución normal, con una leve asimetría negativa lo que indica que la mayoría de las casas se
encuentran a mayor distancia del centro. Dada la similitud con la distribución normal, es posible
aplicar la regla empírica para llevar a cabo análisis estadísticos.

2.5.Análisis exploratorio de la variable cuartos

A. Resumen estadístico
Tabla 6. Resumen estadístico de la variable cuartos
Recuento 105
Promedio 3,8
Mediana 4,0
Moda
Desviación Estándar 1,50256
Coeficiente de Variación 39,5411%
Mínimo 2,0
Máximo 8,0
Rango 6,0
Cuartil Inferior 3,0
Cuartil Superior 5,0
Sesgo 0,660885
Sesgo Estandarizado 2,76468
Curtosis Estandarizada -0,417992
Fuente: elaboración propia.

Del resumen estadístico para la variable cuartos se puede concluir:

1. No existe un dato que se repita con mayor frecuencia o por el contrario, existen por lo menos
dos datos que alcanzan la máxima frecuencia. Para comprobar esta hipótesis más adelante se
presenta el diagrama de puntos.
2. El coeficiente de variación es del 39,5% lo que se aleja de la regla del 20%, por lo tanto se
puede concluir que la dispersión de los datos es significativa lo que tendería a invalidar las
pruebas estadísticas que se realicen teniendo como referente a la media aritmética.
3. La casa con mayor número de cuartos ostenta 8.
4. La casa que tiene un menor número de cuartos ostenta 2.
5. Tal como sucede con el coeficiente de variación, el sesgo estandarizado se aleja de los rangos
esperados, por lo tanto esto tendería a invalidar cualquier tipo de prueba que tenga como
referente a la desviación estándar.
B. Diagrama de cajas y bigotes
Gráfico de Caj a y Bigotes
Grafico 13. Gráfico de caja y bigotes de la variable cuartos

2 3 4 5 6 7 8
Cuartos

Fuente: elaboración propia.

De acuerdo con el gráfico de cajas y bigotes para la variable cuartos, no se reportan valores atípicos
que excedan el rango intercuartilico, esto es interesante ya que de primera mano no se evidencian
posibles fallos en los instrumentos de recolección de información.

C. Histograma
En el histograma presentado en el grafico 14 se pueden observar las concentraciones de los datos
referentes a la variable cuartos

Histograma
Grafico 14. Histograma de la variable cuartos
30

25

20
frecuencia

15

10

0
0 2 4 6 8 10
Cuartos

Fuente: elaboración propia.


D. Gráfico de densidad suavizada
Gráfico de Densidad Suav izada
Grafico 15. Gráfico de densidad suavizada de la variable cuartos
0,25

0,2
densidad

0,15

0,1

0,05

0
2 3 4 5 6 7 8
Cuartos

Fuente: elaboración propia.

Se puede apreciar en el gráfico de densidad suavizada que la variable cuartos, no se comporta de


manera similar a una distribución normal, por lo tanto, es posible que se deba emplear a la mediana en
ligar de la media a la hora de realizar pruebas estadísticas más específicas.

E. Diagrama de puntos

Para el análisis de la variable cuartos se considera necesario adicionar el diagrama de puntos.

Diagrama de Puntos
Grafico 16. Diagrama de puntos de la variable cuartos
26
Frecuencia

0
2 3 4 5 6 7 8
Cuartos
Fuente: elaboración propia.
Observando el diagrama de puntos, se puede comprobar que 26 casas ostentan 3 y 4 cuartos, lo que
invalida la aparición de la MODA

2.6.Análisis exploratorio de la variable piscina

Para el análisis exploratorio de la variable piscina se hace uso de diagrama de sectores, barras y tabla
de frecuencia
Diagrama de Sectores de Piscina
Grafico 17. Diagrama de sectores de la variable piscina
Piscina
0
1

36,19%

63,81%

Fuente: elaboración propia.

Tabla 7. Tabla de frecuencia de la variable piscina


Frecuencia Frecuencia Frecuencia
Clase Valor Frecuencia Relativa Acumulada Rel. acum.
1 0 38 0,3619 38 0,3619
2 1 67 0,6381 105 1,0000
Fuente: elaboración propia.
Diagrama de Barras de Piscina
Grafico 18. Diagrama de barras de la variable piscina

0 20 40 60 80
frecuencia

Fuente: elaboración propia.

De acuerdo al diagrama de barras y al diagrama de sectores se puede concluir que un 63,81% de las
casas tienen piscina mientras que un 36,19% de las casas no cuenta con esta.
{[}
{\}
{]}
{^}
{_}
{`}
2.7.Análisis exploratorio de la variable barrios

Para el análisis exploratorio de la variable barrios se hace uso de diagrama de sectores, barras y tabla
de frecuencia

Diagrama de Barras de Barrio


Grafico 19. Diagrama de barras de la variable barrio

0 5 10 15 20 25 30
frecuencia

Fuente: elaboración propia.

Grafico 20. Diagrama deDiagrama


sectoresde Sectores de Barrio
de la variable barrio
15,24% 14,29% Barrio {[}
1 {\}
2 {]}
3 {^}
4 {_}
5 {`}

19,05%

27,62%

23,81%

Fuente: elaboración propia.

De acuerdo al diagrama de barras y al diagrama de sectores se puede concluir que el 27,62% de las
casas se encuentra en el barrio 4; el 23.81% de las casas se encuentra en el barrio 3; el 19,05% de las
casas se encuentra en el barrio 2; el 15,24% de las casas se encuentra en el barrio 5 y el 14,29% de las
casas se encuentra en el barrio 1.
2.8.Análisis exploratorio de la variable garaje

Para el análisis exploratorio de la variable barrios se hace uso de diagrama de sectores, barras y tabla
de frecuencia

Diagrama de Barras de Garage


Grafico 21. Diagrama de barras de la variable garaje

0 20 40 60 80
frecuencia

Fuente: elaboración propia.

Tabla 8. Tabla de frecuencia de la variable garaje


Frecuencia Frecuencia Frecuencia
Clase Valor Frecuencia Relativa Acumulada Rel. acum.
{[}
1 0 34 0,3238 34 0,3238{\}
{]}
2 1 71 0,6762 105 1,0000{^}
{_}
Fuente: elaboración propia. {`}

Grafico 22. Diagrama de sectores de la variable garaje

Fuente: elaboración propia.

De acuerdo al diagrama de barras y al diagrama de sectores se puede concluir que el 37,62% de las
casas tienen garaje por lo tanto el 32,38% de las casas restantes no tiene garaje.
3. COMPARACIONES

i. ¿Existen diferencias significativas entre los precios de las casas con garaje y sin
garaje?

Grafico 23. Gráfico de medias de las variables precio y garaje

Medias y 95,0% de Fisher LSD

250

230
Precio

210

190

170
0 1
Garage
Fuente: elaboración propia.

La tabla de medias que compara las variables precio y garaje muestra que las medias de ambas
variables no se traslapan, por lo tanto se puede rechazar la hipótesis nula de que las medias son
iguales, y no se rechaza la hipótesis alterna de que las medias son significativamente distintas.

En otras palabras, las casas que tienen garaje son significativamente más costosas que aquellas que
carecen de este elemento.

Tabla 9. Tabla ANOVA para variables precio - garaje


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 63914,4 1 63914,4 39,45 0,0000
Intra grupos 166853, 103 1619,93
Total (Corr.) 230768, 104
Fuente: elaboración propia.

La tabla de ANOVAS para las variables precio y garaje, prueba que existe una diferencia
estadísticamente significativa entre las medias de ambas variables con un nivel de confianza del 95%,
puesto que el Valor-P, el cual es el estadístico que prueba la diferencia es menor que 0,05.
Grafico 24. Gráfico de caja y bigotes variables precio - garaje

Gráfico Caja y Bigotes

Garage 0

120 160 200 240 280 320 360


Precio

Fuente: elaboración propia.

El grafico de cajas y bigotes para las variables Precio y Garaje muestra que las medianas de ambas
variables no se traslapan, por lo tanto, hay una diferencia significativa entre ambas.

Tabla 10. Tabla de Medias para Precio por Garaje con intervalos de confianza del 95,0%
Error Est.
Garaje Casos Media (s agrupada) Límite Inferior Límite Superior
0 34 185,45 6,90254 175,77 195,13
1 71 238,176 4,77661 231,477 244,875
Total 105 221,103
Fuente: elaboración propia.

Gracias a la tabla de medias para las variables Precio y Garaje, se puede confirmar que efectivamente
las medias de ambas variables no se traslapan, puesto que los intervalos de confianza con un 95%,
muestran que el límite superior para las casas sin garaje es de 195,13 mil dólares, mientras que el límite
inferior para las casas que cuentan con garaje se ubica en 231,477 miles de dólares, lo cual indica
claramente la diferencia entre las medias

Tabla 11. Verificación de varianza variables precio y garaje


Prueba Valor-P
Levene's 9,92906 0,00213059
Comparación Sigma1 Sigma2 F-Ratio P-Valor
0/1 28,0046 44,8765 0,389423 0,0037
Fuente: elaboración propia.

La verificación de la varianza para las variables precio y garaje prueba la hipótesis de que la desviación
estándar de ambas variables es igual, dado que el P-Valor es menor que 0,05, se puede rechaar la
hipótesis nula y no rechazar la hipótesis alternativa de que ambas desviaciones estándar son diferentes.
ii. ¿Existen diferencias significativas entre los precios de las casas con y sin piscina?

Tabla 12. Tabla ANOVA para las variables precio - piscina


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 19955,4 1 19955,4 9,75 0,0023
Intra grupos 210812, 103 2046,72
Total (Corr.) 230768, 104
Fuente: elaboración propia.

La tabla de ANOVAS para las variables precio y Piscina indica que existe una diferencia
significativa entre las medias de ambas variables, puesto que el Valor-P es menor que 0,05.

Grafico 25. Gráfico de medias para las variables precio - piscina


Medias y 95,0% de Fisher LSD

240

230

220
Precio

210

200

190
0 1
Piscina

Fuente: elaboración propia.

El grafico de medias muestra visualmente una diferencia significativa entre las medias de las casas
que tienen piscina y aquellas que no cuentan con una piscina. En otras palabras, las casas con piscina
cuentan con un valor promedio más alto que las demás.

Tabla 13.Tabla de Medias para Precio por Piscina con intervalos de confianza del 95,0%
Error Est.
Piscina Casos Media (s agrupada) Límite Inferior Límite Superior
0 38 202,797 7,33901 192,505 213,089
1 67 231,485 5,52703 223,734 239,236
Total 105 221,103
Fuente: elaboración propia.

La tabla de medias muestra comprueba que las casas con piscina y las casas sin piscina tienen un
precio promedio distinto. El límite superior del precio promedio para las casas sin piscina es de
213mil dólares con una intervalo de confianza del 95%, mientras que las casas con piscina tienen un
límite inferior de 223mil dólares, dado lo anterior, los precios promedios no se solapan rechinándose
la hipótesis nula de que ambos promedios son iguales.

Gráfico Caj a y Bigotes


Tabla 14. Gráfico de caja y bigotes para las variables precio - piscina

0
Piscina

120 160 200 240 280 320 360


Precio

Fuente: elaboración propia.

El grafico de cajas y bigotes muestra que las medianas de las casas con piscina y sin piscina no se
traslapan, por lo tanto, se puede afirmar que las medianas no son iguales.

Tabla 15. Verificación de varianza variables precio -piscina


Prueba Valor-P
Levene's 8,43538 0,00450374
Comparación Sigma1 Sigma2 F-Ratio P-Valor
0/1 33,7051 50,5693 0,444238 0,0088
Fuente: elaboración propia.

La prueba de verificación de la varianza para las casas con piscina y sin piscina muestra que existe una
diferencia estadísticamente significativa entre la desviación estándar del precio de ambos tipos de
casas, ya que el P-valor es de 0,0088 muy por debajo del 0,05.

iii. ¿Existen diferencias significativas entre los precios de las casas de los distintos
barrios?

Tabla 16. Tabla ANOVA para las variables precio - barrio


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Entre grupos 13262,8 4 3315,71 1,52 0,2008
Intra grupos 217505, 100 2175,05
Total (Corr.) 230768, 104
Fuente: elaboración propia.

De acuerdo a la tabla ANOVA para las casas de los diferentes barrios, no existe una diferencia
significativa entre los precios promedios de estas, ya que el Valor-P es de 0,2 superior al 0,05.
Grafico 26. Gráfico de medias para las variables precio - barrio
Medias y 95,0% de Fisher LSD

260

240
Precio

220

200

180
1 2 3 4 5
Barrio

Fuente: elaboración propia.

El grafico de medias para las casas de los diferentes barrios, muestra que los intervalos de confianza
de los precios promedios de las casas se traslapan, por tanto, visualmente se rechaza la hipótesis de
que los precios promedio de la casas de los diferentes barrios son significativamente distintos.

Tabla 17. Tabla de Medias para Precio por Barrio con intervalos de confianza del 95,0%
Error Est.
Barrio Casos Media (s agrupada) Límite Inferior Límite Superior
1 15 196,913 12,0417 180,02 213,806
2 20 227,45 10,4284 212,82 242,08
3 25 228,792 9,32748 215,707 241,877
4 29 216,928 8,66035 204,778 229,077
5 16 231,4 11,6594 215,043 247,757
Total 105 221,103
Fuente: elaboración propia.

Como se puede apreciar en la tabla de medias para las casas de los diferentes barrios, los límites
superiores e inferiores de los precios promedio de las casas de los 5 barrios se traslapan, por tanto se
confirma que no existe una diferencia significativa entre los precios de las casas que se encuentran
ubicadas en barrios distintos.
Gráfico Caj a y Bigotes
Tabla 18. Gráfico de caja y bigotes para las variables precio - barrio

2
Barrio
3

120 160 200 240 280 320 360


Precio

Fuente: elaboración propia.

El grafico de cajas y bigotes para las casas de los diferentes barrios, muestra que se traslapan las
medianas de las casas de los diferentes barrios. Por tanto se rechaza la hipótesis de que las medianas
de las casas son significativamente distintas.

4. RELACIONES

A. Exploración la relación entre la variable precio y la variable número de cuartos, área


construida, distancia al centro y la variable número de baños.

Para comprobar la relación entre la variable precio y las variables: número de cuartos, área construida,
distancia a centro y número de baños, se propone un análisis multivariado de correlaciones.

Tabla 19. Correlaciones entre variables


Precio Cuartos Área Distancia Baños
Precio 0,4674 0,3710 -0,3470 0,3822
N (105) (105) (105) (105)
Valor-P 0,0000 0,0001 0,0003 0,0001
Fuente: elaboración propia.

De acuerdo a la tabla de correlaciones, existe una correlación estadística entre moderada entre la
variable precio y las variables Cuartos, área y baños. Por otro lado, existe una correlación estadística
inversa entre la variable precio y la variable Distancia.

En otras palabras, a mayor número de cuartos, a mayor área construida y a un mayor número de baños,
el precio de las casas crece, mientras que a una mayor distancia al centro los precios de las casas
disminuyen.

Por otro lado, los Valores-P para todas las variables independientes, indican que las correlaciones con
la variable precio son significativamente diferentes de Cero con un nivel de confianza del 95%, esto
quiere decir, que todas las variables independientes probadas ejercen un efecto estadísticamente
significativo sobre la variable precio, por lo tanto, no se debe excluir ninguna del modelo.

También, se puede concluir que la variable que mejor explica el precio de las casas, es el número de
cuartos, mientras que la menos significativa es la distancia al centro.

B. Explore la relación entre:

 La variable área construida y número de cuartos.


 La variable número de cuartos y la variable número de baños

Para probar la relación entre la variable Área y la variable cuartos, se propone correr un modelo de
regresión lineal simple

Relación entre la variable área construida y número de cuartos.


Regresión Simple - Cuartos vs. Área
Variable dependiente: Cuartos
Variable independiente: Área
Lineal: Y = a + b*X

Tabla 20.Coeficientes variables cuartos - area


Mínimos Estándar Estadístico
Cuadrados
Parámetr Estimado Error T Valor-P
o
Intercepto -1,35277 1,23039 -1,09946 0,2741
Pendiente 0,00231709 0,000549887 4,21376 0,0001
Fuente: elaboración propia.

Tabla 21. Análisis de Varianza variables cuartos - area


Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 34,5247 1 34,5247 17,76 0,0001
Residuo 200,275 103 1,94442
Total (Corr.) 234,8 104
Fuente: elaboración propia.

Coeficiente de Correlación = 0,383456


R-cuadrada = 14,7039 porciento
R-cuadrado (ajustado para g.l.) = 13,8757 porciento
Error estándar del est. = 1,39442
Error absoluto medio = 1,13109
Estadístico Durbin-Watson = 1,70874 (P=0,0682)
Autocorrelación de residuos en retraso 1 = 0,143012
De acuerdo con los datos obtenidos con el modelo de regresión lineal entre la variable área y la variable
cuartas, se puede concluir lo siguiente:

 Dado que el valor-P en la tabla ANOVA es inferior al 0,05%, se puede probar que existe una
relación estadísticamente significativa entre las variables cuartos y área con un 95% de
confianza.
 El cofeficiente de correlación de 0,383456, indica que existe una débil relación positiva entre
el área construida de las casas y el número de cuartos que estas tienen, en otras palabras, a
mayor área construida las casas tenderán a ostentar un mayor número de cuartos.
 El estadístico R-cuadrado, indica que la variabilidad de cuartos se explica en un 14% por la
variable área construida.

Grafico 27. Grafico del modelo ajustado variables cuartos - área

Gráfico del Modelo Aj ustado


Cuartos = -1,35277 + 0,00231709*Área

6
Cuartos

2
1600 1900 2200 2500 2800 3100
Área

Fuente: elaboración propia.

Gráficamente, también es posible observar, que la relación entre los datos de las variables Área
construida y numero de cuartos se comporta como una pendiente, por lo tanto, visualmente se puede
manifestar que existe una relación lineal entre ambas variables.

Relación entre la variable número de cuartos y la variable número de baños

Para probar la relación entre la variable número de cuartos y la variable número de baños, se propone
un modelo de regresión lineal simple que se aplica a continuación:
Regresión Simple - Baños vs. Cuartos
Variable dependiente: Baños
Variable independiente: Cuartos
Lineal: Y = a + b*X

Tabla 22. Coeficientes variables baños - cuartos


Mínimos Estándar Estadístico
Cuadrados
Parámetr Estimado Error T Valor-P
o
Intercepto 1,75404 0,0993835 17,6492 0,0000
Pendiente 0,0860307 0,0243369 3,53498 0,0006
Fuente: elaboración propia.

Tabla 23. Análisis de Varianza variables baños - cuartos


Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,73782 1 1,73782 12,50 0,0006
Residuo 14,3241 103 0,139069
Total (Corr.) 16,0619 104
Fuente: elaboración propia.

Coeficiente de Correlación = 0,32893


R-cuadrada = 10,8195 porciento
R-cuadrado (ajustado para g.l.) = 9,95368 porciento
Error estándar del est. = 0,372919
Error absoluto medio = 0,274604
Estadístico Durbin-Watson = 2,05898 (P=0,6179)
Autocorrelación de residuos en retraso 1 = -0,0530556

Del modelo de regresión lineal simple por mínimos cuadrados ordinarios aplicado para las variables,
se pueden desprender las siguientes conclusiones:

 El valor-P en la tabla ANOVA es inferior a 0,05, por lo tanto se puede confirmar que existe
una relación significativa con un margen de confianza del 95% entre el número de cuartos y
el número de baños que ostentan las casas de la muestra.
 El coeficiente de correlación de 0,32 indica que la relación entre ambas variables es positiva
pero débil. Esto quiere decir, que a medida que las casas tienen un mayor número de cuartos
tienden también a contar con un mayor número de baños.
El estadístico R-cuadrado que el número de cuartos de las casas explica la variabilidad en la variable
baños en un 10%.

Grafico 28. Modelo ajustado de variables baños - cuartos


Gráfico del Modelo Aj ustado
Baños = 1,75404 + 0,0860307*Cuartos

2,7

2,4
Baños

2,1

1,8

1,5
2 3 4 5 6 7 8
Cuartos

Fuente: elaboración propia.

Gráficamente, se puede observar como la relación entre las variables cuartos y baños se comporta
como una pendiente, por lo tanto, se puede afirmar que existe un comportamiento de relación lineal
entre ambas variables.

5. MODELO 1

Ajuste un modelo que trate de explicar el precio en función del número de cuartos, el área
construida, la distancia al centro y el número de baños.

Regresión Múltiple - Precio


Variable dependiente: Precio
Variables independientes:
Cuartos
Área
Distancia
Baños

Tabla 24. Regresión múltiple variable dependiente: precio; variables independientes: cuartos, área,
distancia, baños

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 61,1308 43,7883 1,39605 0,1658
Cuartos 8,13906 2,84406 2,86178 0,0051
Área 0,0451595 0,016266 2,77631 0,0066
Distancia -2,23585 0,779718 -2,86751 0,0050
Baños 29,4696 10,1675 2,8984 0,0046
Fuente: elaboración propia.

Tabla 25. Análisis de Varianza modelo de regresión múltiple


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 88622,5 4 22155,6 15,59 0,0000
Residuo 142145, 100 1421,45
Total (Corr.) 230768, 104
Fuente: elaboración propia.

R-cuadrada = 38,4034 porciento


R-cuadrado (ajustado para g.l.) = 35,9395 porciento
Error estándar del est. = 37,7021
Error absoluto medio = 29,7971
Estadístico Durbin-Watson = 1,5503 (P=0,0102)
Autocorrelación de residuos en retraso 1 = 0,194652

Regresión por Pasos


Método: Selección Hacia Atrás
Alpha a introducir: 0,05
Alpha a cambiar: 0,05

Paso 0:
4 variable(s) en el modelo. 100 g.l. para el error.
R-cuadrado = 38,40% R-cuadrado ajustado = 35,94% CME = 1421,45

Modelo Final seleccionado.

Grafico 29. Gráfico de precios modelo de regresión múltiple


Gráfico de Precio

360

320

280
observado
240

200

160

120
120 160 200 240 280 320 360
predicho

Fuente: elaboración propia.

Análisis.

El análisis de regresión múltiple efectuado permite probar las relaciones entre la variable precio con
las variables cuartos, área, distancia y baños. Además, la selección del método paso hacia atrás,
permite el ajuste del modelo eliminando las variables que no sean representativas para explicar la
variable independiente.

La tabla de ANOVA muestra que el valor-P es menor que 0,05, por lo tanto, se puede afirmar que
existe una relación significativa entre las variables probadas con un nivel de confianza del 95%.

Tabla 26. ANOVA adicional para Variables en el Orden Ajustado


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Cuartos 50409,2 1 50409,2 35,46 0,0000
Área 9955,13 1 9955,13 7,00 0,0095
Distancia 16317,0 1 16317,0 11,48 0,0010
Baños 11941,2 1 11941,2 8,40 0,0046
Modelo 88622,5 4
Fuente: elaboración propia.

Por otro lado, el estadístico R-Cuadrado ajustado, muestra que el modelo ajustado explica en un 35%
la variabilidad del precio de las casas, por lo tanto, las variables dependientes juntas en el modelo,
explican la diferencia de los precios de las casas en un porcentaje considerable.

Teniendo en cuenta que el valor-P más alto de las variables independientes es de 0,0066
correspondiente área construida sigue siendo inferior que 0,05, esta variable es estadísticamente
significativa para el modelo con un nivel de confianza del 95%, en este orden de ideas, el modelo no
necesita simplificarse.

6. MODELO 2
¿Puede encontrar un “mejor” modelo que el anterior, que involucre las restantes variables del
estudio?
Para probar la relación que ejercen todas las variables (cuantitativas y categóricas) sobre la variable
precio, se propone emplear un modelo lineal generalizado que permite la introducción de variables
mixtas para la prueba de hipótesis:

Modelos Lineales Generalizados


Número de variables dependientes: 1
Número de factores categóricos: 3
A=Piscina
B=Garaje
C=Barrio
Número de factores cuantitativos: 4
D=Cuartos
E=Área
F=Distancia
G=Baños

Tabla 27. Análisis de Varianza para Precio modelo 2


Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 128250, 10 12825,0 11,76 0,0000
Residuo 102518, 94 1090,61
Total (Corr.) 230768, 104
Fuente: elaboración propia.

Tabla 28. Suma de Cuadrados Tipo III modelo 2


Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Piscina 6005,98 1 6005,98 5,51 0,0210
Garaje 23624,2 1 23624,2 21,66 0,0000
Barrio 5573,97 4 1393,49 1,28 0,2843
Cuartos 10351,5 1 10351,5 9,49 0,0027
Área 7574,91 1 7574,91 6,95 0,0098
Distancia 2795,9 1 2795,9 2,56 0,1127
Baños 3476,35 1 3476,35 3,19 0,0774
Residuo 102518, 94 1090,61
Total 230768, 104
(corregido)
Fuente: elaboración propia.

R-Cuadrada = 55,5754 porciento


R-Cuadrada (ajustada por g.l.) = 50,8493 porciento
Error estándar del est. = 33,0244
Error medio absoluto = 25,0684
Estadístico Durbin-Watson = 1,4326 (P=0,0016)
El modelo de regresión generalizada permite concluir lo siguiente:

 Dado que el valor-P en la tabla ANOVA para precio es menor que 0,05, se puede decir que
existe una relación estadísticamente significativa entre las variables independientes y la
variable precio con un nivel de confianza del 95%.
 Como se puede apreciar en la segunda tabla ANOVA que prueba la significancia estadística de
cada factor, el valor-P correspondiente a la variable Barrio es de 0,28, lo que supera el valor
0,05. Esto lo que quiere decir, es que es recomendable eliminar dicha variable para simplificar
y mejorar el modelo.

Teniendo esto en cuenta, se procede a probar nuevamente las relaciones eliminando la variable
barrio:

Al correr el modelo nuevamente, habiendo eliminado la variable barrio, se obtienen los siguientes
resultados:

Tabla 29. Suma de Cuadrados Tipo III


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Piscina 7557,53 1 7557,53 6,85 0,0103
Garaje 24246,5 1 24246,5 21,98 0,0000
Distancia 1798,66 1 1798,66 1,63 0,2046
Área 7393,57 1 7393,57 6,70 0,0111
Cuartos 8585,05 1 8585,05 7,78 0,0063
Baños 7361,63 1 7361,63 6,67 0,0113
Residuo 108092, 98 1102,98
Total 230768, 104
(corregido)
Fuente: elaboración propia.

Teniendo en cuenta que el Valor-P en la tabla ANOVA para la variable Distancia es de 0,2046, siendo
este superior a 0,05, Distancia debería ser eliminada del modelo para simplificarlo y mejorarlo:

Tabla 30. Análisis de Varianza para Precio


Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 120877, 5 24175,5 21,78 0,0000
Residuo 109890, 99 1110,0
Total (Corr.) 230768, 104
Fuente: elaboración propia.

Tabla 31.Suma de Cuadrados Tipo III


Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Piscina 8287,06 1 8287,06 7,47 0,0074
Garaje 31598,6 1 31598,6 28,47 0,0000
Área 7892,29 1 7892,29 7,11 0,0090
Cuartos 8710,41 1 8710,41 7,85 0,0061
Baños 8318,41 1 8318,41 7,49 0,0073
Residuo 109890, 99 1110,0
Total 230768, 104
(corregido)
Fuente: elaboración propia.

R-Cuadrada = 52,3805 porciento


R-Cuadrada (ajustada por g.l.) = 49,9755 porciento
Error estándar del est. = 33,3167
Error medio absoluto = 26,3749
Estadístico Durbin-Watson = 1,46772 (P=0,0029)

Simplificado el modelo, se puede apreciar que el valor-P más alto en la tabla ANOVA es de 0,0090
correspondiente a la variable área. Teniendo en cuenta que este valor es inferior a 0,05 se puede
afirmar que esta variable sigue siendo representativa y continúa aportando a la explicación de la
variabilidad en precio.

Por otro lado, el estadístico R-cuadrado, indica que el modelo ajustado explica en un 52,38% la
variabilidad en el precio de las casas. En otras palabras, lo que esto quiere decir es que las variables
independientes probadas ejercen un efecto significativo sobre los precios que ostentan las casas en la
muestra.

You might also like