Professional Documents
Culture Documents
1. LAS VARIABLES
Para la realización del análisis estadístico del presenta caso se hace necesario, en primer lugar
presentar la caracterización de las variables, lo cual se indica en la tabla 1.
A. Resumen estadístico
El diagrama de cajas y bigotes para la variable precio que se presenta a continuación, da cuenta de que
dentro de este constructo no se reportan valores atípicos, es decir, valores que están por fuera del rango
intercuartilico los cuales podrían señalar posibles falencias en la recolección de los datos
C. Histograma
En el histograma presentado en el grafico 2 se pueden observar las concentraciones de los datos
referentes a la variable precio.
Histograma
Grafico 2. Histograma de la variable precio
15
12
frecuencia
0
110 160 210 260 310 360
Precio
(X 0,001)
8
6
densidad
0
120 160 200 240 280 320 360
Precio
Al observar el gráfico de densidad suavizada para la variable precio, se puede concluir que dicha
variable se comporta de manera similar a una distribución normal, teniendo una leve asimetría positiva
que refleja que la mayoría de los datos se concentran en los rangos más pequeños de precios, situación
que es comprensible debido a la naturaleza de la variable PRECIO. El hecho de que la variable ostente
una distribución similar a la normal, es positivo para futuros análisis ya que se puede aplicar la regla
empírica para la prueba de hipótesis o comparaciones.
2.2.Análisis exploratorio de la variable área
A. Resumen estadístico
Del resumen estadístico para la variable Área se desprenden las siguientes conclusiones:
1. El dato de mayor frecuencia es de 2100 metros cuadrados.
2. El coeficiente de variación para la variable Área es del 11,1%, lo cual indica que la dispersión de
los datos con respecto a la media aritmética no es grande lo que implica que puede utilizarse para
realizar pruebas estadísticas más complejas.
3. La casa con mayor área construida tiene 2900 metros cuadrados.
4. La casa con menor área construida cuenta con 1600 metros cuadrados.
5. El sesgo estandarizado se encuentra dentro de los rangos esperados, por lo tanto, la desviación
estándar puede utilizarse para realizar pruebas estadísticas.
B. Diagrama de cajas y bigotes
El diagrama de cajas y bigotes para la variable Área construida, muestra la presencia de datos atípicos
extremos a la derecha y a la izquierda del diagrama. Dado que los datos atípicos son pocos, podría
reflejar un error en la recolección de la información o en la aplicación de los instrumentos de medición,
C. Histograma
En el histograma presentado en el grafico 5 se pueden observar las concentraciones de los datos
referentes a la variable área.
12
densidad
0
1600 1900 2200 2500 2800 3100
Área
Como se puede apreciar en el gráfico de densidad suavizada, la variable Área se comporta de una
manera similar a la distribución normal. Lo cual es positivo puesto que se puede utilizar la regla
empírica para realizar análisis.
A. Resumen estadístico
Tabla 4. Resumen estadístico de la variable baños
Recuento 105
Promedio 2,08095
Mediana 2,0
Moda 2,0
Desviación Estándar 0,39299
Coeficiente de Variación 18,8851%
Mínimo 1,5
Máximo 3,0
Rango 1,5
Sesgo 0,794347
Sesgo Estandarizado 3,32299
Curtosis Estandarizada 1,31924
Fuente: elaboración propia.
El sesgo estandarizado se encuentra por fuera de los rangos esperados, esto implica que la desviación
estándar no podría utilizarse para pruebas estadísticas futuras
El diagrama de cajas y bigotes para la variable Baños refleja una amplia dispersión de datos y valores
atípicos a la izquierda y a la derecha del diagrama, esto puede deberse a un mal tratamiento de la
variable discreta, la cual está siendo asumida como una variable continua.
C. Histograma
En el histograma presentado en el grafico 8 se pueden observar las concentraciones de los datos
referentes a la variable baños.
Histograma
80
60
frecuencia
40
20
0
1,4 1,7 2 2,3 2,6 2,9 3,2
Baños
1,2
densidad
0,9
0,6
0,3
0
1,5 1,8 2,1 2,4 2,7 3
Baños
De acuerdo al gráfico de densidad suavizada la variable baños tiene una distribución asimétrica
negativa, lo que implica que la mayoría de las casas tienen un mayor número de baños. La distribución
de la variable no se asemeja a la distribución normal, por lo tanto, la regla empírica no se podría aplicar
y se debería convertir la distribución a una T de Student
2.4.Análisis exploratorio de la variable distancia
A. Resumen estadístico
Tabla 5. Resumen estadístico de la variable distancia
Recuento 105
Promedio 14,6286
Mediana 15,0
Moda 16,0
Desviación Estándar 4,8739
Coeficiente de Variación 33,3177%
Mínimo 6,0
Máximo 28,0
Rango 22,0
Sesgo 0,40191
Sesgo Estandarizado 1,68131
Curtosis Estandarizada -0,36318
Fuente: elaboración propia.
Con respecto al resumen estadístico para la variable distancia se puede concluir lo siguiente:
0 5 10 15 20 25 30
Distancia
C. Histograma
En el histograma presentado en el grafico 11 se pueden observar las concentraciones de los datos
referentes a la variable precio
Histograma
Grafico 11. Histograma de la variable distancia
16
12
frecuencia
0
0 5 10 15 20 25 30
Distancia
0,06
densidad
0,04
0,02
0
0 5 10 15 20 25 30
Distancia
El grafico de densidad suavizada para la variable distancia, se comporta de una manera similar a una
distribución normal, con una leve asimetría negativa lo que indica que la mayoría de las casas se
encuentran a mayor distancia del centro. Dada la similitud con la distribución normal, es posible
aplicar la regla empírica para llevar a cabo análisis estadísticos.
A. Resumen estadístico
Tabla 6. Resumen estadístico de la variable cuartos
Recuento 105
Promedio 3,8
Mediana 4,0
Moda
Desviación Estándar 1,50256
Coeficiente de Variación 39,5411%
Mínimo 2,0
Máximo 8,0
Rango 6,0
Cuartil Inferior 3,0
Cuartil Superior 5,0
Sesgo 0,660885
Sesgo Estandarizado 2,76468
Curtosis Estandarizada -0,417992
Fuente: elaboración propia.
1. No existe un dato que se repita con mayor frecuencia o por el contrario, existen por lo menos
dos datos que alcanzan la máxima frecuencia. Para comprobar esta hipótesis más adelante se
presenta el diagrama de puntos.
2. El coeficiente de variación es del 39,5% lo que se aleja de la regla del 20%, por lo tanto se
puede concluir que la dispersión de los datos es significativa lo que tendería a invalidar las
pruebas estadísticas que se realicen teniendo como referente a la media aritmética.
3. La casa con mayor número de cuartos ostenta 8.
4. La casa que tiene un menor número de cuartos ostenta 2.
5. Tal como sucede con el coeficiente de variación, el sesgo estandarizado se aleja de los rangos
esperados, por lo tanto esto tendería a invalidar cualquier tipo de prueba que tenga como
referente a la desviación estándar.
B. Diagrama de cajas y bigotes
Gráfico de Caj a y Bigotes
Grafico 13. Gráfico de caja y bigotes de la variable cuartos
2 3 4 5 6 7 8
Cuartos
De acuerdo con el gráfico de cajas y bigotes para la variable cuartos, no se reportan valores atípicos
que excedan el rango intercuartilico, esto es interesante ya que de primera mano no se evidencian
posibles fallos en los instrumentos de recolección de información.
C. Histograma
En el histograma presentado en el grafico 14 se pueden observar las concentraciones de los datos
referentes a la variable cuartos
Histograma
Grafico 14. Histograma de la variable cuartos
30
25
20
frecuencia
15
10
0
0 2 4 6 8 10
Cuartos
0,2
densidad
0,15
0,1
0,05
0
2 3 4 5 6 7 8
Cuartos
E. Diagrama de puntos
Diagrama de Puntos
Grafico 16. Diagrama de puntos de la variable cuartos
26
Frecuencia
0
2 3 4 5 6 7 8
Cuartos
Fuente: elaboración propia.
Observando el diagrama de puntos, se puede comprobar que 26 casas ostentan 3 y 4 cuartos, lo que
invalida la aparición de la MODA
Para el análisis exploratorio de la variable piscina se hace uso de diagrama de sectores, barras y tabla
de frecuencia
Diagrama de Sectores de Piscina
Grafico 17. Diagrama de sectores de la variable piscina
Piscina
0
1
36,19%
63,81%
0 20 40 60 80
frecuencia
De acuerdo al diagrama de barras y al diagrama de sectores se puede concluir que un 63,81% de las
casas tienen piscina mientras que un 36,19% de las casas no cuenta con esta.
{[}
{\}
{]}
{^}
{_}
{`}
2.7.Análisis exploratorio de la variable barrios
Para el análisis exploratorio de la variable barrios se hace uso de diagrama de sectores, barras y tabla
de frecuencia
0 5 10 15 20 25 30
frecuencia
19,05%
27,62%
23,81%
De acuerdo al diagrama de barras y al diagrama de sectores se puede concluir que el 27,62% de las
casas se encuentra en el barrio 4; el 23.81% de las casas se encuentra en el barrio 3; el 19,05% de las
casas se encuentra en el barrio 2; el 15,24% de las casas se encuentra en el barrio 5 y el 14,29% de las
casas se encuentra en el barrio 1.
2.8.Análisis exploratorio de la variable garaje
Para el análisis exploratorio de la variable barrios se hace uso de diagrama de sectores, barras y tabla
de frecuencia
0 20 40 60 80
frecuencia
De acuerdo al diagrama de barras y al diagrama de sectores se puede concluir que el 37,62% de las
casas tienen garaje por lo tanto el 32,38% de las casas restantes no tiene garaje.
3. COMPARACIONES
i. ¿Existen diferencias significativas entre los precios de las casas con garaje y sin
garaje?
250
230
Precio
210
190
170
0 1
Garage
Fuente: elaboración propia.
La tabla de medias que compara las variables precio y garaje muestra que las medias de ambas
variables no se traslapan, por lo tanto se puede rechazar la hipótesis nula de que las medias son
iguales, y no se rechaza la hipótesis alterna de que las medias son significativamente distintas.
En otras palabras, las casas que tienen garaje son significativamente más costosas que aquellas que
carecen de este elemento.
La tabla de ANOVAS para las variables precio y garaje, prueba que existe una diferencia
estadísticamente significativa entre las medias de ambas variables con un nivel de confianza del 95%,
puesto que el Valor-P, el cual es el estadístico que prueba la diferencia es menor que 0,05.
Grafico 24. Gráfico de caja y bigotes variables precio - garaje
Garage 0
El grafico de cajas y bigotes para las variables Precio y Garaje muestra que las medianas de ambas
variables no se traslapan, por lo tanto, hay una diferencia significativa entre ambas.
Tabla 10. Tabla de Medias para Precio por Garaje con intervalos de confianza del 95,0%
Error Est.
Garaje Casos Media (s agrupada) Límite Inferior Límite Superior
0 34 185,45 6,90254 175,77 195,13
1 71 238,176 4,77661 231,477 244,875
Total 105 221,103
Fuente: elaboración propia.
Gracias a la tabla de medias para las variables Precio y Garaje, se puede confirmar que efectivamente
las medias de ambas variables no se traslapan, puesto que los intervalos de confianza con un 95%,
muestran que el límite superior para las casas sin garaje es de 195,13 mil dólares, mientras que el límite
inferior para las casas que cuentan con garaje se ubica en 231,477 miles de dólares, lo cual indica
claramente la diferencia entre las medias
La verificación de la varianza para las variables precio y garaje prueba la hipótesis de que la desviación
estándar de ambas variables es igual, dado que el P-Valor es menor que 0,05, se puede rechaar la
hipótesis nula y no rechazar la hipótesis alternativa de que ambas desviaciones estándar son diferentes.
ii. ¿Existen diferencias significativas entre los precios de las casas con y sin piscina?
La tabla de ANOVAS para las variables precio y Piscina indica que existe una diferencia
significativa entre las medias de ambas variables, puesto que el Valor-P es menor que 0,05.
240
230
220
Precio
210
200
190
0 1
Piscina
El grafico de medias muestra visualmente una diferencia significativa entre las medias de las casas
que tienen piscina y aquellas que no cuentan con una piscina. En otras palabras, las casas con piscina
cuentan con un valor promedio más alto que las demás.
Tabla 13.Tabla de Medias para Precio por Piscina con intervalos de confianza del 95,0%
Error Est.
Piscina Casos Media (s agrupada) Límite Inferior Límite Superior
0 38 202,797 7,33901 192,505 213,089
1 67 231,485 5,52703 223,734 239,236
Total 105 221,103
Fuente: elaboración propia.
La tabla de medias muestra comprueba que las casas con piscina y las casas sin piscina tienen un
precio promedio distinto. El límite superior del precio promedio para las casas sin piscina es de
213mil dólares con una intervalo de confianza del 95%, mientras que las casas con piscina tienen un
límite inferior de 223mil dólares, dado lo anterior, los precios promedios no se solapan rechinándose
la hipótesis nula de que ambos promedios son iguales.
0
Piscina
El grafico de cajas y bigotes muestra que las medianas de las casas con piscina y sin piscina no se
traslapan, por lo tanto, se puede afirmar que las medianas no son iguales.
La prueba de verificación de la varianza para las casas con piscina y sin piscina muestra que existe una
diferencia estadísticamente significativa entre la desviación estándar del precio de ambos tipos de
casas, ya que el P-valor es de 0,0088 muy por debajo del 0,05.
iii. ¿Existen diferencias significativas entre los precios de las casas de los distintos
barrios?
De acuerdo a la tabla ANOVA para las casas de los diferentes barrios, no existe una diferencia
significativa entre los precios promedios de estas, ya que el Valor-P es de 0,2 superior al 0,05.
Grafico 26. Gráfico de medias para las variables precio - barrio
Medias y 95,0% de Fisher LSD
260
240
Precio
220
200
180
1 2 3 4 5
Barrio
El grafico de medias para las casas de los diferentes barrios, muestra que los intervalos de confianza
de los precios promedios de las casas se traslapan, por tanto, visualmente se rechaza la hipótesis de
que los precios promedio de la casas de los diferentes barrios son significativamente distintos.
Tabla 17. Tabla de Medias para Precio por Barrio con intervalos de confianza del 95,0%
Error Est.
Barrio Casos Media (s agrupada) Límite Inferior Límite Superior
1 15 196,913 12,0417 180,02 213,806
2 20 227,45 10,4284 212,82 242,08
3 25 228,792 9,32748 215,707 241,877
4 29 216,928 8,66035 204,778 229,077
5 16 231,4 11,6594 215,043 247,757
Total 105 221,103
Fuente: elaboración propia.
Como se puede apreciar en la tabla de medias para las casas de los diferentes barrios, los límites
superiores e inferiores de los precios promedio de las casas de los 5 barrios se traslapan, por tanto se
confirma que no existe una diferencia significativa entre los precios de las casas que se encuentran
ubicadas en barrios distintos.
Gráfico Caj a y Bigotes
Tabla 18. Gráfico de caja y bigotes para las variables precio - barrio
2
Barrio
3
El grafico de cajas y bigotes para las casas de los diferentes barrios, muestra que se traslapan las
medianas de las casas de los diferentes barrios. Por tanto se rechaza la hipótesis de que las medianas
de las casas son significativamente distintas.
4. RELACIONES
Para comprobar la relación entre la variable precio y las variables: número de cuartos, área construida,
distancia a centro y número de baños, se propone un análisis multivariado de correlaciones.
De acuerdo a la tabla de correlaciones, existe una correlación estadística entre moderada entre la
variable precio y las variables Cuartos, área y baños. Por otro lado, existe una correlación estadística
inversa entre la variable precio y la variable Distancia.
En otras palabras, a mayor número de cuartos, a mayor área construida y a un mayor número de baños,
el precio de las casas crece, mientras que a una mayor distancia al centro los precios de las casas
disminuyen.
Por otro lado, los Valores-P para todas las variables independientes, indican que las correlaciones con
la variable precio son significativamente diferentes de Cero con un nivel de confianza del 95%, esto
quiere decir, que todas las variables independientes probadas ejercen un efecto estadísticamente
significativo sobre la variable precio, por lo tanto, no se debe excluir ninguna del modelo.
También, se puede concluir que la variable que mejor explica el precio de las casas, es el número de
cuartos, mientras que la menos significativa es la distancia al centro.
Para probar la relación entre la variable Área y la variable cuartos, se propone correr un modelo de
regresión lineal simple
Dado que el valor-P en la tabla ANOVA es inferior al 0,05%, se puede probar que existe una
relación estadísticamente significativa entre las variables cuartos y área con un 95% de
confianza.
El cofeficiente de correlación de 0,383456, indica que existe una débil relación positiva entre
el área construida de las casas y el número de cuartos que estas tienen, en otras palabras, a
mayor área construida las casas tenderán a ostentar un mayor número de cuartos.
El estadístico R-cuadrado, indica que la variabilidad de cuartos se explica en un 14% por la
variable área construida.
6
Cuartos
2
1600 1900 2200 2500 2800 3100
Área
Gráficamente, también es posible observar, que la relación entre los datos de las variables Área
construida y numero de cuartos se comporta como una pendiente, por lo tanto, visualmente se puede
manifestar que existe una relación lineal entre ambas variables.
Para probar la relación entre la variable número de cuartos y la variable número de baños, se propone
un modelo de regresión lineal simple que se aplica a continuación:
Regresión Simple - Baños vs. Cuartos
Variable dependiente: Baños
Variable independiente: Cuartos
Lineal: Y = a + b*X
Del modelo de regresión lineal simple por mínimos cuadrados ordinarios aplicado para las variables,
se pueden desprender las siguientes conclusiones:
El valor-P en la tabla ANOVA es inferior a 0,05, por lo tanto se puede confirmar que existe
una relación significativa con un margen de confianza del 95% entre el número de cuartos y
el número de baños que ostentan las casas de la muestra.
El coeficiente de correlación de 0,32 indica que la relación entre ambas variables es positiva
pero débil. Esto quiere decir, que a medida que las casas tienen un mayor número de cuartos
tienden también a contar con un mayor número de baños.
El estadístico R-cuadrado que el número de cuartos de las casas explica la variabilidad en la variable
baños en un 10%.
2,7
2,4
Baños
2,1
1,8
1,5
2 3 4 5 6 7 8
Cuartos
Gráficamente, se puede observar como la relación entre las variables cuartos y baños se comporta
como una pendiente, por lo tanto, se puede afirmar que existe un comportamiento de relación lineal
entre ambas variables.
5. MODELO 1
Ajuste un modelo que trate de explicar el precio en función del número de cuartos, el área
construida, la distancia al centro y el número de baños.
Tabla 24. Regresión múltiple variable dependiente: precio; variables independientes: cuartos, área,
distancia, baños
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 61,1308 43,7883 1,39605 0,1658
Cuartos 8,13906 2,84406 2,86178 0,0051
Área 0,0451595 0,016266 2,77631 0,0066
Distancia -2,23585 0,779718 -2,86751 0,0050
Baños 29,4696 10,1675 2,8984 0,0046
Fuente: elaboración propia.
Paso 0:
4 variable(s) en el modelo. 100 g.l. para el error.
R-cuadrado = 38,40% R-cuadrado ajustado = 35,94% CME = 1421,45
360
320
280
observado
240
200
160
120
120 160 200 240 280 320 360
predicho
Análisis.
El análisis de regresión múltiple efectuado permite probar las relaciones entre la variable precio con
las variables cuartos, área, distancia y baños. Además, la selección del método paso hacia atrás,
permite el ajuste del modelo eliminando las variables que no sean representativas para explicar la
variable independiente.
La tabla de ANOVA muestra que el valor-P es menor que 0,05, por lo tanto, se puede afirmar que
existe una relación significativa entre las variables probadas con un nivel de confianza del 95%.
Por otro lado, el estadístico R-Cuadrado ajustado, muestra que el modelo ajustado explica en un 35%
la variabilidad del precio de las casas, por lo tanto, las variables dependientes juntas en el modelo,
explican la diferencia de los precios de las casas en un porcentaje considerable.
Teniendo en cuenta que el valor-P más alto de las variables independientes es de 0,0066
correspondiente área construida sigue siendo inferior que 0,05, esta variable es estadísticamente
significativa para el modelo con un nivel de confianza del 95%, en este orden de ideas, el modelo no
necesita simplificarse.
6. MODELO 2
¿Puede encontrar un “mejor” modelo que el anterior, que involucre las restantes variables del
estudio?
Para probar la relación que ejercen todas las variables (cuantitativas y categóricas) sobre la variable
precio, se propone emplear un modelo lineal generalizado que permite la introducción de variables
mixtas para la prueba de hipótesis:
Dado que el valor-P en la tabla ANOVA para precio es menor que 0,05, se puede decir que
existe una relación estadísticamente significativa entre las variables independientes y la
variable precio con un nivel de confianza del 95%.
Como se puede apreciar en la segunda tabla ANOVA que prueba la significancia estadística de
cada factor, el valor-P correspondiente a la variable Barrio es de 0,28, lo que supera el valor
0,05. Esto lo que quiere decir, es que es recomendable eliminar dicha variable para simplificar
y mejorar el modelo.
Teniendo esto en cuenta, se procede a probar nuevamente las relaciones eliminando la variable
barrio:
Al correr el modelo nuevamente, habiendo eliminado la variable barrio, se obtienen los siguientes
resultados:
Teniendo en cuenta que el Valor-P en la tabla ANOVA para la variable Distancia es de 0,2046, siendo
este superior a 0,05, Distancia debería ser eliminada del modelo para simplificarlo y mejorarlo:
Simplificado el modelo, se puede apreciar que el valor-P más alto en la tabla ANOVA es de 0,0090
correspondiente a la variable área. Teniendo en cuenta que este valor es inferior a 0,05 se puede
afirmar que esta variable sigue siendo representativa y continúa aportando a la explicación de la
variabilidad en precio.
Por otro lado, el estadístico R-cuadrado, indica que el modelo ajustado explica en un 52,38% la
variabilidad en el precio de las casas. En otras palabras, lo que esto quiere decir es que las variables
independientes probadas ejercen un efecto significativo sobre los precios que ostentan las casas en la
muestra.