Professional Documents
Culture Documents
En el fichero Alumnos.sav aparece información sobre el gasto en material de estudiantes de primer curso
durante dos meses consecutivos, así como la rama de la carrera que estudian y diversos datos personales.
Realiza el estudio descriptivo de los datos que se pide a continuación:
-Realiza el gráfico de sectores de porcentajes (sin datos perdidos, donde aparezcan los porcentajes fuera de los
sectores y desgajando el sector de Ciencias Experimentales)
2.- Realiza un gráfico de barras de porcentajes de la variable Carrera separada por hombres y mujeres.
7
3.- Realizar un estudio exploratorio y descriptivo de las variables cuantitativas.
Gasto en Gasto en
Estadísticos Estatura Peso Septiembre Octubre
N Válidos 68 68 70 70
Perdidos 2 2 0 0
Media 1,6974 65,21 87,17 90,31
Mediana 1,7000 65,00 82,00 85,00
Moda 1,72 62 82 87
Desviación típica 0,06945 8,608 20,848 19,867
Asimetría 0,332 0,008 3,181 2,056
simétrica simétrica Asimétrica positiva Asimétrica positiva
Muestra
Curtosis 0,052 -0,257 13,362 4,169
mesocúrtica mesocúrtica leptocúrtica leptocúrtica
Muestra
Percentil 25 1,6425 61,00 75,00 80,00
Percentil 75 1,7400 72,00 92,00 92,25
Buscar los correspondientes intervalos de confianza del 95% para la asimetría y la curtosis, decidiendo la forma de la
distribución de los datos de la población de la cual procede la muestra.
Los Intervalos se construyen (-2 error, 2 error) , siendo el error correspondiente a la asimetría y curtosis
respectivamente
El coeficiente de asimetría de Estatura: 0.332 pertenece al intervalo (-0.582, 0.582 ) la población de la que proceden
los datos de la variable es simétrica.
El coeficiente de asimetría de Peso: 0.008 pertenece al intervalo (-0.582, 0.582 ) la población de la que proceden los
datos es simétrica.
El coeficiente de asimetría de Gasto en Septiembre: 3.181 no pertenece al intervalo (-0.574, 0.574) la población de la
que proceden los datos es asimétrica positiva o por la derecha.
El coeficiente de asimetría de Gasto en Octubre: 2.056 no pertenece al intervalo (-0.574, 0.574) la población de la que
proceden los datos es asimétrica positiva o por la derecha.
El coeficiente de curtosis de Estatura: 0.052 pertenece al intervalo (-1.148, 1.148) la población de la que proceden los
datos es mesocurtica.
El coeficiente de curtosis de Peso: -0.257 pertenece al intervalo (-1.148, 1.148) la población de la que proceden los
datos es mesocurtica.
El coeficiente de curtosis de Gasto en Septiembre: 13.362 no pertenece al intervalo (-1.132, 1.132) la población de la
que proceden los datos es leptocurtica.
El coeficiente de curtosis de Gasto en Octubre: 4.169 no pertenece al intervalo (-1.132, 1.132) la población de la que
proceden los datos es leptocurtica.
8
4.- Realizar el histograma de cada una de las variables cuantitativas con 10 intervalos.
5.- Obtener los descriptivos siguientes para la variable Gastos en Septiembre para las distintas ramas de carrera.
a. Existen varias modas, en la tabla se muestra la menor, el resto son (se pueden ver en las correspondientes tablas de
frecuencias):
Para Ciencias Sociales son valores modales 72, 76 y 82.
Para Ciencias Experimentales son valores modales 90, 93, 100 y 150.
Para Enseñanzas Técnicas son moda 70 y 91.
9
6.- Realiza un diagrama de cajas o box-plot de la variable Gastos en Septiembre separada para las diferentes ramas
de carrera. Comenta lo que se observa en el gráfico.
El gasto en septiembre para las carreras de ciencias experimentales tiene un valor mediano superior al resto de las
carreras y presenta datos extremos (correspondientes a alumnos con un gasto de 150 y 200 €). La variabilidad del
gasto en las ramas de ciencias sociales y humanidades es menor que en el resto de las ramas. También se puede
apreciar en los diagramas la asimetría en alguna de las ramas.
7.- Realiza el estudio de las variables peso y estatura separándolo para hombres y mujeres.
Peso-Hombres Peso-Mujeres Estatura-Hombres Estatura-Mujeres
N Válidos 40 28 40 28
Media 70,30 57,93 1,7265 1,6557
Mediana 70,00 60,00 1,7200 1,6500
Moda 73 50 1,72 1,60 y 1,65
Desviación típica 6,268 5,811 0,06720 0,04887
Asimetría 0,444 -0,351 0,030 0,194
Muestra
Simétrica Simétrica Simétrica Simétrica
Curtosis -0,166 -1,576 0,569 -0,776
Muestra Mesocúrtica Platicúrtica Mesocúrtica Platicúrtica
10
Buscar los correspondientes intervalos de confianza del 95% para la asimetría y la curtosis, decidiendo la forma de la
distribución de los datos de la población de la cual procede la muestra.
8.- Box-Plot de dichas variables (Peso y Estatura) separándolas por hombres y mujeres. Compara el Box-plot que
resulta sin dicha separación.
Box-Plot de Estatura:
La variable estatura toma valores inferiores en el grupo de las mujeres donde la distribución parece más simétrica que
en el grupo de los hombres, en este grupo hay un dato atípico, un hombre con una estatura de 1,57.
Si se realiza el estudio de ambos grupos juntos, el dato atípico anterior desaparece (al ser un valor cercano al grupo de
las mujeres) y aparece un nuevo dato atípico que es un hombre que mide 1,90. Se observa simetría en el gráfico.
Box-Plot de Peso:
La variable Peso toma valores inferiores en el grupo de las mujeres, donde se aprecia asimetría y mayor dispersión
entre el primer y el tercer cuartil.
11
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 5. INTERVALOS DE CONFIANZA Y CONTRASTES DE MEDIAS
Usando los datos de la práctica 4 realiza los intervalos y contrastes de medias que se indican
1.- Determinar los intervalos de confianza para la media poblacional de la estatura y el peso con una
confianza del 90%, 95% y 99%.
Intervalo de confianza Estatura Peso
para la media poblacional
Al 90% ( 1,6833 - 1,7114 ) ( 63,46 - 66,95 )
Al 95% ( 1,6805 - 1,7142 ) ( 63,12 - 67,29 )
Al 99% ( 1,6750 - 1,7197 ) ( 62,44 - 67,97 )
¿Cuál es la estatura media en la muestra? 1,6974
¿Cuál es el peso medio en la muestra? 65,21
Con una confianza del 95% ¿se puede decir que la estatura media es de 1.70? Si, 1,70 ∈IC95%
Con una confianza del 99% ¿se puede decir que el peso medio es de 61 kg? No, 61∉ IC99%
Con una confianza del 90% ¿se puede afirmar que el peso medio es de 65 kg? Si, 65∈IC90%
¿Qué le sucede a los intervalos al aumentar el nivel de confianza? Al aumentar la confianza el intervalo
aumenta de longitud.
2.- Realiza los intervalos de confianza correspondientes separados para hombres y mujeres.
Intervalo de confianza Estatura-Hombres Estatura-Mujeres
para la media poblacional
Al 90% ( 1,7086 - 1,7444 ) ( 1,6400 - 1,6714 )
Al 95% ( 1,7050 - 1,7480 ) ( 1,6368 - 1,6747 )
Al 99% ( 1,6977 - 1,7553 ) ( 1,6301 - 1,6813 )
¿Cuál es la estatura media de los hombres de la muestra? 1,7265
¿Cuál es la estatura media de las mujeres de la muestra? 1,6557
Con una confianza del 95% ¿se puede decir que la estatura media en los hombres de la población es superior
a la estatura media de las mujeres de la población? Si, porque el intervalo de confianza que contiene a la
media de los hombres es superior al intervalo de confianza que contiene a la media de las mujeres, y al no
tener intersección no hay valores comunes.
Con una confianza del 99% ¿se puede decir que la estatura media en los hombres es de 1.68?
No, 1.68∉ IC99%
Con una confianza del 90% ¿se puede afirmar que la estatura media en las mujeres es de 1.68?
No, 1.68∉ IC90%
9
¿Cuál es el peso medio de los hombres de la muestra? 70,30
¿Cuál es el peso medio de las mujeres de la muestra? 57,93
Con una confianza del 95% ¿se puede decir que el peso medio en los hombres de la población es inferior al
peso medio de las mujeres en la población? No es superior.
Con una confianza del 99% ¿se puede decir que el peso medio en los hombres es de 65 kg? No, 65∉ IC99%
Con una confianza del 90% ¿se puede afirmar que el peso medio en las mujeres es de 65 kg? No, 65∉ IC90%
3.- Con un nivel de significación del 5% decidir si puede considerarse que la estatura media es 1,75.
¿Qué hipótesis estamos contrastando? H0: µ estatura=1,75 frente a H1: µ estatura≠1,75
¿Cuál es el valor del estadístico de contraste T? -6,251
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Aceptamos que la estatura media es de 1,75? No, Sig=0< α=0.05 rechazamos H0 la estatura media no es
1.75
Si no lo aceptamos, ¿es mayor o menor que 1,75?
IC µ-1,75= (-0,0695, -0,0358), por lo que µ-1,75<0, es decir µ<1,75 la media es menor que 1,75.
Repite el ejercicio cambiando el valor de contraste por 1,70 y 1,60. Comenta las diferencias que observas.
H0: µ=1.70 frente a H1: µ≠1.70 H0: µ=1.60 frente a H1: µ≠1.60
T= - 0.314 T= 11.560
Sig=0,754 > α=0.05 aceptamos H0 Sig=0< α=0.05 rechazamos H0
IC µ-1,70= (-0.0195, 0.0142), IC µ-1,60= (0.0805, 0.1142),
0∈IC, µ-1.70=0 µ-1,60>0 por lo que µ>1.60
4.- Con un nivel de significación del 5% decidir mediante una prueba paramétrica si puede considerarse que
el gasto medio en septiembre es de 70 €.
¿Qué hipótesis estamos contrastando? H0: µ gastoS=70 frente a H1: µ gastoS≠70
¿Cuál es el valor del estadístico de contraste T? 6.891
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Aceptamos que el gasto medio en septiembre es de 70€? No, Sig=0< α=0.05 rechazamos H0
Si no lo aceptamos, ¿es mayor o menor que 70? IC µ gastoS- 70= (12.20, 22.14), por lo que µ gastoS-70>0, es
decir µ gastoS>70 la media es mayor que 70.
5.- Con un nivel de significación del 5% decidir mediante una prueba paramétrica si puede considerarse que
el gasto medio en octubre es de 89 €.
¿Qué hipótesis estamos contrastando? H0: µ gastoO=89 frente a H1: µ gastoO≠89
¿Cuál es el valor del estadístico de contraste T? 0.553
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.582
¿Aceptamos que el gasto medio en octubre es de 89€? Si, Sig=0.582 > α=0.05 aceptamos H0
Si no lo aceptamos, ¿es mayor o menor que 89? Es igual, 0 pertenece al intervalo ( -3.42, 6.05)
10
6.-Contrastar la hipótesis de que la estatura media en hombres y mujeres es la misma, mediante un test
paramétrico, con un nivel de significación del 1 %:
¿Qué hipótesis estamos contrastando? H0: µ Eh= µ Em frente H1: µ Eh≠ µ Em
¿Aceptamos la igualdad de las varianzas? H0: σ2Eh= σ2Em frente H1: σ2Eh≠σ2Em
Sig=0.307> α=0.01 aceptamos H0, por lo que las varianzas son iguales
¿Cuál es el valor del estadístico de contraste T? 4.758
¿Con cuántos grados de libertad? 66
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Aceptamos la igualdad de las medias? No, Sig=0< α=0.01 rechazamos H0 las medias no son iguales
Si las medias no son iguales ¿qué grupo tiene una estatura media mayor? IC µ Eh- µ Em = (0.04108, 0.10049)
µ Eh- µ Em >0, por lo que µ Eh>µ Em los hombres tienen una estatura media mayor que las mujeres.
7.-Contrastar la hipótesis de que el gasto medio en septiembre es el mismo en las carreras de Ciencias
Sociales y en las de Ciencias Experimentales, con un nivel de significación del 5 %:
¿Qué hipótesis estamos contrastando? H0: µ gastoSCS= µ gastoSCE frente H1: µ gastoSCS ≠ µ gastoSCE
¿Aceptamos la igualdad de las varianzas? H0: σ2gastoSCS= σ2gastoSCE frente H1: σ2gastoSCS≠σ2gastoSCE
Sig=0.065> α=0.05 aceptamos H0, por lo que las varianzas son iguales
¿Cuál es el valor del estadístico de contraste T? – 1.917
¿Con cuántos grados de libertad? 31
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.065
¿Aceptamos la igualdad de las medias? Si, Sig=0.065> α=0.05 aceptamos H0
Si las medias no son iguales ¿qué grupo tiene un gasto mayor? Son iguales, 0 pertenece al intervalo
8.- Contrastar la hipótesis de que el peso medio en la población es el mismo para las personas con estatura
menor que 1,65 que para las que tienen estatura mayor que 1,65, mediante un test paramétrico, con un nivel
de significación del 5 %:
¿Qué hipótesis estamos contrastando? H0: µ pesoest≥1.65= µ pesto, est<1.65 frente H1: µ pesoest≥1.65 ≠ µ pesto, est<1.65
¿Aceptamos la igualdad de las varianzas?
H0: σ2 pesoest≥1.65= σ2 pesto, est<1.65 frente H0: σ2pesoest≥1.65≠σ2 pesto, est<1.65
Sig=0.786> α=0.05 aceptamos H0, por lo que las varianzas son iguales
¿Cuál es el valor del estadístico de contraste T? 2.514
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.014
¿Aceptamos la igualdad de las medias? No, Sig=0.014< α=0.05 rechazamos H0
Si las medias no son iguales, ¿qué grupo tiene un peso medio mayor? IC= (1.168, 10.212)
Por lo que µ pesoest≥1.65- µ pesto, est<1.65 >0, es decir µ pesoest≥1.65 > µ pesto, est<1.65 el peso medio de la población es
mayor en las personas con estatura superior a 1.65
11
9.-Con un nivel de significación del 5% decidir mediante una prueba paramétrica si el gasto medio en
septiembre es el mismo que el gasto medio en octubre.
¿Qué hipótesis estamos contrastando? H0: µ gastoS-gastoO=0 frente H1: µ gastoS-gastoO=0
¿Cuál es el valor del estadístico de contraste T? -0.999
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0.321
¿Aceptamos que el gasto medio es el mismo en los dos meses? Si, Sig=0.321 > α=0.05 aceptamos H0
Si el gasto no es el mismo, ¿cuándo tienen mayor gasto en septiembre o en octubre? Es el mismo
IC=(-9.421, 3.136) el valor cero pertenece al intervalo.
¿Están las variables relacionadas linealmente? No, H0: correlación=0, Sig=0.175> α=0.05 aceptamos H0,
Si la correlación es nula no están relacionadas linealmente.
12
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 6. CONTRASTES DE HIPÓTESIS
En el fichero de datos Practica_6_Datos.sav aparecen parte de los resultados de la encuesta que una
empresa de marketing ha realizado de cara a lanzar al mercado un nuevo producto.
1.- Comprobar si los datos de las variables numéricas proceden de poblaciones Normales
¿Qué hipótesis contrastamos? H0: Variable i ≡ Normal (µ, σ)
¿Qué variables pertenecen a una población Normal? ¿Porqué?
Edad ≡ Normal (µ=42,878; σ=11,569) porque Sig.=0,256 >α= 0,05 acepto H0.
Ingresos ≡ Normal (µ=1473,946; σ=548,351) porque Sig.=0,161 >α= 0,05 acepto H0.
Gasto de enero en alimentación≡ Normal (µ=471,822; σ=97,235) porque Sig.=0,276 >α= 0,05 acepto H0.
Gasto de ocio en enero≡ Normal (µ=159,876; σ=44,191) porque Sig.=0,377 >α= 0,05 acepto H0.
Gasto de marzo en alimentación≡ Normal (µ=478,081; σ=120,33) porque Sig.=0,491 >α= 0,05 acepto H0.
Gasto de ocio en marzo≡ Normal (µ=125,041; σ=42,081) porque Sig.=0,155 >α= 0,05 acepto H0.
La variable número de hijos no es Normal.
2. -Se cree que el gasto medio en alimentación cambia de enero a marzo, realiza el contraste para verificarlo:
¿Qué hipótesis contrastamos? H0: µ alimentaciónE=µ alimentaciónM frente H1: µ alimentaciónE≠µ alimentaciónM
¿Cuál es el valor del estadístico de contraste T? – 0,528
¿Con cuantos grados de libertad? 73
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0,599
¿Si es cierta dicha creencia, en que mes tienen más gastos en alimentación? ¿Por qué?
Acepto H0 porque Sig=0.599>α= 0,05, por lo tanto el gasto medio en alimentación no cambia de enero a
marzo.
¿Están las variables relacionadas linealmente? Si, el coeficiente de correlación es 0.579, y se realiza el
contraste H0:ρ=0, como la Sig=0<α= 0,05 rechazo la hipótesis nula.
3.- Decidir si puede considerarse el ingreso medio en las mujeres mayor que 2500.
¿Qué hipótesis estamos contrastando? H0: µ INGRESOmujeres=2500 frente a H1: µ INGRESOmujeres≠2500
5.- Realizar un estudio para saber si el gasto medio en alimentación en el mes de enero es distinto para los
mayores de 40 años y para los menores de 40.
¿Qué hipótesis contrastamos? H0: µ GastoAe≥40=µ GastoAe<40
frente H1: µ GastoAe≥40 ≠µ GastoAe<40
¿Qué hipótesis previas necesitamos contrastar y qué decidimos en este contraste previo?
H0: σ2 GastoAe≥40=σ2 GastoAe<40
frente H1: σ2GastoAe≥40 ≠σ2 GastoAe<40
El valor de la Sig.=0,002<α= 0,05 rechazo la hipótesis nula, por lo que las varianzas de ambos grupos son
distintas.
¿Cuál es el valor del estadístico de contraste T? 7,768
¿Cuál es el valor de la significación muestral? 0
¿Son distintos los gastos medios de alimentación en ambos grupos? ¿Por qué?
El valor de la Sig.=0<α= 0,05 rechazo la hipótesis nula, por lo que el gasto medio en alimentación en el mes
de enero es distinto en ambos grupos.
En caso de que dichos gastos medios sean distintos, ¿En qué grupo es mayor?
Según el intervalo de confianza para la diferencia de medias, ICµ GastoAe≥40-µ GastoAe<40 =(95,719; 162, 479),
se tiene que µ GastoAe≥40-µ GastoAe<40 >0, por lo que µ GastoAe≥40>µ GastoAe<40, el gasto medio en alimentación en
el mes de enero es superior para los mayores de 40 años.
6. Se cree que el gasto medio en ocio no cambia de enero a marzo, realiza el contraste para verificarlo:
¿Qué hipótesis contrastamos? H0: µ E=µ M frente H1: µ E≠µ M
¿Cuál es el valor del estadístico de contraste T? 4,773
¿Con cuantos grados de libertad? 73
¿Cuál es el valor de la significación muestral de la hipótesis nula? 0
¿Es cierto que el gasto medio en ocio no cambia de enero a marzo? ¿Por qué?
El valor de la Sig.=0<α= 0,05, se rechaza la hipótesis nula, por lo que el gasto medio en ocio cambia de
enero a marzo.
En caso de que el gasto medio en ocio sea distinto, ¿Dónde es mayor?
El intervalo de confianza de la diferencia de medias es IC µ E-µ M=(20,290; 49,381), por lo que µ E-µ M>0, es
decir µ E>µ M, el gasto medio en ocio es superior en el mes de enero.
¿Están las variables relacionadas linealmente? No, el coeficiente de correlación es -0,059, y se realiza el
contraste H0:ρ=0, como la Sig=0,620>α= 0,05 acepto la hipótesis nula.
8.- ¿Se puede considerar que el ingreso medio en los hombres mayores de 35 es mayor que 1500?
¿Cuál es el ingreso medio de dicho grupo? 1847,23
¿Qué hipótesis contrastamos? H0: µ H>35=1500 frente a H1: µ H>35≠1500
¿Cuál es el valor del estadístico de contraste? 2,708
¿Con cuántos grados de libertad? 21
¿Cuál es el valor de la significación muestral? 0,013
¿Cuál es la conclusión sobre el ingreso medio en los hombres mayores de 35? ¿Por qué?
El valor de la significación Sig.=0,013<α= 0,05 por lo que se rechaza la hipótesis nula. El intervalo para la
diferencia IC µ H>35-1500 =(80,54; 613,92). Por tanto, µ H>35-1500 >0, el valor del ingreso medio en los
hombre mayores de 35 es superior a 1500.
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 7. REGRESIÓN LINEAL
Con los datos de la práctica 6, se quiere hacer un estudio para determinar si es posible conocer los gastos familiares
en ocio y alimentación. Para ello se plantea un ajuste lineal simple conocidos los ingresos familiares. Determinar si
es posible dicho ajuste.
1.- Realiza los gráficos de dispersión de las variables relativas a los gastos frente a los ingresos, ¿qué pareja de
variables podría tener un ajuste lineal?
La variable Gastos de ocio en marzo no esta relacionada linealmente con los Ingresos.
Según lo anterior se hará el estudio con la más relacionada linealmente que es gastos de ocio en enero.
4.- Realiza el ajuste de regresión lineal simple Y=a+bX, contestando las siguientes preguntas:
¿Es bueno el modelo dado por la recta de regresión anterior? ¿Por qué?
R cuadrado=0,784 coeficiente de determinación, indica el porcentaje de variabilidad de la variable Y explicado por
el modelo
En la tabla también aparecen r=0,885 es el coeficiente de correlación lineal entre las variables, y R cuadrado
corregida= 0,781 es el coeficiente de determinación corregido por el tamaño muestral.
¿Cuáles son los valores máximos y mínimos para los valores predichos y errores? (Ver sobre la tabla)
a
Estadísticos sobre los residuos
Desviación
Mínimo Máximo Media típica N
Normales. NO ¿Por qué? H0: Residuos Normales, en la prueba de Kolmogorov-Smirnov la Sig. =0,008<α=0.05
por lo que se rechaza la hipótesis nula.
Aleatorios. SI ¿Por qué? H0:Residuos Aleatorios, en la prueba de Rachas la Sig=0,995> α=0.05 acepto H0.
(OJO: la prueba de rachas puede dar otro resultado si los datos en el fichero están descolocados)
Independientes. NO ¿Por qué? El valor del estadístico de Durbin-Watson= 1,359 como no es próximo a 2, entre
(1.5, 2,5) los residuos no son independientes.
Y= 54,730+0,071X, Y=54,730+0,071(1650)=171,88€
¿Qué gasto en ocio en enero tendría el encuestado número 28 según el modelo? 243,55770
¿Con qué error? -13,55770
(Estos valores aparecen en el fichero de datos, al guardar los valores pronosticados y los residuos no tipificados.)
7.- Según los estudios más recientes se sabe que el gasto en ocio en el mes de enero depende no solo de los
ingresos, sino que también de la edad, el número de hijos y el gasto en alimentación. Realiza un estudio de
regresión lineal múltiple Y=a+b1X1+b2X2+b3X3+b4X4 para determinar el ajuste más apropiado.
Comparar los resultados de los métodos Introducir y Pasos sucesivos del SPSS, contesta a las siguientes preguntas
con el modelo final elegido:
Por el método Introducir el SPSS introduce en el modelo todas las variables independientes (aunque pueden
sobrar)
b
Variables introducidas/eliminadas
b
Resumen del modelo
Total 142558,670 73
a. Variables predictoras: (Constante), Gastos de enero en alimentacion, Numero de hijos, Ingresos mensuales, Edad
b. Variable dependiente: Gastos de ocio en enero
En la tabla ANOVA como la Sig.=0< α=0.05 se rechaza H0: No tiene sentido el modelo de regresión.
a
Coeficientes
Pero la Sig> α=0.05 para las variables Número de hijos y Gastos de enero en alimentación, es decir se acepta H0:
coeficiente=0, por lo que sobran estas variables del modelo. Pueden sobrar las dos o sólo una (si existe relación
entre ellas). Habría que volver a realizar el ajuste eliminándolas de una en una y luego las dos a la vez, por el
método introducir. En vez de hacerlo de esta manera, se puede hacer directamente por el método de Pasos
Sucesivos.
2 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Variable dependiente: Gastos de ocio en enero
Por el método de pasos sucesivos, primero se introduce la variable Edad y luego la variable Ingresos. En todas las
tablas aparecen los resultados para los dos modelos, siendo mejor el último.
¿Tiene sentido la regresión? SI ¿Por qué?
H0: No existe regresión
Según la tabla ANOVA, Sig=0<α=0.05 por lo que se rechaza que no tiene sentido el modelo de regresión.
c
ANOVA
Modelo Suma de
cuadrados gl Media cuadrática F Sig.
a
1 Regresión 115598,778 1 115598,778 308,722 ,000
Residual 26959,892 72 374,443
Total 142558,670 73
b
2 Regresión 124250,220 2 62125,110 240,921 ,000
Total 142558,670 73
a. Variables predictoras: (Constante), Edad
b. Variables predictoras: (Constante), Edad, Ingresos mensuales
c. Variable dependiente: Gastos de ocio en enero
b
2 ,934 ,872 ,868 16,058 1,760
¿Cuáles son los valores máximos y mínimos para los valores predichos y errores? (Ver la tabla)
a
Estadísticos sobre los residuos
Desviación
Mínimo Máximo Media típica N
Para el modelo obtenido estudiar si los errores (guardar los residuos no tipificados) son:
Unstandardized Residual
N 74
a,b
Parámetros normales Media ,0000000
Desviación 15,83668775
típica
Diferencias más Absoluta ,096
extremas Positiva ,088
Negativa -,096
Z de Kolmogorov-Smirnov ,827
Sig. asintót. (bilateral) ,501
Prueba de rachas
Unstandardized Residual
a
Valor de prueba -1,85019
Casos < Valor de prueba 37
Casos >= Valor de prueba 37
Casos en total 74
Número de rachas 35
Z -,702
Sig. asintót. (bilateral) ,482
a. Mediana
(OJO: la prueba de rachas puede dar otro resultado si los datos en el fichero están descolocados)
Durbin-Watson
1,760
¿Qué gasto en ocio en enero tendrá un sujeto de 40 años, con unos ingresos de 1650€?
¿Qué gasto en ocio en enero tendría el encuestado número 28 según el modelo? 228,41908
¿Con qué error? 1,58092
(Estos valores aparecen en el fichero de datos, al guardar los valores pronosticados y los residuos no tipificados.)
ESTADÍSTICA. 1º Grado en Ingeniería Informática.
Práctica 8. REGRESIÓN LINEAL Y NO LINEAL
Con los datos de la Práctica 6, se quiere hacer un estudio para determinar si es posible conocer los gastos
familiares en ocio y alimentación.
1.- Según estudios recientes se puede predecir el gasto en alimentación en el mes de enero (AE) a partir de los
ingresos (I) y del gasto en ocio en el mes de enero (OE), mediante un modelo de la forma:
AE=a+b1I+b2OE+b3OE2.
Como hay que seguir un modelo hay que realizar el ajuste por el método Introducir
b
Variables introducidas/eliminadas
a) ¿Existe regresión? Si ¿Por qué? La Sig de la tabla ANOVA=0<α=0.05 se rechaza H0: No existe regresión
b
ANOVA
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 Ingresos . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
dimension0
mensuales
Según la significación de la tabla no sobra ningún coeficiente. La Sig.=0< α=0.05 se rechaza H0: coeficiente=0.
Unstandardized Residual
N 74
a,b
Parámetros normales Media ,0000000
Desviación típica 58,21131445
Diferencias más Absoluta ,222
extremas Positiva ,145
Negativa -,222
Z de Kolmogorov-Smirnov 1,907
Sig. asintót. (bilateral) ,001
Unstandardized Residual
a
Valor de prueba -,12886
Casos < Valor de prueba 36
Casos >= Valor de prueba 38
Casos en total 74
Número de rachas 30
Z -1,868
Sig. asintót. (bilateral) ,062
a. Mediana
(OJO: la prueba de rachas puede dar distintos resultados si el fichero de datos esta desordenado)
Comparar los resultados que se obtienen si separamos el estudio anterior en función del nivel de estudios.
Segmentamos el fichero de datos por el nivel de estudios. Se hace el estudio directamente por Pasos Sucesivos:
dimension0
1 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
b,c
ANOVA
3
Como se aprecia sólo aparece en el modelo la variable ingresos mensuales con una bondad de ajuste del 89.8%,
el ajuste es bueno en los que tienen estudios primarios.
b. Variable dependiente: Gastos de enero en alimentación
b,c
Resumen del modelo
El modelo se escribe AE = 207,923 + 0,189 I y no sobra ninguno de los coeficientes (La Sig.=0< α=0.05 se
rechaza H0: coeficiente=0.).
a,b
Coeficientes
Unstandardized
Residual
N 14
a,b
Parámetros normales Media ,0000000
Desviación típica 5,25308941
Diferencias más extremas Absoluta ,290
Positiva ,164
Negativa -,290
Z de Kolmogorov-Smirnov 1,086
Sig. asintót. (bilateral) ,189
2,681
4
Los residuos son aleatorios. La sig=1 > α=0.05, aceptamos H0:Aleatorios
b
Prueba de rachas
Unstandardized Residual
a
Valor de prueba ,61428
Casos < Valor de prueba 5
Casos >= Valor de prueba 9
Casos en total 14
Número de rachas 7
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
b. Nivel de estudios = Primarios
1 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
2 OE2 . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
dimension0
3 Gastos de ocio en . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
enero
En el modelo final aparecen los ingresos mensuales, los gastos de ocio en enero y los gastos de ocio en enero al
cuadrado, el ajuste no es tan bueno, sólo se explica el 65.2% de la variabilidad de los gastos de enero en
alimentación.
d,e
Resumen del modelo
El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
5
d,e
ANOVA
Total 75556,265 33
b
2 Regresión 35356,223 2 17678,111 13,632 ,000
Residual 40200,042 31 1296,776
Total 75556,265 33
c
3 Regresión 49290,459 3 16430,153 18,766 ,000
a,b
Coeficientes
El modelo se escribe AE= -1705,337+0,166 I – 0,091OE2 + 26,689 OE y no sobra ningún coeficiente ya que la
Sig=0< α=0.05 se rechaza H0: coeficiente=0.
6
Los errores son normales. La sig=0,787 > α=0.05, aceptamos H0:Normales
c
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized Residual
N 34
a,b
Parámetros normales Media ,0000000
Desviación 28,21229354
típica
Diferencias más Absoluta ,112
extremas Positiva ,077
Negativa -,112
Z de Kolmogorov-Smirnov ,653
Sig. asintót. (bilateral) ,787
b
Prueba de rachas
Unstandardized Residual
a
Valor de prueba 1,64502
Casos < Valor de prueba 15
Casos >= Valor de prueba 19
Casos en total 34
Número de rachas 20
Z ,613
Sig. asintót. (bilateral) ,540
a. Mediana
b. Nivel de estudios = Secundarios
Los residuos son independientes. Durbin-Watson=2,446∈(1,5 ; 2,5)
Durbin-Watson
2,446
Para el grupo de encuestados que tienen estudios Universitarios nos aparece la siguiente advertencia
Advertencia
Es decir que no se realiza el ajuste mediante el modelo de regresión por pasos sucesivos. Si lo hacemos por el
método introducir (a la fuerza), observamos que no tiene sentido hacer un ajuste de regresión.
7
El modelo de regresión no tiene sentido. La Sig=0,652>α=0.05 se acepta H0: No existe modelo de regresión
b,c
ANOVA
b,c
Resumen del modelo
Sobran todos los coeficientes del modelo, la Sig> α=0.05 se acepta H0: Coeficiente =0
2. Se lleva a cabo un estudio para los hombres para predecir el gasto en alimentación en marzo (AM) a partir de
los ingresos (I) y del gasto en ocio en el mes de marzo (OM), mediante un modelo de la forma:
AM=a+b1I+b2OM+b3OM3.
Como hay que seguir un modelo hay que realizar el ajuste por el método Introducir
b,c
Variables introducidas/eliminadas
8
a) ¿Existe regresión? Si ¿Por qué?
El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
b,c
ANOVA
a,b
Coeficientes
a. Sexo = Hombre
b. Variable dependiente: Gastos de marzo en alimentacion
Si la respuesta al apartado c) es afirmativa, rehacer el modelo (pasos sucesivos). Si es negativa continuar con el
mismo modelo.
a,b
Variables introducidas/eliminadas
1 Ingresos mensuales . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
dimension0
2 OM3 . Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
a. Sexo = Hombre
b. Variable dependiente: Gastos de marzo en alimentacion
9
a,b
Coeficientes
a. Sexo = Hombre
b. Variable dependiente: Gastos de marzo en alimentacion
e) ¿Es bueno dicho modelo? Si ¿Por qué? El modelo explica el 0,938% de la variabilidad de la variable
gasto de marzo en alimentación.
c,d
Resumen del modelo
b
2 ,969 ,938 ,933 31,165 2,628
c
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 28
a,b
Parámetros normales Media ,0000000
Desviación típica 29,98845948
Diferencias más extremas Absoluta ,183
Positiva ,183
Negativa -,103
Z de Kolmogorov-Smirnov ,970
Sig. asintót. (bilateral) ,303
10
¿Son aleatorios? Si ¿Por qué? la Sig=0,847> α=0.05 se acepta H0: Aleatorios
Prueba de rachas
Unstandardized Residual
a
Valor de prueba -,73178
Casos < Valor de prueba 14
Casos >= Valor de prueba 14
Casos en total 28
Número de rachas 16
Z ,193
Sig. asintót. (bilateral) ,847
a. Mediana
3. Se lleva a cabo un estudio para los hombres para predecir el gasto de alimentación en marzo (AM) a partir
del gasto de alimentación en el mes de enero (AE), el gasto en ocio en enero (OE) y el gasto en ocio en marzo
(OM) mediante un modelo de la forma: AM=a+b1AE+b2OE+b3OM.
Como hay que seguir un modelo hay que realizar el ajuste por el método Introducir
a) ¿Existe regresión? SI ¿Por qué?
El modelo de regresión tiene sentido. La Sig=0<α=0.05 se rechaza H0: No existe modelo de regresión
b
ANOVA
a. Variables predictoras: (Constante), Gastos de ocio en marzo, Gastos de ocio en enero, Gastos de enero en alimentacion
b. Variable dependiente: Gastos de marzo en alimentacion
11
a
Coeficientes
Si la respuesta al apartado c) es afirmativa, rehacer el modelo (pasos sucesivos). Si es negativa continuar con el
mismo modelo.
d) ¿Cuál es el modelo resultante? AM=266,519 + 1,970 OE – 1,117 OM. No sobra ningúna variable, La Sig=0
< α=0.05 se rechaza H0: Coeficiente=0
a
Coeficientes
b
2 ,954 ,910 ,903 37,641 2,194
f) Los residuos:
¿Son normales? Si ¿Por qué? La Sig=0,964> α=0.05 se acepta H0: Normales
12
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 28
a,b
Parámetros normales Media ,0000000
Desviación típica 36,22013968
Diferencias más extremas Absoluta ,094
Positiva ,094
Negativa -,062
Z de Kolmogorov-Smirnov ,499
Sig. asintót. (bilateral) ,964
Unstandardized Residual
a
Valor de prueba -5,54679
Casos < Valor de prueba 14
Casos >= Valor de prueba 14
Casos en total 28
Número de rachas 20
Z 1,733
Sig. asintót. (bilateral) ,083
a. Mediana
Durbin-Watson
2,194
13
ESTADÍSTICA 1º Grado en Ingeniería Informática
Práctica final
Usando los datos de la Práctica 6, contestar las siguientes cuestiones. Usar el nivel de significación
α=0.05 para todos los contrastes.
Como se observa en el gráfico a mayor ingreso mensual mejor valoración dan del producto. En el grupo de
valoración mala los ingresos son simétricos con poca dispersión, en contraste con el grupo de valoración
excelente donde se observa la asimetría negativa de los datos y la dispersión de los mismos.
3. Se hace un estudio para saber si los ingresos medios son distintos para los que tiene estudios
primarios y los que poseen estudios universitarios
¿Qué hipótesis contrastamos? H0: µ I.primarios=µ I.universitarios frente a H1: µ I.primarios ≠µ I.universitarios
¿Qué hipótesis previas necesitamos contrastar y qué decidimos en este contraste previo?
H0: σ2 I.primarios=σ2 I.universitarios frente H1: σ2 I.primarios≠σ2 I.universitarios.
Como Sig=0<α= 0,05 rechazo la hipótesis nula, las varianzas son distintas
¿Cuál es el valor del estadístico de contraste T? -14,380
¿Cuál es el valor de la significación muestral? 0
¿Son distintos los ingresos según los estudios? Si ¿Por qué?
Como la Sig=0<α= 0,05 rechazo la hipótesis nula, los ingresos medios no son los mismos para los que tiene
estudios primarios y los que tienen estudios universitarios.
En caso de que dichos ingresos sean distintos, ¿Quiénes tienen ingresos mayores?
Según el intervalo de confianza de la diferencia: ICµ I.primarios-µ I.universitarios=(-1417,526 ; -1064,221), por lo
que µ I.primarios-µ I.universitarios<0, es decir, µ I.primarios< µ I.universitarios, los encuestados con estudios universitarios
tienen ingresos medios superiores.
4. Se cree que el gasto medio en alimentación para los que poseen estudios universitarios no cambia de
enero a marzo:
¿Qué hipótesis contrastamos? H0: µ AEnero.U=µ AMarzo.U frente a H1: µ µ AEnero.U ≠µ AMarzo.U
¿Cuál es el valor del estadístico de contraste T? 0,189
¿Cuál es el valor de la significación muestral? 0,851
¿Cuál es la conclusión? Como Sig= 0,851> α= 0,05 acepto H0, es decir el gasto medio en alimentación para
los que poseen estudios universitarios no cambia de enero a marzo.
¿Si no es cierta dicha creencia, en que mes tienen más gastos en alimentación? ¿Por qué?
¿Están relacionadas las variables linealmente? No, el coeficiente de correlación es 0,061, la Sig=0,767>α=
0,05 por lo que acepto H0: correlación =0, es decir las variables no están relacionadas linealmente.
5. ¿Se puede considerar que el gasto medio en alimentación en enero de los solteros es mayor que
1300?
¿Cuál es el ingreso medio de dicho grupo? 492,06
¿Qué hipótesis contrastamos? H0: µ AEnero.Solteros=1300
¿Cuál es el valor del estadístico de contraste? -26,234
¿Cuál es el valor de la significación muestral? 0
Conclusión ¿Por qué?
Como la Sig=0<α= 0,05 rechazo la hipótesis nula, el gasto medio en alimentación en enero de los solteros no
es igual a 1300. Según el intervalo de confianza de la diferencia IC µ AEnero.Solteros-1300=(-873,23 ; -724,65),
µ AEnero.Solteros-1300<0; es decir, µ AEnero.Solteros<1300, el gasto medio en alimentación en enero de los solteros
es inferior a 1300.
6. Se lleva a cabo un estudio por separado para hombres y mujeres para predecir el gasto de
Alimentación en Enero (AE) a partir del número de Hijos (H), la Edad (E) y los Ingresos (I) mediante
un modelo de la forma: AE=a+b1H+b2E+b3I (primero por el método introducir). Comenta las
diferencias que observas.
Grupo Hombres:
¿Existe regresión? Si ¿Por qué? La Sig=0 en la tabla ANOVA, Sig=0<α= 0,05 rechazo la hipótesis
nula H0: No existe regresión.
¿Cómo se escribe el modelo de regresión? Por el método introducir se añaden todas las variables en el
modelo, los coeficientes de la tabla son: AE=90,977+ 9,586E – 0,045I+14,896H
¿Se puede considerar nulo algún coeficiente? Si ¿Por qué? La Sig de la tabla de coeficientes es
mayor que α, para la constante, los ingresos y el número de hijos, por lo que se acepta la hipótesis nula
H0:coeficiente=0 . Hay que tener en cuenta que puede que no sobren todos los coeficientes a la vez, para
comprobarlo se repite la regresión por el método de pasos sucesivos.
Si la respuesta al apartado anterior es afirmativa, rehacer el modelo (Método pasos sucesivos). Si es
negativa continuar con el mismo modelo.
¿Cuál es el modelo resultante? AE= 135,150+7,655 E
¿Es bueno dicho modelo? ¿Por qué?
R cuadrado = 0,663, por lo que el modelo explica el 66.3% de la variabilidad de la variable. (El ajuste podría
ser mejor)
Los residuos:
¿Son normales? Si ¿Por qué? La Sig=0,512 en la prueba de Kolmogorov-Smirnov al ser
mayor que α, acepto H0: Residuos normales
¿Son aleatorios? Si ¿Por qué? La Sig=0,847 en la prueba de rachas al ser mayor que α,
acepto H0: Residuos aleatorios
¿Son independientes? Si ¿Por qué? El valor del estadístico de Durbin-Watson=2,308∼2
¿Cuál es el gasto real en alimentación en enero del sujeto 28? 520 €
¿Cuál se ha pronosticado con el modelo? 563,83059 ¿Con qué error? -43,83059
Grupo Mujeres:
¿Existe regresión? Si ¿Por qué? La Sig=0 en la tabla ANOVA, Sig=0<α= 0,05 rechazo la hipótesis
nula H0: No existe regresión.
¿Cómo se escribe el modelo de regresión? AE= 178,348+ 1,480 E+ 0,166 I+2,505 H
¿Se puede considerar nulo algún coeficiente? Si ¿Por qué?
El coeficiente de la variable número de hijos tiene en la tabla de los coeficientes la Sig=0,614>α= 0,05 por lo
que se acepta la hipótesis nula H0: coeficiente=0 .
Si la respuesta al apartado anterior es afirmativa, rehacer el modelo (Método pasos sucesivos). Si es
negativa continuar con el mismo modelo.
¿Cuál es el modelo resultante? AE=182,496 + 0,164 I+ 1,507 E
¿Es bueno dicho modelo? Si ¿Por qué?
R cuadrado=0,923 el modelo de regresión explica el 92,3% de la variabilidad de la variable gasto de
alimentación en enero.
Los residuos:
¿Son normales? No ¿Por qué? La Sig=0,03 en la prueba de Kolmogorov-Smirnov al ser
menor que α, se rechaza H0: Residuos normales
¿Son aleatorios? No ¿Por qué? La Sig=0,025 en la prueba de rachas al ser menor que α, se
rechaza H0: Residuos aleatorios
¿Son independientes? Si ¿Por qué? El valor del estadístico de Durbin-Watson=1,933∼2
¿Cuál es el gasto real en alimentación en enero del sujeto 29? 360 €
¿Cuál se ha pronosticado con el modelo? 377,50319 € ¿Con qué error? -17,50319
El ajuste que se realiza para el grupo de las mujeres a través del modelo AE=182,496 + 0,164 I+ 1,507 E es
mejor que el que se hace para el grupo de los hombres AE= 135,150+7,655 E, el porcentaje de variabilidad
explicado es mayor. Por el contrario los supuestos de normalidad y aleatoriedad no se verifican para los
errores del grupo de las mujeres.