Professional Documents
Culture Documents
Introduccion
1
II. Analisis de regresión
2.1 ¿Qué es el análisis de regresión?
El análisis de regresión es, con mucho la técnica multivariable más utilizada y versátil,
aplicable en muchísimos campos de la toma de decisiones en marketing. El análisis de
regresión es una técnica estadística utilizada para analizar la relación entre una sola variable
dependiente y varias independientes, siendo su formulación básica la siguiente:
Y1 = X1 + X2 +... + Xn
(Métrica) (Métricas)
El objetivo de esta técnica es usar las variables independientes, cuyos valores se conocen,
para predecir el de la variable dependiente. Cada variable independiente está ponderada por
unos coeficientes que indican la contribución relativa de cada una de las variables para
explicar la dependiente.
El análisis de regresión sirve para predecir una medida en función de otra medida (o
varias).
Y= Variable dependiente
Predicha
Explicada
X= Variable independiente
Predictora
Explicativa
Y=f(X) + error
2
2.3 Analisis de regresión simple
La regresión lineal simple se basa en estudiar los cambios en una variable, no aleatoria,
afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas
variables que puede ser establecida por una expresión lineal, es decir, su representación
gráfica es una línea recta. Es decir, se está en presencia de una regresión lineal simple
cuando una variable independiente ejerce influencia sobre otra variable dependiente.
Ejemplo: Y = f(x)
2.3.1 Ejercicio:
Problema 1. “Los datos de la tabla adjunta muestran el tiempo de impresión de
trabajos que se han imprimido en impresoras de la marca PR. Se está interesado en estudiar
la relación existente entre la variable de interés “tiempo de impresión de un trabajo” y la
variable explicativa “número de páginas del trabajo”. Hacer el estudio en base a los
datos obtenidos en el muestreo y que son los de la tabla adjunta”.
3
Que permiten calcular las estimaciones de los parámetros de la recta de regresión
4
El coeficiente de correlación es
5
Gráfico de residuos
6
En este problema para cada valor de x se dispone de varias observaciones de Y, se
puede hacer el contraste de linealidad
Se rechaza la hipótesis nula y se deduce que el modelo lineal no es el que mejor se ajusta a
la nube de observaciones.
Predicciones.
“Calcular intervalos de confianza al 90% para el tiempo medio de impresión de los trabajos
que tienen 6 y 12 hojas respectivamente.
7
8
2.4 Analisis de regresión múltiple
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón, así
también se puede comprender la relación de dos o más variables y permitirá relacionar
mediante ecuaciones, una variable en relación a otras variables llamándose Regresión
múltiple. O sea, la regresión lineal múltiple es cuando dos o más variables independientes
influyen sobre una variable dependiente.
Ejemplo: Y = f(x, w, z).
2.4.1 Ejercicio:
Problema 1. “Una desea estimar los gastos en alimentación de una familia en base a
la información que proporcionan las variables regresoras X1=“ingresos mensuales”
y X2 =“número de miembros de la familia”. Para ello se recoge una muestra aleatoria
simple de 15 familias cuyos resultados son los de la tabla adjunta
(El gasto e ingreso está dado en cientos de miles de pesetas)”
9
Solución Problema 1
Por tanto
De donde
10
A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las
observaciones muéstrales. Para la primera observación se
obtiene
Calculo de scR
5'2253
< < 21'0298
0'0034 < 2 < 0'0138
La varianza de los estimadores del modelo es
11
V ar = 0'00816 = 0'0903
V ar = 0'000099 = 0'0099
V ar = 0'00040 = 0'0201
Tabla Anova,
de donde
12
La variabilidad incremental debida a la variable diámetro es
Este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la
variable tamaño.
El coeficiente de determinación,
13
El coeficiente de correlación simple entre las variables gasto e ingreso,
Este coeficiente es una medida de la relación lineal existente entre las variables gasto
e ingreso. También se puede calcular a partir del coeficiente de determinación de la
siguiente regresión
Tabla ANOVA
Otra forma más compleja de calcular este coeficiente es la siguiente: se obtienen las
siguientes regresiones y se guardan los residuos,
Gasto = 0'6713 - 0'0363 tamaño + e gasto. Tamaño.
Ingreso = 5'5923 - 07615 tamaño + e ingreso. Tamaño.
Ahora el coeficiente de correlación parcial entre las variables gasto e ingreso se obtiene
como el coeficiente de correlación simple entre las variables egasto.tamaño y e ingreso. Tamaño
r = =
14
= 0'9740,
Este coeficiente mide la relación entre las variables gasto e ingreso libres de la influencia
de la variable tamaño.
La varianza de la predicción es
2
V ar = R = 0'0060 . = 0'0065
= 0'0803
Algunos gráficos de interés que ayudan a resolver el problema son los siguientes:
15
Gráficos parciales de las componentes
Gráficos de residuos
16
III. Analisis de varianza (Anova)
3.1 ¿Qué es el análisis de varianza (Anova)
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos
o más medias, que es necesario porque cuando se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste basado en la t de Student. Por dos motivos:
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de
la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la
hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo,
para cada comparación, la estimación de la varianza necesaria para el contraste es distinta,
pues se ha hecho en base a muestras distintas.
Recomendable cuando:
a) Las parcelas o el suelo son muy heterogéneos pero hay similitud entre parcelas
contiguas o las unidades experimentales están correlacionadas.
b) El número de unidades experimentales es reducido.
Síntesis: se aparean las unidades experimentales contiguas o similares y se les aplica el
tratamiento a c/u por medio de sorteo.
17
Ejemplo:
3.3.1 Ejercicio:
El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo en
la reducción del número de accidentes laborables y por tanto en la pérdida de horas de
trabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas,
observando las horas de trabajo semanales pérdidas a causa de accidentes, antes y
después de implantar el plan de seguridad. Los datos obtenidos son los de la tabla
adjunta. Analizar estos datos y obtener conclusiones acerca del problema planteado.
Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan
a las mismas conclusiones. En primer lugar y dado que el factor-tratamiento (plan de
seguridad) solo tiene dos niveles (antes y después de implantar el plan) se puede
considerar como un problema de datos apareados. Se calcula la variable diferencia
18
Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?, ¿los
resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos
procedimientos es mejor?
La resolución del problema también puede hacerse por una tabla ANOVA de un
modelo de diseño de experimentos con un factor tratamiento (plan de seguridad) y un
factor-bloque (fábrica). Se siguen los siguientes pasos:
DOSIFICACIONES DE HORMIGÓN
A B C D
Resistencia 42 45 64 56
19
característica a
39 46 61 55
compresión fck
(Mpa)
48 45 50 62
43 39 55 59
44 43 58 60
Para este caso, la variable de respuesta es la resistencia característica del hormigón a
compresión (MPa), la unidad experimental es la probeta de hormigón y el factor es la
dosificación de hormigón. En este caso se trata de un diseño balanceado porque hemos
realizado el mismo número de repeticiones (5) para cada uno de los tratamientos
(dosificaciones).
3.4.1 Ejercicio:
20
21
22
3.5 ANOVA del diseño experimental bloques al azar (DBCA)
En este diseño la aleatorización consiste en asignar los tratamientos a los grupos de
unidades experimentales o bloques en forma completamente aleatoria, es decir con la
restricción de aleatorizar dentro de bloques. Así por ejemplo, si se prueban cuatro
tratamientos y se tienen cuatro bloques, dichos tratamientos se asignaran completamente al
azar dentro de cada bloque.
23
IV. Conclusión
24
V. Bibliografia
25