Professional Documents
Culture Documents
INTRODUCCIÓN
Análisis de regresión. Técnicas estadísticas empleada para desarrollar una expresión cuantitativa
de la naturaleza básica de la relación existente entre dos o más variables y hacer predicciones.
Análisis de correlación. Técnicas estadísticas empleadas para medir la intensidad de la relación
entre dos o más variables.
Diagrama de dispersión: Gráfica del conjunto de datos en un espacio n-dimensional. Es una manera
de explorar la relación entre las variables.
Y Y
X1
X X2
y y
y = a +b x
Lineal
y=a-bx
x x
Creciente Decreciente
y y
x
y ab y ab x
No lineal
x x
Es la línea recta que mejor se ajusta a un conjunto de puntos o pares ordenados (x, y).
y
(x, y) yˆ a bx
E
E = error = y yˆ
y = valor observado o real
ŷ = valor pronosticado
(x, y)
E y ŷ
2
2
Sea = = SCE (Suma de errores al cuadrado)
dSCE d 2 SCE
da 0, da
0
SCE es mínima sí 2
dSCE 0, d SCE 0
db db
Análisis de regresión y correlación 4
y
yˆ a bx
b
n xy x y
n x x
2
2
b = pendiente
a = intercepto
a
y b x = y b x
x n n n
a= y bx
Ejemplo
El director de investigación de mercadeo de cierta compañía quiere saber, con base en la información
de los últimos 5 meses, si el volumen de ventas de la compañía se relaciona con la inversión
publicitaria.
Gráficos
Diagrama de dispersión Línea de regresión
4 4
3.5 3.5
Ventas
3 3
Ventas
2.5 2.5
2 2
1.5 1.5
1 1
0 1 2 3 4 5 0 1 2 3 4 5
Gasto en publicidad Gasto en publicidad
35 yˆ 0.1 0.7 x
= 0.7
50
Predicción de Y
a
y b x =
10 0.7 15
sí x = 2.5:
n 5
10 10.5 = 0.1 + 0.7(2.5) = 1.65
= 0.1 ŷ
5
Gráfico de residuales
Residuales E = y - y
E = (y – ŷ ) vs x 2
-1
-2
-3
0 1 2 3 4 5
Gasto en publicidad
Sy
SCE
y yˆ 2
x
n2 n2
Análisis de regresión y correlación 6
Ejemplo
El error estándar de la regresión de las ventas y dada la inversión publicitaria x es:
y yˆ
2
SCE 11
.
Sy =
x
n2 n2 5 2
= 0.37 = 0.6055
n xy x y
n x
r=
x n y 2 y
2 2 2
Ejemplo
Coeficiente de correlación muestral entre las ventas y la inversión publicitaria x
r
x y
n xy 5 37 15 10
n x x n y y
= = 0.9037
2
2
2
2
5 55 (15) 5 26 (10)
2 2
Este resultado indica que existe una relación alta y directa entre las ventas y la inversión publicitaria.
COEFICIENTE DE DETERMINACIÓN, R2
y yˆ
2
Sumadecuadradosdelerror SCE
r 1
2
1 1
y y
2
Sumadecuadradostotal SCT
Análisis de regresión y correlación 7
Ejemplo
Coeficiente determinación para las ventas y la inversión publicitaria
y yˆ = 1 11. 1 01833
2
SCE
r 1
2
1 . 0.8167 .
y y
2
SCT 6
Las ventas de la compañía dependen el 81.66% (R2) de las veces, de la inversión publicitaria y el
18.33% (1 - R2) de otros factores no considerados en el modelo.
yˆ t Sy
( n 2 ),
2
ŷ = valor pronosticado de y dado un x.
t = valor de t con (n2) grados de libertad que tiene a su derecha una probabilidad igual a /2.
n 2 ,
2
1 ( xd x ) 2
S yˆ = error estándar del pronóstico = S y x
n (x x)2
Ejemplo
Intervalo de confianza del 95% para la venta media Y, cuando la inversión publicitaria es x = x d = $3.5
millones: yˆ t 3,0.025S y
1 35
. 3
2
Este resultado indica que cuando la inversión publicitaria es $3.5 millones, se espera que el promedio
real de ventas esté entre $14.36 y 32.69 millones con una confiabilidad del 95%.
Prueba estadística que determina si existe o no, relación lineal significativa entre las variables x y y.
Proceso:
Determinar la estadística de prueba: Se emplea la variable t de student con (n-2) grados de libertad.
b B0
tC
Sb
Sy x Sy x
Sb = error estándar de la pendiente de regresión = =
(x x) 2 ( x ) 2
x n
2
Ejemplo
Prueba de hipótesis para B, cambio en las ventas por unidad de gasto en publicidad x:
Nivel de significación: = 5%
b B0
Estadística de la prueba: tC , con (n2) = 52 = 3 grados de libertad
Sb
Sy x Sy x 0.6055
Sb = = = = 0.1915
(x x) 2
( x) 2 15 2
x 2
n
55
5
b B0 0.7 0
tc = = = 3.656
Sb 01915
.
En la tabla, el valor de t con 3 grados de libertad que tiene a su derecha un área igual a 5% es 2.353
Nivel de significación
r 0
Estadística de la prueba: tc con (n2) grados de libertad
Sr
1 r2
Sr = error estándar de r
n2
Prueba de hipótesis para el coeficiente de correlación entre las ventas y el gasto en publicidad:
Nivel de significación = 5%
r 0
Estadística de la prueba: tc con n2 = 52 = 3 grados de libertad
Sr
1 r2 1 0.8166
Sr = error estándar de r = = 0.24725
n2 5 2
0.9037 0
tc = = 3.655
0.24725
Conclusiones: Como tc = 3.655 > tT = 2.353 se rechaza la hipótesis nula, concluyéndose al nivel del 5%
que si existe relación positiva entre las ventas y la inversión publicitaria.
Análisis de regresión y correlación 10
Analysis of Variance
The StatAdvisor
The output shows the results of fitting a linear model to describe the relationship between Ventas and Inversión publicitaria. The equation
of the fitted model is
Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between Ventas and inversión
publicitaria the 95% confidence level.
The RSquared statistic indicates that the model as fitted explains 81.6667% of the variability in Ventas. The correlation coefficient
equals 0.903696, indicating a relatively strong relationship between the variables. The standard error of the estimate shows the standard
deviation of the residuals to be 0.60553. This value can be used to construct prediction limits for new observations by selecting the
Forecasts optionfrom the text menu.
Análisis de regresión y correlación 11
Ejemplo
temperaturas diferentes. Los datos se codificaron y registraron en el cuadro siguiente.
Azúcar transformada 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5
Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0