Analisis de Regresión

I.
Introduccion
En el presente se examinaran dos tipos de Analisis que a su vez poseen

subtipos, entre ellos está el análisis de regresión que es una herramienta de
frecuente uso en Estadística que permite estudiar y valorar las relaciones entre
diferentes variables cuantitativas tenidas en cuenta mediante la construcción
de una ecuación. Encontrándose los Analisis simples y múltiples; Y el
análisis de la varianza que parte de los conceptos de regresión lineal. Un
análisis de la varianza permite determinar si diferentes tratamientos muestran
diferencias significativas o por el contrario puede suponerse que sus medias
poblacionales no difieren. En este se estudian los diseños experimentales de
parcelas pareadas, completamente al azar y bloques al azar con sus respectivos
ejercicios. Mostrando por otra parte los roles que estos desempeñan dentro de
una investigación Cientifica.
En otras palabras, el Analisis de varianza se utiliza para verificar si hay

diferencias estadísticamente significativas entre medias cuando tenemos más
de dos muestras o grupos en el mismo planteamiento.
1
II. Analisis de regresión
2.1 ¿Qué es el análisis de regresión?
El análisis de regresión es, con mucho la técnica multivariable más utilizada y versátil,
aplicable en muchísimos campos de la toma de decisiones en marketing. El análisis de
regresión es una técnica estadística utilizada para analizar la relación entre una sola variable
dependiente y varias independientes, siendo su formulación básica la siguiente:
Y1 = X1 + X2 +... + Xn
(Métrica) (Métricas)
El objetivo de esta técnica es usar las variables independientes, cuyos valores se conocen,
para predecir el de la variable dependiente. Cada variable independiente está ponderada por
unos coeficientes que indican la contribución relativa de cada una de las variables para
explicar la dependiente.
2.2 Roles del análisis de regresión en una investigación científica

Consiste en general en una función a partir de datos o informaciones conocida para hacer
estimaciones.
El análisis de regresión sirve para predecir una medida en función de otra medida (o
varias).
Y= Variable dependiente
 Predicha
 Explicada
X= Variable independiente
 Predictora
 Explicativa
¿Es posible descubrir una relación?
 Y=f(X) + error
-f es una función de un tipo determinado
-El error es aleatorio, pequeño, y no depende de X.
2
2.3 Analisis de regresión simple
La regresión lineal simple se basa en estudiar los cambios en una variable, no aleatoria,
afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas
variables que puede ser establecida por una expresión lineal, es decir, su representación
gráfica es una línea recta. Es decir, se está en presencia de una regresión lineal simple
cuando una variable independiente ejerce influencia sobre otra variable dependiente.
Ejemplo: Y = f(x)
2.3.1 Ejercicio:
Problema 1. “Los datos de la tabla adjunta muestran el tiempo de impresión de
trabajos que se han imprimido en impresoras de la marca PR. Se está interesado en estudiar
la relación existente entre la variable de interés “tiempo de impresión de un trabajo” y la
variable explicativa “número de páginas del trabajo”. Hacer el estudio en base a los
datos obtenidos en el muestreo y que son los de la tabla adjunta”.
Solución Problema 1. Se calculan los estadísticos básicos de las variables X e Y,
3
Que permiten calcular las estimaciones de los parámetros de la recta de regresión
Ahora, se pueden calcular las predicciones i
La suma de cuadrados de los residuos es
Que permite calcular la varianza residual
Las varianzas de los parámetros son
De donde se deducen los siguientes intervalos de confianza (al 90%) y contrastes de

hipótesis:
4
El coeficiente de correlación es
En el siguiente gráfico se representa la nube de puntos y la recta ajustada
Nube de observaciones y recta ajustada.
El gráfico de residuos frente a las predicciones se observa en el siguiente gráfico,
5
Gráfico de residuos
Se calcula la tabla ANOVA del modelo y se obtiene
Que permite construir la siguiente tabla
A partir de esta tabla se puede realizar el contraste de regresión
Se rechaza la hipótesis nula y se asume que el modelo ajustado es significativo.
6
En este problema para cada valor de x se dispone de varias observaciones de Y, se
puede hacer el contraste de linealidad
Para ello se descompone la scR en dos términos:
Que permite construir la siguiente tabla ANOVA más completa
Se rechaza la hipótesis nula y se deduce que el modelo lineal no es el que mejor se ajusta a
la nube de observaciones.
Predicciones.
“Calcular intervalos de confianza al 90% para el tiempo medio de impresión de los trabajos
que tienen 6 y 12 hojas respectivamente.
Calcular, también, intervalos de predicción al 90% para el tiempo de impresión

de un trabajo que tiene 6 hojas. Calcular el intervalo de predicción para el tiempo de
impresión de un trabajo de 12 hojas”.
7
8
2.4 Analisis de regresión múltiple
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón, así
también se puede comprender la relación de dos o más variables y permitirá relacionar
mediante ecuaciones, una variable en relación a otras variables llamándose Regresión
múltiple. O sea, la regresión lineal múltiple es cuando dos o más variables independientes
influyen sobre una variable dependiente.
Ejemplo: Y = f(x, w, z).
2.4.1 Ejercicio:
Problema 1. “Una desea estimar los gastos en alimentación de una familia en base a
la información que proporcionan las variables regresoras X1=“ingresos mensuales”
y X2 =“número de miembros de la familia”. Para ello se recoge una muestra aleatoria
simple de 15 familias cuyos resultados son los de la tabla adjunta
(El gasto e ingreso está dado en cientos de miles de pesetas)”
9
Solución Problema 1
Los datos en forma matricial:
Con estos datos se obtiene
Por tanto
De donde
El modelo de regresión lineal que se obtiene es:
10
A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las
observaciones muéstrales. Para la primera observación se
obtiene
Razonando así en todos los puntos muéstrales se obtiene
Calculo de scR
También se puede calcular la scR de la siguiente forma
Se calculan los intervalos de confianza de los parámetros del modelo al 90%,

Para la varianza, 2
2
~ 12
5'2253
< < 21'0298
0'0034 < 2 < 0'0138
La varianza de los estimadores del modelo es
De donde se deduce que
11
V ar = 0'00816 = 0'0903
V ar = 0'000099 = 0'0099
V ar = 0'00040 = 0'0201
Intervalo de confianza para 0

t12 . 0'0903 <-0'160 - 0 < t12 . 0'0903
< 0 < 0'001
- 0'321
Intervalo de confianza para 1 (ingreso)
t12 . 0'0099 < 0'149 - . 0'0099
1 < t12
'
< 1 < 0 1666
0'1314
Contrate H0 1 = 0, “la variable ingreso no influye” (contraste individual de la t)
Intervalo de confianza para 2 (tamaño)

t12 . 0'0201 < 0'077 - 2 < t12 . 0'0201
0'0412 < 2 < 0'1128

Contrate H0 2 = 0, “la variable tamaño no influye” (contraste individual de la t)
Tabla Anova,
de donde
Con estos datos se obtiene el siguiente contraste conjunto de la F
12
La variabilidad incremental debida a la variable diámetro es
Este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la
variable tamaño.
Para contrastar la influencia o no de esta variable se utiliza el estadístico
Que da el mismo p-valor que en el contraste individual de la t (hay pequeñas diferencias

por los redondeos).
Cálculo de los coeficientes de correlación:
El coeficiente de determinación,
El coeficiente de correlación múltiple
El coeficiente de determinación corregido por el número de grados de libertad.
13
El coeficiente de correlación simple entre las variables gasto e ingreso,
Este coeficiente es una medida de la relación lineal existente entre las variables gasto
e ingreso. También se puede calcular a partir del coeficiente de determinación de la
siguiente regresión
La tabla ANOVA del modelo es
Tabla ANOVA
Fuentes de Suma de Grados de Varianzas

Variación Cuadrados libertad
scE (ingreso) 1'2716 1 e
2
= 1'2716
scR (Residual) 0'1600 13 R
2
= 0'0123
scG (Global) 1'4316 14 y
2
= 0'1022
Otra forma más compleja de calcular este coeficiente es la siguiente: se obtienen las
siguientes regresiones y se guardan los residuos,
Gasto = 0'6713 - 0'0363 tamaño + e gasto. Tamaño.
Ingreso = 5'5923 - 07615 tamaño + e ingreso. Tamaño.
Ahora el coeficiente de correlación parcial entre las variables gasto e ingreso se obtiene
como el coeficiente de correlación simple entre las variables egasto.tamaño y e ingreso. Tamaño
r = =
14
= 0'9740,
Este coeficiente mide la relación entre las variables gasto e ingreso libres de la influencia
de la variable tamaño.
Análogamente se obtiene que
Predicción de una observación.

“La familia Pérez que tiene unos ingresos de x1 = 3'0 y un tamaño de x2 = 4. Esto
es ¿qué gasto en alimentación tendrá?”.
Aplicando el modelo de regresión estimado
La varianza de la predicción es
2
V ar = R = 0'0060 . = 0'0065
= 0'0803
Y un intervalo de predicción al 90% es
Algunos gráficos de interés que ayudan a resolver el problema son los siguientes:
15
Gráficos parciales de las componentes
Gráficos de residuos
16
III. Analisis de varianza (Anova)
3.1 ¿Qué es el análisis de varianza (Anova)
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos
o más medias, que es necesario porque cuando se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste basado en la t de Student. Por dos motivos:
En primer lugar, y como se realizarían simultánea e independientemente varios contrastes

de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada
contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay
una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la
hipótesis nula, ningún estadístico supere el valor crítico es (1 - a) (Aldas Manzano, s.f)m,
por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores
de a próximos a 0 es aproximadamente igual a a m. Una primera solución,
denominada método de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m,
aunque resulta un método muy conservador.
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de
la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la
hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo,
para cada comparación, la estimación de la varianza necesaria para el contraste es distinta,
pues se ha hecho en base a muestras distintas.
3.2 Roles del Analisis de varianza en una investigación científica

El análisis de varianza permite analizar el efecto de una o más variables o categorías en un
conjunto de datos. Cada tratamiento puede tener varias observaciones.
3.3 ANOVA del diseño experimental de parcelas pareadas

¿Cuándo y cómo se usa?
Se usa cuando solo hay 2 tratamientos a comparar.
Recomendable cuando:
a) Las parcelas o el suelo son muy heterogéneos pero hay similitud entre parcelas
contiguas o las unidades experimentales están correlacionadas.
b) El número de unidades experimentales es reducido.
Síntesis: se aparean las unidades experimentales contiguas o similares y se les aplica el
tratamiento a c/u por medio de sorteo.
17
Ejemplo:
1. Compare 2 variedades de maíz en 2 comarcas

2. Compare 2 variedades en 1 comarca, durante varios años.
3. Dos sistemas de poda en 1 especie frutal en diferentes huertos.
3.3.1 Ejercicio:
El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo en
la reducción del número de accidentes laborables y por tanto en la pérdida de horas de
trabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas,
observando las horas de trabajo semanales pérdidas a causa de accidentes, antes y
después de implantar el plan de seguridad. Los datos obtenidos son los de la tabla
adjunta. Analizar estos datos y obtener conclusiones acerca del problema planteado.
Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan
a las mismas conclusiones. En primer lugar y dado que el factor-tratamiento (plan de
seguridad) solo tiene dos niveles (antes y después de implantar el plan) se puede
considerar como un problema de datos apareados. Se calcula la variable diferencia
Ydif = Yantes Y después;
Y se contrasta la hipótesis de que E (Ydif) = 0:
Con el Statgraphics se utiliza el siguiente módulo
Comparación > dos muestras > comparación de muestras pareadas
Una vez introducidas las variables Yantes e Ydespues; el módulo proporciona

resultados analíticos y gráficos acerca de la variable diferencia Ydif. Utilizando el test
de la t respecto a la media de una muestra resuelve el contraste H0: E (Ydif) = 0.
¿Utilizando directamente los datos de la tabla podría resolverse el problema

contrastando la hipótesis H0: E (Yantes) = E (Ydespues); frente a la alternativa de que
las medias son diferentes?
18
Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?, ¿los
resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos
procedimientos es mejor?
La resolución del problema también puede hacerse por una tabla ANOVA de un
modelo de diseño de experimentos con un factor tratamiento (plan de seguridad) y un
factor-bloque (fábrica). Se siguen los siguientes pasos:
1. Con los datos del problema se crean tres variables de 32 observaciones:

 La variable respuesta Y;
 El factor (plan de seguridad) con dos niveles (antes y después),
 El factor bloque fábrica con 16 niveles.
2. Se utiliza el siguiente módulo
Comparación > análisis de la varianza > ANOVA factorial
Sin interacción (máximo orden de interacción=1).
Este módulo proporciona un amplio estudio analítico y grafico para responder al

problema planteado. ¿Cómo son el p valor del test de la t utilizado en la técnica de datos
apareados y el p valor del test de la F utilizado en la técnica de la tabla ANOVA?
¿Es influyente la variable bloque fabrica En consecuencia ¿es adecuada la recogida

muestral para la resolución del problema?
3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicas

expuestas.
3.4 ANOVA del diseño experimental completamente al azar

(DCA)
El diseño completamente al azar es el más sencillo de los diseños de experimentos que
tratan de comparar dos o más tratamientos, puesto que sólo considera dos fuentes de
variabilidad: los tratamientos y el error aleatorio.
Para ilustrar el diseño, supongamos que queremos determinar si cuatro dosificaciones de un

hormigón A, B, C y D presentan una misma resistencia característica a compresión. Para
ello se han elaborado 5 probetas para cada tipo de dosificación y, a los 28 días, se han roto
las probetas a compresión simple y los resultados son los que hemos recogido en la tabla
que sigue.
DOSIFICACIONES DE HORMIGÓN
A B C D
Resistencia 42 45 64 56
19
característica a
39 46 61 55
compresión fck
(Mpa)
48 45 50 62
43 39 55 59
44 43 58 60
Para este caso, la variable de respuesta es la resistencia característica del hormigón a
compresión (MPa), la unidad experimental es la probeta de hormigón y el factor es la
dosificación de hormigón. En este caso se trata de un diseño balanceado porque hemos
realizado el mismo número de repeticiones (5) para cada uno de los tratamientos
(dosificaciones).
3.4.1 Ejercicio:
20
21
22
3.5 ANOVA del diseño experimental bloques al azar (DBCA)
En este diseño la aleatorización consiste en asignar los tratamientos a los grupos de
unidades experimentales o bloques en forma completamente aleatoria, es decir con la
restricción de aleatorizar dentro de bloques. Así por ejemplo, si se prueban cuatro
tratamientos y se tienen cuatro bloques, dichos tratamientos se asignaran completamente al
azar dentro de cada bloque.
3.5.1 Ejercicio: En una empresa maquiladora de ensamble, se desean probar cuatro

tipos de métodos de ensamblaje A, B, C y D, para encontrar el método más rápido. Sin
embargo también se ha Diseño experimental de bloques completos al azar (DBCA).
Encontrado que puede ser posible que dependiendo del tipo de operador será el tiempo
ensamble. Para esto se realizan las pruebas de ensamblaje, ensamblando una pieza por cada
uno de los cuatro métodos, con cuatro operadores.
Planteamiento del experimento: Determinar el efecto del método de ensamble y su

dependencia del tipo de operador sobre el tiempo de ensamble.
Factor: Método de ensamble
Niveles: métodos A, B, C, y D
Bloques: tipo de operador
Variable de respuesta: tiempo de ensamble
Repeticiones: una
Después de realizar las pruebas estos fueron los resultados
Tanto el método como el tipo de operador influyen sobre el tiempo de ensamblaje.

Suponer que se realiza el mismo experimento con 2 repeticiones para cada método por
operador.
23
IV. Conclusión
Una vez desarrollado el tema de los Analisis de regresion y varianza

(ANOVA) se puede concluir que:
El análisis de regresión y correlación lineal constituyen métodos que se
emplean para conocer las relaciones y significación entre series de datos.
La regresión lineal simple y la regresión múltiple, analiza la relación de dos o
más variables continuas, cuando analiza dos variables a esta se él conoce
como variable bivariantes que pueden corresponder a variables cualitativas. La
finalidad de una ecuación de regresión es la de estimar los valores de una
variable con base en los valores conocidos de la otra. Del mismo modo, una
ecuación de regresión explica los valores de una variable en términos de otra.
Es decir, se puede intuir una relación de causa y efecto entre dos o más
variables. El análisis de regresión únicamente indica qué relación matemática
podría haber, de existir una.
El Analisis de la varianza y sus procedimientos, se aplican en todas las
ciencias tanto puras como sociales, tales como: en la geografía, matemática,
economía, política, administración, contaduría, educación, industrias,
medicinas, agriculturas, en la ingeniería, entre otros. Este nos permite decidir
cuál es la alternativa más adecuada que permita llevar una solución
satisfactoria del problema de investigación.
El ANOVA permite decidir los distintos niveles de factores que se establecen
en las diferentes poblaciones o analizar, el comportamiento de esta misma
para todos los niveles en función de las poblaciones estudiadas.
24
V. Bibliografia
Aldas Manzano, J. (s.f). PDF. Retrieved from El analisis de regresion:

https://wwwyyy.files.wordpress.com/2013/03/analisis-de-regresion.pdf
(n.d.). Retrieved from

https://www.google.com.do/search?q=funcion+del+analisis+de+regresion&so
urce=lnms&tbm=isch&sa=X&ved=0ahUKEwjbn5aQ9uvXAhXD0FQKHeAS
CmoQ_AUICigB&biw=1600&bih=794#imgrc=4968k9y424NZdM:
(n.d.). Retrieved from

http://dm.udc.es/asignaturas/estadistica2/secprac_5_2.html
(n.d.). Retrieved from http://es.calameo.com/read/004396684c7d9480c6e65
(n.d.). Retrieved from http://colposfesz.galeon.com/disenos/teoria/dbcta/prog-

dba.htm
S, A. (2011, Abril 20). EcuRed. Retrieved from Regresion Lineal:

https://www.ecured.cu/Regresi%C3%B3n_lineal
S, A. (s.f). PDF. Retrieved from Practicas y problemas de diseño de

experimentos: http://dm.udc.es/asignaturas/estadistica2/documentos-
pdf/Practica_3_2006.pdf
V, A., & A, P. (1996). Analisis de Varianza. Retrieved from

http://www.hrc.es/bioest/Anova_1.html
Yepes piqueras, V. (s.f). Universitat Politecnica De Valencia. Retrieved from

Diseño completamente al azar y ANOVA:
https://victoryepes.blogs.upv.es/2013/04/27/diseno-completamente-al-azar-y-
anova/
25

Analisis de Regresión

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Regresión

Uploaded by

Copyright:

Available Formats

I.

En el presente se examinaran dos tipos de Analisis que a su vez poseen

En otras palabras, el Analisis de varianza se utiliza para verificar si hay

2.2 Roles del análisis de regresión en una investigación científica

¿Es posible descubrir una relación?

-f es una función de un tipo determinado

-El error es aleatorio, pequeño, y no depende de X.

Solución Problema 1. Se calculan los estadísticos básicos de las variables X e Y,

Ahora, se pueden calcular las predicciones i

La suma de cuadrados de los residuos es

Que permite calcular la varianza residual

Las varianzas de los parámetros son

De donde se deducen los siguientes intervalos de confianza (al 90%) y contrastes de

En el siguiente gráfico se representa la nube de puntos y la recta ajustada

Nube de observaciones y recta ajustada.

El gráfico de residuos frente a las predicciones se observa en el siguiente gráfico,

Se calcula la tabla ANOVA del modelo y se obtiene

Que permite construir la siguiente tabla

A partir de esta tabla se puede realizar el contraste de regresión

Se rechaza la hipótesis nula y se asume que el modelo ajustado es significativo.

Para ello se descompone la scR en dos términos:

Que permite construir la siguiente tabla ANOVA más completa

Calcular, también, intervalos de predicción al 90% para el tiempo de impresión

Los datos en forma matricial:

Con estos datos se obtiene

El modelo de regresión lineal que se obtiene es:

Razonando así en todos los puntos muéstrales se obtiene

También se puede calcular la scR de la siguiente forma

Se calculan los intervalos de confianza de los parámetros del modelo al 90%,

De donde se deduce que

Intervalo de confianza para 0

Intervalo de confianza para 2 (tamaño)

0'0412 < 2 < 0'1128

Con estos datos se obtiene el siguiente contraste conjunto de la F

Para contrastar la influencia o no de esta variable se utiliza el estadístico

Que da el mismo p-valor que en el contraste individual de la t (hay pequeñas diferencias

Cálculo de los coeficientes de correlación:

El coeficiente de correlación múltiple

El coeficiente de determinación corregido por el número de grados de libertad.

La tabla ANOVA del modelo es

Fuentes de Suma de Grados de Varianzas

Análogamente se obtiene que

Predicción de una observación.

Aplicando el modelo de regresión estimado

Y un intervalo de predicción al 90% es

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes

3.2 Roles del Analisis de varianza en una investigación científica

3.3 ANOVA del diseño experimental de parcelas pareadas

Se usa cuando solo hay 2 tratamientos a comparar.

1. Compare 2 variedades de maíz en 2 comarcas

Ydif = Yantes Y después;

Y se contrasta la hipótesis de que E (Ydif) = 0:

Con el Statgraphics se utiliza el siguiente módulo

Comparación > dos muestras > comparación de muestras pareadas

Una vez introducidas las variables Yantes e Ydespues; el módulo proporciona

¿Utilizando directamente los datos de la tabla podría resolverse el problema

1. Con los datos del problema se crean tres variables de 32 observaciones:

2. Se utiliza el siguiente módulo

Comparación > análisis de la varianza > ANOVA factorial

Sin interacción (máximo orden de interacción=1).

Este módulo proporciona un amplio estudio analítico y grafico para responder al

¿Es influyente la variable bloque fabrica En consecuencia ¿es adecuada la recogida

3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicas