Professional Documents
Culture Documents
INGENIERIA INDUSTRIAL
21/11/2018
Contenido
Introducción ........................................................................................................................................ 4
La regresión lineal simple .................................................................................................................... 5
Antecedentes .................................................................................................................................. 5
Mediciones univaribles, bivariables y multivariables en estadística.................................................. 5
Definición de R.l.S................................................................................................................................ 6
Diagrama de dispersión....................................................................................................................... 6
Tipos de modelos de regresión lineal ................................................................................................. 7
Método de mínimos cuadrados .......................................................................................................... 8
Interpretación de la pendiente del modelo ...................................................................................... 10
Suposiciones en la regresión lineal simple ........................................................................................ 11
Prueba “t” de independencia entre las variables (significación de la regresión). ........................ 13
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del modelo). ....................................... 14
Intervalo de confianza para la ordenada al origen β1. ...................................................................... 15
Intervalo de Confianza para la media µ y,x . ........................................................................................ 16
Intervalo de Confianza de predicción para una observación futura Yi............................................ 16
Análisis residual (gráfico y numérico). .............................................................................................. 17
Gráfica de residuales contra ȳ ....................................................................................................... 19
El coeficiente de Determinación ....................................................................................................... 20
Cálculo del coeficiente e interpretación ........................................................................................... 21
Introducción
Este documento tiene como objetivo dar a conocer los
conceptos utilizados en la unidad 5 de la materia estadística
inferencial 1 impartida en la carrera de ingeniería industrial
por el maestro Ramón Bocos, esta materia nos será muy útil
en el campo laboral en un futuro no muy distante debido a
que nosotros como ingenieros industriales pronosticaremos
ciertos parámetros en nuestra vida laboral.
4
La regresión lineal simple
Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos
cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde
desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde
se incluía una versión del teorema de Gauss-Márkov.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que
emplean modelos basados en cualquier clase de función matemática. Los modelos lineales
son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico
mucho más extenso por parte de la matemática y la estadística.
Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos
basados en cualquier clase de aplicación.
5
cambia en cantidad constante. La regresión curvilineal utiliza una curva para expresar la
relación entre X y Y. Es habitual colocar la variable independiente en el eje horizontal. La
siguiente figura11.1 (a) sugiere una relación positiva y lineal entre X y Y. Es positiva
porque X y Y parecen moverse en la misma dirección. A medida que X aumenta
(disminuye).Y aumenta (disminuye).
Definición de R.l.S
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para
aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de
dos variables para un conjunto de datos
Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente y
habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las
ordenadas). Si no existe una variable dependiente, cualquier variable se puede
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables
con un intervalo de confianza determinado. La correlación puede ser positiva (aumento),
6
negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento
de ajuste es conocido como regresión lineal y garantiza una solución correcta en un
tiempo finito.
β0 y β1 se conocen como los parámetros del modelo, y ε (la letra griega épsilón) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y y.
A la ecuación que describe la relación entre el valor esperado de y, que se denota E(x), y x
se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.
7
La gráfica de la ecuación de regresión lineal simple es una línea recta; β0 es la intersección
de la recta de regresión con el eje y, β1 es la pendiente y E(y) es la media o valor esperado
de y para un valor dado de x.
donde ε es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo
de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el
valor esperado del error es cero, E(ε)=0 , se puede ver que el valor esperado de la variable
Y, para cada valor de X , está dado por línea recta
8
En donde β0 y β1 son los parámetros del modelo y son constantes desconocidas. Por lo
tanto, para tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen los siguientes significados:
De esta forma, se quieren encontrar los valores de β0 y β1 que minimizan la suma de los
errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las
distancias en forma vertical de los puntos a la recta se minimice
9
Interpretación de la pendiente del modelo
La interpretación de a y b, es análoga a la que comentábamos en el apartado 6.1.3.2, sólo
que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.
10
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en la
talla, por cada incremento unitario de edad; si la edad está en años, por cada año
aumente la edad.
y*i = a+bxi
11
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante: • La
prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q (cuantiles)
o P-P(proporciones) (ver explorar) • gráficamente en Analizar-Regresión-Lineal-
Gráficos . La opción Histograma: añade una curva N(0,1) Gráfico de Probabilidad
Normal de tipo P-P: Representa las proporciones acumuladas de la variable
esperada respecto a las proporciones acumuladas de la variable observada.
12
Prueba “t” de independencia entre las variables (significación de la
regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están relacionadas
linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es determinar si se puede concluir
que 𝛽 1 ≠0. Para probar la hipótesis siguiente acerca del parámetro 𝛽 1 se emplearán los
datos muestrales.
H0: 𝛽 1 =0
Ha ∶ 𝛽 1≠ 0
Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una relación
estadísticamente significante. La base para esta prueba de hipótesis la proporcionan las
propiedades de la distribución muestral de b1, el estimador de 𝛽1, obtenido mediante el
método de mínimos cuadrados.
13
Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador insesgado de
𝛽 1.
Como no se conoce el valor de σ, se obtiene una estimación de σ𝑏1 , que se denota S𝑏1 ,
estimandoσ mediante s en la ecuación (14.17). De esta manera se obtiene el estimador
siguiente de σ𝑏1 .
14
Por lo tanto el estadístico de prueba se define como:
15
Intervalo de Confianza para la media µ y,x .
A veces es conveniente estimar el valor medio o separado de Y para el un valor dado de X,
tal estimación se hace con el intervalo de confianza:
Al calcular los límites de confianza para los valores de medios, estos se obtiene para cada
valor de Xo; tales limites serán más estrechos a medida que se aproximan a la medida de
la variable independiente y más amplios a medida que se alejan de ella, por esta razón se
obtienen limites llamados bandas de confianza dentro de las cuales queda comprendida la
recta verdadera para un nivel de significación a.
Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0 dos valores
extremos y uno intermedio, y se harán las estimaciones por intervalo. Estos intervalos se
dibujan sobre los diagramas de dispersión uniendo todos los puntos generados por los
límites inferiores y por otro lado, todos los correspondientes a los límites superiores.
Cuando se hacen predicciones, estas, más que ser sobre valores medios de Y,
son para valores individuales, por lo tanto el error debido al azar (error de estimación
16
) es una fuente adicional de variación, por ello la varianza se ve aumentada y el
donde
17
Este modelo indica que se supone que las ventas trimestrales (y) son función lineal del
tamaño
de la población de estudiantes (x), más un término del error ϵ. En la sección 14.4, para el
término
del error ϵ se hicieron las siguientes suposiciones
1. E(ϵ) = 0.
2. La varianza de ϵ, que se denota σ2, es la misma para todos los valores de x.
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para determinar
si la relación
entre x y y es significativa y para las estimaciones, mediante intervalos de confianza y de
predicción, presentadas en la sección 14.6. Si las suposiciones acerca del término del error
ϵ son
dudosas, puede ser que las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el análisis de
los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se estudiarán
las siguientes gráficas de residuales.
1. La gráfica de residuales contra los valores de la variable independiente x
2. La gráfica de residuales contra los valores pronosticados para la variable dependiente 𝑦̂
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.
18
horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza de no es la
misma para todos los valores x —por ejemplo, si la variabilidad respecto a la línea de
regresión es mayor para valores de x mayores— el aspecto de la gráfica puede ser como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un
modelo de regresión curvilíneo o múltiple.
19
suposiciones del modelo. En la regresión lineal simple, tanto la gráfica de residuales contra
x como la gráfica de residuales contra tienen la misma forma. En el análisis de regresión
múltiple, la gráfica de residuales contra se usa más debido a que se tiene más de una
variable independiente.
El coeficiente de Determinación
La intensidad de una relación entre dos variables de una población por lo general se mide
mediante el coeficiente de correlación p, cuyos valores van desde -1, correspondiente a
una correlación perfectamente negativa, hasta +1, correspondiente a una correlación
perfectamente positiva. En la figura 17.6 se ilustran estas tres diferentes clases de
asociación entre variables. En el panel A de esta figura presentamos una relación lineal
negativa prefecta entre X y Y, de modo que Y disminuirá de una manera perfectamente
predecible en la medida que X aumenta. En el panel B se tiene un ejemplo en el que no
hay relación entre X y Y. a medida que X no se da ningún cambio en Y, de modo que no
hay ninguna asociación entre los valores de X y los de Y. por el contrario, en el panel C se
presenta una correlación perfectamente positiva entre las dos variables. En este caso, Y
aumenta de una manera perfectamente predecible conforme se incrementa X.
De modo que
𝑟 = √𝑟 2
En casos de regresión lineal simple, r toma el signo de b1; si este es positivo, r es positivo;
si b1 es negativo, r es negativo; y si b1 es cero, r es cero.
La regresión y la correlación son dos técnicas separadas: la regresión tiene que ver con la
predicción y la correlación con la asociación. En muchas aplicaciones solamente nos
20
interesa la medición de la asociación entre variables, y no con el uso de una variable para
predecir otra.
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal
simple. Si existen varios resultados para una única variable, es decir, para una X existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.2
21
Análisis de correlación
En la rama de la estadística, la correlación se refiere a que existe un vínculo entre varios
eventos. Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo indicarnos si
existe relación entre dos eventos – es decir, variables–, un poco sobre la naturaleza de
dicha relación, y su fuerza. Para poder realizar un análisis de correlación confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables
22
Prueba de hipótesis sobre el coeficiente de correlación
La prueba de hipótesis del coeficiente de correlación poblacional Rho se estima con (r) y
corresponde a las siguientes hipótesis
H0: p=0
H1:p≠0
Mientras más cercano a cero sea el coeficiente de correlación, se indicará que tan débil es la
asociación entre ambas variables. Si es igual cero se concluirá que no existe relación lineal alguna
entre ambas variables.
23
Bibliografía
Antecedentes
https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal#Historia
https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal
Diagrama de dispersión
https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n
http://biplot.usal.es/problemas/regresion/teoria/regsimple.htm
https://previa.uclm.es/profesoradO/raulmmartin/Estadistica/PracticasSPSS/Supuestos_del_model
o_de_regresion_lineal.pdf
El coeficiente de Determinación
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
24
Análisis de correlación
http://bioestadistico.com/correlacion-como-prueba-de-hipotesis
https://www.youtube.com/watch?v=DGnl3n2SqJk&t=157s
https://www.youtube.com/watch?v=rFLgLOsU1LM
25