Professional Documents
Culture Documents
NATURALES NO RENOVABLES
INGENIERIA EN SISTEMAS
Unidad: Análisis Numérico
ESTUDIANTES:
Francisco Esteban Carrillo
Juana Catalina Malacatus.
LOJA -ECUADOR
2010
0
UNIVERSIDAD NACIONAL DE LOJA
REGRESIÓN SIMPLE
PREAMBULO
Cuando se asocia un error sustancial a los datos, la interpolación polinomial es inapropiada y puede
llevar a resultados no satisfactorios cuando se usa para predecir valores intermedios. Los datos
experimentales a menudo son de ese tipo. Una estrategia mas apropiada en estos casos es la de
obtener una función aproximada que ajuste “adecuadamente” el comportamiento o la tendencia
general de los datos, sin coincidir necesariamente con cada punto en particular. Una línea recta puede
usarse en la caracterización de la tendencia de los datos sin pasar sobre ningún punto en particular.
Una manera de determinar la línea, es inspeccionar de manera visual los datos graficados y luego
trazar la “mejor” línea a través de los puntos. Aunque este enfoque recurre al sentido común y es
válido para cálculos a “simple vista” es deficiente ya que es arbitrario.
Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la interpolación seria
apropiada), cada analista trazará rectas diferentes.
La manera de quitar esta subjetividad es considerar un criterio que cuantifique la suficiencia del
ajuste. Una forma de hacerlo es obtener una curva que minimice la diferencia entre los datos y la curva
y el método para llevar a cabo este objetivo es al que se le llama regresión con mínimos cuadrados.
REGRESIÓN SIMPLE
La Regresión y la Correlación son dos técnicas estadísticas que se pueden utilizar para solucionar
problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación
Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que y depende de x , en donde y y x son dos variables cualquiera en un modelo de
Regresión Simple.
1
UNIVERSIDAD NACIONAL DE LOJA
En el Modelo de Regresión Simple se establece que y es una función de sólo una variable
independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos
variables, una dependiente y otra independiente y se representa así:
En el estudio de la relación funcional entre dos variables poblacionales, una variable x, llamada
independiente, explicativa o de predicción y una variable y, llamada dependiente o variable respuesta,
presenta la siguiente notación:
y=a+ bx +e
Donde:
e : Es el error
2
UNIVERSIDAD NACIONAL DE LOJA
Al ajustar un modelo de regresión lineal simple se pueden presentar diferentes problemas bien
porque no existe una relación lineal entre las variables o porque no se verifican las hipótesis
estructurales que se asumen en el ajuste del modelo. Estos problemas son los siguientes:
Falta de Linealidad, porque la relación entre las dos variables no es lineal o porque variables
explicativas relevantes no han sido incluidas en el modelo.
Existencia de valores atípicos e influyentes, existen datos atípicos que se separan de la nube de
datos muestrales e influyen en la estimación del modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una distribución normal.
Heterocedasticidad, La heterocedasticidad es la existencia de una varianza no constante en las
perturbaciones aleatorias de un modelo econométrico.
Dependencia (autocorrelación), existe dependencia entre las observaciones.
Un primer paso para el estudio de estos problemas es la realización de un estudio descriptivo, analítico
y gráfico, de la muestra. En particular el gráfico de puntos de la muestra bidimensional permite
detectar algunos problemas como se deja de manifiesto en las siguientes figuras (1 al 6).
Figura 1. La nube de puntos muestrales bidimensionales parece ajustarse bien a una recta.
3
UNIVERSIDAD NACIONAL DE LOJA
Figura 5. Existen puntos atípicos que probablemente influyan en la estimación de la recta ajustada.
4
UNIVERSIDAD NACIONAL DE LOJA
Figura 6. Existe una variable regresora binaria que se debe de incluir en el modelo de regresión.
5
UNIVERSIDAD NACIONAL DE LOJA
MÍNIMOS CUADRADOS
“Mínimos cuadrados es una técnica de análisis numérico encuadrada dentro de la optimización
matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta encontrar la función que
mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error
cuadrático.”
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas
(llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos.
Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es
1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede
demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por
iteración), pero requiere un gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos
cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de
Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de
datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los
datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser
resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas
de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía
o maximizando la entropía.
6
UNIVERSIDAD NACIONAL DE LOJA
HISTORIA
El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres.
Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos
intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no
lineales de Kepler de movimiento es muy difícil). La mayoría de evaluaciones fueron inútiles; el único
cálculo suficientemente preciso para permitir a Zach, astrónomo alemán, reencontrar a Ceres al final
del año fue el de un Carl Friedrich Gauss de 24 años (los fundamentos de su enfoque ya los había
planteado en 1795, cuando aún tenía 18 años).
Pero su método de mínimos cuadrados no se publicó hasta 1809, apareciendo en el segundo volumen
de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sctionibus conicis solem
ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente
en 1805.
En 1829 Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento:
simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto
se conoce como teorema de Gauss-Márkov
Aproximación de funciones
Estimación de parámetros
7
UNIVERSIDAD NACIONAL DE LOJA
Una de las fuentes habituales de problemas de mínimos cuadrados son los problemas de ajustes de
curvas.
¿Cómo se encuentra la mejor aproximación que pase cerca (no por encima de cada uno) de los
puntos? El error cuadrático medio es la elección tradicional porque es mucho más fácil de minimizar
computacionalmente que otros errores (por ejemplo, error máximo y error medio). El enfoque de
mínimos cuadrados le da mucho más peso a un punto que está fuera de la tendencia de los datos, pero
no permite que el punto domine completamente a la aproximación. Con base en la teoría estadística,
con este método, conocido con el nombre de regresión con mínimos cuadrados, se encuentra algún
tipo de función que con mayor probabilidad se aproxima a los valores verdaderos.
En la ciencia y la ingeniería los experimentos producen un conjunto de datos (x1; y1); :::; (xn; yn), con
las abscisas {xk} diferentes, y el problema que se plantea es determinar una función y = f(x) que
relacione los datos, lo mejor posible en algún sentido. Evidentemente, el resultado dependerá del tipo
de función que se elija, por ejemplo, en la regresión f(x) = ax + b es una recta, y para ajustar los
parámetros libres se pueden minimizar uno de los siguientes tres valores:
El error máximo:
El error medio:
En el método de mínimos cuadrados el error que se minimiza es el error medio cuadrático. Por tanto,
la recta de regresión ajusta los parámetros a y b para minimizar el valor
que son la solución del sistema lineal conocido como ecuaciones normales de Gauss
𝑛 𝑛
𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1
8
UNIVERSIDAD NACIONAL DE LOJA
Sea 𝑦 = 𝑎 + 𝑏𝑥
𝑦2 = 𝑎 + 𝑏𝑥2
⋮
𝑦𝑘 = 𝑎 + 𝑏𝑥𝑛
2 2
S= 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 es mínimo
Entonces:
𝜕𝑆
= 2 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 =0
𝜕𝑎
𝜕𝑆
= 2 𝑎 + 𝑏𝑥1 − 𝑦1 𝑥1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 𝑥𝑛 = 0
𝜕𝑏
𝑁𝑎 + 𝑏 𝑥𝑘 − 𝑦𝑘 = 0
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑎 𝑥𝑘 + 𝑏 𝑥𝑘 2 − 𝑥𝑘 𝑦𝑘 = 0
𝑘=1 𝑘=1 𝑘=1
Despejando:
𝑛 𝑛
𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1
9
UNIVERSIDAD NACIONAL DE LOJA
EJEMPLO
Sean los siguientes datos:
x y
1.2 101
0.8 92
1.0 110
1.3 120
0.7 90
0.8 82
1.0 93
0.6 75
0.9 91
1.1 105
9.4 959
SOLUCION
x y (xk) xk yk y= 46.49+52.57x
1 1,2 101 1,44 121,2 109,574
2 0,8 92 0,64 73,6 88,546
3 1,0 110 1 110,0 99,06
4 1,3 120 1,69 156,0 114,831
5 0,7 90 0,49 63,0 83,289
6 0,8 82 0,64 65,6 88,546
7 1,0 93 1 93,0 99,06
8 0,6 75 0,36 45,0 78,032
9 0,9 91 0,81 81,9 93,803
10 1,1 105 1,21 115,5 104,317
9,4 959 88,36 924,8
10
UNIVERSIDAD NACIONAL DE LOJA
Justificación Teórica:
𝑛 𝑛
𝑦𝑘 = 𝑁𝑎 + 𝑏 𝑥𝑘
𝑘=1 𝑘=1
𝑛 𝑛 𝑛
𝑥𝑘 𝑦𝑘 = 𝑎 𝑥𝑘 + 𝑏 (𝑥𝑘)2
𝑘=1 𝑘=1 𝑘=1
Sustituyendo:
a= 46.49
b= 52.57
𝑦 = 𝑎 + 𝑏𝑥
y= 46.49+52.57x
11
UNIVERSIDAD NACIONAL DE LOJA
Grafica
12
UNIVERSIDAD NACIONAL DE LOJA
𝟐 373,973312
𝐄 𝐟 =
10
𝐄 𝐟 = 𝟔. 𝟏𝟏𝟓𝟑𝟑𝟓𝟕𝟑𝟗
13
UNIVERSIDAD NACIONAL DE LOJA
BIBLIOGRAFIA
http://site.ebrary.com/lib/unlsp/Doc?id=10365616&ppg=113
LINKS
http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados
http://www.scribd.com/doc/25451422/Minimos-Cuadrados-1
http://www.google.com.ec/url?sa=t&source=web&oi=revisions_result&ct=result&cd=1&ved=0CAYQh
gIwAA&url=http%3A%2F%2Fwww.ehu.es%2F~mepvaarf%2Fquimicos%2Fajuste.pdf&ei=3BjZS9fPA5H4
9AT-zOBY&usg=AFQjCNE_0uGySWN-rvgQWF2vVi2lZVzQOA&sig2=xhX15joIPrHkZx8405G6ag
14