Professional Documents
Culture Documents
[editar]Regresin lineal
Artculo principal: Regresin lineal.
Regresin lineal simple
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de
encontrar una funcin simple (lineal) de X que nos permita aproximar Y
mediante: = a + bX
a (ordenada en el origen, constante)
b (pendiente de la recta)
Regresin no lineal
, , donde
parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros
asociados con la mejor curva de ajuste (habitualmente, con el mtodo de los mnimos cuadrados).
Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de
inferencia estadstica tales como intervalos de confianza para los parmetros as como pruebas de
bondad de ajuste.
El objetivo de la regresin no lineal se puede clarificar al considerar el caso de la regresin
polinomial, la cual es mejor no tratar como un caso de regresin no lineal. Cuando la funcin
la forma:
toma
la funcin
es no lineal en funcin de
desconocidos
ajustar polinomios. Las consecuencias prcticas de esta mala interpretacin conducen a que
un procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin
disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por lo
general, ms alternativas de regresin lineal que de regresin no lineal en sus procedimientos.
Algunos problemas de regresin no lineal pueden linealizarse mediante una transformacin en
la formulacin del modelo. Por ejemplo, consideremos el problema de regresin no lineal
(ignorando el trmino de error):
Software
Diversos lenguajes de programacin y software estadstico y matemtico contienen
funciones de optimizacin. Entre ellos, Gauss,GNU
Octave, Matlab, Mathematica, R, Splus; C++ y Fortran maple.
[editar]Mtodos
[editar]Regresin
Exponencial
[editar]Ejemplo
x2
In y
In y2
x Iny
1,0986
1,0986
1,2069
1,2
3,4
1,2237
1,44
1,4684
1,4974
1,5
1,6094
2,25
2,4141
2,5901
0,6931
1,3862
0,4803
4,1
1,4109
4,2327
1,9906
3,7
1,6094
13,69
5,9547
2,5901
1,9459
16
7,7836
3,7865
4,5
6,5
1,8718
20,25
8,4231
3,5056
20,9
36
11,4628
67,63
32,7614
17,6455
Numero de datos = n = 8
x promedio =
y promedio =
= 2,6125
= 1,43285
b=
= 0,216047
[editar]Regresin
Logartmica
La curva logartmica
, est referida a
[editar]Ejemplo
x
ln2 x
ln x
y2
ln x * y
1.2
3.4
0.1823
0.0332
0.6198
11.56
1.5
0.4054
0.1643
2.027
25
0.6931
0.4803
1.3862
4.1
1.0986
1.2069
4.5042
16.81
3.7
1.3083
1.7116
6.5415
25
1.3862
1.9215
9.7034
49
4.5
6.5
1.5040
2.2620
9.776
42.25
20.9
36
6.5779
7.7798
34.5581
182.62
a=
= 2.090513
b=
[editar]Regresin
Polinomial
[editar]Ejemplo
x
x2
xy
y2
x2y
x3
x4
1.2
3.4
4.08
1.44
11.56
4.896
1.728
2.0736
1.5
7.5
2.25
25
11.25
3.375
5.0625
16
4.1
12.3
16.81
36.9
27
81
3.7
18.5
13.69
25
68.45
50.653
187.4161
28
16
49
112
64
256
4.5
6.5
29.25
20.25
42.25
131.625
91.125
410.0625
20.9
36
106.63
67.63
182.62
376.121
246.881
958.614
Diagrama de dispersin
El tiempo de espera entre las erupciones y la duracin de la erupcin del giser Old Faithful en el Parque Nacional
Yellowstone, Wyoming,EE.UU. Este grfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta
espera y corta duracin y otro de larga espera y larga duracin.
[editar]Descripcin
Se emplea cuando una variable est bajo el control del experimentador. Si existe un parmetro que se
incrementa o disminuye de forma sistemtica por el experimentador, se le denomina parmetro de
control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La
variable medida o dependiente = eje de yusualmente se representa a lo largo del eje vertical. Si no
existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de
dispersin mostrar el grado de correlacin (no causalidad) entre las dos variables.
Un diagrama de dispersin puede sugerir varios tipos de correlaciones entre las variables con
un intervalo de confianza determinado. La correlacin puede ser positiva (aumento), negativa
(descenso), o nula (las variables no estn correlacionadas). Se puede dibujar una lnea
de ajuste (llamada tambin "lnea de tendencia") con el fin de estudiar la correlacin entre las variables.
Una ecuacin para la correlacin entre las variables puede ser determinada por procedimientos de
ajuste. Para una correlacin lineal, el procedimiento de ajuste es conocido como regresin lineal y
garantiza una solucin correcta en un tiempo finito.
Uno de los aspectos ms poderosos de un grfico de dispersin, sin embargo, es su capacidad para
mostrar las relaciones no lineales entre las variables. Adems, si los datos son representados por un
modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones
superpuestos.
El diagrama de dispersin es una de las herramientas bsicas de control de calidad, que incluyen
adems el histograma, el diagrama de Pareto, la hoja de verificacin, los grficos de control, el diagrama
de Ishikawa y el (diagrama de flujo). lkjbliubliubiubiubiub
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo
mejor posible, llamada recta de regresin .
Ejemplo
Matemticas
10
10
Fsica
10
Diagrama de dispersin
1 Correlacin directa
2 Correlacin inversa
3 Correlacin nula
En este caso se di ce que las vari ables son incorreladas y la nube de puntos
tiene una forma redondeada.
Grado de correlacin
El grado de correlacin indica la proximidad que hay entre los puntos de
la nube de puntos. Se pueden dar tres tipos:
1. Correlacin fuerte
La correl acin ser fuerte cuanto ms cerca estn los puntos de la recta.
2. Correlacin dbil
3. Correlacin nula
DIAGRAMA DE DISPERSION
Diagrama De Dispersin: la primera forma de describir una distribucin bivariante es
representar los pares de valores en el plano cartesiano. El grfico obtenido recibe el
nombre de nube de puntos odiagrama de dispersin.
Es una representacin grfica de la relacin entre dos variables, muy utilizada en las
fases de Comprobacin de teoras e identificacin de causas raz y en
el Diseo de soluciones y mantenimiento de los resultados obtenidos.
COEFICIENTE DE
DETERMINACIN
Una importante medida estadstica igual al cuadrado del coeficiente de correlacin. Se utiliza a
menudo como medida de la eficacia de la cobertura en cuyo caso se mide el porcentaje de
la variacin en el precio de una posicin al contado explicada por la variacin en el precio del
instrumento de cobertura. Se puede obtener como R2 a partir de una regresin lineal sencilla.
Medida del grado de dependencia entre variables. Determination coefficient.
(En ingls: determination coefficient )
Coeficiente que mide el grado de dependencia entre variables, tomando el valor0 en caso
de correlacin nula o el valor 1 en caso de correlacin total. Equivale al cuadrado del coeficiente
de correlacin.
Coeficiente de determinacin
En Estadstica, se llama coeficiente de determinacin a la proporcin de la varianza de la variable
dependiente que est explicada por un modelo estadstico.
[editar]Caso
general
Un modelo estadstico se construye para explicar una variable aleatoria que llamaremos dependiente a
travs de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una
variable aleatoria mediante su media y que, en este caso, el error cuadrtico medio es su varianza, el
mximo error cuadrtico medio que podemos aceptar en un modelo para una variable aleatoria que
posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones
de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el
valor predicho la llamaremos residuo. La media cuadrtica de los residuos es la varianza residual.
Si representamos por
, el
Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100% de valor de la
variable; si coincide con la varianza de la variable dependiente, el modelo no explica nada y el
coeficiente de determinacin es del 0%. En variables econmicas y financieras, suele ser difcil
conseguir un coeficiente de determinacin mayor de un 30% .
[editar]Modelo
lineal
veces tanto la variable aleatoria como los factores, podemos ordenar nuestras
. Si
y a una fila
es la parte de la variacin de
es la parte de la variacin de
Problema: El valor del coeficiente de determinacin siempre aumenta cuando incluimos nuevas
variables en el modelo, incluso cuando stas son poco significativas o tienen poca correlacin con la
variable dependiente. Para resolverlo tenemos el coeficiente de determinacin corregido.
Correlacin estadstica
Es deci r, determinar si los cambios en una de las vari ables influyen en los
cambios de la otra. En caso de que suceda, di remos que las variables estn
correlacionadas o que hay correlacin entre ellas.
Coeficiente de correlacin
El coeficiente de correlacin lineal se expresa mediante la letra r.
Propiedades
1. El coeficiente
de
correlacin no
var a
al
hacerlo
la
escal a
de
medi cin.
2. El signo
del coeficiente
de
correlacin es
el
la covarianza.
mismo
que
el
de
1 r 1
Ejercicios
Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Estatura (X)
186
189
190
192
193
193
198
201
203
205
Pesos (Y)
85
85
86
90
87
91
93
103
100
101
xi
yi
xi2
yi2
x i y i
18
85
34
15
18
9
19
0
19
2
19
3
19
3
19
8
85
86
90
87
91
93
20
10
20
10
20
10
59
22
35
72
22
36
10
39
36
86
10
37
24
56
37
24
28
39
20
64
40
10
40
60
41
10
20
00
42
10
02
20
810
16
065
16
340
17
280
16
791
1756
3
18
414
20
703
20
300
20
705
1
95
0
38
92
61
8
85
25
5
179
971
Y/X
100
50
25
14
18
22
xi
yi
yi2
xi yi
fi
fi
fi
14
196
1 400
36
648
3 600
2 500
14
196
700
150
7 500
54
972
2 700
50
2 500
22
484
1 100
50
1 250
44
968
1 100
10
600
10
464
600
xi
yi
fi
100
14
100
100
18
200
50
14
50
50
18
50
22
25
22
fi
xi2 fi
10
000
20
000
43
750
184
Ecuacin Lineal
Dos caractersticas importantes de una ecuacin lineal
la independencia de la recta
la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la
altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de
predecir, y x es la variable predictora.
Determinacin de la ecuacin matemtica
En la regresin, los valores de y son predichos a partir de valores de x dados o
conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de
variable independiente.
Inferencia en el anlisis de regresin
Los supuestos para el anlisis de regresin son como:
Podr encontrar los detalles de esta teora en la Referencia 1. El intervalo de prediccin para la
futura observacin Xn+1 ser siempre ms amplio que un intervalo de confianza para el promedio
debido a la mayor variabilidad del error de prediccin para una nica observacin en
comparacin con el error del clculo del promedio. El trmino bajo el signo de raz cuadrada
aparece porque estamos teniendo en cuenta la variabilidad en el promedio de la muestra (s/
) como tambin la variabilidad del nico valor futuro (s). El valor det/2 es un nmero positivo
tomado de la distribucin t de Student usando n - 1 grados de libertad de tal manera que d P(t/2 t t/2) = 1 - . Cuando se sustituyen los nmeros reales en la Ecuacin 2, decimos que el
intervalo de prediccin obtenido tiene una confianza relacionada C = 1 - de contener la
siguiente observacin.
Recordemos las n = 22 pruebas de adhesin ante tensin hechas en U-700 muestras de
aleaciones. En la Parte 1, encontramos = 13.71 y s = 3.55 por lo tanto el 95% de intervalo de
confianza para era 12,14 15,28. Si aplicamos la frmula para este ejemplo y usamos
una confianza del 95%, el valor de t con 21 grados de libertad es t = 2,080 y el intervalo de
prediccin para la siguiente observacin,X23', puede determinarse de la siguiente manera.
Referencias
1. Whitmore, G. A., Prediction Limits for a Univariate Normal Observation (Lmites de
prediccin para una observacin normal univariable) The American Statistician, mayo 1986, vol.
40, Nm. 2.
2. Hahn, G. J., y Meeker, W. Q., Statistical Intervals: A Guide for Practitioners(Los intervalos
estadsticos: Una gua para los usuarios) , Wiley-Interscience, John Wiley and Sons Inc., New
York, N.Y., 1991.
Stephen N. Luko, de Hamilton Sundstrand, Windsor Locks, Connecticut, es el anterior
presidente del Comit E11 sobre calidad y estadsticas y es miembro de ASTM International.
Dean V. Neubauer, de Corning Inc., Corning, Nueva York, es miembro de ASTM; se desempea
como vicepresidente del Comit E11 sobre calidad y estadsticas, es presidente del Subcomit
E11.30 sobre control estadstico de la calidad y del E11.90.03 sobre publicaciones, y tambin
coordina la columna DataPoints (Mediciones).
En el prximo artculo de esta serie, analizaremos los intervalos de tolerancia y su uso.
Intervalo de confianza
Las lneas verticales representan 50 construcciones diferentes de intervalos de confianza para la estimacin del
valor .
En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que
estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos
nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor
desconocido es unparmetro poblacional. La probabilidad de xito en la estimacin se representa con 1
- y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de
significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo. 1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms
amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo
ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer
la distribucin terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente
una distribucin normal. Tambin pueden construirse intervalos de confianza con ladesigualdad de
Chebyshov.
[editar]Intervalo
y desviacin tpica
elementos. Cada
una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las
medias muestrales coincide con la media poblacional: 2
Pero adems, si el tamao de las muestras es lo suficientemente grande, 3 la distribucin de medias
muestrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin tpica
dada por la siguiente expresin:
(debido a que
o valor
As:
Si no se conoce
[editar]Intervalo
y 2,576 para
.5
El intervalo de confianza para estimar una proporcin p, conocida una proporcin muestral pn de una
muestra de tamao n, a un nivel de confianza del (1-)100% es:
Variables, escalas
TEMA
INSTRUMENTALES
INTRODUCTORIOS
Tipos de variables utilizadas en Epidemiologa:
Clasificacin:
Las variables pueden ser clasificadas como cuantitativas
(intervalares) o cualitativas (categricas), dependiendo si los
valores presentados tienen o no un orden de magnitud natural
(cuantitativas), o simplemente un atributo no sometido a
cuantificacin (cualitativa).
Una variable es medida utilizando una escala de medicin. La
eleccin de la(s) escala(s) de medicin a utilizar depende, en
primer lugar, del tipo de variable en estudio, y, adems, del
manejo estadstico a la que se someter la informacin. En
trminos prcticos, existe una correspondencia directa entre el
concepto de variable y escala de medicin.
riesgo EPI
Investigacin y EPI
Epidemiologa
descriptiva
Epidemiologa
analtica
Estudios
experimentales
file:///C|/Documents%20and%20Settings/Salud
%20Publica/Escritorio/RecEpidem/INSINTROD2.HTM (1 de 3)30/08/2007
12:20:27Variables, escalas
consumo de alcohol, das de la semana, meses del ao,
escalas de Killip o Apgar. A pesar de este orden
jerrquico no es posible obtener valoracin numrica
lgica entre dos valores.
2. Las variables de tipo cuantitativo pueden a su vez ser
clasificadas como continuas o discretas. Las escalas
cuantitativas son reconocidas tambin como escalas
intervalares o numricas.
Si entre dos valores determinados existen infinitas
posibilidades de valores, hablaremos de una variable de
tipo continuo. Ejemplos de este tipo de variables son: el
peso, la talla, la presin arterial o el nivel de colesterol
srico. En la prctica, salvo contadas excepciones no se
dispone de mtodos de medicin sofisticados como para
poder medir exactamente los valores, por ejemplo, de
talla. En estricto rigor, la probabilidad que dos individuos
-Dicotmicas : Ej vivo/muerto,
sexo
-Policotmicas : Ej. Grupo
sanguneo, raza
Web Gabriel Rada. Revisado 2007 Toms Merino
file:///C|/Documents%20and%20Settings/Salud
%20Publica/Escritorio/RecEpidem/INSINTRO
Regresin no lineal
, , donde
parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros
asociados con la mejor curva de ajuste (habitualmente, con el mtodo de losmnimos cuadrados).
Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de
inferencia estadstica tales como intervalos de confianza para los parmetros as como pruebas de
bondad de ajuste.
toma
la forma:
la funcin
es no lineal en funcin de
desconocidos
ajustar polinomios. Las consecuencias prcticas de esta mala interpretacin conducen a que
un procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin
disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por lo
general, ms alternativas de regresin lineal que de regresin no lineal en sus procedimientos.
Funcin cuadrtica
En matemticas, una funcin cuadrtica o funcin de segundo grado es una funcin
polinmica definida como:
P: Qu es un intervalo de prediccin?
R: Un intervalo de prediccin es un intervalo elaborado con una serie de datos de las muestras
de modo que contenga observaciones futuras. Tenga en cuenta que ste es un problema
diferente a la elaboracin de un intervalo para el promedio con cierto grado de confianza, como
se muestra en la Parte 1 de esta serie de artculos. Supongamos que una futura muestra se
toma en las mismas condiciones y de la misma poblacin o proceso que la muestra original y
que la muestra era aleatoria o que el proceso estaba en condiciones de control estadstico. Hay
muchas variaciones sobre este tema, pero todas tienen que ver con el problema esencial de lo
que pasar en el futuro y con qu frecuencia suceder la esencia de la estadstica. Podemos
tener intervalos de prediccin para los datos de las variables, o para datos del tipo de atributo;
podemos basar ms la prediccin en un modelo paramtrico, como la distribucin normal o
usar mtodos no paramtricos. Ambos son tiles en la prctica. Tambin podemos pone
condiciones sobre la prediccin futura. Por ejemplo, tal vez queramos que el intervalo tenga
como mnimo 4 de las siguientes 5, o que tenga el promedio de la prxima muestra de 10. En
este artculo, exploramos el uso comn de los intervalos de prediccin cuando la distribucin
normal sea pertinente.
Supongamos que tenemos una muestra aleatoria de n observacionesX1, X2, .., Xn y sabemos
que los datos provienen de una distribucin normal, pero no sabemos el promedio ni la
distribucin estndar de la distribucin. Una nica observacin futura sera X n+1 y su error de
prediccin seraXn+1 - . La varianza de este error de prediccin puede resultar ser:
que se calcula por
(1)
Queremos un intervalo de prediccin para la prxima nica observacin de esta distribucin
normal. Para nuestros fines, la frmula es:
(2)
Podr encontrar los detalles de esta teora en la Referencia 1. El intervalo de prediccin para la
futura observacin Xn+1 ser siempre ms amplio que un intervalo de confianza para el
promedio debido a la mayor variabilidad del error de prediccin para una nica observacin
en comparacin con el error del clculo del promedio. El trmino bajo el signo de raz cuadrada
aparece porque estamos teniendo en cuenta la variabilidad en el promedio de la muestra (s/
) como tambin la variabilidad del nico valor futuro (s). El valor det/2 es un nmero
positivo tomado de la distribucin t de Student usando n - 1 grados de libertad de tal manera
que d P(-t/2 t t/2) = 1 - . Cuando se sustituyen los nmeros reales en la Ecuacin 2,
decimos que el intervalo de prediccin obtenido tiene una confianza relacionada C = 1 - de
contener la siguiente observacin.
Recordemos las n = 22 pruebas de adhesin ante tensin hechas en U-700 muestras de