You are on page 1of 64

[editar]Modelos de regresin

[editar]Regresin lineal
Artculo principal: Regresin lineal.
Regresin lineal simple
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de
encontrar una funcin simple (lineal) de X que nos permita aproximar Y
mediante: = a + bX
a (ordenada en el origen, constante)
b (pendiente de la recta)

A la cantidad e=Y- se le denomina residuo o error residual.


As, en el ejemplo de Pearson: = 85 cm + 0,5X
Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo
gana 0,5 cm por cada cm del padre.
Regresin lineal mltiple
[editar]Regresin no lineal
Artculo principal: Regresin no lineal.

Regresin no lineal

Ejemplo de regresin no lineal

En estadstica, la regresin no lineal es un problema de inferencia para un modelo tipo:

basado en datos multidimensionales

, , donde

es alguna funcin no lineal respecto a algunos

parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros
asociados con la mejor curva de ajuste (habitualmente, con el mtodo de los mnimos cuadrados).
Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de
inferencia estadstica tales como intervalos de confianza para los parmetros as como pruebas de
bondad de ajuste.
El objetivo de la regresin no lineal se puede clarificar al considerar el caso de la regresin
polinomial, la cual es mejor no tratar como un caso de regresin no lineal. Cuando la funcin
la forma:

toma

la funcin

es no lineal en funcin de

desconocidos

pero lineal en funcin de los parmetros

, , y . Este es el sentido del trmino "lineal" en el contexto de la regresin

estadstica. Los procedimientos computacionales para la regresin polinomial son


procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras
y

. Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para

ajustar polinomios. Las consecuencias prcticas de esta mala interpretacin conducen a que
un procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin
disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por lo
general, ms alternativas de regresin lineal que de regresin no lineal en sus procedimientos.
Algunos problemas de regresin no lineal pueden linealizarse mediante una transformacin en
la formulacin del modelo. Por ejemplo, consideremos el problema de regresin no lineal
(ignorando el trmino de error):

Aplicando logaritmos a ambos lados de la ecuacin, se obtiene:

Software
Diversos lenguajes de programacin y software estadstico y matemtico contienen
funciones de optimizacin. Entre ellos, Gauss,GNU
Octave, Matlab, Mathematica, R, Splus; C++ y Fortran maple.

[editar]Mtodos

Numricos para Regresiones No Lineales

[editar]Regresin

Exponencial

En determinados experimentos, en su mayora biolgicos, la dependencia entre las


variables X e Y es de forma exponencial, en cuyo caso interesa ajustar a la nube de
puntos una funcin del tipo:

Mediante una transformacin lineal, tomando logaritmos neperianos, se convierte


el problema en una cuestin de regresin lineal. Es decir, tomando logaritmos
neperianos:

[editar]Ejemplo

x2

In y

In y2

x Iny

1,0986

1,0986

1,2069

1,2

3,4

1,2237

1,44

1,4684

1,4974

1,5

1,6094

2,25

2,4141

2,5901

0,6931

1,3862

0,4803

4,1

1,4109

4,2327

1,9906

3,7

1,6094

13,69

5,9547

2,5901

1,9459

16

7,7836

3,7865

4,5

6,5

1,8718

20,25

8,4231

3,5056

20,9

36

11,4628

67,63

32,7614

17,6455

Numero de datos = n = 8

x promedio =

y promedio =

= 2,6125

= 1,43285

Usando la forma lineal de la Regresin Exponencial:

b=

= 0,216047

= 1,43285 - (0,216047)(2,6125) = 0,868427


a = eb = e0,868427 = 2,38316

La ecuacion final que modela el sistema es

[editar]Regresin

Logartmica

La curva logartmica

es tambin una recta, pero en lugar

de estar referida a las variables originales

, est referida a

[editar]Ejemplo
x

ln2 x

ln x

y2

ln x * y

1.2

3.4

0.1823

0.0332

0.6198

11.56

1.5

0.4054

0.1643

2.027

25

0.6931

0.4803

1.3862

4.1

1.0986

1.2069

4.5042

16.81

3.7

1.3083

1.7116

6.5415

25

1.3862

1.9215

9.7034

49

4.5

6.5

1.5040

2.2620

9.776

42.25

20.9

36

6.5779

7.7798

34.5581

182.62

a=

= 2.090513

b=

= 4.5 - (2.090513)(0.8222) = 2.78117

La ecuacion final que modela el sistema es

[editar]Regresin

Polinomial

Algunas veces cuando la relacin entre las variables dependientes e


independientes es no lineal, es til incluir trminos polinomiales para ayudar
a explicar la variacin de nuestra variable dependiente.
Las regresiones polinomiales se pueden ajustar la variable independiente
con varios trminos

[editar]Ejemplo
x

x2

xy

y2

x2y

x3

x4

1.2

3.4

4.08

1.44

11.56

4.896

1.728

2.0736

1.5

7.5

2.25

25

11.25

3.375

5.0625

16

4.1

12.3

16.81

36.9

27

81

3.7

18.5

13.69

25

68.45

50.653

187.4161

28

16

49

112

64

256

4.5

6.5

29.25

20.25

42.25

131.625

91.125

410.0625

20.9

36

106.63

67.63

182.62

376.121

246.881

958.614

Usando una Matriz para calcular valores de los coeficientes

Usando el mtodo de Eliminacin de Gauss-Jordan

La ecuacin final que modela el sistema es

Diagrama de dispersin

El tiempo de espera entre las erupciones y la duracin de la erupcin del giser Old Faithful en el Parque Nacional
Yellowstone, Wyoming,EE.UU. Este grfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta
espera y corta duracin y otro de larga espera y larga duracin.

Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza lascoordenadas


cartesianas para mostrar los valores de dos variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que
determina la posicin en el eje horizontal y el valor de la otra variable determinado por la posicin en el
eje vertical.1 Un diagrama de dispersin se llama tambin grfico de dispersin.

[editar]Descripcin
Se emplea cuando una variable est bajo el control del experimentador. Si existe un parmetro que se
incrementa o disminuye de forma sistemtica por el experimentador, se le denomina parmetro de
control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La

variable medida o dependiente = eje de yusualmente se representa a lo largo del eje vertical. Si no
existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de
dispersin mostrar el grado de correlacin (no causalidad) entre las dos variables.
Un diagrama de dispersin puede sugerir varios tipos de correlaciones entre las variables con
un intervalo de confianza determinado. La correlacin puede ser positiva (aumento), negativa
(descenso), o nula (las variables no estn correlacionadas). Se puede dibujar una lnea
de ajuste (llamada tambin "lnea de tendencia") con el fin de estudiar la correlacin entre las variables.
Una ecuacin para la correlacin entre las variables puede ser determinada por procedimientos de
ajuste. Para una correlacin lineal, el procedimiento de ajuste es conocido como regresin lineal y
garantiza una solucin correcta en un tiempo finito.
Uno de los aspectos ms poderosos de un grfico de dispersin, sin embargo, es su capacidad para
mostrar las relaciones no lineales entre las variables. Adems, si los datos son representados por un
modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones
superpuestos.
El diagrama de dispersin es una de las herramientas bsicas de control de calidad, que incluyen
adems el histograma, el diagrama de Pareto, la hoja de verificacin, los grficos de control, el diagrama
de Ishikawa y el (diagrama de flujo). lkjbliubliubiubiubiub

En las di stribuciones bidimensionales a cada indi viduo le corresponden los


valores de dos variables, las representamos por el par (x i , y i ).

Si representamos cada par de valores como las coordenadas de un punto, el


conjunto de todos ellos se llama nube de puntos o diagrama de dispersin .

Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo
mejor posible, llamada recta de regresin .

Ejemplo

Las notas de 12 alumnos de una cl ase en Matemticas y F sica son las


siguientes:

Matemticas

10

10

Fsica

10

Diagrama de dispersin
1 Correlacin directa

La recta correspondiente a la nube de puntos de la distribucin es una


recta creciente.

2 Correlacin inversa

La recta correspondiente a la nube de puntos de la distribucin es una


recta decreciente.

3 Correlacin nula

En este caso se di ce que las vari ables son incorreladas y la nube de puntos
tiene una forma redondeada.

Grado de correlacin
El grado de correlacin indica la proximidad que hay entre los puntos de
la nube de puntos. Se pueden dar tres tipos:

1. Correlacin fuerte

La correl acin ser fuerte cuanto ms cerca estn los puntos de la recta.

2. Correlacin dbil

La correl acin ser dbil cuanto ms separados estn los puntos de la


recta.

3. Correlacin nula

DIAGRAMA DE DISPERSION
Diagrama De Dispersin: la primera forma de describir una distribucin bivariante es
representar los pares de valores en el plano cartesiano. El grfico obtenido recibe el
nombre de nube de puntos odiagrama de dispersin.
Es una representacin grfica de la relacin entre dos variables, muy utilizada en las
fases de Comprobacin de teoras e identificacin de causas raz y en
el Diseo de soluciones y mantenimiento de los resultados obtenidos.

COEFICIENTE DE
DETERMINACIN
Una importante medida estadstica igual al cuadrado del coeficiente de correlacin. Se utiliza a
menudo como medida de la eficacia de la cobertura en cuyo caso se mide el porcentaje de
la variacin en el precio de una posicin al contado explicada por la variacin en el precio del
instrumento de cobertura. Se puede obtener como R2 a partir de una regresin lineal sencilla.
Medida del grado de dependencia entre variables. Determination coefficient.
(En ingls: determination coefficient )
Coeficiente que mide el grado de dependencia entre variables, tomando el valor0 en caso
de correlacin nula o el valor 1 en caso de correlacin total. Equivale al cuadrado del coeficiente
de correlacin.

Coeficiente de determinacin
En Estadstica, se llama coeficiente de determinacin a la proporcin de la varianza de la variable
dependiente que est explicada por un modelo estadstico.

[editar]Caso

general

Un modelo estadstico se construye para explicar una variable aleatoria que llamaremos dependiente a
travs de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una
variable aleatoria mediante su media y que, en este caso, el error cuadrtico medio es su varianza, el
mximo error cuadrtico medio que podemos aceptar en un modelo para una variable aleatoria que
posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones
de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el
valor predicho la llamaremos residuo. La media cuadrtica de los residuos es la varianza residual.
Si representamos por

la varianza de la variable dependiente y la varianza residual por

coeficiente de determinacin viene dado por la siguiente ecuacin:

, el

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100% de valor de la
variable; si coincide con la varianza de la variable dependiente, el modelo no explica nada y el
coeficiente de determinacin es del 0%. En variables econmicas y financieras, suele ser difcil
conseguir un coeficiente de determinacin mayor de un 30% .

[editar]Modelo

lineal

En un modelo lineal, la variable dependiente


observamos

se explica mediante la ecuacin

veces tanto la variable aleatoria como los factores, podemos ordenar nuestras

observaciones de la variable dependiente en una matriz


en la matriz de regresin
de

. Si

mientras que colocaremos las de los factores

. Cada observacin corresponder a una coordenada de

y a una fila

. Cada columna de la matriz de regresin corresponde a las observaciones de un factor. En cada

observacin el modelo cometer un error:

Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.

es la parte de la variacin de
es la parte de la variacin de

explicada por el modelo lineal.

que no explica el modelo lineal.

Sumando estas dos partes, obtenemos

Problema: El valor del coeficiente de determinacin siempre aumenta cuando incluimos nuevas
variables en el modelo, incluso cuando stas son poco significativas o tienen poca correlacin con la
variable dependiente. Para resolverlo tenemos el coeficiente de determinacin corregido.

Correlacin estadstica

La correlacin estadstica determina la relacin o dependenci a que existe


entre las dos vari ables que intervienen en una distribucin bidimensional .

Es deci r, determinar si los cambios en una de las vari ables influyen en los
cambios de la otra. En caso de que suceda, di remos que las variables estn
correlacionadas o que hay correlacin entre ellas.

Coeficiente de correlacin
El coeficiente de correlacin lineal se expresa mediante la letra r.

Propiedades

1. El coeficiente

de

correlacin no

var a

al

hacerlo

la

escal a

de

medi cin.

Es decir, si expresamos la altura en metros o en centmetros el coefi ciente


de correlacin no var a.

2. El signo

del coeficiente

de

correlacin es

el

la covarianza.

Si la covarianza es positi va, la correlacin es directa.

Si la covarianza es negativa, la correlacin es inversa.

Si la covarianza es nula, no existe correlacin.

mismo

que

el

de

3. El coeficiente de correlacin lineal es un nmero real comprendido


entre menos 1 y 1.

1 r 1

4. Si el coeficiente de correlacin lineal toma val ores cercanos a 1 la


correlacin es fuerte e inversa , y ser tanto ms fuerte cuanto ms se aproxime
r a 1.

5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la


correlacin esfuerte y directa , y ser tanto ms fuerte cuanto ms se aproxime
r a 1.

6. Si el coeficiente de correlacin lineal toma val ores cercanos a 0, la


correlacin es dbil.

7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o


decreciente. Entre ambas vari ables hay dependencia funcional .

Ejercicios
Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Estatura (X)

186

189

190

192

193

193

198

201

203

205

Pesos (Y)

85

85

86

90

87

91

93

103

100

101

Cal cul ar el coeficiente de correlacin .

xi

yi

xi2

yi2

x i y i

18

85

34

15

18
9

19
0

19
2

19
3

19
3

19
8

85

86

90

87

91

93

20

10

20

10

20

10

59

22

35

72

22

36

10

39

36

86

10

37

24

56

37

24

28

39

20

64

40

10

40

60

41

10

20

00

42

10

02

20

810

16
065

16
340

17
280

16
791

1756
3

18
414

20
703

20
300

20
705

1
95
0

38
92

61
8

85
25
5

179
971

Correlacin positiva muy fuerte .

Los valores de dos variables X e Y se distribuyen segn la tabl a siguiente:

Y/X

100

50

25

14

18

22

Obtener e interpretar el coeficiente de correlacin lineal .

Convertimos la tabl a de doble entrada en una tabla simple.

xi

yi

yi2

xi yi

fi

fi

fi

14

196

1 400

36

648

3 600

2 500

14

196

700

150

7 500

54

972

2 700

50

2 500

22

484

1 100

50

1 250

44

968

1 100

10

600

10

464

600

xi

yi

fi

100

14

100

100

18

200

50

14

50

50

18

50

22

25

22

fi

xi2 fi

10
000
20
000

43
750

184

Es una correlacin negativa dbil .

Ecuacin Lineal
Dos caractersticas importantes de una ecuacin lineal

la independencia de la recta
la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma

y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la
altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de
predecir, y x es la variable predictora.
Determinacin de la ecuacin matemtica
En la regresin, los valores de y son predichos a partir de valores de x dados o
conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de
variable independiente.
Inferencia en el anlisis de regresin
Los supuestos para el anlisis de regresin son como:

Existen datos de medicin para a x y z.


la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribucin condicional de la qu es de naturaleza
normal
la desviacin estndar de toda las distribuciones condicionales son iguales
EL error estndar de estimacin
La determinante primaria de la exactitud es el grado de dispersin de la poblacin: cuanto mas
dispersa este, menor ser la exactitud de la estimacin. El grado de dispersin en la poblacin
se puede estimar a partir del grado de dispersin en las observaciones de la muestra con
respecto a la lnea de regresin calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de lnea de regresin correspondiente a partir de la ecuacin de regresin.
n = nmeros de observaciones.
La formula anterior no se utiliza por lo general para clculos reales, es mas fcil trabajar con la
formula simplificada
Se "y2 - a y - b xy
n-2
Inferencia de acerca de la pendiente de una lnea de regresin
Aun cuando es muy poca o nula relacin entre dos variables de aun poblacin, es posible
obtener valores maestrales que hacen que parezca que la variables estn relacionadas, es
importantes probar los resultados tales de caculo, a fin determinar si son significativos (es
decir si los parmetros verdaderos no son cero), Si no existe ninguna relacin se esperara
obtener aun pendiente cero, se pone a prueba la hiptesis nula contra la hiptesis alternativa.
La significacin del coeficiente de regresin se puede probar comparndolo con su desviacin
estndar
t = valor de la muestra - valor esperado
Desviacin estndar

Anlisis de regresin lineal mltiple


La regresin mltiple comprende tres o ms variables. Existe solo una variable dependiente,
pero hay dos o mas tipo independiente. Esta operacin al desarrollo de una ecuacin que se
pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables
independientes adicionales es incrementar la capacidad predicativa sobre la de la regresin
lineal simple.
Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de regresin.
Yc= a +b1x1+b2x2+bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un
problema de tres variables produce un plano, y un problema de k variables implica un
hiperplano de a
(k +1) dimensiones.
Anlisis de Correlacin
EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre
observaciones por partes. EL termino correlacin significa relacin mutua, ye que indica el
grado en el que los valores de una variable se relacionan con los valores de otra. Se
considera tres tcnicas de correlacin uno para datos de medicin, otro para datos
jerarquizados y el ltimo para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relacin entre dos variables continuas se resume mediante un coeficiente de
correlacin que se conoce como r de Pearson en honor del gran matemtico Kart Pearson,
quien ideo este mtodo. Esta tcnica es valida mientras si es posible establecer ciertos
supuestos bastante estrictos. Tales supuestos son los siguientes:

Tanto x como y son variables continuas aleatorias. Es decir, a diferencia


del anlisis de referencia de regresin, no es aceptable seleccionar ciertos valores de x,
y despus medir y; tanto y como x deben de variar libremente.
La distribucin conjunta de frecuencia es normal. Esto recibe el nombre de de
distribucin normal divariada.
Carcter de r
El coeficiente de relacin presenta dos propiedades que establecen la naturaleza de una
relacin entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual
al de la pendiente de una recta que podra ajustarse a los datos si estos se graficaran en un
diagrama de dispersin, y la magnitud de r indica cuan cerca esta de la recta tales puntos.
Mtodo practicar para calcular r
Dado que los clculos necesarios pueden requerir mucho tiempo especialmente cuando se
resta las medias del grupo de cada observacin se elevan a cuadrado esas diferencias. Existe
una versin, la cual simplifica los clculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 "n("y2)("y)2

Existen 3 formas posibles para obtener el valor de r en el caso de datos de medicin:


estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinacin
r2 y obtener su raz cuadrada como utilizar la formula. Para un conjunto de datos los tres
mtodos producirn el mismo valor para r no obstante cada mtodo agrega algo a la
comprensin del significado del termino correlacin

Los intervalos estadsticos


Parte 2: La prediccin del intervalo
Por Stephen N. Luko y Dean V. Neubauer
En esta serie de artculos, seguimos desarrollando y revisando el concepto de intervalo
estadstico y, en esta oportunidad, nos concentraremos en el intervalo de prediccin.
Para demostrar la idea de un intervalo de prediccin, utilizaremos un ejemplo del
primer artculo de esta serie para mostrar una comparacin directa.
P: Qu es un intervalo de prediccin?
R: Un intervalo de prediccin es un intervalo elaborado con una serie de datos de las muestras
de modo que contenga observaciones futuras. Tenga en cuenta que ste es un problema
diferente a la elaboracin de un intervalo para el promedio con cierto grado de confianza, como
se muestra en la Parte 1 de esta serie de artculos. Supongamos que una futura muestra se
toma en las mismas condiciones y de la misma poblacin o proceso que la muestra original y
que la muestra era aleatoria o que el proceso estaba en condiciones de control estadstico. Hay
muchas variaciones sobre este tema, pero todas tienen que ver con el problema esencial de lo
que pasar en el futuro y con qu frecuencia suceder la esencia de la estadstica. Podemos
tener intervalos de prediccin para los datos de las variables, o para datos del tipo de atributo;
podemos basar ms la prediccin en un modelo paramtrico, como la distribucin normal o usar
mtodos no paramtricos. Ambos son tiles en la prctica. Tambin podemos pone condiciones
sobre la prediccin futura. Por ejemplo, tal vez queramos que el intervalo tenga como mnimo 4
de las siguientes 5, o que tenga el promedio de la prxima muestra de 10. En este artculo,
exploramos el uso comn de los intervalos de prediccin cuando la distribucin normal sea
pertinente.
Supongamos que tenemos una muestra aleatoria de n observacionesX1, X2, .., Xn y sabemos que
los datos provienen de una distribucin normal, pero no sabemos el promedio ni la distribucin
estndar de la distribucin. Una nica observacin futura sera X n+1 y su error de prediccin
seraXn+1 - . La varianza de este error de prediccin puede resultar ser:
que se calcula por
(1)
Queremos un intervalo de prediccin para la prxima nica observacin de esta distribucin
normal. Para nuestros fines, la frmula es:
(2)

Podr encontrar los detalles de esta teora en la Referencia 1. El intervalo de prediccin para la
futura observacin Xn+1 ser siempre ms amplio que un intervalo de confianza para el promedio
debido a la mayor variabilidad del error de prediccin para una nica observacin en
comparacin con el error del clculo del promedio. El trmino bajo el signo de raz cuadrada
aparece porque estamos teniendo en cuenta la variabilidad en el promedio de la muestra (s/
) como tambin la variabilidad del nico valor futuro (s). El valor det/2 es un nmero positivo
tomado de la distribucin t de Student usando n - 1 grados de libertad de tal manera que d P(t/2 t t/2) = 1 - . Cuando se sustituyen los nmeros reales en la Ecuacin 2, decimos que el
intervalo de prediccin obtenido tiene una confianza relacionada C = 1 - de contener la
siguiente observacin.
Recordemos las n = 22 pruebas de adhesin ante tensin hechas en U-700 muestras de
aleaciones. En la Parte 1, encontramos = 13.71 y s = 3.55 por lo tanto el 95% de intervalo de
confianza para era 12,14 15,28. Si aplicamos la frmula para este ejemplo y usamos
una confianza del 95%, el valor de t con 21 grados de libertad es t = 2,080 y el intervalo de
prediccin para la siguiente observacin,X23', puede determinarse de la siguiente manera.

Note la diferencia en la amplitud del intervalo de prediccin en comparacin con el intervalo de


confianza. La Ecuacin 2 es til para situaciones en las que podemos tener pequeos grupos de
datos, y los datos son escasos, como, por ejemplo, cuando podemos obtener un valor de tan
poca frecuencia como uno en una semana. Cuando la desviacin estndar,, se conoce,
sustituimos por s en la Ecuacin 2 y reemplazamos t/2 por el cuantil normal estndar Z/2.
Supongamos que queremos que el intervalo contenga las siguientes k observaciones. Slo
tenemos que modificar t en la Ecuacin 2. El intervalo para ms de un valor futuro debe
necesariamente ser mayor que el intervalo para un valor futuro porque estamos tratando de
captar valores mltiples en el mismo nivel de confianza total. Hay una manera exacta de sacar el
valor t modificado, pero la mayora de los usuarios usan el valor t corregido de Bonferroni. En el
caso de una confianza especificadaC = 1 - , el valor t se modifica como t/(2k). Por ejemplo, con
una confianza del 95% y 21 grados de libertad (en nuestro ejemplo), un intervalo para las
siguientes cinco observaciones sera t0,005 (o sea, /(2k) = 0,05/(10) = 0,005). Este valor resulta
ser 2,831. Si usamos este valor en la Ecuacin 2, el intervalo estara entre 3,43 y 23,99 y luego
contendra las siguientes cinco observaciones con una confianza del 95%. Podemos hacer esto
con cualquier cantidad de observaciones futuras. En caso de que nos interese un intervalo de
prediccin unilateral, el valor t se cambia a t/k (omitiendo el 2 en el subndice) por k, la
cantidad de valores futuros que el intervalo contendr. Ahora supongamos que queremos un
intervalo unilateral para las siguientes cinco observaciones a una confianza del 95% y que el
intervalo va a estar delimitado en el lado elevado. Aqu = 0,05, entonces
usamos t0,05/5 = t0,01 en la frmula (2). En el caso de 21 grados de libertad, t0,01 = 2,518. Como
queremos un lmite mximo, usamos la forma + de la Ecuacin 2, que da 22,85 como lmite
mximo. Formalmente, el intervalo unilateral es (-, 22,85] con una confianza del 95% de
contener las siguientes cinco observaciones. Hay muchas variaciones sobre este tema cuando la
distribucin normal es pertinente.
Es importante mencionar que el intervalo de prediccin es similar a un intervalo de confianza en
cuanto a que la probabilidad de captura (confianza) es un resultado a largo plazo. Es decir, la
confianza es la proporcin a largo plazo de los casos, en las mismas condiciones y con datos
diferentes, que prediran adecuadamente lo que decimos que dara. En ste y otros casos, que
incluyen una referencia bibliogrfica integral, los lectores pueden revisar Statistical Intervals: A
Guide for Practitioners (Los intervalos estadsticos: una gua para los usuarios), por Hahn y
Meeker.2

Referencias
1. Whitmore, G. A., Prediction Limits for a Univariate Normal Observation (Lmites de
prediccin para una observacin normal univariable) The American Statistician, mayo 1986, vol.
40, Nm. 2.
2. Hahn, G. J., y Meeker, W. Q., Statistical Intervals: A Guide for Practitioners(Los intervalos
estadsticos: Una gua para los usuarios) , Wiley-Interscience, John Wiley and Sons Inc., New
York, N.Y., 1991.
Stephen N. Luko, de Hamilton Sundstrand, Windsor Locks, Connecticut, es el anterior
presidente del Comit E11 sobre calidad y estadsticas y es miembro de ASTM International.
Dean V. Neubauer, de Corning Inc., Corning, Nueva York, es miembro de ASTM; se desempea
como vicepresidente del Comit E11 sobre calidad y estadsticas, es presidente del Subcomit
E11.30 sobre control estadstico de la calidad y del E11.90.03 sobre publicaciones, y tambin
coordina la columna DataPoints (Mediciones).
En el prximo artculo de esta serie, analizaremos los intervalos de tolerancia y su uso.

Intervalo de confianza

Las lneas verticales representan 50 construcciones diferentes de intervalos de confianza para la estimacin del
valor .

En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que
estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos
nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor
desconocido es unparmetro poblacional. La probabilidad de xito en la estimacin se representa con 1
- y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de
significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo. 1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms
amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo
ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer
la distribucin terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente
una distribucin normal. Tambin pueden construirse intervalos de confianza con ladesigualdad de
Chebyshov.

En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro


poblacional que sigue una determinadadistribucin de probabilidad, es una expresin del tipo [1, 2]
tal que P[1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de .

[editar]Intervalo

de confianza para la media de una poblacin

De una poblacin de media

y desviacin tpica

se pueden tomar muestras de

elementos. Cada

una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las
medias muestrales coincide con la media poblacional: 2
Pero adems, si el tamao de las muestras es lo suficientemente grande, 3 la distribucin de medias
muestrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin tpica
dada por la siguiente expresin:

. Esto se representa como sigue:

Si estandarizamos, se sigue que:


En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del cual caigan un
determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 z z2] =
1 - , donde (1 - )100 es el porcentaje deseado (vase eluso de las tablas en una distribucin normal).
Se desea obtener una expresin tal que
En esta distribucin normal de medias se puede calcular el intervalo de confianza donde se encontrar
la media poblacional si slo se conoce una media muestral ( ), con una confianza determinada.
Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le
llamar

(debido a que

es el error que se cometer, un trmino opuesto).

Para ello se necesita calcular el punto

o, mejor dicho, su versin estandarizada

crtico junto con su "opuesto en la distribucin"


el intervalo, como se muestra en la siguiente imagen:

o valor

. Estos puntos delimitan la probabilidad para

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que:

As:

Haciendo operaciones es posible despejar

para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:

Obsrvese que el intervalo de confianza viene dado por la media muestral


crtico

por el error estndar

Si no se conoce

el producto del valor

y n es grande (habitualmente se toma n 30):4

, donde s es la desviacin tpica de una muestra.

Aproximaciones para el valor


para

[editar]Intervalo

para los niveles de confianza estndar son 1,96

y 2,576 para

.5

de confianza para una proporcin

El intervalo de confianza para estimar una proporcin p, conocida una proporcin muestral pn de una
muestra de tamao n, a un nivel de confianza del (1-)100% es:

En la demostracin de estas frmulas estn involucrados el Teorema Central del Lmite y la


aproximacin de una binomial por unanormal.6

Variables, escalas
TEMA
INSTRUMENTALES
INTRODUCTORIOS
Tipos de variables utilizadas en Epidemiologa:
Clasificacin:
Las variables pueden ser clasificadas como cuantitativas
(intervalares) o cualitativas (categricas), dependiendo si los
valores presentados tienen o no un orden de magnitud natural
(cuantitativas), o simplemente un atributo no sometido a
cuantificacin (cualitativa).
Una variable es medida utilizando una escala de medicin. La
eleccin de la(s) escala(s) de medicin a utilizar depende, en
primer lugar, del tipo de variable en estudio, y, adems, del
manejo estadstico a la que se someter la informacin. En
trminos prcticos, existe una correspondencia directa entre el
concepto de variable y escala de medicin.

Un atributo corresponde a un valor especfico e una variable,


como ser el caso de la variable sexo, la que posee dos atributos:
varn o mujer. En variables que exploran el grado de acuerdo o
desacuerdo frente a una afirmacin los atributos podran ser:
1 = muy en desacuerdo
2 = en desacuerdo
3 = indiferente
4 = de acuerdo
5 = muy de acuerdo
Dependiendo de los valores que puede tener una variable
cualitativa, sta puede a su vez ser dicotmicas (cuando slo
pueden adoptar un slo valor sin jerarqua entre s; hombre mujer, positivo-negativo, presente-ausente), o bien, poli o
multicotmicas ,si existe la posibilidad de que adopten
mltiples valores (edad, talla, nivel socioeconmico, grupos
sanguneos, calificacin previsional de usuarios).
1. Las variables cualitativas pueden agruparse en variables
nominales u ordinales. Hablaremos de variable nominal
cuando los datos correspondan a una variable cualitativa
que se agrupa sin ninguna jerarqua entre s, como por
ejemplo: nombres de personas, de establecimientos, raza,
grupos sanguneos, estado civil. Estas variables no tienen
ningn orden inherente a ellas ni un orden de jerarqua.
Si las categoras o valores que adopte una variable
cualitativa poseen un orden, secuencia o progresin
natural esperable, hablaremos de variable ordinal, como

por ejemplo: grados de desnutricin, respuesta a un


tratamiento, nivel socioeconmico, intensidad de
Medir y clasificar
Variables, escalas
Error, sesgo
Los sesgos ms
frecuentes
Variables clsicas en
EPI
Indicadores en salud
Clasificacin de
indicadores
Atributos de un buen
indicador
Ajuste de tasas
Ajuste directo
Ajuste indirecto
Medidas de
frecuencia en EPI
OTROS TEMAS
Introductorios
Instrumentales
introductorios
Paradigmas
epidemiolgicos
Indicadores de

riesgo EPI
Investigacin y EPI
Epidemiologa
descriptiva
Epidemiologa
analtica
Estudios
experimentales
file:///C|/Documents%20and%20Settings/Salud
%20Publica/Escritorio/RecEpidem/INSINTROD2.HTM (1 de 3)30/08/2007
12:20:27Variables, escalas
consumo de alcohol, das de la semana, meses del ao,
escalas de Killip o Apgar. A pesar de este orden
jerrquico no es posible obtener valoracin numrica
lgica entre dos valores.
2. Las variables de tipo cuantitativo pueden a su vez ser
clasificadas como continuas o discretas. Las escalas
cuantitativas son reconocidas tambin como escalas
intervalares o numricas.
Si entre dos valores determinados existen infinitas
posibilidades de valores, hablaremos de una variable de
tipo continuo. Ejemplos de este tipo de variables son: el
peso, la talla, la presin arterial o el nivel de colesterol
srico. En la prctica, salvo contadas excepciones no se
dispone de mtodos de medicin sofisticados como para
poder medir exactamente los valores, por ejemplo, de
talla. En estricto rigor, la probabilidad que dos individuos

tengan exactamente la misma talla o edad es muy baja.


Si la variable a medir slo puede adoptar un slo valor
numrico, entero, con valores intermedios que carecen de
sentido, hablaremos de variable cuantitativa de tipo
discreto. Son ejemplos de ellas: el nmero de hijos, de
unidades vecinales del sector, nmero de exmenes de
laboratorio o de pacientes atendidos.
Tanto las variables discretas como las continuas pueden
agruparse construyendo intervalos, entre cuyos valores
extremos se ubicarn las diferentes observaciones
registradas. Sin embargo, estrictamente hablando, slo
las variables continuas pueden ser objeto de
categorizacin mediante intervalos.
Clasificacin de variables
Cuantitativas (intervalares)
Continuas
Ej. Presin arterial, peso, edad,
talla, IMC
Discretas
Ej.Nmero de hijos, episodios
de infeccin urinaria
Categricas (cualitativas)
Ordinales
Ej.Etapificacin tumores,
Apgar, Killip
Nominales

-Dicotmicas : Ej vivo/muerto,
sexo
-Policotmicas : Ej. Grupo
sanguneo, raza
Web Gabriel Rada. Revisado 2007 Toms Merino
file:///C|/Documents%20and%20Settings/Salud
%20Publica/Escritorio/RecEpidem/INSINTRO

Regresin no lineal

Ejemplo de regresin no lineal

En estadstica, la regresin no lineal es un problema de inferencia para un modelo tipo:

basado en datos multidimensionales

, , donde

es alguna funcin no lineal respecto a algunos

parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros
asociados con la mejor curva de ajuste (habitualmente, con el mtodo de losmnimos cuadrados).
Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de
inferencia estadstica tales como intervalos de confianza para los parmetros as como pruebas de
bondad de ajuste.

El objetivo de la regresin no lineal se puede clarificar al considerar el caso de la regresin


polinomial, la cual es mejor no tratar como un caso de regresin no lineal. Cuando la funcin

toma

la forma:

la funcin

es no lineal en funcin de

desconocidos

pero lineal en funcin de los parmetros

, , y . Este es el sentido del trmino "lineal" en el contexto de la regresin

estadstica. Los procedimientos computacionales para la regresin polinomial son


procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras
y

. Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para

ajustar polinomios. Las consecuencias prcticas de esta mala interpretacin conducen a que
un procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin
disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por lo
general, ms alternativas de regresin lineal que de regresin no lineal en sus procedimientos.

Funcin cuadrtica
En matemticas, una funcin cuadrtica o funcin de segundo grado es una funcin
polinmica definida como:

Grficas de funciones cuadrticas.

en donde a, b y c son nmeros reales (constantes) y a es distinto de 0.


La representacin grfica en el plano cartesiano de una funcin cuadrtica es una parbola, cuyo
eje de simetra es paralelo al eje de las ordenadas. La parbola se abrir hacia arriba si el signo
de a es positivo, y hacia abajo en caso contrario. El estudio de las funciones cuadrticas tiene
numerosas aplicaciones en campos muy diversos, como por ejemplo lacada libre o el tiro
parablico.
La derivada de una funcin cuadrtica es una funcin lineal y su integral una funcin cbica.

P: Qu es un intervalo de prediccin?
R: Un intervalo de prediccin es un intervalo elaborado con una serie de datos de las muestras
de modo que contenga observaciones futuras. Tenga en cuenta que ste es un problema
diferente a la elaboracin de un intervalo para el promedio con cierto grado de confianza, como
se muestra en la Parte 1 de esta serie de artculos. Supongamos que una futura muestra se
toma en las mismas condiciones y de la misma poblacin o proceso que la muestra original y
que la muestra era aleatoria o que el proceso estaba en condiciones de control estadstico. Hay
muchas variaciones sobre este tema, pero todas tienen que ver con el problema esencial de lo
que pasar en el futuro y con qu frecuencia suceder la esencia de la estadstica. Podemos
tener intervalos de prediccin para los datos de las variables, o para datos del tipo de atributo;
podemos basar ms la prediccin en un modelo paramtrico, como la distribucin normal o
usar mtodos no paramtricos. Ambos son tiles en la prctica. Tambin podemos pone
condiciones sobre la prediccin futura. Por ejemplo, tal vez queramos que el intervalo tenga
como mnimo 4 de las siguientes 5, o que tenga el promedio de la prxima muestra de 10. En
este artculo, exploramos el uso comn de los intervalos de prediccin cuando la distribucin
normal sea pertinente.
Supongamos que tenemos una muestra aleatoria de n observacionesX1, X2, .., Xn y sabemos
que los datos provienen de una distribucin normal, pero no sabemos el promedio ni la
distribucin estndar de la distribucin. Una nica observacin futura sera X n+1 y su error de
prediccin seraXn+1 - . La varianza de este error de prediccin puede resultar ser:
que se calcula por
(1)
Queremos un intervalo de prediccin para la prxima nica observacin de esta distribucin
normal. Para nuestros fines, la frmula es:
(2)
Podr encontrar los detalles de esta teora en la Referencia 1. El intervalo de prediccin para la
futura observacin Xn+1 ser siempre ms amplio que un intervalo de confianza para el
promedio debido a la mayor variabilidad del error de prediccin para una nica observacin
en comparacin con el error del clculo del promedio. El trmino bajo el signo de raz cuadrada
aparece porque estamos teniendo en cuenta la variabilidad en el promedio de la muestra (s/
) como tambin la variabilidad del nico valor futuro (s). El valor det/2 es un nmero
positivo tomado de la distribucin t de Student usando n - 1 grados de libertad de tal manera
que d P(-t/2 t t/2) = 1 - . Cuando se sustituyen los nmeros reales en la Ecuacin 2,
decimos que el intervalo de prediccin obtenido tiene una confianza relacionada C = 1 - de
contener la siguiente observacin.
Recordemos las n = 22 pruebas de adhesin ante tensin hechas en U-700 muestras de

aleaciones. En la Parte 1, encontramos = 13.71 y s = 3.55 por lo tanto el 95% de intervalo


de confianza para era 12,14 15,28. Si aplicamos la frmula para este ejemplo y
usamos una confianza del 95%, el valor de t con 21 grados de libertad es t = 2,080 y el
intervalo de prediccin para la siguiente observacin,X 23', puede determinarse de la siguiente
manera.

Note la diferencia en la amplitud del intervalo de prediccin en comparacin con el intervalo de


confianza. La Ecuacin 2 es til para situaciones en las que podemos tener pequeos grupos
de datos, y los datos son escasos, como, por ejemplo, cuando podemos obtener un valor de
tan poca frecuencia como uno en una semana. Cuando la desviacin estndar,, se conoce,
sustituimos por s en la Ecuacin 2 y reemplazamos t/2 por el cuantil normal estndar Z/2.
Supongamos que queremos que el intervalo contenga las siguientes k observaciones. Slo
tenemos que modificar t en la Ecuacin 2. El intervalo para ms de un valor futuro debe
necesariamente ser mayor que el intervalo para un valor futuro porque estamos tratando de
captar valores mltiples en el mismo nivel de confianza total. Hay una manera exacta de sacar
el valor t modificado, pero la mayora de los usuarios usan el valor t corregido de Bonferroni.
En el caso de una confianza especificadaC = 1 - , el valor t se modifica como t/(2k). Por
ejemplo, con una confianza del 95% y 21 grados de libertad (en nuestro ejemplo), un intervalo
para las siguientes cinco observaciones sera t0,005 (o sea, /(2k) = 0,05/(10) = 0,005). Este
valor resulta ser 2,831. Si usamos este valor en la Ecuacin 2, el intervalo estara entre 3,43 y
23,99 y luego contendra las siguientes cinco observaciones con una confianza del 95%.
Podemos hacer esto con cualquier cantidad de observaciones futuras. En caso de que nos
interese un intervalo de prediccin unilateral, el valor t se cambia a t/k (omitiendo el 2 en el
subndice) por k, la cantidad de valores futuros que el intervalo contendr. Ahora supongamos
que queremos un intervalo unilateral para las siguientes cinco observaciones a una confianza
del 95% y que el intervalo va a estar delimitado en el lado elevado. Aqu = 0,05, entonces
usamos t0,05/5 = t0,01 en la frmula (2). En el caso de 21 grados de libertad, t0,01 = 2,518. Como
queremos un lmite mximo, usamos la forma + de la Ecuacin 2, que da 22,85 como lmite
mximo. Formalmente, el intervalo unilateral es (-, 22,85] con una confianza del 95% de
contener las siguientes cinco observaciones. Hay muchas variaciones sobre este tema cuando
la distribucin normal es pertinente.
Es importante mencionar que el intervalo de prediccin es similar a un intervalo de confianza
en cuanto a que la probabilidad de captura (confianza) es un resultado a largo plazo. Es decir,
la confianza es la proporcin a largo plazo de los casos, en las mismas condiciones y con datos
diferentes, que prediran adecuadamente lo que decimos que dara. En ste y otros casos, que
incluyen una referencia bibliogrfica integral, los lectores pueden revisar Statistical Intervals:
A Guide for Practitioners (Los intervalos estadsticos: una gua para los usuarios), por Hahn y
Meeker.2

You might also like