Professional Documents
Culture Documents
doi: http://dx.doi.org/10.16925/in.v9i17.828
Estimacin y prediccin
con el modelo de regresin cbica
aplicado a un problema de salud
Diego Cardona1, Javier Gonzlez2, Miller Rivera3, Edwin Crdenas4
Cmo citar este artculo: D. Cardona, J. Gonzlez, M. Rivera y E. Crdenas, Estimacin y prediccin con el modelo de regresin cbica aplicado a un problema de
salud. Ingeniera Solidaria, vol. 10, n. 17, pp. 153-160, en.-dic., 2014. doi: http://dx.doi.org/10.16925/in.v9i17.828
Resumen. El artculo corresponde a un proyecto de investigacin desarrollado en la Escuela de Administracin de la Universidad del
Rosario, dirigido a fortalecer la utilizacin de los mtodos inferenciales de regresin lineal, no lineal y mltiple en la ejecucin de pro-
cesos de toma de decisin, a travs de la construccin de materiales didcticos para estudiantes, docentes e investigadores. Este artcu-
lo muestra las bondades del modelo de regresin polinmica de tercer orden y su aplicacin en la administracin y la ciencia, mediante
el desarrollo de un caso real aplicado a la salud, en el que se estima el porcentaje de mujeres que consumen ms de 20 cigarrillos diarios
segn la edad. Dentro del proyecto de investigacin, iniciado el segundo semestre del 2012, se ha realizado la publicacin de diferen-
tes recursos didcticos entre los que se encuentran documentos de investigacin como: Una aproximacin de la variable aleatoria
a procesos de toma de decisin que implican condiciones de riesgo e incertidumbre, Aplicacin de colas de Poisson en procesos de
toma de decisiones en la gestin de servicios mdicos y guas de inferencia estadstica de los mtodos de regresin lineal y no lineal.
Palabras clave: inferencia estadstica, regresin no lineal, modelo cbico, estimacin, prediccin.
Estimate and Prediction with Cubic Regression Estimao e predio com o modelo de regresso
Model Applied to a Health Problem cbica aplicado a um problema de sade
Abstract. The article corresponds to a research project carried out at Resumo. Este artigo corresponde a um projeto de pesquisa desenvolvi-
the School of Administration of the Universidad del Rosario, aimed at do na Escola de Administrao da Universidade do Rosrio (Colmbia),
strengthening the use of inferential linear, nonlinear and multiple regres- dirigido a fortalecer a utilizao dos mtodos inferenciais de regres-
sion methods in decision-making processes by creating didactic materi- so linear, no linear e mltipla na execuo de processos de tomada
als aimed at students, teachers and researchers. This article shows the de deciso, por meio da construo de materiais didticos dirigidos a
advantages of the third order polynomic regression model and its appli- estudantes, docentes e pesquisadores. Alm disso, mostra os benefcios
cation in administration and science, through the development of a real do modelo de regresso polinomial de terceira ordem e sua aplicao
case applied to health, in which the percentage of women who consume na administrao e na cincia, mediante o desenvolvimento de um caso
more than 20 cigarettes per day is estimated according to age. As part real aplicado sade, no qual se estima a porcentagem de mulheres que
of the research project begun during the second half of 2012, diverse consomem mais de 20 cigarros dirios segundo a idade. Dentro do pro-
didactic guides have been published, including research documents such jeto de pesquisa, iniciado no segundo semestre de 2012, realizou-se a
as: An Approach using the Aleatorical Variable in Decision-Making publicao de diferentes recursos didticos entre os quais se encontram
Processes that Imply Conditions of Risk and Uncertainty (Una aproxi- documentos de pesquisa como: Uma aproximao da varivel aleatria
macin de la variable aleatoria a procesos de toma de decisin que im- a processos de tomada de deciso que implicam condies de risco e in-
plican condiciones de riesgo e incertidumbre), Application of Poisson certeza, Aplicao do modelo de distribuio de Poisson em processos
Tails in Decision-making Processes for Managing Medical Services de tomada de decises em gesto de servios mdicos e guias de infe-
(Aplicacin de cola de Poisson en la gestin de servicios mdicos) and rncia estatstica dos mtodos de regresso linear e no linear.
statistical inference guides for linear and nonlinear regression methods.
Palavras-chave: inferncia estatstica, regresso no linear, modelo
Keywords: statistical inference, non-linear regression, cubic model, cbico, estimao, predio.
estimate, prediction.
BY NC ND
154 Aplicaciones de la ingeniera en otras disciplinas Ingeniera Solidaria / Volumen 10, Nmero 17 / enero - diciembre 2014
salud. En una encuesta de salud realizada en el 2009 Con ayuda de la hoja Excel se hace el anlisis de
en Espaa, se pregunt a las mujeres fumadoras (cerca regresin, que arroja la informacin de la tabla 2.
de 4 millones) por el nmero de cigarrillos que fuma-
ban diariamente [9]. La encuesta arroj los datos que Tabla 2. Anlisis de regresin cuadrtica
se muestran en la tabla 1. Estadsticas de la regresin
Coeficiente de correlacin
Tabla 1. Porcentaje de mujeres en Espaa que consumen cigarri- 0,76448317
mltiple
llos diariamente, por edad y nmero de unidades Coeficiente de
0,584434517
Porcentaje de consumidoras determinacin R^2
40,0
Donde, usualmente, el coeficiente de determina-
cin aumenta siempre a medida que se agregan varia-
20,0
bles independientes (zj) al modelo general de la ecuacin
(1). Por lo tanto, se prefiere ajustar r2 para evitar una
0,0 sobre estimacin del impacto de agregar otra variable
0 20 40 60 80 100 independiente.
edad (aos) de muestreo El coeficiente de determinacin ajustado es [11],
como se muestra en (5).
Figura 1. Porcentaje de mujeres espaolas consumidoras de 20 o
ms cigarrilos (segn los datos de la tabla 1)
ssr = ( yi y )
2
Fuente: elaboracin propia
(5)
ssr = ( yi y )
2
De acuerdo con la tabla 2, el coeficiente de deter- Dado que la regresin cuadrtica no es significati-
minacin R2 y el de determinacin ajustada son bajos; va, se procede a hacer el anlisis con el modelo cbico.
por lo tanto, no hay un buen ajuste de la curva con los Al tomar slo los cuatro primeros trminos de la ecua-
puntos (figura 2). Adems, el valor del estadstico de cin (2), se tiene el modelo de regresin cbica presen-
prueba F es menor que el valor observado en una tabla tado en (6).
de distribucin F para un nivel de significancia del 0,05
con dos grados de libertad en el numerador y cuatro en y = 0 + 1 x1 + 2 x12 + 3 x13 + (6)
el denominador (2,81 < 6,94); por lo tanto, este modelo
de regresin no es significativo. Este es el modelo de tercer orden con una varia-
60,0
ble predictora [11] y la ecuacin estimada de regresin
se aprecia en (7).
40,0 y = b0 + b1 x + b2 x 2 + b3 x 3 (7)
Porcentaje
20,0
Una vez ms con ayuda de la hoja de clculo Ex-
cel, se desarrolla el anlisis, y se obtiene los resultados
mostrados en la tabla 3 y 4.
0,0
0 20 40 60 80 100 Los resultados de la regresin muestran que el
edad ajuste de la ecuacin cbica con las observaciones es
Figura 2. Funcin cuadrtica estimada de ajuste
muy alto (r2 = 99%; tabla 3).
Fuente: elaboracin propia La relacin encontrada es estadsticamente signi-
ficativa ya que el estadstico de prueba F es mucho ma-
Residuos estandares
0,5
en el numerador y en el denominador F0,5 = 9,28. Por
ello, la probabilidad o valor crtico es casi cero (tabla 4). 0
40,0
Porcentaje
30,0
3. Resultados
20,0 El anlisis de regresin con la ecuacin cbica obtenida
10,0 a partir de los datos demuestra que existe una relacin
estadsticamente significativa entre las variables, y el
0,0 ajuste que proporciona es mejor que lo obtenido con la
0 20 40 60 80 100
edad ecuacin cuadrtica. Por tal motivo, esta expresin pue-
Figura 3. Grfica de la ecuacin de regresin cbica de usarse para hacer estimaciones y predicciones de va-
Fuente: elaboracin propia lores de la variable dependiente (porcentaje de mujeres
que fuman 20 o ms cigarrillos diarios) a partir de va-
Sin embargo, no se puede pasar por alto la valida- lores de la variable independiente (edad de las mujeres)
cin de los supuestos del modelo acerca del trmino de que estn dentro del rango de la muestra, pero diferentes
error: la homocedasticidad, E() = 0 y distribucin nor- a los observados, como se detalla a continuacin.
mal de [14], [15], [16].
La relacin cbica encontrada cumple con los su- 3.1 Estimacin de intervalo
puestos del modelo, dado que los residuos estanda-
Al hacer una estimacin puntual de un valor de y dado
rizados (ezi) se encuentran entre -2 y 2 desviaciones
un valor de x, no se tiene idea alguna de la precisin aso-
estndar (tabla 5 y figura 4) demostrando con ello una
ciada con el valor estimado. Por ello, aunque la regresin
distribucin normal del factor de error y no se eviden-
tenga un gran ajuste y sea estadsticamente significativa,
cia aumento en la varianza conforme aumenta y .
no se deben hacer estimaciones de valores de y simple-
Tabla 5. Anlisis de residuales de la relacin cbica mente remplazando valores de x en (8).
El estimado de intervalo de prediccin se usa
Anlisis de los residuales
cuando se desea un estimado de intervalo de valor indi-
Pronstico Residuos
Residuos vidual de y que corresponda a determinado valor de x.
para Y estndares
Supngase que se desea estimar el porcentaje de
x y y ei = y y ezi
mujeres fumadoras de 50 aos de edad que fuman 20
20 22,1 22,2469 -0,16690476 -0,27451 o ms cigarrillos diarios. Remplazando x por 50 en (8),
30 19,2 19,0445 0,19547619 0,3215 se tiene:
40 27,5 26,8931 0,63690476 1,0475
50 36,5 37,6943 -1,16428571 -1,91492 y = 94,198 6,5922(50 ) + 0,176729(50 ) 0,001349(50 )
2 3
( )
2
Tabla 6. Intervalos de confianza
1 xp x
sind = s 1 + + (10)
n Sxx Coeficientes Inferior 95% Superior 95%
Intercepcin 94,19786 76,0906525 112,305062
Variable X 1 -6,59225 -7,894107 -5,2904
La ecuacin general para un estimado del interva-
Variable X 2 0,17673 0,148642 0,20481753
lo de prediccin para un valor individual de y dado un
valor particular de x es: Variable X 3 -0,00135 -0,0015359 -0,00116353
Fuente: elaboracin propia
y t /2 Sind
En la estimacin y la inferencia, un error comn es
suponer que la lnea de regresin, as el ajuste sea muy
En donde el coeficiente de confianza es 1 y t /2
bueno (valor de r2 muy alto), puede aplicarse en cual-
se basa en una distribucin t con n4 grados de libertad.
quier intervalo de valores. Aun cuando una relacin se
Para determinar un estimado de intervalo de pre-
cumpla para el intervalo de puntos de la muestra, pue-
diccin del 95% para el porcentaje de mujeres fumadoras
de existir una relacin completamente distinta para un
de 50 aos de edad que fuman 20 o ms cigarrillos dia-
intervalo diferente. Por ejemplo, la relacin edad y talla
rios, se necesita el valor de t para /2=0.025 y n4= 3 gra-
puede ser lineal para cierto intervalo del crecimiento de
dos de libertad. As, con y p = 37,6943 t0,025 = 3,182 y
los nios en su primera infancia pero en la adolescen-
sind = 0,859853, se tiene:
cia esa relacin ya no es lineal.
Una ecuacin de estimacin es vlida para el mis-
37,6943 3,182 0,859853 mo rango dentro del cual se tom la muestra inicialmen-
37,6943 2,736 te [10]. Sin embargo, si el investigador tiene la certeza de
que el comportamiento entre las variables ser el mismo
Entonces, con una confianza del 95% se puede de- en otros intervalos fuera del rango de la muestra, enton-
cir que el porcentaje de mujeres fumadoras de 50 aos ces puede usar la ecuacin para hacer predicciones.
de edad que fuman 20 o ms cigarrillos diarios se en- En particular, para la situacin que se ha analiza-
cuentra entre 34,96% y 40,43%. do no se puede asegurar que el comportamiento de las
Estimacin y prediccin con el modelo de regresin cbica aplicado a un problema de salud 159
mujeres fumadoras mantenga la misma tendencia que salud pblica en Espaa, a partir del anlisis de regre-
describe la ecuacin hallada para aquellas con edades su- sin hecho con respecto al consumo de cigarrillos ob-
periores a 84 aos y menores de 16 aos, pues si se asu- servado en las mujeres, podran establecer polticas que
me que el consumo de cigarrillo en nias inicia desde los disminuyan estos indicadores.
14 aos y se utiliza la ecuacin para determinar el por-
centaje, se obtiene un 32,8% que sera aproximadamente
un 50% mayor que el consumo a la edad de 20 aos. Por Referencias
esta razn, solo se puede utilizar la ecuacin cbica en-
contrada para conocer el porcentaje de consumo de 20 o [1] J. E. Freund y G. A. Simon, Estadstica elemental, 8a ed.,
ms cigarrillos diarios en mujeres de cualquier edad es- Mxico: Prentice Hall, 1994.
pecfica en el rango de 16 a 84 aos. [2] J. L. Devore, Probabilidad y estadstica para ingeniera y
Finalmente, es importante mencionar que se puede ciencias, 6a ed., Mxico: Thomson Learning, 2005.
cometer otro error al utilizar el anlisis de regresin, y es [3] R. E. Walpole y R. H. Myers, Probabilidad y estadstica
suponer que un cambio en una variable es ocasionado para ingenieros, 6a ed., Mxico: Prentice Hall, 1999.
por un cambio en la otra variable. Los anlisis de regre- [4] H. Mendoza, J. Vargas, L. Lpez y G. Bautista, Mtodos
sin y correlacin no pueden, de ninguna manera, de- de regresin, 2002. [En lnea]. Disponible en: http://
terminar la causa y el efecto. Si se dice, por ejemplo, que www.virtual.unal.edu.co/cursos/ciencias/2007315/
existe una relacin entre el nmero de canas y de arrugas [ltimo acceso: 2 octubre 2013].
que van apareciendo en una persona, no se puede decir que [5] F. De Mendiburu, Modelos no lineales, 2006. [En
una ocasiona la otra pues es muy posible que existan lnea]. Disponible en: http://tarwi.lamolina.edu.
otras variables asociadas que sean la causa; en este caso la pe/~fmendiburu/index-filer/academic/Foreste-
edad de la persona, por ejemplo. La validez de una con- ria%20I/Teoria/Teoria%20modelos%20no%20lineales.
pdf [ltimo acceso: 12 septiembre 2013].
clusin de tipo causa y efecto requiere de una justifica-
cin terica, o del buen juicio por parte del analista [17]. [6] A. Sancho y G. Serrano, Econometra de Econmicas:
apuntes para el tema 6, 2006. [En lnea]. Disponible en:
http://www.uv.es/~sancho/panel.pdf
[7] H. Mendoza y G. Bautista, Bioestadstica fundamen-
5. Conclusiones tal, 2002. [En lnea]. Disponible en: http://www.virtual.
El anlisis de regresin es una herramienta matem- unal.edu.co/cursos/ciencias/2001091/
tica poderosa que permite determinar modelos sobre [8] L. A. Muoz R., Comprobacin de los supuestos del
el comportamiento de las variables que intervienen en modelo de regresin lineal, 2006. [En lnea]. Disponi-
una situacin en cualquier campo del conocimiento ble en: http://augusta.uao.edu.co/moodle/file.php/284/
con el fin de hacer estimaciones y predicciones dentro 18_supuestos_de_la_regresion_lineal.pdf [ltimo
acceso: 26 noviembre 2013].
de un intervalo de confianza deseado.
Dentro de estos modelos, que pueden ser linea- [9] Ministerio de Sanidad, Servicios Sociales e Igual-
les o no lineales, se encuentra el modelo de regresin dad, Encuesta Europea de Salud en Espaa, 2009.
[En lnea]. Disponible en: https://www.msssi.gob.es/
polinmico de tercer orden que se ajusta de manera
estadEstudios/estadisticas/ EncuestaEuropea/Prin-
adecuada a situaciones aplicadas a la salud como el por- cipales_Resultados_Informe.pdf [ltimo acceso: 20
centaje de mujeres espaolas que consumen ms de 20 octubre 2013].
cigarrillos diarios con relacin a su edad. Este modelo
[10] R. I. Levin y D. S. Rubin, Estadstica para administracin
tambin es muy utilizado en economa para la solucin y economa, Mxico: Pearson Educacin, 2004.
de problemas de optimizacin de precios e ingresos.
[11] D. R. Anderson, D. J. Sweeney y T. A. Williams, Esta-
Esta herramienta de anlisis estadstico propor-
dstica para administracin y economa, 7a ed., vol. II,
ciona al profesional la posibilidad de hacer ajustes en Mxico: Thomson, 2001.
los procesos, tomar decisiones o establecer polticas.
[12] A. Novales, Econometra, 2 ed., Madrid: McGraw-Hill,
Por ejemplo, si un profesional de la administracin uti-
1993.
liza la regresin de tercer orden podra estimar el ingre-
so promedio mximo en un proceso de venta, as como [13] M. Evans y J. S. Rosenthal, Probabilidad y estadstica. La
ciencia de la incertidumbre, Barcelona: Revert S.A., 2005.
optimizar el proceso de inventario en los almacenes. De
igual forma, los funcionarios de la administracin de la
160 Aplicaciones de la ingeniera en otras disciplinas Ingeniera Solidaria / Volumen 10, Nmero 17 / enero - diciembre 2014
[14] L. Orellana, Anlisis de regresin, 2008. [En l- [16] P. Pacheco, Verificacin de supuestos, 2012. [En lnea].
nea]. Disponible en: http://www.dm.uba.ar/materias/ Disponible en: http://www.virtual.unal.edu.co/cursos/
estadistica_Q/2011/1/clase%20regresion%20simple. ciencias/dis_exp/und_3/pdf/validaciondesupuestosuni-
pdf [ltimo acceso: 15 diciembre 2013]. dad 3b[1].pdf [ltimo acceso: 12 diciembre 2013].
[15] C. M. Lopera, Anlisis de Residuales, 2002. [En lnea]. [17] D. F. Cardona, J. L. Gonzlez, M. Rivera y E. H. Crde-
Disponible en: http://www.docentes.unal.edu.co/cmlo- nas, Mdulo de regresin lineal, Bogot: Universidad del
pera/docs/Estad2/2_RLM/2.(Complemento)Anlisis Rosario, 2013.
de Residuales y Otros en RLM.pdf [ltimo acceso: 10
noviembre 2013].