You are on page 1of 168

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/260290844

MODELACIN MATEMTICA DE FENMENOS


DEL MEDIO AMBIENTE Y LA SALUD Tomo 3

Book February 2014


DOI: 10.13140/2.1.1170.9126

CITATIONS READS

0 881

1 author:

Carlos N. Bouza
University of Havana
286 PUBLICATIONS 253 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Programa de Innovacin y Buenas Prcticas Docentes de la Universidad de Granada View project

Spatial statistic and extreme value applied to public health issues, La Habana (Cuba) View project

All content following this page was uploaded by Carlos N. Bouza on 06 November 2014.

The user has requested enhancement of the downloaded file.


MODELACIN MATEMTICA DE
FENMENOS DEL MEDIO AMBIENTE Y
LA SALUD
Tomo 3

Editores:

Carlos Narciso Bouza Herrera


Jos Flix Garca Rodrguez
Mara del Mar Rueda Garca
Agustn Santiago Moreno
`wxtv| `tx|vt wx Yxx
wx `xw| Tu|xx t ftw
g F

Xw|xM
Vt aA Ut [xxt
] Y| Ztvt ewzx
`tt wx `t exwt Ztvt
Tz ft|tz `x
Universidad de la Habana (Cuba)
Universidad Jurez Autnoma de Tabasco (Mxico)
Universidad de Granada (Espaa)

Editores:

Carlos N. Bouza Herrera


Jos Flix Garca Rodrguez
Mara del Mar Rueda Garca
Agustn Santiago Moreno

ISBN: 84-616-7997-0

Este libro ha sido subvencionado parcialmente por los proyectos MTM2009-1055 y por
RIDECA.
ndice de Captulos
CAPITULOS AUTORES TTULO PGINAS
1 Pedreira. L., C. S. Lerma, A. SOBRE EL USO DE UN ALGORITMO 1-13
Villamil Serrano, G. Bouza HBRIDO PARA LA REGULACIN
Allendey S. Allende Alonso PTIMA DE LOS SEMFOROS DE UN
CRUCE EN A CORUA Y SU IMPACTO
MEDIOAMBIENTAL
2 Vaquer, Fernndez, A. Morales MEDIDAS DE RIESGO CLSICAS Y 14-25
Martnez, G. M. Casas Cardoso, BORROSAS. UNA APLICACIN REAL
J. L. Morales Martnez y L.
Denoda Prez
3 Montero Alonso, M. A. , J. A. ESTIMACIN DE LA EXACTITUD DE 26-33
Roldn Nofuentes UN TEST BINARIO EN PRESENCIA DE
DATOS FALTANTES IGNORABLES
4 Rigonatti, A., , J.A. Viana APPLICATION OF THE MIXED 34-45
Rodrigues, CHINESE POSTMAN PROBLEM
P. L. Fernandes Batista, M. J. MODELS AND EXPERIENCES WITH
Negreiros Gomes URBAN GARBAGE COLLECTION: CASE
STUDY IN JARDIM EUROPA/SP
5 Boukichou-Abdelkader, N., REGRESIN NO PARAMTRICA: 46-52
M.. Montero-Alonso; A. ESTIMADOR POLINOMIAL LOCAL
Muoz-Garca y P. N. Canrio
6 Al-Omari, A. I., C. N. Bouza, STUDIES OF CANCER PROBLEMS 53-66
A. Santiago y J. M. Sautto USING RANKED SET SAMPLES
7 Roldn Nofuentes, J. A., S. CONFIDENCE INTERVALS AND 67-75
Bouh ould Sidaty HYPOTHESIS TESTS FOR THE
PREDICTIVE VALUES OF BINARY
DIAGNOSTIC TESTS: A REVIEW
8 Alonso, L., C. N. Bouza y D. ESTIMATORS FOR EVALUATING THE 76-83
Covarrubias EXPLOITABILITY OF SILVESTER
MAGUEY PAPALOTE (AGAVE
CUPREATA TREL ET BERGER) WITH
MISSING OBSERVATIONS
9 Romn-Montoya Y. y A.M. INCIDENCIA DE LAS DESIGUALDADES 84-95
Lara-Porras SOCIALES EN LOS NDICES DE
MORTALIDAD INFANTIL
10 Daz, L., V. Sistachs, D. ANLISIS DE FACTORES DE RIESGO 96-107
Covarrubias, N. I. Hernndez, POR TRASTORNOS
C. M. Snchez, V. M. Cruz HIPERTENSIVOS Y HEMORRAGIA
DURANTE EL EMBARAZO EN EL
ESTADO DE GUERRERO MXICO
11 vila Palacios, M:, L. R. SISTEMA EXPERTO BASADO EN 108-117
Marcial Castillo, M. Rivera REGLAS PARA LA DETECCIN DE
Martnez, L. Sandoval Sols, J. CNCER
Gmez Mandujano, J. vila
Palacios, L. Njera Masso y L.
vila Palacios
12 Daz, G. L., V. Sistachs Vega, SELECCIN DE MODELOS BAJO EL 118-127
D. Covarrubias y N. I. ENFOQUE BAYESIANO: UNA
Hernndez APLICACIN AL ESTADO COGNITIVO
DE LOS ADULTOS MAYORES EN EL G.
ESTADO DE GUERRERO.

i
13 L. H. Solana-Villanueva, L.s FACTORES PRONSTICOS DE UNA MUESTRA 128-144
Lpez-Segovia, D. Romero y J. DE PACIENTES
F. Garca Rodrguez CON CNCER DE CRVIX EN HOSPITAL JUAN
GRAHAM (HJG)
TABASCO, MXICO.
14 Cobo, B. APLICACIN DE LA ESTRATEGIA DE 145-154
RESPUESTA ALEATORIA Y TCNICAS DE
PREGUNTAS INDIRECTAS EN ENCUESTAS
EDUCATIVAS

ii
NDICE DE AUTORES
Allende Alonso, S. sira@matcom.uh.cu
Dpto. Matemtica Aplicada, Universidad de La
Habana, Cuba
Al-Omari, A. I. alomari_amer@yahoo.com
Al al-Bayt University, Faculty of Science, Department
of Mathematics, Jordan
Alonso, L. alonso_lore@yahoo.com.mx
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Chilpancingo , Mxico
vila Palacios, M. chik_ska858@hotmail.com
Benemrita Universidad Autnoma de Puebla, Puebla,
Mxico
Boukichou-Abdelkader,N. nisa83_1@hotmail.com
Centro de Investigacin Ceiis - IdiPAZ. Hospital
Universitario La Paz. Madrid. Espaa.
Bouza Allende, G. gema@matcom.uh.cu
Dpto. Matemtica Aplicada, Universidad de La
Habana, Cuba
Bouza, C.N. bouza@matcom.uh.cu
Universidad de La Habana, Cuba.
Canrio , P. N. pnuno@estgp.pt,
C3i, Polytechnic Institute of Portalegre, P -7300 -110,
Portalegre, Portugal
Casas Cardoso, G. M. gcasas@uclv.edu.cu
Universidad Central "Marta Abreu" de Las Villas
Santa Clara, Cuba
Cobo, B. bcobo@ugr.es
Departamento de Estadstica e Investigacin Operativa,
Universidad de Granada, Espaa
Covarrubias, D. dcova@uagro.mx
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Chilpancingo , Mxico
Cruz, V. M. carmencruz2@hotmail.com
Unidad Acadmica de Enfermera no. 1, Universidad
Autnoma de Guerrero, Chilpancingo , Mxico
Denoda Prez, L. ldenoda@uclv.edu.cu
Universidad Central "Marta Abreu" de Las Villas,
Santa Clara, Cuba
Daz, G. L lucio@uagro.es
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Chilpancingo, Mxico.
Fernandes Batista, P.L.
Universidade Estadual do Cear (UECE)
Hernndez, N. I. imeldash@yahoo.com.mx
Unidad Acadmica de Enfermera no. 1, Universidad
Autnoma de Guerrero, Mxico
Jos Flix Garca Rodrguez jfgr55@hotmail.com
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico
Lara-Porras, A. M. alara@ugr.es
Departamento de Estadstica e Investigacin Operativa
Universidad de Granada, Espaa
Lerma, C. S. colito@udc.es

iii
Dpto. Economa Aplicada II, Universidade da Corua,
Espaa
Lpez-Segovia, L. llopez@ujat.mx
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico
Montero Alonso, M. . mmontero@ugr.es
Bioestadstica, Departamento de Estadstica e
Investigacin Operativa, Facultad de Medicina,
Universidad de Granada, Espaa
Morales Martnez, A. maiterv@hmmg.vcl.sld.cu
Hosital Materno "Mariana Grajales"
Santa Clara, Cuba
Morales Martnez, J. L. jmm@gmx.es
Universidad Central "Marta Abreu" de Las Villas,
Santa Clara, Cuba
Muoz-Garca, A. albmun@est-econ.uc3m.es
Departamento de Estadstica, Universidad Carlos III de
Madrid, Espaa.
Negreiros Gomes, M.J. negreiro@graphvs.com.br
Universidade Estadual do Cear (UECE)
Pedreira, L. lucky@udc.es
Dpto. Economa Aplicada II, Universidade da Corua,
Espaa.
Rigonatti, A. The rest of the mails marcos
Engenharia e Tecnologia - Eng de Produo
Forteza, Brasil
Roldn Nofuentes , J. A. jaroldan@ugr.es
Bioestadstica, Departamento de Estadstica e
Investigacin Operativa, Facultad de Medicina,
Universidad de Granada, Espaa.
Romn-Montoya Y. yroman@ugr.es
Departamento de Estadstica e Investigacin Operativa
Universidad de Granada, Espaa
Romero, D. rotd720818@yahoo.com
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico
Saad Bouh ould Sidaty sidaty_saad@yahoo.com
School of Medicine, University of Nouakchott,
Mauritania
Snchez, , C. M leticias559@hotmail.com
Unidad Acadmica de Enfermera no. 1, Universidad
Autnoma de Guerrero, Chilpancingo, Mxico
Santiago, A. asantiago2228@yahoo.com
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Acapulco, Mxico.
Sautto, J. M.
Universidad Autnoma de Guerrero, Acapulco,
Mxico.
Sistachs, V. vivian@matcom.uh.cu
Facultad de Matemticas, Universidad de la Habana
Cuba.
Solana-Villanueva, L. H. lh_solana@hotmail.com
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico ,

iv
Vaquer Fernndez, J. E. jevf@hamc.vcl.sld.cu
Hospital Universitario "A. Milin Castro"
Santa Clara, Cuba
Viana Rodrigues, J. A.
Universidade Estadual do Cear (UECE)
Forteza, Brasil
Villamil Serrano, A. avillamil@ub.edu,
Dpto. Poltica Econmica y Estructura Econmica
Mundial, Universidad de Barcelona, Espaa

v
cz
El presente libro constituye un gran trabajo y esfuerzo en lo individual y colectivo de un grupo de
investigadores que convergen en la Red Iberoamericana de Desarrollo de Estudios Cuantitativos Aplicados
(RIDECA) y que hacen del uso de la matemtica y estadstica una herramienta cientfica para estudiar
fenmenos naturales relacionados con el medio ambiente y de la salud. No es menos importante por igual,
mencionar que esta red de investigacin integrada por docentes de diferentes universidades prestigiadas,
desde Europa hasta Centro y Sur Amrica, incluyendo el pas hermano de Cuba, cuya articulacin de
esfuerzos enriquece la presente obra, ya que se abordan diferentes estudios sobre temas que suceden
cotidianamente en una sociedad dialctica con propuestas de solucin al problema planteado, en la que los
responsables de ejecutar programas gubernamentales debieran de atender y tomar en cuenta, para que esta
combinacin terica-prctica no se quede en solo un esfuerzo de academia y de una investigacin cientfica
ms.

Prologar un libro es una accin de distincin y afecto por parte de los coordinadores hacia el prologante, y en
ese sentido manifiesto mi agradecimiento por el honroso gesto que el consejo editorial me han deferido. Los
conozco a profundidad y s que han realizado numerosos trabajos de investigacin que les ha nutrido de vasta
experiencia y calidad acadmica y profesional, en las universidades donde colaboran, incluyendo nuestra
querida alma mater, la Universidad Autnoma de Guerrero, donde me honro en ser igualmente un persistente
de la investigacin cientfica, al igual los miembros de la red, de los cuales estoy seguro que la presente obra
ser de un aporte invaluable para los estudiosos de las estadsticas (paramtrica y no paramtrica) y para todo
aquel investigador que le apasione o requiera del uso de esta rama de las matemticas, que es sin duda, una
herramienta imprescindible para la rigurosidad cientfica en la metodologa cuantitativa de la ciencia.

La obra, inicia con un Captulo donde existe una colaboracin conjunta de investigadores de Espaa y Cuba,
que demuestran a travs de un modelo tipo problema con restricciones de complementariedad lineal,
utilizando algoritmo quasi-newton, cuya funcin objetivo es minimizar y optimizar el tiempo de espera que
se ocasionan por el embotellamientos en la Ciudad de Corua, Espaa, y conseguir disminuir de igual manera,
el largo de las colas, el consumo de carburantes y la contaminacin ambiental.

El Segundo Captulo, muestra el clculo de medidas de riesgo en Epidemiologa mediante el software r-Fuzzy
con datos de pacientes con alto riesgo cardiovascular en la ciudad de Santa Clara, Cuba, en donde la
investigacin muestra una solucin alternativa que s tiene en cuenta estos aspectos: el riesgo relativo borroso
y la razn de productos cruzados borrosa para enfermos epidemiolgicos.

En el Tercer Captulo, investigadores de la Universidad de Granada, Espaa, presentan, distintos intervalos de


confianza para la sensibilidad y la especificidad de un test diagnstico binario cuando en presencia de
verificacin parcial de la enfermedad el mecanismo de datos faltantes es ignorable, tema importante ya que en
muchas ocasiones no todas las observaciones en una investigacin son del todo conocidas y hay que
implementar un mtodo confiable para suponer el comportamiento de los datos desconocidos.

El Cuarto Captulo se considera el problema del cartero chino (CPP) que se aplica a la recoleccin de basura
urbana en la ciudad de So Paulo, en la regin de Jardim Europa. Se muestra cmo se procede con una
prospeccin de sitio en la recoleccin de basura, a partir de los planes de recogida de servicio diarios
utilizados por el municipio. Se utiliz la versin mixta del CCP, y modelos relacionados, para verificar los
recorridos de Euler y sus costos de las rutas previstas utilizados por el responsable de ejecutar la coleccin
local de basura urbana. Los autores exploran las soluciones mediante el uso de los solucionadores disponibles
Excel, LINGO y Xns. Evalan 12 reas de recogida diaria, y se siguen a dos de ellos en el campo. El trabajo
revela discrepancias e inviabilidad de las rutas programadas por el responsable de hacer el trabajo. Tambin
se muestran los resultados obtenidos por los solucionadores, comparando su desempeo, y finalmente se
considera la conveniencia de la CPP mixta que debe aplicarse a la realidad de este contexto de la recoleccin
de basura.

vi
El Captulo Quinto, muestra la otra cara de la moneda de la estadstica paramtrica, es decir, la estadstica no
paramtrica, mediante el clculo de un estimador polinomial local por medio de la regresin, utilizando las
libreras kernSmooth, locpol, locfit y sm del software estadstico R, explorado mtodos univariantes
denominados mtodos de regresin polinomial local como una buena solucin, dadas sus buenas propiedades
tericas y sus deseables caractersticas de interpretabilidad y sencillez en la prctica ajustndose lo mximo
posible a ellos mediante la curva del estimador polinomial local con propsito de obtener buenas conclusiones
en cualquier estudio al que sea aplicado.

En el Captulo Sexto, investigadores de la Universidad Autnoma de Guerrero y la Universidad de la Habana,


Cuba, presentan estudios con personas que tienen problemas de cncer, en los que se utilizan muestras
recabadas y comparadas a travs de modelos estadsticos de muestreo; el muestreo aleatorio simple (MSA) y
el muestreo por conjuntos ordenados (Ranked set sampling, RSS) el cual a decir de los autores, es
considerado como un modelo competitivo, en donde concluyen, que la precisin de los mtodos basados en
RSS es mayor que la del MSA. Estos resultados sugieren que el RSS permite incrementar la precisin para un
costo fijo o reducir los costos para un error fijo, aportacin de suma importancia para la investigacin
cientfica, debido a que la minimizacin de los costos de recoleccin de la informacin, siempre estar
presente en todos los estudios cientficos y en todos los investigadores.

El Captulo Siete aborda el tema de la exactitud en la clasificacin de clasificadores. Se definen el valor


predictivo positivo y el valor predictivo negativo, que se sabe, son medidas de la exactitud clnica de un test
diagnstico binario y que dependen de la sensibilidad y especificidad del test diagnstico y de la prevalencia
de la enfermedad. En este trabajo se realiza una revisin de los mtodos de estimacin de los valores
predictivos bajo distintos tipos de muestreo, sus intervalos de confianza y tests de hiptesis.

En el Captulo Ocho, investigadores de la Universidad de la Habana, Cuba, realizan un estudio en el Estado


de Guerrero, con plantas de maguey plantadas en campo silvestre, en donde a las mismas se les aplican
estudios a travs del tiempo para conocer si stas son econmicamente explotable. Los investigadores,
desarrollan indicadores de tipo producto, considerando observaciones prdidas en el modelo, cuyos
estimadores resultantes son analizados y evaluados para conocer el grado de confiabilidad que tienen, en este
tipo de poblacin de estudio donde los aos de vida, el rea sembrada, el nmero de lneas y su altura, que
tienen las plantas son fundamentales.

El Captulo Nueve, investigadores de Espaa hacen un estudio de la Salud del pas colombiano, presentan una
investigacin de las desigualdades en salud que existen en ese pas de Colombia, principalmente a los ndices
de mortalidad que se dan en la poblacin infantil dentro del primer da de nacido, durante la primer semana y
su primer ao de alumbramiento, tomando en cuenta la estructura socioeconmica que guarda esa poblacin
sudamericana. Los investigadores para explicar este fenmeno construyen una poblacin ordenada por
regiones segn el nivel socioeconmico, a travs de valores cuantitativos, mismos que se les aplican de
tcnicas concretas de anlisis como la curva de Lorenz, los ndices de Gini y Theil, el coeficiente de Atkinson,
o el Slope Index of inquality, que les permitan explicar la informacin socioeconmica y la del entorno social
analizado como una combinacin de factores que expliquen el comportamiento de las diferentes variables
analizadas

El Captulo Diez, muestra un estudio sobre los Factores de riesgo por trastornos hipertensos y hemorragias
durante el embarazo en el estado de Guerrero, del Pas Mexicano, que investigadores de la Universidad
Autnoma de Guerrero, realizan a mujeres cuyo embarazo, parto y puerperio, presentan un alto riesgo de
enfermarse o que las lleve desgraciadamente hasta la muerte. Debido desde luego, a la desatencin y por la
pobreza que aqueja al Estado de Guerrero en donde de acuerdo con cifras oficiales existe todava un alto
ndice de mujeres con complicaciones y riesgo de morir en esta etapa de su realizacin como mujer, ello,
coloca al Estado de Guerrero en los primeros lugares a nivel nacional sobre esta problemtica de la salud,
donde los investigadores para explicarlo, realizan anlisis de factoriales de correspondencia y aplicando
regresin logstica para describir estas relaciones entre el padecimiento de hipertensin y los factores de
riesgo.

El Captulo Once los autores presentan un trabajo relacionado con los sistemas expertos, que son el tipo ms
comn de los sistemas de inteligencia artificial para la rutina clnica. El objetivo del trabajo es detectar

vii
diversos tipos de cncer como son: cncer de colon, cncer de mama y cncer crvico uterino. La codificacin
del conocimiento se realiza mediante reglas. El sistema experto es el resultado de la experiencia de expertos
humanos que laboran en diversos hospitales de Mxico y de las guas de prcticas clnicas de la Secretara de
Salud, que ayudan en el fortalecimiento de la toma de decisiones clnicas. El sistema desarrollado est
implementado en el lenguaje de programacin Swi-Prolog y los resultados se validan con la ayuda de
expertos humanos.

El Captulo Doce trata la problemtica de la incertidumbre como un elemento inherente a todo modelo
estadstico y vinculado a ella est el tema de seleccin de modelo. En este trabajo los autores presentan un
procedimiento para la seleccin de modelos en presencia de incertidumbre llamado BMA (Bayesian Model
Averaging) aplicado a regresin logstica, propuesto por Raftery(1995). Para la implementacin en R, se
retoman las ideas de Raftery, Painter y Volinsky(2005), as como Saminni y Parmeter(2011), dicho
procedimiento es utilizado para hacer el anlisis del estudio sobre el estado cognitivo de los adultos mayores
en Guerrero, Mxico. Se propone el BMA como una alternativa para tomar en cuenta la incertidumbre de los
modelos en este tipo de estudios.

El Captulo Trece presenta un anlisis de supervivencia de una muestra de 119 pacientes con cncer de cerviz,
que fueron atendidos en la unidad oncolgica del HJG de Villahermosa, Tabasco, Mxico. Todos los
pacientes reciben un tratamiento con radioterapia o quimioterapia, y fueron seguidos desde el diagnostico
hasta la ltima visita o hasta que ocurre la recada o la muerte por el cncer. Los pacientes que abandonaron el
estudio o murieron por otras causas diferentes al cncer, tiene un tiempo de supervivencia parcial y fueron
definidos como pacientes censurados. Los autores presentan un anlisis del tiempo de supervivencia libre de
enfermedad (tiempo hasta la recada del cncer); y el tiempo total de supervivencia (tiempo hasta la muerte
por cncer). Un anlisis de supervivencia no paramtrico es realizado a estos datos para evaluar la eficiencia
del tratamiento e identificar grupos de pacientes con supervivencia similar respecto de las caractersticas del
cncer. Un anlisis semiparametrico es aplicado para identificar los factores de riesgo estadsticamente
significativos, tales como, tipo del tumor, estadio, histologa, tratamiento, edad, entre otros, al igual que un
anlisis Paramtrico. Los resultados preliminares para el tiempo libre de enfermedad, muestran que existe un
grupo bien definido de pacientes que tiene a la etapa del tumor como factor de riesgo altamente significativo.
Similarmente ocurre para el tiempo global de supervivencia, en adicin de la proctitis como factor de riesgo.
Los pacientes que tienen peor pronsticos son los que presentan algunas de las siguientes caractersticas:
tumor en un estadio IIIB, proctitis presente.

El Captulo Catorce aborda el problema del tratamiento de preguntas difciles o delicadas de cuestionarios y
se propone la utilizacin de la respuesta aleatoria y las tcnicas de preguntas indirectas, que tienen como
objetivo mantener la privacidad de los encuestados. Los autores afirman que a la hora de realizar encuestas, el
inters frecuentemente se centra en aspectos sensibles o confidenciales para las personas entrevistadas, por lo
que muchas de ellas no contestarn verazmente o simplemente se negarn a responder. Afirman tambin que,
mediante esta nueva tcnica se obtienen estimadores que son ms precisos en comparacin a respuesta
directa. Para mostrar esta tcnica, realizaron una encuesta al alumnado de la Universidad de Granada
mediante el modelo U, implementando en R las frmulas indicadas para concluir los resultados.

Finalmente, del contenido de este libro, se observa la precisin con que fueron seleccionados los temas que se
desarrollaron con sus principales aspectos tericos-metodolgicos que sustentan cada uno de sus resultados,
razones suficientes para calificar estos trabajos de investigacin que aqu se dilucidaron, como una excelente
obra sin dejar duda alguna al respecto, sin embargo, sern los lectores quienes den su aprobacin final y
galardonen el esfuerzo realizado por este colectivos de investigadores con prestigio internacional.

WA Wtux| Tzt _x
Subsecretario de planeacin de la Secretara de Turismo Municipal y
Profesor Investigador de la Unidad Acadmica de Turismo de la UAGro.

viii
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 1-13

Vt D
SOBRE EL USO DE UN ALGORITMO HBRIDO PARA LA
REGULACIN PTIMA DE LOS SEMFOROS DE UN CRUCE EN A
CORUA Y SU IMPACTO MEDIOAMBIENTAL
L. Pedreira*, C. Lema*, A. Villamil Serrano**, G. Bouza Allende***
y S. Allende Alonso***
* Dpto. Economa Aplicada II, Universidade da Corua
**Dpto. Poltica Econmica y Estructura Econmica Mundial, Universidad de Barcelona
***Dpto. Matemtica Aplicada, Universidad de La Habana
RESUMEN
El objetivo de este trabajo es resolver un problema de control ptimo que consiste en asignar tiempos a las luces de los ocho
semforos (seis fases en cada ciclo) que regulan un cruce de dos calles con los dos sentidos de circulacin (con dos o ms
carriles en cada sentido) situado en la ciudad de a Corua en el que existen frecuentes embotellamientos, con el fin de conseguir
disminuir el largo de las colas, los tiempos de espera, el consumo de carburantes y la contaminacin ambiental. El criterio de
comparacin se expresa en una funcin objetivo a minimizar que puede ser: longitud media de las colas, cantidad de vehculos
en el peor de los casos, tiempo medio de espera, una combinacin de las anteriores, entre otras posibilidades. As obtenemos un
modelo tipo problema de optimizacin con restricciones de complementariedad lineal. Para su solucin, proponemos usar un
mtodo hbrido que combina una heurstica, basada en la metaheurstica de recocido simulado con un algoritmo quasi-newton
para problemas de optimizacin no suaves.

ABSTRACT

The objective of this paper is to solve the problem of finding the switch times of eight traffic lights (six phases in each cycle)
that regulate an intersection of two two-ways streets (with two or more lanes in each direction) in the city of Corunna which
suffer from frequent congestions, in order to reduce the length of the queues, waiting times, fuel consumption and environmental
pollution. The criterion used for comparison is shown by minimizing the objective function which can be by: the average length
of the queues, the number of vehicles at the worst queue, average waiting time, a combination. The resulting model is an
optimization problem with linear complementarity constraints. In order to solve it, we propose a hybrid solution strategy where
an approximation to the solution is computed by means of a simulated annealing algorithm and then it is improved by a quasi-
Newton method for non-smooth optimization problems.

KEYWORDS: fuel consumption, environmental pollution, heuristic methods

1. INTRODUCCIN
En la actualidad, la mayor parte de las ciudades del mundo muestran serios problemas de congestin
de trfico en sus carreteras, provocados por la demanda de trnsito cada vez ms alta frente a la insuficiente
capacidad vial. Los efectos de esta congestin son el mayor consumo de combustible, mayores tiempos de
viaje, mayor contaminacin, entre otros. Se puede abordar esta problemtica desde diferentes perspectivas,
una de los cuales es la gestin de los semforos con el fin de tener una ptima capacidad de las vas. El
problema radica en hallar un sistema que controle estos semforos de manera adecuada, en especial en los
casos en los que las rutas se encuentran fuertemente congestionadas.

En este trabajo se proponen un modelo y un mtodo para encontrar un sistema de control ptimo para
los semforos que regulan un cruce con embotellamientos frecuentes en la ciudad de A Corua, haciendo uso
de una heurstica basada en la metaheurstica de recocido simulado y un algoritmo tipo quasi-Newton. Se
busca que tras la aplicacin del mtodo (para una gran cantidad de casos y bajo los sistemas de restriccin de
trnsito reales) se puedan obtener sucesiones de tiempos para las luces de los semforos que permitan que
stos funcionen de manera coordinada y que rebasen la interseccin un gran nmero de vehculos, llegando
as a reducir los tiempos de espera y el largo de las colas. Tambin se busca que el modelo propuesto sirva de
base para enfocar problemas similares y para crear mejores mtodos.

1
Por otro lado, queremos poner de relieve como, en la solucin de ese problema de control, subyace
una cuestin medioambiental relacionada con la necesidad de regular el trfico racionalmente, con el fin de
reducir las emisiones de gases de efecto invernadero. Como es bien sabido, stos generan impactos
medioambientales provocadores del cambio climtico cuyos efectos nocivos ya se dejan traslucir. Al hablar
de la regulacin del trfico estamos centrados en una parcela muy importante relacionada con el transporte en
general y, en concreto, al aludir a la coordinacin en el uso de los semforos, siguiendo las directrices de esta
investigacin, nos referimos a la necesidad de realizar revisiones en los proyectos de inversin aplicados a la
planificacin del transporte (tanto pblico como privado), cuestin sta que corresponde a las autoridades
pblicas.

Si de verdad queremos alcanzar una plena sostenibilidad en el transporte, hemos de someternos a tres
retos:

1. Que las emisiones de gases de efecto invernadero, producidas por el transporte, crezcan a un
ritmo inferior al crecimiento del Producto Interior Bruto.
2. Aplicar unas tecnologas verdes al transporte que supongan una ayuda a la disminucin de
gases y ruidos.
3. Reducir los costes externos del transporte que, a travs de los impactos medioambientales,
originan accidentes, atascos, congestin del trfico, ruidos e incluso, desde el punto de vista de la salud
pblica, una disminucin de las enfermedades crnicas por exposicin a la contaminacin atmosfrica
(partculas en suspensin, etc.).
Por ello, la implantacin del sistema de regulacin de semforos que proponemos, ha de constituir
uno de los instrumentos que, unindose a otros, sirvan para mitigar las deseconomas externas que el trfico
rodado y su mala regulacin generan sobre el cambio climtico.

Los resultados estn organizados as: en la prxima seccin se presenta una descripcin del cruce de
la avenida de Arteixo con la Ronda de Outeiro en la ciudad de A Corua (nmero de carriles y de semforos,
sentidos de circulacin, etc.), se hace hincapi en los motivos que provocan las retenciones de trfico
(proximidad de centros comerciales, polgonos industriales, vas de acceso y salida de la ciudad, doble fila,
pasos de peatones, etc.) y en la regulacin de los semforos fijada por las autoridades de trfico. A
continuacin se expone un modelo matemtico para dicho problema en el cual los tiempos de las luces son
variables, pero slo dependen de los flujos de llegada, anlogo al formulado en [Pedreira, L. et al. (2012)]
como variante del de [de Schutter, B. and de Moor, B. (1998)] pero para seis fases en cada ciclo. En la
siguiente se detalla nuestra propuesta de solucin: un algoritmo hbrido que combina una heurstica basada en
la metaheurstica de recocido simulado con un algoritmo tipo quasi-Newton para problemas de optimizacin
no suaves. A continuacin se muestran algunos resultados numricos obtenidos mediante la programacin con
MATLAB de dicha estrategia y se comparan con los resultados que se dan en la realidad mediante la
regulacin diseada por las autoridades de trfico y para finalizar se enumeran algunas conclusiones y lneas
futuras de investigacin.

2. CRUCE DE LA AVENIDA DE ARTEIXO CON LA RONDA DE OUTEIRO EN


LA CIUDAD DE A CORUA
El cruce de la avenida de Arteixo con la ronda de Outeiro de la ciudad de A Corua (ver figura 1) es
una interseccin a la que confluyen dos calles, ambas doble va (con 2, 3 4 carriles en cada sentido de
circulacin) en las que se puede circular de frente, girar a derecha e izquierda. En cada sentido, antes de
rebasar el cruce hay dos semforos, por tanto es un cruce con ocho semforos. Los semforos T1, T3, T5 y T7
permiten seguir de frente o girar a la derecha, y los semforos T2, T4, T6 y T8 slo permiten girar a la
izquierda. Con nuestro modelo y algoritmo solucin se quieren hallar los perodos en que deben permanecer
en verde o rojo las luces de los semforos Ti, i=1,, 8 para evitar la congestin de las vas, descrita por el
nmero de vehculos en espera (longitud de la cola) en cada va (se consideran las longitudes de las colas
como variables continuas). Para ello se usan distintos criterios: la suma de las longitudes medias de las colas
de cada va, longitud de la cola ms larga, tiempo medio de espera o una combinacin de ellas. Basndonos

2
en la coordinacin de los semforos establecida por las autoridades de trfico (a ciclo fijo), hemos de modelar
y resolver un problema que en cada ciclo tiene seis fases:

Figura 1
En la primera fase (ver figura 2) los semforos T1 y T2 situados en la Ronda de Outeiro estn en
verde (los dems semforos estn en rojo), por tanto los vehculos que circulan por dicha Ronda (por los
carriles L1, L1 y L2), rebasan el cruce siguiendo de frente o giran a la derecha o a la izquierda hacia la
avenida de Arteixo.

Figura 2 Figura 3

En la segunda fase (ver figura 3) el semforo T1 sigue en verde (T2 ha cambiado de verde a rojo),
por tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan
por los carriles L1 y L1. T3 cambia de rojo a verde, permitiendo a los vehculos situados en los carriles L3
y L3 iniciar la marcha por la Ronda de Outeiro en sentido hacia la salida de la ciudad y a los situados en el
carril L3 girar a la derecha hacia la avenida de Arteixo.

En la tercera fase (ver figura 4) el semforo T3 sigue en verde (T1 ha cambiado de verde a rojo), por
tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan por
los carriles L3, L3 y L3. T4 cambia de rojo a verde, por tanto los vehculos que estaban esperando en el
carril L4 rebasan el cruce girando a la izquierda hacia la avenida de Arteixo.

3
Figura 4 Figura 5

En la cuarta fase (ver figura 5) los semforos T5 y T6 situados en la avenida de Arteixo cambian de
rojo a verde (T3 y T4 cambian de verde a rojo), por tanto los vehculos que circulan por dicha avenida (por los
carriles L5, L5 y L6) rebasan el cruce siguiendo de frente o giran a la derecha o a la izquierda hacia la Ronda
de Outeiro.

En la quinta fase (ver figura 6) el semforo T5 sigue en verde (T6 ha cambiado de verde a rojo), por
tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan por
los carriles L5 y L5. T7 cambia de rojo a verde, permitiendo a los vehculos situados en los carriles L7 y
L7 iniciar la marcha por la avenida de Arteixo en sentido hacia el centro de la ciudad, o girar a la derecha
hacia la Ronda de Outeiro.

Figura 6 Figura 7

En la sexta fase (ver figura 7) el semforo T7 sigue en verde (T5 ha cambiado de verde a rojo), por
tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan por
los carriles L7 y L7. T8 cambia de rojo a verde, por tanto los vehculos que estaban esperando en el carril L8
rebasan el cruce girando a la izquierda hacia la Ronda de Outeiro.

Los tiempos de luz verde que rigen los semforos de la interseccin son: para los semforos T2, T4,
T6 y T8 que permiten el giro a la izquierda es de 10s, para los semforos T1 y T3 que permiten la circulacin
por la Ronda de Outeiro o giro a la derecha, es de 40s y para los semforos T5 y T7 que permiten la
circulacin por la avenida de Arteixo o giro a la derecha es de 25s. Por tanto la duracin de las fases es:
primera fase 10s, segunda fase 30s, tercera fase 10s, cuarta fase 10s, quinta fase 15s y sexta fase 10s. Como

4
consecuencia la duracin del ciclo completo es de 85s, tiempo que est segn se indica en [Snchez-Toscano
Barbero, J.] dentro del rango que se acomoda a la mentalidad del conductor.

Los embotellamientos en este cruce son debidos a que se trata de una interseccin con mucha
densidad de circulacin durante todo el da y fundamentalmente en horas punta, ya que absorbe el trfico de
entrada y salida de la ciudad en dos direcciones diferentes y el trfico de entrada y salida de un polgono
industrial en donde se encuentra una de las superficies comerciales ms grandes de Espaa. Adems y debido
a la proximidad de viviendas, en muchas ocasiones hay coches en doble fila que provocan problemas en la
circulacin por los carriles situados a la derecha. Otros problemas surgen por la mala colocacin en las vas de
los vehculos que pretenden realizar un determinado movimiento al llegar al cruce. Debido a todo ello, se ha
podido observar que en ciertos intervalos de tiempo, se produce una pequea variacin en la duracin de las
fases, ya que, los vehculos que circulan por la Ronda de Outeiro lo hacen durante 50s y los que circulan por
la avenida de Arteixo, durante 40s. Por tanto la duracin del ciclo completo sera, en este caso, de 110s
tiempo que tambin est dentro del rango que se acomoda a la mentalidad del conductor [Snchez-Toscano
Barbero, J.].

3. MODELACIN DEL PROBLEMA


En esta seccin presentamos un modelo matemtico para el problema de control de trfico en un
cruce con las caractersticas del de la seccin anterior. Para que el modelo sea ms sencillo, sin prdida de
generalidad, se pueden considerar dos carriles en cada sentido de circulacin (uno para continuar de frente o
girar a la derecha y otro para girar hacia la izquierda), de ah que en las figuras 8, 9, 10, 11, 12 y 13 (que
representan los movimientos en cada una de las seis fases del ciclo) se nombren con subndice par (L2, L4, L6
y L8) los carriles por los que se circula para girar hacia la izquierda, y con subndice impar (L1, L3, L5 y L7)
los carriles por los que se circula de frente o se gira hacia la derecha.

Figura 8 Figura 9

Figura 10 Figura 11

5
Figura 12 Figura 13

El ciclo comienza al principio de las luces verde de los semforos T1 y T2 y acaba al final de sus
luces rojas.

Datos: N es el nmero de veces que los semforos tienen la luz verde (es un entero dado), amb es el
tiempo de duracin de la luz mbar (3s), min.verde,i, max.verde,i son (respectivamente) las cotas mnima y mxima
de duracin de la luz en la fase i; i=1, , 6, en cada ciclo.

Variables: Describimos el problema con las variables de control k, tiempo de duracin de la luz
verde en el k-simo cambio de luz (incluyendo el mbar), es decir, duracin de la k-sima fase y las variables
de estado xk=(xk1,xk2,xk3,xk4,xk5,xk6,xk7,xk8)t, cantidad promedio de vehculos en los carriles L1, L2, L3, L4, L5, L6,
L7, L8 en el momento del k-simo cambio de luz, es decir, al finalizar la k-sima fase, k = 1, , 6N.
Para cada carril Lj se definen las tasas medias de llegada y salida de los vehculos bajo las luces
verde y mbar y se denotan:
j : tasa media de llegada de vehculos en el carril Lj (dada en vehculos por segundo).
j : tasa media de salida en el carril Lj cuando el semforo est en verde.
j : tasa media de salida en el carril Lj cuando el semforo est en mbar.

Definimos (basndonos en [de Schutter, B. and de Moor, B. (1998)] pero considerando ocho carriles
y seis fases en cada ciclo) los vectores bi, i=1,, 18 que representan el nmero de vehculos en cada carril
teniendo en cuenta los movimientos asociados a cada fase:

1 1 1 1 1 1 1

2 2 2 2 2 2
3 3 3 3 3 3 3

4 4 4 4 4 4
b1 = ,b = ,b = ,b = ,b = ,
5 2 5 3 5 4 5 5 5 5 5

6 6 6 6 6 6

7
7 7 7 7 7

8 8 8 8 8

6
1 0 ( 1 1 ) amb 0
( )
2 2 2 amb 0 0
3 0 0 ( 3 3 ) amb

4 0 , 0 , ( 4 4 ) amb
b6 = , b7 = b8 = b9 = ,
5 0 0 0

6 0 0 0
0 0 0
7 7

8 8 0 0 0
0 0 0
0
0 0
0 0 0

0 , 0 , 0 ,
b10 = b11 = b12 =
0 ( 5 5 ) amb 0

( 6 6 ) amb 0 0
0 0 ( )
7 7 amb

0 0 ( 8 8 ) amb
0 max((1 1 ) amb ,0) 0
max(( ) ,0) 0 0
2 2 amb
0 0 max((3 3 ) amb ,0)

0 0 max((4 4 ) amb ,0)
b13 = , b14 = , b15 = ,
0 0 0

0 0 0
0 0 0

0 0 0
0 0 0
0
0 0
0 0 0

0 0 0
b16 = , b17 = , b18 =
0 max((5 5 ) amb ,0) 0

max((6 6 ) amb ,0) 0 0
0 0 max((7 7 ) amb ,0)

0 0 max((8 8 ) amb ,0)

Entonces:
x6k+1 = max(x6k+b16k+1+b7, b13) para k = 0, 1, , N-1,

x6k+2 = max(x6k+1+b26k+2+b8, b14) para k = 0, 1,, N-1,

7
x6k+3 = max(x6k+2+b36k+3+b9, b15) para k = 0, 1, , N-1,

x6k+4 = max(x6k+3+b46k+4+b10, b16) para k = 0, 1, , N-1,

x6k+5 = max(x6k+4+b56k+5+b11, b17) para k = 0, 1, , N-1,

x6k+6 = max(x6k+5+b66k+6+b12, b18) para k = 0, 1, , N-1,

ya que para calcular, por ejemplo, la cantidad promedio de vehculos en cada carril al final de la primera fase
de cada ciclo (x6k+1), hemos de usar los vectores b1, b7 y b13, pues en el carril L1 durante esa fase, la luz del
semforo T1 est en verde y por tanto slo hay llegadas y salidas con luz verde, mientras que en el carril L2
hay llegadas y salidas con luz verde y con luz mbar y en los dems carriles slo hay llegadas, pues los
respectivos semforos estn en rojo.
El problema de regulacin de los semforos puede representarse a travs del siguiente modelo
(basndonos en [Pedreira, L. et al (2012)] pero considerando seis fases en cada ciclo):

Minimizar J (1)
sujeto a:
min.verde,1 6k+1-amb max.verde,1 para k = 0, 1, , N-1, (2)
min.verde,2 6k+2-amb max.verde,2 para k = 0, 1, , N-1, (3)
min.verde,3 6k+3-amb max.verde,3 para k = 0, 1, , N-1, (4)

min.verde,4 6k+4-amb max.verde,4 para k = 0, 1, , N-1, (5)

min.verde,5 6k+5-amb max.verde,5 para k = 0, 1, , N-1, (6)

min.verde,6 6k+6-amb max.verde,6 para k = 0, 1, , N-1, (7)

x6k+1 = max(x6k+b16k+1+b7, b13) para k = 0, 1, , N-1, (8)

x6k+2 = max(x6k+1+b26k+2+b8, b14) para k = 0, 1, , N-1, (9)

x6k+3 = max(x6k+2+b36k+3+b9, b15) para k = 0, 1, , N-1, (10)

x6k+4 = max(x6k+3+b46k+4+b10, b16) para k = 0, 1, , N-1, (11)

x6k+5 = max(x6k+4+b56k+5+b11, b17) para k = 0, 1, , N-1, (12)

x6k+6 = max(x6k+5+b66k+6+b12, b18) para k = 0, 1, , N-1. (13)


La funcin J a minimizar puede ser:

Suma (ponderada) de las longitudes medias de las colas en todos los carriles
6N
8 xij i
J1= w j i =61N (14)
j =1
i
i =1

8
Longitud (ponderada) media de las colas en el carril con mayores colas
6N
xij i
i =1
J2=maxj w j 6N
(15)
i
i =1

Longitud (ponderada) de la cola ms larga

J3=maxi,j w j xij (16)

Suma (ponderada) de los tiempos medios de espera considerando las colas de


todos los carriles
6N
8 wj xij i
i =1
J4 = (17)
j =1 j
6N
i
i =1
Tiempo (ponderado) medio de espera en el carril con mayor tiempo de espera
6N

wj xij i
i =1
J5=maxj (18)
j 6N
i
i =1

donde wj>0 para todo j. Los factores peso wj se pueden usar para dar una importancia mayor o peso a
algunos carriles.
Se puede analizar una sexta opcin que consiste en considerar una combinacin de los criterios
anteriores. Esto nos lleva a un modelo multi-objetivo que podemos resolver tomando una combinacin
positiva de las distintas funciones objetivo.
5
J 6= i J i (19)
i =1

donde los valores i corresponden a los pesos que se les dan a los anteriores criterios.

Como consecuencia de lo anteriormente expuesto, conocido (vector de los tiempos de


cada luz), la cantidad de autos en cada carril queda determinado mediante las ecuaciones (8) (9) (10)
(11) (12) (13). Denotamos por x() la matriz de 6N filas y 8 columnas donde xij() indica la cantidad de
autos en el carril j en el momento del cambio de luz i.

Como habamos mencionado anteriormente, ya introducimos una aproximacin extra al considerar


las longitudes de cola continuas. Adems, en la prctica, hay tambin alguna incertidumbre y variacin en el
tiempo de las tasas de llegada y de salida, lo que hace recomendable obtener una buena aproximacin de la
solucin ptima que sea calculable en un tiempo corto y fcilmente ajustable a los cambios en los valores de
los parmetros.

De hecho [de Schutter, B. and de Moor, B. (1998)] se trata de un problema de optimizacin con
restricciones de complementariedad lineal (problema NP-duro), que involucra 54N variables, 12N
restricciones suaves y 48N no suaves, lo que hara muy costoso la aplicacin de un algoritmo iterativo [de
Schutter, B. (2002)].

9
4. PROPUESTA DE SOLUCIN
Debido a las dificultades arriba expuestas, se propone un mtodo hbrido de solucin. Este algoritmo
comienza buscando una buena aproximacin a la solucin mediante una heurstica basada en la
metaheurstica de recocido simulado y luego se mejora el comportamiento en una vecindad del punto
mediante un algoritmo quasi-Newton (mtodo del gradiente discreto) para funciones no suaves.
4.1. Mtodo heurstico basado en la metaheurstica de recocido simulado

Algoritmo de bsqueda por entornos con un criterio probabilstico de aceptacin de soluciones


basado en Termodinmica, que permite movimientos ascendentes para evitar quedar atrapado
prematuramente en un ptimo local.

El seudo-cdigo de este algoritmo para el problema de sincronizacin de semforos es:


0) Fijar t0>0 (temperatura inicial), 0<t<1 (variacin de la temperatura). Escoger Ji,
i=1,, 6, y construir F, funcin objetivo del problema. Q cantidad de pasos con igual temperatura. T
menor temperatura a alcanzar por el sistema.
1) Construir un vector 0 y la solucin x(0) asociada. Fmejor= F(x(0),0), mejor=0
temperatura t=t0, i=0.
2) Mientras t>T,
2.1) q = 1
2.2) Mientras q<Q
2.2.1) Tomar un punto vecino de i y hallar x(). Si F(x(),)<Fmejor,
i+1=, mejor= e ir a 2.2.4)
2.2.2) Generar r, nmero aleatorio de acuerdo a la ley uniforme en (0,1).
Fmejor - F(x( ), )
2.2.3) Si r<exp , i+1=, si no, i+1=i mejor=i+1 y construir la solucin x(i+1)
t

asociada.
2.2.4) q = q+1 e ir a 2.2)
2.3) t = t.t e ir a 2).
3) Mejor solucin mejor con valor de la funcin objetivo F(x(mejor),mejor). Fin

Se dice que es vecino de * si difieren en solo una componente y - * =1, es decir existe i tal
que i=*i 1 y j=*j para todo ji. En aras de mantener factibilidad se tiene en cuenta que el nuevo punto
cumpla las restricciones de acotacin en (2) - (3) -(4) - (5) - (6) - (7). Claramente las vecindades as definidas,
son un subconjunto discreto del conjunto de soluciones factibles, pero es una forma rpida de explorar
soluciones factibles.

4.2. Mtodo del gradiente discreto

Teniendo en cuenta las restricciones (8) - (9) - (10) - (11) - (12) - (13), podemos reducir el modelo
implcitamente y calcular los valores de las funciones involucradas y sus derivadas de forma iterativa. As
resolvemos el problema con un algoritmo determinstico tipo quasi-Newton para funciones no suaves
[Bagirov, A.M., Karaszen, B. y Sezer, M. (2008)]. La estrategia es:
1. Escoger un vector inicial 0 y la solucin x(0) asociada y k=0. Fijar sucesiones k,
k, k, k,, 0+, k y nmeros c1>c2>0.
2. Fijar s=0, k,s=k.
3. Buscar una direccin de descenso d, estimando F por el mtodo de gradiente
discreto [Bagirov, A.M., Karaszen, B. y Sezer, M. (2008)], con (, , , , c)=( k, k, k, k , c1).
4. Si |d| k , k+1=k,s , k=k+1 ir a 2
5. Sea s=argmax{ 0, F(k,s+ d/|d|)-F(k,s) -c2. |d|}.

10
6. k, s+1=k,s +s d/|d|.
7. s=s+1. Ir a 3.
La direccin de descenso se calcula de la siguiente manera
1. Fijar g, |g1|=1 y fijar e, vrtice del cubo unitario en IRn.
1
2. Calcular el gradiente discreto v1=i(,g1,e,,,). D={v1}, |gi|> k=1.
2n
3. Hallar wk=argmin{|w| / wD}
4. Si |wk| < fin
5. Hallar gk+1=wk/|wk|. Si F(,gk+1)-F() c|wk| fin.
1
6. Calcular el gradiente discreto vk+1=i(,gk+1, e, ,,), |gi|> D = D{vk} e ir
2n
a 3.
Es decir: se fija una direccin inicial, se calcula el gradiente discreto con respecto a dicha direccin
inicial, se halla la distancia entre el cono convexo de todos los gradientes discretos calculados y el origen. Si
la distancia es menor que la tolerancia, se acepta el punto como punto estacionario aproximado, en otro caso,
se calcula una nueva direccin de bsqueda y se comprueba si esta direccin es una direccin de descenso. Si
lo es se para, y ya tenemos calculada la direccin de descenso, en otro caso, se calcula otro gradiente discreto
en esta nueva direccin y se actualiza el cono convexo.
El gradiente discreto i(,g1,e,,,). se calcula componente a componente mediante un esquema de
diferencias dividas entre puntos consecutivos que difieren en j unidades en la componente j, a lo que se
agrega una combinacin de las componentes ji para la i-sima componente.

5. RESULTADOS COMPUTACIONALES
El algoritmo y mtodo de resolucin propuesto ha sido programado en MATLAB y se ha
implementado en un ordenador con procesador Intel Core i7, 950 que trabaja a 307 GHz.
Por mediciones directas -en el cruce de la Ronda de Outeiro con la avenida de Arteixo- en
observaciones de varios das durante diferentes momentos del da y principalmente durante el horario pico, se
estimaron las tasas de llegada y salida en los carriles, las cuales se recogen en la siguiente tabla:

Carriles 1 2 3 4 5 6 7 8
Tasa llegada () 0.35 0.1 0.4 0.09 0.26 0.09 0.35 0.1
Tasa salida verde () 1.05 0.7 1.1 0.6 1 0.7 1 0.6
Tasa salida mbar () 0.25 0.25 0.45 0.2 0.25 0.25 0.45 0.2

Se han considerado 5 ciclos (N = 5). En cuanto a las cotas del tiempo de las luces, se tomaron:
min.verde,i = 5s, para i = 1, 3, 4, 6; min.verde,2 = 20s; min.verde,5 = 10s; max.verde,i = 15s, para i = 1, 3, 4, 6;
max.verde,2 = 40s; max.verde,5 = 20s. amb = 3s. Solucin inicial: 0 = [10 30 10 10 15 10 10 30 10 10 15 10 10
30 10 10 15 10 10 30 10 10 15 10 10 30 10 10 15 10]. Todos los carriles son iguales, o sea, w = [1 1 1 1 1 1
1 1]. Todos los usuarios tienen el mismo peso, es decir i =1, i = 1, , 5. Temperatura inicial t0 =
100000000. t = 0.001. Nmero de iteraciones con igual temperatura Q = 20. Criterio de parada T < 0.0001.

11
Los resultados obtenidos al minimizar la funcin J3 aparecen en la tabla siguiente:

Promedio de vehculos en el momento del cambio de luz

Carriles L1 L2 L3 L4 L5 L6 L7 L8
Ciclo 1-1 fase 0 0 2 0.45 1.3 0.45 1.75 0.5
Ciclo 1-2 fase 0.3 1 0 1.35 3.9 1.35 5.25 1.5
Ciclo 1-3 fase 3.45 1.9 0 0 6.24 2.16 8.4 2.4
Ciclo 1-4 fase 5.2 2.4 2 0.45 2.54 0.46 10.15 2.9
Ciclo 1-5 fase 8 3.2 5.2 1.17 0.03 1.18 4.95 3.7
Ciclo 1-6 fase 11.15 4.1 8.8 1.98 2.37 2 0.75 0.4
Ciclo 2-1 fase 7.65 2.45 10.8 2.43 3.67 2.44 2.5 0.9
Ciclo 2-2 fase 0.3 3.85 1 3.69 7.31 3.7 7.4 2.3
Ciclo 2-3 fase 2.4 4.45 0 1.83 8.87 4.24 9.5 2.9
Ciclo 2-4 fase 5.55 5.35 3.6 2.64 2.2 0.1 12.65 3.8
Ciclo 2-5 fase 8.7 6.25 7.2 3.45 0.03 0.91 6.8 4.7
Ciclo 2-6 fase 12.9 7.45 12 4.53 3.15 2 0.65 0
Ciclo 3-1 fase 2.4 0 18 5.88 7.05 3.34 5.9 1.5
Ciclo 3-2 fase 0.3 1.7 6.1 7.4 11.47 4.87 11.85 3.2
Ciclo 3-3 fase 4.15 2.8 0.35 3 14.33 5.86 15.7 4.3
Ciclo 3-4 fase 9.75 4.4 6.75 4.4 2.49 0 21.3 5.9
Ciclo 3-5 fase 16 6.2 14 6 0.03 1.62 9.6 7.7
Ciclo 3-6 fase 22 7.9 20.75 7.59 4.45 3.15 0.2 0.4
Ciclo 4-1 fase 13.6 2.05 25.5 8.67 7.57 4.23 4.4 1.6
Ciclo 4-2 fase 2.7 4 12.25 10.38 12.5 6 11 3.5
Ciclo 4-3 fase 7.6 5.35 4.4 4.4 16.15 7.2 16 4.9
Ciclo 4-4 fase 10 6 7.2 5 11 4.28 18.4 5.6
Ciclo 4-5 fase 13.9 7.15 11.6 6 5 5.27 11.25 6.7
Ciclo 4-6 fase 17.75 8.25 16 7 8 6.26 5.75 2.4
Ciclo 5-1 fase 8.65 1.8 21.2 8.22 11.3 7.43 10.3 3.7
Ciclo 5-2 fase 0.3 3.4 10 9.6 15.48 8.87 15.9 5.3
Ciclo 5-3 fase 5.2 4.8 2.15 3.72 19.12 10.1 20.8 6.7
Ciclo 5-4 fase 8.7 5.8 6.15 4.62 11.7 5.38 24.3 7.7
Ciclo 5-5 fase 12.55 6.9 10.5 5.6 5.83 6.37 17.1 8.8
Ciclo 5-6 fase 17.1 8.2 15.7 6.78 9.2 7.54 10.35 3.5
En resumen, los resultados obtenidos al minimizar la funcin J3, en cuanto al largo (nmero de
vehculos) de la cola ms larga en cada carril son: L1 22, L2 8, L3 26, L4 10, L5 19, L6 10, L7 24
y L8 9. Los resultados obtenidos al minimizar la funcin J3 en cuanto al nmero mximo de vehculos en el
momento del cambio a luz roja en cada carril son: L1 3, L2 2, L3 4, L4 4, L5 6, L6 5, L7 6 y L8 3.

Teniendo en cuenta las caractersticas adversas del cruce, por varias razones podemos sentirnos
satisfechos con los resultados obtenidos con nuestro algoritmo, pues, segn se observa en la tabla anterior,
hay fases en las que rebasan la interseccin todos los vehculos que estn esperando y adems, estos
resultados mejoran a los que se obtienen en la realidad con la regulacin de los semforos a ciclo fijo
determinada por las autoridades de trfico, ya que, si nos basamos en las observaciones realizadas durante
horas punta, por ejemplo, en los carriles impares existen colas que superan los 30 vehculos, algunos de los
cuales han de esperar dos o tres ciclos para rebasar el cruce.

12
6. CONCLUSIONES Y LNEAS FUTURAS DE INVESTIGACIN
En este trabajo hemos estudiado un problema de control ptimo de semforos para un cruce de dos
calles con los dos sentidos de circulacin, con dos o ms carriles en cada sentido, regulado por ocho
semforos con seis fases en cada ciclo, situado en la ciudad de A Corua (Espaa), en el que existen
frecuentes embotellamientos por ser un cruce que absorbe el trfico de entrada y salida de la ciudad en dos
direcciones diferentes, y el trfico de entrada y salida de un polgono industrial y de una zona en donde se
encuentra una de las superficies comerciales ms grandes de Espaa.

Hemos presentado un modelo para dicho problema en el cual los tiempos de las luces son variables,
pero slo dependen de los flujos de llegada.

Hemos propuesto un mtodo hbrido de solucin que combina una heurstica basada en la
metaheurstica de recocido simulado con un algoritmo quasi-Newton (mtodo del gradiente discreto) para
funciones no suaves. Con l se obtienen valores para los perodos de luz verde que permitieron colas
sensiblemente ms cortas en horas crticas del cruce, con un tiempo computacional adecuado, si las
comparamos con las que se dan en la realidad mediante la regulacin de los semforos a ciclo fijo, diseada
por las autoridades de trfico. Para ello se usaron las tasas medias estimadas de llegada y salida de vehculos
en el cruce, obtenidas mediante observaciones directas durante diferentes das, principalmente en las horas
punta.

El modelo que hemos diseado y aplicado a la interseccin regulada, impregna a nuestra


investigacin de un carcter interdisciplinario al incorporar no slo referencias econmicas y sociales, sino
tambin los aspectos medioambientales que pretende resolver, como la congestin, la generacin de
accidentes, los ruidos y la contaminacin atmosfrica.

Corresponde a las autoridades pblicas basarse en esta investigacin para tomar decisiones en lo tocante a una
buena regulacin del trfico.

Las emisiones de gases de efecto invernadero que produce el transporte, han de crecer a un ritmo inferior al
crecimiento del Producto Interior Bruto.

En el futuro se tratar de seguir trabajando en dicha interseccin incluyendo en nuestro estudios diferencias
entre los distintos carriles, un mayor nmero de ciclos y en el caso del problema multiobjetivo, vectores peso
que ponderen ms un objetivo que otro.

Tambin se tratar de relatar y esbozar otras lneas de investigacin, como por ejemplo; el uso de otros
mtodos heursticos: colonias de hormigas, algoritmos genticos, etc. o extensin de la teora propuesta al
caso de las rotondas o de cruces concatenados.

REFERENCIAS

[1] BAGIROV, A.M., KARASZEN, B. y SEZER, M. (2008) Discrete gradient method: Derivative-free
method for non-smooth optimization, Journal of Optimization Theory and Applications, 137, 317-334.
[2] DE SCHUTTER, B. y DE MOOR, B. (1998) Optimal traffic light control for a single intersection.
European Journal of Control, 4, 260-276.
[3] DE SCHUTTER, B. (2002) Optimizing acyclic traffic signal switching sequences through an extended
linear complementarity problem formulation, European Journal of Operational Research, 139, 400-415.
[4] PEDREIRA, L. et al. (2012) Regulacin ptima de las fases de los semforos en un cruce e impacto
medioambiental. Anales de ASEPUMA n 20: 103, 103.1-103.22.
[5] SNCHEZ-TOSCANO BARBERO, J. (2003). Temario especfico ESTT-OEP 2005, tema 82. 1-19.

13
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 14-25

Vt E
MEDIDAS DE RIESGO CLSICAS Y BORROSAS. UNA
APLICACIN REAL
J. E. Vaquer Fernndez, A. Morales Martnez, G. M. Casas Cardoso, J. L. Morales Martnez y L.
Denoda Prez
Universidad Central de Las Villas

ABSTRACT
Risk measures are very important in Epidemiology. The classical relative risk and the odds ratio are widely used, but they do not
consider uncertainties and inaccuracies. This paper shows an alternative solution considering uncertainty and imprecision: the
relative fuzzy risk and the fuzzy odds ratio. The calculation of all measures was performed using r-Fuzzy software and it was
exemplified with data of patients with high cardiovascular risk from the city of Santa Clara, Cuba.

KEYWORDS: relative risk, odds ratio, fuzzy relative risk, fuzzy odds ratio

RESUMEN
El clculo de medidas de riesgo es muy importante en Epidemiologa. Tanto el riesgo relativo clsico, como la razn de
productos cruzados se utilizan ampliamente, sin considerar las fuentes de incertidumbres e imprecisiones asociadas. En este
trabajo se muestra una solucin alternativa que s tiene en cuenta estos aspectos: el riesgo relativo borroso y la razn de
productos cruzados borrosa. El clculo de todas las medidas se realiz con el software r-Fuzzy y se ejemplific con datos de
pacientes con alto riesgo cardiovascular en la ciudad de Santa Clara, Cuba.

1. INTRODUCCIN
La epidemiologa es la ciencia que estudia la distribucin, frecuencia y los factores relacionados con
las enfermedades. Ocupa un lugar en la interseccin entre las ciencias mdicas y las sociales y aplica
numerosos mtodos matemticos y computacionales al estudio de poblaciones enfermas.

La epidemiologa es la base de la medicina preventiva y una fuente de informacin fundamental para


la Salud Pblica. Es por ello que se persigue que los sistemas de salud amplen su nivel de vigilancia y de
respuesta ante posibles riesgos.
Esta ciencia se dedica al estudio y anlisis de los factores de riesgo que influyen en la aparicin,
presencia, frecuencia y distribucin de cualquier enfermedad en una comunidad humana, para averiguar sus
causas y difusin y conseguir la disminucin o desaparicin de aquella. Es decir, se ocupa desde el punto de
vista preventivo de los fenmenos de la masa en las enfermedades transmisibles y no transmisibles [1].

En epidemiologa es muy frecuente la necesidad de calcular la posibilidad de que un individuo que


presenta un determinado atributo tenga cierta enfermedad especfica. La medida epidemiolgica ms bsica
es la probabilidad condicional de que un individuo tenga la enfermedad dado que presenta dicho
atributo. Esa probabilidad es llamada riesgo de la enfermedad y el atributo factor de riesgo. Sin embargo este
riesgo no es suficiente para establecer la incidencia del factor de riesgo sobre la enfermedad. Por ello se
define el riesgo relativo (o razn de riesgo) como el cociente entre el riesgo de la enfermedad en el grupo
expuesto al factor de riesgo y el grupo no expuesto.

Por ejemplo, el grado de exposicin de una persona al humo del cigarro puede estimarse a partir del
consumo de cigarrillos por fumador, es decir mientras mayor sea el consumo de cigarros diarios, mayor ser
la exposicin. Sin embargo, la persona que no fuma es considerada no expuesta segn esta medida, lo que en
realidad no es totalmente cierto [2].
Debido a ejemplos como este, se puede concluir que la lgica booleana en el anlisis de riesgo no
siempre muestra los valores reales. Es por ello que surge la idea de modelar el grado de exposicin a un factor
de riesgo segn una funcin de pertenencia y la respuesta de enfermo o no atendiendo a otra funcin de
pertenencia, haciendo uso de la lgica borrosa.

14
La lgica borrosa estudia elementos de la lgica tradicional aplicados a valores borrosos. Los
elementos de un conjunto borroso son pares ordenados que indican el valor del elemento y su grado de
pertenencia a dicho conjunto. De esta manera puede manejar eficientemente la incertidumbre presente en la
estructura de un conjunto de datos. Los conjuntos borrosos fueron introducidos por primera vez en 1965, por
Zadeh [3], pero sus orgenes tienen hasta 2500 aos de antigedad [4].
La estadstica borrosa es una disciplina relativamente joven que persigue aplicar mtodos estadsticos
a datos borrosos y de esta forma aumentar su dominio de aplicabilidad [5].
La importancia del clculo de ndices de riesgos que tengan en cuenta estas incertidumbres e
imprecisiones dentro de la epidemiologia y especficamente el anlisis del riesgo de padecer enfermedades
constituye el problema cientfico que da origen al presente trabajo. Su objetivo general es calcular y comparar
entre s, ndices de riesgos clsicos y borrosos en pacientes de la ciudad de Santa Clara con ayuda del
software r-fuzzy implementado con estos fines [6].

El siguiente epgrafe describe los fundamentos matemticos esenciales de dos medidas de riesgo
clsico: el riesgo relativo y la razn de productos cruzados. Para ambos casos se describe su intervalo de
confianza y su interpretacin desde el punto de vista mdico. Posteriormente se enuncian y describen las
variantes borrosas de estas medidas, conocidas como riesgo relativo borroso y razn de productos cruzados
borrosa. A continuacin se muestra una aplicacin real con pacientes de la ciudad de Santa Clara. El trabajo
culmina con conclusiones y referencias bibliogrficas.

2. MEDIDAS CLSICAS DE RIESGO

El concepto de riesgo asume un papel importantsimo dentro de la epidemiologa moderna [7].


Resulta muy frecuentemente el inters de determinar la posibilidad de que un individuo con un determinado
atributo padezca una enfermedad especfica. La probabilidad condicional de que un individuo tenga la
enfermedad dado que presenta dicho atributo es llamada riesgo de la enfermedad y el atributo factor de
riesgo.

La definicin de riesgo est dada a un nivel individual, mientras que el estimador de riesgo se define
a nivel de poblacin. Un tipo de estimador de riesgo es la razn de riesgo o riesgo relativo (RR) que consiste
en la razn entre el riesgo en un grupo expuesto y el riesgo en un grupo no expuesto.

El riesgo relativo indica la presencia de una caracterstica o de un (unos) factor (factores) que
aumenta la probabilidad de consecuencias adversas y constituye una medida de probabilidad estadstica de
que en un futuro se produzca un acontecimiento por lo general no deseado.

Existen varios tipos de exposicin o factores de riesgo:


factor nutricional (una dieta rica en grasas).
un factor ambiental (radiacin, por ejemplo).
una caracterstica fisiolgica (un alto nivel de colesterol en sangre).
un factor de comportamiento (tabaquismo, alcoholismo).
una intervencin de salud pblica (vacuna).
2.1 Riesgo Relativo

Aunque el riesgo es una medida muy utilizada en la relacin entre el factor de riesgo y la
enfermedad, no es suficiente para determinar la importancia del factor de riesgo sobre el desarrollo de la
enfermedad. En muchos procedimientos en epidemiologa, se requiere un grupo de comparacin el cual suele
ser el grupo sin el factor de riesgo (los no expuestos). As, es posible definir el riesgo relativo (o razn de
riesgo) como el cociente entre el riesgo de la enfermedad en el grupo expuesto al factor de riesgo y el grupo
no expuesto.

El clculo del riesgo relativo es muy simple utilizando una tabla como la que se muestra a
continuacin:

15
Tabla 1. Tabla cruzada general de exposicin a una enfermedad contra un factor de riesgo
Estado de enfermedad Total
Factor de riesgo Enfermo No enfermo
Expuesto a b a+b
No expuesto c d c+d
Total a+c b+d n
A partir de la Tabla 1 se define el riesgo relativo (RR) como:

()
 = 
( 
)
(1)
donde ( + )representa el riesgo de enfermedad en los expuestos y ( + )el riesgo de enfermedad en
las personas no expuestas.

A partir de las expresiones:


 =    .( )
(2)
 =     .( )
(3)
   
Donde: (ln RR) = # +
  

(4)

se construye un intervalo de confianza (EI, ED) aproximado al 95% para el RR calculado.

El RR no siempre es una medida adecuada por ejemplo para los estudios caso-control no debe
calcularse, sin embargo es posible calcular para cualquier caso una medida indirecta del riesgo: la razn de
productos cruzados.

2.2 Razn de Productos Cruzados

La razn de productos cruzados (OR) calcula el nmero de veces que la respuesta ocurre por cada
vez que no ocurre. Si la respuesta ocurre con una probabilidad r y no ocurre con una probabilidad 1- r, la
medida odds de que ocurra dicha respuesta estar dada por:
% = &(1 &)
(5)

El odds se calcula tanto para el grupo de los expuestos como para los no expuestos. A partir de la
Tabla 1, el odds de enfermedad para los expuestos estar dado por a/b y para los no expuestos por c/d.
Entonces la razn de productos cruzados o razn de odds (OR) que compara el riesgo en expuestos y no
expuestos es:
 
) =

(6)

Para lograr un intervalo de confianza (EI, ED) aproximado al 95% para OR se emplean las siguientes
expresiones:
 =   *.( *) (7)
 =   *.( *) (8)
   
donde: (ln RR) = # + + + (9)
 

16
2.3 Interpretacin de las medidas clsicas

Al comparar el riesgo/odds de enfermedad entre expuestos y no expuestos para cierto factor de


riesgo, los resultados se interpretan de la siguiente forma:

Tabla 2.Interpretacin de RR y OR

RR OR Interpretacin
>1 >1 Asociacin (factor confiere riesgo)
No asociacin (factor no confiere riesgo ni
1 1
proteccin)
<1 <1 Asociacin (factor confiere proteccin)
asumiendo como hiptesis:
H0: RR = 1 H0: OR= 1
H1: RR 1 H1: OR 1

Para probar la hiptesis nula se puede analizar el intervalo de confianza (EI, ED) asociado. Si (EI,
ED) contiene a la unidad, no existen razones suficientes para rechazar la hiptesis fundamental, en caso
contrario, s se rechaza, teniendo en cuenta que:

Si (EI, ED) se encuentra a la derecha de la unidad, el factor se considera de riesgo.


Si (EI, ED) se encuentra a la izquierda de la unidad, el factor se considera
protector.

3. MEDIDAS DE RIESGO BORROSAS

Dos de los aspectos que contaminan normalmente la informacin en cualquier rea del saber, son la
imprecisin que tiene en su expresin y la incertidumbre que puede provocar la fuente que nos la
proporciona. Ciertas personas tienen suficiente habilidad para tomar decisiones correctas a partir de un
conjunto de datos que vienen expresados de forma vaga o imprecisa (borrosa), casi siempre utilizando
adjetivos o adverbios como mucho, poco, alto, bajo, normal, muy, entre otros. Tales personas pueden
controlar eficientemente un proceso tecnolgico, diagnosticar una enfermedad a partir de sndromes y
sntomas o tomar una decisin acertada en una determinada empresa e institucin. El ser humano se
desenvuelve con extraordinaria facilidad a la hora de manejar este tipo de informacin, sin embargo, cuesta
explicar que procedimientos sigue para ello [8]. En particular el diagnstico de enfermedades, implica mucha
incertidumbre. Una nica enfermedad se puede manifestar de manera diversa, en diferentes pacientes y con
distintos grados de severidad; estos efectos suelen generar muchas incertidumbres e imprecisiones que afectan
la interpretacin de los exmenes y diagnsticos. La teora de lgica borrosa ha sido desarrollada para lidiar
con el concepto de verdad parcial. Se considera una de las herramientas matemticas ms poderosas para
hacer frente a las incertidumbres, inexactitudes y verdades parciales, lo que permite la posibilidad del
tratamiento de problemas del mundo real, por ejemplo la deteccin del padecimiento de enfermedades como
las cardiovasculares, muchas veces con soluciones de bajo costo.

La matemtica de conjuntos borrosos que podra denominarse como clsica, se basa en la lgica
aristotlica fundamentada en el principio que muestra que una proposicin nicamente puede ser verdadera o
falsa (1,0 respectivamente) , pero no ambas cosas a la vez, es decir no existiendo ningn grado de verdad
intermedio. Como consecuencia de dicho principio, en la teora de conjuntos, para un subconjunto A definido
sobre un conjunto universo o referencial X, un elemento del universo pertenece o no pertenece a dicho
conjunto A, es decir, no existe ningn tipo de ambigedad sobre su pertenencia.

Matemticamente la pertenencia a un conjunto se expresa a travs de una funcin caracterstica


,- (.) que asigna valores a todos los elementos de A en el conjunto discreto {0,1}. Dicho valor es 0 cuando el
elemento no pertenece al conjunto y 1 cuando el elemento pertenece totalmente. Es decir, matemticamente la
funcin caracterstica viene dada por:

17
,- (.): 0 20,15
1 .8
. 0 ,- (.) = 7
0 .8
(10)

Un conjunto borroso es un conjunto para el cual la pertenencia de un elemento est definida de forma
borrosa. As, si se denomina X como al universo o conjunto referencial, un subconjunto borroso, que se
denotar de la siguiente manera A , es aquel en el que la pertenencia de un elemento x X tiene asignado
un nivel de verdad que puede tomar valores en el conjunto continuo [0,1]. El nivel de pertenencia de un
elemento x vendr dado por su funcin de pertenencia o funcin caracterstica A (x ) . Luego se puede
definir a un subconjunto borroso como 8 = 7;., ,- (.)< | x X? siendo la funcin de pertenencia:
,- (.): 0 @0,1A
. 0 ,- (.) @0,1A
(11)

Donde 0 indica la no pertenencia al conjunto A y 1 la pertenencia absoluta. Evidentemente, existe


una degradacin del nivel de pertenencia de forma que si ,- (.) = 0.9, el nivel de pertenencia del elemento x
es muy elevado, y si ,- (.) = 0.1 el nivel de pertenencia de x es muy bajo. As puede interpretarse como el
grado en que un elemento particular que se considera cumple con las especificaciones que definen a los
elementos del conjunto en cuestin y no debe interpretarse como la probabilidad de pertenencia. Si la
probabilidad de que un elemento x pertenece al conjunto A es de 0.9 y se afirma que x pertenece al conjunto
A , tenemos un 90 % de probabilidad de acertar, pero el elemento intrnsecamente pertenece o no pertenece a
A . Cuando se dice que la funcin de pertenencia de x es 0.9 se quiere decir que cumple en nuestro criterio
con el 90% de las caractersticas que definen los elementos del conjunto A . En resumen, la probabilidad
indica incertidumbre estadstica mientras que la funcin de pertenencia indica vaguedad y subjetividad.
Adems, se puede observar que un conjunto ordinario o crisp es un caso particular de un conjunto borroso,
para el cual nicamente se diferencian dos niveles de pertenencia: la pertenencia absoluta y la no pertenencia.

Un estudio en epidemiologia requiere que dos distinciones principalmente sean hechas una entre
quienes realmente estn expuestos a factores de riesgo que se estn analizando y quienes no y otra sobre
quienes realmente padecen o no la enfermedad. Estas distinciones estn sujetas a errores, prejuicios y
subjetividades. Dentro de las investigaciones en epidemiologia tambin aumenta su complejidad la necesidad
de analizar muchas variables independientes, determinar cmo interactan en un determinado conjunto estas
variables, medir el grado de exposicin a un factor determinado, etc. [2]

Por ejemplo la frecuencia de la hipertensin est relacionada con la edad y el sexo y estas variables
interactan entre s: antes de los 50 aos, los hombres son ms propensos a la hipertensin, pero despus de
50 aos, las mujeres son ms propensas [9].

Otra complicacin surge cuando se hace necesario establecer una estimacin de la gravedad de la
enfermedad estudiada [9].

Teniendo en cuenta todo esto se logra ver el tratamiento dicotmico de las variables utilizado por el
lgebra y la lgica booleana no siempre representa la realidad existente si est vinculado a la epidemiologa
[2].

Por todo esto en [2] se propone un nuevo enfoque para el estudio a travs de los conceptos borrosos.
Cada individuo ser considerado expuesto o no a un factor de riesgo de acuerdo con una determinada funcin
de pertenencia. Su categorizacin como enfermo o no se realizar de acuerdo con otra funcin de
pertenencia. A partir de esto, el anlisis de riesgo puede realizarse a travs de la aplicacin de la teora de
conjuntos difusos, lo que permite el clculo aproximado de la Razn de Riesgo Borrosa (FRR) y la Razn de
Probabilidad (FOR).

18
Como se mostr en los epgrafes anteriores el RR es un ndice de asociacin, siendo el riesgo de un
evento o el desarrollo de una enfermedad en relacin a la exposicin a un factor o factores determinados.
C(D | E)
RR =
C(D | E)

(12)
donde P(D | E) representa la probabilidad condicional de que alguien desarrolle la enfermedad, dado que haya
estado expuesto a los factores de riesgo y P(D | E)representa la probabilidad condicional de que alguien
desarrolle la enfermedad, dado que no haya estado expuesto a los factores de riesgo.

3.1 Riesgo relativo borroso

A partir de que el riesgo relativo se obtiene usando probabilidades condicionales se propone que el
riesgo borroso se defina en trminos de posibilidades relativas, donde la clasificacin de los individuos en
cuanto a la exposicin y su respuesta es decir el posible padecimiento de la enfermedad, sea borrosa.
(.) = ,- (.). 0
(13)
LM(N | O)
K =
LM(N | O)

(14)
Poss(A | B) = maxVW ;min (Z (x), [ (x))<
(15)
donde (x)es la distribucin de posibilidad y Z (x)la funcin de pertenencia y Poss(D | E) la posibilidad
relativa de desarrollar una enfermedad dado que se ha estado expuesto a un cierto factor de riesgo y Poss \D |
E] la posibilidad relativa de desarrollar una enfermedad dado que no se ha estado expuesto a al factor de
riesgo.

El estimador de riesgo RR es consecuentemente con el FRR, y evala la relacin de causalidad


considerando slo el grupo de pacientes. Una situacin ms general es propuesta por [10] que consider la
posibilidad terica de cuatro tipos de individuos:

1. Los individuos propensos a desarrollar la enfermedad, independientemente de ser


expuestos o no a los factores de riesgo.
2. Los individuos resistentes que nunca desarrollarn la enfermedad
independientemente de ser expuestos o no a los factores de riesgo.
3. Los individuos que estn protegidos, o sea que desarrollan la enfermedad si no
estn expuestos a las posibles causas de su proteccin.
4. Los individuos en riesgo, que son aquellos que solamente desarrollar si se
someten a los factores de sospecha.

Esta clasificacin supone un alto nivel de heterogeneidad en la poblacin e involucra varias


incertidumbres en la definicin de cada clase, tornndose por estas razones una propuesta ms interesante. La
siguiente tabla muestra los cuatro tipos y sus respectivas categoras.

Tabla 3. Tabla cruzada de expuestos (E) contra no expuestos (E)


E
D| E D| E
D| E Riesgo Sobre Riesgo
E
D|E Protegido Resistente

19
3.2 Razn de productos cruzados borrosa

El estimador de riesgo que considera las heterogeneidades descritas es la razn de probabilidades


(OR), que se define en trminos de probabilidades condicionales:
L(N | O).L(N | O)
) =
L(N | O).L(N | O)

(16)
Un enfoque borroso para OR debe considerar los grados de pertenencia para los individuos en cada
uno de los subconjuntos borrosos (expuestos y enfermos). El siguiente paso es considerar la posibilidad
relativa, en lugar de la probabilidad condicional para cada uno de los subconjuntos borrosos. Por lo tanto, el
estimador de riesgo Razn de Oportunidades (FOR) se puede definir de la siguiente manera:
L(N | O)L(N | O)
K) =
L(N | O)L(N | O)

(17)
donde el operador representa el operador de conjuncin se opera como el mnimo de los dos elementos.

La expresin anterior representa que los individuos que no desarrollan la enfermedad si no se


exponen y que desarrollan la enfermedad si se exponen, se clasifican como individuos en riesgo. Los que
desarrollan la enfermedad si no se exponen y no desarrollan la enfermedad si se exponen son clasificados
como protegidos. Los dems individuos, no contribuyen con informacin alguna acerca de la relacin causal.
Por lo tanto, la relacin entre los individuos en riesgo y protegidos debe proporcionar un buen estimador de
riesgo.

Considerando la incertidumbre acerca de los criterios de clasificacin el proceso de clasificacin y la


heterogeneidad de la poblacin, el enfoque difuso propuesto definir una asociacin entre la causa y el efecto
que depende del valor de la relacin expresada por la ecuacin anterior: es mayor que la unidad (en el caso de
una asociacin positiva) o menor que la unidad (en el caso de una asociacin negativa) [2].

4. CLCULO DE MEDIDAS DE RIESGO EN PACIENTES CON ALTO


RIESGO CARDIOVASCULAR
A continuacin se muestra la aplicacin del ndice de riesgo clsico, el borroso y la estimacin de la
edad de mximo riesgo a un problema real. Para ello se utilizaron datos suministrados por el proyecto
PROCDEC de la Universidad Central Marta Abreu de Las Villas. La muestra consta de un total de 849
pacientes de los cuales 220 son hipertensos, 219 son pre-hipertensos y 410 son normotensos. Se analiza una
seleccin de nueve variables empleadas en el diagnstico de alto riesgo cardiovascular. La Tabla 4 muestra
las caractersticas fundamentales de las variables aleatorias que son discretas y la Tabla 5 se refiere a las
continuas.

Tabla 4. Variables aleatorias discretas


Variables Valores Porcentajes
Raza Blanca 85.5
Mestiza 14.5
Riesgo cardiovascular Alto 4.8
(riesgo) No alto 95.2
Ingiere bebidas alcohlicas en S 50.7
demasa (bebe) No 49.3
Hbito de fumar S 38.7
(fuma) No 61.3

20
Riesgo, es la variable dependiente. Ella tiene dos categoras que son: Alto y No Alto. Cada caso fue
etiquetado por un Comit de Expertos del Proyecto PRODEC, compuestos por mdicos de diferentes
especialidades y de reconocido prestigio en Cuba. [11]. Para los especialistas pertenecientes a dicho Comit,
era interesante obtener un ndice de riesgo apropiado para el alto riesgo cardiovascular, es por ello que la
variable dependiente riesgo tiene slo dos valores posibles, diferenciando as los pacientes con alto riesgo, del
resto del grupo.
Estos datos se tomaron y se transformaron, en un fichero con extensin arff. Estos ficheros tienen la
siguiente estructura:

Tabla 5. Variables aleatorias continuas

Variable Mnimo Mximo


Edad 18 78
TA Sistlica basal 80 220
TA Diastlica basal 50 130
Glicemia 2.70 11.10
Colesterol total 88.94 421.50
Colesterol LDL 30.55 494.97

La primera lnea se especifica un nombre, que no tiene que coincidir con el del fichero:

@relation nombre_que_eligi

Luego se especifica el tipo para cada atributo, se emplea una lnea para cada atributo.

@attribute nombre_atributo_numrico NUMERIC


@attribute nombre_atributo_nominal { valor0, ..., valorn}

A continuacin se especifica la clusula @data y se comienza a especificar los valores de los datos,
para ello se colocan en el orden en el que se especific los nombres de los atributos con su tipo, se separan por
comas y cada lnea representa una persona.

Tabla 6. Cambios en el nombre, tipo y valores de los datos

Nombre de la Variable Identificador Tipo Valores


Raza raza nominal { 1, 2 }
Ingiere bebidas alcohlicas en
bebe numrico { 0, 1 }
demasa
Hbito de fumar fuma numrico { 0, 1 }
Edad edad numrico
TA Sistlica basal sistbas numrico
TA Diastlica basal diastbas numrico
Glicemia glicemia numrico
Colesterol total coltotal numrico
Colesterol LDL colesldl numrico
Riesgo riesgo nominal {1, 2 }

En la Tabla 6 se muestra el nuevo nombre, tipo y valores que recibe la variable en este fichero y se
construy adems el fichero txt con los lmites, segn se muestra en la Tabla 7.

21
Tabla 7. Tabla con los lmites para cada variable

Variable Lmite 1 Lmite2


bebe 0.5 0.5
fuma 0.5 0.5
edad 30 50
sistbas 140 180
diastbas 90 110
glicemia 3.3 6.6
coltotal 200 240
colesldl 130 160

Se confeccion un software que se compone de la interfaz de usuario r-Fuzzy.jar y la biblioteca


riesgo.jar que provee los mtodos que realizan las funcionalidades propias del sistema [6]. La herramienta
permite al usuario la obtencin de medidas relacionadas con el riesgo en sus dos formas clsico y borroso; as
como estimar la edad en la que existe mximo riesgo de presentar un enfermedad determinada, todo esto con
una utilidad fundamental en la Epidemiologa. Adems se obtiene algunos estadsticos los datos de tipo
numrico como mximo, mnimo, media, amplitud y desviacin estndar mientras que para las variables
nominales se obtiene la frecuencia y el porcentaje.

A continuacin se muestra los resultados obtenidos con ayuda del r-Fuzzy para estos datos.
Primeramente se muestra una tabla con los valores para el riesgo clsico de todas las variables numricas.

A partir de la tabla 8 se puede concluir que para todas las variables ambos valores de RR y OR son
mayores que la unidad, lo que indica que todas ellas constituyen factores de riesgo.

Al analizar todas las variables, exceptuando las relacionadas con el colesterol, se observa que el
extremo izquierdo de su intervalo de confianza es superior a la unidad, corroborando as la afirmacin
anterior: estas variables constituyen factores de riesgo.

Por su parte, el intervalo de confianza asociado a las variables coltotal y colesldl contiene a la
unidad, luego esas son variables dudosas en cuanto a su relacin directa con el riesgo cardiovascular. Debe
aclararse que estos resultados no son concluyentes, con ellos slo se pretende ejemplificar. Para llegar a
conclusiones ms certeras debe aumentarse el tamao de la muestra y realizar estudios ms complejos.

Tabla 8. Tabla con los resultados relacionados con el riesgo clsico

Variable R EI para RR ED para RR R EI para OR ED para OR Expuesto Enfermos anos


edad 42,77 13,347 137,031 52,94 16,132 173,73 S 38 156
No 3 652
bebe 2,217 1,202 4,09 2,31 1,214 4,395 S 25 326
No 16 482
fuma 6,105 3,334 11,179 6,968 3,629 13,379 S 25 148
No 16 660
sistbas 22,26 16,317 30,376 S 3 0
No 38 808
diastbas 9,496 3,822 23,594 15,868 3,429 73,425 S 3 4
No 8 804
glicemia 7,674 3,941 14,943 10,64 4,314 26,241 S 8 18
No 33 790
coltotal 1,817 0,914 3,614 1,886 0,901 3,95 S 10 118
No 31 690
colesldl 1,422 0,712 2,839 1,451 0,696 3,025 S 10 147
No 31 661

22
Para la variable sistbas no se pudo calcular el valor de OR pero segn sus valores de RR y su
intervalo de confianza se puede decir que es un factor que confiere riesgo.

A continuacin se muestra una tabla con los resultados asociados al riesgo borroso para todas las
variables numricas.
Tabla 9.Resultados relacionados con el riesgo borroso
No Variable FRR FOR B
1 edad 1,053 1,053 0,201
2 1,326 2,359 5,254
3 0,4 0,4 -6,806
4 bebe 1,998 412,593 6,714
5 1,89 9,069 2,841
6 1,959 24,606 3,876
7 fuma 1,996 223,816 6,102
8 0,03 0,03 -4,198
9 0,835 0,835 -0,334
10 sistbas 1,328 2,46 5,464
11 1,419 1,769 2,484
12 0,992 0,992 -0,03
13 diastbas 1,328 2,5 5,545
14 0,576 0,576 -2,588
15 0,5 0,5 -3,494
16 glicemia 0,942 0,942 -0,24
17 0,424 0,424 -5,875
18 1,354 1,833 3,339
19 coltotal 0,534 0,534 -3,182
20 1,281 2,751 6,827
21 0,634 0,634 -1,889
22 colesldl 0,834 0,834 -0,792
23 0,434 0,434 -5,516
24 0,434 0,434 -5,617

La figura 1 muestra la relacin que existe entre los valores de beta y el riesgo borroso. Observe que
para valores de beta menores de cero, el riesgo es menor que la unidad, mientras que para valores positivos de
beta, el riesgo supera a la unidad.

Figura 1. Estimador del riesgo borroso para la variable edad

23
A continuacin se presenta una tabla que permite la comparacin entre los resultados clsicos y
borrosos para las variables, se debe tener en cuenta que en los valores borrosos, se calcula para cada variable
un valor por cada beta y segn el valor de beta puede existir variacin en los valores.

En este epgrafe se mostraron los resultados obtenidos al aplicar las variantes clsicas y borrosas para
calcular ndices de riesgo a pacientes cardiovasculares de la ciudad de Santa Clara. Adems se puede observar
que el OR no se pudo calcular en el caso de la variante clsica en la variable sistbas sin embargo por la
variante borrosa este valor si se pudo mostrar lo que evidencia de alguna manera que utilizando esta variante
siempre podremos tener un valor para el riesgo y que este nos ayudara a tener una mejor perspectiva de los
efectos de este factor.

5. CONCLUSIONES
El clculo de medidas de riesgo es de gran importancia en Epidemiologa. En particular el riesgo
relativo clsico y la razn de productos cruzados se utilizan ampliamente, sin considerar las fuentes de
incertidumbres e imprecisiones que se asocian siempre a problemas mdicos. En este trabajo se muestran dos
alternativas viables: el riesgo relativo borroso y la razn de productos cruzados borrosa. El software r-Fuzzy
permite realizar los clculos de manera cmoda y rpida.
Las alternativas analizadas se utilizaron en una aplicacin real: el estudio de pacientes con elevado
riesgo cardiovascular de la ciudad de Santa Clara. A cada una de las variables involucradas en el estudio se
les calcul siempre que fue posible, el riesgo relativo y la razn de productos cruzados. Posteriormente se
obtuvieron estas medidas en sus variantes borrosas para todos los casos. Se realiz una comparacin entre los
resultados finales obtenidos y se puso de manifiesto la superioridad de los mtodos borrosos.

Tabla 10. Resultados de RR, OR, FRR, FOR

No Variable RR OR FRR FOR


1 edad 42,77 52,94 1,053 1,053
2 1,326 2,359
3 0,4 0,4
4 bebe 2,217 2,31 1,998 412,593
5 1,89 9,069
6 1,959 24,606
7 fuma 6,105 6,968 1,996 223,816
8 0,03 0,03
9 0,835 0,835
10 sistbas 22,26 1,328 2,46
11 1,419 1,769
12 0,992 0,992
13 diastbas 9,496 15,868 1,328 2,5
14 0,576 0,576
15 0,5 0,5
16 glicemia 7,674 10,64 0,942 0,942
17 0,424 0,424
18 1,354 1,833
19 coltotal 1,817 1,886 0,534 0,534
20 1,281 2,751
21 0,634 0,634
22 colesldl 1,422 1,451 0,834 0,834
23 0,434 0,434
24 0,434 0,434

24
REFERENCIAS
[1] GMEZ, A. (2008), ndice de alto riesgo cardiovascular para el municipio de Santa Clara.,
in Facultad Matemtica, Fsica y Computcin. 2008, Universidad Central "Marta Abreu" de Las
Villas: Santa Clara.
[2] SIQUEIRA, N.R. (2001), Aplicaao da Teoria de Conjuntos Fuzzy a Problemas da
Biomedicina in Instituto de Fsica 2001, Universidad de San Paulo: San Paulo.
[3] ZADEH, L.A. (1965) Fuzzy Sets. Information and Control, 8, 15.
[4] DENODA, L. (2011), Sistema para el anlisis de tcnicas descriptivas y regresin borrosa.
Aplicaciones, in Facultad Matemtica, Fsica y Computacin. 2011, Universidad Central Marta
Abreu de Las Villas. .
[5] NGUYEN, H.T. and B. WU. (2006) Fundamentals of Statistics with Fuzzy Data, ed. S.B.h.N.
York.
[6] GONZLEZ PREZ, D. (2013), Sistema informtico para calcular medidas de riesgo
borroso., in Facultad Matemtica, Fsica y Computacin. 2013, Universidad Central Marta Abreu
de Las Villas: Santa Clara.
[7] ROTHMAN, K.J. (1986), Modern Epidemiology. Lippincott-Raven, EUA.
[8] CALVIO, M. (2003) Aclarando la Lgica borrosa (Fuzzy Logic). Revista Cubana de Fsica,
20, 5.
[9] JEKEL J.F., K.D.L., ELMOREY, J.G. (1996), Epidemiologia, Bioestatstica e Medicina
Preventiva. Artmed, Porto Alegre.
[10] GREENLAND, S. (1987) Interpretation and choice of eect measures in epidemiologic
analysis. American Journal of Epidemiology, 125, 761-768.
[11] GONZLEZ, E. (2005), Proyeccin del Centro de Desarrollo Electrnico hacia la
Comunidad (PROCDEC). 2005, Universidad Central de Las Villas.: Santa Clara.

25
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 26-33

Vt F
ESTIMACIN DE LA EXACTITUD DE UN TEST BINARIO EN
PRESENCIA DE DATOS FALTANTES IGNORABLES
M. . Montero Alonso, J. A. Roldn Nofuentes
Bioestadstica, Departamento de Estadstica e Investigacin Operativa, Facultad de Medicina, Universidad de
Granada, 18071, Espaa.

ABSTRACT
Sensitivity and specificity are fundamental parameters to assess the accuracy of a binary diagnostic test. In the presence of
partial disease verification, sensitivity and specificity cannot be estimated by applying estimation methods for binomial
proportions. In this study, we present different confidence intervals for the sensitivity and specificity of a binary diagnostic test
when in the presence of partial disease verification the missing data mechanism is ignorable. The different methods of estimation
are illustrated with an example.

KEYWORDS: sensitivity , specificity, missing data

RESUMEN
La sensibilidad y la especificidad son los parmetros fundamentales para evaluar la exactitud de un test diagnstico binario. En
presencia de verificacin parcial de la enfermedad, la sensibilidad y la especificidad no se pueden estimar aplicando mtodos de
estimacin de proporciones binomiales. En este trabajo se presentan los distintos intervalos de confianza para la sensibilidad y la
especificidad de un test diagnstico binario cuando en presencia de verificacin parcial de la enfermedad el mecanismo de datos
faltantes es ignorable. Los distintos mtodos de estimacin se ilustran con un ejemplo.

1. INTRODUCCIN
La constante evolucin de la Medicina en estas ltimas dcadas ha hecho que la Estadstica
desarrolle nuevos mtodos para resolver los nuevos problemas que se han ido planteando, siendo los mtodos
estadsticos para el diagnstico un tpico de especial relevancia. Un mtodo de diagnstico, tambin
denominado test diagnstico, es una prueba mdica que se aplica a un paciente para determinar la presencia o
ausencia de una cierta enfermedad. La mamografa para el diagnstico del cncer de mama y la prueba de
esfuerzo para el diagnstico de la enfermedad coronaria son dos ejemplos de tests diagnsticos. Cuando el
resultado de un test diagnstico es positivo (indicando la presencia provisional de la enfermedad) o negativo
(indicando la ausencia provisional de la enfermedad), dicho test se denomina test diagnstico binario y su
exactitud se mide en trminos de dos parmetros, la sensibilidad y la especificidad. La sensibilidad ( Se ) es la
probabilidad de un resultado positivo del test diagnstico cuando el individuo tiene la enfermedad, y la
especificidad ( Sp ) es la probabilidad de un resultado negativo del test diagnstico cuando el individuo no
tiene la enfermedad. La sensibilidad y la especificidad de un test binario dependen nicamente de la habilidad
intrnseca del test diagnstico para distinguir individuos enfermos y no enfermos; es decir, dependen de las
bases fsicas, qumicas, biolgicas con las que se ha desarrollado el test diagnstico. Para obtener los
estimadores insesgados de la sensibilidad y de la especificidad de un test binario es necesario conocer el
verdadero estado de enfermedad (presente o ausente) de cada individuo de una muestra aleatoria. La prueba
mediante la cual se conoce el verdadero estado de enfermedad de cada individuo se denomina gold estndar.
Una biopsia para el diagnstico del cncer de mama es un ejemplo de gold estndar.

En la prctica clnica es frecuente que el gold estndar no se aplique a todos los individuos de una
muestra, surgiendo el llamado problema de la verificacin parcial de la enfermedad. En esta situacin, si el
test binario se aplica a todos los individuos de una muestra aleatoria de tamao n y el gold estndar se aplica
solamente a un subconjunto de ellos, se obtienen las frecuencias dadas en la Tabla 1.

En esta Tabla, de los n individuos totales n1 tienen test positivo y n0 test negativo. De los n1
individuos en los que el test ha dado positivo, s1 estn enfermos, r1 no estn enfermos y u1 no tienen
verificado su estado de enfermedad y por tanto se desconoce si estn o no enfermos. Anlogamente, de los n0
individuos con test negativo, s0 estn enfermos, r0 no estn enfermos y u0 no tienen verificado su estado de

26
enfermedad y se desconoce si estn o no enfermos. Esta situacin se corresponde con estudios de dos fases
[1]. En la primera fase el test diagnstico se aplica a todos los individuos de la muestra y en la segunda fase
solamente una parte los individuos de la muestra son verificados con el gold estndar. En este tipo de estudios
la estimacin de la exactitud puede estar sesgada, denominndose a este sesgo workup bias o sesgo de
verificacin [2, 3]. Por tanto, el sesgo de verificacin surge cuando el estudio de la eficacia de un test
diagnstico se restringe a los individuos con el estado de la enfermedad verificado, dependiendo de la
asociacin entre la seleccin para la verificacin de la enfermedad y el resultado del test diagnstico. Esta
asociacin afecta directamente a las probabilidades de seleccionar un individuo para verificar su estado de
enfermedad, ya que la probabilidad de que un individuo sea seleccionado para verificar su estado es alta
cuando el resultado del test diagnstico es positivo y es baja cuando es negativo, de tal forma que, una fuerte
asociacin entre la seleccin para la verificacin y el resultado del test produce un gran sesgo, y por el
contrario, cuanto mayor es la tasa de pacientes verificados menor es el sesgo de verificacin.

Tabla 1. Frecuencias observadas en presencia de verificacin parcial.


Test positivo (T = 1) Test negativo (T = 0 )
Verificados (V = 1)
Enfermos ( D = 1) s1 s0
No enfermos ( D = 0 ) r1 r0
No verificados (V = 0 ) u1 u0
Total n1 n0

Para ilustrar cmo funciona y afecta a los estimadores de la exactitud de un test diagnstico, se puede
considerar el ejemplo de la estimacin de la sensibilidad de un test radiogrfico en el diagnstico de una
enfermedad coronaria [4], utilizndose como gold estndar una angiografa. Si la sensibilidad de la
radiografa es del 80% y se dispone de una muestra de 500 individuos enfermos a los que se les realiza una
radiografa, es esperable obtener un resultado positivo en 400 individuos y negativo en 100. Dado que la
angiografa es un procedimiento arriesgado y caro, si la probabilidad de verificar a un paciente de radiografa
positivo es del 75% y la probabilidad de verificar un individuo con resultado negativo es del 10%, al analizar
solamente los individuos verificados se obtiene que la sensibilidad del test radiogrfico es del 97%, con lo que
se ha sobrestimado la sensibilidad del test.

A continuacin se estudia la estimacin de la sensibilidad y de la especificidad de un test diagnstico


binario en presencia de verificacin parcial de la enfermedad cuando el mecanismo de datos faltantes es
ignorable.

2. ESTIMACIN DE LA SENSIBILIDAD Y LA ESPECIFICIDAD


Begg y Greenes [2] han deducido un mtodo para corregir el sesgo de verificacin cuando se estiman
la sensibilidad y la especificidad de un test binario. Este mtodo se basa en la suposicin de que el proceso de
verificacin depende solamente del resultado del test diagnstico y no del estado de la enfermedad, que es
equivalente a suponer que el mecanismo de datos faltantes es ignorable. Zhou [3] ha ampliado el mtodo de
correccin del sesgo de Begg y Greenes, deduciendo las expresiones de los estimadores mximo verosmiles
de la sensibilidad y la especificidad de un test diagnstico binario y sus correspondientes varianzas, tanto sin
la presencia de covariables como con ellas, y demostrando que cuando el proceso de verificacin no depende
del estado de la enfermedad los estimadores mximo verosmiles coinciden con los estimadores deducidos por
Begg y Greenes. Roldn Nofuentes y Luna del Castillo [5] han estudiado el tamao del sesgo de verificacin
en la estimacin de la sensiblidad y de la especificidad cuando no se consideran a los individuos con estado de
enfermedad no verificado con el gold estndar. Harel y Zhou [6] han estudiado el rendimiento de distintos
intervalos de confianza para la sensibilidad y la especificidad aplicando imputacin mltiple, y han
comparado el rendimiento de estos intervalos con los intervalos de confianza obtenidos aplicando el mtodo
de correccin del sesgo de Begg y Greenes.

27
Sean las variables aleatorias binarias T, D y V las variables aleatorias definidas como sigue. La
variable T modeliza el resultado del test, siendo T = 1 cuando el resultado del test es positivo y T = 0
cuando es negativo; la variable D modeliza el verdadero estado de la enfermedad o resultado del gold
estndar, siendo D = 1 cuando el individuo est enfermo y D = 0 cuando no est enfermo; y la variable V
modeliza el proceso de verificacin de la enfermedad, siendo V = 1 cuando el individuo ha sido verificado
con el gold estndar y V = 0 cuando no ha sido verificado. Por consiguiente, el test diagnstico se aplica a
todos los individuos de la muestra, pero slo a un subconjunto de ellos se les aplica el gold estndar, con lo
que no se dispone de informacin del verdadero estado de la enfermedad para los individuos no verificados,
obtenindose la Tabla 1. Los datos de la Tabla 1 son la realizacin de una distribucin multinomial cuyas
probabilidades se muestran en la Tabla 2, donde Se es la sensibilidad, Sp la especificidad del test
diagnstico, p la prevalencia de la enfermedad, y ij = P (V = 1| D = i, T = j ) , con i, j = 0,1, las
probabilidades de verificacin, de tal forma que 11 es la probabilidad de seleccionar para verificar el estado
de la enfermedad un individuo enfermo con resultado del test positivo, 01 la probabilidad de seleccionar para
verificar el estado de la enfermedad un individuo no enfermo con resultado del test positivo, 10 la
probabilidad de seleccionar para verificar el estado de la enfermedad un individuo enfermo con resultado del
test negativo y 00 la probabilidad de seleccionar para verificar el estado de la enfermedad un individuo no
enfermo con resultado del test negativo. La funcin del logaritmo de la verosimilitud de los datos de la Tabla
1 es
l ( s1 + s0 ) log ( p ) + ( r1 + r0 ) log (1 p ) +
u1 log { p (1 11 ) Se + (1 p )(1 01 )(1 Sp )} +
(1)
u0 log { p (1 10 )(1 Se ) + (1 p )(1 00 ) Sp} + s1 log ( Se ) + s0 log (1 Se ) +
r1 log (1 Sp ) + r0 log ( Sp ) + s1 log ( 11 ) + s0 log ( 10 ) + r1 log ( 01 ) + r0 log ( 00 ) .
Si el proceso de verificacin es ignorable entonces el mecanismo de datos faltantes es MAR [7] y se
verifica que ij = P (V = 1| D = i, T = j ) = j = P (V = 1 | T = j ) . En esta situacin el proceso de verificacin
depende nicamente del resultado del test diagnstico y los estimadores mximo verosmiles de la
sensibilidad y especificidad [2, 3] son
= n1 s1 ( s1 + r1 )
Se , (2)
n1 s1 ( s1 + r1 ) + n0 s0 ( s0 + r0 )
y
= ( s0 + r0 )
n0 r0
Sp . (3)
n1 r1 ( s1 + r1 ) + n0 r0 ( s0 + r0 )
Tabla 2. Probabilidades de la distribucin multinomial.
T =1 T =0
V =1
D =1 pSe11 p(1 Se)10
D=0 (1 p )(1 Sp)01 (1 p ) Sp00
V =0 pSe (1 11 ) + (1 p )(1 Sp )(1 01 ) p (1 Se )(1 10 ) + (1 p) Sp (1 00 )

Aplicando el mtodo delta, las varianzas estimadas de estos estimadores [1] son

( ) { ( )}
2 n r1 r0
Se
Var = Se 1 Se
+ +
n1n2 s1 ( s1 + r1 ) s0 ( s0 + r0 )
y

( ) { ( )} nnn
= Sp
1 Sp
2 s1 s0
Sp
Var + + .
1 2 r1 ( s1 + r1 ) r0 ( s0 + r0 )

28
Los estimadores de la sensibilidad y de la especificidad (ecuaciones (2) y (3)) no son estimadores de
proporciones binomiales, y por consiguiente la sensibilidad y la especificidad no se pueden estimar utilizando
los intervalos de confianza para proporciones binomiales. A continuacin se presentan varios intervalos de
confianza para la sensibilidad y la especificidad cuando en presencia de verificacin de la enfermedad el
mecanismo de datos faltantes es ignorable.

2.1. Intervalo de confianza de Begg y Greenes

Asumiendo la normalidad asinttica de los estimadores de la sensibilidad y de la especificidad, unos


intervalos de confianza tipo Wald para estos parmetros son
Se Se
z Var
Se
1 2 ( )
y
Sp Sp
z
1 2 Var Sp . ( )
2.2 .Intervalo de confianza logit de Begg y Greenes

En lugar de asumir la normalidad de Se y de Sp , la transformacin logit de cada uno de estos

{ (
1 Se
estimadores, ln Se )} { (
1 Sp
y ln Sp )}
, sigue una distribucin normal de media ln {Se (1 Se )} y

ln {Sp (1 Sp )} respectivamente. De esta forma, los intervalos de confianza para logit ( Se ) y logit ( Sp ) son

logit Se ( )
z
(
1 2 Var logit Se ( ))
y
logit Sp ( )
z
(
1 2 Var logit Sp ( ))
respectivamente, siendo las respectivas varianzas

( ( )) = n + r1 r0
n n s ( s + r ) + s ( s + r )
logit Se
Var
1 2 1 1 1 0 0 0

( ( ))
n s1 s0
logit Sp
Var = + + .
n1n2 r1 ( s1 + r1 ) r0 ( s0 + r0 )
Finalmente, los intervalos de confianza logit para la sensibilidad y para la especificidad son

( ) (
exp logit Se z1 2 Var logit Se

( ))

,

( )
exp logit Se

+z
( ( ))

1 2 Var logit Se

Se

( ) ( ( ))

( ) (
1 + exp logit Se z1 2 Var logit Se 1 + exp logit Se + z1 2 Var logit Se



( ))


y

( ) (
exp logit Sp z1 2 Var logit Sp

( ))

,

( )
exp logit Sp

+z
( ( ))

1 2 Var logit Sp
,
Sp

( ) ( ( ))

( ) (
1 + exp logit Sp z1 2 Var logit Sp 1 + exp logit Sp + z1 2 Var logit Sp



( ))


respectivamente.

29
2.3. Intervalo de confianza mediante imputacin mltiple

La imputacin mltiple [7] es una tcnica basada en la simulacin que consiste en sustituir los datos
faltantes por un conjunto de m posibles datos, dando por resultado un sistema de m > 1 conjuntos de datos
completos, y que requiere que los datos faltantes se originen de forma aleatoria. En cada conjunto de datos
completos se calculan los estimadores de los parmetros y sus errores estndares, que, combinados mediante
reglas aritmticas, dan un resultado que tiene en consideracin los valores faltantes. Harel y Zhou [6] han
aplicado la imputacin mltiple de Rubin para estimar la sensibilidad y la especificidad de un test diagnstico
binario en presencia de verificacin parcial de la enfermedad, empleando para ello varios intervalos de
confianza para proporciones binominales. El mtodo de Harel y Zhou tiene las siguientes fases:

1). Fase de imputacin. La fase principal de la imputacin mltiple es obtener la distribucin a


posteriori de los datos con verdadero estado de enfermedad dado que el individuo no ha sido verificado con el
gold estndar (ya sea con test positivo o negativo). Asumiendo que el mecanismo de datos faltantes es
ignorable, los datos de la Tabla 1 son la realizacin de una distribucin multinomial cuyas probabilidades se
muestran en la Tabla 2 pero considerando que ij = j . Asimismo, de los u j individuos no verificados, se
asumen que u1 j estn enfermos y u0 j no lo estn, de tal forma que u j = u1 j + u0 j y solamente se observa la
frecuencia marginal u j , con j = 0,1 . Aplicando propiedades de esta distribucin, la distribucin de los datos

( )
faltantes dado los datos observados Yobs = {( si , ri , ui ) , i = 0,1} es una distribucin multinomial, esto es,

(u 1j , u0 j ) Yobs , ( )
M u j , (1 j / + j , 0 j / + j ) , j = 0,1,

donde ij es la probabilidad de que una unidad se est en la celda ( i, j ) y + j = i ij . Para los parmetros de
la distribucin multinomial se elige una distribucin a priori de Dirichlet, de tal forma que
( s , r ) M ( n, )
D ( )
Y D ( ' )
donde ' = + ( s, r ) y D ( ) es una distribucin Dirichlet con parmetro . Finalmente, la imputacin de
los datos se realiza mediante modelos log-lineales.
2). Fase de anlisis. Tras imputar los datos, se obtienen m conjuntos de datos completos, obteniendo
( )
las estimaciones Q (1) , Q (2) ,K , Q ( m ) y las varianzas asociadas (U (1) ,U (2) ,K , U ( m ) ) para la sensibilidad y
especificidad. Harel y Zhou [6] han utilizado distintos intervalos de confianza para la sensibilidad y la
especificidad con los datos completos, entre ellos el intervalo logit de Rubin y Schenker [8].
3). Combinacin de resultados. Tras la obtencin de m conjuntos de estimadores y sus varianzas, se
utiliza la combinacin de reglas de Rubin de la siguiente forma. La estimacin global es Q = (1 / m ) Q ( i ) y
su varianza es T = U + (1/ ( m + 1) ) B , donde U = (1 / m ) U ( ) es la varianza estimada de los datos
i

completos, y (1/ ( m + 1)) B es la varianza debida a la imputacin de los valores faltantes, siendo

B = (1/ ( m 1) ) i =1 ( Q (i ) Q ) . Las inferencias se basan en la aproximacin de la distribucin t de Student


m 2

( ) (
T 1/ 2 Q Q t , donde los grados de libertad son = ( m 1) 1 + U / (1 + m 1 ) B . Finalmente, el )
2


intervalo de confianza a la confianza 100(1 )% es
Q t ,1 / 2 T .
Harel y Zhou [6] han propuesto este mtodo de imputacin mltiple para corregir el sesgo de
verificacin en la estimacin de la sensibilidad y de la especificidad, y han realizado unos experimentos de
simulacin para comparar el rendimiento de distintos intervalos de confianza mediante imputacin mltiple
con los intervalos de confianza de Beggs y Greenes y logit de Beggs y Greenes, obteniendo que el intervalo
que presenta un mejor rendimiento es el intervalo logit de Rubin y Schenker con la imputacin mltiple.

30
2.4. Intervalo de confianza cuadrtico

Montero [9] ha estudiado unos intervalos de confianza cuadrticos para la sensibilidad y la


especificidad. Asumiendo la normalidad asinttica de Se y de Sp , resolviendo las ecuaciones

( Se Se ) ( Sp Sp )
2 2

=z 2
y = z12 2
Var ( Se ) Var ( Sp )
1 2

sustituyendo Var ( Se ) por Var Se ( )


y Var ( Sp ) por Var Sp ( )
, y realizando las operaciones algebraicas, los

intervalos de confianza cuadrticos a la confianza 100 (1 ) % para la sensibilidad y la especificidad son

( ( )) m 1 ( ( )) + 1 m z ( ( ))
2

logit Se 4Sez

logit Se
z1 2 Var 1 2 Var logit Se 1 2 Var

Se
2 z1 2 ( logit ( Se
Var )
)
y

( ( )) m 1 ( ( ) ) + 1 m z ( ( ))
2

logit Sp 4Spz

logit Sp
z1 2 Var 1 2 Var logit Sp 1 2 Var

Sp ,

logit Sp
2 z1 2 Var ( ( ))
respectivamente. Estos intervalos tambin se pueden obtener aadiendo una correccin por continuidad, de tal
forma que las ecuaciones son

( Se Se 0.5) ( Sp Sp 0.5)
2 2

= z12 2 y = z12 2 ,
Var ( Se ) Var ( Sp )
y repitiendo el proceso anterior se obtiene el intervalo de confianza cuadrtico con correccin por continuidad
para la sensibilidad y para la especificidad, siendo sus expresiones

( ( )) m 1 ( ) ( ( )) + n 1 m z ( ( ))
2

n z1 2 Var
logit Se 2n 1 2nSe
z
1 2 Var logit Se
2
1 2
logit Se
Var

Se
(

logit Se
2nz1 2 Var ( ))
y

( ( )) m 1 ( ) ( ( )) + n 1 m z ( ( ))
2

n z1 2 Var
logit Sp 2n 1 2nSp
z
1 2 Var logit Sp
2
1 2
logit Sp
Var

Sp ,

logit Sp
2nz1 2 Var ( ( ))
respectivamente.

2.5. Reglas generales de utilizacin de los intervalos

Montero [9] ha realizado unos amplios experimentos de simulacin para comparar el rendimiento de
los intervalos de confianza anteriores, y de cuyos resultados se obtienen las siguientes reglas generales de
utilizacin de los intervalos de confianza. Para la sensibilidad:

- Cuando la prevalencia de la enfermedad es pequea (por ejemplo, p = 10% ), utilizar siempre el


intervalo de confianza mediante imputacin mltiple.
- Para valores de la prevalencia comprendidos entre el 30% y el 70%, para muestras de tamao menor
que 1000 utilizar el intervalo de confianza mediante imputacin mltiple, y para muestras de al
menos 1000 pacientes utilizar el intervalo cuadrtico sin correccin por continuidad. En las
situaciones en las que el intervalo cuadrtico no tiene un buen rendimiento, utilizar el mtodo de
imputacin mltiple.

31
- Cuando la prevalencia de la enfermedad es alta (por ejemplo, p = 90% ), utilizar siempre el intervalo
cuadrtico sin correccin por continuidad.
- En los dems casos utilizar la imputacin mltiple.

Para la especificidad:

- Cuando la prevalencia de la enfermedad es 50% , para muestras de tamao 100-200 utilizar el


intervalo de confianza mediante imputacin mltiple; para muestras de al menos 200 individuos
utilizar cualquiera de los tres intervalos (cuadrtico sin correccin por continuidad, imputacin
mltiple o logit).
- Cuando la prevalencia es 70% , utilizar cualquiera de los tres intervalos (cuadrtico sin correccin
por continuidad, imputacin mltiple o logit).
- En los dems casos utilizar la imputacin mltiple.

3. EJEMPLO
Los resultados de la Seccin 2 se han aplicado al diagnstico de la estenosis coronaria. La estenosis
coronaria es una enfermedad coronaria que consiste en la obstruccin u estrechamiento de la arteria coronaria
comprometiendo la llegada de oxgeno al miocardio, y su diagnstico se puede realizar aplicando una
ecocardiografa con dobutamina. En la Tabla 3 se muestran los datos obtenidos al aplicar la eocardiografa
con dobutamina a una muestra de 1350 individuos utilizando como gold estndar una angiografa coronaria, y
donde la variable T modeliza el resultado de la ecocardiografa y la variable D el resultado de la angiografa.

Tabla 3. Datos del estudio de la estenosis coronaria.


T =1 T =0
V =1
D =1 290 9
D=0 70 108
V =0 277 596
Total 637 713

Tabla 4. Estimaciones de la sensibilidad y especificidad.


Estimacin mximo verosmil de la
42.07%
prevalencia
Sensibilidad Especificidad
Estimacin por mxima
0.903 0.842
verosimilitud
IC de Begg-Greenes ( 0.848 ; 0.959 ) ( 0.809; 0.874 )
IC logit ( 0.832 ; 0.947 ) ( 0.807; 0.871)
IC cuadrtico ( 0.802 ; 0.940 ) ( 0.804; 0.869 )
IC cuadrtico con cc ( 0.803 ; 0.939 ) ( 0.804; 0.869 )
Estimacin mediante
0.802 0.921
imputacin mltiple
IC de Rubin- Schenker ( 0.757 ; 0.841) ( 0.838 ; 0.966 )

Como la angiografa coronaria puede causar reacciones en el individuo (infecciones, trombosis,


infarto,) no todos los pacientes son verificados con la angiografa. Estos resultados corresponde a un
estudio de dos fases: en primer lugar se aplic la ecocardiografa a todos los individuos de la muestra y en
segundo lugar se aplic la angiografa solamente a un subconjunto de ellos dependiendo del resultado de la

32
ecocardiografa. Por tanto, se asume que el mecianismo de datos faltantes es ignorable. En la Tabla 4 se
muestran los valores de los estimaciones puntuales y los intervalos de confianza al 95% de confinaza.
Aplicando las reglas generales dadas en la Seccin 2.5, como la estimacin de la prevalencia es el 42.07%,
para la sensibilidad se utilizara el intervalo de confianza cuadrtico sin correccin por continuidad y para la
especificidad se pueden utilizar el intervalo cuadrtico sin correccin por continuidad, la imputacin mltiple
o el intervalo logit de Beggs y Greenes. En trminos de los intervalos cuadrticos sin correccin por
continuidad, la sensibilidad de la ecocardiografa con dobutamina es, con una confianza del 95%, un valor
comprendido entre el 80.2% y el 94%; y la especificidad de la ecocardiografa con dobutamina es, con una
confianza del 95%, un valor comprendido entre el 80.4% y el 86.9%. Por tanto, la sensibilidad y la
especificidad tienen un valor alto (al 95% de confianza), por lo que la ecocargiografa con dobutamina se
puede utilizar como un test de screening para el diagnstico de la estenosis coronaria.

Agradecimientos: Este trabajo ha sido financiado por la Subdireccin General de Proyectos de


Investigacin del Ministerio de Economa y Competitividad, Espaa, Proyecto MTM2012-35591. Los autores
agradecen al Prof. Carlos Bouza y al referee su tiempo y dedicacin a la revisin de este trabajo.

REFERENCIAS

[1] CARROLL, R.J., RUPPERT, D. & STEFANSKI, L.A., (1995). Measurement error in non-linear models.
Chapman and Hall, London.

[2] BEGG, C.B. & GREENES, R.A., (1983): Assessment of diagnostic tests when disease verification is subject
to selection bias. Biometrics, 39, 207-215.

[3] ZHOU, X.H., (1993): Maximum likelihood estimators of sensitivity and specificity corrected for verification
bias. Communication in Statistics - Theory and Methods, 22, 3177-3198.

[4] TAVE, M.E., ENAS, N.H. & WOODS J.R., (1987): Screening tests for enteropathy in children. American
Journal of Cardiology, 60, 1167-1169.

[5] ROLDN NOFUENTES, J.A. & LUNA DEL CASTILLO, J.D., (2007): The effect of verification bias in the
naive estimators of accuracy of a binary diagnostic test. Communications in Statistics - Simulation and
Computation, 36, 959-972.

[6] HAREL, O. & ZHOU, X.H., (2006): Multiple imputation for correcting verification bias. Statistics in
Medicine, 25, 3769-3786.

[7] RUBIN, D.B., (1987). Multiple Imputation for Nonresponse in Surveys. Wiley, New York.

[8] RUBIN, D.B. & SCHENKER, N., (1987): Logit-based interval estimation for binomial data using the Jefreys
prior. Sociological Methodology, 17, 131-144.

[9] MONTERO ALONSO, M.A., (2010): Intervalos de confianza y contrastes de hiptesis para parmetros de
tests diagnsticos binarios. Tesis Doctoral, Universidad de Granada, Espaa.

33
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 34-45

Vt G
APPLICATION OF THE MIXED CHINESE POSTMAN PROBLEM
MODELS AND EXPERIENCES WITH URBAN GARBAGE
COLLECTION: CASE STUDY IN JARDIM EUROPA/SP
A. Rigonatti*, Joo Amlcar Viana Rodrigues**,
Pablo Luis Fernandes Batista**, Marcos Jos Negreiros Gomes**1
*Engenharia e Tecnologia - Eng de Produo
Rua Casa do Ator, 275 Vila Olmpia
Cep: 04546-001 So Paulo SP
**Universidade Estadual do Cear (UECE)
Av Paranjana, 1700 Itaperi
CEP: 60740-000 Fortaleza/CE

ABSTRACT
This chapter considers the Chinese postman problem (CPP) applied to the urban garbage collection in the city of So Paulo,
at the region of Jardim Europa. We show how we proceed with a site prospection in garbage collection, from the daily service
collection plans used by the municipality. We used the mixed version of the CCP, and related models, to verify the Euler tours
and their costs of the planned routes used by the responsible to execute the local urban garbage collection. We explored the
solutions by using the available solvers Excel, LINGO and Xns. We evaluated 12 areas of daily collection, and
followed two of them in the field. The work revealed discrepancies and infeasibilities of the routes planned by the responsible
of doing the work. It also shows the results obtained by the solvers, compare their performance, and for the end we consider
the appropriateness of the mixed CPP to be applied to the reality of this context of garbage collection.

RESUMEN
Este trabajo considera el problema del cartero chino aplicado al contexto de la recoleccin de basura urbana a domicilio en la
ciudad de San Pablo, especficamente en la regin de Jardim Europa. Mostramos fue realizado un levantamiento de la
situacin de la recoleccin de basura, a partir de planos de la recoleccin diaria de la prefectura de la capital paulista.
Utilizamos una versin mixta del problema para verificar los recorridos eulerianos y el costo de las rutas planeadas por la
empresa ejecutora del servicio, exploramos los ambientes de modelado brindados por Excel, LINGO y Xns. Fueron
evaluadas 12 reas de recoleccin diaria, y se le dio seguimiento en el campo de estas reas. El trabajo revela las discrepncias
y la no factibilidad del planeamiento realizado y la entrega a la prefectura por la empresa responsable. Revelamos tambm el
resultado obtenido com los solvers, y por fin discutimos lo adecuado de la version del cartero chino mixto, aplicado a la
realidade de la recoleccin.

1. INTRODUCTION
Garbage collection in Brazil is a task which is in charge of the mayor ships, and is usually and daily
executed in most Brazilian cities. Data from year 2008 produced by IBGE indicate that 98% of homes in
urban areas have garbage collection service, while just 23% of homes are served in rural area. Data from
ABRELPE indicate that 54% of all collected trash in the country is in the southeast region, and that collected
trash in Brazil in 2010 reached an average of 306kg/habitant-year, in other words, Brazil produces about 160
thousand tons of trash per day, IBGE (2012), ABRELPE (2012).

These surprising marks put Brazil among the biggest garbage producers in the world, with very
high costs around R$ 4 billion/year. The cost of collection with equipment and staff only, indicate
approximately 50% of this amount, according to IBAM (2001).

The urban collection system efficiency is very important, once it regards to a task that, in cities, is
impossible to be realized in more verticalized regions in the morning and afternoon, considering traffic jam
and the hard mission of doing the garbage collection, house by house in overnight schedule.

The city of So Paulo is inserted in this context. Its diversity in urban occupation indicates the
necessity of an enormous daily work of the garbage collection municipal system. Specially, in the region of

1
Author for correspondence : negreiro@graphvs.com.br

34
Jardim Europa, the garbage collection is performed nightly and daily, in view of its big verticalization and
occupation, where trades of all kinds and condominiums of all sizes are mixed in this scenario. The region is
divided in several service areas and weve taken 12 of them for this study. 12 and 19t vehicles serve the
region from 7PM to 4:30AM the next day. The service is regularly performed from Monday to Saturday, no
holidays, with a crew composed by one driver and 3 or 4 collectors per vehicle.

Figure 1: Panorama of garbage collection in Brazil, IBGE 2012, ABRELPE, 2012


.
Usually the collection is done in 4 trips in the worst days, each area having a standard circuit
designed by concessionaire company of the service (LOGA Logstica Ambiental de So Paulo S.A.), that
indicates how the roads must be covered.

The circuits project is executed almost accurately by drivers we followed. Primarily, they use the
basic path as a reference that indicates only one base route (with beginning and ending determined), and every
time a trip is performed, when the truck is full, the course is interrupted, changing to the unload local where it
was designated. Returning from the discharging, the driver retakes the course from where he stopped on last
route and then proceeds until all the collection area is concluded.

Although it is a work that presumes a previous project of routes and situation analysis, this study
identifies that plans made by the company are very flawed, and need to be remake. Thus it must be given
consciousness to drivers of various indiscretions they commit along the execution of their paths, and revised
with propriety the best way to serve each area minimizing tour costs, while considering idiosyncrasies
associated to daily work, such as: load fluctuations between collection days, availability and difficulty of
collection by collectors, traffic while collection is done, and other.

Beyond the point associated to production, this work also do an important analysis about the tours
problem. The format of using a basic circuit (an only support route) is adopted throughout the country,
besides provided in Guide produced by federal government, IBAM (2001). Unfortunately, however, the
Guide indications, figure 2, are little conclusive, considering cities topology and roads mesh. Actually, cities
have geometries quite different from the one shown in figure 2, and even the tour heuristic strategy, first
horizontals then verticals, be widely adopted, it doesnt fit in situation of extremely topological difficulty
that also includes the constraints of one-way and shunt (right, left and U-turn).

Figure 2: Heuristic method adopted of collection itinerary tracing, SOURCE: IBAM(2001).


35
Although the heuristic mode suggested by the Guide be adopted by most collection companies in
Brazil, as far as we know, figure 3 shows two collecting areas of Jardim Europa region in Paulista capital
(PI04 and PI06) where the tour situations are adverse to the proposed heuristic scheme by IBAM.

Figure 3: Adverse situations (PI04, PI06) to the tour according to proposed heuristic by IBAM.

Faced with these situations, some questions arise:


1. How are the route projects of So Paulo city, feasible or unviable?
2. In which way can they be optimized?
3. What the best way to perform them considering the reality of collection in multiples trips?

Answers to questions above can direct better route projects, using computational resources
compatible with the problem, and that be available for it. This chapter intends to answer the three questions
above, through mathematical modeling of this mixed Chinese postman problem proposed by Kappauf &
Koehler (1979), and using EXCEL and LINGO softwares. It will also be used interactive visual modeling
process through Xns, Microsoft, LINDO Systems softwares, Negreiros et al (2009).

The chapter is divided as follows: in section 2 we describe the work we conducted in field minutely
in a preliminary watch of routes in Jardim Europa region, So Paulo city; in section 3 we put different ways of
making models of mixed Chinese postman problem using available software or common use ones; in section
4 we measure computational results obtained with our models and through used software, thereby we
compared with what it`s indicated to be the work practiced by the company, considering plans handed to us
by So Paulo mayor ship. In section 5 we introduce the real way the collection have been done, and the
correct way of doing the planning for this work. In section 6 we go along with conclusions of this paper.

2. SELECTION AND PREPARATION OF GARBAGE COLLECTION ROUTES IN SO


PAULO

This research began with the aim of developing an application for garbage collection, using
mathematical modeling with Excel. The expectations were that in one spreadsheet the proposed mixed
Chinese postman problem could be solved through Kappauf & Koehler (1979) apud Ahuja et al (1993) model,
while obtaining important evidences about the routes production process using this tool, Rigonatti & Souza
(2011).
2.1.Maps and information from So Paulo Mayor ship

The work began searching initially at mayor ship for maps of routes of homemade collection. Such
difficulty in obtaining them, but with insistence we succeeded with the one who was in charge, also
transferring a good number of routes (17) in digital plans of PDF format.
Faced with quantity of routes we received, we chose to do our job curiously related to collecting
areas next to his neighborhood. Imagining making our accessing and monitoring in field easier, perhaps it was
necessary to do so.

36
2.2.The monitoring in field work

With data in hand, we continued to gather relevant information about urban collection main
operation. First we tried to know the company, considering many difficulties in finding out feedback on
operational costs gathering such as: costs with tires, fuel, maintenance, or even knowing better payroll costs,
the beginning and ending of tours, etc. Indeed we didnt got much, however we focused in the resolution of
models limiting in collect the measures of street segments, in other words, the graph associated to each
problem instance. For this we used Google Maps, a web service for maps searching and visualizing, where
we got images from regions of chosen routes. Thus it was possible to get the distances between nodes from
road network and understand each route, in other words, find out the direction of highways and why the truck
cant pass along some streets, because they could be too narrow or the service wouldnt be necessary,
Rigonatti & Souza (2011).

2.3. Graphs digitalization and found difficulties

Then the work of digitalizing the circuits on EXCEL was started, making the measures of each street
segment using Google Maps, indicating in spreadsheet the crossroads (vertices), street segments (arrows
one-way streets and links two-way streets). The painful work of building the graph mnemonically, made us
use the Xns system.

3. ROUTES MODEL
The most appropriate mathematical model of mixed Chinese postman considers the property of
unicursality of a mixed graph. This property indicates that one Euler circuit can be performed in any graph if
the quantity of connections that comes and leaves any vertex is conservative, in other words, it indicates that
there is a circuit with flow balance for all vertices of the circuit, without changing the graph properties, Eilselt
et al (1995).

We can describe this property better as follows:

UNICURSALITY: let G be an f-connected graph. G is considered unicursal or eulerian if there is a


closed path in G containing each edge just once and each vertex at least once. The necessary and sufficient
conditions for an f-connected graph being Eulerian are given hereafter:
1. If G is not directed (symmetric), every vertex must have an even degree, in other words, a
couple number of incident links Eulers Theorem.
2. If G is directed, the number of arrows in and out from each vertex is the same Ford &
Fulkerson Theorem, Ford & Furkerson (1962);
3. If G is mixed, all the vertex on S must contain an even number of directed arrows linked to him;
besides, for the whole set S V, the difference between the number of arrows of S and V-S and
the number of arrows between V-S and S must be less than or equal to the number of links
joining S and (V-S) Balance Conditions, Nobert & Picard (1996).

3.1. The Unicursal Mathematical Model by Kappauf & Koehler (1979)

The mathematical model for the mixed Chinese postman problem proposed by Kappauf & Koehler
(1979) can be described as follows:

(Mixed-CPP) Minimize c x +
ij ij c x +
ij e + c x
ij e (1)
+
<vi ,v j >A ( vi ,v j )E ( vi ,v j )E

subject to,

37
n n

x x
i =1
ij
i =1
ji = 0, j V (2)

xa 1 , a A (3)

xe + + xe 1 , e E (4)

xl , l A E + E (5)

In this formulation, the objective function (1) wishes to minimize the sum of crossed arrows costs,
plus the sum of crossed links in an E+ direction and in another E-. The constraints (2) keep the vertices
unicursality (balance of vertices entry and exit degree). The constraints (3) guarantee that arrows will be
visited at least once. The constraints (4) indicate that a link must be crossed at least once in one of two
possible directions. Finally the constraints (5) indicate that the number of times the connections are used in
the solution, must be integer.

3.2. Xns B&B Method

The formulation used by Xns is a little different from the previous, because the graph is processed
like a graph changed from mixed to directed. On transformation, links become directed triangulations,
Sherafat (1988). From this transformation Xns runs a B&B algorithm based on network flows out-of-kilter
method, which starts with a greedy heuristic that concludes with a B&B method by Sherafat (1988),
obtaining, in the end of a specific time, one feasible or guaranteed optimal solution for the problem.

Figure 4: Visualization of Xns solution resources for a given graph (TESTE_MN).

On Xns System environment, the creation process of a graph can be performed using images like a
background (.BMP), or drawings on .DWG format, and so they can be generated, where initially the vertices
are inserted then the connections are included. The edition process is quite simple, objectively selecting
buttons and with the mouse selecting the vertex position. The connection costs can be calculated directly,
by Euclids metric, or by manual edition of costs per connection (arrows and links). Xns generates a text file
(.DAT) to be used in a spreadsheet, where its possible to run models by Excel or LINGO.
When Xns generates the using graph solution, it returns the cost with initial boundaries of the
problem and heuristic solution, as well as final cost regarding the best solution found within the time
stipulated by user. It also returns the Euler tour multigraph that matches the founded solution, figure 4.

3.3. Modeling with EXCEL

The Kappauf & Koehler (1979) formulation can be made on EXCEL in a quite simple way, as
shown on figure 4, spreadsheet from the example of graph on figure 5. The model indicates the first
constraints of flow conservation on nodes, than we have the constraints of minimum passages over the
arrows, and for the end the constraints of passages over the links.

38
Figure 5: Kappauf & Koehler Modeling (1979) by EXCEL.

3.4.Verifying the costs of practiced routes


The result of practiced routes can be easily viewed on EXCEL table copied from model table, in this
case, thats enough we indicate how many times one connection will be used (sum of parts column), so the
table calculates the tour cost, and indicates its feasibility by the flow on nodes. The bottom also indicates the
number of unfeasible nodes, if necessary, figure 6.

Figure 6: Using the spreadsheet of EXCEL model to verify the practiced solution.

3.5. Modeling using LINGO

On LINGO system, the model contains a definition of data sets reading, variables and costs
parameters, and a process of algebraic modeling, as shown on figure 7. The data can be extracted directly
from a spreadsheet, using macros that request LINGO. The model returns the variables values, objective
function and the constraints values, as well as the run times and lower and upper boundaries achieved for the
instance. For simplicity, we show an example about the same instance used on indications above.

MODEL: !unicursality constraint for each graph vertex;


TITLE @FOR( NO( I):
MISTO_AHUJA_1993_TESTEMN; [UNICURSAL] @SUM( E(I, J) : XE( I, J )) + @SUM( A(I, J) : XA( I, J )) =
SETS: @SUM( E(J, I) : XE( J, I )) + @SUM( A(J, I) : XA( J, I ));
! Graph Vertices; );
NO / 1..10/;
! Visiting each edge once;
! Set of arcs; @FOR( E(I,J):
A(NO, NO) / [VISITAELO] XE( I,J ) + XE( J, I ) >= 1
1 6 );
2 7 ! Visiting each arc at least once;
3 8 @FOR( A :
6 2 [VISITAARCO] XA >= 1;
);
6 10
7 3 ! Minimize the path of the postman Minimize the multigraph perimeter;
[OBJECTIVE] MIN =
/ : XA, CA; @SUM( A : CA * XA) + @SUM( E : CE * XE);
! Set of edges;
E(NO, NO) / @FOR( A : @GIN( XA)); ! Number of times each arc is used;
1 2 @FOR( E : @GIN( XE)); ! Number of times each vrtice is crossed in the direction of
E;

Figure 7: Algebraic model by Kappauf & Koehler (1979) using LINGO.

39
Figure 8: Solution of algebraic model by Kappauf & Koehler (1979) using LINGO.

4. RESULTS
In Table 1 we have initially the description of 12 instances used to evaluate routes from garbage
collection areas in Jardim Europa, So Paulo. The instances are described considering the number of
passages through links, indicated on plans of each mayorships area. Our work here was to identify how many
times in each street segment, a relative vehicle pass following the course its indicated on the plans tour. As
well as in all of them, beginning and ending of a route happen in different places, the number of infeasibility
have to be bigger than 2 for the performed path be considered impracticable.

Tests were made using a computer with the following settings: Core 2 Duo Intel T5550 1.83GHz,
3GB RAM, Windows 7, 32 bits.

Table 1 contains in GRAFO column names for each instance, in V, E e A columns we have the
number of links and arrows vertices on circuit respectively, in Perim column we have the likely perimeter of
the circuit (sum of the distances of the connections), in Viab column we have the circuit solution feasibility,
in Ns Inv column we have the indication of number of unviable nodes in the tour described by mayor ships
plans and in Perc column we have the likely length on the tour indicated by mayorships plans. The instances
and the spreadsheet referred here can be found in www.graphvs.com.br/xnes.

Table 1: Status of the plans used by the city hall of So Paulo to Jardim Europa.

Clearly it can be noted that several tours are with bigger perimeters, indicating there are many non
covered connections on graph. These connections should be necessarily covered, due to necessities of the
region they belong.

Table 2 describes the behavior of the models concerning Kappauf & Koehler (1979) model
application on LINGO software, and the B&B method proposed by Negreiros et al (2010) implemented on

40
Xns software. 15 are the instances evaluated 3 of which are other test instances from different site,
Teste_AR, Teste_MN e BH, and 12 instances (PI) from the So Paulo garbage collection.
There are 11 instances with a reasonable amount of vertices (>90) and four with few vertices (<70).
The three sets, vertices, arrows and links indicate the number of constraints on the model, while double the
number of links and the number of arrows indicate the quantity of integer variables on problem.

On Table 2, the first four columns (GRAFO, V, E, A) are the same as table 1, the columns 5 and 7
indicate to Xns, $ - total covered distance (gap% in relation to lower boundary of heuristic solution gap%
in relation to lower boundary of final solution), t processing time in seconds, Otim if the solution was
proved being optimal or just feasible. The columns from 8 to 10 indicate for LINGO, $ - total covered
distance (the number of the iterations of B&B method about the used model), t processing time in seconds,
Otim if the solution was proved to be optimal or if it returns a feasible solution.

Table 2: Comparison of the results obtained by Lingo, Excel and Xns for the set of test instances

For the end, table 3 shows a relation between solutions planned by mayor ship, all unfeasible, table
2, and the optimal solutions of instances that had its costs above the perimeter of the built mesh. In this case,
only these instances had all connections covered in both solutions. Only 2 instances got results that can be
comparable in the sense of distance travelled, although the plans given to mayor ship were all infeasible., they
are: PI10 and PI22. We observe that PI10 is 16,65% from optimal and PI22 is 6,10% from optimal.

Table 3: Practiced X Optimal solutions, when only two situations can be compared in the sense of
distance travelled, although the plans given to mayor ship were all infeasible.

4.1. EXCEL Results

It was used EXCEL Office 2007 version, in which the solver contains an algorithm of general math
programming (linear and nonlinear), based on conjugate gradient method or on Newton method, and
opportunely on Simplex, linear version, as you choice. On solver, there is no limitation of the variables on
integer values.

Although doesnt appear on table 2, we used all the methods without success on PI instances, but we
got a result for only one of them. The mistake obtained in most of them was with respect to the number of
adjusted cells, in other words, exceeded variable boundaries. In other the model found an unfeasible solution,
and even if we indicated continuity of the resolution, EXCEL still didnt solve. Lastly, EXCEL only solved
the trivial instance TESTE.

41
4.2. LINGO Results

We used the 13.0 version of LINGO , with unlimited number of constraints and variable of any kind
(linear, integer, binary). It was described the model of linear programming of unicursality, as the same shown
on section 2.8. The LINGO solver solved and proved the optimality of all PI instances and two of the test
ones, leaving only BH instance without description of feasible solution on final result. This instance was
placed purposely, because we needed curiously to know the optimal solution of the instance.
Tabela 2 - Resoluo de Modelo via Xns e LINGO
XNES LINGO Praticado
GRAFO V E A $ t Otim $ t Otim $
PI01 189 29 203 35218 (1.02-0.03) 7.379 Ok 35218 (149) 0 Ok 29510 (Invivel)
PI02 190 20 210 24571 (1.61-0.14) 5.627 Ok 24571 (77) 0 Ok 22424 (Inviavel)
PI03 132 14 160 18486 (1.57-0.54) 3.546 Ok 19486 (118) 0 Ok 15385 (Invivel)
PI04 91 23 106 29030 (2.38-0.02) 4.652 Ok 29030 (142) 0 Ok 22593 (invivel)
PI05 183 64 169 22733 (6.37-0.31) 301.73 vivel 22496 (439) 0 Ok 18949 (invivel)
PI06 131 74 113 45132 (5.37-0.23) 301.74 vivel 45014 (1010) 0 Ok 28880 (invivel)
PI07 57 4 87 17364 (0.99-0.39) 0.905 Ok 17364 (57) 0 Ok 16828 (invivel)
PI08 52 20 58 9532 (3.36-0.12) 2.436 Ok 9532 (289) 0 Ok 13943 (invivel)
PI09 34 48 4 11393 (15.81-0.05) 303.442 vivel 11103 (143631) 15 Ok 10480 (Invivel)
PI10 74 15 93 21631 (2.71-0.02) 4.105 Ok 21631 (181) 0 Ok 25233 (Invivel)
PI22 99 87 55 18641 (7.86-0.29) 301.87 vivel 18591 (9778) 2 ok 19725 (invivel)
PI25 218 121 149 28155 (7.43-0.13) 301.94 vivel 28281 (9327) 1 ok 21365 (invivel)
Teste 5 4 2 570 (0.0-0.0) 1.698 Ok 570 (1) 0 Ok 570 (timo)
Teste_MN 10 11 6 20 (17.65-5.26) 0.743 Ok 20 (101) 0 ok 20 (timo)
BH 283 267 185 48196 (9.94-0.5) 947.23 vivel 47592 (2M) 945 vivel -

Instance PI09 was the one which most took time to be solved, among the PIs, requiring 15s to be
concluded. Here it makes clear that the number of links in a mixed graph is important for the problem
treatment by Kappauf & Koehler (1979) model, nevertheless, LINGO proved optimality of the solution for
this instance.

On BH instance, LINGO returned a solution with gap=1,71% between LS=47592 and LI=46776, in
more than 2 million iterations of B&B method. The feasible solution cant be reported by LINGO, which
aborted the execution after 15m45s, being with more than 20 thousand nodes of B&B still opened on
memory.

Even so, in all analyzed cases, LINGO won the Xns in computing time, and solution achievement
of mixed PCC of PI instances.

4.3. Xns

It was used 2.01 version of Xns, in which B&B method implemented for the mixed PCC,
demonstrated be robust in all evaluated cases. However it revealed its difficulty on treatment of instances with
many links on street network, in relative to the number of arrows (PI09, PI22, PI25 and BH).

Although in many cases, the limit time of 300s hasnt returned the optimal solution, the difference to
the optimal, proved by LINGO, is very little, all below 0.2%. Besides that, for all cases, even BH instance,
Xns shown the final solution found, proving its big operational advantage, in relative to other, that is the
obtaining visualizing of currents feasible solutions found on maximum time chosen by user.

4.4. Tried Out

In all PI instances, the solution shown on plans by LOGA Company to So Paulo mayor ship is
impracticable, in other words, in all of them there is no Euler circuit/path that can be practicable in field. The
planned scripts were gave to the mayor ship are, so, wrong to be executed in an only trip, for the urban
garbage collection vehicle.

42
5. ADEQUACY OF ROUTES MODEL TO REALITY OF COLLECTION

While the Xns team took care of the PIs tour analysis, in So Paulo, we faced up in field the
verification of the garbage collection situation in two of them: PI04 and PI08. Our mission was to clear
questions about the collection fulfillment, because the preliminary results of the itineraries seemed weird, in
other words: we didnt understand the paths feasibility, neither if one only truck in one only trip could finalize
it in one day.

5.1. Following the Itineraries

To follow the itineraries, we were equipped with video camera and followed by bicycle, the tours
realized by trucks on PI04. We began to follow at 9:32PM on April 16 2012 (Monday) and concluded at
3:59AM in the morning after. We followed step by step the development of the work by collectors, and
reported some of the following situations:
1. There were many prohibited handling, for example: the truck entered reverse in a one-way street, it
entered reverse within half of a block, and other;
2. Several streets were not covered;
3. Streets where the truck stops at the corner and doesnt proceeds the entering due to being narrow or
being difficult to handle U-turn (special collecting points);
4. The end of a path corresponds to beginning to the next (the driver follow the mayor ships scheme);
5. The collection was performed in different sides of a same street, which were not indicated on mayor
ships map.

The total tour on PI04 followed on four trips of the truck only inside the collecting area was
19,871m (not including trips to landfill). On average each trip was about 11-12t, using a compactor truck with
two axes of 12t with a crew of 3 collectors plus the driver. The truck left the base in Jaguar and made the
evictions on the transfer station Ponte Pequena (Av do Estado, 230). A sketch of this coverage can be viewed
on figure 7, where we can see at the left the PI04 in city boroughs and at the right each collection trip in
different colors.
On April 25th, 2012 (Friday), we went to follow the collection again. However we followed the
wrong truck, and lost the collection of that day. Nevertheless we clarified the doubt about which truck makes
the collection in the area, because we thought they were two, but actually it was confirmed in only one, the
same on April 16th, 2012.

Figure 8: Coverage of followed paths of PI04

The total tour on PI08 followed on four trips of the truck only inside the collection area, was
24,980m (not including trips to landfill). An average for each trip was about 11-12t, using a compactor with
two axes of 12t with a crew of 3 collectors plus the driver. The truck left Jaguars pass in the transfer station
on Ponte Pequena. Lastly, collectors go to the base in Jaguar, the truck unload on the station, on Ponte
Pequena, and returns to the base. This time care was taken in interviewing a collector to better understand the
collection, and was obtained the following answers:
1. The collection is made everyday, except on Sundays. Holidays, only the main ones: Christmas, New
Years day and Workers day;
2. The number of trips varies from one to four on PI08. There are light days and very hard days,
Mondays are the worst days;

43
3. Running over, slashes, injuries and rain are the biggest difficulties faced up by the collectors;
4. Even with rain the collection doesnt stop. The company provides raincoats but collectors dont use
because according to the interviewed one, "raincoat doesnt let the skin to breathe", so that they get
very hot under the coat and when they take the coat off, they catch pneumonia. With rain, everyone
prefers collecting without raincoat. Told this quite naturally;
5. There is alcohol consumption while they wait for the truck to unload, it happens in general on cold
days;
6. The end of a path doesnt corresponds to the beginning of the next one (the driver doesnt follow the
mayor ships scheme);
7. They know well the path they do, and dont need the help of maps to fulfill their task;
8. Two sides of a street are covered and they arent reported on mayor ships map.

A sketch of this coverage can be viewed on figure 8, where we can see on the left the area and on the
right each collection trip in different colors.

Figure 9: Coverage of followed paths of PI08

5.2. Solution for the So Paulo Collection

Negreiros & Palhano (2011ab) indicate the best way to proceed with the garbage collection process,
when the situation has high variability like the one is applied in So Paulo. They showed that using a skilled
router system to garbage collection (SisRot Lix), developed by GRAPHVS Ltda. company, minimizes
apart from paths cost, the difficult handling. On router, routes schemes based on processes of first routing
then grouping, routing-grouping-routing or grouping then routing, produces different solutions that can differs
up to 20% from the lowest cost possible for doing it.

The selection of the best strategy depends obviously on the street network, on the topology of the
city and on the daily garbage production of the region under analysis. The most appropriate way of planning
the tours is indeed analyzing area by area. Knowing that it will be four daily trips, plans for one, two, three
and four trips must be produced to minimize the global cost of collection process. If it holds the control of
each well defined and dimensioned area, it has to resize the whole region using districting processes, to
minimize fleet and / or the number of trips of the process.

6. CONCLUSIONS

This work presented two important studies: adequacy of mixed PCC models to reality and to
garbage collection in Jardim Europa.

In the first part of the study, the application of the mixed Chinese postman problem was
considered, for sizing garbage collection areas in So Paulo city. In this case, all the analyzed official tours
were unfeasible, in other words, they were not close to reality of an Euler circuit possible of being done. The
models used for calculating the optimal routes of mixed PCC had wide success on 12 tested areas. The
version of Kappauf & Koehler (1979) model found the optimal solution in all cases of PIs executed on
LINGO software. In the Xns, 5 of the 12 instances were not solved on optimality. However those which
were not solved were less than 0.2% far from optimal. On EXCEL it wasnt possible to find solutions for the
selected PIs instances, showing that the solver doesnt fit the model.
44
In the second study, which occurred in parallel with the first one, we tried to understand the
garbage collection of So Paulo in Jardim Europa region. We followed step by step the task of garbage
collection in two PIs, with a relative success in the first and entire triumph in the second. As result we
understand the collection difficulties and to equate the possible ways to doing better itineraries for the garbage
collection, from planning using appropriate routers, that consider all aspects found in field (special collecting
points, economic handling, redistribution of garbage load).

REFERENCES
[1] ABRELPE (2012), http://www.abrelpe.org.br, Associao Brasileira de Empresas de Resduos
Slidos (2012).
[2] AHUJA, R.K., MAGNANTI, T.L., ORLIN, J.B, (1993):Network Flows Theory, Algorithms and
Applications, Prentice Hall, Upper Saddle River, New Jersey.
[3] EILSELT, H.A.; GENDREAU, M., LAPORTE, G. (1995): Arc Routing Problems, Part I: The
Chinese Postman Problem. Operations Research, 43(2), 231-242.
[4] FORD, L.R., FULKERSON, D.R. (1962): Flows in Networks, Princeton University Press,
Princeton, New Jersey
[5] GOOGLE MAPS. ( http://maps.google.com.br/maps?hl=pt-BR&tab=wl ).
[6] GRAPHVS (2012): Graphvs Cons. Com. & Rep. Ltda. ( www.graphvs.com.br/Xnes )
[7] IBAM (2001), Manual Gerenciamento Integrado de Resduos Slidos. Secretaria Especial do
Desenvolvimento Urbano (SEDU), Governo Federal.
[8] IBGE (2012): http://www.ibge.gov.br, Censos 2000 e 2010.
[9] KAPPAUF, C., H. KOEHLER (1979),The mixed postman problem. Discrete Applied Mathematics
1, 89-103
[10] LINDO (2012)Systems, ( www.lindo.com )
[11] NEGREIROS GOMES, M. J. , COELHO, W.R., PALHANO, A.W.C, COUTINHO, E.F, CASTRO,
G.A, NEGREIROS, F.J, BARCELLOS, G.C, RESENDE, B.F, PEREIRA, L.W.L (2009), O
Problema do Carteiro Chins, Algoritmos Exatos e um Ambiente MVI para Anlise de suas
Instncias: Sistema XNS. Pesquisa Operacional, .29, 323-363
[12] NEGREIROS GOMES, M. J. , PALHANO, A.W.C (2011a), Strategies for design routes to urban
garbage collection. Optimisation Days2011, HEC-Montreal.
[13] NEGREIROS GOMES, M. J. , PALHANO, A.W.C (2011b), Line graph transformations to the Euler
tour with moviment prohibition Problem. Annals of IFORS2011, Melbourne-Austrlia.
[14] NOBERT, Y.; PICARD, J-C (1996), An optimal algorithm for the Mixed Chinese Portman Problem.
Networks 27, 95-108
[15] RIGONATTI, A. ; SOUZA, L. D. (2011), Otimizao de Rotas em Caminhes de Coleta de Lixo
Urbano. TCC Eng de Produo, Universidade Anhembi Morumbi, p. 45.
[16] SHERAFAT H. (1988), Uma Soluo para o Problema do Carteiro Chins Misto, Anais do IV
CLAIO XXI SBPO, 157-170, Rio de Janeiro.

45
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 46-52

Vt
Vt H
REGRESIN NO PARAMTRICA: ESTIMADOR
POLINOMIAL LOCAL
N. Boukichou-Abdelkader*, M.. Montero-Alonso**; A. Muoz-Garca***
y P. N. Canrio****
*Centro de Investigacin Ceiis - IdiPAZ. Hospital Universitario La Paz. Madrid. Espaa.
**Departamento de Estadstica e Investigacin Operativa, Universidad de Granada, Espaa.
***Departamento de Estadstica, Universidad Carlos III de Madrid, Espaa.
****C3i, Polytechnic Institute of Portalegre, P -7300 -110, Portalegre, Portugal.

ABSTRACT
The Nonparametric Regression techniques achieve a better fit to the available data by obtaining closer estimations to the
underlying regression curve. This is possible using information directly provided from the data without making rigid
parametric models. Using kernSmooth, locpol, locfit and sm libraries of the R statistical software, univariate methods called
local polynomial regression have been explored as a good solution, given their good theoretical properties and their desirable
features of interpretability and simplicity in practice, making a polynomial fit to the observations that fall in the band,
automatically correcting border effects. Therefore, the intended objective is to facilitate better modeling of data from a study
on the captopril drug, adjusting as much as possible to them by local polynomial estimator curve, as well as providing a better
interpretation of them in order to obtain good conclusions, main object of study in applied health sciences.

KEYWORDS: Nonparametric Regression, R Software, Local Polynomial Regression.

RESUMEN
Las tcnicas de Regresin No Paramtrica logran una mejor adaptacin a los datos disponibles, mediante la obtencin de
estimaciones ms prximas a la curva de regresin subyacente. Esto es posible usando la informacin suministrada
directamente desde los datos, sin formular rgidos modelos paramtricos. Utilizando las libreras kernSmooth, locpol, locfit y
sm del software estadstico R, se han explorado mtodos univariantes denominados mtodos de regresin polinomial local
como una buena solucin, dadas sus buenas propiedades tericas y sus deseables caractersticas de interpretabilidad y sencillez
en la prctica. Este mtodo realiza un ajuste polinomial con las observaciones que caen en la banda, corrigiendo de forma
automtica los efectos frontera. Dicho estimador queda determinado por tres parmetros fundamentales: el ancho de banda, la
funcin ncleo y el grado p. Por tanto, el objetivo que se pretende es facilitar mejor el modelado de los datos estudiados
ajustndose lo mximo posible a ellos mediante la curva del estimador polinomial local, as como, ofrecer una mejor
interpretacin de los mismos con objeto de obtener unas buenas conclusiones, objetivo principal del estudio.

1. INTRODUCCIN

El rpido avance que ha experimentado la Estadstica Computacional en las ltimas dcadas ha


desarrollado nuevos campos dentro de la Estadstica, que eran impensables, dado los costosos procedimientos
de clculo que requeran. Un ejemplo de este tipo lo constituyen los enfoques no paramtricos del Anlisis de
Regresin. Se pretende explorar las tcnicas de regresin no paramtrica ms habituales y las capacidades que
R incorpora actualmente para su aplicacin prctica, estableciendo los elementos tericos fundamentales de
sta, desde la propia formulacin del modelo.

Para cualquier estudio de regresin se definen dos vas de solucin, por un lado la regresin
paramtrica o clsica que presenta la ventaja de ser ms sencilla y menos costosa desde el punto de vista
computacional, pero que suele ser muy poco flexible y de difcil adaptacin en situaciones complejas.
Paralelamente y no necesariamente en contraposicin (puesto que ambas pueden ir de la mano) estara la
regresin no paramtrica, destacando fundamentalmente su flexibilidad, ya que permite una mejor adaptacin
a diversas situaciones y problemas, si bien requiere de un elevado coste computacional y una mayor
complejidad desde el punto de vista terico.

Adems, se plantea el conocido problema de la dimensionalidad, introduciendo mtodos que


permiten salvar dicho problema, como son los modelos de regresin aditivos no paramtricos. Estos modelos
se caracterizan fundamentalmente porque la naturaleza de los efectos de las variables explicativas sobre la

46
variable de respuesta se consideran de forma individual, lo que obviamente permite ganar en simplicidad y en
interpretabilidad.

Asociado a los mtodos de regresin no paramtrica (univariantes o multivariantes) se introduce uno


de los problemas tcnicos cruciales en la prctica, la eleccin del parmetro de suavizado o ancho de banda,
que define la complejidad del modelo. Desde el punto de vista terico se formula el problema de seleccin y
se perfilan los distintos mtodos diseados para su seleccin automtica. En concreto se distingue entre los
mtodos basados en la metodologa plug-in, los basados en el criterio de validacin cruzada y los
procedimientos basados en Bootstrap.

El tratamiento que se ha hecho de dichos mtodos, ha sido dirigido fundamentalmente hacia la


prctica, de este modo no se ha profundizado en aspectos tericos de complejidad como son los estudios de
tipo asinttico. Bajo tal perspectiva se han explorado mtodos univariantes, perfilndose los denominados
mtodos de regresin polinomial local como una buena solucin, dadas sus buenas propiedades tericas y sus
deseables caractersticas de interpretabilidad y sencillez en la prctica. Todo ello se ha realizado en el entorno
de anlisis y programacin estadstica mediante R1 con algunas libreras especficas para la aplicacin prctica
de los mtodos de regresin no paramtricos, desarrollndose algunas aplicaciones prcticas centradas en los
modelos de regresin univariante. En esta lnea, se han ilustrado los mtodos de regresin no paramtrica para
distintos conjuntos de datos.

2. MTODO
Sea un conjunto de n observaciones, {( X i , Yi ), i = 1,..., n}, de una variable aleatoria bidimensional,
( X , Y ), satisfaciendo el modelo,
Yi = m( X i ) + i i = 1,..., n,
donde los residuos i son variables aleatorias independientes con media cero y varianza 2 ( X i ) y la
funcin m es desconocida y se define como la funcin de regresin, m( x) = E[Y X = x] . Este planteamiento
univariante basado en un diseo aleatorio, donde las observaciones constituyen una muestra aleatoria de la
poblacin ( X , Y ) y las varianzas de los errores se suponen distintas.

Para alcanzar tales objetivos se puede optar por una regresin paramtrica, y supone que la funcin
de regresin desconocida, m, pertenece a alguna familia paramtrica de funciones, m {m } mediante
mnimos cuadrados. La regresin no paramtrica ([1], [2] y [3]), no asume ninguna forma paramtrica para la
funcin m, y la nica restriccin que se le impone es que sea suave, entendiendo esta suavidad en trminos de
derivabilidad.

Los primeros estimadores de regresin no paramtrica propuestos fueron los sencillos estimadores de
tipo ncleo [4] y [5], estimadores que se han ido refinando y perfeccionando dentro de los denominados
mtodos de regresin polinomial local, convirtindose en uno de los mtodos ms empleados por diversos
analistas en la actualidad, ya que obtiene un estimador sencillo y corrige de forma automtica los efectos
frontera.

La regresin polinomial local2 supone que la funcin de regresin m, tiene p derivadas en un punto
x0, obtenindose una aproximacin para los valores en un entorno de x0.

1
Cada vez son ms habituales realizar estudios con R, software libre y de gran versatilidad, que permite utilizar libreras ya creadas y
adaptarlas a nuestras necesidades. Para los mtodos de regresin no paramtrica existen funciones disponibles en la librera bsica stats,
pero la utilizacin ms adecuada para dichos mtodos se puede conseguir a travs de funciones incorporadas en varias libreras
adicionales y que actualmente estn disponibles en la web, como son kernSmooth, locpol, locfit, sm y psplines, que recogen funciones que
calculan la estimacin de la densidad y de la funcin de regresin, el clculo de cantidades tiles asociadas a los ncleos, funciones para
el clculo directo de los estimadores, donde se implementan estimadores de tipo ncleo y de tipo polinomial local y funciones para la
seleccin del parmetro de suavizado mediante los mtodos plug-in, validacin cruzada y la sencilla regla del pulgar. Todas estas
libreras se pueden descargar en http://cran.es.r-project.org.
2
Dicho estimador queda determinado por tres parmetros fundamentales: el ancho de banda, la funcin ncleo y el grado p.

47
m' ' ( x0 ) m( p) ( x0 )
m( x) m( x0 ) + m' ( x0 )(x x0 ) + ( x x0 )2 + ... + ( x x0 ) p ,
2! p!
es decir, se puede aproximar localmente m por funciones polinmicas de grado p

p
Pp ( x ) =
j=0
j ( x x0 ) j ,

obtenindose estimaciones de los coeficientes j con j = 0 ,..., p .

Con el fin de estimar m localmente mediante polinomios de grado p se considerara un problema de


mnimos cuadrados ponderados:
2
n p
min
i =1
Y i


j=0
j ( X i x0 ) k h ( X i x0 )
j


donde h es un parmetro denominado ancho de banda o parmetro de suavizado que controla las
observaciones que caen en cada entorno, K h ( u ) = h 1 K ( uh ) , donde la funcin K () , se denomina funcin
ncleo. Dicha funcin define las ponderaciones que se asignan a cada observacin en el entorno local
considerado. Habitualmente se supone una densidad simtrica y con soporte compacto, y p es el grado del
ajuste polinomial local.

3. ESTUDIO REALIZADO
Se ha realizado un anlisis con datos reales donde se han utilizado los datos Captopril and blood
pressure, ya utilizados en otros estudios ([6], [7], [8], [9], [10], [11], [12], [13] y [14]). Estos datos
corresponden a un estudio sobre el medicamento captopril en 15 pacientes con presin arterial alta y que van
a iniciarse con este tratamiento. Se trata de anotar la presin arterial en 4 momentos de tiempo tras la toma de
este frmaco y observar la alteracin que presenta en estos pacientes. Este medicamento pertenece al grupo
farmacolgico de los llamados inhibidores ECA (angiotensina). Se usa para tratar la presin alta. Tambin se
usa para ayudar a retrasar el mayor debilitamiento del corazn en algunos pacientes despus de un ataque al
corazn y para tratar problemas del rin en algunos pacientes diabticos que usan insulina para controlar su
diabetes y para tratar el fallo congestivo del corazn.

Con los datos de este frmaco administrado en los pacientes, se procede a ilustrar los mtodos de
regresin no paramtrica univariantes descritos anteriormente. Para ajustar el estimador polinmico local de
grado p se utilizar la funcin locpoly de la librera KernSmooth. El uso de dicha funcin se har
considerando en primer lugar una eleccin arbitraria del parmetro de suavizado o ancho de banda. En este
caso se ha considerado h = 0.25, no obstante tal y como se ilustrar despus, es posible utilizar elecciones
automticas, ms refinadas, como los criterios de seleccin cross-validation y plug-in.

En cuanto a la funcin ncleo considerada, la funcin locpoly por defecto usa ncleos normales
(argumento kernel =normal), y en este ejemplo se ha dejado dicha eleccin por defecto. De este modo se
comparar el resultado usando diferentes grados tal como muestra la Figura 3.1. Conforme se va aumentando
el grado del estimador polinmico local, las estimaciones son ms irregulares (concretamente en los extremos
y en la parte central), intentando capturar en mayor medida las observaciones consideradas. Ntese que esto
supone estimaciones que pagan la disminucin en el sesgo con un incremento notable de la variabilidad.
Tambin es notable ver cmo el incremento de p = 1 hasta p = 2 no supone una mejora del modelo (ni en
sesgo ni en variabilidad), siendo preferible usar grados impares frente a los inmediatamente consecutivos
pares [2].

48
Finalmente, se puede ver cmo las diferencias entre el estimador de Nadaraya-Watson [4] que
considera ajustes locales constantes (p = 0) no presentan mayores diferencias en las proximidades a las
fronteras, debido a que los ajustes lineales locales (p = 1) permiten una correccin automtica de los efectos
frontera (para ms detalles ver [1] o [2]).

A continuacin, se ilustra otro mtodo de suavizamiento para dichos datos mediante un estimador de
tipo spline. Existen funciones para dicho propsito en varias libreras de R (SemiPar, ssplines, esplines, etc.,
adems de la funcin smooth.spline dentro de la librera base stats). En este caso se ha considerado esta
ltima funcin y comparado con el resultado ofrecido por la funcin sm.spline, que implementa el estimador
descrito en Heckman y Ramsay [15] contenida en la librera pspline. Dicho estimador se define con un
parmetro de suavizado que por defecto considera un criterio basado en validacin cruzada o validacin
cruzada generalizada, dejando por defecto las definiciones que considera
dicha funcin. A efectos comparativos, tambin se ha incluido el estimador lineal local con ancho de banda
plug-in. De este modo, una vez generado el cdigo para dicho ajuste, los resultados ofrecidos se reflejan en la
Figura 3.2.

Figura 3.1: Estimador polinmico local de grado p para los datos del
medicamento captopril. La variable x son pacientes con captopril y la variable y es
presin arterial. El tamao de la hoja de datos es n = 60.

La Figura 3.2 muestra los ajustes realizados para los diferentes estimadores. Como se puede
observar los estimadores de tipo spline son idnticos, mientras que se puede ver que el ajuste del estimador
lineal local ofrece una estimacin ms suavizada que la de los splines.

El siguiente objetivo ser comparar todos los procedimientos disponibles para la seleccin del ancho
de banda, asociado al estimador lineal local. Los procedimientos para seleccionar el ancho de banda
considerado son los mtodos plug-in, validacin cruzada y la sencilla regla del pulgar. Agrupando las
funciones segn la metodologa de seleccin que implementan, se pueden hablar de selectores de tipo plug-in
(como la funcin dpill que forma parte de la librera KernSmooth, implementando el mtodo de Ruppert,
Sheather y Wand [16], y la funcin pluginBw dentro de la librera Locpol, que implementa el mtodo descrito

49
en las pginas 110-112 del libro de Fan y Gijbels [2]) y de selectores basados en Validacin Cruzada (la
funcin regCVBwSelC de la librera Locpol y la funcin h.select en sm).

Usando dichas funciones y dado que el objetivo es el parmetro de suavizado, se vuelve a fijar la
eleccin de la funcin ncleo de tipo gausiano. De esta forma, una vez implementado el correspondiente
cdigo, los resultados obtenidos para los parmetros de suavizado (h1, h2, h3 y h4) han sido, respectivamente:
1.841201; 0.5026756; 1.499924 y 8.713453.

Figura 3.2: Estimador de tipo spline.

Si se observan estos resultados se ve que en el clculo de h2, el parmetro segn el mtodo plug-in
dentro de la librera locpol, obtiene un valor muy pequeo en comparacin con los otros. En este caso, se
debera estudiar el procedimiento implementado puesto que si se observa la estimacin resultante (Figura
3.3), la curva estimada sufre de algunas irregularidades debido a la escasez de observaciones. Sin embargo, el
resultado correspondiente a los criterios basados en validacin cruzada (h3 y h4) son bastante diferentes,
observndose grandes diferencias que tendr que ver con la implementacin concreta que se ha hecho del
mtodo (en concreto con la rejilla de minimizacin definida para el criterio). Tambin, si se observa h1,
parmetro segn el mtodo plug-in dentro de la librera KernSmooth, el resultado es bastante parecido al de
h3, como se puede apreciar en las curvas estimadas, por lo que el mejor ajuste viene desde el mtodo de
validacin cruzada que implementa la funcin regCVBwSelC de la librera Locpol, que toma como ancho de
banda 1.50.

4. CONCLUSIONES
El frmaco captopril se usa principalmente para tratar la presin alta en pacientes hipertensos aunque
tambin se puede utilizar para otras condiciones segn lo determine el mdico (como insuficiencia cardaca,
infarto de miocardio y nefropata diabtica).

La utilizacin del mtodo de regresin polinomial local con estos datos reales es una buena solucin
de resultados, dadas sus buenas propiedades tericas y sus deseables caractersticas de interpretabilidad y
sencillez en la prctica. En la aplicacin se ha utilizado el software R como entorno de anlisis y
programacin estadstica y en concreto, algunas de las libreras especficas del mismo.

50
Tras implementar directamente el estimador polinomial local y obtenido su resultado, se ha realizado
una comparacin con el estimador de tipo Spline y con el mismo estimador variando uno de los parmetros
principales, como es el ancho de banda, con la finalidad de cotejar los resultados obtenidos.

Figura 3.3: Estimador lineal local con distintos h.

Los resultados logrados mediante la aplicacin de estas tcnicas sobre los datos del frmaco captopril
se pueden enumerar en los siguientes puntos:

 El estimador polinomial local se ajusta bastante bien a los datos en los grados ms bajos,
concretamente en los grados cero y uno (grados impares), y en grados ms altos, las estimaciones tienden
a presentar ms irregulares intentando capturar en mayor medida las observaciones examinadas.
 El estimador de tipo spline implementado, mediante distintas funciones, ofrece resultados
idnticos, que comparndolos con el ajuste del estimador lineal local, este ofrece una estimacin ms
suavizada que la de los splines aplicados.
 El estimador polinomial local utilizado con diferentes procedimientos para seleccionar el
ancho de banda, concretamente mediante los mtodos plug-in, validacin cruzada y la sencilla regla del
pulgar, presenta distintas irregularidades en la curva estimada, siendo el mejor ajuste obtenido el
implementado con el mtodo de validacin cruzada.

En definitiva, en la interpretacin trasladada a los pacientes reales se puede decir que las presiones
arteriales entre 120 y 170 pueden llegar a estabilizarse a los rangos normales mediante el frmaco captopril,
mientras que, las tensiones ms altas probablemente para que puedan normalizarse y se pueda apreciar una
buena disminucin de la presin arterial deba administrarse en combinacin con otros frmacos de la misma
clase y con efectos equivalentes.

51
REFERENCIAS

[1] WAND, M. P. and JONES, M. C. (1995): Kernel Smoothing. Chapman and Hall, London.
[2] FAN, J. and GIJBELS, I. (1996): Local polynomial modelling and its applications. Chapman and Hall,
London.
[3] LOADER, C. (1999): Local Regression and Likelihood. Springer, New York.
[4] NADARAYA, E.A (1964): On estimating regression. Theory Probab. Appl, 9, 141-142.
[5] WATSON, G. S. (1964): Smooth regression analysis. Sankhya Serie A, 26, 101-116.
[6] HEEL, R. C., BROGDEN, R. N., SPEIGHT,T. M. and AVERY, G. S. (1980): Captopril: A Preliminary
Review of its Pharmacological Properties and Therapeutic Efficacy. Journal Drugs, 20 (6), 409-452.
[7] MANCIA, G., PARATI, G., POMIDOSSI, G., GRASSI, G, ,BERTINIERI, G., BUCCINO, N.,
FERRARI, A., GREGORINI L., RUPOLI, L. and ZANCHETTI, A. (1982): Modification of arterial
baroreflexes by captopril in essential hypertension. The American Journal of Cardiology, 49 (6), 1415-
1419.
[8] FROHLICH, E., COOPER, R. and LEWIS, E. (1984): Review of the Overall Experience of Captopril in
Hypertension. JAMA Internal Medicine, 144 (7), 1441-1444.
[9] STEINER, S.S., FRIEDHOFF, A.J., WILSON, B.L., WECKER, J.R. and SANTO, J.P. (1990):
Antihypertensive therapy and quality of life: a comparison of atenolol, captopril, enalapril and propranolol.
Journal of Human Hypertension, 4 (3), 217-25.
[10] LACOURCIERE, Y., NADEAU, A., POIRIER, L. and TANCREDE, G. (1993): Captopril or
conventional therapy in hypertensive type II diabetics. Three-year analysis. Journal of the American Heart
Association, 21, 786-794.
[11] TESTA, M.A., ANDERSON, R.B., NACKLEY, J.F. and HOLLENBERG, N.K. (1993): The Quality-
of-Life Hypertension Study Group: Quality of life and antihypertensive therapy in men: A comparison of
Captopril with Enalapril. The New England Journal of Medicine, 328, 907-913.
[12] RUBIO, A. F., VARGAS, G., RODRGUEZ, L., LOZANO, J.J. and TREJO, N. (1998): Valoracin de
tres frmacos para el manejo no parenteral de las crisis hipertensivas. Rev. Med. interna Mx. 14 (3), 89-92.
[13] OLMEDO, V. H., ROSAS, M. and CAMPOS, G. (2000): Comparacin de la eficacia entre captopril
sublingual contra placebo en urgencias hipertensivas. Rev. Med. interna Mx. 16 (6), 303-307.
[14] NEZ, M. (2012): Eficacia del Captopril vs Amlodipino en el tratamiento de crisis hipertensiva tipo
urgencia en el Servicio de Emergencias del Hospital Provincial Docente Ambato en el periodo Noviembre
2010 - Febrero 2011. Repositorio CENI-UTA. Disponible en:
http://repo.uta.edu.ec/handle/123456789/920.
[15] HECKMAN, N. and RAMSAY, J.O. (1996): Spline smoothing with model based penalties. McGill
University, unpublished manuscript.
[16] RUPPERT, D., SHEATHER, S. J. and WAND, M. P. (1995): An effective bandwidth selector for local
least squares regression. Journal of the American Statistical Association, 90, 12571270.

52
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 53-66

Vt I
STUDIES OF CANCER PROBLEMS USING RANKED SET SAMPLES
A. I. Al-Omari*, C. N. Bouza**, A. Santiago *** and J. M. Sautto***
* Al al-Bayt University, Faculty of Science, Department of Mathematics, Jordan
**Universidad de La Habana, Cuba.
***Universidad Autnoma de Guerrero

ABSTRACT
We present some studies on cancer issues where samples are needed. Ranked set sampling (RSS) is
considered as a challenging model and it is compared with the behavior of simple random sampling
(SRS). The accuracy of RSS methods is larger than SRS. These results suggest that RSS allows
increasing the accuracy for a fixed cost or reducing the costs for a fixed error.

KEYWORDS: RSS, SRS, tumor size, ratio, quantile, mean variance

RESUMEN
Presentamos algunos estudios de problemas de cncer en los que se utilizan muestras. El muestreo por
conjuntos ordenados (Ranked set sampling, RSS) es considerado como un modelo competitivo y se
compara con el comportamiento del muestreo simple aleatorio (MSA). La precisin de los mtodos
basados en RSS es mayor que la del MSA. Estos resultados sugieren que el RSS permite incrementar
la precisin para un costo fijo o reducir los costos para un error fijo.

1. INTRODUCTION

In this chapter, we will present some studies where the well known ranked set sampling (RSS)
methods as well as some of its modifications are applied. The RSS was first suggested by McIntyre (1952) for
estimating the population mean of pasture and forage yields. He claimed without proof that RSS was more
accurate than simple random sample, its efficiency for estimating the higher population moments is better
than that of SRS unless if the underlying distribution is rectangular in shape. Takahasi and Wakimoto (1968)
have given a mathematical theory of RSS.

The usual sampling designs are characterized as follows:

Definition A randomly selected sample from a larger sample or population, giving all the individuals in the
sample an equal chance to be chosen. (Cochran 1977).

RSS may be considered as a controlled random sampling design. It can be described as follows:
Step 1: Randomly select m2 units from the target population.
Step 2: Allocate the m2 selected units as randomly as possible into m sets, each of size m.
Step 3: Without yet knowing any values for the variable of interest, rank the units within each set with respect
to variable of interest. This may be based on personal professional judgment or done with
concomitant variable correlated with the variable of interest.
Step 4: Choose a sample for actual quantification by including the smallest ranked unit in the first set,
the second smallest ranked unit in the second set, the process is continues in this way until the largest
ranked unit is selected from the last set.
Step 5: Repeat Steps 1 through 4 for n cycles to obtain a sample of size mn for actual quantification.

For fixing some ideas, consider a random sample from a distribution F(x), which admits a density
function f (x), with a mean and a variance 2. With compared to SRS, RSS uses one unit, namely,
X 1(1:m ) , the lowest unit from this set, then X 2(2:m ) , the second lowest unit from another independent set of m
units, and finally X m ( m:m ) , the largest unit from a last set of m units. This process can be described in Figure

53
1. It is important to emphasize here, that although RSS require identification of as many as m2 units, but only
m of them.

(X 1(1:m ) ) X 1( 2:m ) X 1(( m 1):m ) X 1( m:m )


X 2(1:m ) (X 2( 2:m ) ) X 2(( m 1):m ) X 2( m:m )
M M M M M
X m (1:m ) X m (2:m ) X m (( m1):m ) (X m ( m:m ) )
Figure 1: Display of m2 units in m sets of m each

The final m units X 1(1:m ) , X 2(2:m ) ,..., X m ( m:m ) , are independent but not identically distributed, but
Xi(i:m), is the ith order statistic in a random sample of size m from F(x). Thus making a comparison of a RSS of
size m with a SRS of the same size m is meaningful. Obviously, RSS would be a serious contender to SRS in
case where the task of assembly of the sampling units is easy and their relative rankings in terms of the
characteristic under study can be done with trivial cost.

The RSS sample mean and variance are


m
(2i:m )
m
X i ( i:m )
X RSS = i =1
, Var ( X RSS ) = i =1
.
m m
The efficiency of RSS depends on the sampling allocation, either balanced or unbalanced. The
balanced RSS features an equal allocation of the rank order statistics. It has been proven theoretically and
demonstrated empirically that the variance of the balanced RSS estimator is no greater than that of the SRS
estimator regardless of ranking errors or the form of the underlying distribution of the characteristic of
interest.

In simple random sampling (SRS) the sampler must increase the sample size to increase the chance
of covering the full range of possible values and there is no other chance. With RSS, however, we increase the
representativeness with a specific number of sample units. Hence there is a saving considerably on the
quantification costs. With the ranked set sample thus measured, it can be shown that unbiased estimators of
many important population parameters can be obtained, including the mean and, in case of more than one
cycle, the variance. The relative precision (RP) of RSS with respect to SRS is defined as
Var ( X SRS ) m + 1
RP = 1, . Note that the RSS method cannot be worse than the SRS method (Patil
Var ( X RSS ) 2
1
2002; Takahasi and Wakimoto 1968). It is usual analyzing the behavior of RSS using GRP = 1 .
RP
Stokes (1977) studied RSS with concomitant variables. She assumed that the variable of interest X
has a linear relation with other variable Y that is easy to rank, and showed that (:) =  , where is
the correlation between X and Y, and

1 m E (Y( i:m ) ) y
2
1 m (i:m ) x
2

RS[ X :Y ] =
m i =1 x
, RS Y =
m i =1
.

y

She showed that, RS X = RSY if X Y up to a linear transformation, since the relative savings
are unaffected by linear transformations of the variable of interest.

54
Commonly RSS behaves better if we repeat the procedure n times for obtain g a sample of size nm.
Then, if n > 1 we deal with

)=
n m
(2i:m )
m
X i ( i:m ) r
X RSS = r =1 i =1
nm
(
, Var X RSS i =1

nm
.

Some related important results are:

Kaur et al. (1996): compared RSS and stratified SRS when using a concomitant variable based on
equal and optimum allocation of units for estimating the population mean.
Patil et al. (1997) investigated the effect of the sample size upon the performance of the balanced
RSS for estimating the population mean.
Hossain (2001) suggested a nonparametric approach for the modified RSS method for estimating the
population mean, namely, nonparametric selected ranked set sampling.
Wang et al. (2004) proposed estimator of the population mean using the general ranked set sampling
in which more than one observation can be chosen from each ranked set.
Al-Saleh and Al-Kadiri (2000) introduced the double RSS procedure (DRSS) for estimating the
population mean. They showed that the ranking at the second stage is easier than ranking at the first
stage, and also the DRSS estimator is more efficient than that using RSS with respect to SRS based
on the same sample size.

2. REVIEW ON SOME PREVIOUS APPLICATIONS OF RSS

Fortunately, in many fields, such as in medicine, environment, biology and agriculture, the variable of interest
is not easily measured, but it can be easily ranked with cheap or free cost. The RSS can be implemented to
yield more efficient estimator of the population parameters as compared to SRS based on the same number of
quantified units. Here, some examples on reported applications of RSS in real situations will be given.

Evans (1967) applied RSS to regeneration surveys in areas direct-seeded to longleaf pine. He noted
that the means based on both of RSS and SRS methods were not significantly different, but the computed
variances of the means were very different. Martin et al. (1980) applied the RSS procedure for estimating
shrub phytomass in Appalachin Oak forests. Cobby et al. (1985) conducted four experiments at Hurley (UK)
during 1983 to investigate the performance of RSS relative to SRS for estimation of herbage mass in pure
grass swards, and of herbage mass and clover content in mixed grass-clover swards. Johnson et al. (1993)
applied RSS method to estimate the mean of forest, grassland and other vegetation resources. Mode et al.
(1999) investigated under which conditions the RSS becomes a cost-effective sampling method for ecological
and environmental field studies where the rough but cheap measurement has a cost. They have introduced
formula for the total cost for both RSS and SRS, and present cost ratios for a real data set consisting of
judgment estimated and physically measured stream. Al-Saleh and Al-Shrafat (2001) studied the performance
of RSS in estimation milk yield based on 402 sheep. Al-Saleh and Al-Omari used the MSRSS to estimate the
average of Olives yields in a field in West of Jordan. Husby et al. (2005) investigated on the use of the RSS in
estimation of the mean and median of a population using the crop production dataset from the United State
Department of Agriculture. They found that the gain in efficiency for mean estimation using RSS is better for
symmetric distribution than asymmetric distribution, and vice versa in the case of median estimation.
Kowalczyk (2005) applied the RSS procedure in market and consumer surveys. Ganeslingam and Ganesh
(2006) applied the RSS method to estimate the population mean and the ratio using a real data set on body
measurement. The authors used the data of the weight and height of 507 individuals. Halls and Dell (1966)
coined McIntyres method as RSS and applied it for estimating the weights of browse and herbage in a pine-
hardwood forest of east Texas, USA.

55
3. ESTIMATION USING RSS

Let nm units be selected randomly from the target population and these units be randomly allocated into n
sets, each of size m units. From each set of size m one unit will be selected to get n measured units. We
consider some well know RSS estimators

3.1. Estimation of the population mean

( )
2
X i (i:m )r , Var ( X ) = i =1 (2i:m)
n m m m
2 i =1
=
(i )
X RSS = r =1 i =1 RSS ,
nm nm nm nm2
where E ( X i ( i:m ) ) = ( i ) .
It is clear that generally it is more efficient than

2
nm
Xi
X SRS = i =1
, Var ( X SRS ) = .
nm nm
Consider that the units to be quantified were chosen as in the following steps. First, let l1,,lm be
positive integers such that l1++lm =n. After ranking the units within each set with respect to the variable of
interest, the lowest ranked unit is measured from the first l1 sets; the second lowest ranked unit is measured
from the next l2 sets, and so on until the highest ranked unit is quantified from the last lm sets. Let Ti be the
sum of measurements of the ith ranked units for i = 1,2,..., m . Therefore, the unbiased RSS estimator of
1 m Ti
is X RSS = . The Neyman allocations fixes that li (i:m) . We have that
m i =1 li

m (2i:m )
i =1
li
if RSS is balanced
Var ( X RSS ) =
2
m

( )
2

i =1 (i:m )
m

if RSS Neyman allocation is used.


nm2

Some alternative estimators for the mean have been developed. We revise some of them.

Al-Saleh and Al-Omari (2002) introduced a multistage ranked set sampling (MSRSS) as a
generalization of the DRSS. The MSRSS procedure can be described as:
Step 1: Randomly select mr+1 units from the target population, where r is the number of stages and m
is the sample size.
Step 2: Allocate the mr+1 selected units as randomly as possible into mr-1 sets, each of size m2.
Step 3: For each set in Step (2), use the procedure of balanced ranked set sampling as described in Section
2.2.2 to obtain a ranked set sample of size m. This step yields mr-1 ranked set samples each of size m.
Step 4: Repeat Step (3) on the mr-1 ranked set samples to obtain mr-2 second stage RSS samples each of size
m. The process continues until we end up with one rth stage RSS of size m.

Suppose that the variable of interest X has mean , and variance 2 with a pdff ( x) and cdf
(r )
F ( x) . Let X , X ,..., X
1
(r )
2
(r )
m be a MSRSS of size m at stage r, with mean , variance i2( r ) , pdf
i
(r )

fi ( x) and cdf Fi ( x ) ( i = 1, 2,..., m ) .


(r ) (r)

The authors derived that:

56
( )
2

m
i =1 fi ( r ) ( x) i =1 fi (r ) ( x) 2( r )
m m m (r )

2 = + i =1 i
f ( x) = , = , i =1 i
.
m m m m
The inferences on the population mean are developed using:

( )
2

)=
m
i =1 X i( r ) 2( r )
m
2
m (r )

V ar ( X MSRSS = i =1
i =1 i i
=
(r ) (r )
X MSRSS , 2
.
m m m m2

( )
m (r ) 2
i =1
= 1+
(r ) i
The RP at the rth stage is RP .

m 2( r )
i =1 i

The authors defined a steady state efficiency of RSS at stage r to be as eff ( ) = lim eff ( r ) , and derived
r

0, x < Q(i 1)/ m



Fi ( ) ( x) = Lim Fi ( r ) ( x) = m F ( x) (i 1), Q(i 1)/ m x < Qi / m
r

1, x Qi / m ,
Q

where Q is the quantity which satisfies f ( x)dx = , (0,1) .



() mf ( x ) if x Q , Q
So that fi ( x) f i ( x) =
(r ) i 1 i
m m.

0 otherwise

m 1 i
if x i ,
Hence if X U (0, ) , then f i ( )
( x) = m m and eff
( )
= m2 .
0
otherwise

Muttlak (1998a) conducted a study of the performance of MRSS to estimate the population mean of
a variable of interest when the ranking is based on a concomitant variable. Also, based on an auxiliary
variable the regression estimator is proposed to estimate the population mean. According to this study,
Muttlak showed that the MRSS estimator is more efficient than RSS and regression estimators.

For mean estimation based on RSS some other modifications have been developed:
Samawi et al. (1996) suggested a variety of extreme RSS.
Muttlak (1997) suggested a median ranked set sampling.
Samawi (2002) suggested double extreme ranked set sampling.
Yu and Lam (2002) proposed the RSS in the presence of concord data.
Al-Saleh and Al-Hadrami (2003) investigated the moving extremes RSS parametrically for
estimating the location parameter of symmetric distributions.
Muttlak et al. (2003) considered the random selection introduced by Li et al. (1999) based on RSS.
Muttlak (2003a,b) suggested percentile and quartile RSS methods.
Rahimov and Muttlak (2003) extended the random selection in RSS suggested by Li et al. (1999) for
estimating the population mean.

57
3.2. Estimation of the variance

The SRS estimator of the population variance 2 is given by

(X X SRS )
mn 2

SRS = i =1
2 i
.
mn 1
An earlier work for estimating the population variance is Stokes (1980a). Based on judgment ordered using
balanced RSS she defined

(X X RSS )
n m 2
j =1 i =1
RSS
( i:m ) j
2
= .
mn 1
X ( i:m ) j is the quantification of the ith ranked unit in a set of size m in the jth replicate. She showed that it is a
biased estimator because

( )
m 2

E ( ) = + i =1
2 2 ( i:m )
.
nm 1
RSS

Clearly the bias approach to zero as nm becomes large. The performance of this estimator was
Var ( SRS
2
)
investigated and derived that lim RP = 1 . The author concluded that the gain in efficiency
n MES ( RSS
2
)
of RSS over SRS is little when estimating higher moments.

MacEachern et al (2002) proposed to use as estimator


RSS
2
(M ) = M 1 + M 2 ,
2 2

where

(X X (s) j ) (X X (r ) j )
m m 2 n m m 2
r s j =1 i =1
r =1 j =1 i =1
( r )i

( r )i
2
= ;
2
= .
2m(m 1) 2 n 2
M1 M2
2m n 22

It is unbiased.

Perron et al. (2004) developed a nonparametric study for the estimation of the population variance
2
under ranked set sample.

3.3. Estimation of the population ratio

Y
The population ratio of two variables X and Y is defined as R = . The SRS estimator of the population
X
Y
ratio is R SRS = . This estimator. Samawi and Muttlak (1996) suggested an estimator of the population ratio
X
Zi (i:m) , Z = X , Y . The ranking of X is
m
Y

using ranked set sampling as R RSS = RSS , taking Z RSS = i =1
X RSS m
considered perfect while the ranking of Y has errors. Its variance is given by

R 2 X2 Y2 X Y i =1 X ( i ) i =1 Y [i ] 2
m 2 m 2 m

(
Var RRSS ) +
m X2 Y2
2
X Y m X2
+
m Y2
2 i =1 XY ( i )

m X Y
,

58
where X ( i ) = X ( i ) X , Y [ i ] = Y [ i ] Y and XY ( i ) = ( X ( i ) X ) ( Y [ i ] Y ) .

Based on the above table it is clear that the RSS is more efficient than SRS in estimating the
population ratio.

Bouza (2001) used RSS for selecting a sample using a third variable Z related with X and Y.
Y
R RSS ( Z ) = RSS .
X RSS

The results are basically equal but they are related with a superpopulation model that links Z and Y.

Other approaches are:

Samawi and Muttlak (2001) used the median RSS to estimate the population ratio.
Samawi and Tawalbeh (2002) introduced a double median RSS for estimating the population mean
and ratio.

For more about ratio estimation in RSS see Samawi and Saeid (2004), Al-Omari et al. (2009), Al-
Omari (2012).

3.4. Estimation of the quantiles

Let X be a random variable with cumulative distribution function F(x). The pth quantile is,
p = inf { x : F ( x) p} for 0 p 1. When a sample is selected we may estimate F(x) using the
empirical distribution function

1, if X i x
Fnm ( x) = i =1 I ( X i x ) , I ( X i x ) =
mn

0, otherwise.

This is an estimator when a SRSWR sample of size nm is selected. In the case of RSS sample of size
mn we may use

1, if X (i:i ) k x
FnmRSS ( x) = k =1 i =1 I ( X (i:i ) k x ) , I ( X (i:i ) k x ) =
n m

0, otherwise.
The estimation of a quantile is obtained looking for the values of the sample quantiles. That is

mn , p = inf { x | Fnm ( x) p} , mnRSS , p = inf { x | FnmRSS ( x) p} .

The following authors have done works to estimate the pth quantile by different procedures as given
below.

Chen (2000) considered quantile estimation from balanced RSS data and found that the RSS
method can substantially improve the efficiency of quantile estimators.
Chen (2001) further generalized the results in Chen (2000) from balanced to unbalanced scheme.
Indeed, the quantile estimator considered in both Chen (2000, 2001) is based on the empirical
distribution of the pooled RSS data.
Kaur et al. (2002) proposed RSS sign test for population quantiles and identified the optimal
allocation, based on the quantile obtained, but not based on the underlying distribution.

59
Adatia and Saleh (2004) applied the generalized RSS method in estimating quantiles of the uniform
distribution.
Zhu and Wang (2004) considered quartile estimation using RSS under perfect ranking.

4. CANCER STUDIES USING RSS

In clinical trials is necessary to select a sample of patients and assign to them the new medicaments.
Generally, there is a series of control variables in the files which may be used for designing RSS protocols.
The sequel presents some applications in cancer studies. They have some issues in common:

1. A population of patients has been studied and we have full response on the variables.
2. The further development of studies need establishing how more efficient is RSS with respect to SRS.

We decided taking the data and implementing RSS strategies. B independent samples were selected
and estimates computed for each one. They were compared with the true value of the parameter using

d
B

( )
A d =
b =1

B
b
, A = RSS , SRS .

4.1. Problem 1: Estimation of tumor size

Tumor size is an important predictor of survival in patients with early-stage lung cancer. Currently lung
tumors with a baseline value larger than 3 cm need of accurate assessing and treatment. Physicians use X-
Rays as a first evaluation for predicting the base line. The accuracy of the predictions of young physicians
must be evaluated. They use the X-Rays and predict the base line for calculating the outer mass of the tumor.
Currently the outer dimensions of the tumor are measured. Then for the patients is usually obtained:
X = Outer mass of the tumor.
If base line is larger than 3 cm. a more costly process is used to evaluate the size of the tumor cavity. That is if
the case seems to be grave. Hence the patient is reevaluated using Computed tomography (CT) and two
variables are considered:
Y1 = Outer mass measured using CT
Y2 = Filling-in of cavitation.
For evaluating both a set of 351 patients was analyzed. 133 patients received doublet chemo with an
antiangiogenic agent. Some of them experienced tumor cavitation during the treatment. Another group of 118
patients were treated with chemo alone on another trial. Samples are selected using SRS and RSS for
evaluating the behavior of estimators of the population mean. The results will support the use of one or other
sampling method for selecting patients to be included in clinical trials with new medicaments. We decided
using B = 1000 and three values of m = 2, 3, 5 and n = 5,10, 20 . The results were evaluated computing
SRS (YSRS ) SRS (YSRS )
R s = , R Msr = , r = 2,3 .
RSS (YRSS ) RSS (YMSRSS
(r )
)

60
Table 1: Efficiency of RSS alternatives for outer mass of the tumor using CT and filling-in of cavitation
Outer mass of the tumor
Filling-in of cavitation
using CT
Rs RMS2 RMS3 Rs RMS2 RMS3
m=2
n=5 1.23 1.43 1.49 1.81 2.07 2.83
n = 10 1.37 1.41 1.46 2.32 2.41 2.56
n = 20 1.42 1.48 1.51 2.77 2.79 2.94
m=3
n=5 1.27 1.30 1.44 2.01 2.11 2.49
n = 10 1.26 1.42 1.58 2.93 2.92 2.97
n = 20 1.35 1.52 1.69 3.07 3.04 3.10
m=5
n=5 1.33 1.39 1.47 2.90 2.84 2.99
n = 10 1.22 1.43 1.56 3.74 3.82 3.90
n = 20 1.38 1.49 1.61 4.02 3.97 4.04

Note that RSS is more accurate than SRS, for Y1 MRSS improve substantially the efficiency but it is
not important for Y2. These results allow diminishing the sample size fixed by SRS for obtaining a certain
level of accuracy. Hence a diminishing in the Clinical Trial costs can be attained by using RSS.

4.2. Problem 2: Measurement of the ratio of the interface between tumor and neighboring structures to
maximum tumor diameter

Median arch distance-to-maximum tumor diameter ratios for pleural invasion categories are classified as PL1,
PL2 and PL3. The protocol of the Union International Center of Cancer (UICC) established the staging
considering the Table 2

Table 2: UICC protocol of median arch


distance-to-maximum tumor diameter ratios
for pleural invasion
Stage Mean (P0.25, P0.75)
PL1 0.206 (0, 0.486)
PL2 0.638 (0.385, 0.830)
PL3 1.092 (1.045, 1.214)

The data on preoperative computed tomography (CT) of 1342 patients were studied. They were
obtained form the files on 6 oncologic hospitals in the years 2009-2012. The length of the interface between
the primary tumor and neighboring structures (arch distance) and the maximum tumor diameter were
measured on CT images. The invasion categories were determined using the protocol.

X = Maximum tumor diameter,


Y = Arch distance.
Was of interest estimating a ratio of the interface between tumor and neighboring structures to
maximum tumor diameter and the mean for the stages. SRS and RSS are compared. Imai et al. (2013)
developed a study on this problem through the use of ROC-curves. We consider estimating using ratio
estimators using SRS and RSS. A third variable was used for ranking in order to evaluate the behavior of
R RSS ( Z ) . The third variable was

Z = Prediction of the tumor diameter using X-Ray.

61
The study was performed for patients in each stage. The results are given in the following table computing the
corresponding   , A = SRS , RSS , RSS ( Z ) .

The analysis of the results suggests that the use of a Z increases the accuracy if its correlating is
higher that the correlation with X. In this case the correlating ZY = 0.9763 while XY = 0.8862 . The
existence of a larger stability in the values of the variables for PL3 is clearly the cause of the drastic
diminutions of the values of   .

Another interesting problem is establishing how the intervals behave in the particular conditions of
the sampled hospitals. The quantities were estimated by using SRS and RSS. The objective is comparing the
particular behavior of the results with the suggested by UICC . The estimate of the mean and of the quantiles
were computed and compared with the standards fixed by UICC. The results of the calculated   ,
A = SRS , RSS ; d = mean , 0.25 , 0.75 given in the next tables.
Table 3: Analysis of the accuracy of the estimations of the ratios in the different stages. SRS vs RSS
PL1 PL2 PL3
RSRS R RSS R RSS ( Z ) RSRS R RSS R RSS ( Z ) RSRS R RSS R RSS ( Z )
m=2
n=5 7.31 6.33 6.33 3.63 1.78 1.23 3.04 1.50 1.21
n = 10 5.43 5.37 5.24 2.13 1.69 1.26 2.05 1.44 1.17
n = 20 4.66 2.25 2.06 2.13 2.25 1.08 2.02 1.35 1.09
m=3
n=5 4.37 3.73 3.33 3.16 1.66 1.25 2.86 1.45 1.19
n = 10 4.64 4.14 4.04 1.93 1.48 1.25 2.74 1.45 1.10
n = 20 4.29 2.11 2.03 1.61 1.17 1.19 2.53 1.40 1.07
m=5
n=5 2.26 1.71 1.21 1.69 1.36 1.20 1.19 1.15 1.12
n = 10 2.23 1.64 1.24 1.64 1.30 1.18 1.13 1.15 1.12
n = 20 2.18 1.51 1.21 1.51 1.17 1.18 1.11 1.07 1.05

Note that the results on PL1 fix that RSS is more accurate for estimating the mean. For the quantiles
the gain due to the use of RSS is considerably larger.

Analyzing the results obtained in the stage PL2 again RSS is more accurate than SRS and the larger gains are
obtained in the estimating of the quantiles.

Table 4: Analysis of the accuracy of the estimations of the ratios in PL1. SRS
vs RSS
SRS RSS
Mean 0.25 0.75 Mean 0.25 0.75
m=2
n=5 14.7 43.2 36.0 12.5 33.9 31.9
n = 10 14.3 43.2 32.4 12.0 33.9 31.4
n = 20 14.3 45.4 32.0 10.9 33.9 31.0
m=3
n=5 13.9 31.0 32.2 9.9 30.0 28.2
n = 10 13.8 30.4 32.2 9.8 30.4 28.2
n = 20 13.3 30.2 32.2 9.3 29.2 28.0

62
m=5
n=5 11.4 20.0 21.9 7.5 11.1 11.0
n = 10 11.4 20.4 21.4 7.3 11.2 10.4
n = 20 11.3 20.0 21.2 7.3 11.1 10.2
Table 5: Analysis of the accuracy of the estimations of the ratios in
PL2. SRS vs RSS
SRS RSS
Mean 0.25 0.75 Mean 0.25 0.75
m=2
n=5 14.7 43.2 36.0 12.5 33.9 31.9
n = 10 14.3 43.2 32.4 12.0 33.9 31.4
n = 20 14.3 45.4 32.0 10.9 33.9 31.0
m=3
n=5 13.9 31.0 32.2 9.9 30.0 28.2
n = 10 13.8 30.4 32.2 9.8 30.4 28.2
n = 20 13.3 30.2 32.2 9.3 29.2 28.0
m=5
n=5 11.4 20.0 21.9 7.5 11.1 11.0
n = 10 11.4 20.4 21.4 7.3 11.2 10.4
n = 20 11.3 20.0 21.2 7.3 11.1 10.2

The results in stage PL3 are more inaccurate than those derived in stage PL1 and RSS is considerably
more accurate than SRS.

Table 6: Analysis of the accuracy of the estimations of the ratios in PL3. SRS vs RSS
SRS RSS
Mean 0.25 0.75 Mean 0.25 0.75
m=2
n=5 19.6 26.7 33.7 18.1 11.1 10.9
n = 10 19.1 22.5 33.6 18.1 11.0 10.8
n = 20 19.1 22.5 32.8 18.1 11.0 10.7
m=3
n=5 19.4 23.5 33.6 17.6 10.7 10.7
n = 10 19.1 22.9 33.1 17.1 10.5 10.6
n = 20 18.7 21.6 32.7 17.1 10.5 10.5
m=5
n=5 18.1 21.7 31.9 16.1 9.5 10.3
n = 10 17.9 21.5 31.1 15.9 9.5 10.3
n = 20 17.3 21.5 31.1 15.7 9.5 10.1

4.3. Problem 3: The variability of computed tomography (CT) based tumor measurement.

The variability of CT measurements on repeated occasions has not been comprehensively evaluated.
In this study, we assess the variability of lung tumor measurement using repeat CT scans in 3 occasions
within 20 minutes of each other. This experiment is similar to the experiences of Oxnard et al. (2011). The
involved variables were:
X = Outer mass of the tumor measured using X-Rays,

63
Y j = Outer mass of the tumor measured using CT on occasion j = 1, 2,3 .

We analyze the behavior of different estimators of the variance in each occasion. It is supposed that
the variances of the occasions in the set of measurements be similar. A subset of the data on preoperative
computed tomography (CT) was selected. Each hospital measured repeatedly a 10% of the patients studied.
We obtained 130 sets of 3 measurements of CT images. We used B = 1000 , m = 2, 3, 5 m=2, 3, 5 and
n = 5,10, 20 . The efficiency was measured by computing

A2 2 b
B

( 2
) = b =1
, A = RSS ( M ), RSS , SRS .
B 2
A

Table 7: Efficiency of alternative estimators of the variances of median arch distance-to-maximum tumor
diameter ratios for pleural invasion
( SRS
2
) ( RSS
2
) ( RSS
2
(M ) )

Occasion Occasion Ocassion


1 2 3 1 2 3 1 2 3
m=2
n=5 4.4 4.3 4.4 5.8 5.7 5.7 6.1 5.8 6.0
n = 10 3.8 4.1 4.1 5.5 5.6 5.4 6.0 6.0 6.0
n = 20 3.0 3.6 3.4 5.7 5.5 5.5 5.8 5.8 5.8
m=3
n=5 3.1 3.3 3.3 6.1 5.8 5.8 5.8 5.8 5.8
n = 10 3.1 2.8 3.1 6.1 5.3 5.3 5.5 5.5 5.5
n = 20 2.8 2.5 2.5 6.1 5.7 5.7 5.7 5.7 5.7
m=5
n=5 2.3 2.2 2.4 5.8 5.7 5.8 5.6 5.6 5.7
n = 10 2.1 1.8 2.0 5.5 5.2 5.2 5.2 5.4 5.4
n = 20 1.8 1.8 1.8 5.4 5.2 5.3 5.3 5.4 5.2

These results suggest that CT has a similar variation in the occasions. For estimating the variance,
SRS is better than the RSS alternatives.

5. CONCLUSIONS
We present a study of the behavior of the use of RSS for selecting samples for developing cancer studies. The
results suggest that RSS is to be preferred to SRS. Cancer studies generate a lot of auxiliary information that
is in the files of the patients. The development of different investigations, as the introduction of new
medicaments or treatments, need of samples. The usually samples are selected from a small set of patients.
The existence of different concomitant variables allows the use of RSS at low costs because, as RSS is more
accurate than SRS, is possible using smaller samples sizes for a fixed accepted approximation error or
increasing the accuracy using the same sample size.

Further research on which variable is to be used for ranking should be developed in each practical
study. For example, for estimating a ratio it seems reasonable to look for a concomitant variable with a large
correlation with Y than the correlation between X and Y.

64
Acknowledgments: The authors acknowledge the help of the researchers of the National Group on Advanced
Oncology Research for providing access to the data used in this paper. These results were supported partially
by the project Modelos Matemticos para el Estudio de Medio Ambiente, Salud y Desarrollo Humano.

REFERENCES

[1] ADATIA, A. & SALEH, A.K.MD. (2004): Estimation of quantiles of uniform distribution using
generalized ranked set sampling. Pakistan Journal of Statistics 20, 355-368
[2] AHRENS W. & MERLETTI F. (1988): A standard tool for the analysis of occupational lung cancer in
epidemiologic studies. Int J. Occup Environ Health 4, 236242.
[3] AL-OMARI, A.I., JEMAIN, A.A., & IBRAHIM, K. (2009): A new ratio estimators of the mean using
simple random sampling and ranked set sampling methods. Revista Investigacin Operacional, 30, 97-108.
[4] AL-OMARI, A.I. (2012): Ratio estimation of the population mean using auxiliary information in simple
random sampling and median ranked set sampling. Statistics and Probability Letters, 82.18831890.
[5] AL-SALEH, M.F. & AL-HADRAMI, S. (2003): Parametric estimation for the location parameter for
symmetric distributions using moving extremes ranked set sampling with application to tree data.
Environmetrics 14, 651-664.
[6] AL-SALEH, M.F. & AL-KADIRI, M. (2000): Double ranked set sampling. Statistics & Probability
Letters 48, 205212.
[7] AL-SALEH, M.F. & AL-OMARI, A.I. (2002): Multistage ranked set sampling. Journal of Statistical
Planning and Inference 102, 273-286.
[8] AL-SALEH, M.F. & AL-SHRAFAT, K. (2001): Estimation of milk yield using ranked set sampling.
Envirometrics 12: 395-399.
[9] BOUZA, C.N. (2001): Model assisted ranked survey sampling. Biometrical J., 43, 248-258.
[10] CHEN, Z. (2000): On ranked-set sample quantiles and their applications. Journal of Statistical
Planning and Inference 83, 125-135.
[11] CHEN, Z. (2001): The optimal ranked-set sampling scheme for inference on population quantiles.
Statistica Sinica 11, 23-37.
[12] CHEN, Z., BAI, Z. & SINHA, B. (2004): Ranked set sampling: Theory and Applications. Springer
Verlag. New York.
[13] COBBY, J.M., RIDOUT, M.S., BASSETT, P.J. & LARGE, R.V. (1985): An investigation into the use of
ranked set sampling on grass and grass-clover swards. Grass and Forage Science 40: 257-63.
[14] EVANS, M. J. (1967): Application of ranked set sampling to regeneration, Surveys in areas direct-
seeded to long leaf pine. Master Thesis, school for Forestry and Wild-life Management, Louisiana state
University, Baton Rouge, Louisiana.
[15] GANESLINGAM, S. & GANESH, S. (2006): Ranked set sampling versus simple random sampling in
the estimation of the mean and the ratio. Journal of Statistics and Management Systems 2, 459-472.
[16] IMAI, K., Y. MINAMIYA, K. ISHIYAMA, M. HASHIMOTO, H. SAITO, S. MOTOYAMA,Y. SATO
& J.-I. OGAWA (2013): Measurement of the Ratio of the Interface between Tumor and Neighboring
Structures to Maximum Tumor Diameter. Radiology, doi: 10.1148/radiol.12120864.
[17] KAUR, A., PATIL, G.P., TAILLIE, C. & WIT, J. (2002): Ranked set sample sign test for quantiles.
Journal of Statistical Planning and Inference 100, 337-347.
[18] KOWALCZYK, B. (2004): Ranked set sampling and its application in finite population studies.
Statistics in Transition 6, 1031-1046.
[19] HALL, L.K. and T.R. DELL (1996): Trials of ranked set sampling for forage yields, Forest Sc. 121,
22-26.
[20] OSSAIN, S.S. (2001): Non-parametric selected ranked set sampling. Biometrical Journal 43, 97-105.
[21] HUSBY, C.E., STANSY, E.A. & WOLFE, D.A. (2005): An application of ranked set sampling for mean
and median estimation using USDA crop production data. Journal of Agricultural, Biological, and []
Environmental Statistics 10, 354-373.
[22] JOHNSON, G.D., PAUL, G.P. & SINHA, A.K. (1993): Ranked set sampling for vegetation research.
Abstracta Botanica 17, 87-102.

65
[23] KAUR, A., PATIL, G., SHIRK, S.J. & TAILLIE, C. (1996): Environmental sampling with a
concomitant variable: a comparison between ranked set sampling and stratified simple random sampling.
Journal of Applied Statistics 23, 231-255.
[24] MACEACHERN S., . STURK , D. A. WOLFE & G. V. STARK (2002): A new ranked sample
estimator of variance. J. Royal Stat. Soc. B. 64, 277-88.
[25] MODE, N. A., CONQUEST, L. L. & MARKER, D. A. (2002) : Incorporating prior knowledge in
environmental sampling: ranked set sampling and other double sampling procedures. Environmetrics 13:
513-521.
[26] MUTTLAK, H.A. (1995): Parameter Estimation in a simple linear regression using rank set sampling.
Biometrical Journal 37, 799-810.
[27] MUTTLAK, H.A. (1997): Median Ranked Set Sampling. Journal of Applied Statistical Sciences 6,
245-255.
[28] MUTTLAK, H.A. (2003): Investigating the use of quartile ranked set samples for estimating the
population mean. Applied Mathematics and Computation 146, 437-443.
[29] ODERWALD, R. & SMITH, D. (1980): Evaluation of ranked set sampling for estimating shrub
phytomass in Appalachian oak forests. Publication Number FWS-4-80, School of Forestry and Wildlife
Resources, Virginia Polytechnic Institute and State University, Blacksburg, Virginia.
[30] OXNARD, G.R., C.S. SIMA, M.S. GINSBERG, L.P. JAMES, R.A. LEFKOWITZ, P. GUO, M.G.
KRIS, L.H. SCHWARTZ & G.J. RIELY (2011): Variability of Lung Tumor Measurements on Repeat
Computed Tomography Scans Taken Within 15 Minutes. Journal of Clinical Oncology, 28, 3114.3118.
[31] PATIL, G.P. (2002). Ranked set sampling. Encyclopedia of Environmetrics 3, 1684-1690.
[32] MARTIN, W., SHARIK, T., PERRON, F. & SINHA, B.K., (2004): Estimation of variance based on a
ranked set sample. Journal of Statistical Planning and Inference 120: 21-28.
[33] RAHIMOV, I. & MUTTLAK, H.A. (2003): Estimation of the population mean using random selection
in ranked set samples. Statistics and Probability Letters 62, 203-209.
[34] RIDOUT, M.S. & COBBY, J.M. (1987): Ranked set sampling with non-random selection of sets and
errors in ranking. Applied Statistics 36, 145-152.
[35] SAMAWI, H.M, AHMED, M.S. & ABU-DAYYEH, W. (1996): Estimating the population mean using
extreme ranked set sampling. Biometrical Journal 38, 577-586.
[36] SAMAWI, H.M. & AL-SAGHEER, O.A. (2001): On the estimation of the distribution function using
extreme and median ranked set sampling. Biometrical Journal 43, 357-373.
[37] SAMAWI, H.M. & MUTTLAK, H.A. (1996): Estimation of ratio using rank set sampling. Biometrical
Journal 63, 753-764.
[38] SAMAWI, H.M. & SAEID, L.J. (2004): Stratified extreme ranked set sample with application to ratio
estimators. Journal of Modern Applied Statistical Methods 3,117-133.
[39] SAMAWI, H.M. & TAWALBEH, E.M. (2002): Double median ranked set sampling: Comparison to
other double ranked set samples for mean and ratio estimators. Journal of Modern Applied Statistical
Methods 1, 428-442.
[40] STOKES, S.L. (1977): Ranked set sampling with concomitant variables. Communications in Statistics
A6, 1207- 1211.
[41] STOKES, S.L. (1980): Estimation of variance using judgment ordered ranked-set samples. Biometrics
36, 35-42.
[42] TAKAHASI, K. & WAKIMOTO, K. (1968): On the unbiased estimates of the population mean based on
the sample stratified by means of ordering. Annals of the Institute of Statistical Mathematics 20, 1-31.
[43] YU, P.L.H. & TAM, Y.C. (2002): Ranked set sampling in the presence of censored data.
Environmetrics 13, 379-396.
[44] WANG, Y.G., CHEN, Z. & LIU, J. (2004): General ranked set sampling with cost consideration.
Biometrics 60: 556-561.
[45] ZHU, M. & WANG, Y. (2004): Quantile estimation from ranked set sampling data. Sankhya: The
Indian Journal of Statistics 67, 295-304.

66
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 67-75

Vt J
CONFIDENCE INTERVALS AND HYPOTHESIS TESTS FOR THE
PREDICTIVE VALUES OF BINARY DIAGNOSTIC TESTS: A
REVIEW
J. A. Roldn Nofuentes, S. Bouh ould Sidaty
Biostatistics, School of Medicine, University of Granada, Spain
School of Medicine, University of Nouakchott, Mauritania

ABSTRACT
Positive predictive value and negative predictive value are measures of the clinical accuracy of a binary diagnostic test and they
depend on the sensitivity and the specificity of the diagnostic test and on the disease prevalence. In this study, we carry out a
review of the methods of estimation methods of predictive values subject to different samples types, confidence intervals and
hypothesis tests.

KEY WORDS: Binary diagnostic test, Positive predictive value, Negative predictive value.

RESUMEN
El valor predictivo positivo y el valor predictivo negativo son medidas de la exactitud clnica de un test diagnstico binario y
dependen de la sensibilidad y especificidad del test diagnstico y de la prevalencia de la enfermedad. En este trabajo se realiza
una revisin de los mtodos de estimacin de los valores predicativos bajo distintos tipos de muestreo, sus intervalos de
confianza y tests de hiptesis.

1. INTRODUCTION
The accuracy of a binary diagnostic test is measured in terms of two parameters: sensitivity and
specificity. Sensitivity ( Se ) is the probability of the diagnostic test being positive when the individual has the
disease, and specificity ( Sp ) is the probability of the diagnostic test being negative when the individual does
not. Both sensitivity and specificity only depend on the intrinsic ability of the diagnostic test to distinguish
between individuals who have the disease and those who do not i.e. these parameters depend on the physical,
chemical and biological bases upon which the diagnostic test has been developed. Some other parameters to
assess the accuracy of a binary diagnostic test are the positive and negative predictive values. The positive
predictive value ( ) is the probability of an individual having the disease when the test result is positive, and
the negative predictive value ( ) is the probability of an individual not having the disease when the test result
is negative. The predictive values represent the accuracy of the binary diagnostic test when it is applied to a
cohort of individuals, and they are measures of the clinical accuracy of the diagnostic test. The predictive
values depend on the sensitivity and the specificity of the diagnostic test and the disease prevalence ( p ) , and
are calculated by applying Bayes Theorem as
p Se (1 p ) Sp
= and = . (1)
p Se + (1 p ) (1 Sp ) p (1 Se ) + (1 p ) Sp
Although the sensitivity and the specificity quantify how well the diagnostic test reflects the true
disease status (whether present or absent), the predictive values quantify the clinical value of the diagnostic
test, since both the individuals tested and the clinician are more interested in knowing how likely it is for the
disease to be present with a given diagnostic test.
We then study the estimation of the predictive values of a single diagnostic test subject to two types
of sample (cross-sectional and case-control) and the comparison of the predictive values of two binary
diagnostic tests with two independent samples and subject to paired design.

2. ESTIMATION OF THE PREDICTIVE VALUES OF A BINARY TEST

The predictive values of a binary diagnostic test can be estimated subject to a cross-sectional sample
and subject to a case control sample. In this Section, two random variables are considered. The random

67
variable T which models the result of the diagnostic test, so that T = 1 indicates a positive test result
(provisional disease presence) and T = 0 indicates a negative test result (provisional disease absence); and the
random variable D, which models the result of the gold standard, so that D = 1 indicates that the individual
has the disease and D = 0 indicate that the individual does not have the disease.

2.1. Estimation subject to a cross-sectional sample

The assessment of the parameters of a binary diagnostic test in relation to a gold standard subject to a cross-
sectional sample consists of applying the diagnostic test and the gold standard to all of the individuals in a
random sample sized n, giving rise to Table 1.

Table 1. Frequencies subject to a cross-sectional sample.


T =1 T =0 Total
D =1 s1 s0 s
D=0 r1 r0 r
Total s1 + r1 s0 + r0 n

Conditioning in variable T, samples ( s1 , r1 ) and ( s0 , r0 ) are two independent samples, and it is verified that
s1 B ( s1 + r1 , ) and that r0 B ( s0 + r0 , ) and, therefore, the estimators of the predictive values are the
estimators of binomial proportions i.e.
s r
= 1 and = 0 ,
s1 + r1 s0 + r0
and the estimators of their variances are
(
1 ) ( ) = (1 ) .
()

=
Var and Var
s1 + r1 s0 + r0
Therefore, in a cross-sectional study, conditioning in the total columns in Table 1, the predictive values are
binomial proportions. The estimation through confidence intervals of the predictive values can be carried out
by applying the Wilson interval [1], and these are the respective intervals
z12 2
s1 + z1 2 z12 2
2 s1r1
+
s1 + r1 + z12 2 s1 + r1 + z12 2 s1 + r1 4
and
z12 2
r0 + z1 2 z12 2
2 s0 r0
+ ,
s0 + r0 + z1 2 s0 + r0 + z1 2 s0 + r0
2 2
4
where z1 2 is the 100 (1 2 ) percentile of the normal standard distribution. For si + ri > 40 it is possible
to use the Agresti-Coull interval [1], and these are the respective intervals

( )
z12 2
1 +
z12 2 4 ( s1 + r1 )
+ z1 2
2 ( s1 + r1 ) s1 + r1

z12 2
1+
s1 + r1
and

68
z12 2
(1 ) +
z12 2 4 ( s0 + r0 )
+ z1 2
2 ( s0 + r0 ) s0 + r0
.
z12 2
1+
s0 + r0

2.2. Example

Yee et al [2] assessed the performance of a computed tomographic (CT) colonography in the diagnosis of
colorectal neoplasia using as a gold standard a colonoscopy. In Table 2, we show the results obtained by
applying a CT colonography (variable T) and a colonoscopy (variable D) to a sample of 300 individuals.

Table 2. Data from the study by Yee et al.


T =1 T =0 Total
D =1 164 18 182
D=0 33 85 118
Total 197 103 300

The estimated value of the positive predictive value is 0.832 and that of the negative predictive value
is 0.825. As it is verified that si + ri > 40 , it is possible to calculate the confidence interval of Agresti-Coull
[1]. Thus, the positive predictive value of the CT colonography, with a confidence of 95%, is a value between
0.773 and 0.879; and the negative predictive value of the CT colonography, with a confidence of 95%, is a
value between 0.738 and 0.889. Therefore, the CT colonography is good to confirm colorectal neoplasia and
the CT colonography is good to rule out colorectal neoplasia in the population subject to study (positive and
negative predictive value are high).

2.3. Estimation subject to case-control design

The estimation of the parameters of a binary diagnostic test subject to a case-control design consists of
applying the diagnostic test to two random independent samples, one of n1 individuals who have the disease
(case) and another of n2 individuals who do not (control), giving rise to Table 3.

Table 3. Frequencies subject to case-control design.


T =1 T =0 Total
Case s1 s0 n1
Control r1 r0 n2

In this situation, it is verified that s1 B ( n1 , Se ) and that r0 B ( n2 , Sp ) and therefore the estimators of the
sensitivity and the specificity of the diagnostic test are
= s1 and Sp
Se = r0 .
n1 n2
As the prevalence cannot be estimated from the data in Table 1, as the quotient n1 n is not an estimator of the
prevalence (the sample sizes n1 and n2 are chosen by the researcher), to estimate the predictive values it is
necessary to know an estimator of the disease prevalence ( p ) . Therefore, if p is an estimator of the disease
prevalence, then the estimators of the predictive values are

69
s1 r0
p (1 p )
n1 n2
= and = .
s1 r s r
+ (1 p ) 1
p p 0 + (1 p ) 0
n1 n2 n1 n2
respectively. Mercaldo et al [3] recommend using the following confidence intervals,

()
exp logit z1 2 Var logit


,
(
( ))
exp logit + z1 2 Var

logit

() ( ( ))


()
(
( ))
1 + exp logit z1 2 Var logit 1 + exp logit + z1 2 Var logit





() ( ( ))
and


{
exp logit ( ) z
1 2 Var ( logit ( ) )
}
exp logit ( ) + z1 2 Var {
( logit ( ) )
}
{ } { }
,
1 + exp logit ( ) z1 2 Var ( logit ( ) )
1 + exp logit ( ) + z1 2 Var ( logit ( ) )


when
1 Sp
( )
( ( ))
logit = 1 Se +

Var
Sp
and Var ( logit ( ) ) = Se
+ .

n1 Se n2 1 Sp ( ) n1 1 Se

n2 Sp ( )
If = 1 or = 1 , then these authors recommend using the following confidence intervals
(% )
% z1 2 Var and (% ) ,
% z1 2 Var
when
%
pSe (1 p ) Sp
%
% = and % =
+ (1 p ) Sp
%
pSe % p (1 Se
% ) + (1 p ) Sp
%
the adjusted estimators of the predictive values,
2 2
+ z1
n1 Se
2 + z1
n2 Sp
2

% =
Se 2 and % =
Sp 2
n%1 n%2
the adjusted estimators of the sensitivity and the specificity, n%i = ni + z12 2 ,
Se(
% 1 Se
% ) + p (1 p ) Se% (
% 1 Sp
Sp % )
(
p (1 p ) 1 Sp )
2 2
%

% =
Var ( ) n%1 n% 2
% + (1 p ) 1 Sp ( )
4
pSe %

and
Se(
% 1 Se
% ) + p (1 p ) 1 Se% (
% 1 Sp
Sp % )
p (1 p ) Sp ( )
2 2
%
n%1 n%2
(% ) =
Var .
( )
% + (1 p ) Sp
4
p 1 Se %

2.4. Example

The results of Section 2.3 have been applied to the study of Li et al [4] on the diagnosis of Alzheimers
disease using as a diagnostic test the ApoE.e4 genotype. In Table 4 we show the results obtained by these
authors.

Table 4. Frequencies observed in the study of Li et al.


Positive EpoE.e4 Negative EpoE.e4 Total
Case 240 178 418
Control 87 288 375

70
Assuming that the prevalence of Alzheimers disease is 10% it holds that the estimated value of the
positive predictive value is 0.216 and that of the negative predictive value is 0.942. The 95% confidence
intervals are ( 0.183 ; 0.252 ) and ( 0.935 ; 0.948 ) . Therefore, assuming that the disease prevalence is
10%, the EpoE.e4 genotype is a very useful test to rule out the disease (as its negative predictive value is very
high), but it should not be used as a diagnostic test to confirm the disease (as it has a very low predictive
value).

3. COMPARISON OF THE PREDICTIVE VALUES OF TWO BINARY


TESTS
The comparison of the predictive values of two binary diagnostic tests is a topic of great interest in the study
of statistical methods for diagnosis, and has been the subject of many papers in the literature of Statistics. In
practice, the most common situation is to compare the predictive values of two binary diagnostic tests subject
to paired design. This type of sample consists of applying the two diagnostic tests and the gold standard to all
of the individuals in a random sample sized n. In this situation, we obtain Table 5, where variable Ti models
the result of the ith diagnostic test ( i = 1, 2 ) and variable D the result of the gold standard.

Table 5. Frequencies observed when comparing two diagnostic tests.


T1 = 0 T1 = 1
T2 = 0 T2 = 1 T2 = 0 T2 = 1 Total
D =1 s00 s01 s10 s11 s
D=0 r00 r01 r10 r11 r
Total n00 n01 n10 n11 n

Bennett [5, 6] studied the comparison of the positive (negative) predictive values of binary diagnostic
tests proposing a test based on the chi-squared distribution. Jamart [7] discussed the results offered by Bennett
and pointed out that these results are not appropriate to solve this problem of inference. Leisenring et al [8]
studied the comparison of the predictive values of two binary tests through marginal regression models, and
Wang et al [9] studied the same problem a weighted least square model. Kosinski [10] proposed a weighted
generalized score statistic to solve the same problem and demonstrated that his method performed better in
terms of the type I error than the aforementioned methods. Roldn Nofuentes et al [11] studied a global
hypothesis test to simultaneously compare the predictive values of two (or more) binary diagnostic tests, and
proposed a method based on chi-squared distribution and multiple comparisons. We will now describe each of
these methods.

3.1. The Method of Leisenring et al

Leisenring et al [8] studied the comparison of the positive and negative predictive values of two binary tests
through marginal regression models, and they were able to estimate these models separately or jointly using
GEE models. Leisenring et al deduced score statistics to compare the positive and negative predictive values
of two binary tests in paired designs. Using the notation from the previous Section, the score statisitic for the
test H 0 : 1 = 2 is

( s (1 2Z ) + s (1 Z ) s Z )
2
11 1 01 1 10 1
T =
s11 (1 D1 ) (1 2 Z1 ) + s01 (1 D1 ) (1 Z1 ) + s10 (1 D1 ) Z12 + r11D12 (1 2 Z1 ) + r01D12 (1 Z1 ) + r10 D12 Z12
2 2 2 2 2 2 2

and the score statistic to compare the test H 0 : 1 = 2 is

( r (1 2Z ) + r (1 Z ) r Z )
2
00 2 10 2 01 2
T = .
r00 (1 D2 ) (1 2 Z 2 ) + r10 (1 D2 ) (1 Z 2 ) + r01 (1 D2 ) Z 22 + s00 D22 (1 2 Z 2 ) + s10 D22 (1 Z 2 ) + s01D22 Z 22
2 2 2 2 2 2 2

Score statistics have has a chi-squared distribution with 1 degree of freedom when the null hypothesis is true,
and where

71
s11 + s01 + r11 + r01
Z1 = .
2s11 + s01 + s10 + 2r11 + r10 + r01
2 s11 + s01 + s10
D1 = .
2s11 + s01 + s10 + 2r11 + r10 + r01
s00 + s10 + r00 + r10
Z2 =
2s00 + s01 + s10 + 2r00 + r01 + r10
and
2r00 + r01 + r10
D2 = .
2 s00 + s01 + s10 + 2r00 + r01 + r10

3.2. The Method of Wang et al

Wang et al [9] studied the comparison of the predictive values of two binary tests through a weighted least
square method and compared their method to that of Leisenring et al, before recommending the comparison of
the predictive values using the weighted least square method based on the difference between the two positive
(negative) predictive values. The statistics proposed to check H 0 : 1 = 2 and H 0 : 1 = 2 are respectively

( )
2
(1 2 )
2
1 2
2
= and 2 =
( )
,
Var ( )
Var
1 2 1 2

both statistics follow chi-squared distribution with 1 degree of freedom, and the variances are estimated by
applying the delta method (the expressions are shown in the method devised by Roldn-Nofuentes et al [11]).

3.3. The method of Kosisnki

Kosinski [10] proposed a weighted generalized score statistic to solve the hypothesis test of comparison of the
predictive values. The weighted generalized score statistic for the test H 0 : 1 = 2 is

( )
2
1 2
TWGS
= ,
{ (
p 1 p 2Cp
1
) +
1

n10 + n11 n01 + n11
}
and the weighted generalized score statistic for the test H 0 : 1 = 2 is
(11 2 )
2

TWGS = ,

{
p (1 p ) 2C
1
+ 1
}
n00 + n01 n00 + n10
p

which has a chi-squared distribution with 1 degree of freedom when the null hypothesis is true and
2s + s + s 2r + r + r
p = 11 10 01 and p = 00 01 10
2n11 + n10 + n01 2n00 + n01 + n10
are the pooled positive predictive value and pooled negative predictive value respectively, and
( ) s00 2p + r00 (1 p2 )
2
s11 1 p + r11p2

Cp = and Cp = .
2n11 + n10 + n01 2n00 + n01 + n10

3.4. The Method of Roldn-Nofuentes et al

Roldn-Nofuentes et al [11] studied the simultaneous comparison of the predictive values of two binary
diagnostic tests in paired design. The simultaneous comparison of the predictive values of two binary tests
consists of solving the hypothesis test
H 0 : (1 = 2 and 1 = 2 ) vs H1 : (1 2 and/or 1 2 ) ,

72
where i and i are the positive and negative predictive values of ith binary test ( i = 1, 2 ) . The maximum
likelihood estimators of the predictive values are
s10 + s11 r00 + r01
1 = and 2 =
s10 + s11 + r10 + r11 s00 + s01 + r00 + r01
for test 1, and
s01 + s11 r00 + r10
1 = and 2 =
s01 + s11 + r01 + r11 s00 + s10 + r00 + r10
for test 2, and applying the delta method, the estimated variances-covariances of the estimators of the
predictive values are:
= ( s10 + s11 )( r10 + r11 ) , Var
Var ( ) = ( s01 + s11 )( r01 + r11 ) ,
( )
n ( s10 + s11 + r10 + r11 ) n ( s01 + s11 + r01 + r11 )
1 2 2 2

( ) = ( s00 + s01 )( r00 + r01 ) ( s00 + s10 )( r00 + r10 )


Var , Var ( 2 ) = ,
n ( s00 + s01 + r00 + r01 ) n ( s00 + s10 + r00 + r10 )
1 2 2

( , ) = 01 10 11 11 { 01 ( 10 11 ) 11 ( 01 10 11 10 11 )} ,
s s r +s r r +r +r s +s +s +r +r
Cov
( s01 + s11 + r01 + r11 ) ( s10 + s11 + r10 + r11 )
1 2 2 2

( , ) = s00 ( s10 + s11 ) r10 + s10 r10 ( s10 + s11 + r00 + r10 ) + s10 ( r00 + r10 ) r11 ,
Cov
( s00 + s10 + r00 + r10 ) ( s10 + s11 + r10 + r11 )
1 2 2 2

( , ) = s00 ( s01 + s11 ) r01 + s01r01 ( s01 + s11 + r00 + r01 ) + s01 ( r00 + r01 ) r11 ,
Cov
( s00 + s01 + r00 + r01 ) ( s01 + s11 + r01 + r11 )
2 1 2 2

( , ) = 00 00 01 10 00 { 00 01 10 00 01 10 00 01 } ,
s (r + r ) r + r r2 + s s + s ( s + s + r + r )
Cov
( s00 + s01 + r00 + r01 ) ( s00 + s10 + r00 + r10 )
1 2 2 2

Cov (
, = 0
1 1 ) and , = 0 .
Cov 2 2 ( )
The contrast statistics for the hypothesis test H 0 : (1 = 2 and 1 = 2 ) is

( )
1
T
Q 2 = T T ,
where
( )
T
= 1 ,2 ,1 ,2 ,
is the estimated variance-covariance matrix of and is the design matrix, i.e.

1 1 0 0
= .
0 0 1 1
The statistic Q2 is distributed asymptotically according to a central chi-square distribution with two
degrees of freedom if H 0 is true. To apply this method it is necessary that all predictive values can be
estimated and that matrix T is non-singular. Therefore, the method cannot be applied if there are many
observed frequencies that are equal to zero. If this global hypothesis test is significant to an error rate of ,
the investigation of the causes of the significance is carried out by comparing the positive predictive values
and the negative predictive values independently and subsequently applying a method of multiple
comparisons (method of Holm [12] or method of Hochberg [13]) to the same error rate of . Simulation
experiments performed have shown that samples of between 300 and 500 subjects are required in order for the
power of the global hypothesis test to be high (over 80%).

73
3.5. Confidence intervals

Confidence intervals for the difference between the positive (negative) predictive values can be obtained by
inverting the contrast statistics from the method proposed by Wang et al, i.e.
( )
1 2 1 2 z1 2 Var (

1 2 )
and 1 2 (1 2 ) z1 2 Var
( ) ,
1 2

Other confidence intervals can also be obtained from the Kosinki method, i.e.

( )
1 2 1 2 z1 2 { (1 ) 2C } n
p p

p
1
10 + n11
+
1

n01 + n11
and

1 2 (1 2 ) z1 2 { (1 ) 2C } n
1
+
1
.
00 + n01 n00 + n10
p p p

3.6. Example

The results from the previous sections have been applied to the study of Wiener et al [14] on the diagnosis of
coronary disease. In Table 6 we show the results obtained by Weiner et al, and where the variable T1 models
the result of the patients clinical history (Test 1), T2 models the result of the exercise stress testing (Test 2)
and D the result of the gold standard (coronary arteriography).

Table 6. Data from the study by Weiner et al (1979).


T1 = 0 T1 = 1
T2 = 0 T2 = 1 T2 = 0 T2 = 1 Total
D =1 25 29 81 473 608
D=0 151 46 44 22 263
Total 176 75 125 495 871

The maximum likelihood estimators of the predictive values are 1 = 0.894 , 1 = 0.785 , 2 = 0.881 and
2 = 0.648 . In Table 7, we show the results obtained when comparing the predictive values in an independent
manner and it holds that with the three methods we do not reject (to an error rate of = 5% ) the hypothesis
of equality of the positive predictive values and we reject the equality of the negative predictive values (the
negative predictive value of Test 1 is significantly higher than that of Test 2).

Table 7. Comparison of the predictive values


H 0 : 1 = 2 H 0 : 1 = 2
Method 2 p-value 2 p-value
Leisenring et al 0.802 0.371 23.726 < 0.001
Wang et al 0.802 0.371 23.579 < 0.001
Kosinski 0.807 0.370 22.502 < 0.001

Applying the method of Roldn-Nofuentes et al, the statistic for the global hypothesis test
H 0 : (1 = 2 and 1 = 2 ) vs H1 : (1 2 and/or 1 2 )
is Q = 25.945 ( p value = 2.32 10 ) , 6
and therefore we reject (to an error rate of = 5% ) the null
hypothesis of pooled equality of the positive and negative predictive values of the two diagnostic tests. From
the results of Table 7, applying the Holm method [12] or the Hochberg method [13], it holds that there are no
significant differences between the positive predictive values of both diagnostic tests and that the negative
predictive value of the clinical history is significantly higher than that of the exercise stress testing.

74
Acknowledgements
This research was supported by the General Directorate of Research Projects at the Spanish Ministry
of Economy and Competitiveness. Project Number: MTM2012-35591. The authors would like to thank Prof.
Carlos Bouza and the referee for their helpful comments that improved the quality of the manuscript.

REFERENCES

[1] BROWN, L.D., CAI, T.T. & DASGUPTA, A. (2001) Interval estimation for a binomial proportion. Statistical
Science, 16, 101-133.
[2] YEE, J. et al (2001) Colerectal neoplasia: performance characteristics of CT colonography for detection in 300
patients. Radiology, 219, 685-692.
[3] MERCALDO, N.D, KIT, F.L. & ZHOU, X.H. (2007) Confidence intervals for predictive values with an
emphasis to casecontrol studies. Statistics in Medicine, 26, 21702183.
[4] LI, Y. et al. (2004). Association of late-onset Alzheimers disease with genetic variation in multiple members
of the GAPD gene family. Proceedings of the National Academy of Sciences, U.S.A., 101, 15688-15693.
[5] BENNETT, B.M. (1972) On comparison of sensitivity, specificity and predictive value of a number of
diagnostic procedures. Biometrics, 28, 793-800.
[6] BENNETT, B.M. (1985) On tests for equality of predictive values for t diagnostic procedures. Statistics in
Medicine, 4, 535-539.
[7] JAMART, J. (1993) Letter to the editor: on tests for equality of predictive values for t diagnostic procedures.
Statistics in Medicine, 12, 185-186.
[8] LEISENRING, W., ALONZO, T. & PEPE, M.S. (2000) Comparisons of predictive values of binary
medical diagnostic tests for paired designs. Biometrics, 56, 345-351.
[9] WANG, W., DAVIS, C.S. & SOONG, S.J. (2006) Comparison of predictive values of two diagnostic tests
from the same sample of subjects using weighted least squares. Statistics in Medicine, 25, 2215-2229.
[10] KOSINSKI, A.S. (2013) A weighted generalized score statistic for comparison of predictive values of
diagnostic tests. Statistics in Medicine, 32, 964-977.
[11] ROLDN NOFUENTES, J.A., LUNA DEL CASTILLO, J.D. & MONTERO ALONSO, M.A. (2012)
Global hypothesis test to simultaneously compare the predictive values of two binary diagnostic tests.
Computational Statistics and Data Analysis, Special issue Computational Statistics for Clinical
Research, 56, 1161-1173.
[12] HOLM, S. (1979) A simple sequential rejective multiple testing procedure. Scandinavian Journal of
Statistics, 6, 65-70.
[13] HOCHBERG, Y. (1988) A sharper Bonferroni procedure for multiple tests of significance. Biometrika,
75, 800-802.
[14] Weiner, D.A. et al. (1979). Exercise stress testing. Correlations among history of angina, ST-segment
response and prevalence of coronary-artery disease in the coronary artery surgery study (CASS). The New
England Journal of Medicine, 301, 230-235.

75
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 76-83

Vt K
ESTIMATORS FOR EVALUATING THE EXPLOITABILITY OF
SILVESTER MAGUEY PAPALOTE (AGAVE CUPREATA TREL ET
BERGER) WITH MISSING OBSERVATIONS
L. Alonso*, C. N. Bouza** y D. Covarrubias **
*Unidad Acadmica de Matemticas, Universidad Autnoma de Guerrero, Mxico
**Facultad de Matemtica y Computacin, Universidad de La Habana

ABSTRACT
This paper deals with the development of an estimation procedure of indexes that allow establishing whether a population of
Silvestre plants of maguey is economically exploitable. The index has a product type structure. We consider the existence of
missing observations and develop estimators. Their properties are analyzed. Their behavior is evaluated using the data provide by a
census developed in Guerrero State, Mexico.

KEY WORDS: non-response stratum, imputation. expected error., asymptotic unbiasedness, coverage probabilities

RESUMEN
Este trabajo trabaja con el desarrollo de un procedimiento de estimacin de ndices que permite establecer si una poblacin de
plantas de maguey silvestre es econmicamente explotable. El ndice tiene la estructura del tipo producto. Consideramos la
existencia de observaciones perdidas y desarrollamos estimadores. Sus propiedades son analizadas. Su comportamiento es
evaluado usando datos de un censo desarrollado en el estado de Guerrero, Mxico.

1 INTRODUCTION
Agave cupreata Trel et Berger , Maguey, appear as a silvestre plant in Mexico. Agave cultivation
has its roots in Mesoamrica. Nhuatls produced pulque. Its distillation produces the mezcal. See Casas and
Sols (2009) and Marshall et al (2006). There is a serious lack of information on its availability, with
industrial purposes, in zones of difficult access. An inventory was made, see., in the state of Guerrero,
Mexico. To maintain information, for deciding whether to harvest or not an area, to sample regularly is
needed. The importance of the research is motivated by the growing popularity of mezcal, as Tequila is
occupying a large market sector. Tequila is the mezcal produced in the region of Tequila, but mezcal can play
the role of Brandies with respect to Cognac.

Figure 1. Agave Silvestre plants

Missing observations are usual in the surveys conducted to estimate the mean age of the plants. are
usually . The existence of missing observations invalidates some of the initial assumptions and affects the
properties of the statistical models because we can not compute the sample mean

75
n

y i
y= i =1
(1.1)
n
which estimates the population mean Y . In practice the missing units are located in zones of difficult access.
Hence, the behavior of them may be very different form the collected information, because the responses are
obtained from a subset of units of the sample (sub sample) . Take

s1={isi gives a response at the first visit}

That is the population of plants U is divided into two strata: U1 , where are grouped the plants that
are visited at the first visit, and U2 contains the rest of the plants. Hence the response strata model is to be
used. It was first proposed by Hansen-Hurvitz (1946), see Singh (2003). Their proposal was to select a
subsample s2 of size n2 among the n2 non-respondents grouped in the sample s2=s\s1 . Then we obtain
information on the non-respondent's strata U2 through a sub sample s2s2 .

The variable of interest is

Y= age of the plant

It is determined by measuring the size and number of leaves in the plant. There are different auxiliary
variables which may be used for determining if a zone is economical exploitable for producing mezcal. We
consider the variables area covered by the plant, number of lines and height as X.

The inventory provided the information on the plants of mezcal and a system for evaluating
populations of mescal in non cultivated zones is proposed. The auxiliary information can be obtained by
cheap procedures.

The index considered by the specialists, for evaluating if a zone is exploitable from an economic
point of view, is based on the computation of





   
 
=



Therefore we consider the use of product estimators. They have been thoroughly studied, see Singh
(2003), Singh and Mangat. (1996). Different recent papers study the use of product type estimators under
full response. Agrawal and Sthapit (1997) derived conditions for its asymptotic normality on the finite
populations sampling. Singh and Ruiz (2007) proposed a class of ratio-product estimators in two-phase
sampling

In this paper we present estimators of the unknown mean age using product type models for coping
with non responses (nr) in survey sampling.

2. THE NR-STRATUM APPROACH


Non responses (missing observations) may be motivated by a refusal of some units to give the true
value of Y or by other causes. In our case the difficulty to access to some selected plants is usual the cause of
missing observations. Hansen-Hurvitz in 1946 proposed to select a sub-sample among the non-respondents,
see Cochran (1977). This feature depends heavily on the proposed sub-sampling rule. Alternative sampling
rules to Hansen-Hurvitzs rule have been proposed see for example Srinath (1971) and Bouza (1981).

Theoretically it is a particular double sampling design described as follows:

76
Step 1: Select a sample s from U using srswr
Step 2: Evaluate Y among the respondents and determine {yi : is1U1, s1 =n1}.
n1

y i
Compute y1 = i =1
(2.1)
n1
Step 3: Determine n2=n2/K, K>1; s2=n2 with s2=s\s1.
Step 4. Select a sub-sample s2 of size n2 from s2 using srswr.
Step 5. Evaluate Y among the units in s2 {yi : is2 s2, s2U2}.
n '2

y i
Compute y '1 = i =1
(2.2)
n2
Step 6. Compute the estimate of
n1 n
y= y1 + 2 y ' 2 = w1 y1 + w2 y ' 2 (2.3)
n n
Note that (2.1) is the mean of a srswr-sample selected from U1, then its expected value is the mean of
Y in the respondent stratum: 1. We have that the conditional expectation of (2.2) is:

E[ y ' 2 s ] = y 2 (2.4)

as (2.4) is the mean of a srswr-sample selected from U2

EE[ y ' 2 s ] = 2 (2.5)

and taking into account that for i=1,2 E(ni)=nNi/N=nWi the unbiasedness of (2.3) is easily derived.

Rewriting (2.3) as

y = (w1 y1 + w2 y2 ) + w2 ( y '2 y 2 ) = y + w2 ( y '2 y 2 ) (2.6)

the first tern is the sample mean hence its variance is 2/n. For the second term we have that

22 22
V (w2 ( y ' 2 y 2 ) s ) = w 2 2
= w 2 2 2 2 K 1
(2.7)
n' 2 n2 n2 n2

and

W2 ( K 1) 2
2

EV (w2 ( y ' 2 y 2 ) s ) = (2.8)


n
Hence the expected error of (2.3) is given by the well known expression

2 W2 ( K 1) 22
EV ( y ) = + (2.9)
n n
This results appear in standard text books as Cochran (1977) and Singh (2003). We will consider the
use of the additional information provided by a known variable X for constructing a product type estimator of
thee means involved.

77
3. PRODUCT TYPE ESTIMATORS UNDER NON RESPONSES
As the index has the structure of a product the use of product estimators is a solution. Take the usual
estimator
xy
yp = (3.1)
X


n N
zj X j
i =1 i =1
where z= ; z = x, y , X =
n N

Its expectation is given by

E (x y )
( )
E yp =
X Y
= Y +
XY
nX


N N
( X j X )(Y j Y ) Xj
i =1 i =1
where XY = ; Y =
N N

XY
Hence the estimation of the mean age has as bias B( y p ) = and its variance is
n X

Y2 + R 2 X2 + 2 R XY
V (y p ) =
n

where

(Z Z )
N 2
j =1 j
R= Y , 2
= , Z = X ,Y
X
Z
N

A version of it is


n
xjyj
i =1
y p* = (3.2)
n X

and it has the same bias and variance as (3.1).

We consider them for estimating the mean of the nr stratum.

Let us consider

n1 y 1 + n 2 y ' 2 p n1 y 1 + n 2 y 2 n 2 ( y' 2 p y 2 )
y ps = = +
n n n (3.3)

where
y' 2 x 2
y' 2 p =
X

78
The first member of at the right hand side of (3.3) is the mean of Y in s. Hence the bias of (3.3)
depends on the expectation of the last term. The conditional expectation of it, for a fixed n2,,is equal to the
product estimator based on the sub sample s2. Therefore

n2 ( y'2 p y 2 ) n y x2 n y
E n' 2 = 2 2 2 2
n n X n

as
n y x2 n y n
E 2 2 2 2 n 2 = 2 2 XY ,
n X n n n2 X
where

(X 2 X )(Y2 j 2Y )
N2 N2
j =1 2j j =1
Z2 j
2 XY = , 2Z = , Z = X ,Y
N2 N2

Then the bias is equal to



B ps = B( y ps ) = XY
n X

The results obtained previously fix that under the regularity condition

(y y 2 )(x 2 j x 2 )
n2
2 ZY j =1 2j
R1: ,
n' 2 2Y X n' 2 2Y X

we have that
Y 2 2 XY C 2Y C 2 X
E (E ( y ps n' 2 ) n 2 ) y +
n
The variance of (3.3 ) is obtained by calculating

V (E (E ( y ps n' 2 , ne ))) + E (V (E ( y ps n' 2 , ne ))) + E (E (V ( y ps n' 2 , ne )))

The first term is

(((
V E E y ps n' 2 , n 2 ))) = V y + C 2 X C 2Y 2Y C C
= V ( y ) + V 2 X 2Y 2Y
n
C C
+ 2Cov y, 2 X 2Y 2Y


n n
It is clear that
Y2
V (y ) = (3.4)
n
and that the other terms are equal to zero.

For the second term we have the expression


n 2
(( ( ) ))
n
( )
E V E y ps n' 2 n 2 = E V y + 2 y 2 p y 2 n 2 = E 2 V y 2 p y 2 n 2
n
(( ) )
n

79
Calculating the conditional variance we obtain

(( ) ) (( ) ) ((
V y 2 p y 2 n 2 = V y 2 p n 2 + V (( y 2 ) n 2 ) 2Cov y 2 p , y 2 n 2 ) )
The first two terms are easily derived as

(( ) )
V y 2 p n2
22Y + R 22 22X + 2 R 2 2 XY
n2
22Y
V (( y 2 ) n 2 ) =
n2

For computing the third term we relay on the properties of the sampling moments enounced by
David and Sukhatme (1974). This term can be rewritten as

y2 x2 C C
(( ) )
Cov y 2 p , y 2 n 2 = E 2
X
n 2 2Y + 2Y 2 2 X 2Y
n2

2Y

As

( )
E y 2 x 2 n2 = 22Y 2 X +
2 2 2Y 2 XY + X 2 Y
n2
+ O(n 2 )

we have that

22Y C C 2 2Y 2 XY + 22Y 22Y


((
Cov y 2 p , y 2 n2 ) ) X

2 X 2 2 X 2Y
n2
+
n
+
n2
2 X

Substituting the terms derived previously we have that

2
R22 22X + 2 2 XY R2 2Y
2X 2 2Y C C 22Y
(( ) )
2
V y2p y 2 n2 2 X 2 2 X 2Y
n2 n2
X n2

The analyzed variance term is derived by computing the unconditional expectation


n2 2
n
((
) )
E V y 2 p y 2 n2 W2 (S (1) + S ( 2) ) 22 XY (3.5)

where
2
R22 22X + 2 2 XY R2 2Y
2 X , C C 2
S (1) = S (2) = 2 2 2 X 2Y + 2Y ,
n n X n X
2
2 XY = 2Y 2 X

(
nW22 + nW1W2 )
n X

The third term of the sampling error is

80
( ((
n 2
) )) (
E E V y ps n' 2 n2 = E E 2 E ( y ' 2 p y 2 ) n' 2 n2
n
2

)

Noting that

y ' 2 p 2Y = ( y ' 2 p y 2 ) + ( y 2 2Y )
We have that

( ) ( ) (
E ( y ' 2 p y 2 ) n' 2 = E ( y 2 2Y ) n' 2 E ( y 2 2Y ) n' 2
2 2 2
)= (1 ) 22Y
(3.6)
n2
because the expectation of the cross term is equal to zero. Hence

W2 (1 ) 22Y
( ((
E E V y ps n' 2 n2 = ) )) n
Then

Y2 W2 ps ( 2 ) W2 (1 ) 22Y
( )
V y ps =
n
+
n
+
n
2* 2 XY .
where
2 2Y 2 C 2 X C 2Y 22Y
ps ( 2) R 22 22X + 2 2 XY R 2 + 2 +
2 X X X

2X
2
* 2 XY = 2Y


X
Because if the regularity condition R1 holds.


lim n 2 XY = 0
n X
An alternative estimator is

n y + n 2 y' 2 x
y pc = 1 1
(3.7)
n x
We can rewrite it as

n y + n2 y 2 x n 2 ( y'2 y 2 ) x
y pc = 1 1
+


n x n x

The first term is the expression of the product estimator i n the original sample. The conditional
expectation of the second term is zero. Hence we have that (3.7) is asymptotically unbiased because

( ) ( ) C X CY )
EEE y pc n' 2 , n2 = E y p = Y + Y
n
and

81
C X C Y )
lim n Y =0
n
The unconditional variance of (3.7) is given by

( ( )) ( )
V EE y pc n' 2 , n 2 = V y p =
Y2 + R 2 X2 + 2 R XY
n
= V (1)

It is easily derived that

( ( )) (
E V ( E y pc n' 2 ) n 2 = E (V y p n 2 = 0 )
because at the second conditional level we are calculating the variance of a constant.

Using (3.6) we have

(1 ) 22Y
( )
2 2
n x n x
V ( y pc n' 2 ) = 2 E ( y ' 2 y 2 ) 2 n' 2 = 2
n x n x n 2
The expectation conditional to a fixed n2 is

n x1 + n x 2
2
n
2
2 12X n 2
2
2 2 n n
E 1
n
2 n2 = 1
n
1 X +
n
+ 2 X + 2 X + 2 1 2 2 (
1 X 2 X )
2

1 n n2 n

Calculating E(n2i), I=1,2, E(n1n2), and adding this result to V(1), after grouping we obtain

2

(1 )

2 + W1W2 (1 X 2 X ) + i =1
Wi iX2
( ) + R + 2 R XY
2 2 2 2 2

V y pc = Y X
+ 2Y (3.8)
n X2 X n n

4. EVALUATION OF THE BEHAVIOR OF THE ESTIMATOR


The Agave cupreata Trel et Berger appears in Silvestre zones in Guerrero State. It is divided into 77
municipes clustered. An investigation took place in zones of Xochicalehualaclt. The inventory identified 7625
plants of maguey papalote in XXX locations. The referred results appears in the technical report Desarrollo
de un Sistema de Inventario y Monitoreo de Maguey Papalote (Agave cupreata Trel. & Berger),
(Madariaga, 2004).

We considered that the regions were populations. A sample fraction of 0,1 was selected from each of
them. The sites of difficult access were identified by considering their placement. The sub-sampling fraction
was fixed by the 50%. Hence n`2=n2/2 in each location. The variance was computed for each location using
the three possible auxiliary variables
X1 =area covered by the plant
X2= number of lines
X3 =height

The specialists used X1 in their common studies. We considered the efficiency of the estimators
based on the other variables by computing

82
(t ,1) =
(
V y pc X t ), t 1
V (y pc X )
1
The results are given in Table 1. An analysis of them fixes that the area covered by the plant increases
considerably the accuracy of the estimates. Hence having a record of it is highly recommended for
establishing monitoring systems.

Table 1. Efficiency of X2= number of lines and X3 =height with respect to X1 =area covered by the
plant
Region (2,1) (3,1)
Axacualco 1.38 0.88
El Naguacate 2.59 1.11
Mazatlan 0.63 0.77
Mirabal 2.47 1.07
Ojioto 0.96 0.97
Palndegua 1.07 0.65
Palo Blanco 0.90 0.95
Salto 1.65 0.93
Tlaniopa 1.03 0.92
Xachilpa 0.85 0.93
Xocomanat 1.67 0.71
Percent of cases where the efficiency 36.36 81.89
was increased

REFERENCES

[1] AGRAWAL M. C. and STHAPIT A. B (1997):Hierarchic predictive ratio-based and product-based


estimators and their efficiency. Journal of Applied Statistics, 24, 97-104.
[2] BOUZA, C.N. (1981): Sobre el problema de la fraccin de muestreo para el caso de las no respuestas.
Trabajos de Estadstica. 21, 18-24.
[3] HANSEN, M.H.. and HURWITZ, W.N. (1946): The problem of non responses in sample surveys. J.
American Statistical Association. 41, 517-529
[4] DAVID, I. P. and SUKHATME, B. V. (1974): On the bias and mean square error of the ratio estimator. J.
American Statistical. Assoc. 69, 464-466.
[5] MARADIAGA C. F. S. (2004): Desarrollo de un Sistema de Inventario y Monitoreo de Maguey
Papalote (Agave cupreata Trel. & Berger) en el estado de Guerrero. Fundacin PRODUCE Guerrero
A.C., Programa de Recursos Biolgicos Colectivos (CONABIO) e Instituto de Investigacin Cientfica rea
Ciencias Naturales de la UAGro. Chilpancingo, Gro. Mxico.
[6] RUEDA, M. and GONZLEZ, S. (2004) Missing data and auxiliary information in surveys,
Computational. Statistics. 10, 559-567.
[7] RUEDA, M,. MARTNEZ, S. MARTNEZ H. and ARCOS, A. (2006): Mean estimation with calibration
techniques in presence of missing data. Computational. Statistics and Data Analysis, 50, 3263-3277.
[8] SRNDAL, KARL-ERIK SIXTEN LUNDSTRM (2005): Estimation in Surveys with Nonresponse.
Wiley, Chichester.
[9] SINGH, HOUSILA and MARIANO RUIZ ESPEJO (2007): Double Sampling Ratio-product Estimator of
a Finite Population Mean in Sample Surveys. Journal of Applied Statistics, 34, 71-85.
[10] SINGH, S. (2003): Advanced Sampling Theory with Applications. Kluwer Academic Publishers,
Dordrecht, Amsterdam.
[11] SRINATH, K. P. (1971): Multi-phase sampling in non-response problems. J. American Statistical.
Association, 66, 583-589.

83
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 84-95

Vt L
INCIDENCIA DE LAS DESIGUALDADES SOCIALES EN LOS
NDICES DE MORTALIDAD INFANTIL
Yolanda Romn-Montoya y Ana Mara Lara-Porras
Departamento de Estadstica e Investigacin Operativa.
Campus de Fuentenueva s/n. Facultad de Ciencias. Universidad de Granada (18071). Espaa

ABSTRACT
This paper presents an analysis of health inequalities in Colombia, particularly infant mortality. Concentration variations
of infant deaths are determined during the first day of life, the first week and the first year. For this analysis are taken into
account the socioeconomic sorting exist in the country. infant mortality rates are analyzed and concentration index
building Lorenz curves. The population is ordered according to socioeconomic status regions, and through quantitative
values. We have used mortality data extracted from the National Bureau of Statistics of Colombia (DANE).

KEYWORDS: Gini Index, equi-distribution, poverty

RESUMEN
En este trabajo se presenta un anlisis sobre las desigualdades en salud en Colombia, concretamente la mortalidad infantil.
Se determinan las variaciones en la concentracin de muertes infantiles durante el primer da de vida, la primera semana y
el primer ao, teniendo en cuenta la ordenacin socioeconmica que existe en el pas. Se analizan las tasas de mortalidad
infantil y los ndices de concentracin tanto a nivel grfico, construyendo las curvas de Lorenz en la poblacin ordenada
por regiones segn el nivel socioeconmico, como a travs de valores cuantitativos. Para ello hemos utilizado los datos de
mortalidad infantil extrados del Departamento Administrativo Nacional de Estadstica de Colombia (DANE).

1. INTRODUCCIN

La desigualdad en mbitos como la salud y el uso de servicios es una realidad patente en los pases
sudamericanos. Las desigualdades en la distribucin de los recursos econmicos caracterizan a pases como
Brasil, Guatemala y Paraguay que presentan una elevada concentracin del ingreso.

Estas desigualdades llevan implcitas diferencias sociales que influyen en todos los campos, incluido
el de la salud. Para llevar a cabo un anlisis de este tipo de desigualdades es necesaria la aplicacin de
tcnicas concretas de anlisis, tanto grficas como cuantitativas, como son la curva de Lorenz, los ndices de
Gini y Theil, el coeficiente de Atkinson, o el Slope Index of inquality, que permitan aunar la informacin
socioeconmica y la del entorno social analizado (Medina y Galvn, 2008).

En este trabajo se presenta un anlisis sobre las desigualdades en salud, concretamente nos
centramos en la mortalidad infantil en Colombia. Se determinan las variaciones en la concentracin de
muertes infantiles durante el primer da de vida, la primera semana y el primer ao, teniendo en cuenta la
ordenacin socioeconmica que existe en el pas. Es muy importante enfocar correctamente el estudio para
detectar posibles diferencias entre grupos especficos de la poblacin, por este motivo se considera siempre la
distincin entre las categoras departamentales establecidas en Colombia. Como medida de variabilidad
consideraremos el ndice de Gini. Este indicador y sus curvas asociadas puede concebirse desde la perspectiva
estadstica como una medida de variabilidad, o como un ndice normativo de desigualdad (Runciman, 1966).
Tambin ha sido estudiado desde la perspectiva sociolgica considerando el sentimiento de privacin de los
individuos (Yitzhaki, 1979 y 1982), y es posible construirlo utilizando axiomas de justicia social (Ebert y
Moyes, 2000).

El ndice de Gini posee propiedades estadsticas conocidas (Wodon y Yitzhaki, 2002a), que permiten
comprobar la robustez de los cambios que se generan en el nivel de equidad. Este ndice, definido como una
84
medida de concentracin, puede ser utilizado para analizar la distribucin de la mortalidad permitiendo ver las
desigualdades en la concentracin segn la edad de muerte de los individuos. Por otra parte, puede derivarse
de la curva de Lorenz, definindose como el rea que queda comprendida entre la curva de equidistribucin y
la curva que representa el porcentaje acumulado de individuos ordenados segn el nivel socioeconmico
establecido en el pas frente al porcentaje acumulado en la variable de inters. Esta representacin geomtrica
resulta muy til para comparar dos o ms distribuciones, lo que es muy relevante para cuantificar el impacto
de los cambios que se generan en las distintas fuentes en la desigualdad total y en los diferentes instantes de
muerte que se analizan.

Adems, el ndice de Gini, dado su carcter adimensional, permite resumir y comparar las relaciones
entre nuestras variables de inters: Mortalidad neonatal, mortalidad entre los das 1 y 6, mortalidad entre 7 y
28 das y mortalidad entre el mes 1 y el 11. Tanto su clculo como su interpretacin resultan ser muy
intuitivos lo que favorece su uso.

2. BASE DE DATOS DANE (COLOMBIA): CONTEXTO Y ANLISIS.

El Departamento Administrativo Nacional de Estadstica (DANE), con ms de 60 aos de


experiencia, es la entidad responsable de planificacin, procesamiento, anlisis y difusin de las estadsticas
oficiales de Colombia de todos los sectores de la economa, industria, poblacin, sector agropecuario y
calidad de vida, entre otras.

A partir de los datos obtenidos de este organismo, trabajamos con un fichero de 7679727 registros
relativos a los nacimientos producidos en Colombia entre los aos 1998 y 2008, que tambin incluyen
informacin de los datos de mortalidad infantil, con un total de 139095 registros.

En el fichero de muertes se consideraron las variables: cdigo del departamento donde se produce el
nacimiento, ao, sexo, edad del fallecido, causa de la muerte, tiempo de gestacin y estado civil de la madre.
Del fichero de nacimientos slo tomamos la informacin relativa al ao y la categora del departamento de
residencia.

El objetivo de nuestro estudio es determinar las desigualdades que se producen en los ndices de
mortalidad infantil en Colombia. Este pas se encuentra dividido administrativamente en 33 zonas: Bogot y
32 departamentos, que son gobernados desde sus respectivas ciudades capitales. A partir de esta divisin del
pas y segn la Ley 617 de 2000, el Congreso de Colombia decreta la categorizacin de las entidades
territoriales en base a los presupuestos de los departamentos, teniendo en cuenta su capacidad de gestin
administrativa y fiscal y de acuerdo con su poblacin e ingresos corrientes de libre destinacin, se establece
una agrupacin de las regiones en cuatro grandes categoras:

- Categora especial. Departamentos con poblacin superior a dos millones de habitantes e


ingresos corrientes de libre destinacin anuales superiores a seiscientos mil salarios mnimos legales
mensuales.
- Primera categora. Departamentos con poblacin comprendida entre setecientos mil uno
habitantes y dos millones, cuyos ingresos corrientes de libre destinacin anuales igualen o superen ciento
setenta mil uno salarios mnimos legales mensuales y hasta seiscientos mil salarios mnimos legales
mensuales.
- Segunda categora. Departamentos con poblacin comprendida entre trescientos noventa
mil uno y setecientos mil habitantes y cuyos ingresos corrientes de libre destinacin anuales sean iguales
o superiores a ciento veintids mil uno y hasta de ciento setenta mil (170.000) salarios mnimos legales
mensuales.
- Tercera categora. Departamentos con poblacin comprendida entre cien mil uno y
trescientos noventa mil habitantes y cuyos recursos corrientes de libre destinacin anuales sean
superiores a sesenta mil uno y hasta de ciento veintids mil salarios mnimos legales mensuales.

85
- Cuarta categora. Departamentos con poblacin igual o inferior a cien mil habitantes y
cuyos ingresos corrientes de libre destinacin anuales sean iguales o inferiores a sesenta mil salarios
mnimos legales mensuales.

Esta divisin en categoras permite incluir una dimensin socioeconmica del estudio, que
mantendremos a lo largo de todo el anlisis y que nos permitir realizar el clculo de los ndices de
concentracin de muertes infantiles en Colombia durante el periodo 1998 2008.
El trabajo se desarrolla en dos fases:

1. Anlisis de la distribucin de las muertes infantiles en Colombia respecto a la poblacin


de nacidos vivos. Se har un anlisis desde la perspectiva global del pas, realizando un recuento de
muertes infantiles y momento de la muerte a lo largo del periodo 1998 2008. A continuacin se
proceder a analizar la evolucin de las tasas de mortalidad infantil segn categoras departamentales.
2. Anlisis de las diferencias en la concentracin de la mortalidad infantil segn los
diferentes grupos socioeconmicos del pas. Consideraremos como medida de concentracin el ndice de
Gini, tomando como variables de inters el momento de la muerte: Menores de 1 da, de 1 a 6 das, de 7 a
29 das y de 1 a 12 meses.

Todo el procesamiento de los datos y los clculos realizados se han llevado a cabo utilizando el
entorno de computacin estadstico R.

3. RESULTADOS
En primer lugar comenzamos realizando la primera fase de nuestro estudio de la poblacin de los
nacidos vivos en Colombia, en la que analizamos globalmente la distribucin de las muertes infantiles. Para
iniciar el estudio, presentamos en la Tabla 1 informacin recogida en la base de datos. Esta tabla de
contingencia muestra el nmero de muertes producidas durante el primer ao de vida en el periodo 1998
2008.

Grupos de edad
Ao Menores de 1 dia 1-6 dias 7-29 dias 1-12 meses Totales
1998 Total 3501 2795 2274 5606
% respecto grupo 9.5 9.2
% respecto ao 10.6 19.7 16.0 10.8 14176

24.7 39.5
1999 Total 3609 3158 2678 5169
% respecto grupo 10.7 10.8
% respecto ao 10.9 21.6 18.3 10.0 14614

24.7 35.4
2000 Total 3741 3302 2807 5514
% respecto grupo 11.2 11.3
% respecto ao 11.3 21.5 18.3 10.6 15364

24.3 35.9
2001 Total 3409 2980 2521 5520
% respecto grupo 10.1 10.2
% respecto ao 10.3 20.7 17.5 10.7 14430

23.6 38.3
2002 Total 3015 2655 2257 4713
% respecto grupo 9.0 9.1
% respecto ao 9.1 21.0 17.9 9.1 12640

23.9 37.3

86
2003 Total 2863 2625 2167 4555
% respecto grupo 8.9 8.8
% respecto ao 8.6 21.5 17.7 8.8 12210

23.4 37.3
2004 Total 2848 2499 2038 4387
% respecto grupo 8.6 8.5 8.2
11772
% respecto ao 24.2 21.2 17.3 8.5
37.3
2005 Total 2753 2458 2014 4231
% respecto grupo 8.3 8.1
% respecto ao 8.3 21.5 17.6 8.2 11456

24.0 36.9
2006 Total 2516 2258 2027 4248
% respecto grupo 7.7 8.2 8.2
% respecto ao 7.6 20.4 18.3 38.4 11049

22.8
2007 Total 2461 2347 2066 3993
% respecto grupo 8.0 8.3 7.7
% respecto ao 7.4 21.6 19.0 36.7 10867

22.6
2008 Total 2398 2364 1898 3857
% respecto grupo 8.0 7.7 7.4
% respecto ao 7.2 22.5 18.0 36.7 10517

22.8
33114 29441 24747 51793 139095
TOTALES
Tabla 1: Mortalidad infantil segn Aos y Grupos de Edad

A partir de los valores de la tabla 1, se observa que en el grupo de edad de 1-12 meses se producen
ms muertes, seguido por el grupo de los nios menores de un da. No se detectan grandes diferencias entre el
nmero de muertes de los grupos de 1 a 6 das y 7 a 29 das. As mismo se observa un leve decrecimiento en
el nmero de muertes en cada una de las categoras de edad. Para confirmar este decrecimiento, se determinan
las tasas de mortalidad infantil, teniendo en cuenta las categoras departamentales descritas en el apartado
anterior.

Las tasas de mortalidad se definen como:

N muertos < 1ao


Tasa Mortalidad Infantil = x1000
N nacidos vivos

Los valores obtenidos se resumen en el grfico 1 en el que se muestra la evolucin de la mortalidad


infantil en las cuatro categoras departamentales.

El grfico muestra la existencia de variaciones en la mortalidad infantil de una categora


departamental a otra. En los cinco departamentos se observa un decrecimiento en los ndices de mortalidad. A
partir de 2006, los valores de las tasas de mortalidad infantil tienden a estabilizarse en todos los
departamentos. Las diferencias ms notables se observan al inicio del periodo analizado. Por otra parte es de
destacar la aparicin de cambios ms reseables en los departamentos clasificados en la cuarta categora
(poblacin inferior a 100000 habitantes e ingresos inferiores); en estos departamentos se observa un
decrecimiento importante en la tasa de mortalidad entre los aos 1998 y 2004 pasando a estabilizarse a partir
de ese momento.

87
Se plantea entonces la cuestin de si esta diferencia entre los niveles de mortalidad puede venir
motivada por el momento concreto en el que se produce la muerte. Nosotros hemos considerado 5 instantes
concretos: menores de 1 da, de 1 a 6 das, de 7 a 29 das y de 1 a 11 meses. Procedemos por tanto a analizar
si se producen ms diferencias en los niveles de mortalidad segn el instante en el que se produce la muerte.

El estudio distinguir tanto la evolucin por aos como la dimensin socioeconmica del pas.

4
Departamento 0
Departamento 1
Departamento 2
Departamento 3
Departamento 4
3
% mortalidad infantil

2
1
0

1998 2000 2002 2004 2006 2008

aos

Grfica 1: Evolucin de la mortalidad infantil en Colombia segn Categora departamental

Para ello, en primer lugar ordenamos los individuos que mueren durante su primer ao de vida,
segn las categoras departamentales. Calculamos el ndice de Gini para cada uno de los distintos instantes de
muerte: durante el primer da de vida, durante la primera semana de vida, durante el primer mes o entre el
segundo mes y el mes 12 de vida. En segundo lugar se obtienen las curvas de Lorenz, que constituyen el
indicador grfico de igualdad social ms utilizado. En estas curvas, en la escala vertical se representan las
cantidades acumuladas divididas por el total de individuos de la poblacin, con el objeto de representar qu
cantidad absoluta corresponde a cada porcentaje de individuos. Teniendo en cuenta esto, los ejes coordenados
se definen de la siguiente forma:

- Eje X: Acumulado de la poblacin (en nuestro caso nacidos vivos que mueren en el
primer ao de vida) ordenados segn la categora departamental en la que nacieron.
- Eje Y: Acumulado de la variable salud (en nuestro caso, muertes infantiles en las
distintas edades indicadas anteriormente). En este punto es importante tambin sealar que
trabajamos con datos de mortalidad actuariales: datos de la edad en el momento de la muerte en cada
distrito.

A partir de la grfica se observa como aproximadamente el 40% de las muertes neonatales (durante
el primer da de vida) se producen en el 25% de los casos de mortalidad infantil (muerte durante el primer ao
de vida) de entre las categoras econmicas ms desfavorecidas. En este mismo porcentaje de poblacin se
produce un un 25% de las muertes entre 1 y 6 das, el 20% aproximadamente de las muertes entre 1 y 11
meses y un 18% de las muertes corresponde al grupo de edades comprendidas entre 7 y 29 das.
88
Se observa tambin en el grfico 2, cmo la curva de Lorenz pasa de estar por encima de la
equidistribucin a estar por debajo cuando no se produce un incremento de las muertes de una proporcin de
individuos Pi a Pi+1 considerable (es decir Qi+1 est muy prximo a Qi o son iguales). Al contrario tambin
puede ocurrir, es posible que pasemos de estar ante un estado de pocas muertes y que stas se incrementen
tanto que se pase de estar por debajo de la equidistribucin a estar por encima. Para solventar este
inconveniente en el clculo del coeficiente de concentracin, hemos considerado la reflexin de las curvas
sobre la recta y = x, obteniendo siempre valores positivos de dicho coeficiente.

Se muestra a continuacin, en la grfica 3, la evolucin de las curvas de Lorenz a lo largo del periodo
temporal analizado, 1998 2008.

Curvas de Lorenz
1.0
0.8
Proporcin de muertes

0.6
0.4
0.2

Menores de un da
de 1 a 6 das
de 7 a 29 das
0.0

de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos

Grfica 2: Concentracin de mortalidad infantil. Los individuos son ordenados segn categoras
departamentales. (Considerando la informacin global relativa al periodo 1998 2008)

89
Curvas de Lorenz 1998 Curvas de Lorenz 1999

1.0

1.0
0.8

0.8
Proporcin de muertes

Proporcin de muertes
0.6

0.6
0.4

0.4
0.2

0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0

0.0
de 1 a 11 meses de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos Proporcin de nacimientos

Curvas de Lorenz 2000 Curvas de Lorenz 2001


1.0

1.0
0.8

0.8
Proporcin de muertes

Proporcin de muertes
0.6

0.6
0.4

0.4
0.2

0.2

Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0

0.0

de 1 a 11 meses de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos Proporcin de nacimientos

Curvas de Lorenz 2002 Curvas de Lorenz 2003


1.0

1.0
0.8

0.8
Proporcin de muertes

Proporcin de muertes
0.6

0.6
0.4

0.4
0.2

0.2

Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0

0.0

de 1 a 11 meses de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos Proporcin de nacimientos

90
Curvas de Lorenz 2004 Curvas de Lorenz 2005

1.0

1.0
0.8

0.8
Proporcin de muertes

Proporcin de muertes
0.6

0.6
0.4

0.4
0.2

0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0

0.0
de 1 a 11 meses de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos Proporcin de nacimientos

Curvas de Lorenz 2006 Curvas de Lorenz 2007


1.0

1.0
0.8

0.8
Proporcin de muertes

Proporcin de muertes
0.6

0.6
0.4

0.4
0.2

0.2

Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0

0.0

de 1 a 11 meses de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos Proporcin de nacimientos

Curvas de Lorenz 2008


1.0
0.8
Proporcin de muertes

0.6
0.4
0.2

Menores de un da
de 1 a 6 das
de 7 a 29 das
0.0

de 1 a 11 meses

0.0 0.2 0.4 0.6 0.8 1.0

Proporcin de nacimientos

Grfica 3: Curvas de Lorenz segn aos y ordenacin social por categora departamental.

91
Del anlisis de la grfica 3 se deduce que las mayores desigualdades se producen en la variable que
mide la mortalidad neonatal (muerte en el primer da tras el nacimiento). A lo largo de los aos, se han
incrementado las desigualdades en las muertes acaecidas entre el primer y el sexto da de vida a favor de las
clases ms ricas mientras que la mortalidad entre 7 y 11 meses presenta mayor desigualdad en las clases ms
pobres.

Para cuantificar estos resultados hemos procedido al clculo numrico del ndice de concentracin.

El ndice de concentracin establece la comparacin entre la proporcin de muertes infantiles con la


edad considerada bajo estudio y el nmero de nacimientos que no superan el primer ao de vida (en cada uno
de los instantes sealados) producidos hasta el momento. Para su clculo hemos considerado dos variables:
una que engloba a toda la poblacin (en nuestro caso el total de nacimientos con vida que no superan el
primer ao) ordenando los individuos segn la categora departamental en la que se produjo el nacimiento y
otra que mide la enfermedad (en nuestro caso la muerte del paciente menor de un ao; consideraremos
diferentes edades: Menores de un da, de 1 a 6 das, de 7 a 29 das, de 1 a 11 meses). Realizaremos un estudio
comparativo ao a ao para ver la evolucin de las desigualdes a lo largo del tiempo

Para este estudio utilizamos el ndice de concentracin de Gini cuya expresin ms habitual responde
a:

N 1 N 1 N 1

(P Q )i i Q i Q i
IC = i =1
= 1 i =1
= 1 i =1
N 1 N 1
50( N 1)
P
i =1
i P
i =1
i

Siendo N el nmero total de participantes en el estudio, Pi el porcentaje de poblacin considerado, y


Qi el porcentaje de masa total de la variable en estudio (% de nios que murieron antes de un instante
determinado, que en nuestro caso es un ao).

Una alternativa de clculo para el ndice de concentracin es la formulacin de Brown (Brown,


1994), que ha sido la opcin elegida para nuestros clculos.
N 1
IC = 1 ( Yi +1 + Yi )( X i +1 X i )
i =1
Como ya indicamos anteriormente, dado el comportamiento observado de las curvas de Lorenz,
consideramos para el clculo del IC la reflexin de las curvas de Lorenz sobre la recta y = x, obteniendo
siempre valores positivos para dicho ndice. Los resultados obtenidos se resumen en la tabla 2.

Grupo edad Grupo edad 1 a 6 Grupo edad 7 a 29 Grupo edad 1 a 11


menores de 1 da das das meses
1998 0.3229791 0.1929914 0.2194526 0.2163551
1999 0.344015 0.2012217 0.2586533 0.2461554
2000 0.3314221 0.1949204 0.2125334 0.2410225
2001 0.3328982 0.2042891 0.2232251 0.2348406
2002 0.3266833 0.1940479 0.1758553 0.2521218
2003 0.3232448 0.1893914 0.190608 0.2398244
2004 0.3194171 0.195029 0.200963 0.2523137
2005 0.3186887 0.1812694 0.1858153 0.2440085
2006 0.3141097 0.1802823 0.1866298 0.232121
2007 0.3332588 0.1767403 0.1787241 0.2451415
2008 0.3082152 0.1814038 0.1718844 0.250337
Tabla 2: ndices de concentracin segn ao y grupo de edad

92
Como se puede observar, los valores obtenidos reflejan un leve descenso, los valores menores
corresponden a los grupos de muertes entre los 1 y 6 das y de 7 a 29 das, lo que refleja una mayor
equidistribucin en el pas en cuanto a los ndices de mortalidad para estas edades. Los valores mayores
corresponden a la mortalidad neonatal.

En la figura 4 se muestra grficamente la evolucin de estos ndices a lo largo de los aos analizados.

El coeficiente de Gini o, en este caso, el ndice de concentracin, ofrece una medida de la


desigualdad de la distribucin en la mortalidad infantil en el grupo de edad considerado causada por la
diferencia entre secciones departamentales (recursos socioeconmicos). En lneas generales, en todos los
grupos se observa una ligera tendencia decreciente de los ndices de concentracin. Este hecho indica un
proceso continuado de estabilidad en lo que se refiere a diferencias en salud. Por otra parte, es de destacar que
en todas las variables se observa el mismo proceso de decrecimiento excepto en los ndices asociados a las
muertes producidas entre 1 y 11 meses. Este hecho es indicativo de que en los ltimos aos se han producido
una serie de mejoras en el entorno sanitario que han confluido en un proceso de estabilidad en las tasas de
mortalidad infantil, independientemente de las categoras departamentales del pas.

A la vista de estos resultados se plantea proseguir el estudio analizando la ordenacin de los 33


departamentos de Colombia.
0.5

Menores de un da
de 1 a 6 das
de 7 a 29 das
0.4

de 1 a 12 meses
0.3
Indices

0.2
0.1
0.0

1998 2000 2002 2004 2006 2008

Aos

Grfica 4: Evolucin de los ndices de concentracin segn categoras departamentales

93
4. CONCLUSIONES

Los 33 departamentos establecidos en Colombia se encuentran clasificados, segn un criterio


socioeconmico basado en la poblacin del departamento y los ingresos, en cinco grandes categoras, que en
orden decreciente se denominan: especial, primera, segunda, tercera y cuarta. Esta estructura reviste no slo
diferencias sociales sino tambin desigualdades en lo relativo al mbito de la salud.

A partir de este criterio de ordenacin, se ha llevado a cabo un estudio durante el periodo 1998
2008 sobre la mortalidad infantil relativo al anlisis de la mortalidad infantil en los diferentes grupos de edad:
menores de 1 da (neonatos), de 1 a 6 das, de 7 a 29 das y de 1 a 12 meses.

En primer lugar se analizaron las tasas de mortalidad infantil durante el periodo 1998 2008. Se
observan valores ms elevados de mortalidad en el grupo 1-11 meses. No se detectan grandes diferencias
entre el nmero de muertes de los grupos de 1 a 6 das y 7 a 29 das. As mismo se observa un leve
decrecimiento en el nmero de muertes en cada una de las categoras de edad.

En el anlisis por departamentos se observa un decrecimiento en las tasas de mortalidad para las 5
categoras, estabilizndose estos valores a partir del 2006. Los cambios ms notables se observan en la
categora 4, lo que indica la inversin de mayores esfuerzos para solventar los problemas en este campo
dentro de las zonas ms pobres

En segundo lugar se procede a analizar la concentracin de las muertes. Las mayores diferencias en
los ndices de concentracin se producen en la mortalidad neonatal. A lo largo de los aos, se han
incrementado desigualdades en las muertes acaecidas entre el primer y el sexto da de vida en las clases
econmicamente ms desfavorecidas. Los valores menores para los ndices de concentracin corresponden a
los grupos de muertes entre los 7 y 29 das y de 1 a 12 meses, lo que refleja una mayor equidistribucin en el
pas en cuanto a la mortalidad para estas edades.

En lneas generales, en todos los grupos se observa una ligera tendencia decreciente de los ndices de
concentracin. Dicha tendencia es similar para todos los grupos de edad lo que refleja la mejora existente en
el entorno sanitario respecto a la calidad en el cuidado de los nios durante su primer ao de vida. Este hecho
conlleva un descenso en los ndices de mortalidad que se ve reflejado en todas las categoras departamentales
del pas.

Sin embargo, es de destacar el hecho de que la base de datos proporcionada por el DANE relativa a
los nacimientos no dispone de informacin socioeconmica ni de fechas de muerte, este hecho impide la
profundizacin en el anlisis y la obtencin de resultados ms concluyentes. Sera de gran inters que el
Departamento Administrativo Nacional de Estadstica de Colombia incluyera estas variables en el estudio y
poder analizar los resultados ofrecidos con esta informacin adicional

94
REFERENCIAS

[1] BROWN, MC. (1994). Using Gini-style ndices to evaluate the espatial patterns of health practitioners:
theoretical considerations and an application based on Alberta data. Soc Scimed 38: 1243 1256.
[2] EBERT, U. and MOYES, P., 2000. An Axiomatic characterization of Yitzhakis index of individual
deprivation. Economic Letters 68, 263-270.
[3] FOSTER, J., GREER, J. and THORBECKE, A., (1984). A Class of Decomposable Poverty Measures,
Economtrica, 52, 761 - 766.
[4] LEYLAND, A.H. (2007). Measuring Socio-Economic Inequelilties in Health: A practical guide. ScotPH.
Public Health Information for Scotland.
[5] LLORCA, J., PRIETO, M., FARINAS, C., and DELGADO-RODRIGUEZ, M. (1998). Age differential
mortality in Spain, 1900-1991.
[6] LLORCA, J., PRIETO SALCEDA, D. y DELGADO-RODRGUEZ, M. (2000). Utilizacin del ndice de
gini para comparar la distribucin de mortalidades entre diferentes zonas. Rev Esp Salud Publica 74: 5-12
[7] MEDINA, F.., GALVN, M. (2008). Descomposicin del coeficiente de Gini por fuentes de ingreso:
Evidencia emprica para Amrica Latina 1999-2005.Divisin de Estadstica y Proyecciones Econmicas.
Santiago de Chile. CEPAL
[8] RUNCIMAN, W. (1966). Relative deprivation and social justice: a study of attitudes to social
inequality in twentieth-century England. University of California Press
[9] YITZHAKI, S., 1979. Relative Deprivation and the Gini Coefficient, The Quarterly Journal of
Economics, MIT Press, 93,
321.G4.http://www.secretariasenado.gov.co/senado/basedoc/ley/2000/ley_0617_2000.html

95
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 96-107

Vt DC
ANLISIS DE FACTORES DE RIESGO POR TRASTORNOS
HIPERTENSIVOS Y HEMORRAGIA DURANTE EL EMBARAZO EN
EL ESTADO DE GUERRERO MXICO
G. L. Daz*, V. Sistachs*, D. Covarrubias**, N. I. Hernndez, C. M. Snchez, V. M. Cruz
*Unidad Acadmica de Matemticas, Universidad Autnoma de Guerrero, Mxico.
**Facultad de Matemticas, Universidad de la Habana Cuba.
**Unidad Acadmica de Enfermera no. 1, Universidad Autnoma de Guerrero, Mxico

ABSTRACT

In the major part of the countries of the world, the human reproductive process, that is preganacy, birth deliery and the
puerperium, leads to a risk of becoming ill or dying, a problem still unsettled of modern obstetrics. In the State of Guerrero,
Mexico, according to a report from the Ministry of Health in 2005, a woman dies every 4 days due to complications during
pregnancy, childbirth and puerperium, placing the State in the first places at the national level. Is for this reason that it was
decided to carry out a study at the Hospital de la Madre y el Nio Guerrerense del Estado de Guerrero (HMNG), , Mexico,
with the aim of knowing the relationship between hypertensive risk factors and bleeding during during pregnancy, childbirth
and puerperium, according to the international classification of diseases (ICD-10). Factorial correspondence analysis was
performed for the realization of this work and logistic regression was applied to describe these relationships between the
condition of hypertension and risk factors.

KEYWORDS: hypertension and hemorrhage, risk factors, logistic regression, factorial correspondences

RESUMEN

En la mayora de los pases del mundo, el proceso reproductivo humano, es decir, todo lo relacionado con el embarazo, parto y
puerperio, conlleva a un riesgo de enfermar o morir, siendo un problema sin resolver de la obstetricia moderna. En el estado
de Guerrero, Mxico, segn un informe de la Secretaria de Salud en el 2005, una mujer muere cada 4 das por complicaciones
durante el embarazo, parto o puerperio, ubicando al Estado dentro de los primeros lugares a nivel nacional. Es por ello que se
decidi realizar un estudio en el Hospital de la Madre y el Nio Guerrerense del Estado de Guerrero (HMNG), Mxico, con el
objetivo de conocer la relacin que existe entre los factores de riesgo hipertensivos y hemorrgicos durante el embarazo, parto
y puerperio, de acuerdo a la Clasificacin Internacional de Enfermedades (CIE-10). Para la realizacin del presente trabajo se
realiz anlisis de factoriales de correspondencia y se aplic regresin logstica para describir estas relaciones entre el
padecimiento de hipertensin y los factores de riesgo.

1. INTRODUCCIN
En la mayora de los pases del mundo, el proceso reproductivo humano, es decir, todo lo
relacionado con el embarazo, parto y puerperio, conlleva a un riesgo de enfermar o morir, siendo un
problema sin resolver de la obstetricia moderna.

Los trastornos hipertensivos del embarazo se definen como la enfermedad vascular endotelial
degenerativa con alteraciones de la presin diastlica y sistlica. La hemorragia obsttrica es la prdida
sangunea en cantidad variable que puede presentarse durante el estado grvido o puerperal, proveniente de
genitales internos y externos, contribuyendo a la mortalidad materna.

En los pases en desarrollo el riesgo de las mujeres de morir por complicaciones derivadas del
embarazo y el parto es de 1 en 76, mientras que en los pases industrializados ese riesgo es de 1 en 8,000, y
las mujeres de los pases pobres tienen 300 veces ms probabilidades de morir durante el parto o debido a
complicaciones derivadas del embarazo, segn un informe de las Naciones Unidas para la Infancia
(UNICEF) en enero del 2009. [11]

Mxico comparte las caractersticas propias que acontecen en el mundo en desarrollo: en su mayora
es obstetricia directa, es decir, causada por patologa del estado grvido-puerperal.

El Estado de Guerrero durante el ao 2005 por un informe de la Secretaria de Salud se manifest


que una mujer muri cada 4 das por complicaciones del embarazo, parto y puerperio, ubicndose en el

96
primer lugar por mortalidad materna a nivel nacional, y para el ao 2008 se ubica en el segundo lugar.

Estudios relacionados a la morbi mortalidad materna manifiestan que factores de riesgo como la
edad materna (<20 aos y >35 aos), primigesta, antecedentes patolgicos familiares (madre hipertensa) y la
obesidad contribuyen a la aparicin de la hipertensin inducida por el embarazo y/o hemorragia durante el
embarazo.

Es por ello que se decidi realizar un estudio en el Hospital de la Madre y el Nio Guerrerense del
Estado de Guerrero con el objetivo de conocer la relacin que existe entre los factores de riesgo hipertensivos
y hemorrgicos durante el embarazo, parto y puerperio, de acuerdo a la Clasificacin Internacional de
Enfermedades [1], para este anlisis se aplicaron mtodos factoriales de correspondencia y de regresin
logstica para describir estas relaciones.

2. ANTECEDENTES
Los padecimientos relacionados con el embarazo, parto y puerperio representan una proporcin
considerable de la carga mundial de morbimortalidad, por lo que la mortalidad materna se considera un
indicador de disparidad e inequidad social y econmica de los pases.

En Latinoamrica, cerca de 15,000 mujeres perdieron la vida en 2005 por causas relacionadas con el
embarazo y parto, la tasa actual de muerte es de 130 mujeres por cada 100,000 bebs nacidos vivos y segn
el Fondo de Naciones Unidas para la Infancia , este nmero est lejos de la meta del objetivo del milenio
fijada para 2015.[6]

Un estudio realizado en la Clnica Rafael Uribe de la ciudad de Cali, Colombia, en el perodo


comprendido entre enero 1 del 2003 a mayo 31 del 2006, se analizaron 32 casos de morbilidad extrema,
destacando las patologas de preeclampsia severa y hemorragia severa. [3]

El Hospital Materno Infantil 10 de octubre de la Ciudad Habana Cuba, realiz una investigacin de
40 pacientes con hipertensin arterial durante el embarazo en el ao 2007 ingresadas en el servicio de
perinatologa, y se demostr que la Hipertensin Inducida por el embarazo es una de las entidades ms
frecuentes y se plantea que su prevalencia es de un 10%, siendo una de las primeras causas de muerte
materna.[2]

El Fondo de las Naciones Unidas para la Infancia (UNICEF), en Ginebra en el 2009, dio a conocer
en un nuevo informe sobre la mortalidad materna, los riesgos que afrontan las mujeres de los pases en
desarrollo durante el embarazo y el parto. [6, 11]

Las hemorragias son la causa ms frecuente de muerte, sobre todo en frica y Asia. La salud
general de la mujer -incluyendo su estado nutricional y su situacin con respecto al VIH- tambin influye en
la probabilidad de tener un embarazo saludable y de no presentar complicaciones durante el alumbramiento.
Hay factores sociales que tambin influyen, como la pobreza, la inequidad y las actitudes hacia las mujeres y
su salud.

Cada ao fallecen ms de 500.000 mujeres y nias en todo el mundo durante la gestacin o el


alumbramiento, y el 99% de esos casos se produce en el mundo en desarrollo. Los pases con las tasas ms
altas de mortalidad materna son Nger, Afganistn, Sierra Leona, Chad, Angola, Liberia y Somalia. [12]

En Puerto Prncipe, Hait dar a luz es un acontecimiento peligroso para las mujeres pobres, es la
nacin con el mayor ndice de mortalidad en el hemisferio occidental. De cada 100,000 mujeres, 630
murieron a causa de complicaciones relacionadas con el embarazo en el 2006: ms de cinco veces el
promedio en Amrica Latina y el Caribe, segn las Naciones Unidas (ver figura 1).[8,12]

El informe del Estado Mundial de la Infancia 2009 seala que la mayora de las muertes maternas y
enfermedades relacionadas con el embarazo pueden evitarse. Indica que de acuerdo con los estudios, el 80%
de los casos podran impedirse si las mujeres tuvieran acceso a los servicios esenciales de salud materna y a

97
una atencin sanitaria bsica.

PAISES DE AMERICA LATINA Y EL


CARIBE

Figura 1. Mortalidad en el hemisferio occidental


Fuente: Estado mundial de la infancia 2009

Pero hay que tomar en cuenta que en cada una de esas naciones la inversin en Salud est por
encima de 3.5% del PIB, en Repblica Dominicana apenas llega a 1.8%. La cifra de mortalidad materna de
Repblica Dominicana resulta incomparable con la de pases desarrollados como Espaa, Canad, Estados
Unidos, Italia, Japn y Alemania, cuya tasa de mortalidad estn por debajo de 10 por cada 100 mil nacidos
vivos. A estas naciones slo se les aproximan Chile y Cuba, que tienen una tasa de mortalidad de 20 y 21 por
cada 100 mil nacimientos, respectivamente. [11]

Figura 2. Tasa de mortalidad de pases desarrollados


Fuente: Estado mundial de la infancia 2009

En Mxico no existen estadsticas sobre la morbilidad en mujeres por causas maternas, pese a que es
un grave problema, de acuerdo con la Organizacin Mundial de la Salud (OMS) constituye la segunda causa
de prdida de vida saludable para las mujeres, slo despus del VIH/SIDA.

98
En Mxico la mortalidad materna, es considerada un problema de salud pblica, ello se refrend en el
Plan Nacional de Salud 2001-2006. La morbi-mortalidad asociada con la maternidad debe ser objeto de
mxima preocupacin, ya que en su mayora estos padecimientos son evitables. Por esto, su alta incidencia
constituye una expresin de la relativa desventaja que experimentan importantes sectores femeninos del
continente en el logro de sus derechos fundamentales.

Las mujeres que son atendidas por embarazo,


parto o puerperio, en Guerrero, tienen un
riesgo de morir por estas causas del 3.5 veces
ms que las mujeres en Tlaxcala.

Figura3. Riesgo de fallecer por muerte materna segn Entidad Federativa, Mxico
2008*
Se tom la RMM de Guanajuato, para estimar los riesgos de las dems entidades
Defunciones de acuerdo a lugar de ocurrencia de la defuncin

Cuadroa1. Principales Causas de Mortalidad Materna: 2005 2007

CAUSAS 2005 2006 2007

MUERTES OBSTETRICAS DIRECTAS 89 62 59


HEMORRAGIA POSTPARTO 23 29 32
PRE/ECLAMPSIA 29 19 20
HIPERTENSIN GESTACIONAL 4 2 -
SEPSIS PUERPERAL/CHOQUE SEPTICO 7 8 6
DESPRENDIMIENTO PREMATURO DE PLACENTA 6 4 -
DEMAS CAUSAS OBSTETRICAS 20 - 1
MUERTES POR ABORTO 4 4 -
ABORTO NO ESPECIFICADO 3 4 -
ABORTO ESPONTANEO 1 - -
MUERTES OBSTETRICAS INDIRECTAS 1 12 8
ENF. DEL SIST. CIRCULATORIO QUE COMPLICAN EL EMBARAZO, 1 8 1
PARTO Y PUERPERIO
ENF. DEL SISTEMA RESP. QUE COMPLICAN EL EMBARAZO, PARTO 0 2 4
Y PUERPERIO
DEMAS CAUSAS OBSTETRICAS INDIRECTAS 0 2 3
TOTAL 94 78 67

Fuente: SSA-GRO 2005-2007, ** Notificado hasta el 8 de enero del 2008


. *Informacin preliminar sin clasificacin de las causas directas

99
En el transcurso de 2005, en el mbito estatal, muri una mujer cada 4 das por complicaciones
durante el embarazo, parto o puerperio, con este acumulado de muertes maternas, el estado de Guerrero se
ubica en el lamentable primer lugar con mayor razn de muerte materna a nivel nacional. Nada novedoso,
desde hace diez aos, Guerrero, Chiapas y Oaxaca se han disputado los penosos primeros lugares. La
mortalidad materna contina siendo el principal reto del sistema de salud en el estado (ver figura 3).

La morbilidad est dada por las complicaciones o enfermedades que se producen durante la
gestacin, parto o puerperio y pueden ser inmediatas o mediatas, afectando la salud de las mujeres muchas
veces en forma permanente. En el caso del embarazo, factores de tipo econmico, social, cultural y la calidad
con que se proveen los servicios de salud juegan un papel sustancial en la evolucin y resolucin satisfactoria
de la gestacin.

La muerte materna es el resultado ltimo y ms dramtico de una serie de eventos que revelan la
falta de acciones para atender la situacin de atraso, marginacin y rezago en la que viven un sector de las
mujeres Guerrerenses por parte de las personas que conviven con ellas, del personal de salud y de autoridades
gubernamentales. Asimismo, da cuenta de una serie de relaciones econmicas, sociales y culturales que
ubican a la mujer en una posicin de franca desventaja.

3. DISEO Y METODOLOGIA ESTADSTICA


Se realiz un estudio observacional, retrospectivo, realizado en el hospital de la Madre y el Nio
Guerrerense durante el periodo de 1 de Enero al 31 de Diciembre del 2008. Se consultaron 4692 expedientes
clnicos correspondientes a todas las mujeres embarazadas que fueron atendidas en el HMNG durante ese
periodo y que se catalogaron a travs de la clasificacin Internacional de Enfermedades (CIE). Se
seleccionaron 404 expedientes que contaban con las caractersticas necesarias para el desarrollo de este
estudio, es decir que cumplan con los criterios de inclusin definidos [10]. En el cuadro 2 aparecen las
variables utilizadas en el estudio.

Cuadro 2. Variables independientes utilizadas en el estudio.


Variable Cdigo Variable Cdigo
E1 (15-19)
E2 (20=26) P0 (No contesta)
Edad (E) E3 (27-34) Atencin prenatal (P) PS (Si)
E4 (34-40) PN (No)
E5(41-47)
EC0 (No contesta)
T0 (No contesta)
ECS (Soltera)
Trimestre de inicio de T1( 1er trimestre)
Estado civil (EC) ECC(Casada)
AP(T) T2(2do trimestre)
ECU (Unida)
T3 (3er trimestre)
ECD (Divorciado)
Antecedentes
E0(No contesta) APPS (Si)
Patolgicos
EP (Primaria) APPN (No)
Personales (APP)
ES (Secundaria) NE0(No contesta)
Escolaridad (ES)
EP (Preparatoria) NEB (Bajo)
Nivel socio
EL (Licenciado) NEM (Medio)
econmico
EOT(Otras) NEA (Alto)
NA0 (No contesta)
APF0 (No contesta)
Antecedentes patolgicos NA1(uno)
APFN (No) Nmero de abortos
Familiares NA2( dos)
APFS (Si)
NA+ ( ms de 2)

100
CS (cefalea), CN
ECS (Edema Cara),
ECN NP0 (No contesta)
EMS (Edema manos), NP1 (uno)
EMN Nmero de Partos NP2 (dos)
EMIS (Edema M I), NP3 (tres)
EMIN NP+ (4 o ms)
VS (Vrtigo), VN
SS (Sangrado), SN
FS (Fosfenos), FN
Sntomas
VBS (Visin Borrosa),
(P20) PL (Preclampsia Leve)
VBN
AS (Aeufenos), AN PL (Preclampsia severa)
HTAS (Hipertensin), E (Eclampsia)
HTAN AA (Amenaza de aborto)
PCS (Prdida Diagnstico AEI (Aborto Espontaneo
Conciencia), PCN Incompleto)
ECS (Estado de Coma), EE (Embarazo Ectpico)
ECN HP (Hemorragia Preparto)
DS (Disnea), DN
OS(Otras), ON

Para este anlisis se aplicaron mtodos factoriales de correspondencia y el modelo de regresin


logstica para describir estas relaciones.[5]

Se realizaron 4 anlisis de correspondencias


Datos generales
Antecedentes patolgicos
Diagnstico
Sntomas

Se analiz un modelo de regresin logstica(ver [4]) con las principales variables resultantes de las
hiptesis de trabajo obtenidas despus de aplicar el anlisis de correspondencias simple, considerando para
dicho anlisis slo a las mujeres que presentaban hemorragia obsttrica e hipertensin, dando un total de 385
personas.

4. RESULTADOS
Se obtuvo una prevalencia de Enfermedades Hipertensivas del 58.4% y el 41.6% de las hemorragias
durante el embarazo. La edad se encontr que el grupo ms vulnerable fue entre 20-26 aos con 30.1 %,
seguido por el grupo 15-19 aos con 25.5% (ver grfico 1.), el estado civil de las gestantes el 64.2% son
casadas y el 27.8% vive en unin libre. En cuanto a la escolaridad un 30.4% solo cuenta con el nivel
primaria. El 85.5% de las gestantes se dedica a las cuestiones del hogar.

101
Grfico2. Distribucin del diagnstico de la edad de las mujeres
embarazadas
Fuente: Expedientes clnicos del hospital del nio y la madre del 2008

En cuanto al nmero de embarazos el 76.6% manifest haber tenido entre 1-3 embarazos; en relacin al
nmero de partos el 30.4% manifest haber tenido de 1-3; el nmero de semanas de gestacin que las
gestantes tenan al momento de asistir al servicio de urgencias es de 36-42 SDG con el 48.3%; el 60.3% del
tenido entre 5-6 consultas; en cuanto al control prenatal el 41.6% de las gestantes manifest haber iniciado su
control prenatal en total de mujeres en estudio si tuvo atencin prenatal durante su embarazo, el 16.4%
manifest haber el primer trimestre de gestacin. En cuanto al tipo de diagnstico el 57.7% presento
Hipertensin arterial Inducida por el embarazo (ver grfico 2).

Grfico1. Distribucin de la edad de las mujeres embarazadas


102
5. ANLISIS DE CORRESPONDENCIAS
Para realizar el anlisis de correspondencias se tomaron los factores mencionados en la metodologa (ver
cuadro 1 y [5])

Grfico 3. Diagrama de correspondencias para datos generales y trastornos del embarazo, parto o puerperio

Partiendo del estudio de los antecedentes generales y su relacin con los trastornos de HTA
(Hipertensin arterial) y de HO (hemorragia obsttrica) se llega a las siguientes hiptesis:

HTA se relaciona con la realizacin de la atencin prenatal (PS) y la atencin durante todos los
trimestres del embarazo(T1,T2 y T3), una escolaridad definida como otras y el hecho de no contestar si tiene
antecedentes patolgicos, aqu aparece asociado a la HTA el trastorno de eclampsia.
HO (hemorragia obsttrica) se relaciona con mujeres de estado civil unidas (ECU) y divorciadas
(ECD), que no contestan cul es su escolaridad ni sobre cual trimestre comenz su atencin.

Grfico 4. Diagrama de correspondencias para datos de antecedentes patolgicos personales con los
trastornos

Teniendo en cuenta los antecedentes patolgicos de las mujeres estudiadas se lleg a las siguientes
relaciones. La hipertensin arterial (HTA) se relaciona con la presencia de antecedentes patolgicos
personales (APP) y familiares (APF) y atencin prenatal (PRNS) aunque muchas no contestaron si la haban
tenido. La Hemorragia Obsttrica (HO) se relaciona con la no atencin prenatal y el nmero de abortos por
encima de dos.

103
Grfico 5. Diagrama de correspondencias para datos de sntomas relacionado con los trastornos

En el caso de los sntomas estudiados hay una relacin que no permite diferenciar entre lo asociado
a HTA (Hipertensin arterial) y a HO (Hemorragia obsttrica), pero en cuanto a la Eclampsia que se
relaciona con la HTA si se observa una relacin de la presencia de edemas en manos (EM) y cara (EC) ante
este trastorno.

Grfico 6. Diagrama de correspondencias para datos de diagnsticos y la edad

Hay una clara relacin entre preclamsia y la edad que tenga la mujer, presentndose en su forma
severa en las embarazadas de 34 a 40 aos y en forma leve en las que tienen edad de 15 a 19 aos.

6. MODELO DE REGRESIN LOGSTICA


La bondad de ajuste del modelo global no favoreci un modelo que permitiera incorporar todas las variables
incluidas en la parte exploratoria. Se consider el tipo de diagnstico como variable respuesta con dos
categoras posibles: HTA (Hipertensin Arterial) y HO (Hemorragia Obsttrica). Las covariables que se
consideraron fueron las siguientes: Edad, ESC (escolaridad), APP (antecedentes patolgicos personales),
APF (antecedentes patolgicos familiares), PNT (atencin prenatal), T (inicio de trimestre de control) y NA
(nmero de Abortos). A continuacin se presenta la salida en el SPSS.

104
Tabla 1. Resumen de los modelos
-2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke

345.798(a) .366 .493

a La estimacin ha finalizado en el nmero de iteracin 5 porque las estimaciones de los parmetros han cambiado en menos de .001.

Tabla 2. Prueba de Hosmer y Lemeshow


Paso Chi-cuadrado gl Sig.
1 10.163 8 .254

Tabla 3. Tabla de clasificacin


Pronosticado
Diagnstico Porcentaje
correcto
Observado Hipertensin Hemorragia Obsttrica .00
(0) (1)
HTA HO
Hipertensin (0) 114 45 71.7
HTA
Diagnstico Hemorragia Obsttrica 33 192 85.3
(1)
HO
Porcentaje global 79.7
a El valor de corte es .500

Como resultado de utilizar este modelo en el anlisis entre los factores de riesgo se llega a un modelo
que es significativo y que no viola ningn supuesto (ver la prueba de razn de verosimilitud y la de Hosmer
and Lemeshow) [7]. La calidad de la funcin es bastante buena (aproximadamente el 80%).

Tabla 4. Variables en la ecuacin


Factor de Riesgo B E.T. Wald gl Sig. Exp(B) I.C. 95.0% para
EXP(B)
Escolaridad .161 .116 1.936 1 .164 1.174 .936 1.473
Abortos .519 .381 1.851 1 .174 1.680 .796 3.545
Atencin -1.083 .363 8.891 1 .003 .339 .166 .690
Prenatal
Trimestre 1.533 .320 22.875 1 .000 4.630 2.471 8.676
Control
Antecedentes .786 .294 7.126 1 .008 2.194 1.232 3.908
Patolgicos
Personales
Antecedentes .466 .306 2.318 1 .128 1.593 .875 2.902
Patolgicos
Familiares
Nivel Socio- -.354 .315 1.261 1 .262 .702 .378 1.302
Econmico
Edad .214 .128 2.790 1 .095 1.239 .964 1.593
Constante -1.015 1.121 .820 1 .365 .363
a Variable(s) introducida(s) en el paso 1: Escolaridad, Abortos, Atencin Prenatal, Trimestre de control Prenatal, Antecedentes
Patolgicos personales, Antecedentes Patolgicos Familiares, Nivel Socioeconmico, Edad.

105
Resultaron que asociados a las HO estn como riesgos la Atencin Prenatal, Trimestre de Control y
antecedentes Patolgicos Personales, es destacable el hecho de tener un seguimiento prenatal y de trimestre,
esto es lgico pues todas son mujeres con problemas de enfermedad. El hecho del nmero de abortos, al igual
que la edad no result significativo, pero si resultan factores de proteccin ante la HTA el hecho de no tener
antecedentes patolgicos familiares y personales (ver tabla 4).

7. CONCLUSIONES
La Eclampsia se present ms frecuente en mujeres de menores de 20 de edad, en su forma leve y en
las mujeres de edad de 34 aos a 40 en su forma grave. La presencia, de los diferentes sntomas estudiados, no
permiti diferenciar entre los diferentes padecimientos estudiados.

Dentro de los factores de riesgo reproductivo para las mujeres resulto significativo para el desarrollo
de estas patologas, el llevar un control prenatal y de visitas trimestrales para la morbilidad materna.
Resulto un factor de proteccin importante para la presencia de HTA, el no tener antecedentes patolgicos ni
personales ni familiares.

8. RECOMENDACIONES
Continuar el estudio de detectar los factores de riesgo como un importante problema de salud pblica
relacionado con la salud de las mujeres gestantes. En todos los casos stas deben tener acceso a servicios de
salud con calidad y calidez que le permitan satisfacer sus demandas en salud.

106
REFERENCES

[1] CIE., (2008) Clasificacin Internacional de Enfermedades 10. REVISION.


www.sssalud.gov.ar/hospitales/archivos/cie_10_revi.pdf
[2] DIAGO D., (2008) Algunos factores de riesgo en la hipertensin inducida por el embarazo. Hipertensin
arterial. Revista Ginecologa y Obstetricia , Medicina Interna.
www.abcmedicus.com/ articulo/pte/id/16/revi/2/ hipertensin arterial.htm.|
[3] DAZ D., CASTAEDA M., MELNDEZ D., MENESES S., (2008) Muerte materna y seguro popular.
Centro de Anlisis e Investigacin, A. C.
http://www.fundar.org.mx/pdfavancesyretrocesos/03.pdf
[4] DOBSON, A. (1990). An Introduction to Generalized Linear Models (1era ed.). New South Wales:
Chapman and Hall.
[5] FLORE, E., SINHA, S., VANA L. (2007). Modelo de regresin logstica multinomial y anlisis de
correspondencias mltiple. Actualidad Contable FACES: No 14, 51-67.
[6] GONZLEZ M., (2009) Muertes maternas frenan los Objetivos del Milenio. Revista en lnea.
http://www.clavedigital.com/App_Pages/portada/Titulares.aspx?id_Articulo=17354
[7] HOSMER, D. AND LEMESHOW, S. (2000). Applied Logistic Regression (2da ed.), John Wiley &
Sons, Inc.
[8] La mortalidad materna en Hait es cinco veces mayor que el promedio mundial. (En lnea) 14 de marzo
2009. (fecha de acceso)Abril 2009. Disponible:
http://www.clavedigital.com/app_pages/Portada/Titulares.aspx?id_Articulo=17364
[9] NAVARRO, L. (1983). Aspectos Tericos y Una Aplicacin Prctica del Anlisis Factorial de
Correspondencias. Estadstica Espaola: N 99, Espaa, 33-59
[10] PASTRANA J., PERALTA V., (2009). Prevalencia y factores de riesgo por trastornos
hipertensivos y hemorragia en el embarazo en el hospital de la madre y el nio guerrerenses durante el
ao 2008. Tesis de Licenciatura de enfermera no. 1, Chilpancingo Gro., Mxico.
[11] TAVEAU V., (2009) Fondo de las Naciones Unidas para la Infancia. UNICEF: Informe pone de
manifiesto el riesgo de mortalidad materna en el mundo en desarrollo.
http://www.unicef.org/spanish/media/media_45684.html
[12] KASTBER NILS., (2009) UNICEF suena alarma ante persistencia de alta mortalidad materna en el
mundo.
http://www.un.org/spanish/News/fullstorynews.asp?newsID=14550&criteria1=mujeres&criteria2=mate
rna

107
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 108-117

Vt DD
SISTEMA EXPERTO BASADO EN REGLAS PARA LA
DETECCIN DE CNCER
Magali vila Palacios, Luis Ren Marcial Castillo, Marcela Rivera Martnez, Lourdes
Sandoval Sols, Jess Gmez Mandujano, Jessica vila Palacios, Luis Njera Masso y
Leticia vila Palacios
1, 2, 3, 4
Benemrita Universidad Autnoma de Puebla, Puebla, Mxico
5
Hospital General, Cuautla, Morelos, Mxico
6-7
Hospital Central Militar, Distrito Federal, Mxico
8
Hospital de la Mujer, Yautepec, Morelos, Mxico

ABSTRACT
Expert systems are the most common type of artificial intelligence systems for clinical routine, the objective of this work is to
detect various types of cancer such as: colon cancer, breast cancer and cervical cancer. The codification of knowledge is done
through rules; the expert system is the result of the experience of human experts working in various hospitals in Mexico and the
clinical practice guidelines of the Secretara de Salud that help in strengthening decision making clinics. The developed system
is implemented in the programming language SWI-Prolog and the results are validated with the help of human experts.

KEY WORDS. Breast cancer, colon cancer, uterine cancer, rule-based systems, expert systems.

RESUMEN
Los sistemas expertos son el tipo ms comn de los sistemas de inteligencia artificial para la rutina clnica, el objetivo de ste
trabajo es detectar diversos tipos de cncer como son: cncer de colon, cncer de mama y cncer crvico uterino. La codificacin
del conocimiento se realiza mediante reglas, el sistema experto es el resultado de la experiencia de expertos humanos que
laboran en diversos hospitales de Mxico y de las guas de prcticas clnicas de la Secretara de Salud, que ayudan en el
fortalecimiento de la toma de decisiones clnicas. El sistema desarrollado est implementado en el lenguaje de programacin
Swi-Prolog y los resultados se validan con la ayuda de los expertos humanos.

1. INTRODUCCIN
Un sistema experto (SE) es capaz de procesar y memorizar informacin, aprender y razonar en
situaciones deterministas e inciertas, imitar el razonamiento de un experto humano para tomar decisiones
apropiadas en una tarea particular y explicar por qu se han tomado tales decisiones [2]. Un problema debe
ser resuelto mediante un SE cuando [2, 6]:
a) El problema puede resolverse slo por un conocimiento experto que puede dar forma a los
conocimientos necesarios para resolver el problema, y la intervencin del experto dar al sistema la
experiencia que necesita.
b) El problema puede resolverse solamente por un conocimiento experto en vez de usar algoritmos
particulares
c) Se tiene acceso a un experto que puede dar forma a los conocimientos necesarios para resolver el
problema, por lo que la intervencin de este experto dar al sistema la experiencia que necesita.

Los sistemas basados en el conocimiento o sistemas expertos son el tipo ms comn de los sistemas
de inteligencia artificial usados en la rutina clnica, contienen los conocimientos mdicos, por lo general,
sobre una tarea muy especfica y son capaces de razonar con los datos de pacientes individuales para llegar a
conclusiones razonadas. Aunque hay diversas variaciones, el conocimiento dentro de un sistema experto
tpicamente es representado en forma de un conjunto de reglas. Existen diferentes tareas clnicas en las que un
sistema experto se puede aplicar como son:

108
1. Asistencia en el diagnstico. Cuando el caso del paciente es complejo, raro o la persona que hace
el diagnstico no tiene experiencia, entonces un sistema experto puede obtener un diagnstico
oportuno tomando en cuenta la base de datos del paciente.
2. Planificacin y terapia crtica. El sistema experto es capaz de buscar para encontrar
inconsistencias, errores y omisiones en un plan de tratamiento existente o se puede utilizar para
formular un tratamiento basado en la condicin especfica del paciente.
3. Reconocimiento e interpretacin de las imgenes. El objetivo es que el sistema experto pueda
interpretar varias imgenes mdicas con la finalidad de encontrar anormalidades y dar un
diagnstico.

Este trabajo se enfoca en construir un sistema experto para desarrollar la tarea clnica de asistencia en
el diagnstico, el sistema experto desarrollado detectar diversos tipos de cncer como son: cncer de colon,
cncer de mama y cncer crvico uterino. Se aplica la lgica de predicados para construir un sistema experto
basado en reglas, stas se obtienen en base a los conocimientos aportados por los expertos humanos que
laboran en el hospital general de Cuautla Morelos y por las guas clnicas del consejo de salubridad general de
nuestro pas, la implementacin se desarroll en el lenguaje de programacin Swi-Prolog con una interfaz
grfica desarrollada con las funciones de la biblioteca grfica XPCE [11]. En la seccin 2, se presentan los
antecedentes del proyecto, en la seccin 3, se muestra la representacin del conocimiento, se presenta en la
seccin 4 los factores de riesgo y los diagramas obtenidos, la seccin 5 da la explicacin de la
implementacin en Swi-Prolog, en la seccin 6 se presentan las conclusiones y finalmente se listan las
referencias.

2. ANTECEDENTES DEL PROYECTO


En Mxico, el 40% de 36 casos diarios diagnosticados de cncer de mama corresponden a mujeres
menores de 50 aos, lo que evidencia que esta enfermedad ataca a mujeres jvenes; en pases occidentales el
ms alto porcentaje se encuentra entre los 40 y 50 aos [1, 3, 5]. El cncer del colon afecta generalmente a
personas mayores de 40 aos y no tiene predileccin por sexo [1, 7] y finalmente el cncer crvico uterino
afecta a mujeres de entre 40 y 50 aos, es la segunda causa de muerte por neoplasias malignas en la mujer, es
prevenible si se detectan y tratan sus lesiones que lo originan, es curable cuando se detecta a tiempo, de ah
que la alta mortalidad obedece a falta de recursos y fallas en los servicios de salud [1, 4, 8, 10]. Es por ello,
que se decide realizar un sistema experto que ayude a la deteccin oportuna de todos los tipos de cncer
mencionados anteriormente y que de recomendaciones, de una forma fcil y sin usar grandes cantidades de
recursos econmicos.

3. REPRESENTACIN DEL CONOCIMIENTO


La representacin del conocimiento formaliza y organiza el conocimiento, una representacin muy
utilizada es la regla de produccin, una regla de produccin consta de dos partes, la premisa y la conclusin.
Un paradigma comn pero de gran alcance involucra el encadenamiento de reglas de la forma SI ---
ENTONCES con el objetivo de formar una lnea de razonamiento. Si la cadena inicia a partir de un conjunto
de condiciones o premisas y se mueve hacia alguna conclusin, el mtodo se denomina encadenamiento hacia
adelante. Si la conclusin es conocida, pero el camino hacia la conclusin no se conoce, entonces el
razonamiento se realiza hacia atrs y el mtodo es conocido como encadenamiento hacia atrs. Estos mtodos
de resolucin de problemas se construyen en mdulos de programas que se denominan motores de inferencia
o procedimientos de inferencia de modo que manipulan y utilizan el conocimiento de la base de
conocimientos para formar una lnea de razonamiento. En este trabajo, se utiliza un encadenamiento hacia
adelante. La base de conocimientos que un experto seguramente utiliza es lo que aprendi en la escuela, la
que aprende de sus colegas, y de los aos de experiencia que tiene tratando el problema, el conocimiento le
permite interpretar la informacin de su base de datos y le proporciona ventaja en el diagnstico, diseo y
anlisis. El ingrediente ms importante en cualquier sistema experto es el conocimiento, el poder de los
sistemas expertos reside en la alta calidad que contiene el conocimiento sobre el dominio de aplicacin. Los

109
investigadores del rea de Inteligencia Artificial siguen estudiando y aadiendo nuevos mtodos a la
representacin del conocimiento y siguen generando nuevos mtodos de razonamiento, debido a la
importancia del conocimiento en sistemas expertos y dado que el mtodo de adquisicin de conocimiento es
lento y tedioso, gran parte del futuro de los sistemas expertos depender de romper el cuello de botella que se
tiene respecto a la adquisicin de conocimientos, en la codificacin y representacin de una infraestructura de
conocimiento general. Para llevar a cabo el desarrollo de la representacin del conocimiento en este trabajo,
los expertos humanos plantearon los siguientes bloques: identificar los factores de riesgo, realizar los
diagramas en base a los factores de riesgo y finalmente hacer el anlisis de los resultados. La base de
conocimientos se desarrolla mediante la interaccin con los expertos humanos para obtener el conjunto de
reglas, las cuales estn basadas en las guas de prcticas clnicas de la Secretara de Salud [8, 9, 10].

4. FACTORES DE RIESGO Y DIAGRAMAS


Entre las estrategias implementadas para la prevencin y diagnstico oportuno para la poblacin en
riesgo por los tipos de cncer antes mencionados se encuentran las guas de prctica clnica. Sin embargo, la
discrepancia existente en la atencin mdica que se da a estos problemas y a las consecuencias e impactos que
tienen en la salud, reflejadas en las estadsticas de defunciones y prdida en la calidad de vida por
discapacidad, justifica llevar a cabo medidas adicionales que coadyuven a fortalecer el diagnstico temprano
y la referencia mdica oportuna de quienes padecen estas patologas. Es por todo esto que se desarrolla un SE
valindonos de las tecnologas actuales como lo es la programacin computacional, para poder desarrollar
este sistema experto se tomaron en cuenta principalmente los factores de riesgo asociados a cada patologa,
cabe mencionar que segn los expertos humanos el factor de riesgo es determinante para poder establecer el
pre-diagnstico inicial de cualquier enfermedad, conociendo que un factor de riesgo es una variable que
aumenta fuertemente la probabilidad de padecer la enfermedad. La finalidad de los factores de riesgo es
establecer un referente para orientar la toma de decisiones clnicas basadas en recomendaciones sustentadas
en la mejor evidencia disponible. Se pone a disposicin del personal del primer nivel de atencin, las
recomendaciones basadas en la mejor evidencia disponible con la intencin de estandarizar las acciones
nacionales, lo que favorecer la mejora en la efectividad, seguridad y calidad de la atencin mdica,
contribuyendo de esta manera al bienestar de las personas y de las comunidades que constituye el objetivo
central y la razn de ser de ste sistema experto.

Seleccion
e opcin

Iniciar Resultados Ayuda Salir


Diagnstic

Figura. 1. Men inicial.

En este sistema experto los factores de riesgo funcionan de la siguiente manera: Se le harn
preguntas al paciente como su sexo y edad, de acuerdo a esto el sistema experto usar un filtro para aplicarle
110
los cuestionarios que correspondan con el fin de descartar posibles casos de cncer, los cuestionarios son los
factores de riesgo. Si el paciente dice s a algn factor pasar a la siguiente etapa de deteccin hasta
asegurarse que el paciente presenta cncer, en caso contrario, se tendr al paciente en observacin y se le
realizarn estudios cada 6 meses o cada ao.

El diagrama inicia preguntando qu es lo que se desea hacer, y se dan 4 opciones al usuario, mismas
que se muestran en la Figura 1.

Como no es el mismo seguimiento que se realiza a una mujer que a un hombre, se pide el sexo del
paciente, como se muestra en la figura 2.

Sexo del paciente

Hombr Mujer
e

Figura. 2. Sexo del paciente.

La figura 3 muestra las preguntas que se hacen con respecto a la edad del paciente, y tomando en
cuenta el sexo del paciente va a los factores de riesgo.

Rango de edad

Aplicar Aplicar Aplicar

Figura. 3. Rango de edad y el tipo de factor de riesgo a aplicar segn sea hombre o mujer.

Dependiendo de las respuestas del paciente se har su deteccin, tomando en cuenta los factores de
riesgo. La figura 4, muestra el diagrama a aplicar para el caso de cncer crvico uterino, la figura 5, muestra
el diagrama a aplicar para cncer de mama y la figura 6, muestra el diagrama a aplicar para cncer de colon.

111
Figura 4. Diagrama para la deteccin de cncer crvico uterino.

Figura 5. Diagrama para la deteccin de cncer de mama.

112
Figura 6. Diagrama para la deteccin de cncer de colon.

5. IMPLEMENTACIN EN SWI-PROLOG
Swi-Prolog ofrece un entorno de Prolog y una caja de herramientas de grficos denominado: XPCE,
es muy utilizado en aplicaciones del mundo real, se usa ampliamente en la investigacin, en la educacin y es
muy til para desarrollar sistemas expertos basados en reglas, por lo que en este trabajo se genera la
aplicacin en Swi-Prolog. El sistema experto desarrollado, permite detectar diversos tipos de cncer usando
lgica de predicados, las reglas generadas usan encadenamiento hacia adelante para obtener sus conclusiones.
A continuacin, ejemplificamos el uso del sistema desarrollado en un caso real de diagnstico de cncer
crvico uterino aplicado a una paciente del hospital general de Cuautla Morelos, Mxico y supervisado por
nuestros expertos humanos. Los pasos son los siguientes:

Figura 6a. Interfaz del sistema experto.

a) La interfaz mostrada en la figura 6a pide que se elija una opcin.

113
b) Se selecciona el sexo del paciente como se muestra en la figura 7, en ste caso se opta por la opcin:
mujer.

Figura 7. Sexo del paciente.

c) Se pide que elijas el rango de edad como se muestra en la figura 8, para ste caso se selecciona la
opcin: de 36 a 39.

Figura. 8. Rango de edad.

d) Debido a que las mujeres de ste rango de edades es ms probable que presenten los 3 tipos de
cncer se desplegar la ventana que se muestra en la figura 9, se selecciona cul se quiere detectar
primero, en este caso se aplicar la encuesta de: Cncer crvico uterino.

Figura. 9. Tipo de cncer a detectar.

e) Se despliega una ventana con los factores de riesgo como se muestra en la figura 10, misma que se
debe aplicar al paciente, si ste contesta afirmativo al menos a un riesgo pasar al nivel siguiente, si
no se le darn recomendaciones de cuidados.

114
Figura. 10. Factores de riesgo para el cncer crvico uterino.

Figura. 11. Condiciones del paciente.

Figura 12. Patologa del paciente.

115
f) Si se dio al menos un s, entonces aparecer la ventana que se muestra en la figura 11, en donde debe
especificar las condiciones de la paciente, en este caso elegimos la opcin: Con Histerectoma.
g) Aparece la ventana que se muestra en la figura 12, en donde se pregunta por la patologa de la
paciente, si se relaciona o no con el cncer crvico uterino.
h) Si se dio la opcin de Si, aparece la ventana que se muestra en la figura 13, en donde se debe analizar
la citologa vaginal.

Figura. 13. Citologa vaginal del paciente.

i) Si la citologa fue positiva, aparecer finalmente la ventana que se muestra en la figura 14, en donde
se recomienda que la paciente debe pasar a la clnica de displasia o a ginecologa para un anlisis
ms exhaustivo.

Figura. 14. Recomendacin para canalizar a la paciente.

Puede obtener ms informacin sobre el desarrollo del sistema experto en la pgina http://sistema-
experto1.webnode.mx/ y sobre el software mandando un correo electrnico a magali_a.p.@hotmail.com.

6. CONCLUSIN
Este trabajo, demuestra la aplicacin de la lgica de predicados o lgica de primer orden para
construir herramientas computacionales en beneficio de la salud humana. Las pruebas se realizan con datos
reales y la herramienta es capaz de dar pronsticos oportunos, por lo tanto, queda demostrada la importancia y
el valor de los sistemas expertos, ya que estos sistemas permiten disminuir los tiempos de espera que se ve
reflejado en un diagnstico econmico, oportuno y que finalmente incide en el bienestar de la sociedad.
Como trabajo futuro se pretende ampliar este sistema con el objetivo de lograr mayor aplicabilidad en
situaciones reales.

116
REFERENCIAS
[1] ALONSO VIVEROS P. (2007): Virus de papiloma humano causante del cncer crvico uterino,
Boletn de difusin de la direccin de investigacin del hospital general de Mxico.
[2] CASTILLO E., GUTIRREZ J. M., HADI A. S., (1997): Expert Systems and Probabilistic Network
Models, Springer, New York.
[3] DARZI M., ASGHARLIAEI A., HOSSEINI M., ASGHARI M. (2011): Feature Selection for Breast
Cancer Diagnosis: A Case-Based Wrapper Approach, World Academy of Science, Engineering and
Technology, 77, 1142-1143.
[4] LPEZ A., LIZANO M., (2006): Cncer crvico-uterino y el virus del papiloma humano: La historia
que no termina, Cancerologa, 1, 31-55.
[5] MUKHTAR R. A., NSEYO O., CAMPBELL M. J., ESSERMAN L. J., (2011): Tumor-associated
Macrophages in Breast Cancer as Potential Biomarkers for New Treatments and Diagnostics, Expert
Rev Mol Diagn., 11 (1):91-100.
[6] PRASAD K., SAGAR Y., (2011): An Approach to Develop Expert Systems in Medical Diagnosis
Using Machine Learning Algorithms (ASTHMA) and a Performance Study, International Journal
on Soft Computing ( IJSC), 2 (1), 26-33.
[7] AMERICAN CANCER SOCIETY (2009),
[8] http://www.cancer.org/acs/groups/content/@epidemiologysurveilance/documents/document/acspc-
027826.pdf
[9] SECRETARA DE SALUD - CENTRO NACIONAL DE EXCELENCIA TECNOLGICA EN
SALUD (2007), guas de prctica clnica,
[10] http://www.cenetec.salud.gob.mx/descargas/gpc/METODOLOGIA_GPC.pdf
[11] SECRETARA DE SALUD - CENTRO NACIONAL DE EXCELENCIA TECNOLGICA EN
SALUD (2011): guas de prctica clnica,
http://www.cenetec.salud.gob.mx/interior/catalogoMaestroGPC.html
[12] LPEZ A., LIZANO M. (2006): Cncer crvico uterino y el virus del papiloma humano: La historia
que no termina, Cancerologa, 1, 31-55.
[13] http://www.incan.org.mx/revistaincan/elementos/documentosPortada/1172193073.pdf
[14] SWI-PROLOG (2012): www.swi-prolog.org.

117
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 118-127

Vt DE
SELECCIN DE MODELOS BAJO EL ENFOQUE BAYESIANO: UNA APLICACIN AL
ESTADO COGNITIVO DE LOS ADULTOS MAYORES EN EL G. ESTADO DE GUERRERO.
G. L. Daz*, V. Sistachs V.ega**, D. Covarrubias* y N. I. Hernndez***
*Unidad Acadmica de Matemtica, Universidad Autnoma de Guerrero, Mxico.
**Facultad de Matemtica y Computacin. Universidad de La Habana, Cuba.
***Unidad Acadmica de Enfermera no.1, Universidad Autnoma de Guerrero.

ABSTRACT
The uncertainty problem is inherent to every statistical model and linked to it is the model selection
topic. This paper presents a procedure for selection model in the presence of uncertainty called BMA
(Bayesian Model Averaging) applied to logistic regression, proposed by Raferty (1995). For R
implementation, we retook the ideas of Raftery, Painter and Volinsky(2005), such as the ones of
Saminni and Parmeter(2011), said procedure is used to make the study analysis over the cognitive state
of elders in Guerrero, Mexico. It is proposed the BMA as an alternative to take into account the models
on this type of study.

KEYWORDS: BMA, model selection, logistic regression.

RESUMEN
La problemtica de la incertidumbre es inherente a todo modelo estadstico y vinculado a ella est el
tema de seleccin de modelo. En este trabajo presentamos un procedimiento para la seleccin de
modelos en presencia de incertidumbre llamado BMA (Bayesian Model Averaging) aplicado a
regresin logstica, propuesto por Raftery(1995). Para la implementacin en R, se retoman las ideas de
Raftery, Painter y Volinsky(2005), as como Saminni y Parmeter(2011), dicho procedimiento es
utilizado para hacer el anlisis del estudio sobre el estado cognitivo de los adultos mayores en
Guerrero, Mxico. Se propone el BMA como una alternativa para tomar en cuenta la incertidumbre de
los modelos en este tipo de estudios.

1. INTRODUCCIN.
El tema de la incertidumbre inherente a todo modelo estadstico pocas veces es tratado
explcitamente en las aplicaciones. Se puede decir que el procedimiento de la modelacin consiste de dos
fases, estimar un modelo y validar dicho modelo, despus de haber pasado las pruebas con xito se considera
el modelo listo para su aplicacin, pero sobre todo se asume como el modelo verdadero.

Muy relacionado con el tema de la incertidumbre est el problema de la seleccin de modelos, que
segn Gelfand y Dey (1994), tiene dos aspectos uno referido a si el modelo es adecuado y el otro, a Cul es
el mejor modelo?, dentro de una coleccin bajo consideracin.

Se define un modelo como una especificacin de una distribucin de cantidades observables (los
datos) y no observables (los parmetros del modelo, observaciones perdidas, etc) y esta definicin puede ser
enfocada desde una perspectiva bayesiana. En el enfoque bayesiano los parmetros y los modelos son
considerados aleatorios (f(y/Mi)) y expresan su incertidumbre en trminos de distribucin de probabilidad.

Entre los diferentes mtodos bayesianos de seleccin de modelos estn, los Factores de Bayes (FB),
como un mtodo para seleccionar entre dos posibles modelos y para el caso ms general (ms de 2 modelos)
se utiliza el mtodo BMA donde se habla de promediar los modelos (ver Claeskens, G. and Hjort, N. L.2008),
tambin existen otros criterios como el AIC, BIC, etc.(ver Kadane, and Lazar 2004 )

En el trabajo presentamos un mtodo, el Bayesian Model Averagind que proporciona una va formal
para tomar en cuenta la incertidumbre en la seleccin de modelos. Ilustramos el mtodo con una aplicacin a

118
un estudio de corte transversal investigando los factores de riesgo asociados al problema del estado cognitivo
en adultos mayores. En el epgrafe 2 se muestra el uso del mtodo de BMA para la seleccin de modelos bajo
el paradigma bayesiano, as como una implementacin para utilizarlo usando el software R. En el epgrafe 3
se presenta la aplicacin de este mtodo de seleccin en un estudio sobre el estado cognitivo de los adultos
mayores en Guerrero, Mxico y por ltimo en el epgrafe 4 presentamos la discusin de los resultados.

2. MTODO BMA PARA LA SELECCIN DE MODELOS BAJO EL


PARADIGMA BAYESIANO
La seleccin de variables ha sido reconocida como uno de los problemas ms difundidos en la
seleccin de modelos en aplicaciones estadsticas (George, 2000) y una gran cantidad de mtodos han
surgido durante los ltimos 30 aos, especialmente en el contexto de la regresin lineal (ver Miller, 1990,
McQuarriet & Tsai, 1998, George 2000). Muchos investigadores se han enfocado en desarrollar diferentes
criterios apropiados para la seleccin de modelos, tales como PRESS (Allen, 1971), Cp de Mallows
(Mallows, 1973), Criterio de Akaike AIC (Akaike, 1973), Criterio de Informacin de Schwarz BIC (Schwarz,
1978), RIC de Foster y George (1994), Seleccin de modelos Bootstrap (Shao, 1996), aunque en la prctica se
asume que hay disponible pocos modelos razonables. De cualquier forma los investigadores en realidad tienen
que elegir uno o pocos mejores modelos de la enorme cantidad de potenciales modelos usando tcnicas tales
como Regresin Stepwise de Efroymson (1960) y sus diferentes variaciones, o por ejemplo, el algoritmo leap-
and-bounds de Furnival y Wilson (1974).

Tpicamente los investigadores usan ambos desarrollos, primero tratan de generar varios mejores
modelos para diferentes nmeros de variables y entonces seleccionar el modelo con mejor dimensin de
acuerdo a uno de los criterios listados. Sin embargo, cualquier combinacin de estos desarrollos para la
seleccin de modelos no parece tener en cuenta la incertidumbre asociada con la seleccin de modelos y por
lo tanto en la prctica se tiende a producir sesgos en las estimaciones y los procedimientos para la seleccin
de variables son sospechosos (Lipkovich, 2002).

Los dos aspectos dos aspectos relacionados con el problema de la seleccin de modelos (la bsqueda
de modelos y el criterio para la seleccin de modelos) son integrados con naturalidad en el modelo de
promedios, el cual supera la deficiencia inherente de la seleccin de modelos determinista combinando
(promediando) informacin de todos o un subconjunto de modelos cuando se hace estimacin, inferencia o
predicciones, en vez de usar slo un modelo.

El BMA se est volviendo una herramienta de anlisis de datos cada vez ms popular que les permite
a los investigadores tomar en cuenta la incertidumbre asociada con el proceso de la seleccin de modelos.

Muchas aplicaciones el BMA estn relacionadas con el espacio de modelos confinados para alguna
subclase especial, por ejemplo, hay aplicaciones del BMA para modelos grficos (Madigan y Raftery, 1994),
rboles de regresin (Chipman et al., 1998), regresin multivariada (Brown y Bannucci, 1998; Noble, 2000) y
anlisis de sobrevivencia (Volinsky, 1997) por mencionar algunos.

El enfoque bayesiano como se ha planteado ya, permite expresar la incertidumbre en trminos de


probabilidad, y bastan las reglas bsicas del clculo de probabilidades para poder hacer inferencias, el BMA
(Bayesian Model Averaging) no es ms que estadstica bayesiana bsica (ver Ando, T 2010). El BMA
combina la prediccin y estimacin de parmetros obtenidos con diferentes modelos plausibles usando sus
probabilidades a posterior como sus pesos.

De acuerdo con Madigan y Raftery (1994), si  es la cantidad de inters, tal como un parmetro del
modelo de regresin o una observacin futura, entonces su distribucin a posterior dados los datos D y un
conjunto de K modelos es la mezcla de distribuciones a posterior (ver Leamer, 1972).

As, como consecuencia de la regla o teorema de la probabilidad total, la probabilidad final BMA de
 viene dada por:

119

| =  |,   | 1


Siendo |D, M  distribucin de probabilidad final de , dado el modelo  y los datos D, y


 |la distribucin de probabilidad final de  , tomado como el modelo verdadero, considerando que
uno de los modelos propuestos es el verdadero.

La probabilidad final del modelo  , est dada por:

|  
 | = 2
 |  

En esta expresin,  | (2) es la integral de la funcin de verosimilitud del modelo  ,
resultado de integrar sobre los parmetros del modelo, es decir:

|  =  | ,   |   3

Siendo  el o los parmetros del modelo  y | ,   la funcin de verosimilitud de  para el


modelo  , y  |  la probabilidad inicial de  . Las probabilidades iniciales suelen considerarse
iguales. Para calcular la integral en (3) utiliza la simple y precisa aproximacin del BIC:

2 log |  2 !"#$% &  log( = )*+ (4)

Donde  = ,-  es el nmero de parmetros independientes en  , y % es el estimador de


mxima verosimilitud. Para regresin lineal, el BIC tiene la forma simple

)*+ = ( !"1 . /  +  log ( (5)


Donde . / es el valor de ./ y  es el nmero de regresores para el k-simo modelo de regresin.
Por (5), )*+ = 0 para el modelo nulo sin variables regresoras.

Cuando nuestro inters se centra en los parmetros del modelo, digamos parmetros de regresin tal
como 2 , (1) puede ser aplicado con = 2 . La media posterior del BMA de 2 es justo un promedio de los
pesos de las medias a posterior bajo cada uno de los modelos:

452 |6 = 27  |


 
(6)

El cual se puede ver como un estimador puntual del modelo de promedios bayesianos. En (6), 27 es
 

la media posterior de 2 bajo el modelo  y este se puede aproximarse por su correspondiente estimador de
mxima verosimilitud 28 (Rafftery, 1995). Una expresin similar es posible para la desviacin estndar a
posterior, el cual puede verse como un error estndar del modelo de promedios bayesianos.

En la implementacin del BMA existen dos dificultades: primero el clculo de la integral en (3) y
segundo promediar sobre todos los modelos cuando el nmero de modelos es grande como en (1) y (6). Para
ello la integral de verosimilitud es aproximada por la aproximacin del BIC (ec.4). La suma sobre todos los
modelos es aproximada encontrando el mejor modelo usando el algoritmo fast leaps and bounds que fue
introducido por Raftery(1995). Finalmente los modelos que son menos verosmiles a posterior que el mejor
modelo son excluidos. Esta es una exhaustiva bsqueda para encontrar el modelo global ptimo.

120
2.1- Implementacin del BMA en R

Para la implementacin de la seleccin de modelos en el paquete estadstico R, se hace uso de la


librera BMA, est permite aplicar la seleccin a modelos lineales, a modelos lineales generalizados y a
modelos de sobreviviencia, adems incluye funciones que permiten mostrar los resultados grficamente
(Raftery, Painter & Volinsky [2005], Amini y Parmeter, [2011]).

Como se mencion en la seccin anterior, el procedimiento BMA tiene dos dificultades:


1. Evaluar la integral para todos los modelos en (3), y
2. Promediar sobre todos los modelos, para obtener (1) y (6).
Para la seleccin de variables en modelos lineales generalizados, la funcin que debemos usar es
bic.glm (para ms detalles ver Raftery, Painter, y Volinky, [2005]; Amini y Parmeter, [2011]) y la integral es
aproximada mediante el criterio de informacin Bayesiano BIC.

La suma sobre sobre todos los modelos posibles se aproxima mediante el algoritmo leaps and
bounds. Este algoritmo fue propuesto por Furnival y Wilson (1974) para la seleccin de variables en regresin
y ha sido aplicado en modelos linelaes, en modelos linelaes generalizados por Raftery (1995), y por ltimo
en modelos de sobrevivencia por Volinsky et al. (1997). Este algoritmo descarta los modelos con
probabilidades finales menos verosmiles, encontrando el modelos globalmente ptimo.

Si el nmero de variables es muy grande, el algoritmo leaps and bounds puede hacerse notablemente
lento. En estos casos, se puede acelerar el proceso de bsqueda modificando el valor por defecto de maxCol,
(est establecido en 31 columnas). Si el nmero de variables es superior, entonces se procede por eliminacin
hacia atrs por etapas (backwards, stepwise) antes de aplicar leaps and bounds. Tratndose del caso de los
modelos generalizados con probabilidad inicial conocida, se dispone tambin de la funcin glib, que aproxima
la integral de la funcin de verosimilitud por el mtodo de Laplace, Raftery (1996). Podemos ver el uso de
esta funcin aplicada a un estudio de casos y controles en epidemiologia en Villefont, (2001).

El paquete BMA realiza el anlisis asumiendo una distribucin uniforme como modelo a priori y
utiliza la aproximacin del BIC (Bayesian Information Criterion) para construir las probabilidades a priori de
los coeficientes de regresin (Raftery, Hoeting, Volinsky, Painter & Yeung, 2010). Adems esta librera se
construy con base en el algoritmo de Raftery(1995).

3. ESTUDIO SOBRE EL ESTADO COGNITIVO DE LOS ADULTOS MAYORES EN


GUERRERO, MXICO

El aumento en las expectativas de vida ha tenido implicaciones importantes para los sistemas de
salud en el mbito mundial. Las proyecciones sealan que entre 1980 y 2050, la expectativa de vida para las
personas mayores de 60 aos aumentar 77% 2. Con ello incrementarn las enfermedades asociadas con la
edad entre las que el deterioro cognoscitivo representa una condicin que afecta de manera directa la calidad
de la poblacin adulta mayor y determinan un mayor uso de los servicios de salud (Banco Mundial, 1993).

El envejecimiento de la poblacin implica una mayor demanda de servicios de salud. En este grupo
de edad cada vez se presentan mayores tasas de morbilidad y necesidades de atencin mdica que en el resto
de la poblacin. Al mismo tiempo, los padecimientos de la poblacin en edades avanzadas tienden a
concentrarse en males crnico-degenerativos.

Las principales causas de muerte a nivel nacional de las personas de la tercera edad de ambos sexos
en el ao 2000 fueron las enfermedades cardiovasculares, neoplasias malignas, diabetes mellitus,
enfermedades digestivas, respiratorias, del hgado y accidentes. En el ao 2003 el Congreso del Estado aprob
la creacin del Programa Pensin Guerrero, cuyo objetivo es apoyar econmicamente a los adultos mayores
de 65 aos en los municipios de Acapulco de Jurez, Chilpancingo de los Bravo, Iguala de la Independencia,
Taxco de Alarcn y Jos Azueta.

121
En 2004 se realiz un estudio entre la Secretaria de Desarrollo Social y la Escuela de Enfermera no.
1 de la Universidad Autnoma de Guerrero y uno de sus objetivos era evaluar el estado de saludos de los
Adultos Mayores. Algunos de los indicadores obtenidos en ese estudio fueron: estado nutricional, seguridad
social y accesibilidad a los servicios, vivienda, aspecto laboral, capacidad funcional, estado de salud,
disfunciones fsicas, estado cognitivo y estado anmico.

El estado de salud de los adultos mayores est asociado a distintos factores que influyen de manera
sustancial en la calidad de vida que stos puedan tener. Las variables que se analizaran en este estudio son las
siguientes, ya que se consideran factores de riesgo para estar afectado en el Estado Cognitiva del adulto
mayor:

Variables consideradas para el anlisis:


1. (mpio) municipio (Acapulco(1), Chilpancingo(2), Iguala(3), Taxco(4), Jos Azueta(5))
2. (edad) Edad
3. (sexo) Sexo (Masculino (1) y Femenino (0))
4. (edo_civi) Estado Civil (Soltero (1), Unin libre (2), casado(3), Divorciado(4), Viudo(5))
5. (poblaci) Poblacin (Urbana (1), Rural (0))
6. (esca_imc) Escala imc (Sobrepeso (1) y normal (0)
7. (edo_lab) Estado laboral (Trabaja (1), no trabaja (0))
8. (edo_sano) Estado de salud (Sano (1) y Enfermo (0))
9. (ABVD) Actividades bsicas de la vida diaria (Dependiente(1), Independiente(0)), esta se obtuvo
por medio de la escala de Kazt.
10. (AIVD) Actividades instrumentales de la vida diaria (Dependiente(1), Independiente(0)), esta se
obtuvo por medio de la escala de Lawton Brody.
11. (EEC) escala estado cognitivo (Afectado(1), no afectado (0)), se obtuvo por medio de la prueba
Pfeiffer.
12. (EEA) escala estado anmica (Afectado(1), no afectado (0)), se obtuvo por medio de Yesavage.

4. RESULTADOS Y DISCUSIN.

El modelo que se utiliz fue el Bayesian Model Average (BMA) en regresin logstica binaria para
obtener un modelo que me permita calcular la probabilidad de que un adulto mayor se vea afectado del estado
cognitivo, a partir de las variables que se consideraban factores de riesgo.

Lo primero que se estableci fue las distribuciones a priori de los parmetros vector y 9 / :ue se

consideraron no informativas, es decir p(,) -1 , donde ; = =
<
La distribucin posterior del modelo con esas a priori seria

( (
p (, / z ) = N p / w , 1 X t WX )
1
)Ga / n 2 p , n 2 p 2


(
donde w = X t WX )1
X t Wz , 2 =
1
n
(
z X w ) (z X )
t
w y W matriz diagonal donde

wii = i (1 i )
Para resolver el problema se utiliz el paquete BMA que est en el lenguaje R (Raftery, et al.), y
cuyas instrucciones para correr el BMA en este modelo aparecen en el siguiente cuadro.

122
Programa 1: BMA en regresin logistica

********ESTADO COGNITIVO DE LOS ADULTOS MAYORES*********


**************************************************************

library("MASS")
library(splines)
library("survival")
library(leaps)
library(BMA)
datos<-read.table("base pension guerrero pocas variables.txt", header=T)
y<- datos$EEC
x<- data.frame(datos[,-11])
x$mpio<- as.factor(x$mpio)
x$sexo<- as.factor(x$sexo)
x$edo.civi<- as.factor(x$edo.civi)
x$poblaci<- as.factor(x$poblaci)
x$edo_lab<- as.factor(x$edo_lab)
x$es_sano<- as.factor(x$es_sano)
x$esca_imc<- as.factor(x$esca_imc)
x$ABVD<- as.factor(x$ABVD)
x$AIVD<- as.factor(x$AIVD)
#x$EEC<- as.factor(x$EEC)
x$EEA<- as.factor(x$EEA)

glm.out.FT<- bic.glm(x, y, glm.family="binomial")


summary(glm.out.FT)
plot(glm.out.FT,mfrow=c(3,3))
imageplot.bma(glm.out.FT)

El programa selecciono 18 modelos de los cuales en la Tabla 1 se muestran slo los 5 mejores que
tiene una probabilidad a posteriori acumulada del 1.00, adems en la tabla por columna con los nombre de la
constante y las variables utilizadas en el problema, aparece otro bloque donde aparece p!=0, EV y SD, los
cuales son, porcentaje las probabilidades finales de las variables para estar en el modelo ideal, EV que
muestra los valores esperados BMA finales de los coeficientes y bajo las siglas SD las desviaciones estndar
BMA finales ara cada coeficiente. En las siguientes columnas aparecen los coeficientes estimados de las
variables que se incluyen en cada uno de los respectivos modelos. Al final se muestra el nmero de variables
incluidas en los modelos, el ./ , el BIC y la probabilidad final del modelo.

En la tabla 1 se puede observar que hay tres variables que se incluyen en los 5 modelos, para el
primer modelo las variables ms importantes son actividades instrumentales de la vida diaria (preparar
comida, manejar dinero, hacer compras, usar el telfono, etc.), sexo y el tipo de poblacin (urbana) ya que
adems de tener la probabilidad de inclusin ms alta aparecen en todos los modelos, le sigue en importancia
la edad y las actividades bsicas de la vida diaria (caminar, baarse, comer ponerse los zapatos, etc.) con 65%
y 66% de probabilidad de inclusin en el modelo.

Por lo tanto el modelo quedara de la siguiente manera

>? = 1
@A52.54 + 0.0038@F 0.080G@A! 0.080!H FI, + 0.077FHK + 0.073F,K6
=
1 @A52.54 + 0.0038@F 0.080G@A! 0.080!H FI, + 0.077FHK + 0.073F,K6
si tenemos una adulto mayor que sea mujer con edad de 70 aos, que en zona urbana, que est afectada de su
capacidad funcional (es decir afectada de sus AIVD y ABVD) la probabilidad de que se vea afectado de su
estado cognitivo es de 11% de que se vea afectado de su estado cognitivo.

123
En la Imagen1 se muestra las distribuciones finales BMA de los distintos coeficientes del modelo 1
es el resultado de (1) tras hacer  = 2 .

En la imagen 1 podemos la distribucin final de las variables que se analizar y aquellas que quedaron
incluidas en el modelo 1 son las que tiene forma de campana. Si observamos por ejemplo la funcin de
densidad final del coeficiente de la variable ABVD, tenemos la siguiente imagen, ver imagen 2.

Tabla 1 Resultados de la corrida del paquete BMA en R, en el problema de la eclampsia.


p! EV SD Modelo 1 Modelo 2 Modelo 3 Modelo4 Modelo 5
Intercepto 00 -1.6163 1.60196 -2.545e+00 -2.634e+00 2.458e-01 3.128e-01 -2.681e+00

Mpio
2
3
4
5
edad 66 0.02580 0.02186 3.824e-02 4.029e-02 - - 3.961e-02
sexo 00 - - - - - - -
1 -0.812 0.19509 -8.076e-01 -8.551e-01 -7.672e-01 -8.189e-01 -8.555e-01
Edo.civil 0 - - - - - - -
2 - - - - - - - -
3 - - - - - - - -
4 - - - - - - - -
5 - - - - - - - -
poblacion 00 - - - - - - -
1 -0.75012 0.17995 - - - - -
7.487e-01 7.597e-01 7.410e-01 7.555e-01 7.462e-01
Esca_imc .5 - - - - - - -
1 0.005823 0.05241 - - - - 2.306e-01
ABVD 5.7 - - - - - - -
1 0.518021 0.44374 7.716e-01 8.158e-01 7.791e-01
AIVD 100 - - - - - - -
1 0.825072 0.21492 7.344e-01 8.605e-01 8.661e-01 1.015e+00 7.553e-01
EEA - - - - - - - -
1 - - - - - - - -
nvar 5 4 4 3 6
BIC - - - -2.999e+03 -2.998e+03 -2.998e+03 -2.996e+03 -2.993e+03
Post Prob - - - 0.385 0.250 0.246 0.093 0.025

En la imagen 2 se puede apreciar que el mximo de la funcin corresponde a la probabilidad final de


que la variable est incluida en el modelo, es decir, la probabilidad de 2L = 0.657, mientras que la barra
vertical trazada en 0.00, representa la probabilidad de que dicha variable no se incluya en el modelo, este es,
2L = 0, dicha probabilidad es 1-0.657=0.343, La funcin es el resultado de una mezcla de densidades
normales y est escalada de manera que el mximo de la funcin se corresponda con la probabilidad final de
que dicha variable este incluida en el modelo ptimo.

124
Imagen 1. Distribuciones finales del BMA

En la Imagen 3 se puede apreciar la inclusin de las variables (eje de las ordenadas) en los modelos
obtenidos con el BMA (eje de las abscisas), con la particularidad de que la amplitud de las columnas
representa de manera proporcional la probabilidad final del modelo y se colorea la parte correspondiente a la
variable que se incluy en dicho modelo, por ejemplo, en el modelo 1 se encuentran incluidas las variables
edad (aos), sexo, poblacin actividades bsicas y actividades instrumentales, los colores indican el signo del
coeficiente en el modelo, siendo el azul el color que representa un valor positivo en los coeficientes y el color
rojo representa un valor negativo en dicho coeficiente.

Imagen 2. Distribucin final BMA de la variable ABVD

125
Imagen 3. Grfico de inclusin de variables en el modelo BMA

5. CONCLUSIONES

El modelo seleccionado por BMA, expresa la variable Y (afectacin del Estado cognitivo del adulto
mayor) como funcin de la poblacin a la que pertenece el adulto mayor, su edad, sexo, actividades bsicas de
la vida diaria y actividades instrumentales de la vida diaria, es importante resaltar que hay tres variables que
parecen ser determinantes en relacin con el Estado Cognitivo, estas son: AIVD, Sexo y Tipo de poblacin.
Cabe sealar que este es el primer trabajo que se realiza bajo este enfoque, sin embargo, existen tres trabajos
en los cuales se estudia el estado funcional de los adultos mayores, en (Dorantes et al., 2007) se hace un
anlisis de regresin logstica multifactorial, en (Daz et al., 2012) se aplica un anlisis de regresin logstica
y el otro utiliza un anlisis de regresin multinomial (Daz et al. 2011). Entre las variables que resultaron
significativas en estos estudios, est la edad, gnero y el estado cognitivo que aparece como una covariable.

Es importante decir que el procedimiento presentado en este trabajo y el cual estamos proponiendo
como una estrategia de anlisis para este tipo de problemas (determinacin de factores de riesgo) presenta
notables ventajas sobre los anlisis que tradicionalmente se realizan ya que adems de su fcil
implementacin el paquete estadstico R proporciona resultados que se pueden observar grficamente, pero
sobre todo que en ellos se observan los mejores modelos y a su vez podemos ver cuales variables son las ms
importantes en cada uno de estos modelos y resulta ser una herramienta muy til en investigaciones
multidisciplinarias.

La utilizacin del paquete BMA en el entorno R constituye un aporte muy importante que favorecer
la seleccin de modelos bajo el enfoque bayesiano y que en la actualidad est teniendo un desarrollo notable
en las distintas reas del conocimiento y ms recientemente en aplicaciones en reas de la Bioestadstica,
Epidemiologa, y Salud en la cual est enmarcado el trabajo presentado.

En resumen, el procedimiento BMA (Bayesian Model Avering) constituye un herramienta que


permite aplicar en enfoque Bayesiano al problema de la seleccin de modelos, tomando en cuenta la
incertidumbre inherente a cualquier modelo estadstico y establece un establece un mecanismo coherente que,
junto con la opinin de los expertos, permite elegir el modelo ms apropiado.

126
REFERENCIAS

[1] ANDO, T. (2010): Bayesian Model Selection and Statistical Modeling, CRC Press.
[2] AMINI S., PARMETER C. (2011): Bayesian Model Averaging in R.
http://www.bus.miami.edu/_assets/files/faculty-and-research/academic-departments/eco/eco-working-
papers/2011/WP2011-9.pdf
[3] BANCO MUNDIAL (1994): Informe sobre el desarrollo mundial 1993. Invertir en salud. Washington:
Oxford University Press.
[4] CLAESKENS, G. AND HJORT, N. L. (2008): Model Selection and Model Averaging Cambridge
University Press.
[5] DAZ G. L., SISTACHS V. V., COVARRUBIAS M. D., ALARCN M. L., Y HERNNDEZ N. I.
(2011): Capacidad funcional del adultos mayores de 65 aos del programa pensin Guerrero: una
aplicacin del modelo de regresin multinomial, trabajo presentado el 4to Taller Latino Iberoamericano de
Investigacin de Operaciones, sin publicar.
[6] DORANTES MENDOZA G., AVILA FUENTES J.A., Y GUTIERREZ ROBLEDO L.M. (2007):
Factores asociados con la dependencia funcional en los adultos mayores: un anlisis secundario del estudio
nacional sobre salud y envejecimiento en Mxico, 2001. Rev. Panam Salud Pblica. 22,:1-11.
[7] GELFAN, A.E. AND DEY, D. K. (1994) Bayesian Model: asymptotics and exact calculations. Journal
of the Royal Statistical Society B56: 510-514.
[8] LIPKOVICH, I.(2002) Bayesian Model Averaging and variable selection in Multivariate Ecological
Models, Dissertation, Blacksburg Virginia.
[9] KADANE, J. B. and LAZAR, N. A (2004): Methods and Criteria for Model Selection. Journal of the
American Statistical Association March 2004, Vol. 99, No. 465
[10] RAFTERY, A., C., PAINTER & VOLINSKY, I. (2005): BMA: An R package for Bayesian Model
Averaging, R News, http://www.r-project.org/doc/Rnews/Rnews_2005-2.pdf.
[11] RAFTERY, A., HOETING, J., VOLINSKY, C., PAINTER, I. and YEUNG, K. Y. (2010): BMA:
Bayesian Model Averaging. R package version 3.13.URL: http://CRAN.Rproject.org/package=BMA
[12] R DEVELOPMENT CORE TEAM (2010): R: A Language and Environment for Statistical Computing,
R Foundation for Statistical Computing, URL: http://www.R-project.org.
[13] SALINAS N. S., DAZ G. L., COVARRUBIAS M. D., SISTACHS V. V., HERNNDEZ N. I. (2012)
Factores asociados a la Funcional de los adultos mayores en el Estado de Guerrero, trabajo presentado en
Segundo encuentro internacional de Medio Ambiente. Sin publicar.

127
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 128-144

Vt DF
FACTORES PRONSTICOS DE UNA MUESTRA DE PACIENTES
CON CNCER DE CRVIX EN HOSPITAL JUAN GRAHAM (HJG)
TABASCO, MXICO.
L. H. Solana-Villanueva, L. Lpez-Segovia, D. Romero y J. F. Garca Rodrguez

ABSTRACT
In this paper we present a survival analysis of a sample of 119 patients with cervix cancer treated at the oncology unit HJG of
Villahermosa, Tabasco, Mexico. All patients are treated with radiation therapy or chemotherapy, and were followed from
diagnosis to last visit or until the occurrence of relapse or death from cancer. Patients who dropped out or died from causes other
than cancer, has a partial survival time were defined as patients censored. We present an analysis of time to disease-free survival
(time to recurrence of cancer) and overall survival time (time to death from cancer). A nonparametric analysis of survival is
performed on these data to evaluate the effectiveness of treatment and identify groups of patients with similar survival on cancer
characteristics. A semi-parametric analysis is applied to identify statistically significant risk factors, such as, tumor type , stage,
histology , treatment, age , etc. , as a parametric analysis . Preliminary results for disease-free time show that there is a well
defined group of patients who have a tumor stage as highly significant risk factor. Similarly happens to overall survival time, in
addition to the proctitis as a risk factor Patients with worse forecasts are those with some of the following features: tumor in
stage IIIB, proctitis present.

KEYWORDS: Survival, Risk, Parametric, Forecasts, Cox


RESUMEN
En este articulo presentamos un anlisis de supervivencia de una muestra de 119 pacientes con de cncer cerviz atendidos en la
unidad oncolgica del HJG de Villahermosa, Tabasco, Mxico. Todos los pacientes reciben un tratamiento con radioterapia o
quimioterapia, y fueron seguidos desde el diagnostico hasta la ltima visita o hasta que ocurre la recada o la muerte por el
cncer. Los pacientes que abandonaron el estudio o murieron por otras causas diferentes al cncer, tiene un tiempo de
supervivencia parcial y fueron definidos como pacientes censurados. Presentamos un anlisis del tiempo de supervivencia libre
de enfermedad (tiempo hasta la recada del cncer); y el tiempo total de supervivencia (tiempo hasta la muerte por cncer). Un
anlisis de supervivencia no paramtrico es realizado a estos datos para evaluar la eficiencia del tratamiento e identificar grupos
de pacientes con supervivencia similar respecto de las caractersticas del cncer. Un anlisis semiparametrico es aplicado para
identificar los factores de riesgo estadsticamente significativos, tales como, tipo del tumor, estadio, histologa, tratamiento,
edad, entre otros, al igual que un anlisis Paramtrico. Los resultados preliminares para el tiempo libre de enfermedad, muestran
que existe un grupo bien definido de pacientes que tiene a la etapa del tumor como factor de riesgo altamente significativo.
Similarmente ocurre para el tiempo global de supervivencia, en adicin de la proctitis como factor de riesgo. Los pacientes que
tienen peor pronsticos son los que presentan algunas de las siguientes caractersticas: tumor en un estadio IIIB, proctitis
presente.

1.- INTRODUCCIN
Muchas mujeres mueren en el mundo a causa del cncer de crvix. Cada dos horas fallece una mujer
en la poca ms productiva de su vida a causa del descuido, ignorancia o atencin tarda de este tipo de
problema principalmente en amrica latina muchas de ellas son jvenes, en edad reproductiva. En Mxico la
mortalidad por este tipo de cncer ocupa el segundo lugar [10].

El cncer crvix es una neoplasia que afecta el tero, sobre todo en su cuello y en el endometrio, que
es su pared interna, en la que se forma cada mes la capa sangunea que produce la menstruacin.[2]
Este tipo de cncer es la segunda causa de muerte por neoplasias malignas en la mujer en el mundo. Sin
embargo, gracias a la citologa y a la histopatologa se le puede detectar tempranamente y tratar
oportunamente, reduciendo el impacto de esta enfermedad. Sumado a estas medidas, el panorama se torna
ms favorable al contar ahora con vacunas que prometen disminuir este cncer, especialmente en los pases
que presentan mayor nmero de casos [3].

Por lo que se refiere al cncer crvix, segn los reportes del INEGI 2005-2009, la tasa de mortalidad
de los 10 estados con mayores casos es un 87.1% mayor que la de los 10 estados con menores tasas: 12.2
fallecimientos por cada 100 mil mujeres de 25 aos o ms, contra 6.5, respectivamente. Ahora bien, 7 de los
10 estados con mayores tasas de mortalidad por cncer crvico uterino estn entre los 10 de menor tasa del

128
cncer de mama. Por otro lado, 5 de los 10 estados con menores tasas de mortalidad por este tipo de cncer
pertenecen al grupo de los 10 con mayor tasa de mortalidad por cncer de mama, aunque los cinco estados
que se agregan Tlaxcala, Guanajuato, Hidalgo, Zacatecas y Coahuila son del centro y norte del pas.

En el sureste de Mxico, uno de los hospitales de alta especialidad que da atencin oncolgica es el
Hospital Juan Graham, donde se han reportado un aumento en los casos de cncer de crvix.

En la figura 2 se muestra las incidencias de cncer de crvix del 2006 a marzo del 2012, donde se
observa este aumento de casos. En el Hospital Juan Graham ocupa la segunda causa de atencin.

Figura 1: Distribucin porcentual de las defunciones por tipo de tumores malignos 2009

La mayora de las mujeres que desarrollan este cncer tienen entre 40 y 50 aos de edad. Sin
embargo, cada vez es ms comn ver mujeres jvenes, que a edades de 20 y 30 aos se les diagnostica cncer
crvix. Este hecho ha dado lugar a realizar un anlisis estadstico de 119 pacientes atendidos en el hospital.
Como primera aproximacin realizamos un anlisis no paramtrico con el objetivo de evaluar la eficiencia del
tratamiento e identificar grupos de pacientes con supervivencia similar respecto de las caractersticas del
cncer. Las curvas Kaplan-Meier del tiempo de supervivencia por variable permite la comparacin de la
supervivencia, en combinacin con la familias de pruebas estadsticas no paramtricas Fleming and Harrigton.
Un anlisis semiparamtrico es aplicado para identificar los factores de riesgo estadsticamente significativos,
tales como, tipo del tumor, estadio, histologa, tratamiento, edad, entre otros. Para este anlisis usamos el
ajuste de un modelo de regresin de Cox, bajo el supuesto de riesgos proporcionales previamente verificado.

Figura 2: : Frecuencias absolutas de nmero de casos

129
2. METODOLOGA
Sea T una variable aleatoria positiva con funcin de distribucin F, que representa el tiempo hasta la
ocurrencia de un evento E. La funcin de supervivencia S(t) y la funcin de riesgo h(t) de T son definidas
como
 = 1 


 = ,


Sea C la variable aleatoria que representa el tiempo hasta la censura con funcin de distribucin G. El tiempo
de supervivencia observado denotado por U, es definida como = min, . Sea  la indicadora de censura
definida como  = 1, si = , y  = 0, si = .

En una muestra de tamao n, el individuo i-simo tiene como elementos de supervivencia observado
la terna   ,  ,  , donde  es el vector de covariables del individuo  = 1: ,  son las variables
independientes que describen las caractersticas del tumor, tales como: Histologa, Etapa, Tumor, Sitio
QT(Quimio radioterapia, sin quimioterapia), Tipo, Braquiterapia, Fraccin, Proctitis, Cistitis, Hemoglobina.

2.1. Modelos de supervivencia

Dentro del anlisis no paramtrico de supervivencia se encuentran los modelos actuariales. Estos
modelos son tiles en aquellos casos donde no se dispone de los tiempos exactos de ocurrencia del evento.
KaplanMeier proponen un estimador de la curva de supervivencia S, en presencia de datos censurados,
conocido como estimador "Lmite producto. El estimador KaplanMeier con tiempos de supervivencia no
repetidos, est dado por:


 = 

,

!"

donde,  representa el nmero total de ocurrencia en el i-esimo momento y  representa el nmero de


unidades a riesgo justo antes del tiempo  .

2.1.1. Pruebas clsicas del anlisis de supervivencia

El objetivo de comparar curvas de supervivencia tipo Kaplan-Meier es similar a aquellos


procedimientos diseados para comparar estadsticos provenientes de muestras independientes, como la
prueba t, la prueba de los signos, la prueba no paramtrica de los rangos signados de Wilcoxon, la prueba U
de MannWhitney, la prueba de KruskalWallis, la prueba ponderada de Cochran y la prueba de anlisis de
varianza de dos o ms vas.

En el Anlisis de Supervivencia, a diferencias de las pruebas anteriores, se debe considerar


observaciones censuradas o parcialmente observadas, razn que imposibilita la aplicacin directa de estas
pruebas en la comparacin de subgrupos. Muchos investigadores se han dedicado a disear pruebas de
comparacin especficas, entre las ms utilizadas para comparar curvas podemos mencionar la prueba del
logaritmo del rango (log-rank) propuesta por Mantel-Haenszel; la prueba generalizada de Wilcoxon propuesta
por Gehan ; la prueba de Peto-Peto , la prueba de Tarone-Ware , la prueba de rangos lineales con datos
censurados por la derecha propuesta por Prentice, la prueba de Harrington-Fleming que generaliza parte de las
pruebas anteriores y una versin ms general propuesta por Fleming et al. .

Las pruebas anteriores son tiles para probar el juego de hiptesis: #$ :( igualdad de curvas de
supervivencia entre dos o ms grupos) vs #" :( diferencias entre curvas de supervivencias entre dos o ms
grupos). La prueba evala las diferencias entre el nmero de eventos observados y el nmero de eventos
esperados en cada uno de los momentos de ocurrencia, bajo los supuestos de #$ . Esto es equivalente a
comparar el nmero de eventos ocurridos en cualquiera de los grupos con respecto al nmero de eventos

130
esperados en el grupo combinado. El estadstico de contraste se basa en una funcin de la variable aleatoria
definida por el nmero de eventos en cada momento y se construye como una suma de variables aleatorias
independientes estandarizadas, bajo el supuesto de que las ocurrencias en un momento determinado son
independientes de las que ocurren en cualquier otro momento.
Una alternativa de prueba a los test anteriores fue propuesta por Harrington y Fleming, usando los pesos de la
forma

%" = ['" ])


Esa familia de inclu la prueba Log-rank cuando * = 0, la prueba Peto-Peto cuando * = 1, y el
prueba de Tarone-Ware cuando * = 0.5, se obtiene.

2.2. Modelo de Cox

El modelo de regresin de Cox (1972) es uno de los modelos de regresin ms utilizado para datos
de supervivencia en el rea mdica. En el modelo de regresin de Cox, el riesgo para el i-simo individuo se
define mediante la siguiente expresin:

; -  = $ . / 01

donde -  es el vector de covariables para el i-simo individuo en el tiempo t.

Este modelo es llamado tambin un modelo semi-paramtrico debido a que incluye una parte paramtrica
y otra parte no paramtrica.
3 0 4
I. La parte paramtrica es 2  = . / 1 llamada puntaje de riesgo (risk score), y 5 es el vector de
parmetros de la regresin.

II. La parte no paramtrica es $  que es llamada funcin de riego base, es una funcin arbitraria y no
especificada.

El modelo de Cox tambin conocido como el modelo de riesgos proporcionales, es debido a que el
cociente entre el riesgo para dos sujetos con el mismo vector de covariables es constante en el tiempo, es
decir:
; - 
8
/ 0
= . 79: 7 7
$ 

2.2.1. Funcin de verosimilitud

La verosimilitud parcial y fue introducida por Cox (1972). Esta verosimilitud es propuesta cuando las
observaciones no se da ningn supuesto de que se comporten como una distribucin como se muestra:
=

;5,  = [ , ]< [ , ]"'<


!"
si sustituimos la funcin de riesgo de tenemos que:
=

;5,  = [$  . /0 ]< [ , ]"'<


!"

2.2.2. Contrastes de hiptesis para el modelo de Cox

Una vez que se ha ajustado un modelo de Cox, existen tres contrastes de hiptesis para verificar la
significacin del modelo, estos test son asintticamente equivalentes, pero no siempre sucede lo mismo en la
prctica:

i. Test de razn de verosimilitud.

131
El primero de los contrastes es el denominado test de razn de verosimilitud y es el que presenta una
mayor confiabilidad. Este test se define como:

2logBL$ E log LBFE

donde $ son los valores iniciales de los coeficientes y F es la solucin luego de ajustar el modelo.

ii. Test de Wald


El segundo de los contraste es conocido como el test de Wald y es quizs el ms natural debido a que
proporciona un contraste por variables en vez de una medida de significacin global. El estadstico de
contraste se define mediante:
'"
BF $ E B/ E BF $ E
'"
donde B/ E es la matriz de varianzas y covarianzas estimadas.

iii. Test de puntajes (scores tetst).


El tercer contraste es el conocido como el test de los puntajes, definido como H , donde
es el vector de derivadas de log;5 dado por:
O N

5 = I J[K  K 5, ] M 


!" $
I es la matriz de informacin dada por:
O O
 P 2 [K  K5, ][K  K5, ]
H5 = I J M 
 P 2 
!" $

y K5, es la medida de las covariables para aquellos individuos que todava estn en riesgo en el tiempo t,
dada por:

 P 2 K 


K 5,  =
P 2 

2.3 Distribucin Weibull

El modelo Weibull es una generalizacin del modelo exponencial. Se dice que la variable aleatoria T se
distribuye como una exponencial de parmetros Q > 0 y S > 0 si su funcin de densidad toma la
expresin:
W
T; Q, S = QSQSU'" . 'V4

Por lo tanto su funcin de supervivencia es:



W
; S, Q = J TX X = . 'V4
4

y la funcin de riesgo es
W
T QSQSU'" . 'V4
; S, Q = = = QSQSU'"
 . 'V4
W

Observe que
; S, Q = QSU  U'"

132
; S, Q = Q U'" SU
Si
Z
S = ./
entonces
Z
; S, Q = Q U'" . /
donde
$ t = Q U'"
Entonces
Z
; S, Q = $ ./
Esto implica que
; S, Q
= ./ Z
$ 
Esto ltimo nos dice que la funcin distribucin weibull como se puede ver como una funcin de
riesgo, la cual es igual al modelo de Cox.

Todos los resultados que a continuacin se mostrarn fueron obtenidos bajo el programa R-project

3. DESCRIPCIN DE LA BASE DE DATOS


El conjunto de datos representa una cohorte de 119 pacientes con diagnstico de cncer crvix
atendidos en la unidad oncolgica del Hospital Juan Graham (HJG) de Villahermosa, Tabasco, Mxico. La
muestra de paciente fue seleccionada mediante un estudio retrospectivo de pacientes, atendidos en el centro
oncolgico en HJG, desde de Marzo de 2005 a Octubre de 2011. Las variables en estudio se muestran en la
tabla 1 y se pueden clasificar en, Los datos del paciente que comprenden la edad, y la hemoglobina; Las
caractersticas del tumor que comprenden la etapa del tumor, la histologa, el tamao y el sitio de la
reaparicin del tumor; El tratamiento que son el tipo de material, el tipo de quimioterapia, la braquioterapia, la
fraccin del material, cistitis y proctitis, estos 2 ltimos son consecuencias del tratamiento.

3.1. Tiempo libre de enfermedad

En la tabla 1 se muestran las variables de estudio cuando el evento de inters es la muerte debido al
cncer. En esta tabla podemos observar que los pacientes con edad entre los 40 y 60 aos tienen un mayor
nmero de incidencias de recada que los que superan los 60 y estn por debajo de los 40 aos, del total de
pacientes con edad entre 40 y 60 aos, el 11% recae y los que tienen menos de 40 aos es el 6% recae.

En la variable tamao del tumor observamos que los pacientes con un tumor mayor a 5cm de
dimetro tiene 14% de incidencias de recada, mientras que los que tienen un tumor menor a 5cm tiene 9% de
incidencias de recada.

Podemos observar que en la variable etapa, la etapa 1B1, consta de 5 pacientes con esa etapa y que
todos fueron censurados, al igual que la variable IIA la cual consta de 11 pacientes y la etapa 1B2 solo ocurre
un evento, estas covariables, pueden ser redefinidos, dado la siguiente manera, donde las etapas 1B1,1B2 y
IIB se consideren una sola etapa, esto no quiere decir que se consideran las etapas iguales, esto se explicara en
el anlisis no paramtrico, tambin se puede ver que la etapa IIIA, consta de un solo paciente, esta etapa la
omitiremos en nuestro estudio, ya que no consta de los elementos necesarios, para su estudio.

Se observa que la variable Sitio, solo ubica los lugares donde hay una recurrencia del cncer, observe
que los lugares en el que ms aparece el cncer son en el cervical, seo y retroperitoneo, con el 40 %, 75% y
50% de incidencias de recada. En la tabla 1 tambin observamos que la cistitis y la proctitis tienen el mismo
porcentaje de incidencias que el 12 %, esto puede indicar que en esta variable no aporta riegos de recada

133
Table 1: Tumour characteristics of patients with uterine cervical cancer

En la tabla 2 podemos observar la nueva propuesta de re categorizacin de las categoras, en base a


los resultados anteriores. La variable etapa del tumor queda de siguiente manera con categoras bien
definidas, 1B1-1B2-IIA, IIB Y IIIB esta nueva propuesta se verificar con un anlisis no paramtrico va los
test de comparacin de curvas de supervivencia.

134
3.2. Tiempo total de supervivencia

En la tabla 3 se muestran las variables de estudio cuando el evento de inters es la muerte debido al
cncer.

En esta tabla se observa en la variable Edad los pacientes con edad menor a los 40 aos tienen el
24.2% de incidencias de muerte por cncer y los pacientes que tienen entre 40 y 60 aos tienen el 17% de

135
incidencias de muertes. Ntese que los pacientes menores de 40 aos tienen un porcentaje alto de muertes,
esto motiva a pensar que la edad es un factor importante en la muerte de los pacientes. La variable
Hemoglobina, en la tabla 1, tena un mayor porcentaje de recadas con pacientes mayores a 10mm, en cambio
en la tabla 3 observamos que los pacientes con plaquetas bajas tienen el 29.1% de incidencias de muerte.

Observamos que la variable etapa, grupo (Etapa IIIA) el cual solo consta de un elemento, lo cual para
este estudio, no nos brinda informacin por lo cual se eliminara este paciente para su mejor estudio. Por otro

136
lado observamos que la etapa IIIB se distingue de las dems, ya que es el que ms muertes tiene con respecto
a las dems etapas, esto da pie a sospechar que las dems variables se tienen que re categorizar de una mejor
manera. Tambin podemos observar que los pacientes con Etapa IIIB tiene el 44% de incidencias de muerte
por el cncer en comparacin a las otras etapas, esto quiere decir que los pacientes con Etapa IIIB tiene un
riego elevado de morir.

Con respecto a las consecuencias del tratamiento, observamos que los pacientes que generan Cistitis
tienen el 43% de incidencias, al igual que los pacientes que generan Proctitis el 35% de incidencias. Notemos
que estas variables en la tabla 1, estas tienen casi el mismo porcentaje de incidencias de recada, como los
pacientes que no generan estas consecuencias. Por lo que podemos intuir es que estas variables son de gran
contribucin a la muerte de pacientes por cncer
Con las re categorizaciones ya mencionadas se tiene la tabla 4

Esta nueva categorizacin se verificar con los ya mencionados test de comparacin de curvas de
supervivencia

137
4. RESULTADOS Y DISCUSIN
4.1. Tiempo Libre de Enfermedad

Figura 3: Esquema de estudio hasta la recada

En la figura 3 se observa la ventana de estudio hasta la recada donde se tiene que el evento ocurre
cuando el paciente tiene una recada debido al cncer el cual es 12% del total de los pacientes. Se consideran
datos censurados aquellos pacientes que viven sin cncer, mueren por el cncer o se pierden en el estudio.
Cuando consideramos a T como el tiempo desde el diagnostico hasta la recada por cncer,  = 1 significa
que el paciente ha recado y  = 0 significa cualquier otro caso. A continuacin se mostraran 3 curvas de
supervivencia donde se tienen la sospecha de diferencias significativas entre ellas.

Figura 4: Estimacin del Kaplan-Meier de las variables Histologa, Etapa y Tumor

En la figura 4 se puede apreciar que existe de evidencia de diferencias significativas en las variables
Histologa, Etapa y Tumor, las otras variables mostraron un comportamiento distinto, sus curvas de
supervivencia se estaban pegadas, lo cual no daba sospecha alguna de diferencia entre ellas, estas variables se
corroboraron y se obtuvo que no exista diferencias significativas

138
4.1.1. Test de Comparacin de curvas

Los resultados al aplicar los test de Fleming-Harrington se presenta en esta tabla observamos que la nica
variables que resulto ser con diferencias altamente significativas al 95% de confianza es la variable Etapa.
Esto resultados permiten definir adecuadamente las categorizaciones de las covariables en el modelo de Cox.
Podemos ver que en los test de comparacin de curvas, las variables histologa y tumor, no hay evidencia de
que sus curvas de supervivencias son diferentes

Tabla 5: Test de comparacin de curvas de supervivencia

Factores Categorias Peto-peto Logrank Tarone-Ware


Histologia Adenocarcinoma, Epidermoide 0.144 0.144 0.143
Etapa 1B1-1B2-IIA,IIB,IIIB 0.0183 0.0186 0.0191
Tamao tumor 5]^, > 5]^ 0.0642 0.0721 0.0679

4.1.2. Modelo de Cox

Con un anlisis anterior se vio que las etapas, 1B1, 1B2 y IIA, tienen igualdad entre sus curvas de
supervivencia, lo cual podemos utilizar la re categorizacin hecha anteriormente en la descripcin de los
datos. Con este resultado, vemos que el nico candidato para el modelo de regresin de Cox es la variable
Etapa, como se muestra en la tabla 6:

Tabla 6: Grupo de referencia, Etapa (1B1-1B2-IIA), con el 95% de confianza

Factores Categorias Coeficiente Exp(coef) z Pr(>|z|)


Etapa IIB 1.512 4.535 1.399 0.1618
IIIB 2.836 17.054 2.6111 0.00903**

Observamos que la etapa IIB tiene 4 veces ms riego que la etapa (1B1-1B2-IIA) y la etapa IIIB
tiene 17 veces ms riesgo que la etapa (1B1-1B2IIA), con esto podemos deducir que los pacientes que tienen
etapa (1B1-1B2-IIA) tienen un mejor pronstico, que los que no tienen esa etapa. Por ltimo para dar valides
a este modelo veamos la siguiente tabla.

Figura 5: Supuesto del modelo de Cox

Validacin del modelo de Cox

#$ : 5 no depende de t vs #" : 5 = 5

139
Tabla 7: Validacin del supuesto del modelo de Cox
Factores Categorias rho chisq p-valor
Etapa IIB -0.428 2.53 0.112
IIIB -0.423 2.33 0.127

A partir de los resultados de la tabla 7, dado que el p-valor es superior a 0. Tenemos que el supuesto
de Cox se cumple, es decir que el parmetro 5 no depende del tiempo.

4.1.3.- Comparacin del modelo de Cox vs la distribucin weibull

La relacin que hay con los parmetros es la siguiente


Q
5=
_]`a.
y sacndole el exponente a 5 obtenemos el riego

Tabla 8: Comparacin de resultados del modelo de Cox y del modelo paramtrico


Factores Valor Exp(5 Exp(5) (Cox) Z p-valor
Intercepto 5.565 17.82 1.61e-15
Etapa1 -0.926 5.0190 4.535 -3.20 0.55182
Etapa2 -1.625 16.963 17.054 -3.99 0.24225
Scale=0.574.
Observe la funcin de riesgos proporcionales teniendo como supuesto que nuestros datos siguen una
distribucin weibull, genera como variables de riesgos las mismas que el modelo de cox, tambin podemos
observar que el riegos en el modelo de cox y este son muy parecidos. Esto era de esperarse ya que la
distribucin weibull se puede ver como una funcin de riesgos proporcionales.

4.2. Tiempo total de supervivencia

Figura 6: Esquema de estudio hasta la muerte

En la figura 6 se observa la ventana de estudio hasta la muerte donde se tiene que el evento ocurre
cuando el paciente muere debido al cncer el cual es 17% del total de los pacientes como se muestra en la
figura. Se consideran censurados aquellos pacientes, que viven sin cncer o con cncer o si se pierden en el
estudio.

140
4.3. Supervivencia global

Cuando consideramos a T como el tiempo desde el diagnostico hasta la muerte por cncer  = 1,
significa que el paciente ha muerto y  = 0 significa cualquier otro caso. Para este anlisis los factores que
resultaron con diferencias significativas son; proctitis, Hemoglobina, etapa.
Figura 7: Estimacin del Kaplan-Meier de, Hemoglobina, Proctitiss y Etapa

La figura 7 sugiere que la variable etapa puede ser categorizada tomando a 1B1, 1B2, IIA y IIB
como un solo grupo de pacientes como se muestra en la figura 8.

Figura 8: Estimacin del Kaplan-Meier de la Etapa

4.3.1. Test de comparacin de curvas

Los resultados al aplicar los test de Fleming-Harrington se presenta en la tabla 9 en esta tabla
observamos que todos las pruebas resultaron ser altamente significativas al 95% de confianza. Esto resultados
permiten definir adecuadamente las categorizaciones de las covariables en el modelo de Cox.

Tabla 9: Resultados del test de Flaming-Harrington


Factores Categorias Peto-peto Logrank Tarone-Ware
Histologia Adenocarcinoma, Epidermoide 0.0386 0.0559 0.0459
Etapa 1B1, 1B2, IIA ,IIB ,IIIB 0.806 0.82 0.813
Tamao tumor 5]^, > 5]^ 0.0409 0.0467 0.0431
Proctitis Sin proctitis, proctitis grado3 0.012 0.0282 0.0182

141
Los tests de comparacin de curvas de supervivencia sugieren que el factor etapa debe ser
recategorizado tomando a 1B1, 1B2, IIA y IIB como un solo grupo. De esta manera los tests quedan de la
siguiente manera
.
Tabla 10: Resultados del test de Flaming-Harrington
Factores Categorias Peto-peto Logrank Tarone-Ware
Histologia Adenocarcinoma, Epidermoide 0.0386 0.0559 0.0459
Etapa 1B1-1B2-IIA-IIB ,IIIB 0.0003 0.0005 0.0004
Tamao tumor 5]^, > 5]^ 0.0409 0.0467 0.0431
Proctitis Sin proctitis, proctitis grado3 0.012 0.0282 0.0182

4.3.2. Modelo de Cox

Los resultados obtenidos por el modelo de Cox se resumen en la tabla 10, en esta tabla observamos
que las variables altamente significativas son la Etapa, la Proctitis, tomando como grupo basal Etapa=0 (1B1,
1B2, IIA y IIB), Proctitis=0 (sin proctitis).

Tabla 11: Grupo de referencia, Etapa (1B1-1B2-IIA-IIB), Proctitis (Sin proctitis), con el 95% de confianza

Factores Categorias Coeficiente Exp(coef) z Pr(>|z|)


Etapa IIB 1.916 6.791 4.151 0.0.223
Proctitis Proctitis grado 3 1.415 4.118 2.728 0.04585

Estos resultados significan que, los pacientes en una etapa IIIB (etapa=1) tienen 6 veces ms riesgo
de morir que aquellos pacientes en etapa 1B1; 1B2; IIAyIIB (etapa = 0). Todos aquellos pacientes que
presentaron proctitis tienen alrededor de 2 veces ms riesgo de morir que los que no tienen proctitis.

Validacin del supuesto del modelo de Cox

En esta tabla se muestra la validacin del modelo de Cox.

#$ : 5 no depende de t vs #" : 5 = 5

Se puede observar en la tabla 11 que la variable etapa no depende del tiempo ya que su p-valor es
mayor que 0.05, en su caso la variable proctitis tiene cierto comportamiento con el tiempo aun cuando su p-
valor es de 0.0756.
Figura 9: Kaplan-Meier estimate

142
Tabla 12: Validacin del supuesto del modelo de Cox

Factores Categorias rho chisq p-valor


Etapa IIIB -0.196 0.756 0.3846
Proctitis Proctitis grado3 -0.405 3.158 0.0756

4.4.- Comparacin del modelo de Cox vs la distribucin weibull

Tabla 13: Resultados del modelo de Cox y del modelo paramtrico


Factores Valor Exp(5 Exp(5) (Cox) Z p-valor
Intercepto 4.971 17.82 5.11e-71
Proctitis1 -0.799 4.4155 4.118 -3.20 0.068
Etapa1 -1.049 7.0274 6.791 -3.99 0.044
Scale=0.538.

Observe la funcin de riesgos proporcionales teniendo como supuesto que nuestros datos siguen una
distribucin weibull, genera como variables de riesgos las mismas que el modelo de Cox, tambin podemos
observar que el riegos en el modelo de Cox y este son muy parecidos. Esto era de esperarse ya que la
distribucin weibull se puede ver como una funcin de riesgos proporcionales.

5. CONCLUSIONES
En esta cohorte de pacientes y con base en el anlisis del Tiempo libre de enfermedad y el Tiempo
total de supervivencia, podemos llegar a las siguientes conclusiones.

Pacientes con tumor en etapa IIIB tienen peor pronstico de morir, ya que ellos tienen 6 veces ms
riesgo de morir y 17 veces ms riegos de recaer que en cualquier otra etapa, los pacientes que tienen una etapa
IIB tienen ms de 4 veces ms riego de recaer

Pacientes que reciben tratamiento con braquioterapia LDR CS 137 tienen 3 veces ms riesgo de
morir que aquellos que reciben un tratamiento con braquioterapia HDR Ir 192.

Pacientes que sufren una proctitis como consecuencia del tratamiento tienen ms de 2 veces riesgo de
morir, que aquellos que no presentan proctitis.

La etapa del tumor y los pacientes que son afectados por proctitis causada por los tratamientos de
radiacin que se le aplican, son variables que contribuyen a que a una recurrencia o muerte. Esto sugiere ser
ms cuidadoso en la aplicacin del tratamiento para poder mitigar los efectos secundarios.

Los pacientes con mejor pronsticos son aquellos con etapa 1B1, 1B2, IIA y IIB; que reciben
tratamiento con braquioterapia HDR Ir 192 y que no presentan proctitis.

143
REFERENCIAS

[1] Mujeres y hombres en Mxico 2005 y 2009. www.inegi.org.mx/prod.../mujeresyhombres/2009.


[2] Salud: Informacin para la rendicin de cuentas, 2001-2005.www.salud.gob.mx/unidades/evaluacion/
[3] Salud: Rendicin de cuentas, 2009. www.dged.salud.gob.mx.
[4] HIDALGO-MARTNEZ A. C. (2006): El cncer crvico-uterino, su impacto en Mxico y el porqu no
funciona el programa nacional de deteccin oportuna. Revista Biomed., 17,81-84.
[5] PEA, E., STRAWDERMAN, R. y HOLLANDER, M. (2001): Nonparametric estimation with recurrent
event date. JASA, 99, 1299-1315.
[6] KAPLAN, E. L. y MEIER, P. (1958): Nonparametric estimation from incomplete observations, Journal
of the American Statistical Association, 53, 457-481.
[7] COX, D. R. (1972): Regression models and life tables, Journal of the Royal Statistical Society, Series
B, 34, 187-220.
[8] MILLER, R. G. (1981): Survival Analysis. Wiley Classics Library, N. York.
[9] KARLA, E. M. (2010): The relevance of fatalism in the study of Latinas cancer screening behavior: A
systematic review of the literature. Int. J. Behav. Med. 18, 310318.

144
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 145-154

Vt DG
DG
APLICACIN DE LA ESTRATEGIA DE RESPUESTA
ALEATORIA Y TCNICAS DE PREGUNTAS INDIRECTAS EN
ENCUESTAS EDUCATIVAS
B. Cobo
Departamento de Estadstica e Investigacin Operativa, Universidad de Granada, Espaa.

ABSTRACT
The randomized response technique and indirect questioning techniques aimed at maintaining the privacy of respondents. When
a survey is conducted, interest is often centered on sensitive or confidential aspects to the interviewees, so that many of the
surveyees will not answer truthfully or simply refuse to answer. Using this new technique produces more accurate estimates
compared to direct response. To show this technique, a survey to students in the University of Granada is conducted by using the
U model, and the formulas are implemented in R to conclude the results.

KEY WORDS: Randomized response, Sampling, Confidentiality

RESUMEN
La respuesta aleatoria y las tcnicas de preguntas indirectas tienen como objetivo mantener la privacidad de los encuestados. A
la hora de realizar encuestas, el inters frecuentemente se centra en aspectos sensibles o confidenciales para las personas
entrevistadas, por lo que muchas de ellas no contestarn verazmente o simplemente se negarn a responder. Mediante esta nueva
tcnica se obtienen estimadores que son ms precisos en comparacin a respuesta directa. Para mostrar esta tcnica, se realiza
una encuesta al alumnado de la Universidad de Granada mediante el modelo U, implementando en R las frmulas indicadas para
concluir los resultados.

1. INTRODUCCIN
Una encuesta es un procedimiento de investigacin que se basa en interrogar a una muestra de
individuos. Para que los resultados obtenidos sean crebles es necesario, entre otros aspectos, que el modo de
encuestacin tenga suficiente calidad o validez, lo que exige asumir que las respuestas de los individuos son
ciertas adems de otros requisitos.

En estudios de encuestas por muestreo el inters frecuentemente se centra en aspectos sensibles o


confidenciales para las personas entrevistadas. Debido a todo esto el problema tpico que surge consiste en la
deseabilidad social, la cual se define como la tendencia de las personas encuestadas a responder en funcin de
lo que es aceptable socialmente. Por tal motivo, muchos entrevistados rehsan a participar en la encuesta o
proporcionan respuestas falsas o respuestas condicionadas, ocasionando que la precisin y confiabilidad de
los estimadores se alteren de una manera importante.

La tcnica de Respuestas Aleatorizadas (RA) introducida por Warner (Warner, 1965) es una posible
solucin para la proteccin del anonimato del entrevistado y es introducida para reducir el riesgo de evasin o
no respuesta de preguntas sensitivas. Consiste en la utilizacin de un mecanismo aleatorio por medio del cual
se selecciona una de dos preguntas complementarias: pertenece al grupo con la caracterstica A? o
pertenece al grupo que no tiene la caracterstica A?, donde A es la caracterstica sensible de inters. El
entrevistado contestar s o no y el entrevistador no tiene la posibilidad de saber qu pregunta contest el
entrevistado, protegiendo as la confidencialidad del mismo.

Supuestos de la tcnica de Respuestas Aleatorizadas:


Los eventos son independientes del valor de la variable verdadera.
El nmero de personas entrevistadas debe ser grande (ley de los grandes nmeros).
Las personas entrevistadas entiendan perfectamente el procedimiento y lo sigan
correctamente.

145
2. MTODOS

Modelo W (Warner, 1965)

Este mtodo de respuesta aleatorizada fue desarrollado por Stanley Warner en 1965. l mostr que es
posible estimar la proporcin sin que el encuestado revele su postura personal respecto a la pregunta. El
objetivo es alentar a las personas para que den respuestas veraces conservando completamente la

 (si tiene la caracterstica de inters) o  (si no la tiene). Sea  la proporcin de personas con cierta
confidencialidad de sus respuestas. Cada persona de la poblacin pertenece a uno de los dos grupos disjuntos,

caracterstica de inters (grupo ). El objetivo es estimar  sin preguntar a cada persona directamente si
pertenece o no al grupo . A continuacin se presenta el procedimiento propuesto por Warner:
Se construye un mazo de cartas, pero una fraccin de ellas  ( 1/2) se marca con la letra  (grupo
) y la fraccin restante, 1 , con las letras faltantes del abecedario (grupo ).
Se selecciona una muestra aleatoria simple o estratificada de individuos con reemplazo de tamao ,
de la poblacin ().
A cada individuo que va a responder se le ensea el mazo de cartas para que vea que las cartas estn
marcadas con las letras del abecedario.
Se baraja adecuadamente el mazo de cartas y se le pide al individuo que seleccione una carta, pero
que no nos diga con que letra est marcada.
A continuacin se le explica que se le va a hacer una pregunta y que la responda con s o no,
pero resaltando que ponga mucha atencin a la pregunta.
Responda a la pregunta Tienes la caracterstica sensitiva?, si la carta que obtuvo est marcada con la
letra , por el contrario responda a la pregunta No tienes la caracterstica sensitiva?, si obtuvo cualquier
otra letra del abecedario.
Se tiene que hacer nfasis en que debe de responder con la verdad a las preguntas y que solamente
tiene que responder una de ellas dependiendo de la letra que obtuvo.
La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la siguiente

Este procedimiento se aplica a todos los individuos.


persona sin que el entrevistador la vea.

Con las respuestas de s y no se hacen las estimaciones correspondientes de los parmetros


propuestos.

moneda, una urna, etc., pero se debe tener claro cul es su equivalente al grupo  y su respectiva
Es importante resaltar que el mecanismo de aleatorizacin puede ser una baraja, un dado, una

probabilidad.

Este mtodo requiere generalmente un tamao de muestra muy grande para obtener una varianza del

origina poca informacin sobre la proporcin poblacional, .


estimador razonablemente pequea. Se necesita un tamao de muestra grande debido a que cada respuesta

Definimos la variable de inters como:

 = 1 si la persona i-sima tiene la caracterstica deseada (grupo )


 = 0 si la persona i-sima no tiene la caracterstica deseada (grupo )

El objetivo es estimar adecuadamente la proporcin  =  , ( = 


  ) de individuos que
pertenecen al grupo .

Definimos una variable que toma valores  = 1 si la respuesta aleatoria de Warner produce una
coincidencia entre el tipo de carta y  , es decir, la caracterstica de la persona i-sima y  = 0 en otro caso.

Genricamente escribimos  ,  , para la esperanza y la varianza con respecto a la aleatorizacin.


Para la tcnica de Respuesta Aleatorizada de Warner, se deduce que

 ( ) =  + (1 )(1  ) = (1 ) + (2 1) ,

146
 (1 )
que conduce a
 =
2 1
y estimaremos  por

 = "

 !
Adems, puesto que # =  y # =  ,
 ( ) =  ( )$1  ( )% = (1 ),

 ( )
y por lo tanto
 =  ( ) =
(2 1)#

2.1. Generalizacin a un diseo muestral general

De esta poblacin &, una muestra ' de personas es seleccionada con una probabilidad ( (') de
acuerdo a un diseo muestral ). Para este diseo ), la probabilidad de inclusin del individuo * es + =
! ( ('), * & y para un par distinto de individuos *, . (* .) es +/ = !,/ ( ('). Restringimos los
diseos para que + 0 0 * & y +/ 0 0 *, . &, * ..

Por lo tanto, estimaremos  mediante

34 5(56)
1  1 1 1  1
" =  = 2 7= 8 (1 )  9,
#65
 +  +  2 1 + +
 !  !  !  !


Entonces, sabiendo que
(") = ( (:) + 
+
y que la varianza de Horvitz y Thompson es
  
 / #
#
( (:) =   ; < $+ +/ +/ % +  >
+ +/ +
= / 
tenemos
   
 / # 1
#
(") = ? $+ +/ +/ % ; < +  > + @6  A / #
+ +/ + +
= /  
y
!/  / # ! !
#
B (") = ? $+ +/ +/ % ; < +  > + @6  A / #
+/ + +/ + + +
= /

( 1)
En el caso de m.a.s. las probabilidades de inclusin de primer y segundo orden son:
+ = , +/ =
 ( 1)
Por lo tanto, estimaremos  mediante
1
" =  

 !


Por lo que la varianza es

(") = C( (:) +   D / #



 !

147
2.2. Otros modelos

Modelo U (Greenberg et al., 1969): Al igual que el modelo W tiene un mecanismo aleatorio que
selecciona una de dos preguntas, pero mientras una pregunta corresponde al aspecto sensible, la segunda
pregunta no tiene nada que ver, es sobre algn otro aspecto inocuo, es decir, reemplazamos la pregunta
sensitiva complementaria por una inocua, que va a producir una respuesta afirmativa con probabilidad
conocida.

Modelo C (Soberanis-Cruz et al., 2008): Una forma de mejorar la precisin de un estimador es

considera la introduccin de una variable inocua no relacionada con la variable sensitiva , en el modelo C la
introducir informacin auxiliar correlacionada con la variable de inters. A diferencia del modelo U, que

variable inocua est correlacionada con , pero no afecta a la sensibilidad del individuo, mantenindose as la
confidencialidad del entrevistado. En este nuevo enfoque se aprovecha la informacin contenida en la
correlacin de la variable sensible con la variable inocua para tener una mejor estimacin en trminos de
sesgo y varianza, bajo un esquema de muestreo en poblaciones finitas.

Modelo H (Horvitz et al., 1967): Es una alternativa al esquema de Warner que permite una mayor
proteccin del anonimato del entrevistado sin utilizar la pregunta complementaria. Consiste en que cada

instruccin que dice s y (3) una instruccin que dice no, con probabilidades  , # , E y  + # + E = 1.
elemento de la muestra selecciona aleatoriamente una de tres proposiciones: (1) la sensitiva, (2) una

Modelo D (Devore, 1977): Esta propuesta es anloga al modelo U, con una diferencia bsica, la
pertenencia al grupo inocuo se establece con probabilidad uno.

Modelo M (Tcnica de respuesta aleatoria de Mangat y Singh) (Mangat y Singh, 1990): Esta

aleatorio proporciona respuestas independientes con dos componentes aleatorias.


tcnica de respuesta aleatorizada es una ligera modificacin de la tcnica de Warner ya que el mecanismo

Adems de estos modelos podemos destacar algunos ms, como por ejemplo el modelo de pregunta
no relacionada (Horvitz et al. 1967, seguido por Greenberg et al. 1969), la tcnica de respuesta aleatoria de
Kuk (Kuk, 1990), la Tcnica de respuesta aleatoria de Christofides (Christofides, 2003), el esquema de
respuesta forzada, el esquema de Mangat (Mangat, 1992), el esquema de Mangat, Singh, y Singh (Mangat et
al. 1992), el esquema de Singh y Joarder (Singh y Joarder 1997), el esquema de Dalenius y Vitale (Dalenius y
Vitale 1974), el esquema modificado por Pal de Takahasi y Sakasegawa (Takahasi y Sakasegawa 1977), la
tcnica de respuesta aleatoria de Liu, Chow, y Mosley (Liu et al. 1975).

Otros autores importantes que han trabajado en estas tcnicas son Arnab (1990, 2004), Bouza
(2009), Chaudhuri (1987, 2002), Kim (2005, 2006), Nayak (1994), Pal (2002, 2007,2009), Scheers (1992),
Singh (1993, 1997, 2000), Tracy (1996),

3. APLICACIN A UNA ENCUESTA EDUCATIVA

Para la aplicacin de la estrategia de respuesta aleatoria y tcnicas de preguntas indirectas,


concretamente para el modelo U, se ha realizado una encuesta a una muestra representativa de la poblacin de
estudiantes de la Universidad de Granada. Hay que notar que el muestreo se hizo mediante muestreo por
conglomerados.

Diseo de la encuesta

En este caso estimaremos  mediante


Formato de Encuesta con el modelo U

1 
"= 
 +
 !
siendo

148
 (1 )F
 =

En este modelo es necesario un cuestionario adicional con las siguientes caractersticas:
Las preguntas no deben de ser sensibles.
No deben estar relacionadas con el tema de la pregunta sensible.
Para cada una de las preguntas que miden variables cualitativas, las respuestas
deben tener una probabilidad conocida.

Encuesta annima
Marcar con un X su respuesta
Sexo Femenino Masculino
Titulacin
Curso 1 2 3 4 5

CARA Has copiado alguna vez en un examen?


S NO
CRUZ Naciste el mes de julio?

CARA Te has peleado con algn profesor?


S NO
CRUZ Tu DNI termina en nmero 2?

CARA Has sufrido acoso?


S NO
CRUZ Naciste del 1 al 20 del mes?

CARA Has acosado alguna vez a alguien?


S NO
CRUZ Tu DNI termina en nmero 5?

Has consumido drogas en las instalaciones de la


CARA
universidad? S NO
CRUZ Naciste del 15 al 25 del mes?

Has mantenido relaciones sexuales en las instalaciones de


CARA
la universidad? S NO
CRUZ Naciste el mes de abril?

Para la estimacin de resultados, ser necesario tomar en cuenta las probabilidades del
cuestionario de preguntas no sensibles:

# Pregunta Probabilidad de respuesta


1 Naciste el mes de julio? 1/12
2 Tu DNI termina en nmero 2? 1/10
3 Naciste del 1 al 20 del mes? 20/30
4 Tu DNI termina en nmero 5? 1/10
5 Naciste del 15 al 25 del mes? 10/30
6 Naciste el mes de abril? 1/12

149
Descripcin de la tcnica del modelo U

Con la finalidad de darle ms confianza al encuestado, se les entreg una cartilla de


instrucciones:
Paso 1: Lanza una moneda y no le muestres a NADIE el lado obtenido
Paso 2: La pregunta que contestars en cada juego, depender de que obtengas CARA o
CRUZ:
Si es cara, contesta a la pregunta CARA
Si es cruz, contesta a la pregunta CRUZ
Este procedimiento lo repetirs para cada juego

El encuestado nicamente tuvo que poner en la hoja de preguntas un aspa en la respuesta


que elega y despus de haber terminado de llenar los espacios con las respuestas, se depositaba la
ficha de la encuesta en una bolsa. En el desarrollo de la tcnica de respuesta aleatorizada es necesario
utilizar un proceso aleatorio que nos ayude a aleatorizar las respuestas.

El procedimiento que se eligi es lanzar una moneda, un lado cara y otro cruz, que va a dar
lugar a un juego fcil de ejecutar.

La anterior forma de distribucin nos permite conocer fcilmente la probabilidad de que


cualquier lado sea escogido al azar.

Las preguntas sensibles estn precedidas de la palabra Cara, y las no sensibles de la palabra
Cruz. Cuando se aplica la encuesta a cada estudiante de la muestra, se le entrega la moneda. Despus
se le pide que la lance al azar. Si el lado que obtiene es de cara, las preguntas que tendr que
contestar sern las sensibles. Por otra parte si el lado que obtiene es cruz, las preguntas que tendr
que contestar sern las no sensibles.
De esta forma conocemos la probabilidad de que nos conteste a las preguntas sensibles, que
es 1/2, y como consecuencia, la probabilidad de que nos conteste las preguntas no sensibles es de 1/2.
Con esto garantizamos la total aleatoriedad de respuesta.

3.1. Resultados

Los resultados que se obtuvieron despus de la aplicacin de la encuesta son sumamente importantes,
ya que a partir de stos podemos hacer inferencias, comparaciones y contrastes.

Estimacin por medio del modelo U

Para la estimacin de las proporciones para las variables cualitativas en la Tcnica de Respuesta Aleatoria, se
realizaron los siguientes pasos:
Por medio del programa SPSS, podemos saber fcil y rpidamente el nmero de estudiantes de la
muestra que hay por sexos y los que respondieron afirmativamente a cada una de las preguntas.
Sexo
La muestra consta de 420 alumnos. Mujeres son 260, hombres 143 y no sabe, no contesta 17.
Pregunta 1
Se observa que del total de 420 alumnos, 196 (46.7%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 223 (53.1%) que contestaron negativamente.
Pregunta 2
Se observa que del total de 420 alumnos, 92 (21.9%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 327 (77.9%) que contestaron negativamente.
Pregunta 3
Se observa que del total de 420 alumnos, 169 (40.2%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 249 (59.3%) que contestaron negativamente.
Pregunta 4
Se observa que del total de 420 alumnos, 44 (10.5%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 373 (88.8%) que contestaron negativamente.

150
Pregunta 5
Se observa que del total de 420 alumnos, 88 (21.0%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 331 (78.8%) que contestaron negativamente.
Pregunta 6
Se observa que del total de 420 alumnos, 29 (6.9%) de los estudiantes contestaron afirmativamente a
la pregunta frente a 390 (92.9%) que contestaron negativamente.

Se asignaron los datos conocidos de las probabilidades de las preguntas no sensibles, as como los
datos obtenidos del programa para cada una de las preguntas sensibles como se presentan en la tabla 1.

Tamao de la muestra = 420 estudiantes, Tamao de la poblacin = 53376


Nmero de Respuestas s en Probabilidad de la
p 1-p
pregunta la muestra caracterstica no sensitiva
1 196 0.5 1-0.5=0.5 1/12=0.0833
2 92 0.5 0.5 1/10=0.1
3 169 0.5 0.5 20/30=0.6666
4 44 0.5 0.5 0.1
5 88 0.5 0.5 10/30=0.3333
6 29 0.5 0.5 0.0833
Tabla1. Datos obtenidos de la encuesta y probabilidades conocidas

El clculo de la proporcin y la estimacin de la caracterstica sensible se presenta en la Tabla 2, para


la muestra total utilizando la frmula explicada en el modelo U.
Al tener las proporciones estimadas a partir de la muestra, se procede a calcular las varianzas de los
estimadores de las preguntas sensibles.

Nmero de Estimacin de la
Proporcin Varianza
pregunta caracterstica sensible
1 0.4666667 0.85 4.558853e-05
2 0.2190476 0.3380952 2.021597e-05
3 0.402381 0.1380952 2.584242e-05
4 0.1047619 0.1095238 9.08202e-06
5 0.2095238 0.08571429 1.516644e-05
6 0.06904762 0.0547619 5.858409e-06
Tabla 2. Estimacin de las proporciones y varianzas definitivas

Teniendo en cuenta las preguntas sensibles


Pregunta 1: Has copiado alguna vez en un examen?
Pregunta 2: Te has peleado con algn profesor?
Pregunta 3: Has sufrido acoso?
Pregunta 4: Has acosado alguna vez a alguien?
Pregunta 5: Has consumido drogas en las instalaciones de la universidad?
Pregunta 6: Has mantenido relaciones sexuales en las instalaciones de la universidad?

A la vista de las tablas vemos que las proporciones, las cuales indican la probabilidad de contestar
afirmativamente a la pregunta, sin tener en cuenta si es sensible o no, de algunas preguntas son relativamente
bajas, lo que nos dice que esas preguntas son consideradas por los encuestados mucho ms sensibles que las
dems, como por ejemplo las preguntas 6 y 4. Pero tambin es importante mencionar que en las preguntas 1 y
3 se tienen proporciones altas, lo cual significa que esas preguntas que se consideraban sensibles, en realidad
para los estudiantes no lo son tanto.

En cuanto a la estimacin de la caracterstica sensible, sta nos indica la probabilidad de contestar


afirmativamente ante una pregunta sensible. Vemos como por ejemplo en la pregunta 1 la probabilidad de
responder S aumenta casi al doble, tambin aumenta en las preguntas 2 y 4, pero en menor medida, mientras
que en las preguntas 3 y 5 se reduce casi a la mitad. La probabilidad de la pregunta 6 apenas vara.

151
Como podemos ver las varianzas de todas las preguntas son muy pequeas, por lo que la estimacin
de la caracterstica sensible es bastante precisa.

Si en lugar de hacerlo con el total de la poblacin, estratifico mediante la variable sexo, los
resultados seran:

Estrato: Mujer
Tamao de la muestra = 260 estudiantes; Tamao de la poblacin = 30644
Nmero Respuestas s Probabilidad de Estimacin de la
de en la p 1-p la caracterstica Proporcin caracterstica Varianza
pregunta muestra no sensitiva sensible
1 120 0.5 1-0.5=0.5 1/12=0.0833 0.4615385 0.8397436 7.8514e-05
2 55 0.5 0.5 1/10=0.1 0.2115385 0.3230769 3.393813e-05
3 100 0.5 0.5 20/30=0.6666 0.3846154 0.1025641 4.462607e-05
4 20 0.5 0.5 0.1 0.07692308 0.05384615 1.109516e-05
5 54 0.5 0.5 10/30=0.3333 0.2076923 0.08205128 2.621782e-05
6 16 0.5 0.5 0.0833 0.06153846 0.03974359 8.897323e-06

Estrato: Hombre
Tamao de la muestra = 143 estudiantes; Tamao de la poblacin = 22732
Nmero Respuestas s Probabilidad de Estimacin de la
de en la p 1-p la caracterstica Proporcin caracterstica Varianza
pregunta muestra no sensitiva sensible
1 65 0.5 1-0.5=0.5 1/12=0.0833 0.4545455 0.8257576 0.0001042005
2 34 0.5 0.5 1/10=0.1 0.2377622 0.3755245 5.174924e-05
3 64 0.5 0.5 20/30=0.6666 0.4475524 0.2284382 6.20042e-05
4 18 0.5 0.5 0.1 0.1258741 0.1517483 2.615456e-05
5 29 0.5 0.5 10/30=0.3333 0.2027972 0.07226107 3.462528e-05
6 10 0.5 0.5 0.0833 0.06993007 0.05652681 1.396291e-05

Las preguntas ms sensibles siguen siendo la 6 y la 4, pero esta vez al estratificar por sexos, vemos
que para las mujeres son ms sensibles que para los hombres. Las preguntas 1 y 3 vuelven a tener las
proporciones ms altas.

Podemos notar como la pregunta 4 tiene una proporcin mucho mayor en los hombres, como
apreciamos a simple vista.

En cuanto a la estimacin de la caracterstica sensible las preguntas 1 y 5 tienen valores semejantes


en ambos sexos, siendo mayores en las mujeres, sin embargo en las preguntas 2, 3, 4 y 6 la probabilidad de
contestar afirmativamente en los hombres es superior a la de las mujeres, siendo en la pregunta 4 un aumento
muy notable, es decir, para las mujeres es mucho ms sensible que para los hombres.

Como podemos ver las varianzas de todas las preguntas son muy pequeas en ambos sexos, por lo
que la estimacin de la caracterstica sensible es bastante precisa.

Tras realizar este ejemplo vemos que existen ventajas y desventajas de la tcnica de Respuestas
Aleatorizadas
Ventajas:
Aumenta la probabilidad de contestar la verdad respecto a una pregunta directa.
Mayor ndice de respuesta.
Desventajas:
Aumento en la complejidad de la pregunta.
Dificultad en entender el mtodo de aleatorizacin.
Requiere de muestras de tamaos grandes.

152
Agradecimientos: Este trabajo ha sido financiado por el Vicerrectorado de Poltica Cientfica e Investigacin,
a travs de Ayudas de Iniciacin a la Investigacin.

REFERENCIAS

[1] ARNAB, R. (1990): On commutativity of design and model expectations in randomized response surveys.
Comm. Stat. Theo. Math. 19, 3751-3757.
[2] ARNAB, R. (2004): Optional randomized response techniques for complex designs. Biom. J. 46, 114-
124.
[3] BOUZA, C.N. (2009): Ranked set sampling and randomized response procedures for estimating the mean
of a sensitive quantitative character. Metrika, DOI. 10. 1007 / s00 / 84 008 0191 6, 267-277.
[4] CHAUDHURI, A. (1987): Randomize response surveys of finite populations: A unified approach with
quantitative data. J. Stat. Plan. Inf. 15, 157-165.
[5] CHAUDHURI, A. (2002): Estimating sensitive proportions from randomized responses in unequal
probability sampling. CSAB 52, 315-322.
[6] CHAUDHURI, A. and ADHIKARY, A.K. (1981): On sampling strategies with RR trials and their
properties and relative efficiencies. Tech. Ref. ASC / 81 / 5, Indian Statistical Institute, Calcutta.
[7] CHAUDHURI, A. and DIHIDAR, K. (2009): Estimating means of stigmatizing qualitative and
quantitative variables from discretionary responses randomized or direct. Sankhya B 71, 123-136.
[8] CHAUDHURI, A. and MUKERJEE, R. (1985): Optionally randomized responses techniques CSAB 34,
225-229.
[9] CHAUDHURI, A. and SAHA, A. (2005a): On relative efficiencies of optional versus compulsory
randomization i responses: A simulation-based numerical study covering three RR schemes. Pak. J. Stat.
21(1), 87-98.
[10] CHAUDHURI, A. and STENGER, H. (1992): Theory and Methods of Survey Sampling. Marcel Dekker,
Inc. NY.
[11] CHAUDHURI, A. and VOS, J.W.E. (1988): Unified theory and strategies of survey sampling. North
Holland, Amsterdam.
[12] CHRISTOFIDES, T.C. (2003): A generalized randomized response technique. Metrika 57, 195-200.
[13] DALENIUS, T. and VITALE, R.A. (1974): A New RR Design for Estimating the Mean of a
Distribution. Technical Report 78. Brown University, Providence, RI.
[14] DEVORE, J.L. (1977): A note on the randomized response technique. Communications in Statistics
Theory and Methods 6: 1525-1529.
[15] GREENBERG, B.G., ABUL-ELA, A.-L., SIMMONS, W.R., and HORVITZ, D.G. (1969): The
unrelated question RR model: Theoretical framework. JASA 64, 520-539.
[16] HORVITZ, D.G., SHAH, B.V., and SIMMONS, W.R. (1967): The unrelated question RR model. Proc.
Social Statist. Sec. ASA, 65-72.
[17] KIM, J.M. and ELAM, M.E. (2005): A two-stage stratified Warners randomized response model using
optimal allocation. Metrika 61, 1-7.
[18] KIM, J. M., TEBBS, J., and AN, S.W. (2006): Extensions of Mangats randomized response model. J.
Stat. Plan. Inf. 136(4), 1154-1567.
[19] KUK, A.Y.C. (1990): Asking sensitive questions indirectly. Biometrika 77(2), 436-438.
[20] LIU, P.T., CHOW, L.P., and MOSLEY, W.H. (1975): Use of RR technique with a new randomizing
device. JASA 70, 329-332.
[21] MANGAT, N.S. (1992): Two stage randomized response sampling procedure using unrelated question.
JISAS 44(1), 82-88.
[22] MANGAT, N.S. and SINGH, R. (1990): An alternative randomized response procedure. Biometrika
77(2), 439-442.
[23] MANGAT, N.S., SINGH, R., and SINGH, S. (1992): An improved unrelated question randomized
response strategies. CSAB 42, 227-281.
[24] NAYAK, T.K. (1994): On randomized response surveys for estimating a proportion. Comm. Statist.
Theory Method, 23(3), 3303-3321.
[25] PAL, S. (2002): Contributions to emerging techniques in survey sampling. Unpublished Ph. D. thesis,
Indian Statistical Institute, Kolkata, India.

153
[26] PAL, S. (2007b): Estimation the proportion of people bearing a sensitive issue with an option to item
count lists and randomized response. Statist. Trans. 8(2), 301-310.
[27] PAL, S. (2009): Extending Takahasi-Sakasegawas indirect response technique to cover sensitive
surveys in unequal probability sampling permitting direct answers. Unpublished.

counseling and development, Meas. Eval. Couns. & Dev. 25, 27-41.
[28] SCHEERS, N.J. (1992): A review of randomized response techniques in measurement and evaluation in

[29] SINGH, R., MANGAT, N.S., and SINGH, S. (1993). A mail survey design for sensitive character
without using randomization device. Commun. Statist. Theory Method 22(9), 2661-2668.
[30] SINGH, S. and JOARDER, A.H. (1997): Unknown repeated trials in randomized response sampling.
JISAS 50, 70-74.
[31] SINGH, S., SINGH, R., and MANGAT, N. S. (2000): Some alternative strategies to Moors model.
JASA 66, 627-629.
[32] SOBERANIS-CRUZ, V., RAMREZ-VALDERDE, G., PREZ-ELIZALDE, S., and GONZLEZ-
COSSIO, F. (2008): Muestreo de respuestas aleatorizadas en poblaciones finitas: Un enfoque unificador.
Agrociencia Vol. 42, Nm. 5, julio-agosto, pp. 537-549.
[33] TAKAHASI, K. and SAKASEGAWA, H. (1977): An RR technique without use of any randomizing
device. Ann. Inst. Stat. Math 29, 1-8.
[34] TRACY, D. and MANGAT, N.S. (1996): Some development in randomized response sampling during
the last decades: A follow up of a review by Chaudhuri and Mukherjee. JASS 4(2/3), 147-158.
[35] WARNER, S.L. (1965): RR: A survey technique for eliminating evasive answer bias. JASA 60, 63-69.

154

View publication stats

You might also like