Professional Documents
Culture Documents
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/260290844
CITATIONS READS
0 881
1 author:
Carlos N. Bouza
University of Havana
286 PUBLICATIONS 253 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Spatial statistic and extreme value applied to public health issues, La Habana (Cuba) View project
All content following this page was uploaded by Carlos N. Bouza on 06 November 2014.
Editores:
Xw|xM
Vt aA Ut [xxt
] Y| Ztvt ewzx
`tt wx `t exwt Ztvt
Tz ft|tz `x
Universidad de la Habana (Cuba)
Universidad Jurez Autnoma de Tabasco (Mxico)
Universidad de Granada (Espaa)
Editores:
ISBN: 84-616-7997-0
Este libro ha sido subvencionado parcialmente por los proyectos MTM2009-1055 y por
RIDECA.
ndice de Captulos
CAPITULOS AUTORES TTULO PGINAS
1 Pedreira. L., C. S. Lerma, A. SOBRE EL USO DE UN ALGORITMO 1-13
Villamil Serrano, G. Bouza HBRIDO PARA LA REGULACIN
Allendey S. Allende Alonso PTIMA DE LOS SEMFOROS DE UN
CRUCE EN A CORUA Y SU IMPACTO
MEDIOAMBIENTAL
2 Vaquer, Fernndez, A. Morales MEDIDAS DE RIESGO CLSICAS Y 14-25
Martnez, G. M. Casas Cardoso, BORROSAS. UNA APLICACIN REAL
J. L. Morales Martnez y L.
Denoda Prez
3 Montero Alonso, M. A. , J. A. ESTIMACIN DE LA EXACTITUD DE 26-33
Roldn Nofuentes UN TEST BINARIO EN PRESENCIA DE
DATOS FALTANTES IGNORABLES
4 Rigonatti, A., , J.A. Viana APPLICATION OF THE MIXED 34-45
Rodrigues, CHINESE POSTMAN PROBLEM
P. L. Fernandes Batista, M. J. MODELS AND EXPERIENCES WITH
Negreiros Gomes URBAN GARBAGE COLLECTION: CASE
STUDY IN JARDIM EUROPA/SP
5 Boukichou-Abdelkader, N., REGRESIN NO PARAMTRICA: 46-52
M.. Montero-Alonso; A. ESTIMADOR POLINOMIAL LOCAL
Muoz-Garca y P. N. Canrio
6 Al-Omari, A. I., C. N. Bouza, STUDIES OF CANCER PROBLEMS 53-66
A. Santiago y J. M. Sautto USING RANKED SET SAMPLES
7 Roldn Nofuentes, J. A., S. CONFIDENCE INTERVALS AND 67-75
Bouh ould Sidaty HYPOTHESIS TESTS FOR THE
PREDICTIVE VALUES OF BINARY
DIAGNOSTIC TESTS: A REVIEW
8 Alonso, L., C. N. Bouza y D. ESTIMATORS FOR EVALUATING THE 76-83
Covarrubias EXPLOITABILITY OF SILVESTER
MAGUEY PAPALOTE (AGAVE
CUPREATA TREL ET BERGER) WITH
MISSING OBSERVATIONS
9 Romn-Montoya Y. y A.M. INCIDENCIA DE LAS DESIGUALDADES 84-95
Lara-Porras SOCIALES EN LOS NDICES DE
MORTALIDAD INFANTIL
10 Daz, L., V. Sistachs, D. ANLISIS DE FACTORES DE RIESGO 96-107
Covarrubias, N. I. Hernndez, POR TRASTORNOS
C. M. Snchez, V. M. Cruz HIPERTENSIVOS Y HEMORRAGIA
DURANTE EL EMBARAZO EN EL
ESTADO DE GUERRERO MXICO
11 vila Palacios, M:, L. R. SISTEMA EXPERTO BASADO EN 108-117
Marcial Castillo, M. Rivera REGLAS PARA LA DETECCIN DE
Martnez, L. Sandoval Sols, J. CNCER
Gmez Mandujano, J. vila
Palacios, L. Njera Masso y L.
vila Palacios
12 Daz, G. L., V. Sistachs Vega, SELECCIN DE MODELOS BAJO EL 118-127
D. Covarrubias y N. I. ENFOQUE BAYESIANO: UNA
Hernndez APLICACIN AL ESTADO COGNITIVO
DE LOS ADULTOS MAYORES EN EL G.
ESTADO DE GUERRERO.
i
13 L. H. Solana-Villanueva, L.s FACTORES PRONSTICOS DE UNA MUESTRA 128-144
Lpez-Segovia, D. Romero y J. DE PACIENTES
F. Garca Rodrguez CON CNCER DE CRVIX EN HOSPITAL JUAN
GRAHAM (HJG)
TABASCO, MXICO.
14 Cobo, B. APLICACIN DE LA ESTRATEGIA DE 145-154
RESPUESTA ALEATORIA Y TCNICAS DE
PREGUNTAS INDIRECTAS EN ENCUESTAS
EDUCATIVAS
ii
NDICE DE AUTORES
Allende Alonso, S. sira@matcom.uh.cu
Dpto. Matemtica Aplicada, Universidad de La
Habana, Cuba
Al-Omari, A. I. alomari_amer@yahoo.com
Al al-Bayt University, Faculty of Science, Department
of Mathematics, Jordan
Alonso, L. alonso_lore@yahoo.com.mx
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Chilpancingo , Mxico
vila Palacios, M. chik_ska858@hotmail.com
Benemrita Universidad Autnoma de Puebla, Puebla,
Mxico
Boukichou-Abdelkader,N. nisa83_1@hotmail.com
Centro de Investigacin Ceiis - IdiPAZ. Hospital
Universitario La Paz. Madrid. Espaa.
Bouza Allende, G. gema@matcom.uh.cu
Dpto. Matemtica Aplicada, Universidad de La
Habana, Cuba
Bouza, C.N. bouza@matcom.uh.cu
Universidad de La Habana, Cuba.
Canrio , P. N. pnuno@estgp.pt,
C3i, Polytechnic Institute of Portalegre, P -7300 -110,
Portalegre, Portugal
Casas Cardoso, G. M. gcasas@uclv.edu.cu
Universidad Central "Marta Abreu" de Las Villas
Santa Clara, Cuba
Cobo, B. bcobo@ugr.es
Departamento de Estadstica e Investigacin Operativa,
Universidad de Granada, Espaa
Covarrubias, D. dcova@uagro.mx
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Chilpancingo , Mxico
Cruz, V. M. carmencruz2@hotmail.com
Unidad Acadmica de Enfermera no. 1, Universidad
Autnoma de Guerrero, Chilpancingo , Mxico
Denoda Prez, L. ldenoda@uclv.edu.cu
Universidad Central "Marta Abreu" de Las Villas,
Santa Clara, Cuba
Daz, G. L lucio@uagro.es
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Chilpancingo, Mxico.
Fernandes Batista, P.L.
Universidade Estadual do Cear (UECE)
Hernndez, N. I. imeldash@yahoo.com.mx
Unidad Acadmica de Enfermera no. 1, Universidad
Autnoma de Guerrero, Mxico
Jos Flix Garca Rodrguez jfgr55@hotmail.com
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico
Lara-Porras, A. M. alara@ugr.es
Departamento de Estadstica e Investigacin Operativa
Universidad de Granada, Espaa
Lerma, C. S. colito@udc.es
iii
Dpto. Economa Aplicada II, Universidade da Corua,
Espaa
Lpez-Segovia, L. llopez@ujat.mx
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico
Montero Alonso, M. . mmontero@ugr.es
Bioestadstica, Departamento de Estadstica e
Investigacin Operativa, Facultad de Medicina,
Universidad de Granada, Espaa
Morales Martnez, A. maiterv@hmmg.vcl.sld.cu
Hosital Materno "Mariana Grajales"
Santa Clara, Cuba
Morales Martnez, J. L. jmm@gmx.es
Universidad Central "Marta Abreu" de Las Villas,
Santa Clara, Cuba
Muoz-Garca, A. albmun@est-econ.uc3m.es
Departamento de Estadstica, Universidad Carlos III de
Madrid, Espaa.
Negreiros Gomes, M.J. negreiro@graphvs.com.br
Universidade Estadual do Cear (UECE)
Pedreira, L. lucky@udc.es
Dpto. Economa Aplicada II, Universidade da Corua,
Espaa.
Rigonatti, A. The rest of the mails marcos
Engenharia e Tecnologia - Eng de Produo
Forteza, Brasil
Roldn Nofuentes , J. A. jaroldan@ugr.es
Bioestadstica, Departamento de Estadstica e
Investigacin Operativa, Facultad de Medicina,
Universidad de Granada, Espaa.
Romn-Montoya Y. yroman@ugr.es
Departamento de Estadstica e Investigacin Operativa
Universidad de Granada, Espaa
Romero, D. rotd720818@yahoo.com
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico
Saad Bouh ould Sidaty sidaty_saad@yahoo.com
School of Medicine, University of Nouakchott,
Mauritania
Snchez, , C. M leticias559@hotmail.com
Unidad Acadmica de Enfermera no. 1, Universidad
Autnoma de Guerrero, Chilpancingo, Mxico
Santiago, A. asantiago2228@yahoo.com
Unidad Acadmica de Matemticas, Universidad
Autnoma de Guerrero, Acapulco, Mxico.
Sautto, J. M.
Universidad Autnoma de Guerrero, Acapulco,
Mxico.
Sistachs, V. vivian@matcom.uh.cu
Facultad de Matemticas, Universidad de la Habana
Cuba.
Solana-Villanueva, L. H. lh_solana@hotmail.com
Universidad Jurez Autnoma de Tabasco.
Villahermosa, Mxico ,
iv
Vaquer Fernndez, J. E. jevf@hamc.vcl.sld.cu
Hospital Universitario "A. Milin Castro"
Santa Clara, Cuba
Viana Rodrigues, J. A.
Universidade Estadual do Cear (UECE)
Forteza, Brasil
Villamil Serrano, A. avillamil@ub.edu,
Dpto. Poltica Econmica y Estructura Econmica
Mundial, Universidad de Barcelona, Espaa
v
cz
El presente libro constituye un gran trabajo y esfuerzo en lo individual y colectivo de un grupo de
investigadores que convergen en la Red Iberoamericana de Desarrollo de Estudios Cuantitativos Aplicados
(RIDECA) y que hacen del uso de la matemtica y estadstica una herramienta cientfica para estudiar
fenmenos naturales relacionados con el medio ambiente y de la salud. No es menos importante por igual,
mencionar que esta red de investigacin integrada por docentes de diferentes universidades prestigiadas,
desde Europa hasta Centro y Sur Amrica, incluyendo el pas hermano de Cuba, cuya articulacin de
esfuerzos enriquece la presente obra, ya que se abordan diferentes estudios sobre temas que suceden
cotidianamente en una sociedad dialctica con propuestas de solucin al problema planteado, en la que los
responsables de ejecutar programas gubernamentales debieran de atender y tomar en cuenta, para que esta
combinacin terica-prctica no se quede en solo un esfuerzo de academia y de una investigacin cientfica
ms.
Prologar un libro es una accin de distincin y afecto por parte de los coordinadores hacia el prologante, y en
ese sentido manifiesto mi agradecimiento por el honroso gesto que el consejo editorial me han deferido. Los
conozco a profundidad y s que han realizado numerosos trabajos de investigacin que les ha nutrido de vasta
experiencia y calidad acadmica y profesional, en las universidades donde colaboran, incluyendo nuestra
querida alma mater, la Universidad Autnoma de Guerrero, donde me honro en ser igualmente un persistente
de la investigacin cientfica, al igual los miembros de la red, de los cuales estoy seguro que la presente obra
ser de un aporte invaluable para los estudiosos de las estadsticas (paramtrica y no paramtrica) y para todo
aquel investigador que le apasione o requiera del uso de esta rama de las matemticas, que es sin duda, una
herramienta imprescindible para la rigurosidad cientfica en la metodologa cuantitativa de la ciencia.
La obra, inicia con un Captulo donde existe una colaboracin conjunta de investigadores de Espaa y Cuba,
que demuestran a travs de un modelo tipo problema con restricciones de complementariedad lineal,
utilizando algoritmo quasi-newton, cuya funcin objetivo es minimizar y optimizar el tiempo de espera que
se ocasionan por el embotellamientos en la Ciudad de Corua, Espaa, y conseguir disminuir de igual manera,
el largo de las colas, el consumo de carburantes y la contaminacin ambiental.
El Segundo Captulo, muestra el clculo de medidas de riesgo en Epidemiologa mediante el software r-Fuzzy
con datos de pacientes con alto riesgo cardiovascular en la ciudad de Santa Clara, Cuba, en donde la
investigacin muestra una solucin alternativa que s tiene en cuenta estos aspectos: el riesgo relativo borroso
y la razn de productos cruzados borrosa para enfermos epidemiolgicos.
El Cuarto Captulo se considera el problema del cartero chino (CPP) que se aplica a la recoleccin de basura
urbana en la ciudad de So Paulo, en la regin de Jardim Europa. Se muestra cmo se procede con una
prospeccin de sitio en la recoleccin de basura, a partir de los planes de recogida de servicio diarios
utilizados por el municipio. Se utiliz la versin mixta del CCP, y modelos relacionados, para verificar los
recorridos de Euler y sus costos de las rutas previstas utilizados por el responsable de ejecutar la coleccin
local de basura urbana. Los autores exploran las soluciones mediante el uso de los solucionadores disponibles
Excel, LINGO y Xns. Evalan 12 reas de recogida diaria, y se siguen a dos de ellos en el campo. El trabajo
revela discrepancias e inviabilidad de las rutas programadas por el responsable de hacer el trabajo. Tambin
se muestran los resultados obtenidos por los solucionadores, comparando su desempeo, y finalmente se
considera la conveniencia de la CPP mixta que debe aplicarse a la realidad de este contexto de la recoleccin
de basura.
vi
El Captulo Quinto, muestra la otra cara de la moneda de la estadstica paramtrica, es decir, la estadstica no
paramtrica, mediante el clculo de un estimador polinomial local por medio de la regresin, utilizando las
libreras kernSmooth, locpol, locfit y sm del software estadstico R, explorado mtodos univariantes
denominados mtodos de regresin polinomial local como una buena solucin, dadas sus buenas propiedades
tericas y sus deseables caractersticas de interpretabilidad y sencillez en la prctica ajustndose lo mximo
posible a ellos mediante la curva del estimador polinomial local con propsito de obtener buenas conclusiones
en cualquier estudio al que sea aplicado.
El Captulo Nueve, investigadores de Espaa hacen un estudio de la Salud del pas colombiano, presentan una
investigacin de las desigualdades en salud que existen en ese pas de Colombia, principalmente a los ndices
de mortalidad que se dan en la poblacin infantil dentro del primer da de nacido, durante la primer semana y
su primer ao de alumbramiento, tomando en cuenta la estructura socioeconmica que guarda esa poblacin
sudamericana. Los investigadores para explicar este fenmeno construyen una poblacin ordenada por
regiones segn el nivel socioeconmico, a travs de valores cuantitativos, mismos que se les aplican de
tcnicas concretas de anlisis como la curva de Lorenz, los ndices de Gini y Theil, el coeficiente de Atkinson,
o el Slope Index of inquality, que les permitan explicar la informacin socioeconmica y la del entorno social
analizado como una combinacin de factores que expliquen el comportamiento de las diferentes variables
analizadas
El Captulo Diez, muestra un estudio sobre los Factores de riesgo por trastornos hipertensos y hemorragias
durante el embarazo en el estado de Guerrero, del Pas Mexicano, que investigadores de la Universidad
Autnoma de Guerrero, realizan a mujeres cuyo embarazo, parto y puerperio, presentan un alto riesgo de
enfermarse o que las lleve desgraciadamente hasta la muerte. Debido desde luego, a la desatencin y por la
pobreza que aqueja al Estado de Guerrero en donde de acuerdo con cifras oficiales existe todava un alto
ndice de mujeres con complicaciones y riesgo de morir en esta etapa de su realizacin como mujer, ello,
coloca al Estado de Guerrero en los primeros lugares a nivel nacional sobre esta problemtica de la salud,
donde los investigadores para explicarlo, realizan anlisis de factoriales de correspondencia y aplicando
regresin logstica para describir estas relaciones entre el padecimiento de hipertensin y los factores de
riesgo.
El Captulo Once los autores presentan un trabajo relacionado con los sistemas expertos, que son el tipo ms
comn de los sistemas de inteligencia artificial para la rutina clnica. El objetivo del trabajo es detectar
vii
diversos tipos de cncer como son: cncer de colon, cncer de mama y cncer crvico uterino. La codificacin
del conocimiento se realiza mediante reglas. El sistema experto es el resultado de la experiencia de expertos
humanos que laboran en diversos hospitales de Mxico y de las guas de prcticas clnicas de la Secretara de
Salud, que ayudan en el fortalecimiento de la toma de decisiones clnicas. El sistema desarrollado est
implementado en el lenguaje de programacin Swi-Prolog y los resultados se validan con la ayuda de
expertos humanos.
El Captulo Doce trata la problemtica de la incertidumbre como un elemento inherente a todo modelo
estadstico y vinculado a ella est el tema de seleccin de modelo. En este trabajo los autores presentan un
procedimiento para la seleccin de modelos en presencia de incertidumbre llamado BMA (Bayesian Model
Averaging) aplicado a regresin logstica, propuesto por Raftery(1995). Para la implementacin en R, se
retoman las ideas de Raftery, Painter y Volinsky(2005), as como Saminni y Parmeter(2011), dicho
procedimiento es utilizado para hacer el anlisis del estudio sobre el estado cognitivo de los adultos mayores
en Guerrero, Mxico. Se propone el BMA como una alternativa para tomar en cuenta la incertidumbre de los
modelos en este tipo de estudios.
El Captulo Trece presenta un anlisis de supervivencia de una muestra de 119 pacientes con cncer de cerviz,
que fueron atendidos en la unidad oncolgica del HJG de Villahermosa, Tabasco, Mxico. Todos los
pacientes reciben un tratamiento con radioterapia o quimioterapia, y fueron seguidos desde el diagnostico
hasta la ltima visita o hasta que ocurre la recada o la muerte por el cncer. Los pacientes que abandonaron el
estudio o murieron por otras causas diferentes al cncer, tiene un tiempo de supervivencia parcial y fueron
definidos como pacientes censurados. Los autores presentan un anlisis del tiempo de supervivencia libre de
enfermedad (tiempo hasta la recada del cncer); y el tiempo total de supervivencia (tiempo hasta la muerte
por cncer). Un anlisis de supervivencia no paramtrico es realizado a estos datos para evaluar la eficiencia
del tratamiento e identificar grupos de pacientes con supervivencia similar respecto de las caractersticas del
cncer. Un anlisis semiparametrico es aplicado para identificar los factores de riesgo estadsticamente
significativos, tales como, tipo del tumor, estadio, histologa, tratamiento, edad, entre otros, al igual que un
anlisis Paramtrico. Los resultados preliminares para el tiempo libre de enfermedad, muestran que existe un
grupo bien definido de pacientes que tiene a la etapa del tumor como factor de riesgo altamente significativo.
Similarmente ocurre para el tiempo global de supervivencia, en adicin de la proctitis como factor de riesgo.
Los pacientes que tienen peor pronsticos son los que presentan algunas de las siguientes caractersticas:
tumor en un estadio IIIB, proctitis presente.
El Captulo Catorce aborda el problema del tratamiento de preguntas difciles o delicadas de cuestionarios y
se propone la utilizacin de la respuesta aleatoria y las tcnicas de preguntas indirectas, que tienen como
objetivo mantener la privacidad de los encuestados. Los autores afirman que a la hora de realizar encuestas, el
inters frecuentemente se centra en aspectos sensibles o confidenciales para las personas entrevistadas, por lo
que muchas de ellas no contestarn verazmente o simplemente se negarn a responder. Afirman tambin que,
mediante esta nueva tcnica se obtienen estimadores que son ms precisos en comparacin a respuesta
directa. Para mostrar esta tcnica, realizaron una encuesta al alumnado de la Universidad de Granada
mediante el modelo U, implementando en R las frmulas indicadas para concluir los resultados.
Finalmente, del contenido de este libro, se observa la precisin con que fueron seleccionados los temas que se
desarrollaron con sus principales aspectos tericos-metodolgicos que sustentan cada uno de sus resultados,
razones suficientes para calificar estos trabajos de investigacin que aqu se dilucidaron, como una excelente
obra sin dejar duda alguna al respecto, sin embargo, sern los lectores quienes den su aprobacin final y
galardonen el esfuerzo realizado por este colectivos de investigadores con prestigio internacional.
WA Wtux| Tzt _x
Subsecretario de planeacin de la Secretara de Turismo Municipal y
Profesor Investigador de la Unidad Acadmica de Turismo de la UAGro.
viii
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 1-13
Vt D
SOBRE EL USO DE UN ALGORITMO HBRIDO PARA LA
REGULACIN PTIMA DE LOS SEMFOROS DE UN CRUCE EN A
CORUA Y SU IMPACTO MEDIOAMBIENTAL
L. Pedreira*, C. Lema*, A. Villamil Serrano**, G. Bouza Allende***
y S. Allende Alonso***
* Dpto. Economa Aplicada II, Universidade da Corua
**Dpto. Poltica Econmica y Estructura Econmica Mundial, Universidad de Barcelona
***Dpto. Matemtica Aplicada, Universidad de La Habana
RESUMEN
El objetivo de este trabajo es resolver un problema de control ptimo que consiste en asignar tiempos a las luces de los ocho
semforos (seis fases en cada ciclo) que regulan un cruce de dos calles con los dos sentidos de circulacin (con dos o ms
carriles en cada sentido) situado en la ciudad de a Corua en el que existen frecuentes embotellamientos, con el fin de conseguir
disminuir el largo de las colas, los tiempos de espera, el consumo de carburantes y la contaminacin ambiental. El criterio de
comparacin se expresa en una funcin objetivo a minimizar que puede ser: longitud media de las colas, cantidad de vehculos
en el peor de los casos, tiempo medio de espera, una combinacin de las anteriores, entre otras posibilidades. As obtenemos un
modelo tipo problema de optimizacin con restricciones de complementariedad lineal. Para su solucin, proponemos usar un
mtodo hbrido que combina una heurstica, basada en la metaheurstica de recocido simulado con un algoritmo quasi-newton
para problemas de optimizacin no suaves.
ABSTRACT
The objective of this paper is to solve the problem of finding the switch times of eight traffic lights (six phases in each cycle)
that regulate an intersection of two two-ways streets (with two or more lanes in each direction) in the city of Corunna which
suffer from frequent congestions, in order to reduce the length of the queues, waiting times, fuel consumption and environmental
pollution. The criterion used for comparison is shown by minimizing the objective function which can be by: the average length
of the queues, the number of vehicles at the worst queue, average waiting time, a combination. The resulting model is an
optimization problem with linear complementarity constraints. In order to solve it, we propose a hybrid solution strategy where
an approximation to the solution is computed by means of a simulated annealing algorithm and then it is improved by a quasi-
Newton method for non-smooth optimization problems.
1. INTRODUCCIN
En la actualidad, la mayor parte de las ciudades del mundo muestran serios problemas de congestin
de trfico en sus carreteras, provocados por la demanda de trnsito cada vez ms alta frente a la insuficiente
capacidad vial. Los efectos de esta congestin son el mayor consumo de combustible, mayores tiempos de
viaje, mayor contaminacin, entre otros. Se puede abordar esta problemtica desde diferentes perspectivas,
una de los cuales es la gestin de los semforos con el fin de tener una ptima capacidad de las vas. El
problema radica en hallar un sistema que controle estos semforos de manera adecuada, en especial en los
casos en los que las rutas se encuentran fuertemente congestionadas.
En este trabajo se proponen un modelo y un mtodo para encontrar un sistema de control ptimo para
los semforos que regulan un cruce con embotellamientos frecuentes en la ciudad de A Corua, haciendo uso
de una heurstica basada en la metaheurstica de recocido simulado y un algoritmo tipo quasi-Newton. Se
busca que tras la aplicacin del mtodo (para una gran cantidad de casos y bajo los sistemas de restriccin de
trnsito reales) se puedan obtener sucesiones de tiempos para las luces de los semforos que permitan que
stos funcionen de manera coordinada y que rebasen la interseccin un gran nmero de vehculos, llegando
as a reducir los tiempos de espera y el largo de las colas. Tambin se busca que el modelo propuesto sirva de
base para enfocar problemas similares y para crear mejores mtodos.
1
Por otro lado, queremos poner de relieve como, en la solucin de ese problema de control, subyace
una cuestin medioambiental relacionada con la necesidad de regular el trfico racionalmente, con el fin de
reducir las emisiones de gases de efecto invernadero. Como es bien sabido, stos generan impactos
medioambientales provocadores del cambio climtico cuyos efectos nocivos ya se dejan traslucir. Al hablar
de la regulacin del trfico estamos centrados en una parcela muy importante relacionada con el transporte en
general y, en concreto, al aludir a la coordinacin en el uso de los semforos, siguiendo las directrices de esta
investigacin, nos referimos a la necesidad de realizar revisiones en los proyectos de inversin aplicados a la
planificacin del transporte (tanto pblico como privado), cuestin sta que corresponde a las autoridades
pblicas.
Si de verdad queremos alcanzar una plena sostenibilidad en el transporte, hemos de someternos a tres
retos:
1. Que las emisiones de gases de efecto invernadero, producidas por el transporte, crezcan a un
ritmo inferior al crecimiento del Producto Interior Bruto.
2. Aplicar unas tecnologas verdes al transporte que supongan una ayuda a la disminucin de
gases y ruidos.
3. Reducir los costes externos del transporte que, a travs de los impactos medioambientales,
originan accidentes, atascos, congestin del trfico, ruidos e incluso, desde el punto de vista de la salud
pblica, una disminucin de las enfermedades crnicas por exposicin a la contaminacin atmosfrica
(partculas en suspensin, etc.).
Por ello, la implantacin del sistema de regulacin de semforos que proponemos, ha de constituir
uno de los instrumentos que, unindose a otros, sirvan para mitigar las deseconomas externas que el trfico
rodado y su mala regulacin generan sobre el cambio climtico.
Los resultados estn organizados as: en la prxima seccin se presenta una descripcin del cruce de
la avenida de Arteixo con la Ronda de Outeiro en la ciudad de A Corua (nmero de carriles y de semforos,
sentidos de circulacin, etc.), se hace hincapi en los motivos que provocan las retenciones de trfico
(proximidad de centros comerciales, polgonos industriales, vas de acceso y salida de la ciudad, doble fila,
pasos de peatones, etc.) y en la regulacin de los semforos fijada por las autoridades de trfico. A
continuacin se expone un modelo matemtico para dicho problema en el cual los tiempos de las luces son
variables, pero slo dependen de los flujos de llegada, anlogo al formulado en [Pedreira, L. et al. (2012)]
como variante del de [de Schutter, B. and de Moor, B. (1998)] pero para seis fases en cada ciclo. En la
siguiente se detalla nuestra propuesta de solucin: un algoritmo hbrido que combina una heurstica basada en
la metaheurstica de recocido simulado con un algoritmo tipo quasi-Newton para problemas de optimizacin
no suaves. A continuacin se muestran algunos resultados numricos obtenidos mediante la programacin con
MATLAB de dicha estrategia y se comparan con los resultados que se dan en la realidad mediante la
regulacin diseada por las autoridades de trfico y para finalizar se enumeran algunas conclusiones y lneas
futuras de investigacin.
2
en la coordinacin de los semforos establecida por las autoridades de trfico (a ciclo fijo), hemos de modelar
y resolver un problema que en cada ciclo tiene seis fases:
Figura 1
En la primera fase (ver figura 2) los semforos T1 y T2 situados en la Ronda de Outeiro estn en
verde (los dems semforos estn en rojo), por tanto los vehculos que circulan por dicha Ronda (por los
carriles L1, L1 y L2), rebasan el cruce siguiendo de frente o giran a la derecha o a la izquierda hacia la
avenida de Arteixo.
Figura 2 Figura 3
En la segunda fase (ver figura 3) el semforo T1 sigue en verde (T2 ha cambiado de verde a rojo),
por tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan
por los carriles L1 y L1. T3 cambia de rojo a verde, permitiendo a los vehculos situados en los carriles L3
y L3 iniciar la marcha por la Ronda de Outeiro en sentido hacia la salida de la ciudad y a los situados en el
carril L3 girar a la derecha hacia la avenida de Arteixo.
En la tercera fase (ver figura 4) el semforo T3 sigue en verde (T1 ha cambiado de verde a rojo), por
tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan por
los carriles L3, L3 y L3. T4 cambia de rojo a verde, por tanto los vehculos que estaban esperando en el
carril L4 rebasan el cruce girando a la izquierda hacia la avenida de Arteixo.
3
Figura 4 Figura 5
En la cuarta fase (ver figura 5) los semforos T5 y T6 situados en la avenida de Arteixo cambian de
rojo a verde (T3 y T4 cambian de verde a rojo), por tanto los vehculos que circulan por dicha avenida (por los
carriles L5, L5 y L6) rebasan el cruce siguiendo de frente o giran a la derecha o a la izquierda hacia la Ronda
de Outeiro.
En la quinta fase (ver figura 6) el semforo T5 sigue en verde (T6 ha cambiado de verde a rojo), por
tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan por
los carriles L5 y L5. T7 cambia de rojo a verde, permitiendo a los vehculos situados en los carriles L7 y
L7 iniciar la marcha por la avenida de Arteixo en sentido hacia el centro de la ciudad, o girar a la derecha
hacia la Ronda de Outeiro.
Figura 6 Figura 7
En la sexta fase (ver figura 7) el semforo T7 sigue en verde (T5 ha cambiado de verde a rojo), por
tanto siguen rebasando el cruce (para continuar de frente o girar a la derecha) los vehculos que circulan por
los carriles L7 y L7. T8 cambia de rojo a verde, por tanto los vehculos que estaban esperando en el carril L8
rebasan el cruce girando a la izquierda hacia la Ronda de Outeiro.
Los tiempos de luz verde que rigen los semforos de la interseccin son: para los semforos T2, T4,
T6 y T8 que permiten el giro a la izquierda es de 10s, para los semforos T1 y T3 que permiten la circulacin
por la Ronda de Outeiro o giro a la derecha, es de 40s y para los semforos T5 y T7 que permiten la
circulacin por la avenida de Arteixo o giro a la derecha es de 25s. Por tanto la duracin de las fases es:
primera fase 10s, segunda fase 30s, tercera fase 10s, cuarta fase 10s, quinta fase 15s y sexta fase 10s. Como
4
consecuencia la duracin del ciclo completo es de 85s, tiempo que est segn se indica en [Snchez-Toscano
Barbero, J.] dentro del rango que se acomoda a la mentalidad del conductor.
Los embotellamientos en este cruce son debidos a que se trata de una interseccin con mucha
densidad de circulacin durante todo el da y fundamentalmente en horas punta, ya que absorbe el trfico de
entrada y salida de la ciudad en dos direcciones diferentes y el trfico de entrada y salida de un polgono
industrial en donde se encuentra una de las superficies comerciales ms grandes de Espaa. Adems y debido
a la proximidad de viviendas, en muchas ocasiones hay coches en doble fila que provocan problemas en la
circulacin por los carriles situados a la derecha. Otros problemas surgen por la mala colocacin en las vas de
los vehculos que pretenden realizar un determinado movimiento al llegar al cruce. Debido a todo ello, se ha
podido observar que en ciertos intervalos de tiempo, se produce una pequea variacin en la duracin de las
fases, ya que, los vehculos que circulan por la Ronda de Outeiro lo hacen durante 50s y los que circulan por
la avenida de Arteixo, durante 40s. Por tanto la duracin del ciclo completo sera, en este caso, de 110s
tiempo que tambin est dentro del rango que se acomoda a la mentalidad del conductor [Snchez-Toscano
Barbero, J.].
Figura 8 Figura 9
Figura 10 Figura 11
5
Figura 12 Figura 13
El ciclo comienza al principio de las luces verde de los semforos T1 y T2 y acaba al final de sus
luces rojas.
Datos: N es el nmero de veces que los semforos tienen la luz verde (es un entero dado), amb es el
tiempo de duracin de la luz mbar (3s), min.verde,i, max.verde,i son (respectivamente) las cotas mnima y mxima
de duracin de la luz en la fase i; i=1, , 6, en cada ciclo.
Variables: Describimos el problema con las variables de control k, tiempo de duracin de la luz
verde en el k-simo cambio de luz (incluyendo el mbar), es decir, duracin de la k-sima fase y las variables
de estado xk=(xk1,xk2,xk3,xk4,xk5,xk6,xk7,xk8)t, cantidad promedio de vehculos en los carriles L1, L2, L3, L4, L5, L6,
L7, L8 en el momento del k-simo cambio de luz, es decir, al finalizar la k-sima fase, k = 1, , 6N.
Para cada carril Lj se definen las tasas medias de llegada y salida de los vehculos bajo las luces
verde y mbar y se denotan:
j : tasa media de llegada de vehculos en el carril Lj (dada en vehculos por segundo).
j : tasa media de salida en el carril Lj cuando el semforo est en verde.
j : tasa media de salida en el carril Lj cuando el semforo est en mbar.
Definimos (basndonos en [de Schutter, B. and de Moor, B. (1998)] pero considerando ocho carriles
y seis fases en cada ciclo) los vectores bi, i=1,, 18 que representan el nmero de vehculos en cada carril
teniendo en cuenta los movimientos asociados a cada fase:
1 1 1 1 1 1 1
2 2 2 2 2 2
3 3 3 3 3 3 3
4 4 4 4 4 4
b1 = ,b = ,b = ,b = ,b = ,
5 2 5 3 5 4 5 5 5 5 5
6 6 6 6 6 6
7
7 7 7 7 7
8 8 8 8 8
6
1 0 ( 1 1 ) amb 0
( )
2 2 2 amb 0 0
3 0 0 ( 3 3 ) amb
4 0 , 0 , ( 4 4 ) amb
b6 = , b7 = b8 = b9 = ,
5 0 0 0
6 0 0 0
0 0 0
7 7
8 8 0 0 0
0 0 0
0
0 0
0 0 0
0 , 0 , 0 ,
b10 = b11 = b12 =
0 ( 5 5 ) amb 0
( 6 6 ) amb 0 0
0 0 ( )
7 7 amb
0 0 ( 8 8 ) amb
0 max((1 1 ) amb ,0) 0
max(( ) ,0) 0 0
2 2 amb
0 0 max((3 3 ) amb ,0)
0 0 max((4 4 ) amb ,0)
b13 = , b14 = , b15 = ,
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0
0 0
0 0 0
0 0 0
b16 = , b17 = , b18 =
0 max((5 5 ) amb ,0) 0
max((6 6 ) amb ,0) 0 0
0 0 max((7 7 ) amb ,0)
0 0 max((8 8 ) amb ,0)
Entonces:
x6k+1 = max(x6k+b16k+1+b7, b13) para k = 0, 1, , N-1,
7
x6k+3 = max(x6k+2+b36k+3+b9, b15) para k = 0, 1, , N-1,
ya que para calcular, por ejemplo, la cantidad promedio de vehculos en cada carril al final de la primera fase
de cada ciclo (x6k+1), hemos de usar los vectores b1, b7 y b13, pues en el carril L1 durante esa fase, la luz del
semforo T1 est en verde y por tanto slo hay llegadas y salidas con luz verde, mientras que en el carril L2
hay llegadas y salidas con luz verde y con luz mbar y en los dems carriles slo hay llegadas, pues los
respectivos semforos estn en rojo.
El problema de regulacin de los semforos puede representarse a travs del siguiente modelo
(basndonos en [Pedreira, L. et al (2012)] pero considerando seis fases en cada ciclo):
Minimizar J (1)
sujeto a:
min.verde,1 6k+1-amb max.verde,1 para k = 0, 1, , N-1, (2)
min.verde,2 6k+2-amb max.verde,2 para k = 0, 1, , N-1, (3)
min.verde,3 6k+3-amb max.verde,3 para k = 0, 1, , N-1, (4)
Suma (ponderada) de las longitudes medias de las colas en todos los carriles
6N
8 xij i
J1= w j i =61N (14)
j =1
i
i =1
8
Longitud (ponderada) media de las colas en el carril con mayores colas
6N
xij i
i =1
J2=maxj w j 6N
(15)
i
i =1
wj xij i
i =1
J5=maxj (18)
j 6N
i
i =1
donde wj>0 para todo j. Los factores peso wj se pueden usar para dar una importancia mayor o peso a
algunos carriles.
Se puede analizar una sexta opcin que consiste en considerar una combinacin de los criterios
anteriores. Esto nos lleva a un modelo multi-objetivo que podemos resolver tomando una combinacin
positiva de las distintas funciones objetivo.
5
J 6= i J i (19)
i =1
donde los valores i corresponden a los pesos que se les dan a los anteriores criterios.
De hecho [de Schutter, B. and de Moor, B. (1998)] se trata de un problema de optimizacin con
restricciones de complementariedad lineal (problema NP-duro), que involucra 54N variables, 12N
restricciones suaves y 48N no suaves, lo que hara muy costoso la aplicacin de un algoritmo iterativo [de
Schutter, B. (2002)].
9
4. PROPUESTA DE SOLUCIN
Debido a las dificultades arriba expuestas, se propone un mtodo hbrido de solucin. Este algoritmo
comienza buscando una buena aproximacin a la solucin mediante una heurstica basada en la
metaheurstica de recocido simulado y luego se mejora el comportamiento en una vecindad del punto
mediante un algoritmo quasi-Newton (mtodo del gradiente discreto) para funciones no suaves.
4.1. Mtodo heurstico basado en la metaheurstica de recocido simulado
Se dice que es vecino de * si difieren en solo una componente y - * =1, es decir existe i tal
que i=*i 1 y j=*j para todo ji. En aras de mantener factibilidad se tiene en cuenta que el nuevo punto
cumpla las restricciones de acotacin en (2) - (3) -(4) - (5) - (6) - (7). Claramente las vecindades as definidas,
son un subconjunto discreto del conjunto de soluciones factibles, pero es una forma rpida de explorar
soluciones factibles.
Teniendo en cuenta las restricciones (8) - (9) - (10) - (11) - (12) - (13), podemos reducir el modelo
implcitamente y calcular los valores de las funciones involucradas y sus derivadas de forma iterativa. As
resolvemos el problema con un algoritmo determinstico tipo quasi-Newton para funciones no suaves
[Bagirov, A.M., Karaszen, B. y Sezer, M. (2008)]. La estrategia es:
1. Escoger un vector inicial 0 y la solucin x(0) asociada y k=0. Fijar sucesiones k,
k, k, k,, 0+, k y nmeros c1>c2>0.
2. Fijar s=0, k,s=k.
3. Buscar una direccin de descenso d, estimando F por el mtodo de gradiente
discreto [Bagirov, A.M., Karaszen, B. y Sezer, M. (2008)], con (, , , , c)=( k, k, k, k , c1).
4. Si |d| k , k+1=k,s , k=k+1 ir a 2
5. Sea s=argmax{ 0, F(k,s+ d/|d|)-F(k,s) -c2. |d|}.
10
6. k, s+1=k,s +s d/|d|.
7. s=s+1. Ir a 3.
La direccin de descenso se calcula de la siguiente manera
1. Fijar g, |g1|=1 y fijar e, vrtice del cubo unitario en IRn.
1
2. Calcular el gradiente discreto v1=i(,g1,e,,,). D={v1}, |gi|> k=1.
2n
3. Hallar wk=argmin{|w| / wD}
4. Si |wk| < fin
5. Hallar gk+1=wk/|wk|. Si F(,gk+1)-F() c|wk| fin.
1
6. Calcular el gradiente discreto vk+1=i(,gk+1, e, ,,), |gi|> D = D{vk} e ir
2n
a 3.
Es decir: se fija una direccin inicial, se calcula el gradiente discreto con respecto a dicha direccin
inicial, se halla la distancia entre el cono convexo de todos los gradientes discretos calculados y el origen. Si
la distancia es menor que la tolerancia, se acepta el punto como punto estacionario aproximado, en otro caso,
se calcula una nueva direccin de bsqueda y se comprueba si esta direccin es una direccin de descenso. Si
lo es se para, y ya tenemos calculada la direccin de descenso, en otro caso, se calcula otro gradiente discreto
en esta nueva direccin y se actualiza el cono convexo.
El gradiente discreto i(,g1,e,,,). se calcula componente a componente mediante un esquema de
diferencias dividas entre puntos consecutivos que difieren en j unidades en la componente j, a lo que se
agrega una combinacin de las componentes ji para la i-sima componente.
5. RESULTADOS COMPUTACIONALES
El algoritmo y mtodo de resolucin propuesto ha sido programado en MATLAB y se ha
implementado en un ordenador con procesador Intel Core i7, 950 que trabaja a 307 GHz.
Por mediciones directas -en el cruce de la Ronda de Outeiro con la avenida de Arteixo- en
observaciones de varios das durante diferentes momentos del da y principalmente durante el horario pico, se
estimaron las tasas de llegada y salida en los carriles, las cuales se recogen en la siguiente tabla:
Carriles 1 2 3 4 5 6 7 8
Tasa llegada () 0.35 0.1 0.4 0.09 0.26 0.09 0.35 0.1
Tasa salida verde () 1.05 0.7 1.1 0.6 1 0.7 1 0.6
Tasa salida mbar () 0.25 0.25 0.45 0.2 0.25 0.25 0.45 0.2
Se han considerado 5 ciclos (N = 5). En cuanto a las cotas del tiempo de las luces, se tomaron:
min.verde,i = 5s, para i = 1, 3, 4, 6; min.verde,2 = 20s; min.verde,5 = 10s; max.verde,i = 15s, para i = 1, 3, 4, 6;
max.verde,2 = 40s; max.verde,5 = 20s. amb = 3s. Solucin inicial: 0 = [10 30 10 10 15 10 10 30 10 10 15 10 10
30 10 10 15 10 10 30 10 10 15 10 10 30 10 10 15 10]. Todos los carriles son iguales, o sea, w = [1 1 1 1 1 1
1 1]. Todos los usuarios tienen el mismo peso, es decir i =1, i = 1, , 5. Temperatura inicial t0 =
100000000. t = 0.001. Nmero de iteraciones con igual temperatura Q = 20. Criterio de parada T < 0.0001.
11
Los resultados obtenidos al minimizar la funcin J3 aparecen en la tabla siguiente:
Carriles L1 L2 L3 L4 L5 L6 L7 L8
Ciclo 1-1 fase 0 0 2 0.45 1.3 0.45 1.75 0.5
Ciclo 1-2 fase 0.3 1 0 1.35 3.9 1.35 5.25 1.5
Ciclo 1-3 fase 3.45 1.9 0 0 6.24 2.16 8.4 2.4
Ciclo 1-4 fase 5.2 2.4 2 0.45 2.54 0.46 10.15 2.9
Ciclo 1-5 fase 8 3.2 5.2 1.17 0.03 1.18 4.95 3.7
Ciclo 1-6 fase 11.15 4.1 8.8 1.98 2.37 2 0.75 0.4
Ciclo 2-1 fase 7.65 2.45 10.8 2.43 3.67 2.44 2.5 0.9
Ciclo 2-2 fase 0.3 3.85 1 3.69 7.31 3.7 7.4 2.3
Ciclo 2-3 fase 2.4 4.45 0 1.83 8.87 4.24 9.5 2.9
Ciclo 2-4 fase 5.55 5.35 3.6 2.64 2.2 0.1 12.65 3.8
Ciclo 2-5 fase 8.7 6.25 7.2 3.45 0.03 0.91 6.8 4.7
Ciclo 2-6 fase 12.9 7.45 12 4.53 3.15 2 0.65 0
Ciclo 3-1 fase 2.4 0 18 5.88 7.05 3.34 5.9 1.5
Ciclo 3-2 fase 0.3 1.7 6.1 7.4 11.47 4.87 11.85 3.2
Ciclo 3-3 fase 4.15 2.8 0.35 3 14.33 5.86 15.7 4.3
Ciclo 3-4 fase 9.75 4.4 6.75 4.4 2.49 0 21.3 5.9
Ciclo 3-5 fase 16 6.2 14 6 0.03 1.62 9.6 7.7
Ciclo 3-6 fase 22 7.9 20.75 7.59 4.45 3.15 0.2 0.4
Ciclo 4-1 fase 13.6 2.05 25.5 8.67 7.57 4.23 4.4 1.6
Ciclo 4-2 fase 2.7 4 12.25 10.38 12.5 6 11 3.5
Ciclo 4-3 fase 7.6 5.35 4.4 4.4 16.15 7.2 16 4.9
Ciclo 4-4 fase 10 6 7.2 5 11 4.28 18.4 5.6
Ciclo 4-5 fase 13.9 7.15 11.6 6 5 5.27 11.25 6.7
Ciclo 4-6 fase 17.75 8.25 16 7 8 6.26 5.75 2.4
Ciclo 5-1 fase 8.65 1.8 21.2 8.22 11.3 7.43 10.3 3.7
Ciclo 5-2 fase 0.3 3.4 10 9.6 15.48 8.87 15.9 5.3
Ciclo 5-3 fase 5.2 4.8 2.15 3.72 19.12 10.1 20.8 6.7
Ciclo 5-4 fase 8.7 5.8 6.15 4.62 11.7 5.38 24.3 7.7
Ciclo 5-5 fase 12.55 6.9 10.5 5.6 5.83 6.37 17.1 8.8
Ciclo 5-6 fase 17.1 8.2 15.7 6.78 9.2 7.54 10.35 3.5
En resumen, los resultados obtenidos al minimizar la funcin J3, en cuanto al largo (nmero de
vehculos) de la cola ms larga en cada carril son: L1 22, L2 8, L3 26, L4 10, L5 19, L6 10, L7 24
y L8 9. Los resultados obtenidos al minimizar la funcin J3 en cuanto al nmero mximo de vehculos en el
momento del cambio a luz roja en cada carril son: L1 3, L2 2, L3 4, L4 4, L5 6, L6 5, L7 6 y L8 3.
Teniendo en cuenta las caractersticas adversas del cruce, por varias razones podemos sentirnos
satisfechos con los resultados obtenidos con nuestro algoritmo, pues, segn se observa en la tabla anterior,
hay fases en las que rebasan la interseccin todos los vehculos que estn esperando y adems, estos
resultados mejoran a los que se obtienen en la realidad con la regulacin de los semforos a ciclo fijo
determinada por las autoridades de trfico, ya que, si nos basamos en las observaciones realizadas durante
horas punta, por ejemplo, en los carriles impares existen colas que superan los 30 vehculos, algunos de los
cuales han de esperar dos o tres ciclos para rebasar el cruce.
12
6. CONCLUSIONES Y LNEAS FUTURAS DE INVESTIGACIN
En este trabajo hemos estudiado un problema de control ptimo de semforos para un cruce de dos
calles con los dos sentidos de circulacin, con dos o ms carriles en cada sentido, regulado por ocho
semforos con seis fases en cada ciclo, situado en la ciudad de A Corua (Espaa), en el que existen
frecuentes embotellamientos por ser un cruce que absorbe el trfico de entrada y salida de la ciudad en dos
direcciones diferentes, y el trfico de entrada y salida de un polgono industrial y de una zona en donde se
encuentra una de las superficies comerciales ms grandes de Espaa.
Hemos presentado un modelo para dicho problema en el cual los tiempos de las luces son variables,
pero slo dependen de los flujos de llegada.
Hemos propuesto un mtodo hbrido de solucin que combina una heurstica basada en la
metaheurstica de recocido simulado con un algoritmo quasi-Newton (mtodo del gradiente discreto) para
funciones no suaves. Con l se obtienen valores para los perodos de luz verde que permitieron colas
sensiblemente ms cortas en horas crticas del cruce, con un tiempo computacional adecuado, si las
comparamos con las que se dan en la realidad mediante la regulacin de los semforos a ciclo fijo, diseada
por las autoridades de trfico. Para ello se usaron las tasas medias estimadas de llegada y salida de vehculos
en el cruce, obtenidas mediante observaciones directas durante diferentes das, principalmente en las horas
punta.
Corresponde a las autoridades pblicas basarse en esta investigacin para tomar decisiones en lo tocante a una
buena regulacin del trfico.
Las emisiones de gases de efecto invernadero que produce el transporte, han de crecer a un ritmo inferior al
crecimiento del Producto Interior Bruto.
En el futuro se tratar de seguir trabajando en dicha interseccin incluyendo en nuestro estudios diferencias
entre los distintos carriles, un mayor nmero de ciclos y en el caso del problema multiobjetivo, vectores peso
que ponderen ms un objetivo que otro.
Tambin se tratar de relatar y esbozar otras lneas de investigacin, como por ejemplo; el uso de otros
mtodos heursticos: colonias de hormigas, algoritmos genticos, etc. o extensin de la teora propuesta al
caso de las rotondas o de cruces concatenados.
REFERENCIAS
[1] BAGIROV, A.M., KARASZEN, B. y SEZER, M. (2008) Discrete gradient method: Derivative-free
method for non-smooth optimization, Journal of Optimization Theory and Applications, 137, 317-334.
[2] DE SCHUTTER, B. y DE MOOR, B. (1998) Optimal traffic light control for a single intersection.
European Journal of Control, 4, 260-276.
[3] DE SCHUTTER, B. (2002) Optimizing acyclic traffic signal switching sequences through an extended
linear complementarity problem formulation, European Journal of Operational Research, 139, 400-415.
[4] PEDREIRA, L. et al. (2012) Regulacin ptima de las fases de los semforos en un cruce e impacto
medioambiental. Anales de ASEPUMA n 20: 103, 103.1-103.22.
[5] SNCHEZ-TOSCANO BARBERO, J. (2003). Temario especfico ESTT-OEP 2005, tema 82. 1-19.
13
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 14-25
Vt E
MEDIDAS DE RIESGO CLSICAS Y BORROSAS. UNA
APLICACIN REAL
J. E. Vaquer Fernndez, A. Morales Martnez, G. M. Casas Cardoso, J. L. Morales Martnez y L.
Denoda Prez
Universidad Central de Las Villas
ABSTRACT
Risk measures are very important in Epidemiology. The classical relative risk and the odds ratio are widely used, but they do not
consider uncertainties and inaccuracies. This paper shows an alternative solution considering uncertainty and imprecision: the
relative fuzzy risk and the fuzzy odds ratio. The calculation of all measures was performed using r-Fuzzy software and it was
exemplified with data of patients with high cardiovascular risk from the city of Santa Clara, Cuba.
KEYWORDS: relative risk, odds ratio, fuzzy relative risk, fuzzy odds ratio
RESUMEN
El clculo de medidas de riesgo es muy importante en Epidemiologa. Tanto el riesgo relativo clsico, como la razn de
productos cruzados se utilizan ampliamente, sin considerar las fuentes de incertidumbres e imprecisiones asociadas. En este
trabajo se muestra una solucin alternativa que s tiene en cuenta estos aspectos: el riesgo relativo borroso y la razn de
productos cruzados borrosa. El clculo de todas las medidas se realiz con el software r-Fuzzy y se ejemplific con datos de
pacientes con alto riesgo cardiovascular en la ciudad de Santa Clara, Cuba.
1. INTRODUCCIN
La epidemiologa es la ciencia que estudia la distribucin, frecuencia y los factores relacionados con
las enfermedades. Ocupa un lugar en la interseccin entre las ciencias mdicas y las sociales y aplica
numerosos mtodos matemticos y computacionales al estudio de poblaciones enfermas.
Por ejemplo, el grado de exposicin de una persona al humo del cigarro puede estimarse a partir del
consumo de cigarrillos por fumador, es decir mientras mayor sea el consumo de cigarros diarios, mayor ser
la exposicin. Sin embargo, la persona que no fuma es considerada no expuesta segn esta medida, lo que en
realidad no es totalmente cierto [2].
Debido a ejemplos como este, se puede concluir que la lgica booleana en el anlisis de riesgo no
siempre muestra los valores reales. Es por ello que surge la idea de modelar el grado de exposicin a un factor
de riesgo segn una funcin de pertenencia y la respuesta de enfermo o no atendiendo a otra funcin de
pertenencia, haciendo uso de la lgica borrosa.
14
La lgica borrosa estudia elementos de la lgica tradicional aplicados a valores borrosos. Los
elementos de un conjunto borroso son pares ordenados que indican el valor del elemento y su grado de
pertenencia a dicho conjunto. De esta manera puede manejar eficientemente la incertidumbre presente en la
estructura de un conjunto de datos. Los conjuntos borrosos fueron introducidos por primera vez en 1965, por
Zadeh [3], pero sus orgenes tienen hasta 2500 aos de antigedad [4].
La estadstica borrosa es una disciplina relativamente joven que persigue aplicar mtodos estadsticos
a datos borrosos y de esta forma aumentar su dominio de aplicabilidad [5].
La importancia del clculo de ndices de riesgos que tengan en cuenta estas incertidumbres e
imprecisiones dentro de la epidemiologia y especficamente el anlisis del riesgo de padecer enfermedades
constituye el problema cientfico que da origen al presente trabajo. Su objetivo general es calcular y comparar
entre s, ndices de riesgos clsicos y borrosos en pacientes de la ciudad de Santa Clara con ayuda del
software r-fuzzy implementado con estos fines [6].
El siguiente epgrafe describe los fundamentos matemticos esenciales de dos medidas de riesgo
clsico: el riesgo relativo y la razn de productos cruzados. Para ambos casos se describe su intervalo de
confianza y su interpretacin desde el punto de vista mdico. Posteriormente se enuncian y describen las
variantes borrosas de estas medidas, conocidas como riesgo relativo borroso y razn de productos cruzados
borrosa. A continuacin se muestra una aplicacin real con pacientes de la ciudad de Santa Clara. El trabajo
culmina con conclusiones y referencias bibliogrficas.
La definicin de riesgo est dada a un nivel individual, mientras que el estimador de riesgo se define
a nivel de poblacin. Un tipo de estimador de riesgo es la razn de riesgo o riesgo relativo (RR) que consiste
en la razn entre el riesgo en un grupo expuesto y el riesgo en un grupo no expuesto.
El riesgo relativo indica la presencia de una caracterstica o de un (unos) factor (factores) que
aumenta la probabilidad de consecuencias adversas y constituye una medida de probabilidad estadstica de
que en un futuro se produzca un acontecimiento por lo general no deseado.
Aunque el riesgo es una medida muy utilizada en la relacin entre el factor de riesgo y la
enfermedad, no es suficiente para determinar la importancia del factor de riesgo sobre el desarrollo de la
enfermedad. En muchos procedimientos en epidemiologa, se requiere un grupo de comparacin el cual suele
ser el grupo sin el factor de riesgo (los no expuestos). As, es posible definir el riesgo relativo (o razn de
riesgo) como el cociente entre el riesgo de la enfermedad en el grupo expuesto al factor de riesgo y el grupo
no expuesto.
El clculo del riesgo relativo es muy simple utilizando una tabla como la que se muestra a
continuacin:
15
Tabla 1. Tabla cruzada general de exposicin a una enfermedad contra un factor de riesgo
Estado de enfermedad Total
Factor de riesgo Enfermo No enfermo
Expuesto a b a+b
No expuesto c d c+d
Total a+c b+d n
A partir de la Tabla 1 se define el riesgo relativo (RR) como:
()
=
(
)
(1)
donde ( +
)representa el riesgo de enfermedad en los expuestos y ( + )el riesgo de enfermedad en
las personas no expuestas.
(4)
El RR no siempre es una medida adecuada por ejemplo para los estudios caso-control no debe
calcularse, sin embargo es posible calcular para cualquier caso una medida indirecta del riesgo: la razn de
productos cruzados.
La razn de productos cruzados (OR) calcula el nmero de veces que la respuesta ocurre por cada
vez que no ocurre. Si la respuesta ocurre con una probabilidad r y no ocurre con una probabilidad 1- r, la
medida odds de que ocurra dicha respuesta estar dada por:
% = &(1 &)
(5)
El odds se calcula tanto para el grupo de los expuestos como para los no expuestos. A partir de la
Tabla 1, el odds de enfermedad para los expuestos estar dado por a/b y para los no expuestos por c/d.
Entonces la razn de productos cruzados o razn de odds (OR) que compara el riesgo en expuestos y no
expuestos es:
) =
(6)
Para lograr un intervalo de confianza (EI, ED) aproximado al 95% para OR se emplean las siguientes
expresiones:
= *.( *) (7)
= *.( *) (8)
donde: (ln RR) = # + + + (9)
16
2.3 Interpretacin de las medidas clsicas
Tabla 2.Interpretacin de RR y OR
RR OR Interpretacin
>1 >1 Asociacin (factor confiere riesgo)
No asociacin (factor no confiere riesgo ni
1 1
proteccin)
<1 <1 Asociacin (factor confiere proteccin)
asumiendo como hiptesis:
H0: RR = 1 H0: OR= 1
H1: RR 1 H1: OR 1
Para probar la hiptesis nula se puede analizar el intervalo de confianza (EI, ED) asociado. Si (EI,
ED) contiene a la unidad, no existen razones suficientes para rechazar la hiptesis fundamental, en caso
contrario, s se rechaza, teniendo en cuenta que:
Dos de los aspectos que contaminan normalmente la informacin en cualquier rea del saber, son la
imprecisin que tiene en su expresin y la incertidumbre que puede provocar la fuente que nos la
proporciona. Ciertas personas tienen suficiente habilidad para tomar decisiones correctas a partir de un
conjunto de datos que vienen expresados de forma vaga o imprecisa (borrosa), casi siempre utilizando
adjetivos o adverbios como mucho, poco, alto, bajo, normal, muy, entre otros. Tales personas pueden
controlar eficientemente un proceso tecnolgico, diagnosticar una enfermedad a partir de sndromes y
sntomas o tomar una decisin acertada en una determinada empresa e institucin. El ser humano se
desenvuelve con extraordinaria facilidad a la hora de manejar este tipo de informacin, sin embargo, cuesta
explicar que procedimientos sigue para ello [8]. En particular el diagnstico de enfermedades, implica mucha
incertidumbre. Una nica enfermedad se puede manifestar de manera diversa, en diferentes pacientes y con
distintos grados de severidad; estos efectos suelen generar muchas incertidumbres e imprecisiones que afectan
la interpretacin de los exmenes y diagnsticos. La teora de lgica borrosa ha sido desarrollada para lidiar
con el concepto de verdad parcial. Se considera una de las herramientas matemticas ms poderosas para
hacer frente a las incertidumbres, inexactitudes y verdades parciales, lo que permite la posibilidad del
tratamiento de problemas del mundo real, por ejemplo la deteccin del padecimiento de enfermedades como
las cardiovasculares, muchas veces con soluciones de bajo costo.
La matemtica de conjuntos borrosos que podra denominarse como clsica, se basa en la lgica
aristotlica fundamentada en el principio que muestra que una proposicin nicamente puede ser verdadera o
falsa (1,0 respectivamente) , pero no ambas cosas a la vez, es decir no existiendo ningn grado de verdad
intermedio. Como consecuencia de dicho principio, en la teora de conjuntos, para un subconjunto A definido
sobre un conjunto universo o referencial X, un elemento del universo pertenece o no pertenece a dicho
conjunto A, es decir, no existe ningn tipo de ambigedad sobre su pertenencia.
17
,- (.): 0 20,15
1 .8
. 0 ,- (.) = 7
0 .8
(10)
Un conjunto borroso es un conjunto para el cual la pertenencia de un elemento est definida de forma
borrosa. As, si se denomina X como al universo o conjunto referencial, un subconjunto borroso, que se
denotar de la siguiente manera A , es aquel en el que la pertenencia de un elemento x X tiene asignado
un nivel de verdad que puede tomar valores en el conjunto continuo [0,1]. El nivel de pertenencia de un
elemento x vendr dado por su funcin de pertenencia o funcin caracterstica A (x ) . Luego se puede
definir a un subconjunto borroso como 8 = 7;., ,- (.)< | x X? siendo la funcin de pertenencia:
,- (.): 0 @0,1A
. 0 ,- (.) @0,1A
(11)
Un estudio en epidemiologia requiere que dos distinciones principalmente sean hechas una entre
quienes realmente estn expuestos a factores de riesgo que se estn analizando y quienes no y otra sobre
quienes realmente padecen o no la enfermedad. Estas distinciones estn sujetas a errores, prejuicios y
subjetividades. Dentro de las investigaciones en epidemiologia tambin aumenta su complejidad la necesidad
de analizar muchas variables independientes, determinar cmo interactan en un determinado conjunto estas
variables, medir el grado de exposicin a un factor determinado, etc. [2]
Por ejemplo la frecuencia de la hipertensin est relacionada con la edad y el sexo y estas variables
interactan entre s: antes de los 50 aos, los hombres son ms propensos a la hipertensin, pero despus de
50 aos, las mujeres son ms propensas [9].
Otra complicacin surge cuando se hace necesario establecer una estimacin de la gravedad de la
enfermedad estudiada [9].
Teniendo en cuenta todo esto se logra ver el tratamiento dicotmico de las variables utilizado por el
lgebra y la lgica booleana no siempre representa la realidad existente si est vinculado a la epidemiologa
[2].
Por todo esto en [2] se propone un nuevo enfoque para el estudio a travs de los conceptos borrosos.
Cada individuo ser considerado expuesto o no a un factor de riesgo de acuerdo con una determinada funcin
de pertenencia. Su categorizacin como enfermo o no se realizar de acuerdo con otra funcin de
pertenencia. A partir de esto, el anlisis de riesgo puede realizarse a travs de la aplicacin de la teora de
conjuntos difusos, lo que permite el clculo aproximado de la Razn de Riesgo Borrosa (FRR) y la Razn de
Probabilidad (FOR).
18
Como se mostr en los epgrafes anteriores el RR es un ndice de asociacin, siendo el riesgo de un
evento o el desarrollo de una enfermedad en relacin a la exposicin a un factor o factores determinados.
C(D | E)
RR =
C(D | E)
(12)
donde P(D | E) representa la probabilidad condicional de que alguien desarrolle la enfermedad, dado que haya
estado expuesto a los factores de riesgo y P(D | E)representa la probabilidad condicional de que alguien
desarrolle la enfermedad, dado que no haya estado expuesto a los factores de riesgo.
A partir de que el riesgo relativo se obtiene usando probabilidades condicionales se propone que el
riesgo borroso se defina en trminos de posibilidades relativas, donde la clasificacin de los individuos en
cuanto a la exposicin y su respuesta es decir el posible padecimiento de la enfermedad, sea borrosa.
(.) = ,- (.). 0
(13)
LM(N | O)
K =
LM(N | O)
(14)
Poss(A | B) = maxVW ;min (Z (x), [ (x))<
(15)
donde (x)es la distribucin de posibilidad y Z (x)la funcin de pertenencia y Poss(D | E) la posibilidad
relativa de desarrollar una enfermedad dado que se ha estado expuesto a un cierto factor de riesgo y Poss \D |
E] la posibilidad relativa de desarrollar una enfermedad dado que no se ha estado expuesto a al factor de
riesgo.
19
3.2 Razn de productos cruzados borrosa
(16)
Un enfoque borroso para OR debe considerar los grados de pertenencia para los individuos en cada
uno de los subconjuntos borrosos (expuestos y enfermos). El siguiente paso es considerar la posibilidad
relativa, en lugar de la probabilidad condicional para cada uno de los subconjuntos borrosos. Por lo tanto, el
estimador de riesgo Razn de Oportunidades (FOR) se puede definir de la siguiente manera:
L(N | O)L(N | O)
K) =
L(N | O)L(N | O)
(17)
donde el operador representa el operador de conjuncin se opera como el mnimo de los dos elementos.
20
Riesgo, es la variable dependiente. Ella tiene dos categoras que son: Alto y No Alto. Cada caso fue
etiquetado por un Comit de Expertos del Proyecto PRODEC, compuestos por mdicos de diferentes
especialidades y de reconocido prestigio en Cuba. [11]. Para los especialistas pertenecientes a dicho Comit,
era interesante obtener un ndice de riesgo apropiado para el alto riesgo cardiovascular, es por ello que la
variable dependiente riesgo tiene slo dos valores posibles, diferenciando as los pacientes con alto riesgo, del
resto del grupo.
Estos datos se tomaron y se transformaron, en un fichero con extensin arff. Estos ficheros tienen la
siguiente estructura:
La primera lnea se especifica un nombre, que no tiene que coincidir con el del fichero:
@relation nombre_que_eligi
Luego se especifica el tipo para cada atributo, se emplea una lnea para cada atributo.
A continuacin se especifica la clusula @data y se comienza a especificar los valores de los datos,
para ello se colocan en el orden en el que se especific los nombres de los atributos con su tipo, se separan por
comas y cada lnea representa una persona.
En la Tabla 6 se muestra el nuevo nombre, tipo y valores que recibe la variable en este fichero y se
construy adems el fichero txt con los lmites, segn se muestra en la Tabla 7.
21
Tabla 7. Tabla con los lmites para cada variable
A continuacin se muestra los resultados obtenidos con ayuda del r-Fuzzy para estos datos.
Primeramente se muestra una tabla con los valores para el riesgo clsico de todas las variables numricas.
A partir de la tabla 8 se puede concluir que para todas las variables ambos valores de RR y OR son
mayores que la unidad, lo que indica que todas ellas constituyen factores de riesgo.
Al analizar todas las variables, exceptuando las relacionadas con el colesterol, se observa que el
extremo izquierdo de su intervalo de confianza es superior a la unidad, corroborando as la afirmacin
anterior: estas variables constituyen factores de riesgo.
Por su parte, el intervalo de confianza asociado a las variables coltotal y colesldl contiene a la
unidad, luego esas son variables dudosas en cuanto a su relacin directa con el riesgo cardiovascular. Debe
aclararse que estos resultados no son concluyentes, con ellos slo se pretende ejemplificar. Para llegar a
conclusiones ms certeras debe aumentarse el tamao de la muestra y realizar estudios ms complejos.
22
Para la variable sistbas no se pudo calcular el valor de OR pero segn sus valores de RR y su
intervalo de confianza se puede decir que es un factor que confiere riesgo.
A continuacin se muestra una tabla con los resultados asociados al riesgo borroso para todas las
variables numricas.
Tabla 9.Resultados relacionados con el riesgo borroso
No Variable FRR FOR B
1 edad 1,053 1,053 0,201
2 1,326 2,359 5,254
3 0,4 0,4 -6,806
4 bebe 1,998 412,593 6,714
5 1,89 9,069 2,841
6 1,959 24,606 3,876
7 fuma 1,996 223,816 6,102
8 0,03 0,03 -4,198
9 0,835 0,835 -0,334
10 sistbas 1,328 2,46 5,464
11 1,419 1,769 2,484
12 0,992 0,992 -0,03
13 diastbas 1,328 2,5 5,545
14 0,576 0,576 -2,588
15 0,5 0,5 -3,494
16 glicemia 0,942 0,942 -0,24
17 0,424 0,424 -5,875
18 1,354 1,833 3,339
19 coltotal 0,534 0,534 -3,182
20 1,281 2,751 6,827
21 0,634 0,634 -1,889
22 colesldl 0,834 0,834 -0,792
23 0,434 0,434 -5,516
24 0,434 0,434 -5,617
La figura 1 muestra la relacin que existe entre los valores de beta y el riesgo borroso. Observe que
para valores de beta menores de cero, el riesgo es menor que la unidad, mientras que para valores positivos de
beta, el riesgo supera a la unidad.
23
A continuacin se presenta una tabla que permite la comparacin entre los resultados clsicos y
borrosos para las variables, se debe tener en cuenta que en los valores borrosos, se calcula para cada variable
un valor por cada beta y segn el valor de beta puede existir variacin en los valores.
En este epgrafe se mostraron los resultados obtenidos al aplicar las variantes clsicas y borrosas para
calcular ndices de riesgo a pacientes cardiovasculares de la ciudad de Santa Clara. Adems se puede observar
que el OR no se pudo calcular en el caso de la variante clsica en la variable sistbas sin embargo por la
variante borrosa este valor si se pudo mostrar lo que evidencia de alguna manera que utilizando esta variante
siempre podremos tener un valor para el riesgo y que este nos ayudara a tener una mejor perspectiva de los
efectos de este factor.
5. CONCLUSIONES
El clculo de medidas de riesgo es de gran importancia en Epidemiologa. En particular el riesgo
relativo clsico y la razn de productos cruzados se utilizan ampliamente, sin considerar las fuentes de
incertidumbres e imprecisiones que se asocian siempre a problemas mdicos. En este trabajo se muestran dos
alternativas viables: el riesgo relativo borroso y la razn de productos cruzados borrosa. El software r-Fuzzy
permite realizar los clculos de manera cmoda y rpida.
Las alternativas analizadas se utilizaron en una aplicacin real: el estudio de pacientes con elevado
riesgo cardiovascular de la ciudad de Santa Clara. A cada una de las variables involucradas en el estudio se
les calcul siempre que fue posible, el riesgo relativo y la razn de productos cruzados. Posteriormente se
obtuvieron estas medidas en sus variantes borrosas para todos los casos. Se realiz una comparacin entre los
resultados finales obtenidos y se puso de manifiesto la superioridad de los mtodos borrosos.
24
REFERENCIAS
[1] GMEZ, A. (2008), ndice de alto riesgo cardiovascular para el municipio de Santa Clara.,
in Facultad Matemtica, Fsica y Computcin. 2008, Universidad Central "Marta Abreu" de Las
Villas: Santa Clara.
[2] SIQUEIRA, N.R. (2001), Aplicaao da Teoria de Conjuntos Fuzzy a Problemas da
Biomedicina in Instituto de Fsica 2001, Universidad de San Paulo: San Paulo.
[3] ZADEH, L.A. (1965) Fuzzy Sets. Information and Control, 8, 15.
[4] DENODA, L. (2011), Sistema para el anlisis de tcnicas descriptivas y regresin borrosa.
Aplicaciones, in Facultad Matemtica, Fsica y Computacin. 2011, Universidad Central Marta
Abreu de Las Villas. .
[5] NGUYEN, H.T. and B. WU. (2006) Fundamentals of Statistics with Fuzzy Data, ed. S.B.h.N.
York.
[6] GONZLEZ PREZ, D. (2013), Sistema informtico para calcular medidas de riesgo
borroso., in Facultad Matemtica, Fsica y Computacin. 2013, Universidad Central Marta Abreu
de Las Villas: Santa Clara.
[7] ROTHMAN, K.J. (1986), Modern Epidemiology. Lippincott-Raven, EUA.
[8] CALVIO, M. (2003) Aclarando la Lgica borrosa (Fuzzy Logic). Revista Cubana de Fsica,
20, 5.
[9] JEKEL J.F., K.D.L., ELMOREY, J.G. (1996), Epidemiologia, Bioestatstica e Medicina
Preventiva. Artmed, Porto Alegre.
[10] GREENLAND, S. (1987) Interpretation and choice of eect measures in epidemiologic
analysis. American Journal of Epidemiology, 125, 761-768.
[11] GONZLEZ, E. (2005), Proyeccin del Centro de Desarrollo Electrnico hacia la
Comunidad (PROCDEC). 2005, Universidad Central de Las Villas.: Santa Clara.
25
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 26-33
Vt F
ESTIMACIN DE LA EXACTITUD DE UN TEST BINARIO EN
PRESENCIA DE DATOS FALTANTES IGNORABLES
M. . Montero Alonso, J. A. Roldn Nofuentes
Bioestadstica, Departamento de Estadstica e Investigacin Operativa, Facultad de Medicina, Universidad de
Granada, 18071, Espaa.
ABSTRACT
Sensitivity and specificity are fundamental parameters to assess the accuracy of a binary diagnostic test. In the presence of
partial disease verification, sensitivity and specificity cannot be estimated by applying estimation methods for binomial
proportions. In this study, we present different confidence intervals for the sensitivity and specificity of a binary diagnostic test
when in the presence of partial disease verification the missing data mechanism is ignorable. The different methods of estimation
are illustrated with an example.
RESUMEN
La sensibilidad y la especificidad son los parmetros fundamentales para evaluar la exactitud de un test diagnstico binario. En
presencia de verificacin parcial de la enfermedad, la sensibilidad y la especificidad no se pueden estimar aplicando mtodos de
estimacin de proporciones binomiales. En este trabajo se presentan los distintos intervalos de confianza para la sensibilidad y la
especificidad de un test diagnstico binario cuando en presencia de verificacin parcial de la enfermedad el mecanismo de datos
faltantes es ignorable. Los distintos mtodos de estimacin se ilustran con un ejemplo.
1. INTRODUCCIN
La constante evolucin de la Medicina en estas ltimas dcadas ha hecho que la Estadstica
desarrolle nuevos mtodos para resolver los nuevos problemas que se han ido planteando, siendo los mtodos
estadsticos para el diagnstico un tpico de especial relevancia. Un mtodo de diagnstico, tambin
denominado test diagnstico, es una prueba mdica que se aplica a un paciente para determinar la presencia o
ausencia de una cierta enfermedad. La mamografa para el diagnstico del cncer de mama y la prueba de
esfuerzo para el diagnstico de la enfermedad coronaria son dos ejemplos de tests diagnsticos. Cuando el
resultado de un test diagnstico es positivo (indicando la presencia provisional de la enfermedad) o negativo
(indicando la ausencia provisional de la enfermedad), dicho test se denomina test diagnstico binario y su
exactitud se mide en trminos de dos parmetros, la sensibilidad y la especificidad. La sensibilidad ( Se ) es la
probabilidad de un resultado positivo del test diagnstico cuando el individuo tiene la enfermedad, y la
especificidad ( Sp ) es la probabilidad de un resultado negativo del test diagnstico cuando el individuo no
tiene la enfermedad. La sensibilidad y la especificidad de un test binario dependen nicamente de la habilidad
intrnseca del test diagnstico para distinguir individuos enfermos y no enfermos; es decir, dependen de las
bases fsicas, qumicas, biolgicas con las que se ha desarrollado el test diagnstico. Para obtener los
estimadores insesgados de la sensibilidad y de la especificidad de un test binario es necesario conocer el
verdadero estado de enfermedad (presente o ausente) de cada individuo de una muestra aleatoria. La prueba
mediante la cual se conoce el verdadero estado de enfermedad de cada individuo se denomina gold estndar.
Una biopsia para el diagnstico del cncer de mama es un ejemplo de gold estndar.
En la prctica clnica es frecuente que el gold estndar no se aplique a todos los individuos de una
muestra, surgiendo el llamado problema de la verificacin parcial de la enfermedad. En esta situacin, si el
test binario se aplica a todos los individuos de una muestra aleatoria de tamao n y el gold estndar se aplica
solamente a un subconjunto de ellos, se obtienen las frecuencias dadas en la Tabla 1.
En esta Tabla, de los n individuos totales n1 tienen test positivo y n0 test negativo. De los n1
individuos en los que el test ha dado positivo, s1 estn enfermos, r1 no estn enfermos y u1 no tienen
verificado su estado de enfermedad y por tanto se desconoce si estn o no enfermos. Anlogamente, de los n0
individuos con test negativo, s0 estn enfermos, r0 no estn enfermos y u0 no tienen verificado su estado de
26
enfermedad y se desconoce si estn o no enfermos. Esta situacin se corresponde con estudios de dos fases
[1]. En la primera fase el test diagnstico se aplica a todos los individuos de la muestra y en la segunda fase
solamente una parte los individuos de la muestra son verificados con el gold estndar. En este tipo de estudios
la estimacin de la exactitud puede estar sesgada, denominndose a este sesgo workup bias o sesgo de
verificacin [2, 3]. Por tanto, el sesgo de verificacin surge cuando el estudio de la eficacia de un test
diagnstico se restringe a los individuos con el estado de la enfermedad verificado, dependiendo de la
asociacin entre la seleccin para la verificacin de la enfermedad y el resultado del test diagnstico. Esta
asociacin afecta directamente a las probabilidades de seleccionar un individuo para verificar su estado de
enfermedad, ya que la probabilidad de que un individuo sea seleccionado para verificar su estado es alta
cuando el resultado del test diagnstico es positivo y es baja cuando es negativo, de tal forma que, una fuerte
asociacin entre la seleccin para la verificacin y el resultado del test produce un gran sesgo, y por el
contrario, cuanto mayor es la tasa de pacientes verificados menor es el sesgo de verificacin.
Para ilustrar cmo funciona y afecta a los estimadores de la exactitud de un test diagnstico, se puede
considerar el ejemplo de la estimacin de la sensibilidad de un test radiogrfico en el diagnstico de una
enfermedad coronaria [4], utilizndose como gold estndar una angiografa. Si la sensibilidad de la
radiografa es del 80% y se dispone de una muestra de 500 individuos enfermos a los que se les realiza una
radiografa, es esperable obtener un resultado positivo en 400 individuos y negativo en 100. Dado que la
angiografa es un procedimiento arriesgado y caro, si la probabilidad de verificar a un paciente de radiografa
positivo es del 75% y la probabilidad de verificar un individuo con resultado negativo es del 10%, al analizar
solamente los individuos verificados se obtiene que la sensibilidad del test radiogrfico es del 97%, con lo que
se ha sobrestimado la sensibilidad del test.
27
Sean las variables aleatorias binarias T, D y V las variables aleatorias definidas como sigue. La
variable T modeliza el resultado del test, siendo T = 1 cuando el resultado del test es positivo y T = 0
cuando es negativo; la variable D modeliza el verdadero estado de la enfermedad o resultado del gold
estndar, siendo D = 1 cuando el individuo est enfermo y D = 0 cuando no est enfermo; y la variable V
modeliza el proceso de verificacin de la enfermedad, siendo V = 1 cuando el individuo ha sido verificado
con el gold estndar y V = 0 cuando no ha sido verificado. Por consiguiente, el test diagnstico se aplica a
todos los individuos de la muestra, pero slo a un subconjunto de ellos se les aplica el gold estndar, con lo
que no se dispone de informacin del verdadero estado de la enfermedad para los individuos no verificados,
obtenindose la Tabla 1. Los datos de la Tabla 1 son la realizacin de una distribucin multinomial cuyas
probabilidades se muestran en la Tabla 2, donde Se es la sensibilidad, Sp la especificidad del test
diagnstico, p la prevalencia de la enfermedad, y ij = P (V = 1| D = i, T = j ) , con i, j = 0,1, las
probabilidades de verificacin, de tal forma que 11 es la probabilidad de seleccionar para verificar el estado
de la enfermedad un individuo enfermo con resultado del test positivo, 01 la probabilidad de seleccionar para
verificar el estado de la enfermedad un individuo no enfermo con resultado del test positivo, 10 la
probabilidad de seleccionar para verificar el estado de la enfermedad un individuo enfermo con resultado del
test negativo y 00 la probabilidad de seleccionar para verificar el estado de la enfermedad un individuo no
enfermo con resultado del test negativo. La funcin del logaritmo de la verosimilitud de los datos de la Tabla
1 es
l ( s1 + s0 ) log ( p ) + ( r1 + r0 ) log (1 p ) +
u1 log { p (1 11 ) Se + (1 p )(1 01 )(1 Sp )} +
(1)
u0 log { p (1 10 )(1 Se ) + (1 p )(1 00 ) Sp} + s1 log ( Se ) + s0 log (1 Se ) +
r1 log (1 Sp ) + r0 log ( Sp ) + s1 log ( 11 ) + s0 log ( 10 ) + r1 log ( 01 ) + r0 log ( 00 ) .
Si el proceso de verificacin es ignorable entonces el mecanismo de datos faltantes es MAR [7] y se
verifica que ij = P (V = 1| D = i, T = j ) = j = P (V = 1 | T = j ) . En esta situacin el proceso de verificacin
depende nicamente del resultado del test diagnstico y los estimadores mximo verosmiles de la
sensibilidad y especificidad [2, 3] son
= n1 s1 ( s1 + r1 )
Se , (2)
n1 s1 ( s1 + r1 ) + n0 s0 ( s0 + r0 )
y
= ( s0 + r0 )
n0 r0
Sp . (3)
n1 r1 ( s1 + r1 ) + n0 r0 ( s0 + r0 )
Tabla 2. Probabilidades de la distribucin multinomial.
T =1 T =0
V =1
D =1 pSe11 p(1 Se)10
D=0 (1 p )(1 Sp)01 (1 p ) Sp00
V =0 pSe (1 11 ) + (1 p )(1 Sp )(1 01 ) p (1 Se )(1 10 ) + (1 p) Sp (1 00 )
Aplicando el mtodo delta, las varianzas estimadas de estos estimadores [1] son
( ) { ( )}
2 n r1 r0
Se
Var = Se 1 Se
+ +
n1n2 s1 ( s1 + r1 ) s0 ( s0 + r0 )
y
( ) { ( )} nnn
= Sp
1 Sp
2 s1 s0
Sp
Var + + .
1 2 r1 ( s1 + r1 ) r0 ( s0 + r0 )
28
Los estimadores de la sensibilidad y de la especificidad (ecuaciones (2) y (3)) no son estimadores de
proporciones binomiales, y por consiguiente la sensibilidad y la especificidad no se pueden estimar utilizando
los intervalos de confianza para proporciones binomiales. A continuacin se presentan varios intervalos de
confianza para la sensibilidad y la especificidad cuando en presencia de verificacin de la enfermedad el
mecanismo de datos faltantes es ignorable.
{ (
1 Se
estimadores, ln Se )} { (
1 Sp
y ln Sp )}
, sigue una distribucin normal de media ln {Se (1 Se )} y
ln {Sp (1 Sp )} respectivamente. De esta forma, los intervalos de confianza para logit ( Se ) y logit ( Sp ) son
logit Se ( )
z
(
1 2 Var logit Se ( ))
y
logit Sp ( )
z
(
1 2 Var logit Sp ( ))
respectivamente, siendo las respectivas varianzas
( ( )) = n + r1 r0
n n s ( s + r ) + s ( s + r )
logit Se
Var
1 2 1 1 1 0 0 0
( ( ))
n s1 s0
logit Sp
Var = + + .
n1n2 r1 ( s1 + r1 ) r0 ( s0 + r0 )
Finalmente, los intervalos de confianza logit para la sensibilidad y para la especificidad son
( ) (
exp logit Se z1 2 Var logit Se
( ))
,
( )
exp logit Se
+z
( ( ))
1 2 Var logit Se
Se
( ) ( ( ))
( ) (
1 + exp logit Se z1 2 Var logit Se 1 + exp logit Se + z1 2 Var logit Se
( ))
y
( ) (
exp logit Sp z1 2 Var logit Sp
( ))
,
( )
exp logit Sp
+z
( ( ))
1 2 Var logit Sp
,
Sp
( ) ( ( ))
( ) (
1 + exp logit Sp z1 2 Var logit Sp 1 + exp logit Sp + z1 2 Var logit Sp
( ))
respectivamente.
29
2.3. Intervalo de confianza mediante imputacin mltiple
La imputacin mltiple [7] es una tcnica basada en la simulacin que consiste en sustituir los datos
faltantes por un conjunto de m posibles datos, dando por resultado un sistema de m > 1 conjuntos de datos
completos, y que requiere que los datos faltantes se originen de forma aleatoria. En cada conjunto de datos
completos se calculan los estimadores de los parmetros y sus errores estndares, que, combinados mediante
reglas aritmticas, dan un resultado que tiene en consideracin los valores faltantes. Harel y Zhou [6] han
aplicado la imputacin mltiple de Rubin para estimar la sensibilidad y la especificidad de un test diagnstico
binario en presencia de verificacin parcial de la enfermedad, empleando para ello varios intervalos de
confianza para proporciones binominales. El mtodo de Harel y Zhou tiene las siguientes fases:
( )
faltantes dado los datos observados Yobs = {( si , ri , ui ) , i = 0,1} es una distribucin multinomial, esto es,
(u 1j , u0 j ) Yobs , ( )
M u j , (1 j / + j , 0 j / + j ) , j = 0,1,
donde ij es la probabilidad de que una unidad se est en la celda ( i, j ) y + j = i ij . Para los parmetros de
la distribucin multinomial se elige una distribucin a priori de Dirichlet, de tal forma que
( s , r ) M ( n, )
D ( )
Y D ( ' )
donde ' = + ( s, r ) y D ( ) es una distribucin Dirichlet con parmetro . Finalmente, la imputacin de
los datos se realiza mediante modelos log-lineales.
2). Fase de anlisis. Tras imputar los datos, se obtienen m conjuntos de datos completos, obteniendo
( )
las estimaciones Q (1) , Q (2) ,K , Q ( m ) y las varianzas asociadas (U (1) ,U (2) ,K , U ( m ) ) para la sensibilidad y
especificidad. Harel y Zhou [6] han utilizado distintos intervalos de confianza para la sensibilidad y la
especificidad con los datos completos, entre ellos el intervalo logit de Rubin y Schenker [8].
3). Combinacin de resultados. Tras la obtencin de m conjuntos de estimadores y sus varianzas, se
utiliza la combinacin de reglas de Rubin de la siguiente forma. La estimacin global es Q = (1 / m ) Q ( i ) y
su varianza es T = U + (1/ ( m + 1) ) B , donde U = (1 / m ) U ( ) es la varianza estimada de los datos
i
completos, y (1/ ( m + 1)) B es la varianza debida a la imputacin de los valores faltantes, siendo
( ) (
T 1/ 2 Q Q t , donde los grados de libertad son = ( m 1) 1 + U / (1 + m 1 ) B . Finalmente, el )
2
intervalo de confianza a la confianza 100(1 )% es
Q t ,1 / 2 T .
Harel y Zhou [6] han propuesto este mtodo de imputacin mltiple para corregir el sesgo de
verificacin en la estimacin de la sensibilidad y de la especificidad, y han realizado unos experimentos de
simulacin para comparar el rendimiento de distintos intervalos de confianza mediante imputacin mltiple
con los intervalos de confianza de Beggs y Greenes y logit de Beggs y Greenes, obteniendo que el intervalo
que presenta un mejor rendimiento es el intervalo logit de Rubin y Schenker con la imputacin mltiple.
30
2.4. Intervalo de confianza cuadrtico
( Se Se ) ( Sp Sp )
2 2
=z 2
y = z12 2
Var ( Se ) Var ( Sp )
1 2
( ( )) m 1 ( ( )) + 1 m z ( ( ))
2
logit Se 4Sez
logit Se
z1 2 Var 1 2 Var logit Se 1 2 Var
Se
2 z1 2 ( logit ( Se
Var )
)
y
( ( )) m 1 ( ( ) ) + 1 m z ( ( ))
2
logit Sp 4Spz
logit Sp
z1 2 Var 1 2 Var logit Sp 1 2 Var
Sp ,
logit Sp
2 z1 2 Var ( ( ))
respectivamente. Estos intervalos tambin se pueden obtener aadiendo una correccin por continuidad, de tal
forma que las ecuaciones son
( Se Se 0.5) ( Sp Sp 0.5)
2 2
= z12 2 y = z12 2 ,
Var ( Se ) Var ( Sp )
y repitiendo el proceso anterior se obtiene el intervalo de confianza cuadrtico con correccin por continuidad
para la sensibilidad y para la especificidad, siendo sus expresiones
( ( )) m 1 ( ) ( ( )) + n 1 m z ( ( ))
2
n z1 2 Var
logit Se 2n 1 2nSe
z
1 2 Var logit Se
2
1 2
logit Se
Var
Se
(
logit Se
2nz1 2 Var ( ))
y
( ( )) m 1 ( ) ( ( )) + n 1 m z ( ( ))
2
n z1 2 Var
logit Sp 2n 1 2nSp
z
1 2 Var logit Sp
2
1 2
logit Sp
Var
Sp ,
logit Sp
2nz1 2 Var ( ( ))
respectivamente.
Montero [9] ha realizado unos amplios experimentos de simulacin para comparar el rendimiento de
los intervalos de confianza anteriores, y de cuyos resultados se obtienen las siguientes reglas generales de
utilizacin de los intervalos de confianza. Para la sensibilidad:
31
- Cuando la prevalencia de la enfermedad es alta (por ejemplo, p = 90% ), utilizar siempre el intervalo
cuadrtico sin correccin por continuidad.
- En los dems casos utilizar la imputacin mltiple.
Para la especificidad:
3. EJEMPLO
Los resultados de la Seccin 2 se han aplicado al diagnstico de la estenosis coronaria. La estenosis
coronaria es una enfermedad coronaria que consiste en la obstruccin u estrechamiento de la arteria coronaria
comprometiendo la llegada de oxgeno al miocardio, y su diagnstico se puede realizar aplicando una
ecocardiografa con dobutamina. En la Tabla 3 se muestran los datos obtenidos al aplicar la eocardiografa
con dobutamina a una muestra de 1350 individuos utilizando como gold estndar una angiografa coronaria, y
donde la variable T modeliza el resultado de la ecocardiografa y la variable D el resultado de la angiografa.
32
ecocardiografa. Por tanto, se asume que el mecianismo de datos faltantes es ignorable. En la Tabla 4 se
muestran los valores de los estimaciones puntuales y los intervalos de confianza al 95% de confinaza.
Aplicando las reglas generales dadas en la Seccin 2.5, como la estimacin de la prevalencia es el 42.07%,
para la sensibilidad se utilizara el intervalo de confianza cuadrtico sin correccin por continuidad y para la
especificidad se pueden utilizar el intervalo cuadrtico sin correccin por continuidad, la imputacin mltiple
o el intervalo logit de Beggs y Greenes. En trminos de los intervalos cuadrticos sin correccin por
continuidad, la sensibilidad de la ecocardiografa con dobutamina es, con una confianza del 95%, un valor
comprendido entre el 80.2% y el 94%; y la especificidad de la ecocardiografa con dobutamina es, con una
confianza del 95%, un valor comprendido entre el 80.4% y el 86.9%. Por tanto, la sensibilidad y la
especificidad tienen un valor alto (al 95% de confianza), por lo que la ecocargiografa con dobutamina se
puede utilizar como un test de screening para el diagnstico de la estenosis coronaria.
REFERENCIAS
[1] CARROLL, R.J., RUPPERT, D. & STEFANSKI, L.A., (1995). Measurement error in non-linear models.
Chapman and Hall, London.
[2] BEGG, C.B. & GREENES, R.A., (1983): Assessment of diagnostic tests when disease verification is subject
to selection bias. Biometrics, 39, 207-215.
[3] ZHOU, X.H., (1993): Maximum likelihood estimators of sensitivity and specificity corrected for verification
bias. Communication in Statistics - Theory and Methods, 22, 3177-3198.
[4] TAVE, M.E., ENAS, N.H. & WOODS J.R., (1987): Screening tests for enteropathy in children. American
Journal of Cardiology, 60, 1167-1169.
[5] ROLDN NOFUENTES, J.A. & LUNA DEL CASTILLO, J.D., (2007): The effect of verification bias in the
naive estimators of accuracy of a binary diagnostic test. Communications in Statistics - Simulation and
Computation, 36, 959-972.
[6] HAREL, O. & ZHOU, X.H., (2006): Multiple imputation for correcting verification bias. Statistics in
Medicine, 25, 3769-3786.
[7] RUBIN, D.B., (1987). Multiple Imputation for Nonresponse in Surveys. Wiley, New York.
[8] RUBIN, D.B. & SCHENKER, N., (1987): Logit-based interval estimation for binomial data using the Jefreys
prior. Sociological Methodology, 17, 131-144.
[9] MONTERO ALONSO, M.A., (2010): Intervalos de confianza y contrastes de hiptesis para parmetros de
tests diagnsticos binarios. Tesis Doctoral, Universidad de Granada, Espaa.
33
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 34-45
Vt G
APPLICATION OF THE MIXED CHINESE POSTMAN PROBLEM
MODELS AND EXPERIENCES WITH URBAN GARBAGE
COLLECTION: CASE STUDY IN JARDIM EUROPA/SP
A. Rigonatti*, Joo Amlcar Viana Rodrigues**,
Pablo Luis Fernandes Batista**, Marcos Jos Negreiros Gomes**1
*Engenharia e Tecnologia - Eng de Produo
Rua Casa do Ator, 275 Vila Olmpia
Cep: 04546-001 So Paulo SP
**Universidade Estadual do Cear (UECE)
Av Paranjana, 1700 Itaperi
CEP: 60740-000 Fortaleza/CE
ABSTRACT
This chapter considers the Chinese postman problem (CPP) applied to the urban garbage collection in the city of So Paulo,
at the region of Jardim Europa. We show how we proceed with a site prospection in garbage collection, from the daily service
collection plans used by the municipality. We used the mixed version of the CCP, and related models, to verify the Euler tours
and their costs of the planned routes used by the responsible to execute the local urban garbage collection. We explored the
solutions by using the available solvers Excel, LINGO and Xns. We evaluated 12 areas of daily collection, and
followed two of them in the field. The work revealed discrepancies and infeasibilities of the routes planned by the responsible
of doing the work. It also shows the results obtained by the solvers, compare their performance, and for the end we consider
the appropriateness of the mixed CPP to be applied to the reality of this context of garbage collection.
RESUMEN
Este trabajo considera el problema del cartero chino aplicado al contexto de la recoleccin de basura urbana a domicilio en la
ciudad de San Pablo, especficamente en la regin de Jardim Europa. Mostramos fue realizado un levantamiento de la
situacin de la recoleccin de basura, a partir de planos de la recoleccin diaria de la prefectura de la capital paulista.
Utilizamos una versin mixta del problema para verificar los recorridos eulerianos y el costo de las rutas planeadas por la
empresa ejecutora del servicio, exploramos los ambientes de modelado brindados por Excel, LINGO y Xns. Fueron
evaluadas 12 reas de recoleccin diaria, y se le dio seguimiento en el campo de estas reas. El trabajo revela las discrepncias
y la no factibilidad del planeamiento realizado y la entrega a la prefectura por la empresa responsable. Revelamos tambm el
resultado obtenido com los solvers, y por fin discutimos lo adecuado de la version del cartero chino mixto, aplicado a la
realidade de la recoleccin.
1. INTRODUCTION
Garbage collection in Brazil is a task which is in charge of the mayor ships, and is usually and daily
executed in most Brazilian cities. Data from year 2008 produced by IBGE indicate that 98% of homes in
urban areas have garbage collection service, while just 23% of homes are served in rural area. Data from
ABRELPE indicate that 54% of all collected trash in the country is in the southeast region, and that collected
trash in Brazil in 2010 reached an average of 306kg/habitant-year, in other words, Brazil produces about 160
thousand tons of trash per day, IBGE (2012), ABRELPE (2012).
These surprising marks put Brazil among the biggest garbage producers in the world, with very
high costs around R$ 4 billion/year. The cost of collection with equipment and staff only, indicate
approximately 50% of this amount, according to IBAM (2001).
The urban collection system efficiency is very important, once it regards to a task that, in cities, is
impossible to be realized in more verticalized regions in the morning and afternoon, considering traffic jam
and the hard mission of doing the garbage collection, house by house in overnight schedule.
The city of So Paulo is inserted in this context. Its diversity in urban occupation indicates the
necessity of an enormous daily work of the garbage collection municipal system. Specially, in the region of
1
Author for correspondence : negreiro@graphvs.com.br
34
Jardim Europa, the garbage collection is performed nightly and daily, in view of its big verticalization and
occupation, where trades of all kinds and condominiums of all sizes are mixed in this scenario. The region is
divided in several service areas and weve taken 12 of them for this study. 12 and 19t vehicles serve the
region from 7PM to 4:30AM the next day. The service is regularly performed from Monday to Saturday, no
holidays, with a crew composed by one driver and 3 or 4 collectors per vehicle.
The circuits project is executed almost accurately by drivers we followed. Primarily, they use the
basic path as a reference that indicates only one base route (with beginning and ending determined), and every
time a trip is performed, when the truck is full, the course is interrupted, changing to the unload local where it
was designated. Returning from the discharging, the driver retakes the course from where he stopped on last
route and then proceeds until all the collection area is concluded.
Although it is a work that presumes a previous project of routes and situation analysis, this study
identifies that plans made by the company are very flawed, and need to be remake. Thus it must be given
consciousness to drivers of various indiscretions they commit along the execution of their paths, and revised
with propriety the best way to serve each area minimizing tour costs, while considering idiosyncrasies
associated to daily work, such as: load fluctuations between collection days, availability and difficulty of
collection by collectors, traffic while collection is done, and other.
Beyond the point associated to production, this work also do an important analysis about the tours
problem. The format of using a basic circuit (an only support route) is adopted throughout the country,
besides provided in Guide produced by federal government, IBAM (2001). Unfortunately, however, the
Guide indications, figure 2, are little conclusive, considering cities topology and roads mesh. Actually, cities
have geometries quite different from the one shown in figure 2, and even the tour heuristic strategy, first
horizontals then verticals, be widely adopted, it doesnt fit in situation of extremely topological difficulty
that also includes the constraints of one-way and shunt (right, left and U-turn).
Figure 3: Adverse situations (PI04, PI06) to the tour according to proposed heuristic by IBAM.
Answers to questions above can direct better route projects, using computational resources
compatible with the problem, and that be available for it. This chapter intends to answer the three questions
above, through mathematical modeling of this mixed Chinese postman problem proposed by Kappauf &
Koehler (1979), and using EXCEL and LINGO softwares. It will also be used interactive visual modeling
process through Xns, Microsoft, LINDO Systems softwares, Negreiros et al (2009).
The chapter is divided as follows: in section 2 we describe the work we conducted in field minutely
in a preliminary watch of routes in Jardim Europa region, So Paulo city; in section 3 we put different ways of
making models of mixed Chinese postman problem using available software or common use ones; in section
4 we measure computational results obtained with our models and through used software, thereby we
compared with what it`s indicated to be the work practiced by the company, considering plans handed to us
by So Paulo mayor ship. In section 5 we introduce the real way the collection have been done, and the
correct way of doing the planning for this work. In section 6 we go along with conclusions of this paper.
This research began with the aim of developing an application for garbage collection, using
mathematical modeling with Excel. The expectations were that in one spreadsheet the proposed mixed
Chinese postman problem could be solved through Kappauf & Koehler (1979) apud Ahuja et al (1993) model,
while obtaining important evidences about the routes production process using this tool, Rigonatti & Souza
(2011).
2.1.Maps and information from So Paulo Mayor ship
The work began searching initially at mayor ship for maps of routes of homemade collection. Such
difficulty in obtaining them, but with insistence we succeeded with the one who was in charge, also
transferring a good number of routes (17) in digital plans of PDF format.
Faced with quantity of routes we received, we chose to do our job curiously related to collecting
areas next to his neighborhood. Imagining making our accessing and monitoring in field easier, perhaps it was
necessary to do so.
36
2.2.The monitoring in field work
With data in hand, we continued to gather relevant information about urban collection main
operation. First we tried to know the company, considering many difficulties in finding out feedback on
operational costs gathering such as: costs with tires, fuel, maintenance, or even knowing better payroll costs,
the beginning and ending of tours, etc. Indeed we didnt got much, however we focused in the resolution of
models limiting in collect the measures of street segments, in other words, the graph associated to each
problem instance. For this we used Google Maps, a web service for maps searching and visualizing, where
we got images from regions of chosen routes. Thus it was possible to get the distances between nodes from
road network and understand each route, in other words, find out the direction of highways and why the truck
cant pass along some streets, because they could be too narrow or the service wouldnt be necessary,
Rigonatti & Souza (2011).
Then the work of digitalizing the circuits on EXCEL was started, making the measures of each street
segment using Google Maps, indicating in spreadsheet the crossroads (vertices), street segments (arrows
one-way streets and links two-way streets). The painful work of building the graph mnemonically, made us
use the Xns system.
3. ROUTES MODEL
The most appropriate mathematical model of mixed Chinese postman considers the property of
unicursality of a mixed graph. This property indicates that one Euler circuit can be performed in any graph if
the quantity of connections that comes and leaves any vertex is conservative, in other words, it indicates that
there is a circuit with flow balance for all vertices of the circuit, without changing the graph properties, Eilselt
et al (1995).
The mathematical model for the mixed Chinese postman problem proposed by Kappauf & Koehler
(1979) can be described as follows:
(Mixed-CPP) Minimize c x +
ij ij c x +
ij e + c x
ij e (1)
+
<vi ,v j >A ( vi ,v j )E ( vi ,v j )E
subject to,
37
n n
x x
i =1
ij
i =1
ji = 0, j V (2)
xa 1 , a A (3)
xe + + xe 1 , e E (4)
xl , l A E + E (5)
In this formulation, the objective function (1) wishes to minimize the sum of crossed arrows costs,
plus the sum of crossed links in an E+ direction and in another E-. The constraints (2) keep the vertices
unicursality (balance of vertices entry and exit degree). The constraints (3) guarantee that arrows will be
visited at least once. The constraints (4) indicate that a link must be crossed at least once in one of two
possible directions. Finally the constraints (5) indicate that the number of times the connections are used in
the solution, must be integer.
The formulation used by Xns is a little different from the previous, because the graph is processed
like a graph changed from mixed to directed. On transformation, links become directed triangulations,
Sherafat (1988). From this transformation Xns runs a B&B algorithm based on network flows out-of-kilter
method, which starts with a greedy heuristic that concludes with a B&B method by Sherafat (1988),
obtaining, in the end of a specific time, one feasible or guaranteed optimal solution for the problem.
On Xns System environment, the creation process of a graph can be performed using images like a
background (.BMP), or drawings on .DWG format, and so they can be generated, where initially the vertices
are inserted then the connections are included. The edition process is quite simple, objectively selecting
buttons and with the mouse selecting the vertex position. The connection costs can be calculated directly,
by Euclids metric, or by manual edition of costs per connection (arrows and links). Xns generates a text file
(.DAT) to be used in a spreadsheet, where its possible to run models by Excel or LINGO.
When Xns generates the using graph solution, it returns the cost with initial boundaries of the
problem and heuristic solution, as well as final cost regarding the best solution found within the time
stipulated by user. It also returns the Euler tour multigraph that matches the founded solution, figure 4.
The Kappauf & Koehler (1979) formulation can be made on EXCEL in a quite simple way, as
shown on figure 4, spreadsheet from the example of graph on figure 5. The model indicates the first
constraints of flow conservation on nodes, than we have the constraints of minimum passages over the
arrows, and for the end the constraints of passages over the links.
38
Figure 5: Kappauf & Koehler Modeling (1979) by EXCEL.
Figure 6: Using the spreadsheet of EXCEL model to verify the practiced solution.
On LINGO system, the model contains a definition of data sets reading, variables and costs
parameters, and a process of algebraic modeling, as shown on figure 7. The data can be extracted directly
from a spreadsheet, using macros that request LINGO. The model returns the variables values, objective
function and the constraints values, as well as the run times and lower and upper boundaries achieved for the
instance. For simplicity, we show an example about the same instance used on indications above.
39
Figure 8: Solution of algebraic model by Kappauf & Koehler (1979) using LINGO.
4. RESULTS
In Table 1 we have initially the description of 12 instances used to evaluate routes from garbage
collection areas in Jardim Europa, So Paulo. The instances are described considering the number of
passages through links, indicated on plans of each mayorships area. Our work here was to identify how many
times in each street segment, a relative vehicle pass following the course its indicated on the plans tour. As
well as in all of them, beginning and ending of a route happen in different places, the number of infeasibility
have to be bigger than 2 for the performed path be considered impracticable.
Tests were made using a computer with the following settings: Core 2 Duo Intel T5550 1.83GHz,
3GB RAM, Windows 7, 32 bits.
Table 1 contains in GRAFO column names for each instance, in V, E e A columns we have the
number of links and arrows vertices on circuit respectively, in Perim column we have the likely perimeter of
the circuit (sum of the distances of the connections), in Viab column we have the circuit solution feasibility,
in Ns Inv column we have the indication of number of unviable nodes in the tour described by mayor ships
plans and in Perc column we have the likely length on the tour indicated by mayorships plans. The instances
and the spreadsheet referred here can be found in www.graphvs.com.br/xnes.
Table 1: Status of the plans used by the city hall of So Paulo to Jardim Europa.
Clearly it can be noted that several tours are with bigger perimeters, indicating there are many non
covered connections on graph. These connections should be necessarily covered, due to necessities of the
region they belong.
Table 2 describes the behavior of the models concerning Kappauf & Koehler (1979) model
application on LINGO software, and the B&B method proposed by Negreiros et al (2010) implemented on
40
Xns software. 15 are the instances evaluated 3 of which are other test instances from different site,
Teste_AR, Teste_MN e BH, and 12 instances (PI) from the So Paulo garbage collection.
There are 11 instances with a reasonable amount of vertices (>90) and four with few vertices (<70).
The three sets, vertices, arrows and links indicate the number of constraints on the model, while double the
number of links and the number of arrows indicate the quantity of integer variables on problem.
On Table 2, the first four columns (GRAFO, V, E, A) are the same as table 1, the columns 5 and 7
indicate to Xns, $ - total covered distance (gap% in relation to lower boundary of heuristic solution gap%
in relation to lower boundary of final solution), t processing time in seconds, Otim if the solution was
proved being optimal or just feasible. The columns from 8 to 10 indicate for LINGO, $ - total covered
distance (the number of the iterations of B&B method about the used model), t processing time in seconds,
Otim if the solution was proved to be optimal or if it returns a feasible solution.
Table 2: Comparison of the results obtained by Lingo, Excel and Xns for the set of test instances
For the end, table 3 shows a relation between solutions planned by mayor ship, all unfeasible, table
2, and the optimal solutions of instances that had its costs above the perimeter of the built mesh. In this case,
only these instances had all connections covered in both solutions. Only 2 instances got results that can be
comparable in the sense of distance travelled, although the plans given to mayor ship were all infeasible., they
are: PI10 and PI22. We observe that PI10 is 16,65% from optimal and PI22 is 6,10% from optimal.
Table 3: Practiced X Optimal solutions, when only two situations can be compared in the sense of
distance travelled, although the plans given to mayor ship were all infeasible.
It was used EXCEL Office 2007 version, in which the solver contains an algorithm of general math
programming (linear and nonlinear), based on conjugate gradient method or on Newton method, and
opportunely on Simplex, linear version, as you choice. On solver, there is no limitation of the variables on
integer values.
Although doesnt appear on table 2, we used all the methods without success on PI instances, but we
got a result for only one of them. The mistake obtained in most of them was with respect to the number of
adjusted cells, in other words, exceeded variable boundaries. In other the model found an unfeasible solution,
and even if we indicated continuity of the resolution, EXCEL still didnt solve. Lastly, EXCEL only solved
the trivial instance TESTE.
41
4.2. LINGO Results
We used the 13.0 version of LINGO , with unlimited number of constraints and variable of any kind
(linear, integer, binary). It was described the model of linear programming of unicursality, as the same shown
on section 2.8. The LINGO solver solved and proved the optimality of all PI instances and two of the test
ones, leaving only BH instance without description of feasible solution on final result. This instance was
placed purposely, because we needed curiously to know the optimal solution of the instance.
Tabela 2 - Resoluo de Modelo via Xns e LINGO
XNES LINGO Praticado
GRAFO V E A $ t Otim $ t Otim $
PI01 189 29 203 35218 (1.02-0.03) 7.379 Ok 35218 (149) 0 Ok 29510 (Invivel)
PI02 190 20 210 24571 (1.61-0.14) 5.627 Ok 24571 (77) 0 Ok 22424 (Inviavel)
PI03 132 14 160 18486 (1.57-0.54) 3.546 Ok 19486 (118) 0 Ok 15385 (Invivel)
PI04 91 23 106 29030 (2.38-0.02) 4.652 Ok 29030 (142) 0 Ok 22593 (invivel)
PI05 183 64 169 22733 (6.37-0.31) 301.73 vivel 22496 (439) 0 Ok 18949 (invivel)
PI06 131 74 113 45132 (5.37-0.23) 301.74 vivel 45014 (1010) 0 Ok 28880 (invivel)
PI07 57 4 87 17364 (0.99-0.39) 0.905 Ok 17364 (57) 0 Ok 16828 (invivel)
PI08 52 20 58 9532 (3.36-0.12) 2.436 Ok 9532 (289) 0 Ok 13943 (invivel)
PI09 34 48 4 11393 (15.81-0.05) 303.442 vivel 11103 (143631) 15 Ok 10480 (Invivel)
PI10 74 15 93 21631 (2.71-0.02) 4.105 Ok 21631 (181) 0 Ok 25233 (Invivel)
PI22 99 87 55 18641 (7.86-0.29) 301.87 vivel 18591 (9778) 2 ok 19725 (invivel)
PI25 218 121 149 28155 (7.43-0.13) 301.94 vivel 28281 (9327) 1 ok 21365 (invivel)
Teste 5 4 2 570 (0.0-0.0) 1.698 Ok 570 (1) 0 Ok 570 (timo)
Teste_MN 10 11 6 20 (17.65-5.26) 0.743 Ok 20 (101) 0 ok 20 (timo)
BH 283 267 185 48196 (9.94-0.5) 947.23 vivel 47592 (2M) 945 vivel -
Instance PI09 was the one which most took time to be solved, among the PIs, requiring 15s to be
concluded. Here it makes clear that the number of links in a mixed graph is important for the problem
treatment by Kappauf & Koehler (1979) model, nevertheless, LINGO proved optimality of the solution for
this instance.
On BH instance, LINGO returned a solution with gap=1,71% between LS=47592 and LI=46776, in
more than 2 million iterations of B&B method. The feasible solution cant be reported by LINGO, which
aborted the execution after 15m45s, being with more than 20 thousand nodes of B&B still opened on
memory.
Even so, in all analyzed cases, LINGO won the Xns in computing time, and solution achievement
of mixed PCC of PI instances.
4.3. Xns
It was used 2.01 version of Xns, in which B&B method implemented for the mixed PCC,
demonstrated be robust in all evaluated cases. However it revealed its difficulty on treatment of instances with
many links on street network, in relative to the number of arrows (PI09, PI22, PI25 and BH).
Although in many cases, the limit time of 300s hasnt returned the optimal solution, the difference to
the optimal, proved by LINGO, is very little, all below 0.2%. Besides that, for all cases, even BH instance,
Xns shown the final solution found, proving its big operational advantage, in relative to other, that is the
obtaining visualizing of currents feasible solutions found on maximum time chosen by user.
In all PI instances, the solution shown on plans by LOGA Company to So Paulo mayor ship is
impracticable, in other words, in all of them there is no Euler circuit/path that can be practicable in field. The
planned scripts were gave to the mayor ship are, so, wrong to be executed in an only trip, for the urban
garbage collection vehicle.
42
5. ADEQUACY OF ROUTES MODEL TO REALITY OF COLLECTION
While the Xns team took care of the PIs tour analysis, in So Paulo, we faced up in field the
verification of the garbage collection situation in two of them: PI04 and PI08. Our mission was to clear
questions about the collection fulfillment, because the preliminary results of the itineraries seemed weird, in
other words: we didnt understand the paths feasibility, neither if one only truck in one only trip could finalize
it in one day.
To follow the itineraries, we were equipped with video camera and followed by bicycle, the tours
realized by trucks on PI04. We began to follow at 9:32PM on April 16 2012 (Monday) and concluded at
3:59AM in the morning after. We followed step by step the development of the work by collectors, and
reported some of the following situations:
1. There were many prohibited handling, for example: the truck entered reverse in a one-way street, it
entered reverse within half of a block, and other;
2. Several streets were not covered;
3. Streets where the truck stops at the corner and doesnt proceeds the entering due to being narrow or
being difficult to handle U-turn (special collecting points);
4. The end of a path corresponds to beginning to the next (the driver follow the mayor ships scheme);
5. The collection was performed in different sides of a same street, which were not indicated on mayor
ships map.
The total tour on PI04 followed on four trips of the truck only inside the collecting area was
19,871m (not including trips to landfill). On average each trip was about 11-12t, using a compactor truck with
two axes of 12t with a crew of 3 collectors plus the driver. The truck left the base in Jaguar and made the
evictions on the transfer station Ponte Pequena (Av do Estado, 230). A sketch of this coverage can be viewed
on figure 7, where we can see at the left the PI04 in city boroughs and at the right each collection trip in
different colors.
On April 25th, 2012 (Friday), we went to follow the collection again. However we followed the
wrong truck, and lost the collection of that day. Nevertheless we clarified the doubt about which truck makes
the collection in the area, because we thought they were two, but actually it was confirmed in only one, the
same on April 16th, 2012.
The total tour on PI08 followed on four trips of the truck only inside the collection area, was
24,980m (not including trips to landfill). An average for each trip was about 11-12t, using a compactor with
two axes of 12t with a crew of 3 collectors plus the driver. The truck left Jaguars pass in the transfer station
on Ponte Pequena. Lastly, collectors go to the base in Jaguar, the truck unload on the station, on Ponte
Pequena, and returns to the base. This time care was taken in interviewing a collector to better understand the
collection, and was obtained the following answers:
1. The collection is made everyday, except on Sundays. Holidays, only the main ones: Christmas, New
Years day and Workers day;
2. The number of trips varies from one to four on PI08. There are light days and very hard days,
Mondays are the worst days;
43
3. Running over, slashes, injuries and rain are the biggest difficulties faced up by the collectors;
4. Even with rain the collection doesnt stop. The company provides raincoats but collectors dont use
because according to the interviewed one, "raincoat doesnt let the skin to breathe", so that they get
very hot under the coat and when they take the coat off, they catch pneumonia. With rain, everyone
prefers collecting without raincoat. Told this quite naturally;
5. There is alcohol consumption while they wait for the truck to unload, it happens in general on cold
days;
6. The end of a path doesnt corresponds to the beginning of the next one (the driver doesnt follow the
mayor ships scheme);
7. They know well the path they do, and dont need the help of maps to fulfill their task;
8. Two sides of a street are covered and they arent reported on mayor ships map.
A sketch of this coverage can be viewed on figure 8, where we can see on the left the area and on the
right each collection trip in different colors.
Negreiros & Palhano (2011ab) indicate the best way to proceed with the garbage collection process,
when the situation has high variability like the one is applied in So Paulo. They showed that using a skilled
router system to garbage collection (SisRot Lix), developed by GRAPHVS Ltda. company, minimizes
apart from paths cost, the difficult handling. On router, routes schemes based on processes of first routing
then grouping, routing-grouping-routing or grouping then routing, produces different solutions that can differs
up to 20% from the lowest cost possible for doing it.
The selection of the best strategy depends obviously on the street network, on the topology of the
city and on the daily garbage production of the region under analysis. The most appropriate way of planning
the tours is indeed analyzing area by area. Knowing that it will be four daily trips, plans for one, two, three
and four trips must be produced to minimize the global cost of collection process. If it holds the control of
each well defined and dimensioned area, it has to resize the whole region using districting processes, to
minimize fleet and / or the number of trips of the process.
6. CONCLUSIONS
This work presented two important studies: adequacy of mixed PCC models to reality and to
garbage collection in Jardim Europa.
In the first part of the study, the application of the mixed Chinese postman problem was
considered, for sizing garbage collection areas in So Paulo city. In this case, all the analyzed official tours
were unfeasible, in other words, they were not close to reality of an Euler circuit possible of being done. The
models used for calculating the optimal routes of mixed PCC had wide success on 12 tested areas. The
version of Kappauf & Koehler (1979) model found the optimal solution in all cases of PIs executed on
LINGO software. In the Xns, 5 of the 12 instances were not solved on optimality. However those which
were not solved were less than 0.2% far from optimal. On EXCEL it wasnt possible to find solutions for the
selected PIs instances, showing that the solver doesnt fit the model.
44
In the second study, which occurred in parallel with the first one, we tried to understand the
garbage collection of So Paulo in Jardim Europa region. We followed step by step the task of garbage
collection in two PIs, with a relative success in the first and entire triumph in the second. As result we
understand the collection difficulties and to equate the possible ways to doing better itineraries for the garbage
collection, from planning using appropriate routers, that consider all aspects found in field (special collecting
points, economic handling, redistribution of garbage load).
REFERENCES
[1] ABRELPE (2012), http://www.abrelpe.org.br, Associao Brasileira de Empresas de Resduos
Slidos (2012).
[2] AHUJA, R.K., MAGNANTI, T.L., ORLIN, J.B, (1993):Network Flows Theory, Algorithms and
Applications, Prentice Hall, Upper Saddle River, New Jersey.
[3] EILSELT, H.A.; GENDREAU, M., LAPORTE, G. (1995): Arc Routing Problems, Part I: The
Chinese Postman Problem. Operations Research, 43(2), 231-242.
[4] FORD, L.R., FULKERSON, D.R. (1962): Flows in Networks, Princeton University Press,
Princeton, New Jersey
[5] GOOGLE MAPS. ( http://maps.google.com.br/maps?hl=pt-BR&tab=wl ).
[6] GRAPHVS (2012): Graphvs Cons. Com. & Rep. Ltda. ( www.graphvs.com.br/Xnes )
[7] IBAM (2001), Manual Gerenciamento Integrado de Resduos Slidos. Secretaria Especial do
Desenvolvimento Urbano (SEDU), Governo Federal.
[8] IBGE (2012): http://www.ibge.gov.br, Censos 2000 e 2010.
[9] KAPPAUF, C., H. KOEHLER (1979),The mixed postman problem. Discrete Applied Mathematics
1, 89-103
[10] LINDO (2012)Systems, ( www.lindo.com )
[11] NEGREIROS GOMES, M. J. , COELHO, W.R., PALHANO, A.W.C, COUTINHO, E.F, CASTRO,
G.A, NEGREIROS, F.J, BARCELLOS, G.C, RESENDE, B.F, PEREIRA, L.W.L (2009), O
Problema do Carteiro Chins, Algoritmos Exatos e um Ambiente MVI para Anlise de suas
Instncias: Sistema XNS. Pesquisa Operacional, .29, 323-363
[12] NEGREIROS GOMES, M. J. , PALHANO, A.W.C (2011a), Strategies for design routes to urban
garbage collection. Optimisation Days2011, HEC-Montreal.
[13] NEGREIROS GOMES, M. J. , PALHANO, A.W.C (2011b), Line graph transformations to the Euler
tour with moviment prohibition Problem. Annals of IFORS2011, Melbourne-Austrlia.
[14] NOBERT, Y.; PICARD, J-C (1996), An optimal algorithm for the Mixed Chinese Portman Problem.
Networks 27, 95-108
[15] RIGONATTI, A. ; SOUZA, L. D. (2011), Otimizao de Rotas em Caminhes de Coleta de Lixo
Urbano. TCC Eng de Produo, Universidade Anhembi Morumbi, p. 45.
[16] SHERAFAT H. (1988), Uma Soluo para o Problema do Carteiro Chins Misto, Anais do IV
CLAIO XXI SBPO, 157-170, Rio de Janeiro.
45
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 46-52
Vt
Vt H
REGRESIN NO PARAMTRICA: ESTIMADOR
POLINOMIAL LOCAL
N. Boukichou-Abdelkader*, M.. Montero-Alonso**; A. Muoz-Garca***
y P. N. Canrio****
*Centro de Investigacin Ceiis - IdiPAZ. Hospital Universitario La Paz. Madrid. Espaa.
**Departamento de Estadstica e Investigacin Operativa, Universidad de Granada, Espaa.
***Departamento de Estadstica, Universidad Carlos III de Madrid, Espaa.
****C3i, Polytechnic Institute of Portalegre, P -7300 -110, Portalegre, Portugal.
ABSTRACT
The Nonparametric Regression techniques achieve a better fit to the available data by obtaining closer estimations to the
underlying regression curve. This is possible using information directly provided from the data without making rigid
parametric models. Using kernSmooth, locpol, locfit and sm libraries of the R statistical software, univariate methods called
local polynomial regression have been explored as a good solution, given their good theoretical properties and their desirable
features of interpretability and simplicity in practice, making a polynomial fit to the observations that fall in the band,
automatically correcting border effects. Therefore, the intended objective is to facilitate better modeling of data from a study
on the captopril drug, adjusting as much as possible to them by local polynomial estimator curve, as well as providing a better
interpretation of them in order to obtain good conclusions, main object of study in applied health sciences.
RESUMEN
Las tcnicas de Regresin No Paramtrica logran una mejor adaptacin a los datos disponibles, mediante la obtencin de
estimaciones ms prximas a la curva de regresin subyacente. Esto es posible usando la informacin suministrada
directamente desde los datos, sin formular rgidos modelos paramtricos. Utilizando las libreras kernSmooth, locpol, locfit y
sm del software estadstico R, se han explorado mtodos univariantes denominados mtodos de regresin polinomial local
como una buena solucin, dadas sus buenas propiedades tericas y sus deseables caractersticas de interpretabilidad y sencillez
en la prctica. Este mtodo realiza un ajuste polinomial con las observaciones que caen en la banda, corrigiendo de forma
automtica los efectos frontera. Dicho estimador queda determinado por tres parmetros fundamentales: el ancho de banda, la
funcin ncleo y el grado p. Por tanto, el objetivo que se pretende es facilitar mejor el modelado de los datos estudiados
ajustndose lo mximo posible a ellos mediante la curva del estimador polinomial local, as como, ofrecer una mejor
interpretacin de los mismos con objeto de obtener unas buenas conclusiones, objetivo principal del estudio.
1. INTRODUCCIN
Para cualquier estudio de regresin se definen dos vas de solucin, por un lado la regresin
paramtrica o clsica que presenta la ventaja de ser ms sencilla y menos costosa desde el punto de vista
computacional, pero que suele ser muy poco flexible y de difcil adaptacin en situaciones complejas.
Paralelamente y no necesariamente en contraposicin (puesto que ambas pueden ir de la mano) estara la
regresin no paramtrica, destacando fundamentalmente su flexibilidad, ya que permite una mejor adaptacin
a diversas situaciones y problemas, si bien requiere de un elevado coste computacional y una mayor
complejidad desde el punto de vista terico.
46
variable de respuesta se consideran de forma individual, lo que obviamente permite ganar en simplicidad y en
interpretabilidad.
2. MTODO
Sea un conjunto de n observaciones, {( X i , Yi ), i = 1,..., n}, de una variable aleatoria bidimensional,
( X , Y ), satisfaciendo el modelo,
Yi = m( X i ) + i i = 1,..., n,
donde los residuos i son variables aleatorias independientes con media cero y varianza 2 ( X i ) y la
funcin m es desconocida y se define como la funcin de regresin, m( x) = E[Y X = x] . Este planteamiento
univariante basado en un diseo aleatorio, donde las observaciones constituyen una muestra aleatoria de la
poblacin ( X , Y ) y las varianzas de los errores se suponen distintas.
Para alcanzar tales objetivos se puede optar por una regresin paramtrica, y supone que la funcin
de regresin desconocida, m, pertenece a alguna familia paramtrica de funciones, m {m } mediante
mnimos cuadrados. La regresin no paramtrica ([1], [2] y [3]), no asume ninguna forma paramtrica para la
funcin m, y la nica restriccin que se le impone es que sea suave, entendiendo esta suavidad en trminos de
derivabilidad.
Los primeros estimadores de regresin no paramtrica propuestos fueron los sencillos estimadores de
tipo ncleo [4] y [5], estimadores que se han ido refinando y perfeccionando dentro de los denominados
mtodos de regresin polinomial local, convirtindose en uno de los mtodos ms empleados por diversos
analistas en la actualidad, ya que obtiene un estimador sencillo y corrige de forma automtica los efectos
frontera.
La regresin polinomial local2 supone que la funcin de regresin m, tiene p derivadas en un punto
x0, obtenindose una aproximacin para los valores en un entorno de x0.
1
Cada vez son ms habituales realizar estudios con R, software libre y de gran versatilidad, que permite utilizar libreras ya creadas y
adaptarlas a nuestras necesidades. Para los mtodos de regresin no paramtrica existen funciones disponibles en la librera bsica stats,
pero la utilizacin ms adecuada para dichos mtodos se puede conseguir a travs de funciones incorporadas en varias libreras
adicionales y que actualmente estn disponibles en la web, como son kernSmooth, locpol, locfit, sm y psplines, que recogen funciones que
calculan la estimacin de la densidad y de la funcin de regresin, el clculo de cantidades tiles asociadas a los ncleos, funciones para
el clculo directo de los estimadores, donde se implementan estimadores de tipo ncleo y de tipo polinomial local y funciones para la
seleccin del parmetro de suavizado mediante los mtodos plug-in, validacin cruzada y la sencilla regla del pulgar. Todas estas
libreras se pueden descargar en http://cran.es.r-project.org.
2
Dicho estimador queda determinado por tres parmetros fundamentales: el ancho de banda, la funcin ncleo y el grado p.
47
m' ' ( x0 ) m( p) ( x0 )
m( x) m( x0 ) + m' ( x0 )(x x0 ) + ( x x0 )2 + ... + ( x x0 ) p ,
2! p!
es decir, se puede aproximar localmente m por funciones polinmicas de grado p
p
Pp ( x ) =
j=0
j ( x x0 ) j ,
donde h es un parmetro denominado ancho de banda o parmetro de suavizado que controla las
observaciones que caen en cada entorno, K h ( u ) = h 1 K ( uh ) , donde la funcin K () , se denomina funcin
ncleo. Dicha funcin define las ponderaciones que se asignan a cada observacin en el entorno local
considerado. Habitualmente se supone una densidad simtrica y con soporte compacto, y p es el grado del
ajuste polinomial local.
3. ESTUDIO REALIZADO
Se ha realizado un anlisis con datos reales donde se han utilizado los datos Captopril and blood
pressure, ya utilizados en otros estudios ([6], [7], [8], [9], [10], [11], [12], [13] y [14]). Estos datos
corresponden a un estudio sobre el medicamento captopril en 15 pacientes con presin arterial alta y que van
a iniciarse con este tratamiento. Se trata de anotar la presin arterial en 4 momentos de tiempo tras la toma de
este frmaco y observar la alteracin que presenta en estos pacientes. Este medicamento pertenece al grupo
farmacolgico de los llamados inhibidores ECA (angiotensina). Se usa para tratar la presin alta. Tambin se
usa para ayudar a retrasar el mayor debilitamiento del corazn en algunos pacientes despus de un ataque al
corazn y para tratar problemas del rin en algunos pacientes diabticos que usan insulina para controlar su
diabetes y para tratar el fallo congestivo del corazn.
Con los datos de este frmaco administrado en los pacientes, se procede a ilustrar los mtodos de
regresin no paramtrica univariantes descritos anteriormente. Para ajustar el estimador polinmico local de
grado p se utilizar la funcin locpoly de la librera KernSmooth. El uso de dicha funcin se har
considerando en primer lugar una eleccin arbitraria del parmetro de suavizado o ancho de banda. En este
caso se ha considerado h = 0.25, no obstante tal y como se ilustrar despus, es posible utilizar elecciones
automticas, ms refinadas, como los criterios de seleccin cross-validation y plug-in.
En cuanto a la funcin ncleo considerada, la funcin locpoly por defecto usa ncleos normales
(argumento kernel =normal), y en este ejemplo se ha dejado dicha eleccin por defecto. De este modo se
comparar el resultado usando diferentes grados tal como muestra la Figura 3.1. Conforme se va aumentando
el grado del estimador polinmico local, las estimaciones son ms irregulares (concretamente en los extremos
y en la parte central), intentando capturar en mayor medida las observaciones consideradas. Ntese que esto
supone estimaciones que pagan la disminucin en el sesgo con un incremento notable de la variabilidad.
Tambin es notable ver cmo el incremento de p = 1 hasta p = 2 no supone una mejora del modelo (ni en
sesgo ni en variabilidad), siendo preferible usar grados impares frente a los inmediatamente consecutivos
pares [2].
48
Finalmente, se puede ver cmo las diferencias entre el estimador de Nadaraya-Watson [4] que
considera ajustes locales constantes (p = 0) no presentan mayores diferencias en las proximidades a las
fronteras, debido a que los ajustes lineales locales (p = 1) permiten una correccin automtica de los efectos
frontera (para ms detalles ver [1] o [2]).
A continuacin, se ilustra otro mtodo de suavizamiento para dichos datos mediante un estimador de
tipo spline. Existen funciones para dicho propsito en varias libreras de R (SemiPar, ssplines, esplines, etc.,
adems de la funcin smooth.spline dentro de la librera base stats). En este caso se ha considerado esta
ltima funcin y comparado con el resultado ofrecido por la funcin sm.spline, que implementa el estimador
descrito en Heckman y Ramsay [15] contenida en la librera pspline. Dicho estimador se define con un
parmetro de suavizado que por defecto considera un criterio basado en validacin cruzada o validacin
cruzada generalizada, dejando por defecto las definiciones que considera
dicha funcin. A efectos comparativos, tambin se ha incluido el estimador lineal local con ancho de banda
plug-in. De este modo, una vez generado el cdigo para dicho ajuste, los resultados ofrecidos se reflejan en la
Figura 3.2.
Figura 3.1: Estimador polinmico local de grado p para los datos del
medicamento captopril. La variable x son pacientes con captopril y la variable y es
presin arterial. El tamao de la hoja de datos es n = 60.
La Figura 3.2 muestra los ajustes realizados para los diferentes estimadores. Como se puede
observar los estimadores de tipo spline son idnticos, mientras que se puede ver que el ajuste del estimador
lineal local ofrece una estimacin ms suavizada que la de los splines.
El siguiente objetivo ser comparar todos los procedimientos disponibles para la seleccin del ancho
de banda, asociado al estimador lineal local. Los procedimientos para seleccionar el ancho de banda
considerado son los mtodos plug-in, validacin cruzada y la sencilla regla del pulgar. Agrupando las
funciones segn la metodologa de seleccin que implementan, se pueden hablar de selectores de tipo plug-in
(como la funcin dpill que forma parte de la librera KernSmooth, implementando el mtodo de Ruppert,
Sheather y Wand [16], y la funcin pluginBw dentro de la librera Locpol, que implementa el mtodo descrito
49
en las pginas 110-112 del libro de Fan y Gijbels [2]) y de selectores basados en Validacin Cruzada (la
funcin regCVBwSelC de la librera Locpol y la funcin h.select en sm).
Usando dichas funciones y dado que el objetivo es el parmetro de suavizado, se vuelve a fijar la
eleccin de la funcin ncleo de tipo gausiano. De esta forma, una vez implementado el correspondiente
cdigo, los resultados obtenidos para los parmetros de suavizado (h1, h2, h3 y h4) han sido, respectivamente:
1.841201; 0.5026756; 1.499924 y 8.713453.
Si se observan estos resultados se ve que en el clculo de h2, el parmetro segn el mtodo plug-in
dentro de la librera locpol, obtiene un valor muy pequeo en comparacin con los otros. En este caso, se
debera estudiar el procedimiento implementado puesto que si se observa la estimacin resultante (Figura
3.3), la curva estimada sufre de algunas irregularidades debido a la escasez de observaciones. Sin embargo, el
resultado correspondiente a los criterios basados en validacin cruzada (h3 y h4) son bastante diferentes,
observndose grandes diferencias que tendr que ver con la implementacin concreta que se ha hecho del
mtodo (en concreto con la rejilla de minimizacin definida para el criterio). Tambin, si se observa h1,
parmetro segn el mtodo plug-in dentro de la librera KernSmooth, el resultado es bastante parecido al de
h3, como se puede apreciar en las curvas estimadas, por lo que el mejor ajuste viene desde el mtodo de
validacin cruzada que implementa la funcin regCVBwSelC de la librera Locpol, que toma como ancho de
banda 1.50.
4. CONCLUSIONES
El frmaco captopril se usa principalmente para tratar la presin alta en pacientes hipertensos aunque
tambin se puede utilizar para otras condiciones segn lo determine el mdico (como insuficiencia cardaca,
infarto de miocardio y nefropata diabtica).
La utilizacin del mtodo de regresin polinomial local con estos datos reales es una buena solucin
de resultados, dadas sus buenas propiedades tericas y sus deseables caractersticas de interpretabilidad y
sencillez en la prctica. En la aplicacin se ha utilizado el software R como entorno de anlisis y
programacin estadstica y en concreto, algunas de las libreras especficas del mismo.
50
Tras implementar directamente el estimador polinomial local y obtenido su resultado, se ha realizado
una comparacin con el estimador de tipo Spline y con el mismo estimador variando uno de los parmetros
principales, como es el ancho de banda, con la finalidad de cotejar los resultados obtenidos.
Los resultados logrados mediante la aplicacin de estas tcnicas sobre los datos del frmaco captopril
se pueden enumerar en los siguientes puntos:
El estimador polinomial local se ajusta bastante bien a los datos en los grados ms bajos,
concretamente en los grados cero y uno (grados impares), y en grados ms altos, las estimaciones tienden
a presentar ms irregulares intentando capturar en mayor medida las observaciones examinadas.
El estimador de tipo spline implementado, mediante distintas funciones, ofrece resultados
idnticos, que comparndolos con el ajuste del estimador lineal local, este ofrece una estimacin ms
suavizada que la de los splines aplicados.
El estimador polinomial local utilizado con diferentes procedimientos para seleccionar el
ancho de banda, concretamente mediante los mtodos plug-in, validacin cruzada y la sencilla regla del
pulgar, presenta distintas irregularidades en la curva estimada, siendo el mejor ajuste obtenido el
implementado con el mtodo de validacin cruzada.
En definitiva, en la interpretacin trasladada a los pacientes reales se puede decir que las presiones
arteriales entre 120 y 170 pueden llegar a estabilizarse a los rangos normales mediante el frmaco captopril,
mientras que, las tensiones ms altas probablemente para que puedan normalizarse y se pueda apreciar una
buena disminucin de la presin arterial deba administrarse en combinacin con otros frmacos de la misma
clase y con efectos equivalentes.
51
REFERENCIAS
[1] WAND, M. P. and JONES, M. C. (1995): Kernel Smoothing. Chapman and Hall, London.
[2] FAN, J. and GIJBELS, I. (1996): Local polynomial modelling and its applications. Chapman and Hall,
London.
[3] LOADER, C. (1999): Local Regression and Likelihood. Springer, New York.
[4] NADARAYA, E.A (1964): On estimating regression. Theory Probab. Appl, 9, 141-142.
[5] WATSON, G. S. (1964): Smooth regression analysis. Sankhya Serie A, 26, 101-116.
[6] HEEL, R. C., BROGDEN, R. N., SPEIGHT,T. M. and AVERY, G. S. (1980): Captopril: A Preliminary
Review of its Pharmacological Properties and Therapeutic Efficacy. Journal Drugs, 20 (6), 409-452.
[7] MANCIA, G., PARATI, G., POMIDOSSI, G., GRASSI, G, ,BERTINIERI, G., BUCCINO, N.,
FERRARI, A., GREGORINI L., RUPOLI, L. and ZANCHETTI, A. (1982): Modification of arterial
baroreflexes by captopril in essential hypertension. The American Journal of Cardiology, 49 (6), 1415-
1419.
[8] FROHLICH, E., COOPER, R. and LEWIS, E. (1984): Review of the Overall Experience of Captopril in
Hypertension. JAMA Internal Medicine, 144 (7), 1441-1444.
[9] STEINER, S.S., FRIEDHOFF, A.J., WILSON, B.L., WECKER, J.R. and SANTO, J.P. (1990):
Antihypertensive therapy and quality of life: a comparison of atenolol, captopril, enalapril and propranolol.
Journal of Human Hypertension, 4 (3), 217-25.
[10] LACOURCIERE, Y., NADEAU, A., POIRIER, L. and TANCREDE, G. (1993): Captopril or
conventional therapy in hypertensive type II diabetics. Three-year analysis. Journal of the American Heart
Association, 21, 786-794.
[11] TESTA, M.A., ANDERSON, R.B., NACKLEY, J.F. and HOLLENBERG, N.K. (1993): The Quality-
of-Life Hypertension Study Group: Quality of life and antihypertensive therapy in men: A comparison of
Captopril with Enalapril. The New England Journal of Medicine, 328, 907-913.
[12] RUBIO, A. F., VARGAS, G., RODRGUEZ, L., LOZANO, J.J. and TREJO, N. (1998): Valoracin de
tres frmacos para el manejo no parenteral de las crisis hipertensivas. Rev. Med. interna Mx. 14 (3), 89-92.
[13] OLMEDO, V. H., ROSAS, M. and CAMPOS, G. (2000): Comparacin de la eficacia entre captopril
sublingual contra placebo en urgencias hipertensivas. Rev. Med. interna Mx. 16 (6), 303-307.
[14] NEZ, M. (2012): Eficacia del Captopril vs Amlodipino en el tratamiento de crisis hipertensiva tipo
urgencia en el Servicio de Emergencias del Hospital Provincial Docente Ambato en el periodo Noviembre
2010 - Febrero 2011. Repositorio CENI-UTA. Disponible en:
http://repo.uta.edu.ec/handle/123456789/920.
[15] HECKMAN, N. and RAMSAY, J.O. (1996): Spline smoothing with model based penalties. McGill
University, unpublished manuscript.
[16] RUPPERT, D., SHEATHER, S. J. and WAND, M. P. (1995): An effective bandwidth selector for local
least squares regression. Journal of the American Statistical Association, 90, 12571270.
52
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 53-66
Vt I
STUDIES OF CANCER PROBLEMS USING RANKED SET SAMPLES
A. I. Al-Omari*, C. N. Bouza**, A. Santiago *** and J. M. Sautto***
* Al al-Bayt University, Faculty of Science, Department of Mathematics, Jordan
**Universidad de La Habana, Cuba.
***Universidad Autnoma de Guerrero
ABSTRACT
We present some studies on cancer issues where samples are needed. Ranked set sampling (RSS) is
considered as a challenging model and it is compared with the behavior of simple random sampling
(SRS). The accuracy of RSS methods is larger than SRS. These results suggest that RSS allows
increasing the accuracy for a fixed cost or reducing the costs for a fixed error.
RESUMEN
Presentamos algunos estudios de problemas de cncer en los que se utilizan muestras. El muestreo por
conjuntos ordenados (Ranked set sampling, RSS) es considerado como un modelo competitivo y se
compara con el comportamiento del muestreo simple aleatorio (MSA). La precisin de los mtodos
basados en RSS es mayor que la del MSA. Estos resultados sugieren que el RSS permite incrementar
la precisin para un costo fijo o reducir los costos para un error fijo.
1. INTRODUCTION
In this chapter, we will present some studies where the well known ranked set sampling (RSS)
methods as well as some of its modifications are applied. The RSS was first suggested by McIntyre (1952) for
estimating the population mean of pasture and forage yields. He claimed without proof that RSS was more
accurate than simple random sample, its efficiency for estimating the higher population moments is better
than that of SRS unless if the underlying distribution is rectangular in shape. Takahasi and Wakimoto (1968)
have given a mathematical theory of RSS.
Definition A randomly selected sample from a larger sample or population, giving all the individuals in the
sample an equal chance to be chosen. (Cochran 1977).
RSS may be considered as a controlled random sampling design. It can be described as follows:
Step 1: Randomly select m2 units from the target population.
Step 2: Allocate the m2 selected units as randomly as possible into m sets, each of size m.
Step 3: Without yet knowing any values for the variable of interest, rank the units within each set with respect
to variable of interest. This may be based on personal professional judgment or done with
concomitant variable correlated with the variable of interest.
Step 4: Choose a sample for actual quantification by including the smallest ranked unit in the first set,
the second smallest ranked unit in the second set, the process is continues in this way until the largest
ranked unit is selected from the last set.
Step 5: Repeat Steps 1 through 4 for n cycles to obtain a sample of size mn for actual quantification.
For fixing some ideas, consider a random sample from a distribution F(x), which admits a density
function f (x), with a mean and a variance 2. With compared to SRS, RSS uses one unit, namely,
X 1(1:m ) , the lowest unit from this set, then X 2(2:m ) , the second lowest unit from another independent set of m
units, and finally X m ( m:m ) , the largest unit from a last set of m units. This process can be described in Figure
53
1. It is important to emphasize here, that although RSS require identification of as many as m2 units, but only
m of them.
The final m units X 1(1:m ) , X 2(2:m ) ,..., X m ( m:m ) , are independent but not identically distributed, but
Xi(i:m), is the ith order statistic in a random sample of size m from F(x). Thus making a comparison of a RSS of
size m with a SRS of the same size m is meaningful. Obviously, RSS would be a serious contender to SRS in
case where the task of assembly of the sampling units is easy and their relative rankings in terms of the
characteristic under study can be done with trivial cost.
m
(2i:m )
m
X i ( i:m )
X RSS = i =1
, Var ( X RSS ) = i =1
.
m m
The efficiency of RSS depends on the sampling allocation, either balanced or unbalanced. The
balanced RSS features an equal allocation of the rank order statistics. It has been proven theoretically and
demonstrated empirically that the variance of the balanced RSS estimator is no greater than that of the SRS
estimator regardless of ranking errors or the form of the underlying distribution of the characteristic of
interest.
In simple random sampling (SRS) the sampler must increase the sample size to increase the chance
of covering the full range of possible values and there is no other chance. With RSS, however, we increase the
representativeness with a specific number of sample units. Hence there is a saving considerably on the
quantification costs. With the ranked set sample thus measured, it can be shown that unbiased estimators of
many important population parameters can be obtained, including the mean and, in case of more than one
cycle, the variance. The relative precision (RP) of RSS with respect to SRS is defined as
Var ( X SRS ) m + 1
RP = 1, . Note that the RSS method cannot be worse than the SRS method (Patil
Var ( X RSS ) 2
1
2002; Takahasi and Wakimoto 1968). It is usual analyzing the behavior of RSS using GRP = 1 .
RP
Stokes (1977) studied RSS with concomitant variables. She assumed that the variable of interest X
has a linear relation with other variable Y that is easy to rank, and showed that (:) = , where is
the correlation between X and Y, and
1 m E (Y( i:m ) ) y
2
1 m (i:m ) x
2
RS[ X :Y ] =
m i =1 x
, RS Y =
m i =1
.
y
She showed that, RS X = RSY if X Y up to a linear transformation, since the relative savings
are unaffected by linear transformations of the variable of interest.
54
Commonly RSS behaves better if we repeat the procedure n times for obtain g a sample of size nm.
Then, if n > 1 we deal with
)=
n m
(2i:m )
m
X i ( i:m ) r
X RSS = r =1 i =1
nm
(
, Var X RSS i =1
nm
.
Kaur et al. (1996): compared RSS and stratified SRS when using a concomitant variable based on
equal and optimum allocation of units for estimating the population mean.
Patil et al. (1997) investigated the effect of the sample size upon the performance of the balanced
RSS for estimating the population mean.
Hossain (2001) suggested a nonparametric approach for the modified RSS method for estimating the
population mean, namely, nonparametric selected ranked set sampling.
Wang et al. (2004) proposed estimator of the population mean using the general ranked set sampling
in which more than one observation can be chosen from each ranked set.
Al-Saleh and Al-Kadiri (2000) introduced the double RSS procedure (DRSS) for estimating the
population mean. They showed that the ranking at the second stage is easier than ranking at the first
stage, and also the DRSS estimator is more efficient than that using RSS with respect to SRS based
on the same sample size.
Fortunately, in many fields, such as in medicine, environment, biology and agriculture, the variable of interest
is not easily measured, but it can be easily ranked with cheap or free cost. The RSS can be implemented to
yield more efficient estimator of the population parameters as compared to SRS based on the same number of
quantified units. Here, some examples on reported applications of RSS in real situations will be given.
Evans (1967) applied RSS to regeneration surveys in areas direct-seeded to longleaf pine. He noted
that the means based on both of RSS and SRS methods were not significantly different, but the computed
variances of the means were very different. Martin et al. (1980) applied the RSS procedure for estimating
shrub phytomass in Appalachin Oak forests. Cobby et al. (1985) conducted four experiments at Hurley (UK)
during 1983 to investigate the performance of RSS relative to SRS for estimation of herbage mass in pure
grass swards, and of herbage mass and clover content in mixed grass-clover swards. Johnson et al. (1993)
applied RSS method to estimate the mean of forest, grassland and other vegetation resources. Mode et al.
(1999) investigated under which conditions the RSS becomes a cost-effective sampling method for ecological
and environmental field studies where the rough but cheap measurement has a cost. They have introduced
formula for the total cost for both RSS and SRS, and present cost ratios for a real data set consisting of
judgment estimated and physically measured stream. Al-Saleh and Al-Shrafat (2001) studied the performance
of RSS in estimation milk yield based on 402 sheep. Al-Saleh and Al-Omari used the MSRSS to estimate the
average of Olives yields in a field in West of Jordan. Husby et al. (2005) investigated on the use of the RSS in
estimation of the mean and median of a population using the crop production dataset from the United State
Department of Agriculture. They found that the gain in efficiency for mean estimation using RSS is better for
symmetric distribution than asymmetric distribution, and vice versa in the case of median estimation.
Kowalczyk (2005) applied the RSS procedure in market and consumer surveys. Ganeslingam and Ganesh
(2006) applied the RSS method to estimate the population mean and the ratio using a real data set on body
measurement. The authors used the data of the weight and height of 507 individuals. Halls and Dell (1966)
coined McIntyres method as RSS and applied it for estimating the weights of browse and herbage in a pine-
hardwood forest of east Texas, USA.
55
3. ESTIMATION USING RSS
Let nm units be selected randomly from the target population and these units be randomly allocated into n
sets, each of size m units. From each set of size m one unit will be selected to get n measured units. We
consider some well know RSS estimators
( )
2
X i (i:m )r , Var ( X ) = i =1 (2i:m)
n m m m
2 i =1
=
(i )
X RSS = r =1 i =1 RSS ,
nm nm nm nm2
where E ( X i ( i:m ) ) = ( i ) .
It is clear that generally it is more efficient than
2
nm
Xi
X SRS = i =1
, Var ( X SRS ) = .
nm nm
Consider that the units to be quantified were chosen as in the following steps. First, let l1,,lm be
positive integers such that l1++lm =n. After ranking the units within each set with respect to the variable of
interest, the lowest ranked unit is measured from the first l1 sets; the second lowest ranked unit is measured
from the next l2 sets, and so on until the highest ranked unit is quantified from the last lm sets. Let Ti be the
sum of measurements of the ith ranked units for i = 1,2,..., m . Therefore, the unbiased RSS estimator of
1 m Ti
is X RSS = . The Neyman allocations fixes that li (i:m) . We have that
m i =1 li
m (2i:m )
i =1
li
if RSS is balanced
Var ( X RSS ) =
2
m
( )
2
i =1 (i:m )
m
Some alternative estimators for the mean have been developed. We revise some of them.
Al-Saleh and Al-Omari (2002) introduced a multistage ranked set sampling (MSRSS) as a
generalization of the DRSS. The MSRSS procedure can be described as:
Step 1: Randomly select mr+1 units from the target population, where r is the number of stages and m
is the sample size.
Step 2: Allocate the mr+1 selected units as randomly as possible into mr-1 sets, each of size m2.
Step 3: For each set in Step (2), use the procedure of balanced ranked set sampling as described in Section
2.2.2 to obtain a ranked set sample of size m. This step yields mr-1 ranked set samples each of size m.
Step 4: Repeat Step (3) on the mr-1 ranked set samples to obtain mr-2 second stage RSS samples each of size
m. The process continues until we end up with one rth stage RSS of size m.
Suppose that the variable of interest X has mean , and variance 2 with a pdff ( x) and cdf
(r )
F ( x) . Let X , X ,..., X
1
(r )
2
(r )
m be a MSRSS of size m at stage r, with mean , variance i2( r ) , pdf
i
(r )
56
( )
2
m
i =1 fi ( r ) ( x) i =1 fi (r ) ( x) 2( r )
m m m (r )
2 = + i =1 i
f ( x) = , = , i =1 i
.
m m m m
The inferences on the population mean are developed using:
( )
2
)=
m
i =1 X i( r ) 2( r )
m
2
m (r )
V ar ( X MSRSS = i =1
i =1 i i
=
(r ) (r )
X MSRSS , 2
.
m m m m2
( )
m (r ) 2
i =1
= 1+
(r ) i
The RP at the rth stage is RP .
m 2( r )
i =1 i
The authors defined a steady state efficiency of RSS at stage r to be as eff ( ) = lim eff ( r ) , and derived
r
() mf ( x ) if x Q , Q
So that fi ( x) f i ( x) =
(r ) i 1 i
m m.
0 otherwise
m 1 i
if x i ,
Hence if X U (0, ) , then f i ( )
( x) = m m and eff
( )
= m2 .
0
otherwise
Muttlak (1998a) conducted a study of the performance of MRSS to estimate the population mean of
a variable of interest when the ranking is based on a concomitant variable. Also, based on an auxiliary
variable the regression estimator is proposed to estimate the population mean. According to this study,
Muttlak showed that the MRSS estimator is more efficient than RSS and regression estimators.
For mean estimation based on RSS some other modifications have been developed:
Samawi et al. (1996) suggested a variety of extreme RSS.
Muttlak (1997) suggested a median ranked set sampling.
Samawi (2002) suggested double extreme ranked set sampling.
Yu and Lam (2002) proposed the RSS in the presence of concord data.
Al-Saleh and Al-Hadrami (2003) investigated the moving extremes RSS parametrically for
estimating the location parameter of symmetric distributions.
Muttlak et al. (2003) considered the random selection introduced by Li et al. (1999) based on RSS.
Muttlak (2003a,b) suggested percentile and quartile RSS methods.
Rahimov and Muttlak (2003) extended the random selection in RSS suggested by Li et al. (1999) for
estimating the population mean.
57
3.2. Estimation of the variance
(X X SRS )
mn 2
SRS = i =1
2 i
.
mn 1
An earlier work for estimating the population variance is Stokes (1980a). Based on judgment ordered using
balanced RSS she defined
(X X RSS )
n m 2
j =1 i =1
RSS
( i:m ) j
2
= .
mn 1
X ( i:m ) j is the quantification of the ith ranked unit in a set of size m in the jth replicate. She showed that it is a
biased estimator because
( )
m 2
E ( ) = + i =1
2 2 ( i:m )
.
nm 1
RSS
Clearly the bias approach to zero as nm becomes large. The performance of this estimator was
Var ( SRS
2
)
investigated and derived that lim RP = 1 . The author concluded that the gain in efficiency
n MES ( RSS
2
)
of RSS over SRS is little when estimating higher moments.
where
(X X (s) j ) (X X (r ) j )
m m 2 n m m 2
r s j =1 i =1
r =1 j =1 i =1
( r )i
( r )i
2
= ;
2
= .
2m(m 1) 2 n 2
M1 M2
2m n 22
It is unbiased.
Perron et al. (2004) developed a nonparametric study for the estimation of the population variance
2
under ranked set sample.
Y
The population ratio of two variables X and Y is defined as R = . The SRS estimator of the population
X
Y
ratio is R SRS = . This estimator. Samawi and Muttlak (1996) suggested an estimator of the population ratio
X
Zi (i:m) , Z = X , Y . The ranking of X is
m
Y
using ranked set sampling as R RSS = RSS , taking Z RSS = i =1
X RSS m
considered perfect while the ranking of Y has errors. Its variance is given by
R 2 X2 Y2 X Y i =1 X ( i ) i =1 Y [i ] 2
m 2 m 2 m
(
Var RRSS ) +
m X2 Y2
2
X Y m X2
+
m Y2
2 i =1 XY ( i )
m X Y
,
58
where X ( i ) = X ( i ) X , Y [ i ] = Y [ i ] Y and XY ( i ) = ( X ( i ) X ) ( Y [ i ] Y ) .
Based on the above table it is clear that the RSS is more efficient than SRS in estimating the
population ratio.
Bouza (2001) used RSS for selecting a sample using a third variable Z related with X and Y.
Y
R RSS ( Z ) = RSS .
X RSS
The results are basically equal but they are related with a superpopulation model that links Z and Y.
Samawi and Muttlak (2001) used the median RSS to estimate the population ratio.
Samawi and Tawalbeh (2002) introduced a double median RSS for estimating the population mean
and ratio.
For more about ratio estimation in RSS see Samawi and Saeid (2004), Al-Omari et al. (2009), Al-
Omari (2012).
Let X be a random variable with cumulative distribution function F(x). The pth quantile is,
p = inf { x : F ( x) p} for 0 p 1. When a sample is selected we may estimate F(x) using the
empirical distribution function
1, if X i x
Fnm ( x) = i =1 I ( X i x ) , I ( X i x ) =
mn
0, otherwise.
This is an estimator when a SRSWR sample of size nm is selected. In the case of RSS sample of size
mn we may use
1, if X (i:i ) k x
FnmRSS ( x) = k =1 i =1 I ( X (i:i ) k x ) , I ( X (i:i ) k x ) =
n m
0, otherwise.
The estimation of a quantile is obtained looking for the values of the sample quantiles. That is
The following authors have done works to estimate the pth quantile by different procedures as given
below.
Chen (2000) considered quantile estimation from balanced RSS data and found that the RSS
method can substantially improve the efficiency of quantile estimators.
Chen (2001) further generalized the results in Chen (2000) from balanced to unbalanced scheme.
Indeed, the quantile estimator considered in both Chen (2000, 2001) is based on the empirical
distribution of the pooled RSS data.
Kaur et al. (2002) proposed RSS sign test for population quantiles and identified the optimal
allocation, based on the quantile obtained, but not based on the underlying distribution.
59
Adatia and Saleh (2004) applied the generalized RSS method in estimating quantiles of the uniform
distribution.
Zhu and Wang (2004) considered quartile estimation using RSS under perfect ranking.
In clinical trials is necessary to select a sample of patients and assign to them the new medicaments.
Generally, there is a series of control variables in the files which may be used for designing RSS protocols.
The sequel presents some applications in cancer studies. They have some issues in common:
1. A population of patients has been studied and we have full response on the variables.
2. The further development of studies need establishing how more efficient is RSS with respect to SRS.
We decided taking the data and implementing RSS strategies. B independent samples were selected
and estimates computed for each one. They were compared with the true value of the parameter using
d
B
( )
A d =
b =1
B
b
, A = RSS , SRS .
Tumor size is an important predictor of survival in patients with early-stage lung cancer. Currently lung
tumors with a baseline value larger than 3 cm need of accurate assessing and treatment. Physicians use X-
Rays as a first evaluation for predicting the base line. The accuracy of the predictions of young physicians
must be evaluated. They use the X-Rays and predict the base line for calculating the outer mass of the tumor.
Currently the outer dimensions of the tumor are measured. Then for the patients is usually obtained:
X = Outer mass of the tumor.
If base line is larger than 3 cm. a more costly process is used to evaluate the size of the tumor cavity. That is if
the case seems to be grave. Hence the patient is reevaluated using Computed tomography (CT) and two
variables are considered:
Y1 = Outer mass measured using CT
Y2 = Filling-in of cavitation.
For evaluating both a set of 351 patients was analyzed. 133 patients received doublet chemo with an
antiangiogenic agent. Some of them experienced tumor cavitation during the treatment. Another group of 118
patients were treated with chemo alone on another trial. Samples are selected using SRS and RSS for
evaluating the behavior of estimators of the population mean. The results will support the use of one or other
sampling method for selecting patients to be included in clinical trials with new medicaments. We decided
using B = 1000 and three values of m = 2, 3, 5 and n = 5,10, 20 . The results were evaluated computing
SRS (YSRS ) SRS (YSRS )
R s = , R Msr = , r = 2,3 .
RSS (YRSS ) RSS (YMSRSS
(r )
)
60
Table 1: Efficiency of RSS alternatives for outer mass of the tumor using CT and filling-in of cavitation
Outer mass of the tumor
Filling-in of cavitation
using CT
Rs RMS2 RMS3 Rs RMS2 RMS3
m=2
n=5 1.23 1.43 1.49 1.81 2.07 2.83
n = 10 1.37 1.41 1.46 2.32 2.41 2.56
n = 20 1.42 1.48 1.51 2.77 2.79 2.94
m=3
n=5 1.27 1.30 1.44 2.01 2.11 2.49
n = 10 1.26 1.42 1.58 2.93 2.92 2.97
n = 20 1.35 1.52 1.69 3.07 3.04 3.10
m=5
n=5 1.33 1.39 1.47 2.90 2.84 2.99
n = 10 1.22 1.43 1.56 3.74 3.82 3.90
n = 20 1.38 1.49 1.61 4.02 3.97 4.04
Note that RSS is more accurate than SRS, for Y1 MRSS improve substantially the efficiency but it is
not important for Y2. These results allow diminishing the sample size fixed by SRS for obtaining a certain
level of accuracy. Hence a diminishing in the Clinical Trial costs can be attained by using RSS.
4.2. Problem 2: Measurement of the ratio of the interface between tumor and neighboring structures to
maximum tumor diameter
Median arch distance-to-maximum tumor diameter ratios for pleural invasion categories are classified as PL1,
PL2 and PL3. The protocol of the Union International Center of Cancer (UICC) established the staging
considering the Table 2
The data on preoperative computed tomography (CT) of 1342 patients were studied. They were
obtained form the files on 6 oncologic hospitals in the years 2009-2012. The length of the interface between
the primary tumor and neighboring structures (arch distance) and the maximum tumor diameter were
measured on CT images. The invasion categories were determined using the protocol.
61
The study was performed for patients in each stage. The results are given in the following table computing the
corresponding , A = SRS , RSS , RSS ( Z ) .
The analysis of the results suggests that the use of a Z increases the accuracy if its correlating is
higher that the correlation with X. In this case the correlating ZY = 0.9763 while XY = 0.8862 . The
existence of a larger stability in the values of the variables for PL3 is clearly the cause of the drastic
diminutions of the values of .
Another interesting problem is establishing how the intervals behave in the particular conditions of
the sampled hospitals. The quantities were estimated by using SRS and RSS. The objective is comparing the
particular behavior of the results with the suggested by UICC . The estimate of the mean and of the quantiles
were computed and compared with the standards fixed by UICC. The results of the calculated ,
A = SRS , RSS ; d = mean , 0.25 , 0.75 given in the next tables.
Table 3: Analysis of the accuracy of the estimations of the ratios in the different stages. SRS vs RSS
PL1 PL2 PL3
RSRS R RSS R RSS ( Z ) RSRS R RSS R RSS ( Z ) RSRS R RSS R RSS ( Z )
m=2
n=5 7.31 6.33 6.33 3.63 1.78 1.23 3.04 1.50 1.21
n = 10 5.43 5.37 5.24 2.13 1.69 1.26 2.05 1.44 1.17
n = 20 4.66 2.25 2.06 2.13 2.25 1.08 2.02 1.35 1.09
m=3
n=5 4.37 3.73 3.33 3.16 1.66 1.25 2.86 1.45 1.19
n = 10 4.64 4.14 4.04 1.93 1.48 1.25 2.74 1.45 1.10
n = 20 4.29 2.11 2.03 1.61 1.17 1.19 2.53 1.40 1.07
m=5
n=5 2.26 1.71 1.21 1.69 1.36 1.20 1.19 1.15 1.12
n = 10 2.23 1.64 1.24 1.64 1.30 1.18 1.13 1.15 1.12
n = 20 2.18 1.51 1.21 1.51 1.17 1.18 1.11 1.07 1.05
Note that the results on PL1 fix that RSS is more accurate for estimating the mean. For the quantiles
the gain due to the use of RSS is considerably larger.
Analyzing the results obtained in the stage PL2 again RSS is more accurate than SRS and the larger gains are
obtained in the estimating of the quantiles.
Table 4: Analysis of the accuracy of the estimations of the ratios in PL1. SRS
vs RSS
SRS RSS
Mean 0.25 0.75 Mean 0.25 0.75
m=2
n=5 14.7 43.2 36.0 12.5 33.9 31.9
n = 10 14.3 43.2 32.4 12.0 33.9 31.4
n = 20 14.3 45.4 32.0 10.9 33.9 31.0
m=3
n=5 13.9 31.0 32.2 9.9 30.0 28.2
n = 10 13.8 30.4 32.2 9.8 30.4 28.2
n = 20 13.3 30.2 32.2 9.3 29.2 28.0
62
m=5
n=5 11.4 20.0 21.9 7.5 11.1 11.0
n = 10 11.4 20.4 21.4 7.3 11.2 10.4
n = 20 11.3 20.0 21.2 7.3 11.1 10.2
Table 5: Analysis of the accuracy of the estimations of the ratios in
PL2. SRS vs RSS
SRS RSS
Mean 0.25 0.75 Mean 0.25 0.75
m=2
n=5 14.7 43.2 36.0 12.5 33.9 31.9
n = 10 14.3 43.2 32.4 12.0 33.9 31.4
n = 20 14.3 45.4 32.0 10.9 33.9 31.0
m=3
n=5 13.9 31.0 32.2 9.9 30.0 28.2
n = 10 13.8 30.4 32.2 9.8 30.4 28.2
n = 20 13.3 30.2 32.2 9.3 29.2 28.0
m=5
n=5 11.4 20.0 21.9 7.5 11.1 11.0
n = 10 11.4 20.4 21.4 7.3 11.2 10.4
n = 20 11.3 20.0 21.2 7.3 11.1 10.2
The results in stage PL3 are more inaccurate than those derived in stage PL1 and RSS is considerably
more accurate than SRS.
Table 6: Analysis of the accuracy of the estimations of the ratios in PL3. SRS vs RSS
SRS RSS
Mean 0.25 0.75 Mean 0.25 0.75
m=2
n=5 19.6 26.7 33.7 18.1 11.1 10.9
n = 10 19.1 22.5 33.6 18.1 11.0 10.8
n = 20 19.1 22.5 32.8 18.1 11.0 10.7
m=3
n=5 19.4 23.5 33.6 17.6 10.7 10.7
n = 10 19.1 22.9 33.1 17.1 10.5 10.6
n = 20 18.7 21.6 32.7 17.1 10.5 10.5
m=5
n=5 18.1 21.7 31.9 16.1 9.5 10.3
n = 10 17.9 21.5 31.1 15.9 9.5 10.3
n = 20 17.3 21.5 31.1 15.7 9.5 10.1
4.3. Problem 3: The variability of computed tomography (CT) based tumor measurement.
The variability of CT measurements on repeated occasions has not been comprehensively evaluated.
In this study, we assess the variability of lung tumor measurement using repeat CT scans in 3 occasions
within 20 minutes of each other. This experiment is similar to the experiences of Oxnard et al. (2011). The
involved variables were:
X = Outer mass of the tumor measured using X-Rays,
63
Y j = Outer mass of the tumor measured using CT on occasion j = 1, 2,3 .
We analyze the behavior of different estimators of the variance in each occasion. It is supposed that
the variances of the occasions in the set of measurements be similar. A subset of the data on preoperative
computed tomography (CT) was selected. Each hospital measured repeatedly a 10% of the patients studied.
We obtained 130 sets of 3 measurements of CT images. We used B = 1000 , m = 2, 3, 5 m=2, 3, 5 and
n = 5,10, 20 . The efficiency was measured by computing
A2 2 b
B
( 2
) = b =1
, A = RSS ( M ), RSS , SRS .
B 2
A
Table 7: Efficiency of alternative estimators of the variances of median arch distance-to-maximum tumor
diameter ratios for pleural invasion
( SRS
2
) ( RSS
2
) ( RSS
2
(M ) )
These results suggest that CT has a similar variation in the occasions. For estimating the variance,
SRS is better than the RSS alternatives.
5. CONCLUSIONS
We present a study of the behavior of the use of RSS for selecting samples for developing cancer studies. The
results suggest that RSS is to be preferred to SRS. Cancer studies generate a lot of auxiliary information that
is in the files of the patients. The development of different investigations, as the introduction of new
medicaments or treatments, need of samples. The usually samples are selected from a small set of patients.
The existence of different concomitant variables allows the use of RSS at low costs because, as RSS is more
accurate than SRS, is possible using smaller samples sizes for a fixed accepted approximation error or
increasing the accuracy using the same sample size.
Further research on which variable is to be used for ranking should be developed in each practical
study. For example, for estimating a ratio it seems reasonable to look for a concomitant variable with a large
correlation with Y than the correlation between X and Y.
64
Acknowledgments: The authors acknowledge the help of the researchers of the National Group on Advanced
Oncology Research for providing access to the data used in this paper. These results were supported partially
by the project Modelos Matemticos para el Estudio de Medio Ambiente, Salud y Desarrollo Humano.
REFERENCES
[1] ADATIA, A. & SALEH, A.K.MD. (2004): Estimation of quantiles of uniform distribution using
generalized ranked set sampling. Pakistan Journal of Statistics 20, 355-368
[2] AHRENS W. & MERLETTI F. (1988): A standard tool for the analysis of occupational lung cancer in
epidemiologic studies. Int J. Occup Environ Health 4, 236242.
[3] AL-OMARI, A.I., JEMAIN, A.A., & IBRAHIM, K. (2009): A new ratio estimators of the mean using
simple random sampling and ranked set sampling methods. Revista Investigacin Operacional, 30, 97-108.
[4] AL-OMARI, A.I. (2012): Ratio estimation of the population mean using auxiliary information in simple
random sampling and median ranked set sampling. Statistics and Probability Letters, 82.18831890.
[5] AL-SALEH, M.F. & AL-HADRAMI, S. (2003): Parametric estimation for the location parameter for
symmetric distributions using moving extremes ranked set sampling with application to tree data.
Environmetrics 14, 651-664.
[6] AL-SALEH, M.F. & AL-KADIRI, M. (2000): Double ranked set sampling. Statistics & Probability
Letters 48, 205212.
[7] AL-SALEH, M.F. & AL-OMARI, A.I. (2002): Multistage ranked set sampling. Journal of Statistical
Planning and Inference 102, 273-286.
[8] AL-SALEH, M.F. & AL-SHRAFAT, K. (2001): Estimation of milk yield using ranked set sampling.
Envirometrics 12: 395-399.
[9] BOUZA, C.N. (2001): Model assisted ranked survey sampling. Biometrical J., 43, 248-258.
[10] CHEN, Z. (2000): On ranked-set sample quantiles and their applications. Journal of Statistical
Planning and Inference 83, 125-135.
[11] CHEN, Z. (2001): The optimal ranked-set sampling scheme for inference on population quantiles.
Statistica Sinica 11, 23-37.
[12] CHEN, Z., BAI, Z. & SINHA, B. (2004): Ranked set sampling: Theory and Applications. Springer
Verlag. New York.
[13] COBBY, J.M., RIDOUT, M.S., BASSETT, P.J. & LARGE, R.V. (1985): An investigation into the use of
ranked set sampling on grass and grass-clover swards. Grass and Forage Science 40: 257-63.
[14] EVANS, M. J. (1967): Application of ranked set sampling to regeneration, Surveys in areas direct-
seeded to long leaf pine. Master Thesis, school for Forestry and Wild-life Management, Louisiana state
University, Baton Rouge, Louisiana.
[15] GANESLINGAM, S. & GANESH, S. (2006): Ranked set sampling versus simple random sampling in
the estimation of the mean and the ratio. Journal of Statistics and Management Systems 2, 459-472.
[16] IMAI, K., Y. MINAMIYA, K. ISHIYAMA, M. HASHIMOTO, H. SAITO, S. MOTOYAMA,Y. SATO
& J.-I. OGAWA (2013): Measurement of the Ratio of the Interface between Tumor and Neighboring
Structures to Maximum Tumor Diameter. Radiology, doi: 10.1148/radiol.12120864.
[17] KAUR, A., PATIL, G.P., TAILLIE, C. & WIT, J. (2002): Ranked set sample sign test for quantiles.
Journal of Statistical Planning and Inference 100, 337-347.
[18] KOWALCZYK, B. (2004): Ranked set sampling and its application in finite population studies.
Statistics in Transition 6, 1031-1046.
[19] HALL, L.K. and T.R. DELL (1996): Trials of ranked set sampling for forage yields, Forest Sc. 121,
22-26.
[20] OSSAIN, S.S. (2001): Non-parametric selected ranked set sampling. Biometrical Journal 43, 97-105.
[21] HUSBY, C.E., STANSY, E.A. & WOLFE, D.A. (2005): An application of ranked set sampling for mean
and median estimation using USDA crop production data. Journal of Agricultural, Biological, and []
Environmental Statistics 10, 354-373.
[22] JOHNSON, G.D., PAUL, G.P. & SINHA, A.K. (1993): Ranked set sampling for vegetation research.
Abstracta Botanica 17, 87-102.
65
[23] KAUR, A., PATIL, G., SHIRK, S.J. & TAILLIE, C. (1996): Environmental sampling with a
concomitant variable: a comparison between ranked set sampling and stratified simple random sampling.
Journal of Applied Statistics 23, 231-255.
[24] MACEACHERN S., . STURK , D. A. WOLFE & G. V. STARK (2002): A new ranked sample
estimator of variance. J. Royal Stat. Soc. B. 64, 277-88.
[25] MODE, N. A., CONQUEST, L. L. & MARKER, D. A. (2002) : Incorporating prior knowledge in
environmental sampling: ranked set sampling and other double sampling procedures. Environmetrics 13:
513-521.
[26] MUTTLAK, H.A. (1995): Parameter Estimation in a simple linear regression using rank set sampling.
Biometrical Journal 37, 799-810.
[27] MUTTLAK, H.A. (1997): Median Ranked Set Sampling. Journal of Applied Statistical Sciences 6,
245-255.
[28] MUTTLAK, H.A. (2003): Investigating the use of quartile ranked set samples for estimating the
population mean. Applied Mathematics and Computation 146, 437-443.
[29] ODERWALD, R. & SMITH, D. (1980): Evaluation of ranked set sampling for estimating shrub
phytomass in Appalachian oak forests. Publication Number FWS-4-80, School of Forestry and Wildlife
Resources, Virginia Polytechnic Institute and State University, Blacksburg, Virginia.
[30] OXNARD, G.R., C.S. SIMA, M.S. GINSBERG, L.P. JAMES, R.A. LEFKOWITZ, P. GUO, M.G.
KRIS, L.H. SCHWARTZ & G.J. RIELY (2011): Variability of Lung Tumor Measurements on Repeat
Computed Tomography Scans Taken Within 15 Minutes. Journal of Clinical Oncology, 28, 3114.3118.
[31] PATIL, G.P. (2002). Ranked set sampling. Encyclopedia of Environmetrics 3, 1684-1690.
[32] MARTIN, W., SHARIK, T., PERRON, F. & SINHA, B.K., (2004): Estimation of variance based on a
ranked set sample. Journal of Statistical Planning and Inference 120: 21-28.
[33] RAHIMOV, I. & MUTTLAK, H.A. (2003): Estimation of the population mean using random selection
in ranked set samples. Statistics and Probability Letters 62, 203-209.
[34] RIDOUT, M.S. & COBBY, J.M. (1987): Ranked set sampling with non-random selection of sets and
errors in ranking. Applied Statistics 36, 145-152.
[35] SAMAWI, H.M, AHMED, M.S. & ABU-DAYYEH, W. (1996): Estimating the population mean using
extreme ranked set sampling. Biometrical Journal 38, 577-586.
[36] SAMAWI, H.M. & AL-SAGHEER, O.A. (2001): On the estimation of the distribution function using
extreme and median ranked set sampling. Biometrical Journal 43, 357-373.
[37] SAMAWI, H.M. & MUTTLAK, H.A. (1996): Estimation of ratio using rank set sampling. Biometrical
Journal 63, 753-764.
[38] SAMAWI, H.M. & SAEID, L.J. (2004): Stratified extreme ranked set sample with application to ratio
estimators. Journal of Modern Applied Statistical Methods 3,117-133.
[39] SAMAWI, H.M. & TAWALBEH, E.M. (2002): Double median ranked set sampling: Comparison to
other double ranked set samples for mean and ratio estimators. Journal of Modern Applied Statistical
Methods 1, 428-442.
[40] STOKES, S.L. (1977): Ranked set sampling with concomitant variables. Communications in Statistics
A6, 1207- 1211.
[41] STOKES, S.L. (1980): Estimation of variance using judgment ordered ranked-set samples. Biometrics
36, 35-42.
[42] TAKAHASI, K. & WAKIMOTO, K. (1968): On the unbiased estimates of the population mean based on
the sample stratified by means of ordering. Annals of the Institute of Statistical Mathematics 20, 1-31.
[43] YU, P.L.H. & TAM, Y.C. (2002): Ranked set sampling in the presence of censored data.
Environmetrics 13, 379-396.
[44] WANG, Y.G., CHEN, Z. & LIU, J. (2004): General ranked set sampling with cost consideration.
Biometrics 60: 556-561.
[45] ZHU, M. & WANG, Y. (2004): Quantile estimation from ranked set sampling data. Sankhya: The
Indian Journal of Statistics 67, 295-304.
66
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 67-75
Vt J
CONFIDENCE INTERVALS AND HYPOTHESIS TESTS FOR THE
PREDICTIVE VALUES OF BINARY DIAGNOSTIC TESTS: A
REVIEW
J. A. Roldn Nofuentes, S. Bouh ould Sidaty
Biostatistics, School of Medicine, University of Granada, Spain
School of Medicine, University of Nouakchott, Mauritania
ABSTRACT
Positive predictive value and negative predictive value are measures of the clinical accuracy of a binary diagnostic test and they
depend on the sensitivity and the specificity of the diagnostic test and on the disease prevalence. In this study, we carry out a
review of the methods of estimation methods of predictive values subject to different samples types, confidence intervals and
hypothesis tests.
KEY WORDS: Binary diagnostic test, Positive predictive value, Negative predictive value.
RESUMEN
El valor predictivo positivo y el valor predictivo negativo son medidas de la exactitud clnica de un test diagnstico binario y
dependen de la sensibilidad y especificidad del test diagnstico y de la prevalencia de la enfermedad. En este trabajo se realiza
una revisin de los mtodos de estimacin de los valores predicativos bajo distintos tipos de muestreo, sus intervalos de
confianza y tests de hiptesis.
1. INTRODUCTION
The accuracy of a binary diagnostic test is measured in terms of two parameters: sensitivity and
specificity. Sensitivity ( Se ) is the probability of the diagnostic test being positive when the individual has the
disease, and specificity ( Sp ) is the probability of the diagnostic test being negative when the individual does
not. Both sensitivity and specificity only depend on the intrinsic ability of the diagnostic test to distinguish
between individuals who have the disease and those who do not i.e. these parameters depend on the physical,
chemical and biological bases upon which the diagnostic test has been developed. Some other parameters to
assess the accuracy of a binary diagnostic test are the positive and negative predictive values. The positive
predictive value ( ) is the probability of an individual having the disease when the test result is positive, and
the negative predictive value ( ) is the probability of an individual not having the disease when the test result
is negative. The predictive values represent the accuracy of the binary diagnostic test when it is applied to a
cohort of individuals, and they are measures of the clinical accuracy of the diagnostic test. The predictive
values depend on the sensitivity and the specificity of the diagnostic test and the disease prevalence ( p ) , and
are calculated by applying Bayes Theorem as
p Se (1 p ) Sp
= and = . (1)
p Se + (1 p ) (1 Sp ) p (1 Se ) + (1 p ) Sp
Although the sensitivity and the specificity quantify how well the diagnostic test reflects the true
disease status (whether present or absent), the predictive values quantify the clinical value of the diagnostic
test, since both the individuals tested and the clinician are more interested in knowing how likely it is for the
disease to be present with a given diagnostic test.
We then study the estimation of the predictive values of a single diagnostic test subject to two types
of sample (cross-sectional and case-control) and the comparison of the predictive values of two binary
diagnostic tests with two independent samples and subject to paired design.
The predictive values of a binary diagnostic test can be estimated subject to a cross-sectional sample
and subject to a case control sample. In this Section, two random variables are considered. The random
67
variable T which models the result of the diagnostic test, so that T = 1 indicates a positive test result
(provisional disease presence) and T = 0 indicates a negative test result (provisional disease absence); and the
random variable D, which models the result of the gold standard, so that D = 1 indicates that the individual
has the disease and D = 0 indicate that the individual does not have the disease.
The assessment of the parameters of a binary diagnostic test in relation to a gold standard subject to a cross-
sectional sample consists of applying the diagnostic test and the gold standard to all of the individuals in a
random sample sized n, giving rise to Table 1.
Conditioning in variable T, samples ( s1 , r1 ) and ( s0 , r0 ) are two independent samples, and it is verified that
s1 B ( s1 + r1 , ) and that r0 B ( s0 + r0 , ) and, therefore, the estimators of the predictive values are the
estimators of binomial proportions i.e.
s r
= 1 and = 0 ,
s1 + r1 s0 + r0
and the estimators of their variances are
(
1 ) ( ) = (1 ) .
()
=
Var and Var
s1 + r1 s0 + r0
Therefore, in a cross-sectional study, conditioning in the total columns in Table 1, the predictive values are
binomial proportions. The estimation through confidence intervals of the predictive values can be carried out
by applying the Wilson interval [1], and these are the respective intervals
z12 2
s1 + z1 2 z12 2
2 s1r1
+
s1 + r1 + z12 2 s1 + r1 + z12 2 s1 + r1 4
and
z12 2
r0 + z1 2 z12 2
2 s0 r0
+ ,
s0 + r0 + z1 2 s0 + r0 + z1 2 s0 + r0
2 2
4
where z1 2 is the 100 (1 2 ) percentile of the normal standard distribution. For si + ri > 40 it is possible
to use the Agresti-Coull interval [1], and these are the respective intervals
( )
z12 2
1 +
z12 2 4 ( s1 + r1 )
+ z1 2
2 ( s1 + r1 ) s1 + r1
z12 2
1+
s1 + r1
and
68
z12 2
(1 ) +
z12 2 4 ( s0 + r0 )
+ z1 2
2 ( s0 + r0 ) s0 + r0
.
z12 2
1+
s0 + r0
2.2. Example
Yee et al [2] assessed the performance of a computed tomographic (CT) colonography in the diagnosis of
colorectal neoplasia using as a gold standard a colonoscopy. In Table 2, we show the results obtained by
applying a CT colonography (variable T) and a colonoscopy (variable D) to a sample of 300 individuals.
The estimated value of the positive predictive value is 0.832 and that of the negative predictive value
is 0.825. As it is verified that si + ri > 40 , it is possible to calculate the confidence interval of Agresti-Coull
[1]. Thus, the positive predictive value of the CT colonography, with a confidence of 95%, is a value between
0.773 and 0.879; and the negative predictive value of the CT colonography, with a confidence of 95%, is a
value between 0.738 and 0.889. Therefore, the CT colonography is good to confirm colorectal neoplasia and
the CT colonography is good to rule out colorectal neoplasia in the population subject to study (positive and
negative predictive value are high).
The estimation of the parameters of a binary diagnostic test subject to a case-control design consists of
applying the diagnostic test to two random independent samples, one of n1 individuals who have the disease
(case) and another of n2 individuals who do not (control), giving rise to Table 3.
In this situation, it is verified that s1 B ( n1 , Se ) and that r0 B ( n2 , Sp ) and therefore the estimators of the
sensitivity and the specificity of the diagnostic test are
= s1 and Sp
Se = r0 .
n1 n2
As the prevalence cannot be estimated from the data in Table 1, as the quotient n1 n is not an estimator of the
prevalence (the sample sizes n1 and n2 are chosen by the researcher), to estimate the predictive values it is
necessary to know an estimator of the disease prevalence ( p ) . Therefore, if p is an estimator of the disease
prevalence, then the estimators of the predictive values are
69
s1 r0
p (1 p )
n1 n2
= and = .
s1 r s r
+ (1 p ) 1
p p 0 + (1 p ) 0
n1 n2 n1 n2
respectively. Mercaldo et al [3] recommend using the following confidence intervals,
()
exp logit z1 2 Var logit
,
(
( ))
exp logit + z1 2 Var
logit
() ( ( ))
()
(
( ))
1 + exp logit z1 2 Var logit 1 + exp logit + z1 2 Var logit
() ( ( ))
and
{
exp logit ( ) z
1 2 Var ( logit ( ) )
}
exp logit ( ) + z1 2 Var {
( logit ( ) )
}
{ } { }
,
1 + exp logit ( ) z1 2 Var ( logit ( ) )
1 + exp logit ( ) + z1 2 Var ( logit ( ) )
when
1 Sp
( )
( ( ))
logit = 1 Se +
Var
Sp
and Var ( logit ( ) ) = Se
+ .
n1 Se n2 1 Sp ( ) n1 1 Se
n2 Sp ( )
If = 1 or = 1 , then these authors recommend using the following confidence intervals
(% )
% z1 2 Var and (% ) ,
% z1 2 Var
when
%
pSe (1 p ) Sp
%
% = and % =
+ (1 p ) Sp
%
pSe % p (1 Se
% ) + (1 p ) Sp
%
the adjusted estimators of the predictive values,
2 2
+ z1
n1 Se
2 + z1
n2 Sp
2
% =
Se 2 and % =
Sp 2
n%1 n%2
the adjusted estimators of the sensitivity and the specificity, n%i = ni + z12 2 ,
Se(
% 1 Se
% ) + p (1 p ) Se% (
% 1 Sp
Sp % )
(
p (1 p ) 1 Sp )
2 2
%
% =
Var ( ) n%1 n% 2
% + (1 p ) 1 Sp ( )
4
pSe %
and
Se(
% 1 Se
% ) + p (1 p ) 1 Se% (
% 1 Sp
Sp % )
p (1 p ) Sp ( )
2 2
%
n%1 n%2
(% ) =
Var .
( )
% + (1 p ) Sp
4
p 1 Se %
2.4. Example
The results of Section 2.3 have been applied to the study of Li et al [4] on the diagnosis of Alzheimers
disease using as a diagnostic test the ApoE.e4 genotype. In Table 4 we show the results obtained by these
authors.
70
Assuming that the prevalence of Alzheimers disease is 10% it holds that the estimated value of the
positive predictive value is 0.216 and that of the negative predictive value is 0.942. The 95% confidence
intervals are ( 0.183 ; 0.252 ) and ( 0.935 ; 0.948 ) . Therefore, assuming that the disease prevalence is
10%, the EpoE.e4 genotype is a very useful test to rule out the disease (as its negative predictive value is very
high), but it should not be used as a diagnostic test to confirm the disease (as it has a very low predictive
value).
Bennett [5, 6] studied the comparison of the positive (negative) predictive values of binary diagnostic
tests proposing a test based on the chi-squared distribution. Jamart [7] discussed the results offered by Bennett
and pointed out that these results are not appropriate to solve this problem of inference. Leisenring et al [8]
studied the comparison of the predictive values of two binary tests through marginal regression models, and
Wang et al [9] studied the same problem a weighted least square model. Kosinski [10] proposed a weighted
generalized score statistic to solve the same problem and demonstrated that his method performed better in
terms of the type I error than the aforementioned methods. Roldn Nofuentes et al [11] studied a global
hypothesis test to simultaneously compare the predictive values of two (or more) binary diagnostic tests, and
proposed a method based on chi-squared distribution and multiple comparisons. We will now describe each of
these methods.
Leisenring et al [8] studied the comparison of the positive and negative predictive values of two binary tests
through marginal regression models, and they were able to estimate these models separately or jointly using
GEE models. Leisenring et al deduced score statistics to compare the positive and negative predictive values
of two binary tests in paired designs. Using the notation from the previous Section, the score statisitic for the
test H 0 : 1 = 2 is
( s (1 2Z ) + s (1 Z ) s Z )
2
11 1 01 1 10 1
T =
s11 (1 D1 ) (1 2 Z1 ) + s01 (1 D1 ) (1 Z1 ) + s10 (1 D1 ) Z12 + r11D12 (1 2 Z1 ) + r01D12 (1 Z1 ) + r10 D12 Z12
2 2 2 2 2 2 2
( r (1 2Z ) + r (1 Z ) r Z )
2
00 2 10 2 01 2
T = .
r00 (1 D2 ) (1 2 Z 2 ) + r10 (1 D2 ) (1 Z 2 ) + r01 (1 D2 ) Z 22 + s00 D22 (1 2 Z 2 ) + s10 D22 (1 Z 2 ) + s01D22 Z 22
2 2 2 2 2 2 2
Score statistics have has a chi-squared distribution with 1 degree of freedom when the null hypothesis is true,
and where
71
s11 + s01 + r11 + r01
Z1 = .
2s11 + s01 + s10 + 2r11 + r10 + r01
2 s11 + s01 + s10
D1 = .
2s11 + s01 + s10 + 2r11 + r10 + r01
s00 + s10 + r00 + r10
Z2 =
2s00 + s01 + s10 + 2r00 + r01 + r10
and
2r00 + r01 + r10
D2 = .
2 s00 + s01 + s10 + 2r00 + r01 + r10
Wang et al [9] studied the comparison of the predictive values of two binary tests through a weighted least
square method and compared their method to that of Leisenring et al, before recommending the comparison of
the predictive values using the weighted least square method based on the difference between the two positive
(negative) predictive values. The statistics proposed to check H 0 : 1 = 2 and H 0 : 1 = 2 are respectively
( )
2
(1 2 )
2
1 2
2
= and 2 =
( )
,
Var ( )
Var
1 2 1 2
both statistics follow chi-squared distribution with 1 degree of freedom, and the variances are estimated by
applying the delta method (the expressions are shown in the method devised by Roldn-Nofuentes et al [11]).
Kosinski [10] proposed a weighted generalized score statistic to solve the hypothesis test of comparison of the
predictive values. The weighted generalized score statistic for the test H 0 : 1 = 2 is
( )
2
1 2
TWGS
= ,
{ (
p 1 p 2Cp
1
) +
1
n10 + n11 n01 + n11
}
and the weighted generalized score statistic for the test H 0 : 1 = 2 is
(11 2 )
2
TWGS = ,
{
p (1 p ) 2C
1
+ 1
}
n00 + n01 n00 + n10
p
which has a chi-squared distribution with 1 degree of freedom when the null hypothesis is true and
2s + s + s 2r + r + r
p = 11 10 01 and p = 00 01 10
2n11 + n10 + n01 2n00 + n01 + n10
are the pooled positive predictive value and pooled negative predictive value respectively, and
( ) s00 2p + r00 (1 p2 )
2
s11 1 p + r11p2
Cp = and Cp = .
2n11 + n10 + n01 2n00 + n01 + n10
Roldn-Nofuentes et al [11] studied the simultaneous comparison of the predictive values of two binary
diagnostic tests in paired design. The simultaneous comparison of the predictive values of two binary tests
consists of solving the hypothesis test
H 0 : (1 = 2 and 1 = 2 ) vs H1 : (1 2 and/or 1 2 ) ,
72
where i and i are the positive and negative predictive values of ith binary test ( i = 1, 2 ) . The maximum
likelihood estimators of the predictive values are
s10 + s11 r00 + r01
1 = and 2 =
s10 + s11 + r10 + r11 s00 + s01 + r00 + r01
for test 1, and
s01 + s11 r00 + r10
1 = and 2 =
s01 + s11 + r01 + r11 s00 + s10 + r00 + r10
for test 2, and applying the delta method, the estimated variances-covariances of the estimators of the
predictive values are:
= ( s10 + s11 )( r10 + r11 ) , Var
Var ( ) = ( s01 + s11 )( r01 + r11 ) ,
( )
n ( s10 + s11 + r10 + r11 ) n ( s01 + s11 + r01 + r11 )
1 2 2 2
( , ) = 01 10 11 11 { 01 ( 10 11 ) 11 ( 01 10 11 10 11 )} ,
s s r +s r r +r +r s +s +s +r +r
Cov
( s01 + s11 + r01 + r11 ) ( s10 + s11 + r10 + r11 )
1 2 2 2
( , ) = s00 ( s10 + s11 ) r10 + s10 r10 ( s10 + s11 + r00 + r10 ) + s10 ( r00 + r10 ) r11 ,
Cov
( s00 + s10 + r00 + r10 ) ( s10 + s11 + r10 + r11 )
1 2 2 2
( , ) = s00 ( s01 + s11 ) r01 + s01r01 ( s01 + s11 + r00 + r01 ) + s01 ( r00 + r01 ) r11 ,
Cov
( s00 + s01 + r00 + r01 ) ( s01 + s11 + r01 + r11 )
2 1 2 2
( , ) = 00 00 01 10 00 { 00 01 10 00 01 10 00 01 } ,
s (r + r ) r + r r2 + s s + s ( s + s + r + r )
Cov
( s00 + s01 + r00 + r01 ) ( s00 + s10 + r00 + r10 )
1 2 2 2
Cov (
, = 0
1 1 ) and , = 0 .
Cov 2 2 ( )
The contrast statistics for the hypothesis test H 0 : (1 = 2 and 1 = 2 ) is
( )
1
T
Q 2 = T T ,
where
( )
T
= 1 ,2 ,1 ,2 ,
is the estimated variance-covariance matrix of and is the design matrix, i.e.
1 1 0 0
= .
0 0 1 1
The statistic Q2 is distributed asymptotically according to a central chi-square distribution with two
degrees of freedom if H 0 is true. To apply this method it is necessary that all predictive values can be
estimated and that matrix T is non-singular. Therefore, the method cannot be applied if there are many
observed frequencies that are equal to zero. If this global hypothesis test is significant to an error rate of ,
the investigation of the causes of the significance is carried out by comparing the positive predictive values
and the negative predictive values independently and subsequently applying a method of multiple
comparisons (method of Holm [12] or method of Hochberg [13]) to the same error rate of . Simulation
experiments performed have shown that samples of between 300 and 500 subjects are required in order for the
power of the global hypothesis test to be high (over 80%).
73
3.5. Confidence intervals
Confidence intervals for the difference between the positive (negative) predictive values can be obtained by
inverting the contrast statistics from the method proposed by Wang et al, i.e.
( )
1 2 1 2 z1 2 Var (
1 2 )
and 1 2 (1 2 ) z1 2 Var
( ) ,
1 2
Other confidence intervals can also be obtained from the Kosinki method, i.e.
( )
1 2 1 2 z1 2 { (1 ) 2C } n
p p
p
1
10 + n11
+
1
n01 + n11
and
1 2 (1 2 ) z1 2 { (1 ) 2C } n
1
+
1
.
00 + n01 n00 + n10
p p p
3.6. Example
The results from the previous sections have been applied to the study of Wiener et al [14] on the diagnosis of
coronary disease. In Table 6 we show the results obtained by Weiner et al, and where the variable T1 models
the result of the patients clinical history (Test 1), T2 models the result of the exercise stress testing (Test 2)
and D the result of the gold standard (coronary arteriography).
The maximum likelihood estimators of the predictive values are 1 = 0.894 , 1 = 0.785 , 2 = 0.881 and
2 = 0.648 . In Table 7, we show the results obtained when comparing the predictive values in an independent
manner and it holds that with the three methods we do not reject (to an error rate of = 5% ) the hypothesis
of equality of the positive predictive values and we reject the equality of the negative predictive values (the
negative predictive value of Test 1 is significantly higher than that of Test 2).
Applying the method of Roldn-Nofuentes et al, the statistic for the global hypothesis test
H 0 : (1 = 2 and 1 = 2 ) vs H1 : (1 2 and/or 1 2 )
is Q = 25.945 ( p value = 2.32 10 ) , 6
and therefore we reject (to an error rate of = 5% ) the null
hypothesis of pooled equality of the positive and negative predictive values of the two diagnostic tests. From
the results of Table 7, applying the Holm method [12] or the Hochberg method [13], it holds that there are no
significant differences between the positive predictive values of both diagnostic tests and that the negative
predictive value of the clinical history is significantly higher than that of the exercise stress testing.
74
Acknowledgements
This research was supported by the General Directorate of Research Projects at the Spanish Ministry
of Economy and Competitiveness. Project Number: MTM2012-35591. The authors would like to thank Prof.
Carlos Bouza and the referee for their helpful comments that improved the quality of the manuscript.
REFERENCES
[1] BROWN, L.D., CAI, T.T. & DASGUPTA, A. (2001) Interval estimation for a binomial proportion. Statistical
Science, 16, 101-133.
[2] YEE, J. et al (2001) Colerectal neoplasia: performance characteristics of CT colonography for detection in 300
patients. Radiology, 219, 685-692.
[3] MERCALDO, N.D, KIT, F.L. & ZHOU, X.H. (2007) Confidence intervals for predictive values with an
emphasis to casecontrol studies. Statistics in Medicine, 26, 21702183.
[4] LI, Y. et al. (2004). Association of late-onset Alzheimers disease with genetic variation in multiple members
of the GAPD gene family. Proceedings of the National Academy of Sciences, U.S.A., 101, 15688-15693.
[5] BENNETT, B.M. (1972) On comparison of sensitivity, specificity and predictive value of a number of
diagnostic procedures. Biometrics, 28, 793-800.
[6] BENNETT, B.M. (1985) On tests for equality of predictive values for t diagnostic procedures. Statistics in
Medicine, 4, 535-539.
[7] JAMART, J. (1993) Letter to the editor: on tests for equality of predictive values for t diagnostic procedures.
Statistics in Medicine, 12, 185-186.
[8] LEISENRING, W., ALONZO, T. & PEPE, M.S. (2000) Comparisons of predictive values of binary
medical diagnostic tests for paired designs. Biometrics, 56, 345-351.
[9] WANG, W., DAVIS, C.S. & SOONG, S.J. (2006) Comparison of predictive values of two diagnostic tests
from the same sample of subjects using weighted least squares. Statistics in Medicine, 25, 2215-2229.
[10] KOSINSKI, A.S. (2013) A weighted generalized score statistic for comparison of predictive values of
diagnostic tests. Statistics in Medicine, 32, 964-977.
[11] ROLDN NOFUENTES, J.A., LUNA DEL CASTILLO, J.D. & MONTERO ALONSO, M.A. (2012)
Global hypothesis test to simultaneously compare the predictive values of two binary diagnostic tests.
Computational Statistics and Data Analysis, Special issue Computational Statistics for Clinical
Research, 56, 1161-1173.
[12] HOLM, S. (1979) A simple sequential rejective multiple testing procedure. Scandinavian Journal of
Statistics, 6, 65-70.
[13] HOCHBERG, Y. (1988) A sharper Bonferroni procedure for multiple tests of significance. Biometrika,
75, 800-802.
[14] Weiner, D.A. et al. (1979). Exercise stress testing. Correlations among history of angina, ST-segment
response and prevalence of coronary-artery disease in the coronary artery surgery study (CASS). The New
England Journal of Medicine, 301, 230-235.
75
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 76-83
Vt K
ESTIMATORS FOR EVALUATING THE EXPLOITABILITY OF
SILVESTER MAGUEY PAPALOTE (AGAVE CUPREATA TREL ET
BERGER) WITH MISSING OBSERVATIONS
L. Alonso*, C. N. Bouza** y D. Covarrubias **
*Unidad Acadmica de Matemticas, Universidad Autnoma de Guerrero, Mxico
**Facultad de Matemtica y Computacin, Universidad de La Habana
ABSTRACT
This paper deals with the development of an estimation procedure of indexes that allow establishing whether a population of
Silvestre plants of maguey is economically exploitable. The index has a product type structure. We consider the existence of
missing observations and develop estimators. Their properties are analyzed. Their behavior is evaluated using the data provide by a
census developed in Guerrero State, Mexico.
KEY WORDS: non-response stratum, imputation. expected error., asymptotic unbiasedness, coverage probabilities
RESUMEN
Este trabajo trabaja con el desarrollo de un procedimiento de estimacin de ndices que permite establecer si una poblacin de
plantas de maguey silvestre es econmicamente explotable. El ndice tiene la estructura del tipo producto. Consideramos la
existencia de observaciones perdidas y desarrollamos estimadores. Sus propiedades son analizadas. Su comportamiento es
evaluado usando datos de un censo desarrollado en el estado de Guerrero, Mxico.
1 INTRODUCTION
Agave cupreata Trel et Berger , Maguey, appear as a silvestre plant in Mexico. Agave cultivation
has its roots in Mesoamrica. Nhuatls produced pulque. Its distillation produces the mezcal. See Casas and
Sols (2009) and Marshall et al (2006). There is a serious lack of information on its availability, with
industrial purposes, in zones of difficult access. An inventory was made, see., in the state of Guerrero,
Mexico. To maintain information, for deciding whether to harvest or not an area, to sample regularly is
needed. The importance of the research is motivated by the growing popularity of mezcal, as Tequila is
occupying a large market sector. Tequila is the mezcal produced in the region of Tequila, but mezcal can play
the role of Brandies with respect to Cognac.
Missing observations are usual in the surveys conducted to estimate the mean age of the plants. are
usually . The existence of missing observations invalidates some of the initial assumptions and affects the
properties of the statistical models because we can not compute the sample mean
75
n
y i
y= i =1
(1.1)
n
which estimates the population mean Y . In practice the missing units are located in zones of difficult access.
Hence, the behavior of them may be very different form the collected information, because the responses are
obtained from a subset of units of the sample (sub sample) . Take
That is the population of plants U is divided into two strata: U1 , where are grouped the plants that
are visited at the first visit, and U2 contains the rest of the plants. Hence the response strata model is to be
used. It was first proposed by Hansen-Hurvitz (1946), see Singh (2003). Their proposal was to select a
subsample s2 of size n2 among the n2 non-respondents grouped in the sample s2=s\s1 . Then we obtain
information on the non-respondent's strata U2 through a sub sample s2s2 .
It is determined by measuring the size and number of leaves in the plant. There are different auxiliary
variables which may be used for determining if a zone is economical exploitable for producing mezcal. We
consider the variables area covered by the plant, number of lines and height as X.
The inventory provided the information on the plants of mezcal and a system for evaluating
populations of mescal in non cultivated zones is proposed. The auxiliary information can be obtained by
cheap procedures.
The index considered by the specialists, for evaluating if a zone is exploitable from an economic
point of view, is based on the computation of
=
Therefore we consider the use of product estimators. They have been thoroughly studied, see Singh
(2003), Singh and Mangat. (1996). Different recent papers study the use of product type estimators under
full response. Agrawal and Sthapit (1997) derived conditions for its asymptotic normality on the finite
populations sampling. Singh and Ruiz (2007) proposed a class of ratio-product estimators in two-phase
sampling
In this paper we present estimators of the unknown mean age using product type models for coping
with non responses (nr) in survey sampling.
76
Step 1: Select a sample s from U using srswr
Step 2: Evaluate Y among the respondents and determine {yi : is1U1, s1 =n1}.
n1
y i
Compute y1 = i =1
(2.1)
n1
Step 3: Determine n2=n2/K, K>1; s2=n2 with s2=s\s1.
Step 4. Select a sub-sample s2 of size n2 from s2 using srswr.
Step 5. Evaluate Y among the units in s2 {yi : is2 s2, s2U2}.
n '2
y i
Compute y '1 = i =1
(2.2)
n2
Step 6. Compute the estimate of
n1 n
y= y1 + 2 y ' 2 = w1 y1 + w2 y ' 2 (2.3)
n n
Note that (2.1) is the mean of a srswr-sample selected from U1, then its expected value is the mean of
Y in the respondent stratum: 1. We have that the conditional expectation of (2.2) is:
E[ y ' 2 s ] = y 2 (2.4)
and taking into account that for i=1,2 E(ni)=nNi/N=nWi the unbiasedness of (2.3) is easily derived.
Rewriting (2.3) as
the first tern is the sample mean hence its variance is 2/n. For the second term we have that
22 22
V (w2 ( y ' 2 y 2 ) s ) = w 2 2
= w 2 2 2 2 K 1
(2.7)
n' 2 n2 n2 n2
and
W2 ( K 1) 2
2
2 W2 ( K 1) 22
EV ( y ) = + (2.9)
n n
This results appear in standard text books as Cochran (1977) and Singh (2003). We will consider the
use of the additional information provided by a known variable X for constructing a product type estimator of
thee means involved.
77
3. PRODUCT TYPE ESTIMATORS UNDER NON RESPONSES
As the index has the structure of a product the use of product estimators is a solution. Take the usual
estimator
xy
yp = (3.1)
X
n N
zj X j
i =1 i =1
where z= ; z = x, y , X =
n N
E (x y )
( )
E yp =
X Y
= Y +
XY
nX
N N
( X j X )(Y j Y ) Xj
i =1 i =1
where XY = ; Y =
N N
XY
Hence the estimation of the mean age has as bias B( y p ) = and its variance is
n X
Y2 + R 2 X2 + 2 R XY
V (y p ) =
n
where
(Z Z )
N 2
j =1 j
R= Y , 2
= , Z = X ,Y
X
Z
N
A version of it is
n
xjyj
i =1
y p* = (3.2)
n X
Let us consider
n1 y 1 + n 2 y ' 2 p n1 y 1 + n 2 y 2 n 2 ( y' 2 p y 2 )
y ps = = +
n n n (3.3)
where
y' 2 x 2
y' 2 p =
X
78
The first member of at the right hand side of (3.3) is the mean of Y in s. Hence the bias of (3.3)
depends on the expectation of the last term. The conditional expectation of it, for a fixed n2,,is equal to the
product estimator based on the sub sample s2. Therefore
n2 ( y'2 p y 2 ) n y x2 n y
E n' 2 = 2 2 2 2
n n X n
as
n y x2 n y n
E 2 2 2 2 n 2 = 2 2 XY ,
n X n n n2 X
where
(X 2 X )(Y2 j 2Y )
N2 N2
j =1 2j j =1
Z2 j
2 XY = , 2Z = , Z = X ,Y
N2 N2
The results obtained previously fix that under the regularity condition
(y y 2 )(x 2 j x 2 )
n2
2 ZY j =1 2j
R1: ,
n' 2 2Y X n' 2 2Y X
we have that
Y 2 2 XY C 2Y C 2 X
E (E ( y ps n' 2 ) n 2 ) y +
n
The variance of (3.3 ) is obtained by calculating
(((
V E E y ps n' 2 , n 2 ))) = V y + C 2 X C 2Y 2Y C C
= V ( y ) + V 2 X 2Y 2Y
n
C C
+ 2Cov y, 2 X 2Y 2Y
n n
It is clear that
Y2
V (y ) = (3.4)
n
and that the other terms are equal to zero.
79
Calculating the conditional variance we obtain
(( ) ) (( ) ) ((
V y 2 p y 2 n 2 = V y 2 p n 2 + V (( y 2 ) n 2 ) 2Cov y 2 p , y 2 n 2 ) )
The first two terms are easily derived as
(( ) )
V y 2 p n2
22Y + R 22 22X + 2 R 2 2 XY
n2
22Y
V (( y 2 ) n 2 ) =
n2
For computing the third term we relay on the properties of the sampling moments enounced by
David and Sukhatme (1974). This term can be rewritten as
y2 x2 C C
(( ) )
Cov y 2 p , y 2 n 2 = E 2
X
n 2 2Y + 2Y 2 2 X 2Y
n2
2Y
As
( )
E y 2 x 2 n2 = 22Y 2 X +
2 2 2Y 2 XY + X 2 Y
n2
+ O(n 2 )
we have that
2
R22 22X + 2 2 XY R2 2Y
2X 2 2Y C C 22Y
(( ) )
2
V y2p y 2 n2 2 X 2 2 X 2Y
n2 n2
X n2
80
( ((
n 2
) )) (
E E V y ps n' 2 n2 = E E 2 E ( y ' 2 p y 2 ) n' 2 n2
n
2
)
Noting that
y ' 2 p 2Y = ( y ' 2 p y 2 ) + ( y 2 2Y )
We have that
( ) ( ) (
E ( y ' 2 p y 2 ) n' 2 = E ( y 2 2Y ) n' 2 E ( y 2 2Y ) n' 2
2 2 2
)= (1 ) 22Y
(3.6)
n2
because the expectation of the cross term is equal to zero. Hence
W2 (1 ) 22Y
( ((
E E V y ps n' 2 n2 = ) )) n
Then
Y2 W2 ps ( 2 ) W2 (1 ) 22Y
( )
V y ps =
n
+
n
+
n
2* 2 XY .
where
2 2Y 2 C 2 X C 2Y 22Y
ps ( 2) R 22 22X + 2 2 XY R 2 + 2 +
2 X X X
2X
2
* 2 XY = 2Y
X
Because if the regularity condition R1 holds.
lim n 2 XY = 0
n X
An alternative estimator is
n y + n 2 y' 2 x
y pc = 1 1
(3.7)
n x
We can rewrite it as
n y + n2 y 2 x n 2 ( y'2 y 2 ) x
y pc = 1 1
+
n x n x
The first term is the expression of the product estimator i n the original sample. The conditional
expectation of the second term is zero. Hence we have that (3.7) is asymptotically unbiased because
( ) ( ) C X CY )
EEE y pc n' 2 , n2 = E y p = Y + Y
n
and
81
C X C Y )
lim n Y =0
n
The unconditional variance of (3.7) is given by
( ( )) ( )
V EE y pc n' 2 , n 2 = V y p =
Y2 + R 2 X2 + 2 R XY
n
= V (1)
( ( )) (
E V ( E y pc n' 2 ) n 2 = E (V y p n 2 = 0 )
because at the second conditional level we are calculating the variance of a constant.
(1 ) 22Y
( )
2 2
n x n x
V ( y pc n' 2 ) = 2 E ( y ' 2 y 2 ) 2 n' 2 = 2
n x n x n 2
The expectation conditional to a fixed n2 is
n x1 + n x 2
2
n
2
2 12X n 2
2
2 2 n n
E 1
n
2 n2 = 1
n
1 X +
n
+ 2 X + 2 X + 2 1 2 2 (
1 X 2 X )
2
1 n n2 n
Calculating E(n2i), I=1,2, E(n1n2), and adding this result to V(1), after grouping we obtain
2
(1 )
2 + W1W2 (1 X 2 X ) + i =1
Wi iX2
( ) + R + 2 R XY
2 2 2 2 2
V y pc = Y X
+ 2Y (3.8)
n X2 X n n
We considered that the regions were populations. A sample fraction of 0,1 was selected from each of
them. The sites of difficult access were identified by considering their placement. The sub-sampling fraction
was fixed by the 50%. Hence n`2=n2/2 in each location. The variance was computed for each location using
the three possible auxiliary variables
X1 =area covered by the plant
X2= number of lines
X3 =height
The specialists used X1 in their common studies. We considered the efficiency of the estimators
based on the other variables by computing
82
(t ,1) =
(
V y pc X t ), t 1
V (y pc X )
1
The results are given in Table 1. An analysis of them fixes that the area covered by the plant increases
considerably the accuracy of the estimates. Hence having a record of it is highly recommended for
establishing monitoring systems.
Table 1. Efficiency of X2= number of lines and X3 =height with respect to X1 =area covered by the
plant
Region (2,1) (3,1)
Axacualco 1.38 0.88
El Naguacate 2.59 1.11
Mazatlan 0.63 0.77
Mirabal 2.47 1.07
Ojioto 0.96 0.97
Palndegua 1.07 0.65
Palo Blanco 0.90 0.95
Salto 1.65 0.93
Tlaniopa 1.03 0.92
Xachilpa 0.85 0.93
Xocomanat 1.67 0.71
Percent of cases where the efficiency 36.36 81.89
was increased
REFERENCES
83
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 84-95
Vt L
INCIDENCIA DE LAS DESIGUALDADES SOCIALES EN LOS
NDICES DE MORTALIDAD INFANTIL
Yolanda Romn-Montoya y Ana Mara Lara-Porras
Departamento de Estadstica e Investigacin Operativa.
Campus de Fuentenueva s/n. Facultad de Ciencias. Universidad de Granada (18071). Espaa
ABSTRACT
This paper presents an analysis of health inequalities in Colombia, particularly infant mortality. Concentration variations
of infant deaths are determined during the first day of life, the first week and the first year. For this analysis are taken into
account the socioeconomic sorting exist in the country. infant mortality rates are analyzed and concentration index
building Lorenz curves. The population is ordered according to socioeconomic status regions, and through quantitative
values. We have used mortality data extracted from the National Bureau of Statistics of Colombia (DANE).
RESUMEN
En este trabajo se presenta un anlisis sobre las desigualdades en salud en Colombia, concretamente la mortalidad infantil.
Se determinan las variaciones en la concentracin de muertes infantiles durante el primer da de vida, la primera semana y
el primer ao, teniendo en cuenta la ordenacin socioeconmica que existe en el pas. Se analizan las tasas de mortalidad
infantil y los ndices de concentracin tanto a nivel grfico, construyendo las curvas de Lorenz en la poblacin ordenada
por regiones segn el nivel socioeconmico, como a travs de valores cuantitativos. Para ello hemos utilizado los datos de
mortalidad infantil extrados del Departamento Administrativo Nacional de Estadstica de Colombia (DANE).
1. INTRODUCCIN
La desigualdad en mbitos como la salud y el uso de servicios es una realidad patente en los pases
sudamericanos. Las desigualdades en la distribucin de los recursos econmicos caracterizan a pases como
Brasil, Guatemala y Paraguay que presentan una elevada concentracin del ingreso.
Estas desigualdades llevan implcitas diferencias sociales que influyen en todos los campos, incluido
el de la salud. Para llevar a cabo un anlisis de este tipo de desigualdades es necesaria la aplicacin de
tcnicas concretas de anlisis, tanto grficas como cuantitativas, como son la curva de Lorenz, los ndices de
Gini y Theil, el coeficiente de Atkinson, o el Slope Index of inquality, que permitan aunar la informacin
socioeconmica y la del entorno social analizado (Medina y Galvn, 2008).
En este trabajo se presenta un anlisis sobre las desigualdades en salud, concretamente nos
centramos en la mortalidad infantil en Colombia. Se determinan las variaciones en la concentracin de
muertes infantiles durante el primer da de vida, la primera semana y el primer ao, teniendo en cuenta la
ordenacin socioeconmica que existe en el pas. Es muy importante enfocar correctamente el estudio para
detectar posibles diferencias entre grupos especficos de la poblacin, por este motivo se considera siempre la
distincin entre las categoras departamentales establecidas en Colombia. Como medida de variabilidad
consideraremos el ndice de Gini. Este indicador y sus curvas asociadas puede concebirse desde la perspectiva
estadstica como una medida de variabilidad, o como un ndice normativo de desigualdad (Runciman, 1966).
Tambin ha sido estudiado desde la perspectiva sociolgica considerando el sentimiento de privacin de los
individuos (Yitzhaki, 1979 y 1982), y es posible construirlo utilizando axiomas de justicia social (Ebert y
Moyes, 2000).
El ndice de Gini posee propiedades estadsticas conocidas (Wodon y Yitzhaki, 2002a), que permiten
comprobar la robustez de los cambios que se generan en el nivel de equidad. Este ndice, definido como una
84
medida de concentracin, puede ser utilizado para analizar la distribucin de la mortalidad permitiendo ver las
desigualdades en la concentracin segn la edad de muerte de los individuos. Por otra parte, puede derivarse
de la curva de Lorenz, definindose como el rea que queda comprendida entre la curva de equidistribucin y
la curva que representa el porcentaje acumulado de individuos ordenados segn el nivel socioeconmico
establecido en el pas frente al porcentaje acumulado en la variable de inters. Esta representacin geomtrica
resulta muy til para comparar dos o ms distribuciones, lo que es muy relevante para cuantificar el impacto
de los cambios que se generan en las distintas fuentes en la desigualdad total y en los diferentes instantes de
muerte que se analizan.
Adems, el ndice de Gini, dado su carcter adimensional, permite resumir y comparar las relaciones
entre nuestras variables de inters: Mortalidad neonatal, mortalidad entre los das 1 y 6, mortalidad entre 7 y
28 das y mortalidad entre el mes 1 y el 11. Tanto su clculo como su interpretacin resultan ser muy
intuitivos lo que favorece su uso.
A partir de los datos obtenidos de este organismo, trabajamos con un fichero de 7679727 registros
relativos a los nacimientos producidos en Colombia entre los aos 1998 y 2008, que tambin incluyen
informacin de los datos de mortalidad infantil, con un total de 139095 registros.
En el fichero de muertes se consideraron las variables: cdigo del departamento donde se produce el
nacimiento, ao, sexo, edad del fallecido, causa de la muerte, tiempo de gestacin y estado civil de la madre.
Del fichero de nacimientos slo tomamos la informacin relativa al ao y la categora del departamento de
residencia.
El objetivo de nuestro estudio es determinar las desigualdades que se producen en los ndices de
mortalidad infantil en Colombia. Este pas se encuentra dividido administrativamente en 33 zonas: Bogot y
32 departamentos, que son gobernados desde sus respectivas ciudades capitales. A partir de esta divisin del
pas y segn la Ley 617 de 2000, el Congreso de Colombia decreta la categorizacin de las entidades
territoriales en base a los presupuestos de los departamentos, teniendo en cuenta su capacidad de gestin
administrativa y fiscal y de acuerdo con su poblacin e ingresos corrientes de libre destinacin, se establece
una agrupacin de las regiones en cuatro grandes categoras:
85
- Cuarta categora. Departamentos con poblacin igual o inferior a cien mil habitantes y
cuyos ingresos corrientes de libre destinacin anuales sean iguales o inferiores a sesenta mil salarios
mnimos legales mensuales.
Esta divisin en categoras permite incluir una dimensin socioeconmica del estudio, que
mantendremos a lo largo de todo el anlisis y que nos permitir realizar el clculo de los ndices de
concentracin de muertes infantiles en Colombia durante el periodo 1998 2008.
El trabajo se desarrolla en dos fases:
Todo el procesamiento de los datos y los clculos realizados se han llevado a cabo utilizando el
entorno de computacin estadstico R.
3. RESULTADOS
En primer lugar comenzamos realizando la primera fase de nuestro estudio de la poblacin de los
nacidos vivos en Colombia, en la que analizamos globalmente la distribucin de las muertes infantiles. Para
iniciar el estudio, presentamos en la Tabla 1 informacin recogida en la base de datos. Esta tabla de
contingencia muestra el nmero de muertes producidas durante el primer ao de vida en el periodo 1998
2008.
Grupos de edad
Ao Menores de 1 dia 1-6 dias 7-29 dias 1-12 meses Totales
1998 Total 3501 2795 2274 5606
% respecto grupo 9.5 9.2
% respecto ao 10.6 19.7 16.0 10.8 14176
24.7 39.5
1999 Total 3609 3158 2678 5169
% respecto grupo 10.7 10.8
% respecto ao 10.9 21.6 18.3 10.0 14614
24.7 35.4
2000 Total 3741 3302 2807 5514
% respecto grupo 11.2 11.3
% respecto ao 11.3 21.5 18.3 10.6 15364
24.3 35.9
2001 Total 3409 2980 2521 5520
% respecto grupo 10.1 10.2
% respecto ao 10.3 20.7 17.5 10.7 14430
23.6 38.3
2002 Total 3015 2655 2257 4713
% respecto grupo 9.0 9.1
% respecto ao 9.1 21.0 17.9 9.1 12640
23.9 37.3
86
2003 Total 2863 2625 2167 4555
% respecto grupo 8.9 8.8
% respecto ao 8.6 21.5 17.7 8.8 12210
23.4 37.3
2004 Total 2848 2499 2038 4387
% respecto grupo 8.6 8.5 8.2
11772
% respecto ao 24.2 21.2 17.3 8.5
37.3
2005 Total 2753 2458 2014 4231
% respecto grupo 8.3 8.1
% respecto ao 8.3 21.5 17.6 8.2 11456
24.0 36.9
2006 Total 2516 2258 2027 4248
% respecto grupo 7.7 8.2 8.2
% respecto ao 7.6 20.4 18.3 38.4 11049
22.8
2007 Total 2461 2347 2066 3993
% respecto grupo 8.0 8.3 7.7
% respecto ao 7.4 21.6 19.0 36.7 10867
22.6
2008 Total 2398 2364 1898 3857
% respecto grupo 8.0 7.7 7.4
% respecto ao 7.2 22.5 18.0 36.7 10517
22.8
33114 29441 24747 51793 139095
TOTALES
Tabla 1: Mortalidad infantil segn Aos y Grupos de Edad
A partir de los valores de la tabla 1, se observa que en el grupo de edad de 1-12 meses se producen
ms muertes, seguido por el grupo de los nios menores de un da. No se detectan grandes diferencias entre el
nmero de muertes de los grupos de 1 a 6 das y 7 a 29 das. As mismo se observa un leve decrecimiento en
el nmero de muertes en cada una de las categoras de edad. Para confirmar este decrecimiento, se determinan
las tasas de mortalidad infantil, teniendo en cuenta las categoras departamentales descritas en el apartado
anterior.
87
Se plantea entonces la cuestin de si esta diferencia entre los niveles de mortalidad puede venir
motivada por el momento concreto en el que se produce la muerte. Nosotros hemos considerado 5 instantes
concretos: menores de 1 da, de 1 a 6 das, de 7 a 29 das y de 1 a 11 meses. Procedemos por tanto a analizar
si se producen ms diferencias en los niveles de mortalidad segn el instante en el que se produce la muerte.
El estudio distinguir tanto la evolucin por aos como la dimensin socioeconmica del pas.
4
Departamento 0
Departamento 1
Departamento 2
Departamento 3
Departamento 4
3
% mortalidad infantil
2
1
0
aos
Para ello, en primer lugar ordenamos los individuos que mueren durante su primer ao de vida,
segn las categoras departamentales. Calculamos el ndice de Gini para cada uno de los distintos instantes de
muerte: durante el primer da de vida, durante la primera semana de vida, durante el primer mes o entre el
segundo mes y el mes 12 de vida. En segundo lugar se obtienen las curvas de Lorenz, que constituyen el
indicador grfico de igualdad social ms utilizado. En estas curvas, en la escala vertical se representan las
cantidades acumuladas divididas por el total de individuos de la poblacin, con el objeto de representar qu
cantidad absoluta corresponde a cada porcentaje de individuos. Teniendo en cuenta esto, los ejes coordenados
se definen de la siguiente forma:
- Eje X: Acumulado de la poblacin (en nuestro caso nacidos vivos que mueren en el
primer ao de vida) ordenados segn la categora departamental en la que nacieron.
- Eje Y: Acumulado de la variable salud (en nuestro caso, muertes infantiles en las
distintas edades indicadas anteriormente). En este punto es importante tambin sealar que
trabajamos con datos de mortalidad actuariales: datos de la edad en el momento de la muerte en cada
distrito.
A partir de la grfica se observa como aproximadamente el 40% de las muertes neonatales (durante
el primer da de vida) se producen en el 25% de los casos de mortalidad infantil (muerte durante el primer ao
de vida) de entre las categoras econmicas ms desfavorecidas. En este mismo porcentaje de poblacin se
produce un un 25% de las muertes entre 1 y 6 das, el 20% aproximadamente de las muertes entre 1 y 11
meses y un 18% de las muertes corresponde al grupo de edades comprendidas entre 7 y 29 das.
88
Se observa tambin en el grfico 2, cmo la curva de Lorenz pasa de estar por encima de la
equidistribucin a estar por debajo cuando no se produce un incremento de las muertes de una proporcin de
individuos Pi a Pi+1 considerable (es decir Qi+1 est muy prximo a Qi o son iguales). Al contrario tambin
puede ocurrir, es posible que pasemos de estar ante un estado de pocas muertes y que stas se incrementen
tanto que se pase de estar por debajo de la equidistribucin a estar por encima. Para solventar este
inconveniente en el clculo del coeficiente de concentracin, hemos considerado la reflexin de las curvas
sobre la recta y = x, obteniendo siempre valores positivos de dicho coeficiente.
Se muestra a continuacin, en la grfica 3, la evolucin de las curvas de Lorenz a lo largo del periodo
temporal analizado, 1998 2008.
Curvas de Lorenz
1.0
0.8
Proporcin de muertes
0.6
0.4
0.2
Menores de un da
de 1 a 6 das
de 7 a 29 das
0.0
de 1 a 11 meses
Proporcin de nacimientos
Grfica 2: Concentracin de mortalidad infantil. Los individuos son ordenados segn categoras
departamentales. (Considerando la informacin global relativa al periodo 1998 2008)
89
Curvas de Lorenz 1998 Curvas de Lorenz 1999
1.0
1.0
0.8
0.8
Proporcin de muertes
Proporcin de muertes
0.6
0.6
0.4
0.4
0.2
0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0
0.0
de 1 a 11 meses de 1 a 11 meses
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1.0
0.8
0.8
Proporcin de muertes
Proporcin de muertes
0.6
0.6
0.4
0.4
0.2
0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0
0.0
de 1 a 11 meses de 1 a 11 meses
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1.0
0.8
0.8
Proporcin de muertes
Proporcin de muertes
0.6
0.6
0.4
0.4
0.2
0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0
0.0
de 1 a 11 meses de 1 a 11 meses
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
90
Curvas de Lorenz 2004 Curvas de Lorenz 2005
1.0
1.0
0.8
0.8
Proporcin de muertes
Proporcin de muertes
0.6
0.6
0.4
0.4
0.2
0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0
0.0
de 1 a 11 meses de 1 a 11 meses
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1.0
0.8
0.8
Proporcin de muertes
Proporcin de muertes
0.6
0.6
0.4
0.4
0.2
0.2
Menores de un da Menores de un da
de 1 a 6 das de 1 a 6 das
de 7 a 29 das de 7 a 29 das
0.0
0.0
de 1 a 11 meses de 1 a 11 meses
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
0.6
0.4
0.2
Menores de un da
de 1 a 6 das
de 7 a 29 das
0.0
de 1 a 11 meses
Proporcin de nacimientos
Grfica 3: Curvas de Lorenz segn aos y ordenacin social por categora departamental.
91
Del anlisis de la grfica 3 se deduce que las mayores desigualdades se producen en la variable que
mide la mortalidad neonatal (muerte en el primer da tras el nacimiento). A lo largo de los aos, se han
incrementado las desigualdades en las muertes acaecidas entre el primer y el sexto da de vida a favor de las
clases ms ricas mientras que la mortalidad entre 7 y 11 meses presenta mayor desigualdad en las clases ms
pobres.
Para cuantificar estos resultados hemos procedido al clculo numrico del ndice de concentracin.
Para este estudio utilizamos el ndice de concentracin de Gini cuya expresin ms habitual responde
a:
N 1 N 1 N 1
(P Q )i i Q i Q i
IC = i =1
= 1 i =1
= 1 i =1
N 1 N 1
50( N 1)
P
i =1
i P
i =1
i
92
Como se puede observar, los valores obtenidos reflejan un leve descenso, los valores menores
corresponden a los grupos de muertes entre los 1 y 6 das y de 7 a 29 das, lo que refleja una mayor
equidistribucin en el pas en cuanto a los ndices de mortalidad para estas edades. Los valores mayores
corresponden a la mortalidad neonatal.
En la figura 4 se muestra grficamente la evolucin de estos ndices a lo largo de los aos analizados.
Menores de un da
de 1 a 6 das
de 7 a 29 das
0.4
de 1 a 12 meses
0.3
Indices
0.2
0.1
0.0
Aos
93
4. CONCLUSIONES
A partir de este criterio de ordenacin, se ha llevado a cabo un estudio durante el periodo 1998
2008 sobre la mortalidad infantil relativo al anlisis de la mortalidad infantil en los diferentes grupos de edad:
menores de 1 da (neonatos), de 1 a 6 das, de 7 a 29 das y de 1 a 12 meses.
En primer lugar se analizaron las tasas de mortalidad infantil durante el periodo 1998 2008. Se
observan valores ms elevados de mortalidad en el grupo 1-11 meses. No se detectan grandes diferencias
entre el nmero de muertes de los grupos de 1 a 6 das y 7 a 29 das. As mismo se observa un leve
decrecimiento en el nmero de muertes en cada una de las categoras de edad.
En el anlisis por departamentos se observa un decrecimiento en las tasas de mortalidad para las 5
categoras, estabilizndose estos valores a partir del 2006. Los cambios ms notables se observan en la
categora 4, lo que indica la inversin de mayores esfuerzos para solventar los problemas en este campo
dentro de las zonas ms pobres
En segundo lugar se procede a analizar la concentracin de las muertes. Las mayores diferencias en
los ndices de concentracin se producen en la mortalidad neonatal. A lo largo de los aos, se han
incrementado desigualdades en las muertes acaecidas entre el primer y el sexto da de vida en las clases
econmicamente ms desfavorecidas. Los valores menores para los ndices de concentracin corresponden a
los grupos de muertes entre los 7 y 29 das y de 1 a 12 meses, lo que refleja una mayor equidistribucin en el
pas en cuanto a la mortalidad para estas edades.
En lneas generales, en todos los grupos se observa una ligera tendencia decreciente de los ndices de
concentracin. Dicha tendencia es similar para todos los grupos de edad lo que refleja la mejora existente en
el entorno sanitario respecto a la calidad en el cuidado de los nios durante su primer ao de vida. Este hecho
conlleva un descenso en los ndices de mortalidad que se ve reflejado en todas las categoras departamentales
del pas.
Sin embargo, es de destacar el hecho de que la base de datos proporcionada por el DANE relativa a
los nacimientos no dispone de informacin socioeconmica ni de fechas de muerte, este hecho impide la
profundizacin en el anlisis y la obtencin de resultados ms concluyentes. Sera de gran inters que el
Departamento Administrativo Nacional de Estadstica de Colombia incluyera estas variables en el estudio y
poder analizar los resultados ofrecidos con esta informacin adicional
94
REFERENCIAS
[1] BROWN, MC. (1994). Using Gini-style ndices to evaluate the espatial patterns of health practitioners:
theoretical considerations and an application based on Alberta data. Soc Scimed 38: 1243 1256.
[2] EBERT, U. and MOYES, P., 2000. An Axiomatic characterization of Yitzhakis index of individual
deprivation. Economic Letters 68, 263-270.
[3] FOSTER, J., GREER, J. and THORBECKE, A., (1984). A Class of Decomposable Poverty Measures,
Economtrica, 52, 761 - 766.
[4] LEYLAND, A.H. (2007). Measuring Socio-Economic Inequelilties in Health: A practical guide. ScotPH.
Public Health Information for Scotland.
[5] LLORCA, J., PRIETO, M., FARINAS, C., and DELGADO-RODRIGUEZ, M. (1998). Age differential
mortality in Spain, 1900-1991.
[6] LLORCA, J., PRIETO SALCEDA, D. y DELGADO-RODRGUEZ, M. (2000). Utilizacin del ndice de
gini para comparar la distribucin de mortalidades entre diferentes zonas. Rev Esp Salud Publica 74: 5-12
[7] MEDINA, F.., GALVN, M. (2008). Descomposicin del coeficiente de Gini por fuentes de ingreso:
Evidencia emprica para Amrica Latina 1999-2005.Divisin de Estadstica y Proyecciones Econmicas.
Santiago de Chile. CEPAL
[8] RUNCIMAN, W. (1966). Relative deprivation and social justice: a study of attitudes to social
inequality in twentieth-century England. University of California Press
[9] YITZHAKI, S., 1979. Relative Deprivation and the Gini Coefficient, The Quarterly Journal of
Economics, MIT Press, 93,
321.G4.http://www.secretariasenado.gov.co/senado/basedoc/ley/2000/ley_0617_2000.html
95
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 96-107
Vt DC
ANLISIS DE FACTORES DE RIESGO POR TRASTORNOS
HIPERTENSIVOS Y HEMORRAGIA DURANTE EL EMBARAZO EN
EL ESTADO DE GUERRERO MXICO
G. L. Daz*, V. Sistachs*, D. Covarrubias**, N. I. Hernndez, C. M. Snchez, V. M. Cruz
*Unidad Acadmica de Matemticas, Universidad Autnoma de Guerrero, Mxico.
**Facultad de Matemticas, Universidad de la Habana Cuba.
**Unidad Acadmica de Enfermera no. 1, Universidad Autnoma de Guerrero, Mxico
ABSTRACT
In the major part of the countries of the world, the human reproductive process, that is preganacy, birth deliery and the
puerperium, leads to a risk of becoming ill or dying, a problem still unsettled of modern obstetrics. In the State of Guerrero,
Mexico, according to a report from the Ministry of Health in 2005, a woman dies every 4 days due to complications during
pregnancy, childbirth and puerperium, placing the State in the first places at the national level. Is for this reason that it was
decided to carry out a study at the Hospital de la Madre y el Nio Guerrerense del Estado de Guerrero (HMNG), , Mexico,
with the aim of knowing the relationship between hypertensive risk factors and bleeding during during pregnancy, childbirth
and puerperium, according to the international classification of diseases (ICD-10). Factorial correspondence analysis was
performed for the realization of this work and logistic regression was applied to describe these relationships between the
condition of hypertension and risk factors.
KEYWORDS: hypertension and hemorrhage, risk factors, logistic regression, factorial correspondences
RESUMEN
En la mayora de los pases del mundo, el proceso reproductivo humano, es decir, todo lo relacionado con el embarazo, parto y
puerperio, conlleva a un riesgo de enfermar o morir, siendo un problema sin resolver de la obstetricia moderna. En el estado
de Guerrero, Mxico, segn un informe de la Secretaria de Salud en el 2005, una mujer muere cada 4 das por complicaciones
durante el embarazo, parto o puerperio, ubicando al Estado dentro de los primeros lugares a nivel nacional. Es por ello que se
decidi realizar un estudio en el Hospital de la Madre y el Nio Guerrerense del Estado de Guerrero (HMNG), Mxico, con el
objetivo de conocer la relacin que existe entre los factores de riesgo hipertensivos y hemorrgicos durante el embarazo, parto
y puerperio, de acuerdo a la Clasificacin Internacional de Enfermedades (CIE-10). Para la realizacin del presente trabajo se
realiz anlisis de factoriales de correspondencia y se aplic regresin logstica para describir estas relaciones entre el
padecimiento de hipertensin y los factores de riesgo.
1. INTRODUCCIN
En la mayora de los pases del mundo, el proceso reproductivo humano, es decir, todo lo
relacionado con el embarazo, parto y puerperio, conlleva a un riesgo de enfermar o morir, siendo un
problema sin resolver de la obstetricia moderna.
Los trastornos hipertensivos del embarazo se definen como la enfermedad vascular endotelial
degenerativa con alteraciones de la presin diastlica y sistlica. La hemorragia obsttrica es la prdida
sangunea en cantidad variable que puede presentarse durante el estado grvido o puerperal, proveniente de
genitales internos y externos, contribuyendo a la mortalidad materna.
En los pases en desarrollo el riesgo de las mujeres de morir por complicaciones derivadas del
embarazo y el parto es de 1 en 76, mientras que en los pases industrializados ese riesgo es de 1 en 8,000, y
las mujeres de los pases pobres tienen 300 veces ms probabilidades de morir durante el parto o debido a
complicaciones derivadas del embarazo, segn un informe de las Naciones Unidas para la Infancia
(UNICEF) en enero del 2009. [11]
Mxico comparte las caractersticas propias que acontecen en el mundo en desarrollo: en su mayora
es obstetricia directa, es decir, causada por patologa del estado grvido-puerperal.
96
primer lugar por mortalidad materna a nivel nacional, y para el ao 2008 se ubica en el segundo lugar.
Estudios relacionados a la morbi mortalidad materna manifiestan que factores de riesgo como la
edad materna (<20 aos y >35 aos), primigesta, antecedentes patolgicos familiares (madre hipertensa) y la
obesidad contribuyen a la aparicin de la hipertensin inducida por el embarazo y/o hemorragia durante el
embarazo.
Es por ello que se decidi realizar un estudio en el Hospital de la Madre y el Nio Guerrerense del
Estado de Guerrero con el objetivo de conocer la relacin que existe entre los factores de riesgo hipertensivos
y hemorrgicos durante el embarazo, parto y puerperio, de acuerdo a la Clasificacin Internacional de
Enfermedades [1], para este anlisis se aplicaron mtodos factoriales de correspondencia y de regresin
logstica para describir estas relaciones.
2. ANTECEDENTES
Los padecimientos relacionados con el embarazo, parto y puerperio representan una proporcin
considerable de la carga mundial de morbimortalidad, por lo que la mortalidad materna se considera un
indicador de disparidad e inequidad social y econmica de los pases.
En Latinoamrica, cerca de 15,000 mujeres perdieron la vida en 2005 por causas relacionadas con el
embarazo y parto, la tasa actual de muerte es de 130 mujeres por cada 100,000 bebs nacidos vivos y segn
el Fondo de Naciones Unidas para la Infancia , este nmero est lejos de la meta del objetivo del milenio
fijada para 2015.[6]
El Hospital Materno Infantil 10 de octubre de la Ciudad Habana Cuba, realiz una investigacin de
40 pacientes con hipertensin arterial durante el embarazo en el ao 2007 ingresadas en el servicio de
perinatologa, y se demostr que la Hipertensin Inducida por el embarazo es una de las entidades ms
frecuentes y se plantea que su prevalencia es de un 10%, siendo una de las primeras causas de muerte
materna.[2]
El Fondo de las Naciones Unidas para la Infancia (UNICEF), en Ginebra en el 2009, dio a conocer
en un nuevo informe sobre la mortalidad materna, los riesgos que afrontan las mujeres de los pases en
desarrollo durante el embarazo y el parto. [6, 11]
Las hemorragias son la causa ms frecuente de muerte, sobre todo en frica y Asia. La salud
general de la mujer -incluyendo su estado nutricional y su situacin con respecto al VIH- tambin influye en
la probabilidad de tener un embarazo saludable y de no presentar complicaciones durante el alumbramiento.
Hay factores sociales que tambin influyen, como la pobreza, la inequidad y las actitudes hacia las mujeres y
su salud.
En Puerto Prncipe, Hait dar a luz es un acontecimiento peligroso para las mujeres pobres, es la
nacin con el mayor ndice de mortalidad en el hemisferio occidental. De cada 100,000 mujeres, 630
murieron a causa de complicaciones relacionadas con el embarazo en el 2006: ms de cinco veces el
promedio en Amrica Latina y el Caribe, segn las Naciones Unidas (ver figura 1).[8,12]
El informe del Estado Mundial de la Infancia 2009 seala que la mayora de las muertes maternas y
enfermedades relacionadas con el embarazo pueden evitarse. Indica que de acuerdo con los estudios, el 80%
de los casos podran impedirse si las mujeres tuvieran acceso a los servicios esenciales de salud materna y a
97
una atencin sanitaria bsica.
Pero hay que tomar en cuenta que en cada una de esas naciones la inversin en Salud est por
encima de 3.5% del PIB, en Repblica Dominicana apenas llega a 1.8%. La cifra de mortalidad materna de
Repblica Dominicana resulta incomparable con la de pases desarrollados como Espaa, Canad, Estados
Unidos, Italia, Japn y Alemania, cuya tasa de mortalidad estn por debajo de 10 por cada 100 mil nacidos
vivos. A estas naciones slo se les aproximan Chile y Cuba, que tienen una tasa de mortalidad de 20 y 21 por
cada 100 mil nacimientos, respectivamente. [11]
En Mxico no existen estadsticas sobre la morbilidad en mujeres por causas maternas, pese a que es
un grave problema, de acuerdo con la Organizacin Mundial de la Salud (OMS) constituye la segunda causa
de prdida de vida saludable para las mujeres, slo despus del VIH/SIDA.
98
En Mxico la mortalidad materna, es considerada un problema de salud pblica, ello se refrend en el
Plan Nacional de Salud 2001-2006. La morbi-mortalidad asociada con la maternidad debe ser objeto de
mxima preocupacin, ya que en su mayora estos padecimientos son evitables. Por esto, su alta incidencia
constituye una expresin de la relativa desventaja que experimentan importantes sectores femeninos del
continente en el logro de sus derechos fundamentales.
Figura3. Riesgo de fallecer por muerte materna segn Entidad Federativa, Mxico
2008*
Se tom la RMM de Guanajuato, para estimar los riesgos de las dems entidades
Defunciones de acuerdo a lugar de ocurrencia de la defuncin
99
En el transcurso de 2005, en el mbito estatal, muri una mujer cada 4 das por complicaciones
durante el embarazo, parto o puerperio, con este acumulado de muertes maternas, el estado de Guerrero se
ubica en el lamentable primer lugar con mayor razn de muerte materna a nivel nacional. Nada novedoso,
desde hace diez aos, Guerrero, Chiapas y Oaxaca se han disputado los penosos primeros lugares. La
mortalidad materna contina siendo el principal reto del sistema de salud en el estado (ver figura 3).
La morbilidad est dada por las complicaciones o enfermedades que se producen durante la
gestacin, parto o puerperio y pueden ser inmediatas o mediatas, afectando la salud de las mujeres muchas
veces en forma permanente. En el caso del embarazo, factores de tipo econmico, social, cultural y la calidad
con que se proveen los servicios de salud juegan un papel sustancial en la evolucin y resolucin satisfactoria
de la gestacin.
La muerte materna es el resultado ltimo y ms dramtico de una serie de eventos que revelan la
falta de acciones para atender la situacin de atraso, marginacin y rezago en la que viven un sector de las
mujeres Guerrerenses por parte de las personas que conviven con ellas, del personal de salud y de autoridades
gubernamentales. Asimismo, da cuenta de una serie de relaciones econmicas, sociales y culturales que
ubican a la mujer en una posicin de franca desventaja.
100
CS (cefalea), CN
ECS (Edema Cara),
ECN NP0 (No contesta)
EMS (Edema manos), NP1 (uno)
EMN Nmero de Partos NP2 (dos)
EMIS (Edema M I), NP3 (tres)
EMIN NP+ (4 o ms)
VS (Vrtigo), VN
SS (Sangrado), SN
FS (Fosfenos), FN
Sntomas
VBS (Visin Borrosa),
(P20) PL (Preclampsia Leve)
VBN
AS (Aeufenos), AN PL (Preclampsia severa)
HTAS (Hipertensin), E (Eclampsia)
HTAN AA (Amenaza de aborto)
PCS (Prdida Diagnstico AEI (Aborto Espontaneo
Conciencia), PCN Incompleto)
ECS (Estado de Coma), EE (Embarazo Ectpico)
ECN HP (Hemorragia Preparto)
DS (Disnea), DN
OS(Otras), ON
Se analiz un modelo de regresin logstica(ver [4]) con las principales variables resultantes de las
hiptesis de trabajo obtenidas despus de aplicar el anlisis de correspondencias simple, considerando para
dicho anlisis slo a las mujeres que presentaban hemorragia obsttrica e hipertensin, dando un total de 385
personas.
4. RESULTADOS
Se obtuvo una prevalencia de Enfermedades Hipertensivas del 58.4% y el 41.6% de las hemorragias
durante el embarazo. La edad se encontr que el grupo ms vulnerable fue entre 20-26 aos con 30.1 %,
seguido por el grupo 15-19 aos con 25.5% (ver grfico 1.), el estado civil de las gestantes el 64.2% son
casadas y el 27.8% vive en unin libre. En cuanto a la escolaridad un 30.4% solo cuenta con el nivel
primaria. El 85.5% de las gestantes se dedica a las cuestiones del hogar.
101
Grfico2. Distribucin del diagnstico de la edad de las mujeres
embarazadas
Fuente: Expedientes clnicos del hospital del nio y la madre del 2008
En cuanto al nmero de embarazos el 76.6% manifest haber tenido entre 1-3 embarazos; en relacin al
nmero de partos el 30.4% manifest haber tenido de 1-3; el nmero de semanas de gestacin que las
gestantes tenan al momento de asistir al servicio de urgencias es de 36-42 SDG con el 48.3%; el 60.3% del
tenido entre 5-6 consultas; en cuanto al control prenatal el 41.6% de las gestantes manifest haber iniciado su
control prenatal en total de mujeres en estudio si tuvo atencin prenatal durante su embarazo, el 16.4%
manifest haber el primer trimestre de gestacin. En cuanto al tipo de diagnstico el 57.7% presento
Hipertensin arterial Inducida por el embarazo (ver grfico 2).
Grfico 3. Diagrama de correspondencias para datos generales y trastornos del embarazo, parto o puerperio
Partiendo del estudio de los antecedentes generales y su relacin con los trastornos de HTA
(Hipertensin arterial) y de HO (hemorragia obsttrica) se llega a las siguientes hiptesis:
HTA se relaciona con la realizacin de la atencin prenatal (PS) y la atencin durante todos los
trimestres del embarazo(T1,T2 y T3), una escolaridad definida como otras y el hecho de no contestar si tiene
antecedentes patolgicos, aqu aparece asociado a la HTA el trastorno de eclampsia.
HO (hemorragia obsttrica) se relaciona con mujeres de estado civil unidas (ECU) y divorciadas
(ECD), que no contestan cul es su escolaridad ni sobre cual trimestre comenz su atencin.
Grfico 4. Diagrama de correspondencias para datos de antecedentes patolgicos personales con los
trastornos
Teniendo en cuenta los antecedentes patolgicos de las mujeres estudiadas se lleg a las siguientes
relaciones. La hipertensin arterial (HTA) se relaciona con la presencia de antecedentes patolgicos
personales (APP) y familiares (APF) y atencin prenatal (PRNS) aunque muchas no contestaron si la haban
tenido. La Hemorragia Obsttrica (HO) se relaciona con la no atencin prenatal y el nmero de abortos por
encima de dos.
103
Grfico 5. Diagrama de correspondencias para datos de sntomas relacionado con los trastornos
En el caso de los sntomas estudiados hay una relacin que no permite diferenciar entre lo asociado
a HTA (Hipertensin arterial) y a HO (Hemorragia obsttrica), pero en cuanto a la Eclampsia que se
relaciona con la HTA si se observa una relacin de la presencia de edemas en manos (EM) y cara (EC) ante
este trastorno.
Hay una clara relacin entre preclamsia y la edad que tenga la mujer, presentndose en su forma
severa en las embarazadas de 34 a 40 aos y en forma leve en las que tienen edad de 15 a 19 aos.
104
Tabla 1. Resumen de los modelos
-2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke
a La estimacin ha finalizado en el nmero de iteracin 5 porque las estimaciones de los parmetros han cambiado en menos de .001.
Como resultado de utilizar este modelo en el anlisis entre los factores de riesgo se llega a un modelo
que es significativo y que no viola ningn supuesto (ver la prueba de razn de verosimilitud y la de Hosmer
and Lemeshow) [7]. La calidad de la funcin es bastante buena (aproximadamente el 80%).
105
Resultaron que asociados a las HO estn como riesgos la Atencin Prenatal, Trimestre de Control y
antecedentes Patolgicos Personales, es destacable el hecho de tener un seguimiento prenatal y de trimestre,
esto es lgico pues todas son mujeres con problemas de enfermedad. El hecho del nmero de abortos, al igual
que la edad no result significativo, pero si resultan factores de proteccin ante la HTA el hecho de no tener
antecedentes patolgicos familiares y personales (ver tabla 4).
7. CONCLUSIONES
La Eclampsia se present ms frecuente en mujeres de menores de 20 de edad, en su forma leve y en
las mujeres de edad de 34 aos a 40 en su forma grave. La presencia, de los diferentes sntomas estudiados, no
permiti diferenciar entre los diferentes padecimientos estudiados.
Dentro de los factores de riesgo reproductivo para las mujeres resulto significativo para el desarrollo
de estas patologas, el llevar un control prenatal y de visitas trimestrales para la morbilidad materna.
Resulto un factor de proteccin importante para la presencia de HTA, el no tener antecedentes patolgicos ni
personales ni familiares.
8. RECOMENDACIONES
Continuar el estudio de detectar los factores de riesgo como un importante problema de salud pblica
relacionado con la salud de las mujeres gestantes. En todos los casos stas deben tener acceso a servicios de
salud con calidad y calidez que le permitan satisfacer sus demandas en salud.
106
REFERENCES
107
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 108-117
Vt DD
SISTEMA EXPERTO BASADO EN REGLAS PARA LA
DETECCIN DE CNCER
Magali vila Palacios, Luis Ren Marcial Castillo, Marcela Rivera Martnez, Lourdes
Sandoval Sols, Jess Gmez Mandujano, Jessica vila Palacios, Luis Njera Masso y
Leticia vila Palacios
1, 2, 3, 4
Benemrita Universidad Autnoma de Puebla, Puebla, Mxico
5
Hospital General, Cuautla, Morelos, Mxico
6-7
Hospital Central Militar, Distrito Federal, Mxico
8
Hospital de la Mujer, Yautepec, Morelos, Mxico
ABSTRACT
Expert systems are the most common type of artificial intelligence systems for clinical routine, the objective of this work is to
detect various types of cancer such as: colon cancer, breast cancer and cervical cancer. The codification of knowledge is done
through rules; the expert system is the result of the experience of human experts working in various hospitals in Mexico and the
clinical practice guidelines of the Secretara de Salud that help in strengthening decision making clinics. The developed system
is implemented in the programming language SWI-Prolog and the results are validated with the help of human experts.
KEY WORDS. Breast cancer, colon cancer, uterine cancer, rule-based systems, expert systems.
RESUMEN
Los sistemas expertos son el tipo ms comn de los sistemas de inteligencia artificial para la rutina clnica, el objetivo de ste
trabajo es detectar diversos tipos de cncer como son: cncer de colon, cncer de mama y cncer crvico uterino. La codificacin
del conocimiento se realiza mediante reglas, el sistema experto es el resultado de la experiencia de expertos humanos que
laboran en diversos hospitales de Mxico y de las guas de prcticas clnicas de la Secretara de Salud, que ayudan en el
fortalecimiento de la toma de decisiones clnicas. El sistema desarrollado est implementado en el lenguaje de programacin
Swi-Prolog y los resultados se validan con la ayuda de los expertos humanos.
1. INTRODUCCIN
Un sistema experto (SE) es capaz de procesar y memorizar informacin, aprender y razonar en
situaciones deterministas e inciertas, imitar el razonamiento de un experto humano para tomar decisiones
apropiadas en una tarea particular y explicar por qu se han tomado tales decisiones [2]. Un problema debe
ser resuelto mediante un SE cuando [2, 6]:
a) El problema puede resolverse slo por un conocimiento experto que puede dar forma a los
conocimientos necesarios para resolver el problema, y la intervencin del experto dar al sistema la
experiencia que necesita.
b) El problema puede resolverse solamente por un conocimiento experto en vez de usar algoritmos
particulares
c) Se tiene acceso a un experto que puede dar forma a los conocimientos necesarios para resolver el
problema, por lo que la intervencin de este experto dar al sistema la experiencia que necesita.
Los sistemas basados en el conocimiento o sistemas expertos son el tipo ms comn de los sistemas
de inteligencia artificial usados en la rutina clnica, contienen los conocimientos mdicos, por lo general,
sobre una tarea muy especfica y son capaces de razonar con los datos de pacientes individuales para llegar a
conclusiones razonadas. Aunque hay diversas variaciones, el conocimiento dentro de un sistema experto
tpicamente es representado en forma de un conjunto de reglas. Existen diferentes tareas clnicas en las que un
sistema experto se puede aplicar como son:
108
1. Asistencia en el diagnstico. Cuando el caso del paciente es complejo, raro o la persona que hace
el diagnstico no tiene experiencia, entonces un sistema experto puede obtener un diagnstico
oportuno tomando en cuenta la base de datos del paciente.
2. Planificacin y terapia crtica. El sistema experto es capaz de buscar para encontrar
inconsistencias, errores y omisiones en un plan de tratamiento existente o se puede utilizar para
formular un tratamiento basado en la condicin especfica del paciente.
3. Reconocimiento e interpretacin de las imgenes. El objetivo es que el sistema experto pueda
interpretar varias imgenes mdicas con la finalidad de encontrar anormalidades y dar un
diagnstico.
Este trabajo se enfoca en construir un sistema experto para desarrollar la tarea clnica de asistencia en
el diagnstico, el sistema experto desarrollado detectar diversos tipos de cncer como son: cncer de colon,
cncer de mama y cncer crvico uterino. Se aplica la lgica de predicados para construir un sistema experto
basado en reglas, stas se obtienen en base a los conocimientos aportados por los expertos humanos que
laboran en el hospital general de Cuautla Morelos y por las guas clnicas del consejo de salubridad general de
nuestro pas, la implementacin se desarroll en el lenguaje de programacin Swi-Prolog con una interfaz
grfica desarrollada con las funciones de la biblioteca grfica XPCE [11]. En la seccin 2, se presentan los
antecedentes del proyecto, en la seccin 3, se muestra la representacin del conocimiento, se presenta en la
seccin 4 los factores de riesgo y los diagramas obtenidos, la seccin 5 da la explicacin de la
implementacin en Swi-Prolog, en la seccin 6 se presentan las conclusiones y finalmente se listan las
referencias.
109
investigadores del rea de Inteligencia Artificial siguen estudiando y aadiendo nuevos mtodos a la
representacin del conocimiento y siguen generando nuevos mtodos de razonamiento, debido a la
importancia del conocimiento en sistemas expertos y dado que el mtodo de adquisicin de conocimiento es
lento y tedioso, gran parte del futuro de los sistemas expertos depender de romper el cuello de botella que se
tiene respecto a la adquisicin de conocimientos, en la codificacin y representacin de una infraestructura de
conocimiento general. Para llevar a cabo el desarrollo de la representacin del conocimiento en este trabajo,
los expertos humanos plantearon los siguientes bloques: identificar los factores de riesgo, realizar los
diagramas en base a los factores de riesgo y finalmente hacer el anlisis de los resultados. La base de
conocimientos se desarrolla mediante la interaccin con los expertos humanos para obtener el conjunto de
reglas, las cuales estn basadas en las guas de prcticas clnicas de la Secretara de Salud [8, 9, 10].
Seleccion
e opcin
En este sistema experto los factores de riesgo funcionan de la siguiente manera: Se le harn
preguntas al paciente como su sexo y edad, de acuerdo a esto el sistema experto usar un filtro para aplicarle
110
los cuestionarios que correspondan con el fin de descartar posibles casos de cncer, los cuestionarios son los
factores de riesgo. Si el paciente dice s a algn factor pasar a la siguiente etapa de deteccin hasta
asegurarse que el paciente presenta cncer, en caso contrario, se tendr al paciente en observacin y se le
realizarn estudios cada 6 meses o cada ao.
El diagrama inicia preguntando qu es lo que se desea hacer, y se dan 4 opciones al usuario, mismas
que se muestran en la Figura 1.
Como no es el mismo seguimiento que se realiza a una mujer que a un hombre, se pide el sexo del
paciente, como se muestra en la figura 2.
Hombr Mujer
e
La figura 3 muestra las preguntas que se hacen con respecto a la edad del paciente, y tomando en
cuenta el sexo del paciente va a los factores de riesgo.
Rango de edad
Figura. 3. Rango de edad y el tipo de factor de riesgo a aplicar segn sea hombre o mujer.
Dependiendo de las respuestas del paciente se har su deteccin, tomando en cuenta los factores de
riesgo. La figura 4, muestra el diagrama a aplicar para el caso de cncer crvico uterino, la figura 5, muestra
el diagrama a aplicar para cncer de mama y la figura 6, muestra el diagrama a aplicar para cncer de colon.
111
Figura 4. Diagrama para la deteccin de cncer crvico uterino.
112
Figura 6. Diagrama para la deteccin de cncer de colon.
5. IMPLEMENTACIN EN SWI-PROLOG
Swi-Prolog ofrece un entorno de Prolog y una caja de herramientas de grficos denominado: XPCE,
es muy utilizado en aplicaciones del mundo real, se usa ampliamente en la investigacin, en la educacin y es
muy til para desarrollar sistemas expertos basados en reglas, por lo que en este trabajo se genera la
aplicacin en Swi-Prolog. El sistema experto desarrollado, permite detectar diversos tipos de cncer usando
lgica de predicados, las reglas generadas usan encadenamiento hacia adelante para obtener sus conclusiones.
A continuacin, ejemplificamos el uso del sistema desarrollado en un caso real de diagnstico de cncer
crvico uterino aplicado a una paciente del hospital general de Cuautla Morelos, Mxico y supervisado por
nuestros expertos humanos. Los pasos son los siguientes:
113
b) Se selecciona el sexo del paciente como se muestra en la figura 7, en ste caso se opta por la opcin:
mujer.
c) Se pide que elijas el rango de edad como se muestra en la figura 8, para ste caso se selecciona la
opcin: de 36 a 39.
d) Debido a que las mujeres de ste rango de edades es ms probable que presenten los 3 tipos de
cncer se desplegar la ventana que se muestra en la figura 9, se selecciona cul se quiere detectar
primero, en este caso se aplicar la encuesta de: Cncer crvico uterino.
e) Se despliega una ventana con los factores de riesgo como se muestra en la figura 10, misma que se
debe aplicar al paciente, si ste contesta afirmativo al menos a un riesgo pasar al nivel siguiente, si
no se le darn recomendaciones de cuidados.
114
Figura. 10. Factores de riesgo para el cncer crvico uterino.
115
f) Si se dio al menos un s, entonces aparecer la ventana que se muestra en la figura 11, en donde debe
especificar las condiciones de la paciente, en este caso elegimos la opcin: Con Histerectoma.
g) Aparece la ventana que se muestra en la figura 12, en donde se pregunta por la patologa de la
paciente, si se relaciona o no con el cncer crvico uterino.
h) Si se dio la opcin de Si, aparece la ventana que se muestra en la figura 13, en donde se debe analizar
la citologa vaginal.
i) Si la citologa fue positiva, aparecer finalmente la ventana que se muestra en la figura 14, en donde
se recomienda que la paciente debe pasar a la clnica de displasia o a ginecologa para un anlisis
ms exhaustivo.
Puede obtener ms informacin sobre el desarrollo del sistema experto en la pgina http://sistema-
experto1.webnode.mx/ y sobre el software mandando un correo electrnico a magali_a.p.@hotmail.com.
6. CONCLUSIN
Este trabajo, demuestra la aplicacin de la lgica de predicados o lgica de primer orden para
construir herramientas computacionales en beneficio de la salud humana. Las pruebas se realizan con datos
reales y la herramienta es capaz de dar pronsticos oportunos, por lo tanto, queda demostrada la importancia y
el valor de los sistemas expertos, ya que estos sistemas permiten disminuir los tiempos de espera que se ve
reflejado en un diagnstico econmico, oportuno y que finalmente incide en el bienestar de la sociedad.
Como trabajo futuro se pretende ampliar este sistema con el objetivo de lograr mayor aplicabilidad en
situaciones reales.
116
REFERENCIAS
[1] ALONSO VIVEROS P. (2007): Virus de papiloma humano causante del cncer crvico uterino,
Boletn de difusin de la direccin de investigacin del hospital general de Mxico.
[2] CASTILLO E., GUTIRREZ J. M., HADI A. S., (1997): Expert Systems and Probabilistic Network
Models, Springer, New York.
[3] DARZI M., ASGHARLIAEI A., HOSSEINI M., ASGHARI M. (2011): Feature Selection for Breast
Cancer Diagnosis: A Case-Based Wrapper Approach, World Academy of Science, Engineering and
Technology, 77, 1142-1143.
[4] LPEZ A., LIZANO M., (2006): Cncer crvico-uterino y el virus del papiloma humano: La historia
que no termina, Cancerologa, 1, 31-55.
[5] MUKHTAR R. A., NSEYO O., CAMPBELL M. J., ESSERMAN L. J., (2011): Tumor-associated
Macrophages in Breast Cancer as Potential Biomarkers for New Treatments and Diagnostics, Expert
Rev Mol Diagn., 11 (1):91-100.
[6] PRASAD K., SAGAR Y., (2011): An Approach to Develop Expert Systems in Medical Diagnosis
Using Machine Learning Algorithms (ASTHMA) and a Performance Study, International Journal
on Soft Computing ( IJSC), 2 (1), 26-33.
[7] AMERICAN CANCER SOCIETY (2009),
[8] http://www.cancer.org/acs/groups/content/@epidemiologysurveilance/documents/document/acspc-
027826.pdf
[9] SECRETARA DE SALUD - CENTRO NACIONAL DE EXCELENCIA TECNOLGICA EN
SALUD (2007), guas de prctica clnica,
[10] http://www.cenetec.salud.gob.mx/descargas/gpc/METODOLOGIA_GPC.pdf
[11] SECRETARA DE SALUD - CENTRO NACIONAL DE EXCELENCIA TECNOLGICA EN
SALUD (2011): guas de prctica clnica,
http://www.cenetec.salud.gob.mx/interior/catalogoMaestroGPC.html
[12] LPEZ A., LIZANO M. (2006): Cncer crvico uterino y el virus del papiloma humano: La historia
que no termina, Cancerologa, 1, 31-55.
[13] http://www.incan.org.mx/revistaincan/elementos/documentosPortada/1172193073.pdf
[14] SWI-PROLOG (2012): www.swi-prolog.org.
117
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 118-127
Vt DE
SELECCIN DE MODELOS BAJO EL ENFOQUE BAYESIANO: UNA APLICACIN AL
ESTADO COGNITIVO DE LOS ADULTOS MAYORES EN EL G. ESTADO DE GUERRERO.
G. L. Daz*, V. Sistachs V.ega**, D. Covarrubias* y N. I. Hernndez***
*Unidad Acadmica de Matemtica, Universidad Autnoma de Guerrero, Mxico.
**Facultad de Matemtica y Computacin. Universidad de La Habana, Cuba.
***Unidad Acadmica de Enfermera no.1, Universidad Autnoma de Guerrero.
ABSTRACT
The uncertainty problem is inherent to every statistical model and linked to it is the model selection
topic. This paper presents a procedure for selection model in the presence of uncertainty called BMA
(Bayesian Model Averaging) applied to logistic regression, proposed by Raferty (1995). For R
implementation, we retook the ideas of Raftery, Painter and Volinsky(2005), such as the ones of
Saminni and Parmeter(2011), said procedure is used to make the study analysis over the cognitive state
of elders in Guerrero, Mexico. It is proposed the BMA as an alternative to take into account the models
on this type of study.
RESUMEN
La problemtica de la incertidumbre es inherente a todo modelo estadstico y vinculado a ella est el
tema de seleccin de modelo. En este trabajo presentamos un procedimiento para la seleccin de
modelos en presencia de incertidumbre llamado BMA (Bayesian Model Averaging) aplicado a
regresin logstica, propuesto por Raftery(1995). Para la implementacin en R, se retoman las ideas de
Raftery, Painter y Volinsky(2005), as como Saminni y Parmeter(2011), dicho procedimiento es
utilizado para hacer el anlisis del estudio sobre el estado cognitivo de los adultos mayores en
Guerrero, Mxico. Se propone el BMA como una alternativa para tomar en cuenta la incertidumbre de
los modelos en este tipo de estudios.
1. INTRODUCCIN.
El tema de la incertidumbre inherente a todo modelo estadstico pocas veces es tratado
explcitamente en las aplicaciones. Se puede decir que el procedimiento de la modelacin consiste de dos
fases, estimar un modelo y validar dicho modelo, despus de haber pasado las pruebas con xito se considera
el modelo listo para su aplicacin, pero sobre todo se asume como el modelo verdadero.
Muy relacionado con el tema de la incertidumbre est el problema de la seleccin de modelos, que
segn Gelfand y Dey (1994), tiene dos aspectos uno referido a si el modelo es adecuado y el otro, a Cul es
el mejor modelo?, dentro de una coleccin bajo consideracin.
Se define un modelo como una especificacin de una distribucin de cantidades observables (los
datos) y no observables (los parmetros del modelo, observaciones perdidas, etc) y esta definicin puede ser
enfocada desde una perspectiva bayesiana. En el enfoque bayesiano los parmetros y los modelos son
considerados aleatorios (f(y/Mi)) y expresan su incertidumbre en trminos de distribucin de probabilidad.
Entre los diferentes mtodos bayesianos de seleccin de modelos estn, los Factores de Bayes (FB),
como un mtodo para seleccionar entre dos posibles modelos y para el caso ms general (ms de 2 modelos)
se utiliza el mtodo BMA donde se habla de promediar los modelos (ver Claeskens, G. and Hjort, N. L.2008),
tambin existen otros criterios como el AIC, BIC, etc.(ver Kadane, and Lazar 2004 )
En el trabajo presentamos un mtodo, el Bayesian Model Averagind que proporciona una va formal
para tomar en cuenta la incertidumbre en la seleccin de modelos. Ilustramos el mtodo con una aplicacin a
118
un estudio de corte transversal investigando los factores de riesgo asociados al problema del estado cognitivo
en adultos mayores. En el epgrafe 2 se muestra el uso del mtodo de BMA para la seleccin de modelos bajo
el paradigma bayesiano, as como una implementacin para utilizarlo usando el software R. En el epgrafe 3
se presenta la aplicacin de este mtodo de seleccin en un estudio sobre el estado cognitivo de los adultos
mayores en Guerrero, Mxico y por ltimo en el epgrafe 4 presentamos la discusin de los resultados.
Tpicamente los investigadores usan ambos desarrollos, primero tratan de generar varios mejores
modelos para diferentes nmeros de variables y entonces seleccionar el modelo con mejor dimensin de
acuerdo a uno de los criterios listados. Sin embargo, cualquier combinacin de estos desarrollos para la
seleccin de modelos no parece tener en cuenta la incertidumbre asociada con la seleccin de modelos y por
lo tanto en la prctica se tiende a producir sesgos en las estimaciones y los procedimientos para la seleccin
de variables son sospechosos (Lipkovich, 2002).
Los dos aspectos dos aspectos relacionados con el problema de la seleccin de modelos (la bsqueda
de modelos y el criterio para la seleccin de modelos) son integrados con naturalidad en el modelo de
promedios, el cual supera la deficiencia inherente de la seleccin de modelos determinista combinando
(promediando) informacin de todos o un subconjunto de modelos cuando se hace estimacin, inferencia o
predicciones, en vez de usar slo un modelo.
El BMA se est volviendo una herramienta de anlisis de datos cada vez ms popular que les permite
a los investigadores tomar en cuenta la incertidumbre asociada con el proceso de la seleccin de modelos.
Muchas aplicaciones el BMA estn relacionadas con el espacio de modelos confinados para alguna
subclase especial, por ejemplo, hay aplicaciones del BMA para modelos grficos (Madigan y Raftery, 1994),
rboles de regresin (Chipman et al., 1998), regresin multivariada (Brown y Bannucci, 1998; Noble, 2000) y
anlisis de sobrevivencia (Volinsky, 1997) por mencionar algunos.
De acuerdo con Madigan y Raftery (1994), si es la cantidad de inters, tal como un parmetro del
modelo de regresin o una observacin futura, entonces su distribucin a posterior dados los datos D y un
conjunto de K modelos es la mezcla de distribuciones a posterior (ver Leamer, 1972).
As, como consecuencia de la regla o teorema de la probabilidad total, la probabilidad final BMA de
viene dada por:
119
|
| = 2
|
En esta expresin, | (2) es la integral de la funcin de verosimilitud del modelo ,
resultado de integrar sobre los parmetros del modelo, es decir:
Cuando nuestro inters se centra en los parmetros del modelo, digamos parmetros de regresin tal
como 2
, (1) puede ser aplicado con = 2
. La media posterior del BMA de 2
es justo un promedio de los
pesos de las medias a posterior bajo cada uno de los modelos:
El cual se puede ver como un estimador puntual del modelo de promedios bayesianos. En (6), 27
es
la media posterior de 2
bajo el modelo y este se puede aproximarse por su correspondiente estimador de
mxima verosimilitud 28
(Rafftery, 1995). Una expresin similar es posible para la desviacin estndar a
posterior, el cual puede verse como un error estndar del modelo de promedios bayesianos.
En la implementacin del BMA existen dos dificultades: primero el clculo de la integral en (3) y
segundo promediar sobre todos los modelos cuando el nmero de modelos es grande como en (1) y (6). Para
ello la integral de verosimilitud es aproximada por la aproximacin del BIC (ec.4). La suma sobre todos los
modelos es aproximada encontrando el mejor modelo usando el algoritmo fast leaps and bounds que fue
introducido por Raftery(1995). Finalmente los modelos que son menos verosmiles a posterior que el mejor
modelo son excluidos. Esta es una exhaustiva bsqueda para encontrar el modelo global ptimo.
120
2.1- Implementacin del BMA en R
La suma sobre sobre todos los modelos posibles se aproxima mediante el algoritmo leaps and
bounds. Este algoritmo fue propuesto por Furnival y Wilson (1974) para la seleccin de variables en regresin
y ha sido aplicado en modelos linelaes, en modelos linelaes generalizados por Raftery (1995), y por ltimo
en modelos de sobrevivencia por Volinsky et al. (1997). Este algoritmo descarta los modelos con
probabilidades finales menos verosmiles, encontrando el modelos globalmente ptimo.
Si el nmero de variables es muy grande, el algoritmo leaps and bounds puede hacerse notablemente
lento. En estos casos, se puede acelerar el proceso de bsqueda modificando el valor por defecto de maxCol,
(est establecido en 31 columnas). Si el nmero de variables es superior, entonces se procede por eliminacin
hacia atrs por etapas (backwards, stepwise) antes de aplicar leaps and bounds. Tratndose del caso de los
modelos generalizados con probabilidad inicial conocida, se dispone tambin de la funcin glib, que aproxima
la integral de la funcin de verosimilitud por el mtodo de Laplace, Raftery (1996). Podemos ver el uso de
esta funcin aplicada a un estudio de casos y controles en epidemiologia en Villefont, (2001).
El paquete BMA realiza el anlisis asumiendo una distribucin uniforme como modelo a priori y
utiliza la aproximacin del BIC (Bayesian Information Criterion) para construir las probabilidades a priori de
los coeficientes de regresin (Raftery, Hoeting, Volinsky, Painter & Yeung, 2010). Adems esta librera se
construy con base en el algoritmo de Raftery(1995).
El aumento en las expectativas de vida ha tenido implicaciones importantes para los sistemas de
salud en el mbito mundial. Las proyecciones sealan que entre 1980 y 2050, la expectativa de vida para las
personas mayores de 60 aos aumentar 77% 2. Con ello incrementarn las enfermedades asociadas con la
edad entre las que el deterioro cognoscitivo representa una condicin que afecta de manera directa la calidad
de la poblacin adulta mayor y determinan un mayor uso de los servicios de salud (Banco Mundial, 1993).
El envejecimiento de la poblacin implica una mayor demanda de servicios de salud. En este grupo
de edad cada vez se presentan mayores tasas de morbilidad y necesidades de atencin mdica que en el resto
de la poblacin. Al mismo tiempo, los padecimientos de la poblacin en edades avanzadas tienden a
concentrarse en males crnico-degenerativos.
Las principales causas de muerte a nivel nacional de las personas de la tercera edad de ambos sexos
en el ao 2000 fueron las enfermedades cardiovasculares, neoplasias malignas, diabetes mellitus,
enfermedades digestivas, respiratorias, del hgado y accidentes. En el ao 2003 el Congreso del Estado aprob
la creacin del Programa Pensin Guerrero, cuyo objetivo es apoyar econmicamente a los adultos mayores
de 65 aos en los municipios de Acapulco de Jurez, Chilpancingo de los Bravo, Iguala de la Independencia,
Taxco de Alarcn y Jos Azueta.
121
En 2004 se realiz un estudio entre la Secretaria de Desarrollo Social y la Escuela de Enfermera no.
1 de la Universidad Autnoma de Guerrero y uno de sus objetivos era evaluar el estado de saludos de los
Adultos Mayores. Algunos de los indicadores obtenidos en ese estudio fueron: estado nutricional, seguridad
social y accesibilidad a los servicios, vivienda, aspecto laboral, capacidad funcional, estado de salud,
disfunciones fsicas, estado cognitivo y estado anmico.
El estado de salud de los adultos mayores est asociado a distintos factores que influyen de manera
sustancial en la calidad de vida que stos puedan tener. Las variables que se analizaran en este estudio son las
siguientes, ya que se consideran factores de riesgo para estar afectado en el Estado Cognitiva del adulto
mayor:
4. RESULTADOS Y DISCUSIN.
El modelo que se utiliz fue el Bayesian Model Average (BMA) en regresin logstica binaria para
obtener un modelo que me permita calcular la probabilidad de que un adulto mayor se vea afectado del estado
cognitivo, a partir de las variables que se consideraban factores de riesgo.
Lo primero que se estableci fue las distribuciones a priori de los parmetros vector y 9 / :ue se
consideraron no informativas, es decir p(,) -1 , donde ; = =
<
La distribucin posterior del modelo con esas a priori seria
( (
p (, / z ) = N p / w , 1 X t WX )
1
)Ga / n 2 p , n 2 p 2
(
donde w = X t WX )1
X t Wz , 2 =
1
n
(
z X w ) (z X )
t
w y W matriz diagonal donde
wii = i (1 i )
Para resolver el problema se utiliz el paquete BMA que est en el lenguaje R (Raftery, et al.), y
cuyas instrucciones para correr el BMA en este modelo aparecen en el siguiente cuadro.
122
Programa 1: BMA en regresin logistica
library("MASS")
library(splines)
library("survival")
library(leaps)
library(BMA)
datos<-read.table("base pension guerrero pocas variables.txt", header=T)
y<- datos$EEC
x<- data.frame(datos[,-11])
x$mpio<- as.factor(x$mpio)
x$sexo<- as.factor(x$sexo)
x$edo.civi<- as.factor(x$edo.civi)
x$poblaci<- as.factor(x$poblaci)
x$edo_lab<- as.factor(x$edo_lab)
x$es_sano<- as.factor(x$es_sano)
x$esca_imc<- as.factor(x$esca_imc)
x$ABVD<- as.factor(x$ABVD)
x$AIVD<- as.factor(x$AIVD)
#x$EEC<- as.factor(x$EEC)
x$EEA<- as.factor(x$EEA)
El programa selecciono 18 modelos de los cuales en la Tabla 1 se muestran slo los 5 mejores que
tiene una probabilidad a posteriori acumulada del 1.00, adems en la tabla por columna con los nombre de la
constante y las variables utilizadas en el problema, aparece otro bloque donde aparece p!=0, EV y SD, los
cuales son, porcentaje las probabilidades finales de las variables para estar en el modelo ideal, EV que
muestra los valores esperados BMA finales de los coeficientes y bajo las siglas SD las desviaciones estndar
BMA finales ara cada coeficiente. En las siguientes columnas aparecen los coeficientes estimados de las
variables que se incluyen en cada uno de los respectivos modelos. Al final se muestra el nmero de variables
incluidas en los modelos, el ./ , el BIC y la probabilidad final del modelo.
En la tabla 1 se puede observar que hay tres variables que se incluyen en los 5 modelos, para el
primer modelo las variables ms importantes son actividades instrumentales de la vida diaria (preparar
comida, manejar dinero, hacer compras, usar el telfono, etc.), sexo y el tipo de poblacin (urbana) ya que
adems de tener la probabilidad de inclusin ms alta aparecen en todos los modelos, le sigue en importancia
la edad y las actividades bsicas de la vida diaria (caminar, baarse, comer ponerse los zapatos, etc.) con 65%
y 66% de probabilidad de inclusin en el modelo.
>? = 1
@A52.54 + 0.0038@F 0.080G@A! 0.080!H FI, + 0.077FHK + 0.073F,K6
=
1 @A52.54 + 0.0038@F 0.080G@A! 0.080!H FI, + 0.077FHK + 0.073F,K6
si tenemos una adulto mayor que sea mujer con edad de 70 aos, que en zona urbana, que est afectada de su
capacidad funcional (es decir afectada de sus AIVD y ABVD) la probabilidad de que se vea afectado de su
estado cognitivo es de 11% de que se vea afectado de su estado cognitivo.
123
En la Imagen1 se muestra las distribuciones finales BMA de los distintos coeficientes del modelo 1
es el resultado de (1) tras hacer = 2 .
En la imagen 1 podemos la distribucin final de las variables que se analizar y aquellas que quedaron
incluidas en el modelo 1 son las que tiene forma de campana. Si observamos por ejemplo la funcin de
densidad final del coeficiente de la variable ABVD, tenemos la siguiente imagen, ver imagen 2.
Mpio
2
3
4
5
edad 66 0.02580 0.02186 3.824e-02 4.029e-02 - - 3.961e-02
sexo 00 - - - - - - -
1 -0.812 0.19509 -8.076e-01 -8.551e-01 -7.672e-01 -8.189e-01 -8.555e-01
Edo.civil 0 - - - - - - -
2 - - - - - - - -
3 - - - - - - - -
4 - - - - - - - -
5 - - - - - - - -
poblacion 00 - - - - - - -
1 -0.75012 0.17995 - - - - -
7.487e-01 7.597e-01 7.410e-01 7.555e-01 7.462e-01
Esca_imc .5 - - - - - - -
1 0.005823 0.05241 - - - - 2.306e-01
ABVD 5.7 - - - - - - -
1 0.518021 0.44374 7.716e-01 8.158e-01 7.791e-01
AIVD 100 - - - - - - -
1 0.825072 0.21492 7.344e-01 8.605e-01 8.661e-01 1.015e+00 7.553e-01
EEA - - - - - - - -
1 - - - - - - - -
nvar 5 4 4 3 6
BIC - - - -2.999e+03 -2.998e+03 -2.998e+03 -2.996e+03 -2.993e+03
Post Prob - - - 0.385 0.250 0.246 0.093 0.025
124
Imagen 1. Distribuciones finales del BMA
En la Imagen 3 se puede apreciar la inclusin de las variables (eje de las ordenadas) en los modelos
obtenidos con el BMA (eje de las abscisas), con la particularidad de que la amplitud de las columnas
representa de manera proporcional la probabilidad final del modelo y se colorea la parte correspondiente a la
variable que se incluy en dicho modelo, por ejemplo, en el modelo 1 se encuentran incluidas las variables
edad (aos), sexo, poblacin actividades bsicas y actividades instrumentales, los colores indican el signo del
coeficiente en el modelo, siendo el azul el color que representa un valor positivo en los coeficientes y el color
rojo representa un valor negativo en dicho coeficiente.
125
Imagen 3. Grfico de inclusin de variables en el modelo BMA
5. CONCLUSIONES
El modelo seleccionado por BMA, expresa la variable Y (afectacin del Estado cognitivo del adulto
mayor) como funcin de la poblacin a la que pertenece el adulto mayor, su edad, sexo, actividades bsicas de
la vida diaria y actividades instrumentales de la vida diaria, es importante resaltar que hay tres variables que
parecen ser determinantes en relacin con el Estado Cognitivo, estas son: AIVD, Sexo y Tipo de poblacin.
Cabe sealar que este es el primer trabajo que se realiza bajo este enfoque, sin embargo, existen tres trabajos
en los cuales se estudia el estado funcional de los adultos mayores, en (Dorantes et al., 2007) se hace un
anlisis de regresin logstica multifactorial, en (Daz et al., 2012) se aplica un anlisis de regresin logstica
y el otro utiliza un anlisis de regresin multinomial (Daz et al. 2011). Entre las variables que resultaron
significativas en estos estudios, est la edad, gnero y el estado cognitivo que aparece como una covariable.
Es importante decir que el procedimiento presentado en este trabajo y el cual estamos proponiendo
como una estrategia de anlisis para este tipo de problemas (determinacin de factores de riesgo) presenta
notables ventajas sobre los anlisis que tradicionalmente se realizan ya que adems de su fcil
implementacin el paquete estadstico R proporciona resultados que se pueden observar grficamente, pero
sobre todo que en ellos se observan los mejores modelos y a su vez podemos ver cuales variables son las ms
importantes en cada uno de estos modelos y resulta ser una herramienta muy til en investigaciones
multidisciplinarias.
La utilizacin del paquete BMA en el entorno R constituye un aporte muy importante que favorecer
la seleccin de modelos bajo el enfoque bayesiano y que en la actualidad est teniendo un desarrollo notable
en las distintas reas del conocimiento y ms recientemente en aplicaciones en reas de la Bioestadstica,
Epidemiologa, y Salud en la cual est enmarcado el trabajo presentado.
126
REFERENCIAS
[1] ANDO, T. (2010): Bayesian Model Selection and Statistical Modeling, CRC Press.
[2] AMINI S., PARMETER C. (2011): Bayesian Model Averaging in R.
http://www.bus.miami.edu/_assets/files/faculty-and-research/academic-departments/eco/eco-working-
papers/2011/WP2011-9.pdf
[3] BANCO MUNDIAL (1994): Informe sobre el desarrollo mundial 1993. Invertir en salud. Washington:
Oxford University Press.
[4] CLAESKENS, G. AND HJORT, N. L. (2008): Model Selection and Model Averaging Cambridge
University Press.
[5] DAZ G. L., SISTACHS V. V., COVARRUBIAS M. D., ALARCN M. L., Y HERNNDEZ N. I.
(2011): Capacidad funcional del adultos mayores de 65 aos del programa pensin Guerrero: una
aplicacin del modelo de regresin multinomial, trabajo presentado el 4to Taller Latino Iberoamericano de
Investigacin de Operaciones, sin publicar.
[6] DORANTES MENDOZA G., AVILA FUENTES J.A., Y GUTIERREZ ROBLEDO L.M. (2007):
Factores asociados con la dependencia funcional en los adultos mayores: un anlisis secundario del estudio
nacional sobre salud y envejecimiento en Mxico, 2001. Rev. Panam Salud Pblica. 22,:1-11.
[7] GELFAN, A.E. AND DEY, D. K. (1994) Bayesian Model: asymptotics and exact calculations. Journal
of the Royal Statistical Society B56: 510-514.
[8] LIPKOVICH, I.(2002) Bayesian Model Averaging and variable selection in Multivariate Ecological
Models, Dissertation, Blacksburg Virginia.
[9] KADANE, J. B. and LAZAR, N. A (2004): Methods and Criteria for Model Selection. Journal of the
American Statistical Association March 2004, Vol. 99, No. 465
[10] RAFTERY, A., C., PAINTER & VOLINSKY, I. (2005): BMA: An R package for Bayesian Model
Averaging, R News, http://www.r-project.org/doc/Rnews/Rnews_2005-2.pdf.
[11] RAFTERY, A., HOETING, J., VOLINSKY, C., PAINTER, I. and YEUNG, K. Y. (2010): BMA:
Bayesian Model Averaging. R package version 3.13.URL: http://CRAN.Rproject.org/package=BMA
[12] R DEVELOPMENT CORE TEAM (2010): R: A Language and Environment for Statistical Computing,
R Foundation for Statistical Computing, URL: http://www.R-project.org.
[13] SALINAS N. S., DAZ G. L., COVARRUBIAS M. D., SISTACHS V. V., HERNNDEZ N. I. (2012)
Factores asociados a la Funcional de los adultos mayores en el Estado de Guerrero, trabajo presentado en
Segundo encuentro internacional de Medio Ambiente. Sin publicar.
127
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 128-144
Vt DF
FACTORES PRONSTICOS DE UNA MUESTRA DE PACIENTES
CON CNCER DE CRVIX EN HOSPITAL JUAN GRAHAM (HJG)
TABASCO, MXICO.
L. H. Solana-Villanueva, L. Lpez-Segovia, D. Romero y J. F. Garca Rodrguez
ABSTRACT
In this paper we present a survival analysis of a sample of 119 patients with cervix cancer treated at the oncology unit HJG of
Villahermosa, Tabasco, Mexico. All patients are treated with radiation therapy or chemotherapy, and were followed from
diagnosis to last visit or until the occurrence of relapse or death from cancer. Patients who dropped out or died from causes other
than cancer, has a partial survival time were defined as patients censored. We present an analysis of time to disease-free survival
(time to recurrence of cancer) and overall survival time (time to death from cancer). A nonparametric analysis of survival is
performed on these data to evaluate the effectiveness of treatment and identify groups of patients with similar survival on cancer
characteristics. A semi-parametric analysis is applied to identify statistically significant risk factors, such as, tumor type , stage,
histology , treatment, age , etc. , as a parametric analysis . Preliminary results for disease-free time show that there is a well
defined group of patients who have a tumor stage as highly significant risk factor. Similarly happens to overall survival time, in
addition to the proctitis as a risk factor Patients with worse forecasts are those with some of the following features: tumor in
stage IIIB, proctitis present.
1.- INTRODUCCIN
Muchas mujeres mueren en el mundo a causa del cncer de crvix. Cada dos horas fallece una mujer
en la poca ms productiva de su vida a causa del descuido, ignorancia o atencin tarda de este tipo de
problema principalmente en amrica latina muchas de ellas son jvenes, en edad reproductiva. En Mxico la
mortalidad por este tipo de cncer ocupa el segundo lugar [10].
El cncer crvix es una neoplasia que afecta el tero, sobre todo en su cuello y en el endometrio, que
es su pared interna, en la que se forma cada mes la capa sangunea que produce la menstruacin.[2]
Este tipo de cncer es la segunda causa de muerte por neoplasias malignas en la mujer en el mundo. Sin
embargo, gracias a la citologa y a la histopatologa se le puede detectar tempranamente y tratar
oportunamente, reduciendo el impacto de esta enfermedad. Sumado a estas medidas, el panorama se torna
ms favorable al contar ahora con vacunas que prometen disminuir este cncer, especialmente en los pases
que presentan mayor nmero de casos [3].
Por lo que se refiere al cncer crvix, segn los reportes del INEGI 2005-2009, la tasa de mortalidad
de los 10 estados con mayores casos es un 87.1% mayor que la de los 10 estados con menores tasas: 12.2
fallecimientos por cada 100 mil mujeres de 25 aos o ms, contra 6.5, respectivamente. Ahora bien, 7 de los
10 estados con mayores tasas de mortalidad por cncer crvico uterino estn entre los 10 de menor tasa del
128
cncer de mama. Por otro lado, 5 de los 10 estados con menores tasas de mortalidad por este tipo de cncer
pertenecen al grupo de los 10 con mayor tasa de mortalidad por cncer de mama, aunque los cinco estados
que se agregan Tlaxcala, Guanajuato, Hidalgo, Zacatecas y Coahuila son del centro y norte del pas.
En el sureste de Mxico, uno de los hospitales de alta especialidad que da atencin oncolgica es el
Hospital Juan Graham, donde se han reportado un aumento en los casos de cncer de crvix.
En la figura 2 se muestra las incidencias de cncer de crvix del 2006 a marzo del 2012, donde se
observa este aumento de casos. En el Hospital Juan Graham ocupa la segunda causa de atencin.
Figura 1: Distribucin porcentual de las defunciones por tipo de tumores malignos 2009
La mayora de las mujeres que desarrollan este cncer tienen entre 40 y 50 aos de edad. Sin
embargo, cada vez es ms comn ver mujeres jvenes, que a edades de 20 y 30 aos se les diagnostica cncer
crvix. Este hecho ha dado lugar a realizar un anlisis estadstico de 119 pacientes atendidos en el hospital.
Como primera aproximacin realizamos un anlisis no paramtrico con el objetivo de evaluar la eficiencia del
tratamiento e identificar grupos de pacientes con supervivencia similar respecto de las caractersticas del
cncer. Las curvas Kaplan-Meier del tiempo de supervivencia por variable permite la comparacin de la
supervivencia, en combinacin con la familias de pruebas estadsticas no paramtricas Fleming and Harrigton.
Un anlisis semiparamtrico es aplicado para identificar los factores de riesgo estadsticamente significativos,
tales como, tipo del tumor, estadio, histologa, tratamiento, edad, entre otros. Para este anlisis usamos el
ajuste de un modelo de regresin de Cox, bajo el supuesto de riesgos proporcionales previamente verificado.
129
2. METODOLOGA
Sea T una variable aleatoria positiva con funcin de distribucin F, que representa el tiempo hasta la
ocurrencia de un evento E. La funcin de supervivencia S(t) y la funcin de riesgo h(t) de T son definidas
como
= 1
= ,
Sea C la variable aleatoria que representa el tiempo hasta la censura con funcin de distribucin G. El tiempo
de supervivencia observado denotado por U, es definida como
= min, . Sea la indicadora de censura
definida como = 1, si
= , y = 0, si
= .
En una muestra de tamao n, el individuo i-simo tiene como elementos de supervivencia observado
la terna
, , , donde es el vector de covariables del individuo = 1: , son las variables
independientes que describen las caractersticas del tumor, tales como: Histologa, Etapa, Tumor, Sitio
QT(Quimio radioterapia, sin quimioterapia), Tipo, Braquiterapia, Fraccin, Proctitis, Cistitis, Hemoglobina.
Dentro del anlisis no paramtrico de supervivencia se encuentran los modelos actuariales. Estos
modelos son tiles en aquellos casos donde no se dispone de los tiempos exactos de ocurrencia del evento.
KaplanMeier proponen un estimador de la curva de supervivencia S, en presencia de datos censurados,
conocido como estimador "Lmite producto. El estimador KaplanMeier con tiempos de supervivencia no
repetidos, est dado por:
=
,
!"
Las pruebas anteriores son tiles para probar el juego de hiptesis: #$ :( igualdad de curvas de
supervivencia entre dos o ms grupos) vs #" :( diferencias entre curvas de supervivencias entre dos o ms
grupos). La prueba evala las diferencias entre el nmero de eventos observados y el nmero de eventos
esperados en cada uno de los momentos de ocurrencia, bajo los supuestos de #$ . Esto es equivalente a
comparar el nmero de eventos ocurridos en cualquiera de los grupos con respecto al nmero de eventos
130
esperados en el grupo combinado. El estadstico de contraste se basa en una funcin de la variable aleatoria
definida por el nmero de eventos en cada momento y se construye como una suma de variables aleatorias
independientes estandarizadas, bajo el supuesto de que las ocurrencias en un momento determinado son
independientes de las que ocurren en cualquier otro momento.
Una alternativa de prueba a los test anteriores fue propuesta por Harrington y Fleming, usando los pesos de la
forma
El modelo de regresin de Cox (1972) es uno de los modelos de regresin ms utilizado para datos
de supervivencia en el rea mdica. En el modelo de regresin de Cox, el riesgo para el i-simo individuo se
define mediante la siguiente expresin:
; - = $ . /01
Este modelo es llamado tambin un modelo semi-paramtrico debido a que incluye una parte paramtrica
y otra parte no paramtrica.
3 0 4
I. La parte paramtrica es 2 = . / 1 llamada puntaje de riesgo (risk score), y 5 es el vector de
parmetros de la regresin.
II. La parte no paramtrica es $ que es llamada funcin de riego base, es una funcin arbitraria y no
especificada.
El modelo de Cox tambin conocido como el modelo de riesgos proporcionales, es debido a que el
cociente entre el riesgo para dos sujetos con el mismo vector de covariables es constante en el tiempo, es
decir:
; -
8
/ 0
= . 79: 7 7
$
La verosimilitud parcial y fue introducida por Cox (1972). Esta verosimilitud es propuesta cuando las
observaciones no se da ningn supuesto de que se comporten como una distribucin como se muestra:
=
Una vez que se ha ajustado un modelo de Cox, existen tres contrastes de hiptesis para verificar la
significacin del modelo, estos test son asintticamente equivalentes, pero no siempre sucede lo mismo en la
prctica:
131
El primero de los contrastes es el denominado test de razn de verosimilitud y es el que presenta una
mayor confiabilidad. Este test se define como:
donde $ son los valores iniciales de los coeficientes y F es la solucin luego de ajustar el modelo.
y K5, es la medida de las covariables para aquellos individuos que todava estn en riesgo en el tiempo t,
dada por:
El modelo Weibull es una generalizacin del modelo exponencial. Se dice que la variable aleatoria T se
distribuye como una exponencial de parmetros Q > 0 y S > 0 si su funcin de densidad toma la
expresin:
W
T; Q, S = QSQSU'" . 'V4
y la funcin de riesgo es
W
T QSQSU'" . 'V4
; S, Q = = = QSQSU'"
. 'V4
W
Observe que
; S, Q = QSU U'"
132
; S, Q = Q U'" SU
Si
Z
S = ./
entonces
Z
; S, Q = Q U'" . /
donde
$ t = Q U'"
Entonces
Z
; S, Q = $ ./
Esto implica que
; S, Q
= ./ Z
$
Esto ltimo nos dice que la funcin distribucin weibull como se puede ver como una funcin de
riesgo, la cual es igual al modelo de Cox.
Todos los resultados que a continuacin se mostrarn fueron obtenidos bajo el programa R-project
En la tabla 1 se muestran las variables de estudio cuando el evento de inters es la muerte debido al
cncer. En esta tabla podemos observar que los pacientes con edad entre los 40 y 60 aos tienen un mayor
nmero de incidencias de recada que los que superan los 60 y estn por debajo de los 40 aos, del total de
pacientes con edad entre 40 y 60 aos, el 11% recae y los que tienen menos de 40 aos es el 6% recae.
En la variable tamao del tumor observamos que los pacientes con un tumor mayor a 5cm de
dimetro tiene 14% de incidencias de recada, mientras que los que tienen un tumor menor a 5cm tiene 9% de
incidencias de recada.
Podemos observar que en la variable etapa, la etapa 1B1, consta de 5 pacientes con esa etapa y que
todos fueron censurados, al igual que la variable IIA la cual consta de 11 pacientes y la etapa 1B2 solo ocurre
un evento, estas covariables, pueden ser redefinidos, dado la siguiente manera, donde las etapas 1B1,1B2 y
IIB se consideren una sola etapa, esto no quiere decir que se consideran las etapas iguales, esto se explicara en
el anlisis no paramtrico, tambin se puede ver que la etapa IIIA, consta de un solo paciente, esta etapa la
omitiremos en nuestro estudio, ya que no consta de los elementos necesarios, para su estudio.
Se observa que la variable Sitio, solo ubica los lugares donde hay una recurrencia del cncer, observe
que los lugares en el que ms aparece el cncer son en el cervical, seo y retroperitoneo, con el 40 %, 75% y
50% de incidencias de recada. En la tabla 1 tambin observamos que la cistitis y la proctitis tienen el mismo
porcentaje de incidencias que el 12 %, esto puede indicar que en esta variable no aporta riegos de recada
133
Table 1: Tumour characteristics of patients with uterine cervical cancer
134
3.2. Tiempo total de supervivencia
En la tabla 3 se muestran las variables de estudio cuando el evento de inters es la muerte debido al
cncer.
En esta tabla se observa en la variable Edad los pacientes con edad menor a los 40 aos tienen el
24.2% de incidencias de muerte por cncer y los pacientes que tienen entre 40 y 60 aos tienen el 17% de
135
incidencias de muertes. Ntese que los pacientes menores de 40 aos tienen un porcentaje alto de muertes,
esto motiva a pensar que la edad es un factor importante en la muerte de los pacientes. La variable
Hemoglobina, en la tabla 1, tena un mayor porcentaje de recadas con pacientes mayores a 10mm, en cambio
en la tabla 3 observamos que los pacientes con plaquetas bajas tienen el 29.1% de incidencias de muerte.
Observamos que la variable etapa, grupo (Etapa IIIA) el cual solo consta de un elemento, lo cual para
este estudio, no nos brinda informacin por lo cual se eliminara este paciente para su mejor estudio. Por otro
136
lado observamos que la etapa IIIB se distingue de las dems, ya que es el que ms muertes tiene con respecto
a las dems etapas, esto da pie a sospechar que las dems variables se tienen que re categorizar de una mejor
manera. Tambin podemos observar que los pacientes con Etapa IIIB tiene el 44% de incidencias de muerte
por el cncer en comparacin a las otras etapas, esto quiere decir que los pacientes con Etapa IIIB tiene un
riego elevado de morir.
Con respecto a las consecuencias del tratamiento, observamos que los pacientes que generan Cistitis
tienen el 43% de incidencias, al igual que los pacientes que generan Proctitis el 35% de incidencias. Notemos
que estas variables en la tabla 1, estas tienen casi el mismo porcentaje de incidencias de recada, como los
pacientes que no generan estas consecuencias. Por lo que podemos intuir es que estas variables son de gran
contribucin a la muerte de pacientes por cncer
Con las re categorizaciones ya mencionadas se tiene la tabla 4
Esta nueva categorizacin se verificar con los ya mencionados test de comparacin de curvas de
supervivencia
137
4. RESULTADOS Y DISCUSIN
4.1. Tiempo Libre de Enfermedad
En la figura 3 se observa la ventana de estudio hasta la recada donde se tiene que el evento ocurre
cuando el paciente tiene una recada debido al cncer el cual es 12% del total de los pacientes. Se consideran
datos censurados aquellos pacientes que viven sin cncer, mueren por el cncer o se pierden en el estudio.
Cuando consideramos a T como el tiempo desde el diagnostico hasta la recada por cncer, = 1 significa
que el paciente ha recado y = 0 significa cualquier otro caso. A continuacin se mostraran 3 curvas de
supervivencia donde se tienen la sospecha de diferencias significativas entre ellas.
En la figura 4 se puede apreciar que existe de evidencia de diferencias significativas en las variables
Histologa, Etapa y Tumor, las otras variables mostraron un comportamiento distinto, sus curvas de
supervivencia se estaban pegadas, lo cual no daba sospecha alguna de diferencia entre ellas, estas variables se
corroboraron y se obtuvo que no exista diferencias significativas
138
4.1.1. Test de Comparacin de curvas
Los resultados al aplicar los test de Fleming-Harrington se presenta en esta tabla observamos que la nica
variables que resulto ser con diferencias altamente significativas al 95% de confianza es la variable Etapa.
Esto resultados permiten definir adecuadamente las categorizaciones de las covariables en el modelo de Cox.
Podemos ver que en los test de comparacin de curvas, las variables histologa y tumor, no hay evidencia de
que sus curvas de supervivencias son diferentes
Con un anlisis anterior se vio que las etapas, 1B1, 1B2 y IIA, tienen igualdad entre sus curvas de
supervivencia, lo cual podemos utilizar la re categorizacin hecha anteriormente en la descripcin de los
datos. Con este resultado, vemos que el nico candidato para el modelo de regresin de Cox es la variable
Etapa, como se muestra en la tabla 6:
Observamos que la etapa IIB tiene 4 veces ms riego que la etapa (1B1-1B2-IIA) y la etapa IIIB
tiene 17 veces ms riesgo que la etapa (1B1-1B2IIA), con esto podemos deducir que los pacientes que tienen
etapa (1B1-1B2-IIA) tienen un mejor pronstico, que los que no tienen esa etapa. Por ltimo para dar valides
a este modelo veamos la siguiente tabla.
139
Tabla 7: Validacin del supuesto del modelo de Cox
Factores Categorias rho chisq p-valor
Etapa IIB -0.428 2.53 0.112
IIIB -0.423 2.33 0.127
A partir de los resultados de la tabla 7, dado que el p-valor es superior a 0. Tenemos que el supuesto
de Cox se cumple, es decir que el parmetro 5 no depende del tiempo.
En la figura 6 se observa la ventana de estudio hasta la muerte donde se tiene que el evento ocurre
cuando el paciente muere debido al cncer el cual es 17% del total de los pacientes como se muestra en la
figura. Se consideran censurados aquellos pacientes, que viven sin cncer o con cncer o si se pierden en el
estudio.
140
4.3. Supervivencia global
Cuando consideramos a T como el tiempo desde el diagnostico hasta la muerte por cncer = 1,
significa que el paciente ha muerto y = 0 significa cualquier otro caso. Para este anlisis los factores que
resultaron con diferencias significativas son; proctitis, Hemoglobina, etapa.
Figura 7: Estimacin del Kaplan-Meier de, Hemoglobina, Proctitiss y Etapa
La figura 7 sugiere que la variable etapa puede ser categorizada tomando a 1B1, 1B2, IIA y IIB
como un solo grupo de pacientes como se muestra en la figura 8.
Los resultados al aplicar los test de Fleming-Harrington se presenta en la tabla 9 en esta tabla
observamos que todos las pruebas resultaron ser altamente significativas al 95% de confianza. Esto resultados
permiten definir adecuadamente las categorizaciones de las covariables en el modelo de Cox.
141
Los tests de comparacin de curvas de supervivencia sugieren que el factor etapa debe ser
recategorizado tomando a 1B1, 1B2, IIA y IIB como un solo grupo. De esta manera los tests quedan de la
siguiente manera
.
Tabla 10: Resultados del test de Flaming-Harrington
Factores Categorias Peto-peto Logrank Tarone-Ware
Histologia Adenocarcinoma, Epidermoide 0.0386 0.0559 0.0459
Etapa 1B1-1B2-IIA-IIB ,IIIB 0.0003 0.0005 0.0004
Tamao tumor 5]^, > 5]^ 0.0409 0.0467 0.0431
Proctitis Sin proctitis, proctitis grado3 0.012 0.0282 0.0182
Los resultados obtenidos por el modelo de Cox se resumen en la tabla 10, en esta tabla observamos
que las variables altamente significativas son la Etapa, la Proctitis, tomando como grupo basal Etapa=0 (1B1,
1B2, IIA y IIB), Proctitis=0 (sin proctitis).
Tabla 11: Grupo de referencia, Etapa (1B1-1B2-IIA-IIB), Proctitis (Sin proctitis), con el 95% de confianza
Estos resultados significan que, los pacientes en una etapa IIIB (etapa=1) tienen 6 veces ms riesgo
de morir que aquellos pacientes en etapa 1B1; 1B2; IIAyIIB (etapa = 0). Todos aquellos pacientes que
presentaron proctitis tienen alrededor de 2 veces ms riesgo de morir que los que no tienen proctitis.
Se puede observar en la tabla 11 que la variable etapa no depende del tiempo ya que su p-valor es
mayor que 0.05, en su caso la variable proctitis tiene cierto comportamiento con el tiempo aun cuando su p-
valor es de 0.0756.
Figura 9: Kaplan-Meier estimate
142
Tabla 12: Validacin del supuesto del modelo de Cox
Observe la funcin de riesgos proporcionales teniendo como supuesto que nuestros datos siguen una
distribucin weibull, genera como variables de riesgos las mismas que el modelo de Cox, tambin podemos
observar que el riegos en el modelo de Cox y este son muy parecidos. Esto era de esperarse ya que la
distribucin weibull se puede ver como una funcin de riesgos proporcionales.
5. CONCLUSIONES
En esta cohorte de pacientes y con base en el anlisis del Tiempo libre de enfermedad y el Tiempo
total de supervivencia, podemos llegar a las siguientes conclusiones.
Pacientes con tumor en etapa IIIB tienen peor pronstico de morir, ya que ellos tienen 6 veces ms
riesgo de morir y 17 veces ms riegos de recaer que en cualquier otra etapa, los pacientes que tienen una etapa
IIB tienen ms de 4 veces ms riego de recaer
Pacientes que reciben tratamiento con braquioterapia LDR CS 137 tienen 3 veces ms riesgo de
morir que aquellos que reciben un tratamiento con braquioterapia HDR Ir 192.
Pacientes que sufren una proctitis como consecuencia del tratamiento tienen ms de 2 veces riesgo de
morir, que aquellos que no presentan proctitis.
La etapa del tumor y los pacientes que son afectados por proctitis causada por los tratamientos de
radiacin que se le aplican, son variables que contribuyen a que a una recurrencia o muerte. Esto sugiere ser
ms cuidadoso en la aplicacin del tratamiento para poder mitigar los efectos secundarios.
Los pacientes con mejor pronsticos son aquellos con etapa 1B1, 1B2, IIA y IIB; que reciben
tratamiento con braquioterapia HDR Ir 192 y que no presentan proctitis.
143
REFERENCIAS
144
MODELACIN MATEMTICA DE FENMENOS DEL MEDIO AMBIENTE Y LA SALUD Tomo 3 145-154
Vt DG
DG
APLICACIN DE LA ESTRATEGIA DE RESPUESTA
ALEATORIA Y TCNICAS DE PREGUNTAS INDIRECTAS EN
ENCUESTAS EDUCATIVAS
B. Cobo
Departamento de Estadstica e Investigacin Operativa, Universidad de Granada, Espaa.
ABSTRACT
The randomized response technique and indirect questioning techniques aimed at maintaining the privacy of respondents. When
a survey is conducted, interest is often centered on sensitive or confidential aspects to the interviewees, so that many of the
surveyees will not answer truthfully or simply refuse to answer. Using this new technique produces more accurate estimates
compared to direct response. To show this technique, a survey to students in the University of Granada is conducted by using the
U model, and the formulas are implemented in R to conclude the results.
RESUMEN
La respuesta aleatoria y las tcnicas de preguntas indirectas tienen como objetivo mantener la privacidad de los encuestados. A
la hora de realizar encuestas, el inters frecuentemente se centra en aspectos sensibles o confidenciales para las personas
entrevistadas, por lo que muchas de ellas no contestarn verazmente o simplemente se negarn a responder. Mediante esta nueva
tcnica se obtienen estimadores que son ms precisos en comparacin a respuesta directa. Para mostrar esta tcnica, se realiza
una encuesta al alumnado de la Universidad de Granada mediante el modelo U, implementando en R las frmulas indicadas para
concluir los resultados.
1. INTRODUCCIN
Una encuesta es un procedimiento de investigacin que se basa en interrogar a una muestra de
individuos. Para que los resultados obtenidos sean crebles es necesario, entre otros aspectos, que el modo de
encuestacin tenga suficiente calidad o validez, lo que exige asumir que las respuestas de los individuos son
ciertas adems de otros requisitos.
La tcnica de Respuestas Aleatorizadas (RA) introducida por Warner (Warner, 1965) es una posible
solucin para la proteccin del anonimato del entrevistado y es introducida para reducir el riesgo de evasin o
no respuesta de preguntas sensitivas. Consiste en la utilizacin de un mecanismo aleatorio por medio del cual
se selecciona una de dos preguntas complementarias: pertenece al grupo con la caracterstica A? o
pertenece al grupo que no tiene la caracterstica A?, donde A es la caracterstica sensible de inters. El
entrevistado contestar s o no y el entrevistador no tiene la posibilidad de saber qu pregunta contest el
entrevistado, protegiendo as la confidencialidad del mismo.
145
2. MTODOS
Este mtodo de respuesta aleatorizada fue desarrollado por Stanley Warner en 1965. l mostr que es
posible estimar la proporcin sin que el encuestado revele su postura personal respecto a la pregunta. El
objetivo es alentar a las personas para que den respuestas veraces conservando completamente la
(si tiene la caracterstica de inters) o (si no la tiene). Sea la proporcin de personas con cierta
confidencialidad de sus respuestas. Cada persona de la poblacin pertenece a uno de los dos grupos disjuntos,
caracterstica de inters (grupo ). El objetivo es estimar sin preguntar a cada persona directamente si
pertenece o no al grupo . A continuacin se presenta el procedimiento propuesto por Warner:
Se construye un mazo de cartas, pero una fraccin de ellas ( 1/2) se marca con la letra (grupo
) y la fraccin restante, 1 , con las letras faltantes del abecedario (grupo ).
Se selecciona una muestra aleatoria simple o estratificada de individuos con reemplazo de tamao
,
de la poblacin ().
A cada individuo que va a responder se le ensea el mazo de cartas para que vea que las cartas estn
marcadas con las letras del abecedario.
Se baraja adecuadamente el mazo de cartas y se le pide al individuo que seleccione una carta, pero
que no nos diga con que letra est marcada.
A continuacin se le explica que se le va a hacer una pregunta y que la responda con s o no,
pero resaltando que ponga mucha atencin a la pregunta.
Responda a la pregunta Tienes la caracterstica sensitiva?, si la carta que obtuvo est marcada con la
letra , por el contrario responda a la pregunta No tienes la caracterstica sensitiva?, si obtuvo cualquier
otra letra del abecedario.
Se tiene que hacer nfasis en que debe de responder con la verdad a las preguntas y que solamente
tiene que responder una de ellas dependiendo de la letra que obtuvo.
La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la siguiente
moneda, una urna, etc., pero se debe tener claro cul es su equivalente al grupo y su respectiva
Es importante resaltar que el mecanismo de aleatorizacin puede ser una baraja, un dado, una
probabilidad.
Este mtodo requiere generalmente un tamao de muestra muy grande para obtener una varianza del
Definimos una variable que toma valores = 1 si la respuesta aleatoria de Warner produce una
coincidencia entre el tipo de carta y , es decir, la caracterstica de la persona i-sima y = 0 en otro caso.
146
(1 )
que conduce a
=
2 1
y estimaremos por
= "
!
Adems, puesto que # = y # = ,
( ) = ( )$1 ( )% = (1 ),
( )
y por lo tanto
= ( ) =
(2 1)#
De esta poblacin &, una muestra ' de personas es seleccionada con una probabilidad ( (') de
acuerdo a un diseo muestral ). Para este diseo ), la probabilidad de inclusin del individuo * es + =
! ( ('), * & y para un par distinto de individuos *, . (* .) es +/ = !,/ ( ('). Restringimos los
diseos para que + 0 0 * & y +/ 0 0 *, . &, * ..
34 5(56)
1 1 1 1 1
" = = 2 7= 8 (1 ) 9,
#65
+ + 2 1 + +
! ! ! !
Entonces, sabiendo que
(") = ( (:) +
+
y que la varianza de Horvitz y Thompson es
/ #
#
( (:) = ; < $+ +/ +/ % + >
+ +/ +
= /
tenemos
/ # 1
#
(") = ? $+ +/ +/ % ; < + > + @6 A / #
+ +/ + +
= /
y
!/ / # ! !
#
B (") = ? $+ +/ +/ % ; < + > + @6 A / #
+/ + +/ + + +
= /
(
1)
En el caso de m.a.s. las probabilidades de inclusin de primer y segundo orden son:
+ = , +/ =
( 1)
Por lo tanto, estimaremos mediante
1
" =
!
Por lo que la varianza es
147
2.2. Otros modelos
Modelo U (Greenberg et al., 1969): Al igual que el modelo W tiene un mecanismo aleatorio que
selecciona una de dos preguntas, pero mientras una pregunta corresponde al aspecto sensible, la segunda
pregunta no tiene nada que ver, es sobre algn otro aspecto inocuo, es decir, reemplazamos la pregunta
sensitiva complementaria por una inocua, que va a producir una respuesta afirmativa con probabilidad
conocida.
considera la introduccin de una variable inocua no relacionada con la variable sensitiva , en el modelo C la
introducir informacin auxiliar correlacionada con la variable de inters. A diferencia del modelo U, que
variable inocua est correlacionada con , pero no afecta a la sensibilidad del individuo, mantenindose as la
confidencialidad del entrevistado. En este nuevo enfoque se aprovecha la informacin contenida en la
correlacin de la variable sensible con la variable inocua para tener una mejor estimacin en trminos de
sesgo y varianza, bajo un esquema de muestreo en poblaciones finitas.
Modelo H (Horvitz et al., 1967): Es una alternativa al esquema de Warner que permite una mayor
proteccin del anonimato del entrevistado sin utilizar la pregunta complementaria. Consiste en que cada
instruccin que dice s y (3) una instruccin que dice no, con probabilidades , # , E y + # + E = 1.
elemento de la muestra selecciona aleatoriamente una de tres proposiciones: (1) la sensitiva, (2) una
Modelo D (Devore, 1977): Esta propuesta es anloga al modelo U, con una diferencia bsica, la
pertenencia al grupo inocuo se establece con probabilidad uno.
Modelo M (Tcnica de respuesta aleatoria de Mangat y Singh) (Mangat y Singh, 1990): Esta
Adems de estos modelos podemos destacar algunos ms, como por ejemplo el modelo de pregunta
no relacionada (Horvitz et al. 1967, seguido por Greenberg et al. 1969), la tcnica de respuesta aleatoria de
Kuk (Kuk, 1990), la Tcnica de respuesta aleatoria de Christofides (Christofides, 2003), el esquema de
respuesta forzada, el esquema de Mangat (Mangat, 1992), el esquema de Mangat, Singh, y Singh (Mangat et
al. 1992), el esquema de Singh y Joarder (Singh y Joarder 1997), el esquema de Dalenius y Vitale (Dalenius y
Vitale 1974), el esquema modificado por Pal de Takahasi y Sakasegawa (Takahasi y Sakasegawa 1977), la
tcnica de respuesta aleatoria de Liu, Chow, y Mosley (Liu et al. 1975).
Otros autores importantes que han trabajado en estas tcnicas son Arnab (1990, 2004), Bouza
(2009), Chaudhuri (1987, 2002), Kim (2005, 2006), Nayak (1994), Pal (2002, 2007,2009), Scheers (1992),
Singh (1993, 1997, 2000), Tracy (1996),
Diseo de la encuesta
1
"=
+
!
siendo
148
(1 )F
=
En este modelo es necesario un cuestionario adicional con las siguientes caractersticas:
Las preguntas no deben de ser sensibles.
No deben estar relacionadas con el tema de la pregunta sensible.
Para cada una de las preguntas que miden variables cualitativas, las respuestas
deben tener una probabilidad conocida.
Encuesta annima
Marcar con un X su respuesta
Sexo Femenino Masculino
Titulacin
Curso 1 2 3 4 5
Para la estimacin de resultados, ser necesario tomar en cuenta las probabilidades del
cuestionario de preguntas no sensibles:
149
Descripcin de la tcnica del modelo U
El procedimiento que se eligi es lanzar una moneda, un lado cara y otro cruz, que va a dar
lugar a un juego fcil de ejecutar.
Las preguntas sensibles estn precedidas de la palabra Cara, y las no sensibles de la palabra
Cruz. Cuando se aplica la encuesta a cada estudiante de la muestra, se le entrega la moneda. Despus
se le pide que la lance al azar. Si el lado que obtiene es de cara, las preguntas que tendr que
contestar sern las sensibles. Por otra parte si el lado que obtiene es cruz, las preguntas que tendr
que contestar sern las no sensibles.
De esta forma conocemos la probabilidad de que nos conteste a las preguntas sensibles, que
es 1/2, y como consecuencia, la probabilidad de que nos conteste las preguntas no sensibles es de 1/2.
Con esto garantizamos la total aleatoriedad de respuesta.
3.1. Resultados
Los resultados que se obtuvieron despus de la aplicacin de la encuesta son sumamente importantes,
ya que a partir de stos podemos hacer inferencias, comparaciones y contrastes.
Para la estimacin de las proporciones para las variables cualitativas en la Tcnica de Respuesta Aleatoria, se
realizaron los siguientes pasos:
Por medio del programa SPSS, podemos saber fcil y rpidamente el nmero de estudiantes de la
muestra que hay por sexos y los que respondieron afirmativamente a cada una de las preguntas.
Sexo
La muestra consta de 420 alumnos. Mujeres son 260, hombres 143 y no sabe, no contesta 17.
Pregunta 1
Se observa que del total de 420 alumnos, 196 (46.7%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 223 (53.1%) que contestaron negativamente.
Pregunta 2
Se observa que del total de 420 alumnos, 92 (21.9%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 327 (77.9%) que contestaron negativamente.
Pregunta 3
Se observa que del total de 420 alumnos, 169 (40.2%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 249 (59.3%) que contestaron negativamente.
Pregunta 4
Se observa que del total de 420 alumnos, 44 (10.5%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 373 (88.8%) que contestaron negativamente.
150
Pregunta 5
Se observa que del total de 420 alumnos, 88 (21.0%) de los estudiantes contestaron afirmativamente
a la pregunta frente a 331 (78.8%) que contestaron negativamente.
Pregunta 6
Se observa que del total de 420 alumnos, 29 (6.9%) de los estudiantes contestaron afirmativamente a
la pregunta frente a 390 (92.9%) que contestaron negativamente.
Se asignaron los datos conocidos de las probabilidades de las preguntas no sensibles, as como los
datos obtenidos del programa para cada una de las preguntas sensibles como se presentan en la tabla 1.
Nmero de Estimacin de la
Proporcin Varianza
pregunta caracterstica sensible
1 0.4666667 0.85 4.558853e-05
2 0.2190476 0.3380952 2.021597e-05
3 0.402381 0.1380952 2.584242e-05
4 0.1047619 0.1095238 9.08202e-06
5 0.2095238 0.08571429 1.516644e-05
6 0.06904762 0.0547619 5.858409e-06
Tabla 2. Estimacin de las proporciones y varianzas definitivas
A la vista de las tablas vemos que las proporciones, las cuales indican la probabilidad de contestar
afirmativamente a la pregunta, sin tener en cuenta si es sensible o no, de algunas preguntas son relativamente
bajas, lo que nos dice que esas preguntas son consideradas por los encuestados mucho ms sensibles que las
dems, como por ejemplo las preguntas 6 y 4. Pero tambin es importante mencionar que en las preguntas 1 y
3 se tienen proporciones altas, lo cual significa que esas preguntas que se consideraban sensibles, en realidad
para los estudiantes no lo son tanto.
151
Como podemos ver las varianzas de todas las preguntas son muy pequeas, por lo que la estimacin
de la caracterstica sensible es bastante precisa.
Si en lugar de hacerlo con el total de la poblacin, estratifico mediante la variable sexo, los
resultados seran:
Estrato: Mujer
Tamao de la muestra = 260 estudiantes; Tamao de la poblacin = 30644
Nmero Respuestas s Probabilidad de Estimacin de la
de en la p 1-p la caracterstica Proporcin caracterstica Varianza
pregunta muestra no sensitiva sensible
1 120 0.5 1-0.5=0.5 1/12=0.0833 0.4615385 0.8397436 7.8514e-05
2 55 0.5 0.5 1/10=0.1 0.2115385 0.3230769 3.393813e-05
3 100 0.5 0.5 20/30=0.6666 0.3846154 0.1025641 4.462607e-05
4 20 0.5 0.5 0.1 0.07692308 0.05384615 1.109516e-05
5 54 0.5 0.5 10/30=0.3333 0.2076923 0.08205128 2.621782e-05
6 16 0.5 0.5 0.0833 0.06153846 0.03974359 8.897323e-06
Estrato: Hombre
Tamao de la muestra = 143 estudiantes; Tamao de la poblacin = 22732
Nmero Respuestas s Probabilidad de Estimacin de la
de en la p 1-p la caracterstica Proporcin caracterstica Varianza
pregunta muestra no sensitiva sensible
1 65 0.5 1-0.5=0.5 1/12=0.0833 0.4545455 0.8257576 0.0001042005
2 34 0.5 0.5 1/10=0.1 0.2377622 0.3755245 5.174924e-05
3 64 0.5 0.5 20/30=0.6666 0.4475524 0.2284382 6.20042e-05
4 18 0.5 0.5 0.1 0.1258741 0.1517483 2.615456e-05
5 29 0.5 0.5 10/30=0.3333 0.2027972 0.07226107 3.462528e-05
6 10 0.5 0.5 0.0833 0.06993007 0.05652681 1.396291e-05
Las preguntas ms sensibles siguen siendo la 6 y la 4, pero esta vez al estratificar por sexos, vemos
que para las mujeres son ms sensibles que para los hombres. Las preguntas 1 y 3 vuelven a tener las
proporciones ms altas.
Podemos notar como la pregunta 4 tiene una proporcin mucho mayor en los hombres, como
apreciamos a simple vista.
Como podemos ver las varianzas de todas las preguntas son muy pequeas en ambos sexos, por lo
que la estimacin de la caracterstica sensible es bastante precisa.
Tras realizar este ejemplo vemos que existen ventajas y desventajas de la tcnica de Respuestas
Aleatorizadas
Ventajas:
Aumenta la probabilidad de contestar la verdad respecto a una pregunta directa.
Mayor ndice de respuesta.
Desventajas:
Aumento en la complejidad de la pregunta.
Dificultad en entender el mtodo de aleatorizacin.
Requiere de muestras de tamaos grandes.
152
Agradecimientos: Este trabajo ha sido financiado por el Vicerrectorado de Poltica Cientfica e Investigacin,
a travs de Ayudas de Iniciacin a la Investigacin.
REFERENCIAS
[1] ARNAB, R. (1990): On commutativity of design and model expectations in randomized response surveys.
Comm. Stat. Theo. Math. 19, 3751-3757.
[2] ARNAB, R. (2004): Optional randomized response techniques for complex designs. Biom. J. 46, 114-
124.
[3] BOUZA, C.N. (2009): Ranked set sampling and randomized response procedures for estimating the mean
of a sensitive quantitative character. Metrika, DOI. 10. 1007 / s00 / 84 008 0191 6, 267-277.
[4] CHAUDHURI, A. (1987): Randomize response surveys of finite populations: A unified approach with
quantitative data. J. Stat. Plan. Inf. 15, 157-165.
[5] CHAUDHURI, A. (2002): Estimating sensitive proportions from randomized responses in unequal
probability sampling. CSAB 52, 315-322.
[6] CHAUDHURI, A. and ADHIKARY, A.K. (1981): On sampling strategies with RR trials and their
properties and relative efficiencies. Tech. Ref. ASC / 81 / 5, Indian Statistical Institute, Calcutta.
[7] CHAUDHURI, A. and DIHIDAR, K. (2009): Estimating means of stigmatizing qualitative and
quantitative variables from discretionary responses randomized or direct. Sankhya B 71, 123-136.
[8] CHAUDHURI, A. and MUKERJEE, R. (1985): Optionally randomized responses techniques CSAB 34,
225-229.
[9] CHAUDHURI, A. and SAHA, A. (2005a): On relative efficiencies of optional versus compulsory
randomization i responses: A simulation-based numerical study covering three RR schemes. Pak. J. Stat.
21(1), 87-98.
[10] CHAUDHURI, A. and STENGER, H. (1992): Theory and Methods of Survey Sampling. Marcel Dekker,
Inc. NY.
[11] CHAUDHURI, A. and VOS, J.W.E. (1988): Unified theory and strategies of survey sampling. North
Holland, Amsterdam.
[12] CHRISTOFIDES, T.C. (2003): A generalized randomized response technique. Metrika 57, 195-200.
[13] DALENIUS, T. and VITALE, R.A. (1974): A New RR Design for Estimating the Mean of a
Distribution. Technical Report 78. Brown University, Providence, RI.
[14] DEVORE, J.L. (1977): A note on the randomized response technique. Communications in Statistics
Theory and Methods 6: 1525-1529.
[15] GREENBERG, B.G., ABUL-ELA, A.-L., SIMMONS, W.R., and HORVITZ, D.G. (1969): The
unrelated question RR model: Theoretical framework. JASA 64, 520-539.
[16] HORVITZ, D.G., SHAH, B.V., and SIMMONS, W.R. (1967): The unrelated question RR model. Proc.
Social Statist. Sec. ASA, 65-72.
[17] KIM, J.M. and ELAM, M.E. (2005): A two-stage stratified Warners randomized response model using
optimal allocation. Metrika 61, 1-7.
[18] KIM, J. M., TEBBS, J., and AN, S.W. (2006): Extensions of Mangats randomized response model. J.
Stat. Plan. Inf. 136(4), 1154-1567.
[19] KUK, A.Y.C. (1990): Asking sensitive questions indirectly. Biometrika 77(2), 436-438.
[20] LIU, P.T., CHOW, L.P., and MOSLEY, W.H. (1975): Use of RR technique with a new randomizing
device. JASA 70, 329-332.
[21] MANGAT, N.S. (1992): Two stage randomized response sampling procedure using unrelated question.
JISAS 44(1), 82-88.
[22] MANGAT, N.S. and SINGH, R. (1990): An alternative randomized response procedure. Biometrika
77(2), 439-442.
[23] MANGAT, N.S., SINGH, R., and SINGH, S. (1992): An improved unrelated question randomized
response strategies. CSAB 42, 227-281.
[24] NAYAK, T.K. (1994): On randomized response surveys for estimating a proportion. Comm. Statist.
Theory Method, 23(3), 3303-3321.
[25] PAL, S. (2002): Contributions to emerging techniques in survey sampling. Unpublished Ph. D. thesis,
Indian Statistical Institute, Kolkata, India.
153
[26] PAL, S. (2007b): Estimation the proportion of people bearing a sensitive issue with an option to item
count lists and randomized response. Statist. Trans. 8(2), 301-310.
[27] PAL, S. (2009): Extending Takahasi-Sakasegawas indirect response technique to cover sensitive
surveys in unequal probability sampling permitting direct answers. Unpublished.
counseling and development, Meas. Eval. Couns. & Dev. 25, 27-41.
[28] SCHEERS, N.J. (1992): A review of randomized response techniques in measurement and evaluation in
[29] SINGH, R., MANGAT, N.S., and SINGH, S. (1993). A mail survey design for sensitive character
without using randomization device. Commun. Statist. Theory Method 22(9), 2661-2668.
[30] SINGH, S. and JOARDER, A.H. (1997): Unknown repeated trials in randomized response sampling.
JISAS 50, 70-74.
[31] SINGH, S., SINGH, R., and MANGAT, N. S. (2000): Some alternative strategies to Moors model.
JASA 66, 627-629.
[32] SOBERANIS-CRUZ, V., RAMREZ-VALDERDE, G., PREZ-ELIZALDE, S., and GONZLEZ-
COSSIO, F. (2008): Muestreo de respuestas aleatorizadas en poblaciones finitas: Un enfoque unificador.
Agrociencia Vol. 42, Nm. 5, julio-agosto, pp. 537-549.
[33] TAKAHASI, K. and SAKASEGAWA, H. (1977): An RR technique without use of any randomizing
device. Ann. Inst. Stat. Math 29, 1-8.
[34] TRACY, D. and MANGAT, N.S. (1996): Some development in randomized response sampling during
the last decades: A follow up of a review by Chaudhuri and Mukherjee. JASS 4(2/3), 147-158.
[35] WARNER, S.L. (1965): RR: A survey technique for eliminating evasive answer bias. JASA 60, 63-69.
154