You are on page 1of 32

Un intento de anlisis de Cncer mediante un

algoritmo de Minera de datos

RESUMEN

Durante las ltimas dcadas, hemos sido testigos de la evolucin de las tecnologas
y el impacto que estas tienen sobre la vida cotidiana; puesto que su aplicacin nos
ha permitido el hallazgo de nuevos conocimientos con facilidad. Existen diversas
ciencias dedicadas a la bsqueda de respuestas extradas dentro de un conjunto de
datos para la resolucin e implementacin de resultados al caso o rea especfica
en el que se desea indagar.
Diversas empresas e instituciones han crecido y con ello el volumen y variedad de
datos se ha diversificado a tal grado de ser imposible el anlisis y buen
aprovechamiento de la informacin.
Por todo esto la minera de datos surge de la necesidad de extraccin y generacin
de conocimiento, otorgndonos conocimientos y patrones de repeticin; puesto que
esta podra exponer a los datos que nos permitirn indagar y crear teoras de
resolucin.
El siguiente trabajo de investigacin va dirigido al rea de la Medicina con el objetivo
especfico de analizar la informacin inmersa dentro del repositorio Machine
Learning con datos de cncer de mama, para la identificacin de factores que nos
permitan detectar e identificar causas que detonen el Cncer utilizando los
algoritmos ID3 y C4-5 de minera de datos para la comparacin de mejores
resultados.
Tal estudio nos permitir identificar los factores que pueden estar estrechamente
vinculados con el desarrollo de estos tumores malignos en la mujer; conocimiento
que se extraer y seleccionar con la ayuda de tcnicas de minera de datos en
conjunto con el apoyo de la metodologa CRISP-DM con la cual se espera
fundamentar algunas causantes de cncer de mama, as como tambin lograr la
ptima preparacin de los datos.
P g i n a 1 | 32

ANTECEDENTES

Tras el paso de los aos la ingeniera de software y las ciencias computacionales


se han dedicado a la bsqueda de los principios para el desarrollo [Brookshear,
2012] y la produccin de software, comprendiendo todas las etapas utilizadas
[Sommerville, 2005] durante su elaboracin; y aportando mtodos y tcnicas que
logren con calidad la resolucin de problemticas del mundo real [Pressman, 2002].
La Inteligencia Artificial(IA) nace como la ciencia que engloba a los aspectos ms
importantes para el desarrollo de aplicaciones eficaces, que cuenten con la
capacidad de resolver problemas [Garcia,2012]; mquinas con capacidad de imitar
el comportamiento inteligente [lvarez, 1994], con razonamiento gracias al
desarrollo de procesos gestados del ser humano; computadoras que piensen,
mquinas con mentes que apoyen en los procesos para los que fueron
desarrollados [Haugeland, 1988], [Pino, 2001]. Barcel explica a la IA como la
elaboracin de sistemas informticos con un comportamiento calificado como
inteligente [Barcel, 2016] con potencial intelectual, facultad de conocer, entender
o comprender [Escolano, 2003].
Turing defini que una mquina ser inteligente si tiene capacidades cognitivas tales
como [Garzn, 2000]:
Tratamiento del leguaje natural
Razonamiento y aprendizaje automtico
Robtica
P g i n a 2 | 32

Visin Artificial
Aprendizaje
Sistemas expertos.
Es importante abordar a los Sistemas Expertos(SE) pues estos son asistentes a la
decisin, destinados a la resolucin de problemas para el razonamiento del entorno
[Bourcier,2003], utilizando procesos como la deduccin, induccin y estrategias de
bsqueda de soluciones, para la resolucin de problemas [Barcel, 2001].
Los SE tratan de dar una explicacin o interpretacin de los datos para aprender de
los mismos y generar nuevo conocimiento [Pino,2001], [Rauch-Hindin,1989];
perecederos de la experiencia humana [Lpez,2007], cmplices de la reduccin de
errores humanos y encargados de tareas rutinarias [Beekman,2000]. Un SE es
incapaz de extraer el conocimiento y por lo tanto se apoya de la minera de datos
para la obtencin de la informacin procesada, pues esta persigue el
descubrimiento automtico del conocimiento contenido en la informacin [Prez,
2007], oculta en grandes cantidades de bases de datos; para el descubrimiento de
patrones significativos [Berry, 1997] con el propsito de facilitar la adquisicin,
extraccin y retencin de los datos [Vieira, 2009].
La minera de datos es muy til en el mbito de control y deteccin de enfermedades
puesto que nos ayuda a controlar, optimizar, administrar, examinar, investigar,
planificar, predecir y tomar decisiones o patrones para la deteccin y documentacin
de las mismas [Swanson, 1999]. Esta herramienta es capaz de analizar enormes
bancos de informacin para la extraccin de datos relevantes de calidad y bien
dirigidos. El datamining es una ciencia potencialmente til, con el objeto de predecir
de manera automatizada tendencias y comportamientos; as como, describir o
generar modelos previamente desconocidos; la Minera de Datos se ha utilizado
principalmente para la generacin y bsqueda de informacin que satisfaga el
principio de comprensibilidad y el descubrimiento de conocimientos interesantes; y
que como resultado de su aplicacin nos permitan visualizar patrones,
asociaciones, cambios, anomalas y estructuras significativas a partir de grandes
cantidades de datos [Reparaz, 2008].
P g i n a 3 | 32

En la actualidad, la Minera de Datos es aplicada en muchas reas del conocimiento


como apoyo para la solucin de problemas especficos, por ejemplo, en el dominio
de la salud se han realizado varios estudios para observar el comportamiento de
ciertas enfermedades, tales como la diabetes, el cncer, etc [Iturbide, 2013]. Aunque
la minera de datos es relativamente joven su aplicacin en el sector salud a nivel
internacional se destaca por la "Aplicacin de tcnicas de minera de datos para el
diagnstico prematuro del cncer de mamas".
Algunos sistemas reconocidos con el tema se encargan de realizar un diagnstico
del cncer de mama a partir de una base de datos de imgenes de mamografas.
En Mxico, la mortalidad por cncer constituye un problema de salud pblica
importante, en especial para ciertos tipos de esta enfermedad, por ejemplo, el
cncer de pulmn. En el 2005, los tumores malignos fueron la tercera causa de
muerte en el pas, ya que 63128 personas fallecieron a causa stos, lo que
representa un 12.7% del total de las defunciones registradas para ese ao [Iturbide,
2013]. La Minera de Datos (Data Mining) busca generar informacin similar a la
generada por un experto humano [Reparaz, 2008]; conforma solo una etapa de lo
llamando proceso de extraccin de conocimiento a partir de datos. El cual consta
de varias fases e incorpora muy diferentes tcnicas de los campos del aprendizaje
automtico, la estadstica, las bases de datos, los sistemas de toma de decisin, la
inteligencia artificial y otras reas de la informtica y de la gestin de informacin
[Hernndez, 2004].
Hernndez menciona que para que la minera de datos pueda recabar informacin
relevante requiere de un proceso de extraccin de informacin (KDD) que consta
de un conjunto de procesos y tcnicas para el anlisis, limpieza transformacin y
extraccin del conocimiento inmerso en grandes bases de datos por medio de
abordajes que propician el contexto de la minera de datos [Vieira, 2009],
[Hernndez, 2004]. El KDD permite preparar a los datos para su exploracin,
auditoria, evaluacin, difusin y utilizacin de modelos y tcnicas para la
simplificacin de los datos de manera entendible [Prez, 2007], [Pang-Ning, 2006],
que aseguran la calidad y seleccin de los datos de mayor importancia y su posterior
P g i n a 4 | 32

comunicacin; con el fin de identificar patrones vlidos, novedosos y de utilidad


[Fayyad, 1996], [Vieira, 2009].
Labib realiz un proyecto de investigacin donde se describe el proceso de
preparacin de datos realizado durante el caso de estudio sobre datos de cncer en
Egipto; en el cual se reportan los procesos de limpieza, seleccin, integracin y
transformacin o construccin de datos, aunque carente de una metodologa que lo
soporte durante el proceso de anlisis y el cual proporciona poca informacin sobre
las tareas ejecutadas durante la preparacin de los datos [Labib, 2005].
Amir propone en uno de sus proyectos un mtodo que consiste en el reemplazo de
valores perdidos y la seleccin de atributos consultando con expertos en el dominio.
Los datos utilizados pertenecen a registros de cncer de mama ocurridos en Suecia.
En los resultados se observ un crecimiento en la eficiencia de la prediccin de los
valores perdidos, a pesar de la precisin, el mtodo est centrado nicamente en el
problema de la limpieza y seleccin de atributos [Amir, 2005].
Iturbide realiz un trabajo enfocado a la Preparacin de Datos espaciales; en el cual
se propone una metodologa de tres pasos (seleccin, materializacin y
transformacin de datos) y un framework; donde los datos estn relacionados a
enfermos con padecimientos de cncer con el fin de observar relaciones entre
pacientes con padecimientos de cncer y fbricas o antenas de telefona celular, de
acuerdo a su ubicacin geogrfica [Iturbide, 2013].
En el trabajo de Iturbide se presentan los siguientes pasos: 1) los datos que se estn
manejando, espaciales y poblacionales, pertenecen a pacientes con padecimientos
de cncer 2) la propuesta de una metodologa y 3) un software de Preparacin de
Datos [Iturbide, 2013].

P g i n a 5 | 32

Con el objetivo de apoyar los procesos que confieren a la Minera de datos surge la
metodologa CRISP-DM [Chapman, 2000] con el propsito de entender el problema
al que se le desea estudiar; como una metodologa flexible y sencilla para las fases
del proceso de minado. CRISP-DM es una metodologa dedicada a la preparacin
de los datos que se apoya por cinco fases durante el proceso de extraccin
(limpieza, seleccin, formateo, construccin e integracin de los datos) para el buen
entendimiento del mercado o rea a la que se le desea aplicar minera de datos
[Domnguez, 2013].
Bratu propone una metodologa para la sustitucin de valores perdidos y seleccin
de atributos, los datos utilizados para esta investigacin estn relacionados al
dominio epidemiolgico, especficamente, cncer de prstata. El enfoque es
innovador, ya que propone manejar la limpieza y seleccin de atributos, como dos
fases en la misma actividad, no obstante, no aborda otras fases del proceso de
Preparacin de Datos. Es una metodologa simple y genrica, que puede ser
utilizada para varios dominios de aplicacin. Tambin, resalta la necesidad de semiautomatizar los procesos de preparacin [Bratu, 2009].
Se utilizan tcnicas de clasificacin de los datos con el propsito de obtener
resultados relevantes a clasificar y son:

Agrupacin

Clasificacin

Reglas de asociacin [Molero, 2008], [Reparaz, 2008] , [Perversi, 2007].

El anlisis de la informacin puede facilitarse con el apoyo de herramientas como


Weka que proporciona algoritmos de aprendizaje aplicables a un conjunto de datos
para su transformacin; incluyendo mtodos de minera de datos para la extraccin
y anlisis del conocimiento [Gonzlez-Baales, 2012], [Piedra, 2005].
P g i n a 6 | 32

Para la recaudacin de los datos es necesario usar BD pues son un primer paso
para la extraccin de informacin dado que es una coleccin de informacin
relacionada y fragmentada del mundo real muy coherente con un propsito
especfico [Gmez, 2008], [Brookshear, 2012] debido a que se encuentran bien
integrados [Norton, 2006]; tales ficheros pueden ser estructuras muy complejas
pues son compartidos por diversos procesos [Camps, 2005] ya que; el hecho de
que estos se encuentren relacionados no significa que la informacin contenida solo
este dirigida a un caso.
La minera de datos requiere informacin de calidad es por ello que se recomienda
integrar BD o hacer un Data Warehouse para la obtencin de mejores resultados al
estudio, puesto que este almacn o coleccin de datos orientada a determinado
mbito variable en el tiempo [Rojas, 2009], organizado para soportar necesidades
[Inmon, 1994]. Es una B.D comparativa que se caracteriza por integrar o depurar
informacin que se salga del contexto [Sinnexus, 2016] para la obtencin de datos
de calidad y la toma de decisiones [Hernndez, 2004].
Los beneficios del uso de DWH son diversos entre ellos se encuentra la capacidad
de eliminar gran cantidad de datos intiles y no deseados, facilitando la comprensin
de los datos, transformndolos en informacin til, teniendo como bandera el apoyo
a la toma de decisiones [Osterfeldt,1993], entender el pasado y planear el futuro,
mejorando la entrega de informacin, toma de decisiones. [Inmon, 1994], [Sperley,
1999]. Un OLP es una herramienta tecnolgica que facilita el anlisis de los datos
en tiempo real [Hernndez, 2004], capaz de tomar decisiones [Trujillo, 2000] y
manejar los datos de forma interactiva para comprender la variabilidad en la funcin
y escalabilidad como complemento del DWH [Parra, 1998], [Conessa, 2010].

P g i n a 7 | 32

REFERENCIAS

lvarez Munarriz, Luis. Fundamentos de la inteligencia artificial.


[Alvarez,

Universidad de Murcia, 1994.Secretariado de publicaciones. Ed II.

1994]

books.google.com.mx/books?isbn=8476845634

Beekman, George. Introduccin a la computacin. Mxico, 2000.


[Beekman,

Editorial; Pearson.

2000]

https://books.google.com.mx/books?isbn=9684442823

Berry, Michael J.A., & Linoff, Gordon S.; Data Mining Techniques. Wiley,
[Berry, 1997]

1997.
books.google.com.mx/books?id=AyQfVTDJypUC&printsec=frontcover&
dq=Data+Mining+Techniques+berry

Bourcier,

Daniele.

Inteligencia

artificial

derecho.

[Bourcier,

2003.Editorial; UOC.

2003]

https://books.google.com.mx/books?isbn=8483189747

Barcelona,

Camps Par, Rafael., Escofet, Carme Martn & Marc Gibert Ginest,
[Camps,

Dolors Costal Costa, Luis Alberto Casillas Santilln, Oscar Prez Mora.

2005]

Bases de Datos; Eureca Media, 2005.


books.google.com.mx/books?isbn=8484298949

Castillo, Enrique., Gutirrez, Jos Manuel & Hadi, Ali S. Sistemas


[Castillo,

Expertos y modelos de redes probabilsticas. Universidad de Cantabria,

2000]

2000.
http://personales.unican.es/gutierjm/papers/BookCGH.pdf

Escolano, Francisco., Cazorla, Miguel ngel, Alfonso, Mara Isabel.,


[Escolano,

Colomina, Otto & Lozano, Miguel ngel. Inteligencia Artificial: Modelos,

2003]

P g i n a 8 | 32

Tcnicas y reas de aplicacin. Departamento de ciencia de la


computacin e IA; Universidad de Alicante, 2003. Editorial; Paraninfo.
books.google.com.mx/books?isbn=8497321839

Garca Serrano, Alberto. Inteligencia Artificial. Fundamentos, prcticas y


[Garcia,

aplicaciones. Madrid, 2012.Editorial; RC Libros.

2012]

books.google.com.mx/books?isbn=8493945021

Russell Stuart J. Peter Norving. Inteligencia Artificial: ONU Enfoque


[Russell,

moderno. Pearson Educacin, 2004. Biblioteca UAP TIANGUISTENCO

2004]

UAEM.

Villena Romn, Raquel M. Crespo Garca, Jos Jess Garca Rueda.


[Villena,

Inteligencia en redes de comunicaciones. Madrid, 2001.

2001]

http://ocw.uc3m.es/ingenieria-telematica/inteligencia-en-redes-decomunicaciones/material-de-clase-1/07-mineria-de-datos

[Barcel,

Barcel Garca, Miquel. Inteligencia Artificial. Universidad virtual, 2001.

2001]

books.google.com.mx/books?isbn=8484298930

[Benavides,

Benavides Venegas, Liliana., Martnez Hamon, Sandra Marcela & Nio

2012]

Ortiz, Diana Paola. Sistemas Expertos. Bogot, 2012.


https://sig2012.wikispaces.com/file/view/SISTEMAS+EXPERTOS.pdf

[Brookshear,

Brookshear J. Glenn. Introduccin a la Computacin; Editorial: Pearson,

2012]

2012. Biblioteca Unidad Acadmica Profesional Tianguistenco.

[Conessa,

Conessa Caralt, Jordi & Curto Daz, Josep. Introduccin al Business

2010]

Intelligence. Barcelona, 2010. Editorial; El ciervo 96.


books.google.com.mx/books?isbn=8497889797

P g i n a 9 | 32

[Date, 2001]

Date, C. J. Introduccin a las bases de datos; Editorial: Pearson, 2001.


http://es.scribd.com/doc/15923538/C-J-Date-Intro-Duc-Ion-a-LosSistemas-de-Bases-de-Datos#scribd

[EImasri,
2007]

EImasri Ramez & Shamkant B. Navathe. Fundamentos de sistemas de


bases de datos. Editorial: Pearson, 2007.
books.google.com.mx/books?isbn=8478290850

[Frawley,
1991]

Frawley, Piatetsky-Shapiro & Matheus: Knowledge Discovery in


Databases: An Overview. MIT Press, 1991.
books.google.com.mx/books?id=wIsECAAAQBAJ&pg=PA373&dq=Kno
wledge+Discovery+in+Databases+frawley

[Gmez,
1998]

Gmez Martin, Jos Antonio & Puerta Callejn, Jos Miguel. Sistemas
Experto Probabilsticos. Editorial; Ediciones de la universidad de CatillaLa Mancha, 1998.
books.google.com.mx/books?isbn=8489958351

[Gmez,
1998]

Gmez Martin, Jose Antonio., & Puerta Callejon, Jose Miguel.Sistemas


Expertos probabilisticos. Editorial; Ediciones Universidad de la CastillaLa Mancha, 1998.
https://books.google.com.mx/books?isbn=8489958351

[Garca,
2006]

Garca Molina, Hctor. Avances en informtica y Sistemas


computacionales. Tomo I Universidad Jurez Autnoma de Tabasco
Conais 2006.
books.google.com.mx/books?isbn=9685748985

[Garca,
2007]

Garca Molina, Hctor. Avances en informtica y Sistemas


computacionales. Tomo II Universidad Jurez Autnoma de Tabasco
Conais 2007.
books.google.com.mx/books?isbn=9689024566

[Garca,
2009]

Garca, Gervilla E., Jimnez Lpez, R., Montao Moreno, J. J., Ses
Abad, A., Cajal Blasco, B., & Palmer Pol, A. (2009). La
metodologa del Data Mining. Una aplicacin al consumo de
alcohol en adolescentes. (e. A. Sociedad Cientfica Espaola de
Estudios sobre el Alcohol, Ed.) Adicciones, 21(1), 65-80.

[Garzn,
2000]

Garzn Gaitn, Carlos Alberto. Sistemas Integrados de informacin para


la produccin. Facultad de ingeniera departamento de Qumica; Bogot,
2000.Editorial; Universidad Nacional de Colombia.
books.google.com.mx/books?isbn=9587010361

P g i n a 10 | 32

[Gelbukh,
2010]
[Gmez,
2008]

Gelbukh, A. (Enero-Junio de 2010). Procesamiento de Lenguaje Natural


sus Aplicaciones . (S. M. Articial, Ed.) Komputer Sapiens, I, 6-32.
Gmez de silva Garza Andrs, Ania Briseo Ignacio de Jess.
Introduccin a la Computacin. Editorial: Cengage Learning Editores,
2008, Mxico. Biblioteca Unidad Acadmica Profesional Tianguistenco.

[GonzlezBaales,
2012]

Gonzlez-Baales, Dora Luz., Gutirrez Reyes & Leyva Alans. Las


fuerzas competitivas de mercado y su influencia en la incorporacin de
las TIC en las PYME. Un estudio explortorio.
books.google.com.mx/books?isbn=1326275968

[Guil, 2009]

Guil Reyes, Gabriel Francisco. Minera de patrones temporales basados


en redes de restriccin. Almera: Universidad Politcnica Almera,
2009.Tesis doctoral de lenguajes y computacin.
books.google.com.mx/books?isbn=8482409255

[Harmon,
1998]

[Haugeland,1

Harmon, Paul & King, David. Sistemas Expertos: Aplicaciones de la


inteligencia artificial en la actividad empresarial. Madrid, 1998.Editorial;
Daz de Santos, S.A.
https://books.google.com.mx/books?isbn=848625194X
Haugeland, John. La Inteligencia Artificial. Mxico, D.F., 1988.Editorial;

988]

Siglo Veintiuno.
books.google.com.mx/books?isbn=9682314119

[Hernndez,
2004]

Hernndez Orallo, Jos., Ramrez Quintana, M. Jos., & Ferri Ramrez,


Cesar. Introduccin a la minera de datos. Espaa, 2004. Editorial;
Pearson Hill. Biblioteca Unidad Acadmica Profesional Tianguistenco.

[Inmon, 1994] Inmon, W. H.; Hackathorn; Richard D. Using the Data Warehouse. New
York: John Wiley & Sons. ISBN: 0-471-05966. 1994.
http://fit.hcmute.edu.vn/Resources/Docs/SubDomain/fit/ThayTuan/Data
WH/Bulding%20the%20Data%20Warehouse%204%20Edition.pdf
[Jiawei, 2006] Jiawei Han & Micheline Kamber: Data Mining: Concepts and Techniques
Morgan Kaufmann, 2006.
books.google.com.mx/books?id=pQws07tdpjoC&pg=PR6&dq=Data+Mi
ning:+Concepts+and+Techniques+Morgan+Kaufmann
[Kimball,
2008]

Kimball, Ralph., Margy, Ross., Thornthwaite, Warren & Mundy, Joy. The
Data Warehouse Lifecycle Toolkit. Indiana, 2008.Editorial; Wiley
Publishing.
books.google.com.mx/books?id=ONQio9do_70C&printsec=frontcover&
dq=The+Data+Warehouse+Lifecycle+Toolkit

[Len, 2007].

Len Quintanar, Tomas. Sistemas expertos y sus aplicaciones.


Universidad Autnoma del estado de Hidalgo, Pachuca, 2007.

P g i n a 11 | 32

[Lpez, 2005]

[Molero,
2008]

http://www.uaeh.edu.mx/docencia/Tesis/icbi/licenciatura/documentos/Si
stemas%20expertos%20y%20sus%20aplicaciones.pdf
Lpez Takeyas, Bruno. Sistemas Expertos.
http://www.itnuevolaredo.edu.mx/takeyas/Apuntes/Inteligencia%20Artific
ial/Apuntes/Filminas_Sistemas_Expertos/SistemasExpertos5.PDF
Molero Castillo, Guillermo Gilberto. Tesis, Desarrollo de un modelo
basado en tcnicas de minera de datos para clasificar zonas
climatolgicamente similares en el estado de Michoacn. Universidad
Autnoma de Mxico.
http://www.geologiafeflow.unam.mx/documentos/tesis%20mineria%20de%20datos.pdf

[Norton,
2006]

Norton Peter. Introduccin a la Computacin; Editorial: Mc Graw Hill


Interamericana 2006. Biblioteca Unidad Acadmica Profesional
Tianguistenco.

[Pan-Ning,
2006]

Pang-Ning Tan, Michael Steinbach & Vipin Kumar: Introduction to Data


Mining. Addison-Wesley, 2006.
http://www.paulallen.ca/documents/2015/01/kumar-v-introduction-todata-mining-instructors-solution-manual.pdf
Parra Iglesias, Enrique. Tecnologas de la Informacin en el control de
gestin. Espaa; Madrid, 1998.Editorial; Diaz de Santos.
books.google.com.mx/books?isbn=8479783699

[Parra, 1998]

[Prez, 2007]

Prez Lpez, Cesar. & Santn Gonzlez, Daniel. Minera de Datos.


Tcnicas y herramientas. Madrid, 2007. Paraninfo S.A.
books.google.com.mx/books?isbn=8497324927

[Perin,
2012]

Perin Pascual, C. (Diciembre de 2012). En defensa del procesamiento


del lenguaje natural fundamentado en la lingstica terica. (P. U.
Chile, Ed.) Onomzein, 2(26), 13-48.
Perversi, Ignacio. Aplicacin de minera de datos para la exploracin y
deteccin de patrones delictivos en argentina. Tesis, Instituto tecnolgico
de buenos aires.
http://www.iidia.com.ar/rgm/tesistas/PERVERSItesisdegradoeningenieria.pdf

[Perversi,
2007]

[Piedra,
2005]

Piedra Fernndez, Jos Antonio. Tesis Aplicacin de los sistemas


neurodifusos a la interpretacin automtica de imgenes de satlite.
Universidad de Almera 2005.
books.google.com.mx/books?isbn=8482407848

[Pino, 2001]

Pino Diez, Ral., Gmez Gmez, Alberto & de Abajo Martnez, Nicols.
Introduccin a la inteligencia artificial: Sistemas Expertos, Redes
Neuronales Artificiales y Computacin Evolutiva. Editorial; Universidad
de Oliviedo.
books.google.com.mx/books?isbn=8483172496

P g i n a 12 | 32

[Pujari, 2001]

Pujari, Arun K., Data Mining, Techniques. India, 2001.Editorial:


Universities Press.
books.google.com.mx/books?id=dH2KQhJboSYC&printsec=frontcover&
dq=Data+M

[RauchRauch-Hindin. Wendy B. Aplicaciones de la inteligencia artificial en la


Hindin, 1989 ] actividad
empresarial
la
ciencia
y
la
industria
(Fundamentos_Aplicaciones). Madrid, 1989.Editorial; Diaz de Santos,
S.A.
books.google.com.mx/books?isbn=8487189075

[Reparaz,
2008]

Reparaz, Diego. Tesis, Aplicacin de minera de datos para determinar


la eficacia de la braquiterapia en el tratamiento de cncer de prstata.
Instituto tecnolgico de buenos aires.
http://www.iidia.com.ar/rgm/tesistas/REPARAZtesisdegradoeningenieria-2008.pdf

[Riquelme,
2006]

Riquelme, J. C., Ruiz, R., & Gilbert, K. (2006). Minera de Datos:


Conceptos y Tendencias. (A. E. Artificial, Ed.) Inteligencia
Artificial. Revista Iberoamericana, 10(29), 11-18.
Rodrguez R., J. E., Barrera F., H. A., & Bautista M., S. P. (Marzo de
2011). Software para el filtrado de pginas web pornogrficas
basado en el clasificador KNN - UDWEBPORN. (U. N. Colombia,
Ed.) Avances en Sistemas e Informtica, 8(1), 43-49.
Rodrguez Fernndez, Luis Eduardo, 2010. Diseo y desarrollo de una
interfaz de sistema operativo mediante una identidad de inteligencia
artificial con soporte para leguaje natural.
/books.google.com.mx/books?isbn=1445723689

[Rodrguez,
2011]

[Rodriguez;
2010]

[Rojas, 2009]

Rojas, Mariana Isabel. Monografa de Adscripcin: Data Warehouse.


Corrientes, Argentina.2009. Universidad Nacional del Nordeste Facultad
de Ciencias Exacta y Naturales.
http://exa.unne.edu.ar/informatica/SO/MonoAdsDiseno.pdf

[Sesmero,
2013]

Sesmero Fernndez, Ainhoa & Pinero Snchez, Sandra. Sistemas


Expertos: MYCIN. Madrid, 2013.
http://www.it.uc3m.es/jvillena/irc/practicas/11-12/02mem.pdf

[Silberschatz,
2002]

Silberschatz Abraham, Henry F. Korth & S. Sudarshan. Fundamentos de


Base de Datos; Editorial: Mc Graw Hill, 2002.
books.google.com.mx/books?isbn=8448146441

[Sperley,
1999]

Sperley E. The Enterprise Data Warehouse: Planning, Building, and


Implementation.; 1999.
http://monografias.umcc.cu/monos/2006/Informatica/Importancia%20de
%20la%20utilizacin%20de%20un%20Data%20Warehouse.pdf

P g i n a 13 | 32

[Tllez, 2009]

[Torrez,
2012]
[Trujillo,
2000]

[Vieira, 2009]

Tllez Valero, A., Montes y Gmez, M., & Villaseor Pineda, L.


(Septiembre de 2009). Using Machine Learning for Extracting
Information from Natural Disaster News Reports. (IPN, Ed.)
Computacin y Sistemas, 13(1), 33-44.
Chavez Torrez, A. (Diciembre de 2012). Procesamiento del lenguaje
natural, un reto de la inteligencia artificial. (U. N. Distancia, Ed.)
Matices Tecnolgicos, 4, 1-5.
Trujillo, Juan Carlos., Mazn, Jos Norberto & Pardillo, Jess. Diseo y
explotacin de almacenes de datos. Conceptos Bsicos del Modelado
Multidimensional. Alicante, 2000.Editorial; ECU Editorial Club
Universitario.
books.google.com.mx/books?isbn=8499485464
Vieira Braga, Luis Paulo., Ortiz Valencia, Luis Ivn. & Ramrez Carvajal,
Santiago Segundo. Introduccin a la Minera de Datos. Rio de Janeiro,
2009. Editorial; E-papers.
books.google.com.mx/books?isbn=8576502313

P g i n a 14 | 32

ANEXO 1

MARCO TEORICO

La ingeniera de software es la rama de las ciencias computacionales que trata de


buscar los principios para el desarrollo [Brookshear, 2012] y la produccin del
software, comprendiendo todas las etapas utilizadas [Sommerville, 2005] durante
su elaboracin; dado que aporta mtodos y tcnicas que lograran la calidad de
resolucin de problemas [Pressman, 2002]. Existe una ciencia que engloba varios
aspectos importantes para la elaboracin de software eficaz, llamada Inteligencia
Artificial(IA) encargada de estudiar la creacin y el diseo de las mquinas, con
capacidad de resolver problemticas que puede comprender [Garcia,2012];
mquinas con capacidad de imitar el comportamiento inteligente [lvarez, 1994],
imitando el razonamiento de un agente gracias al desarrollo de procesos gestados
del ser humano donde se trabaja para crear computadoras que piensen; maquinas
con mentes [Haugeland, 1988], [Pino, 2001].
Barcel explica a la IA como la elaboracin de sistemas informticos con un
comportamiento que en el ser humano calificamos como inteligente [Barcel, 2016]
teniendo potencia intelectual, facultad de conocer, entender o comprender
[Escolano, 2003]. La IA est orientada al estudio de la conducta humana, teniendo
como objetivo obtener sistemas capaces de realizar tareas complejas [Barcel,
2001]; intentando que estos acten como agentes racionales [Rodrguez, 2010].
P g i n a 15 | 32

Turing defini que una maquina ser inteligente si tiene capacidades cognitivas tales
como [Garzn, 2000]:

Tratamiento del leguaje natural: Lo habilita para comunicarse con xito


mediante interfaces hombre-mquina [Pino, 2001] que permitan facilitar el
desarrollo de modelos para la compresin de mecanismos humanos y su
lenguaje natural [Cortez,2009], [Chvez, 2012].

Razonamiento y aprendizaje automtico: El sistema debe ser capaz de


extraer informacin y estructurarla [Tllez, 2009] para poder usarla, contestar
preguntas y llegar a nuevas conclusiones sin dependencia de un humano
[Russell, 2004].

Robtica: Navegacin de robots mviles, control de brazos de robot y


ensamblado de piezas [Escolano, 2003].

Visin Artificial: Reconocimiento de objetos y del habla, deteccin de


defectos en piezas por medio de visin y apoyo en diagnsticos mdicos
[Pino, 2001].

Aprendizaje: Modelizacin de conductas para su posterior implantacin en


computadoras [Escolano, 2003], [Garzn, 2000].

Sistemas expertos: Nacen de la necesidad de brindarle a la IA


conocimiento, pues contienen la experiencia de la informacin generada por
un especialista humano [Garzn, 2000], versado en un determinado campo
de aplicacin para alcanzar soluciones [Pino, 2003] y deducciones cercanas
a la realidad de una problemtica [Gmez, 1998].

Es importante abordar a los Sistemas Expertos(SE) pues estos son asistentes a la


decisin, destinados a la resolucin de problemas para el razonamiento del entorno
[Bourcier,2003], utilizando procesos que imitan el razonamiento humano
(deduccin, induccin, estrategias de bsqueda de soluciones) al momento de la
P g i n a 16 | 32

resolucin de problemas [Barcel, 2001]. Los SE tratan de dar una explicacin o


interpretacin de los datos obtenidos para aprender de los mismos y generar nuevo
conocimiento

[Pino,2001],

[Rauch-Hindin,1989];

estos

perecederos

de

la

experiencia humana tienen la capacidad de transferir el conocimiento rpidamente


[Lpez,2007], cmplices de la reduccin de errores humanos, encargndose
tambin de tareas rutinarias y conservar el conocimiento de un experto humano
[Beekman,2000].
Un SE es incapaz de extraer el conocimiento y por lo tanto se apoya de la minera
de datos para la obtencin de informacin procesada ya que persigue el
descubrimiento automtico del conocimiento contenido en la informacin [Prez,
2007] implcita antes desconocida y potencialmente de utilidad [Frawley, 1991],
inmersa en grandes cantidades de bases de datos; para el descubrimiento de
patrones significativos [Berry, 1997] con el propsito de facilitar la adquisicin,
extraccin y retencin de los datos tiles [Vieira, 2009].
La Minera de Datos (Data Mining) busca generar informacin similar a la generada
por un experto humano, que adems satisfaga el principio de comprensibilidad. El
objetivo de ste es descubrir conocimientos interesantes; como patrones,
asociaciones, cambios, anomalas y estructuras significativas a partir de grandes
cantidades de datos almacenados en bases de datos, data warehouses, o cualquier
otro medio de almacenamiento de informacin [Reparaz, 2008]. Hernndez
menciona que para que la minera de datos pueda recabar informacin relevante
requiere de un proceso de extraccin de informacin (KDD) que consta de un
conjunto de procesos y tcnicas para el anlisis, limpieza transformacin y
extraccin del conocimiento inmerso en grandes bases de datos por medio de
abordajes que propician el contexto de la minera de datos [Vieira, 2009],
[Hernndez, 2004].

El KDD permite preparar a los datos para su exploracin, auditoria, evaluacin,


difusin y utilizacin de modelos y tcnicas para la simplificacin de los datos de
manera entendible [Prez, 2007], [Pang-Ning, 2006], que aseguran la calidad y
P g i n a 17 | 32

seleccin de los datos de mayor importancia y su posterior comunicacin; con el fin


de identificar patrones vlidos, novedosos de utilidad [Fayyad, 1996], [Vieira, 2009].
Se utilizan tcnicas de clasificacin de los datos con el propsito de obtener
resultados relevantes a clasificar y son:

Agrupacin: se agrupa un conjunto de datos basndose en la similitud de


los valores, para la construccin de modelos descriptivos de acuerdo a una
medida de distancia establecida [Perversi, 2007], [Molero, 2008].

Clasificacin: Asigna datos a un conjunto de variables y encuentra algn


tipo de relacin entre atributos, con el objetivo de clasificarlos en clases para
comprender el comportamiento de los datos y predecir el valor de un registro
desconocido [Molero, 2008], [Perversi, 2007].

Reglas de asociacin: consiste en encontrar reglas e identifican afinidades


entre la coleccin de registros, buscando relaciones o asociaciones entre
ellos [Molero, 2008], [Reparaz, 2008].

Para que la minera de datos funcione se requiere de herramientas de clasificacin,


agrupacin y asociacin para la obtencin de factores estrechamente relacionados
con el caso de estudio, as como un SE que pueda complementar y facilitar a las
personas externas la bsqueda de una respuesta concreta dependiendo de su caso.

El anlisis de la informacin puede facilitarse con el apoyo de herramientas como


Weka que proporciona algoritmos de aprendizaje aplicables a un conjunto de datos
para su transformacin; incluyendo mtodos de minera de datos para la extraccin
y anlisis del conocimiento [Gonzlez-Baales, 2012], [Piedra, 2005].
Para la recaudacin de los datos es necesario usar BD pues son un primer paso
para la extraccin de informacin dado que es una coleccin de informacin
relacionada fragmentada del mundo real muy coherente con un propsito especfico
[Gmez, 2008], [Brookshear, 2012] debido a que se encuentran bien integrados
P g i n a 18 | 32

[Norton, 2006]; tales ficheros pueden ser estructuras muy complejas pues son
compartidos por diversos procesos [Camps, 2005] ya que; el hecho de que estos se
encuentren relacionados no significa que la informacin contenida solo este dirigida
a un caso.
La minera de datos requiere informacin de calidad es por ello que se recomienda
integrar al BD a un Data Warehouse para la obtencin de mejores resultados al
estudio, puesto que este almacn o coleccin de datos orientada a determinado
mbito variable en el tiempo [Rojas, 2009], organizado para soportar necesidades
[Inmon, 1994]. Es una B.D comparativa que se caracteriza por integrar o depurar
informacin que se salga del contexto [Sinnexus, 2016] para la obtencin de datos
de calidad y la toma de decisiones [Hernndez, 2004].
Los beneficios del uso de DWH son diversos entre ellos se encuentra la capacidad
de eliminar gran cantidad de datos intiles y no deseados, facilitando la comprensin
de los datos, transformndolos en informacin til, teniendo como bandera el apoyo
a la toma de decisiones [Osterfeldt,1993], entender el pasado y planear el futuro,
mejorando la entrega de informacin, toma de decisiones. [Inmon, 1994], [Sperley,
1999]. Un OLP es una herramienta tecnolgica que facilita el anlisis de los datos
en tiempo real [Hernndez, 2004], capaz de tomar decisiones [Trujillo, 2000] y
manejar los datos de forma interactiva para comprender la variabilidad en la funcin
y escalabilidad como complemento del DWH [Parra, 1998], [Conessa, 2010].

ANEXO 2

ESTADO DEL ARTE

P g i n a 19 | 32

La minera de datos es muy til en el mbito de control y deteccin de enfermedades


puesto que nos ayuda a controlar, optimizar, administrar, examinar, investigar,
planificar, predecir y tomar decisiones o patrones para la deteccin y documentacin
de las mismas [Swanson, 1999]. Esta herramienta tecnolgica es capaz de analizar
enormes bancos de informacin para la extraccin de datos relevantes de calidad y
bien dirigidos a velocidad de procesadores de computo. La elaboracin y
conduccin de hiptesis poco frecuentes para la prueba de soporte experimental y
extraccin de evidencias para el control de las enfermedades [Piatetski-Shapiro,
1996]. El datamining es una ciencia potencialmente til y humanamente
comprensible, a partir de grandes conjuntos de datos, con el objeto de predecir de
manera automatizada tendencias y comportamientos; as como, describir o generar
modelos previamente desconocidos; la Minera de Datos se ha utilizado
principalmente para la generacin y bsqueda de informacin que satisfaga el
principio de comprensibilidad y el descubrimiento de conocimientos interesantes;
que como resultado de su aplicacin nos permitan visualizar patrones,
asociaciones, cambios, anomalas y estructuras significativas a partir de grandes
cantidades de datos almacenados en bases de datos [Reparaz, 2008].
El desarrollo de aplicaciones que utilizan a la minera de datos para el control de
enfermedades va en incremento gracias a la facilidad de extraccin del
conocimiento con respecto a este tipo de afecciones; puesto que, existen un
conjunto de tcnicas y herramientas capaces de ayudar a la toma de decisiones de
los expertos [Dvila, 2012]. Aunque la minera de datos es relativamente joven su
aplicacin en el sector salud a nivel internacional se destaca por la "Aplicacin de
tcnicas de minera de datos para el diagnstico prematuro del cncer de mamas".
Algunos sistemas reconocidos con el tema se encargan de realizar un diagnstico
del cncer de mama a partir de una base de datos de imgenes de mamografas.
En Cuba se han desarrollado investigaciones como por ejemplo "Aplicaciones de la
minera de datos para el anlisis de la Informacin Clnica". Este estudio se basa en
el apoyo a la toma de decisiones a partir de coronariografas realizadas a pacientes
que padecen cardiopatas isqumicas [Dvila, 2012].
P g i n a 20 | 32

La Minera de Datos ha sido vista como el proceso de minar informacin


[Gorunescu, 2011], por lo tanto, hacer datamining siempre ha sido sinnimo de
trabajo con los procesos, por los cuales tiene que exponerse a los datos para la
extraccin de la informacin, con el fin de obtener conocimiento veraz inmerso
dentro de los mismos, como apoyo para la toma de decisiones.
Con el objetivo de apoyar los procesos que confieren a la Minera de datos surge
la metodologa CRISP-DM [Chapman, 2000] con el propsito de entender el
problema al que se le desea estudiar; como una metodologa flexible y sencilla para
las fases del proceso de minado. CRISP-DM es una metodologa dedicada a la
preparacin de los datos que se apoya por cinco fases durante el proceso de
extraccin (limpieza, seleccin, formateo, construccin e integracin de los datos)
para el buen entendimiento del mercado o rea a la que se le desea aplicar minera
de datos [Domnguez, 2013].
Diversas investigaciones e instituciones han estado dedicadas al estudio de la etapa
de preparacin de los datos con el objetivo de resolver los problemas presentes en
dicha etapa; muchas de estas investigaciones comparten caractersticas como el
dominio de aplicacin en el sector salud, para el anlisis datos de diferentes
enfermedades como el cncer o la diabetes con el alcance de encontrar un patrn
o caractersticas que las generalice [Domnguez, 2013].
Algunas investigaciones tal como [Duhamel, 2003], el cual forma parte del proyecto
europeo llamado Diabcare, donde se desarrollen y utilicen herramientas de Minera
de Datos para el anlisis de datos clnicos de personas con diabetes, donde se
propone analizar la fase de Preparacin de Datos para proveerla de herramientas
que faciliten el manejo de inconsistencias y valores perdidos.
Durante la elaboracin de este se propuso un mtodo de Preparacin de Datos de
tres fases: limpieza, anlisis de los datos faltantes y seleccin de la tcnica de
manejo de los datos, enfocndose nicamente a la limpieza de la informacin del
caso para la automatizacin de dicho proceso.
P g i n a 21 | 32

Shin-Mu propuso un mtodo que estaba enfocado al manejo de los valores


perdidos, utilizando tcnicas de agrupamiento y regresin para la limpieza de los
datos disponibles. Reportando la precisin en la prediccin de los valores mostrando
exactitud al recuperar los valores perdidos; enfocado slo a la limpieza de los datos
y manejo de valores perdidos [Shin-Mu,2003].
Labib realizo un proyecto de investigacin donde se describe el proceso de
preparacin de datos realizado durante el caso de estudio sobre datos de cncer en
Egipto; en el cual se reportan los procesos de limpieza, seleccin, integracin y
transformacin o construccin de datos, aunque carente de una metodologa que lo
soporte durante el proceso de anlisis y el cual proporciona poca informacin sobre
las tareas ejecutadas durante la preparacin de los datos [Labib, 2005]. Amir
propone en uno de sus proyectos un mtodo que consiste en el reemplazo de
valores perdidos y la seleccin de atributos consultando con expertos en el dominio.
Los datos utilizados pertenecen a registros de cncer de mama ocurridos en Suecia.
En los resultados se observ un crecimiento en la eficiencia de la prediccin de los
valores perdidos, a pesar de la precisin, el mtodo est centrado nicamente en el
problema de la limpieza y seleccin de atributos [Amir, 2005].
Iturbide realizo un trabajo enfocado a la Preparacin de Datos espaciales; en el cual
se propone una metodologa de tres pasos (seleccin, materializacin y
transformacin de datos) y un framework; donde los datos estn relacionados a
enfermos con padecimientos de cncer con el fin de observar relaciones entre
pacientes con padecimientos de cncer y fbricas o antenas de telefona celular, de
acuerdo a su ubicacin geogrfica [Iturbide, 2013].
En el trabajo de Iturbide se presentan los siguientes pasos: 1) los datos que se estn
manejando, espaciales y poblacionales, pertenecen a pacientes con padecimientos
de cncer 2) la propuesta de una metodologa y 3) un software de Preparacin de
Datos [Iturbide, 2013].

P g i n a 22 | 32

Bratu propone una metodologa para la sustitucin de valores perdidos y seleccin


de atributos, los datos utilizados para esta investigacin estn relacionados al
dominio epidemiolgico, especficamente, cncer de prstata. El enfoque es
innovador, ya que propone manejar la limpieza y seleccin de atributos, como dos
fases en la misma actividad, no obstante, no aborda otras fases del proceso de
Preparacin de Datos. Es una metodologa simple y genrica, que puede ser
utilizada para varios dominios de aplicacin. Tambin, resalta la necesidad de semiautomatizar los procesos de preparacin [Bratu, 2009].

El Modelo de simulacin Epidemiolgica de cncer de mama de Wisconsin se


gener con el propsito de indagar y extraer informacin inmersa en los datos
recabados para la deteccin temprana de cncer de mama con la ayuda de la
minera de datos, basado principalmente en un modelo de simulacin estocstico
que usa un sistema cientfico para el estudio del nivel de incidencia y mortalidad del
cncer de mama en la poblacin [Hernndez, 2007].

Este modelo trabaja simultneamente con cuatro procesos interactivos los cuales
arrojan datos a travs del tiempo, contribuyendo con algn patrn de incidencia
repetitivo para un porcentaje importante de los casos, que se pueda transformar en
conocimiento de alto impacto o bien un nuevo modelo que represente conocimiento
al rea [Hernndez, 2007].
Tal sistema simula los casos de la enfermedad, tanto detectada como oculta, o a
nivel individual, til tambin para responder a preguntas sobre la seleccin y
efectividad de los tratamientos adecuados para cada tipo de paciente de acuerdo a
las similitudes del mismo con respecto a los resultados obtenidos durante la
clasificacin, adems de estimar beneficios para mujeres de edades e historiales
especficos; un Modelo podra calcular el diagnstico del cncer a partir de
imgenes digitalizadas de un aspirado de masa de la mama, para clasificar si el
tumor es Maligno o Benigno [Hernndez, 2007].
P g i n a 23 | 32

Utilizar minera de Datos nos ayudar a la obtencin de patrones y relaciones entre


atributos, que permitan predecir de antemano, un caso especfico de cncer y los
factores que inciden la supervivencia o mortandad de la mujer que la padece; la
deteccin temprana juega un papel importante en la reduccin de mortandad por lo
cual muchos mtodos han sido investigados para mejorar la deteccin de la misma
[Hernndez, 2007]. Diversas instituciones trabajan con el propsito de analizar los
procesos asociados al tratamiento de cncer mamario de los pacientes,
identificando y estableciendo similitudes entre los mismos para que mltiples
usuarios puedan analizar caractersticas propias y saber en contra experiencia el
tratamiento que llevar y los posibles resultados que obtendr en determinado
momento [Hurtado, 2008]; el anlisis, diseo y pruebas de Algoritmos genticos
apoyan a la clasificacin de bancos de clulas cancergenas [Castrilln, 2010];
mientras que WEKA proporciona predicciones dado un conjunto de entrenamiento
para poner en alerta a pacientes potenciales.
Boone realiz una investigacin referente al cncer en Mxico debido a que esta
enfermedad es una de las principales causas de mortandad del pas, identificando
la distribucin del mismo con respecto a las regiones con altas tasas de incidencia
de la enfermedad para contribuir a la disminucin de mortandad en el pas, mediante
el uso e integracin de tcnicas de minera de datos [Boone, 2011].
La visualizacin de los resultados se mostr mediante sistemas de informacin
geogrfica, permitiendo mejorar la calidad de representacin de los municipios
donde prevenir la enfermedad, a nivel social el control de la afeccin se simplifico
ya que las zonas de riesgo se identificaron brindando un control ms especializado
de la misma para la reduccin de mortandad en la poblacin. [Boone, 2011].

El procesamiento de KDD se integr y recopilo mediante la contribucin de los


sistemas sociales INEGI, IRIS-Arclnfo, NAAIS-SCRIS generando un almacn de
datos de tipo Multidimensional ROLAP que permite el proceso de seleccin,
limpieza y transformacin de los datos, consiguiendo calidad de la informacin;
evaluados y procesados con el algoritmo de agrupamiento para la extraccin de
P g i n a 24 | 32

patrones y la extraccin de resultados para su evaluacin e interpretacin. Mediante


el cual se identificaron regiones de municipios con altas tasas de incidencia de
cncer en el pas, con el objetivo de promover acciones que contribuyan a disminuir
los ndices de mortandad por cncer [Boone, 2011].
En el contexto de la Minera de Datos, Chen presenta una estrategia basada en el
anlisis general y detallado de dendogramas que permiten la visualizacin de
jerarquas de grupos, y que incorporan una medida de ponderacin de los nodos en
el dendograma. La estrategia adoptada permite encontrar patrones de inters, lo
que se detalla mediante un caso de estudio basado en datos demogrficos y de
mortalidad a nivel de condados de los Estados Unidos de Amrica (EEUU), sobre
la incidencia de cncer cervical [Chen 2009].
Thangavel identifico patrones sobresalientes de una Base de Datos de pacientes de
cncer cervical, proporcionada por uno de los centros de cncer de Tamilnadu,
India.
El objetivo principal consisti en determinar cules factores influyen en el
diagnstico del cncer cervical para una regin determinada. La metodologa para
el descubrimiento de subgrupos en el cncer cervical se implement en un Data
Mining Server (DMS), disponible en http://dms.irb.hr para uso pblico. Adems, se
desarroll un nuevo mtodo de Minera de Datos que combina el aprendizaje
mquina basado en induccin de subgrupos interesantes con el anlisis estadstico
de descubrimiento de subgrupos [Thangavel 2006].

ANEXO 3

MARCO METODOLOGICO
P g i n a 25 | 32

Todo Proyecto requiere de la aplicacin de una metodologa estructurada para la


obtencin de resultados ptimos y exitosos. Una metodologa facilitar la
planificacin y direccin de un proyecto, as como su seguimiento [De Luca, 2006].
Existen diversos modelos de proceso propuestos para el desarrollo de proyectos de
Data Mining tales como SEMMA (Sample, Explore, Modify, Model, Assess) [SAS,
2003], o CRISP-DM (Cross Industry Standard Process for Data Mining) [CRISP-DM,
2000] basados en la divisin del proyecto de minera en fases, sin embargo, uno de
los modelos principalmente utilizados en los ambientes acadmico e industrial es el
modelo CRISP-DM [Gallardo, 2009]. Se describirn las metodologas SEMMA y
CRISP-DM con el propsito de enmarcar las diferencias existentes entre las misma
y describir porque la metodologa CRISP-DM es la ms viable para la elaboracin
de la investigacin.

Metodologa SEMMA

Metodologa de Minera de Datos desarrollada por SAS; su nombre es


correspondiente a las iniciales de sus cinco fases principales (Samples,Explore,
Modify, Assess), detalladas a continuacin:

Fase de muestreo: Extrae una muestra representativa de la poblacin a estudiar y


sobre lo cual se realizar el anlisis. La representatividad de la muestra es
fundamental para este mtodo, ya que de no cumplirse se invalidarn todos los
resultados del modelo de datamining. Esta metodologa exige calcular el nivel de
confianza de cada muestra considerada en el estudio de datamining.

Exploracin de los Datos: Luego de escoger la muestra representativa se debe


iniciar una exploracin de la informacin con el propsito de simplificacin del
problema; consiguiendo la simplificacin mediante el uso de herramientas de
despliegue de los datos, y mediante tcnicas estadsticas que establecen la
correlacin entre las variables explicativas.

P g i n a 26 | 32

Fase de Manipulacin de los datos: Luego de finalizada la exploracin de los


datos se procede a darles el formato adecuado para poder alimentar el modelo que
se desarrolle en la siguiente fase.

Fase de modelado: se alimenta de las variables explicativas definidas y


formateadas en las fases anteriores, permitiendo encontrar una relacin entre
dichas variables y aquellas que se desea predecir, para la realizacin de inferencias
con cierto nivel de confianza. La tcnica utilizada para establecer la relacin entre
variables incluye mtodos estadsticos tradicionales tales como el anlisis
discriminante, mtodos de agrupamiento y anlisis de regresin, as como mtodos
de IA, redes neuronales, lgica difusa y rboles de decisin.

Fase de Evaluacin de los resultados: Se evala la validez de los resultados


obtenidos en la fase anterior, para ello se utilizan test de bondad de ajuste, al igual
que otros mtodos estadsticos que contrastan los resultados obtenidos en la
muestra usada en fases anteriores con los resultados obtenidos de muestras
distintas [De Luca, 2006].

Metodologa CRISP-DM

Esta metodologa contiene un conjunto de actividades seleccionadas en base a la


experiencia de ensayo y error recogida a travs de numerosos proyectos por
profesionales. Los orgenes de CRISP-DM, se remontan hacia el ao 1999 cuando
un importante consorcio de empresas europeas tales como NCR (Dinamarca),
AG(Alemania), SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS, y DaimerChrysler, proponen a partir de diferentes versiones de KDD (Knowledge Discovery
in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman, 1996], [Fayyad, 1996],
desarrollo una gua de referencia de libre distribucin denominada CRISP-DM
(Cross Industry Standard Process for Data Mining)[Gallardo, 2009].
En la cual las actividades estn ordenadas horizontalmente en fases que recorren
la vida de un proyecto de minera de datos, desde la definicin de los objetivos del
P g i n a 27 | 32

negocio que se pretende obtener y el mantenimiento del modelo que se proponga


e implemente. Cada una de esa fase se ha subdividido en tareas ordenadas en un
esquema jerrquico, desde un mayor a menor nivel de detalle [De Luca, 2006].
CRISPDM [CRISP-DM, 2000], es la gua de referencia ms ampliamente utilizada
en el desarrollo de proyectos de Data Mining.

Metodologas utilizadas en Data Mining [kdnuggets, 2007].

Esta grfica representa el resultado obtenido en sucesivas encuestas efectuadas


durante los ltimos aos, respecto al grado de utilizacin de las principales guas de
desarrollo de proyectos de Data Mining [Gallardo, 2009].
CRISP-DM, est dividida en 4 niveles de abstraccin organizados de forma
jerrquica en tareas que van desde el nivel ms general, hasta los casos ms
especficos y organiza el desarrollo de un proyecto de Data Mining, en una serie de
seis fases:

P g i n a 28 | 32

Esquema de los 4 niveles de CRISP-DM [CRISP-DM, 2000].

La sucesin de fases no es necesariamente rgida. Cada fase es estructurada en


varias tareas generales de segundo nivel. Las tareas generales se proyectan a
tareas especficas, donde finalmente se describen las acciones que deben ser
desarrolladas para situaciones especficas, pero en ningn momento se propone
como realizarlas [Gallardo, 2009].

Modelo de proceso CRISPDM [lvaro, 2010].


P g i n a 29 | 32

Comprensin del negocio:


Es una de las fases ms importantes del proceso de minera de datos. La
comprensin del negocio contiene la determinacin de objetivos comerciales, la
evaluacin de la situacin, la determinacin de los objetivos de la minera de datos
y la produccin de un plan del proyecto [De Luca, 2006], [IBM, 2010]. Para obtener
el mejor provecho de Data Mining, es necesario entender de la manera ms
completa el problema que se desea resolver, esto permitir recolectar los datos
correctos e interpretar correctamente los resultados [Gallardo, 2009].
o Determinar los objetivos globales
o Evaluar la situacin actual
o Elaborar un plan de desarrollo [lvaro, 2010].
Comprensin de los datos.
Los datos proporcionan el "material sin procesar" de la minera de datos.
Comprende los orgenes de los datos y las caractersticas de dichos orgenes
[CRISP-DM, 2000].
o Recopilacin o recoleccin de los datos iniciales
o Descripcin
o Exploracin
o verificacin de la calidad de datos [lvarez, 2010].
Preparacin de datos:
Despus de catalogar los orgenes de los datos, ser necesario que los prepare
para su anlisis.
o Extraer los datos de diferentes fuentes
o Fundir varias tablas de datos en una sola
o Combinar datos de distintas fuentes
o Identificar datos perdidos, anmalos o valores
o Seleccionar los datos de inters
P g i n a 30 | 32

o Reestructurar los datos en el formato requerido


o Transformar los datos en otros nuevos [lvarez, 2010].
Modelado:
Aplicacin de mtodos de anlisis para la extraccin de la informacin de los datos.
Esta fase implica la seleccin de las tcnicas de modelado, la generacin de diseos
de comprobacin y la generacin de modelos de evaluacin [IBM,2010].
Evaluacin:
Una vez elegidos los modelos, ya est preparado para evaluar la forma en que los
resultados del anlisis pueden ayudarle a lograr los objetivos comerciales.
o evaluacin de los resultados
o revisin del proceso de minera de datos
o determinacin de los siguientes pasos [De Luca, 2006].
Despliegue:
Integracin de los nuevos conocimientos en el proceso comercial diario a fin de
resolver el problema original comercial. Esta fase incluye el despliegue, el control y
el mantenimiento del plan, la produccin de un informe final, as como la revisin
del proyecto [lvarez, 2010], [CRISP-DM, 2000].

Porque utilizar CRISP-DM y no SEMMA u otra metodologa?

CRISP-DM est enfocada ampliamente a los objetivos de negocio del proyecto;


similar a un anlisis de requerimientos estructurado pues estos tienen en
consideracin los objetivos del negocio a alcanzar. Omitir la fase de anlisis de
requerimiento puede provocar el desarrollo de sistemas intiles para el usuario por
lo cual la convierte en una metodologa diseada al apoyo del datamining, mientras
que SEMMA est centrada ms a las caractersticas estadsticas del desarrollo de
un modelo de minera de datos, desarrollada como agregado de SAS para el
muestreo de los datos [De Luca, 2006].
P g i n a 31 | 32

P g i n a 32 | 32

You might also like