Professional Documents
Culture Documents
RESUMEN
Durante las ltimas dcadas, hemos sido testigos de la evolucin de las tecnologas
y el impacto que estas tienen sobre la vida cotidiana; puesto que su aplicacin nos
ha permitido el hallazgo de nuevos conocimientos con facilidad. Existen diversas
ciencias dedicadas a la bsqueda de respuestas extradas dentro de un conjunto de
datos para la resolucin e implementacin de resultados al caso o rea especfica
en el que se desea indagar.
Diversas empresas e instituciones han crecido y con ello el volumen y variedad de
datos se ha diversificado a tal grado de ser imposible el anlisis y buen
aprovechamiento de la informacin.
Por todo esto la minera de datos surge de la necesidad de extraccin y generacin
de conocimiento, otorgndonos conocimientos y patrones de repeticin; puesto que
esta podra exponer a los datos que nos permitirn indagar y crear teoras de
resolucin.
El siguiente trabajo de investigacin va dirigido al rea de la Medicina con el objetivo
especfico de analizar la informacin inmersa dentro del repositorio Machine
Learning con datos de cncer de mama, para la identificacin de factores que nos
permitan detectar e identificar causas que detonen el Cncer utilizando los
algoritmos ID3 y C4-5 de minera de datos para la comparacin de mejores
resultados.
Tal estudio nos permitir identificar los factores que pueden estar estrechamente
vinculados con el desarrollo de estos tumores malignos en la mujer; conocimiento
que se extraer y seleccionar con la ayuda de tcnicas de minera de datos en
conjunto con el apoyo de la metodologa CRISP-DM con la cual se espera
fundamentar algunas causantes de cncer de mama, as como tambin lograr la
ptima preparacin de los datos.
P g i n a 1 | 32
ANTECEDENTES
Visin Artificial
Aprendizaje
Sistemas expertos.
Es importante abordar a los Sistemas Expertos(SE) pues estos son asistentes a la
decisin, destinados a la resolucin de problemas para el razonamiento del entorno
[Bourcier,2003], utilizando procesos como la deduccin, induccin y estrategias de
bsqueda de soluciones, para la resolucin de problemas [Barcel, 2001].
Los SE tratan de dar una explicacin o interpretacin de los datos para aprender de
los mismos y generar nuevo conocimiento [Pino,2001], [Rauch-Hindin,1989];
perecederos de la experiencia humana [Lpez,2007], cmplices de la reduccin de
errores humanos y encargados de tareas rutinarias [Beekman,2000]. Un SE es
incapaz de extraer el conocimiento y por lo tanto se apoya de la minera de datos
para la obtencin de la informacin procesada, pues esta persigue el
descubrimiento automtico del conocimiento contenido en la informacin [Prez,
2007], oculta en grandes cantidades de bases de datos; para el descubrimiento de
patrones significativos [Berry, 1997] con el propsito de facilitar la adquisicin,
extraccin y retencin de los datos [Vieira, 2009].
La minera de datos es muy til en el mbito de control y deteccin de enfermedades
puesto que nos ayuda a controlar, optimizar, administrar, examinar, investigar,
planificar, predecir y tomar decisiones o patrones para la deteccin y documentacin
de las mismas [Swanson, 1999]. Esta herramienta es capaz de analizar enormes
bancos de informacin para la extraccin de datos relevantes de calidad y bien
dirigidos. El datamining es una ciencia potencialmente til, con el objeto de predecir
de manera automatizada tendencias y comportamientos; as como, describir o
generar modelos previamente desconocidos; la Minera de Datos se ha utilizado
principalmente para la generacin y bsqueda de informacin que satisfaga el
principio de comprensibilidad y el descubrimiento de conocimientos interesantes; y
que como resultado de su aplicacin nos permitan visualizar patrones,
asociaciones, cambios, anomalas y estructuras significativas a partir de grandes
cantidades de datos [Reparaz, 2008].
P g i n a 3 | 32
P g i n a 5 | 32
Con el objetivo de apoyar los procesos que confieren a la Minera de datos surge la
metodologa CRISP-DM [Chapman, 2000] con el propsito de entender el problema
al que se le desea estudiar; como una metodologa flexible y sencilla para las fases
del proceso de minado. CRISP-DM es una metodologa dedicada a la preparacin
de los datos que se apoya por cinco fases durante el proceso de extraccin
(limpieza, seleccin, formateo, construccin e integracin de los datos) para el buen
entendimiento del mercado o rea a la que se le desea aplicar minera de datos
[Domnguez, 2013].
Bratu propone una metodologa para la sustitucin de valores perdidos y seleccin
de atributos, los datos utilizados para esta investigacin estn relacionados al
dominio epidemiolgico, especficamente, cncer de prstata. El enfoque es
innovador, ya que propone manejar la limpieza y seleccin de atributos, como dos
fases en la misma actividad, no obstante, no aborda otras fases del proceso de
Preparacin de Datos. Es una metodologa simple y genrica, que puede ser
utilizada para varios dominios de aplicacin. Tambin, resalta la necesidad de semiautomatizar los procesos de preparacin [Bratu, 2009].
Se utilizan tcnicas de clasificacin de los datos con el propsito de obtener
resultados relevantes a clasificar y son:
Agrupacin
Clasificacin
Para la recaudacin de los datos es necesario usar BD pues son un primer paso
para la extraccin de informacin dado que es una coleccin de informacin
relacionada y fragmentada del mundo real muy coherente con un propsito
especfico [Gmez, 2008], [Brookshear, 2012] debido a que se encuentran bien
integrados [Norton, 2006]; tales ficheros pueden ser estructuras muy complejas
pues son compartidos por diversos procesos [Camps, 2005] ya que; el hecho de
que estos se encuentren relacionados no significa que la informacin contenida solo
este dirigida a un caso.
La minera de datos requiere informacin de calidad es por ello que se recomienda
integrar BD o hacer un Data Warehouse para la obtencin de mejores resultados al
estudio, puesto que este almacn o coleccin de datos orientada a determinado
mbito variable en el tiempo [Rojas, 2009], organizado para soportar necesidades
[Inmon, 1994]. Es una B.D comparativa que se caracteriza por integrar o depurar
informacin que se salga del contexto [Sinnexus, 2016] para la obtencin de datos
de calidad y la toma de decisiones [Hernndez, 2004].
Los beneficios del uso de DWH son diversos entre ellos se encuentra la capacidad
de eliminar gran cantidad de datos intiles y no deseados, facilitando la comprensin
de los datos, transformndolos en informacin til, teniendo como bandera el apoyo
a la toma de decisiones [Osterfeldt,1993], entender el pasado y planear el futuro,
mejorando la entrega de informacin, toma de decisiones. [Inmon, 1994], [Sperley,
1999]. Un OLP es una herramienta tecnolgica que facilita el anlisis de los datos
en tiempo real [Hernndez, 2004], capaz de tomar decisiones [Trujillo, 2000] y
manejar los datos de forma interactiva para comprender la variabilidad en la funcin
y escalabilidad como complemento del DWH [Parra, 1998], [Conessa, 2010].
P g i n a 7 | 32
REFERENCIAS
1994]
books.google.com.mx/books?isbn=8476845634
Editorial; Pearson.
2000]
https://books.google.com.mx/books?isbn=9684442823
Berry, Michael J.A., & Linoff, Gordon S.; Data Mining Techniques. Wiley,
[Berry, 1997]
1997.
books.google.com.mx/books?id=AyQfVTDJypUC&printsec=frontcover&
dq=Data+Mining+Techniques+berry
Bourcier,
Daniele.
Inteligencia
artificial
derecho.
[Bourcier,
2003.Editorial; UOC.
2003]
https://books.google.com.mx/books?isbn=8483189747
Barcelona,
Camps Par, Rafael., Escofet, Carme Martn & Marc Gibert Ginest,
[Camps,
Dolors Costal Costa, Luis Alberto Casillas Santilln, Oscar Prez Mora.
2005]
2000]
2000.
http://personales.unican.es/gutierjm/papers/BookCGH.pdf
2003]
P g i n a 8 | 32
2012]
books.google.com.mx/books?isbn=8493945021
2004]
UAEM.
2001]
http://ocw.uc3m.es/ingenieria-telematica/inteligencia-en-redes-decomunicaciones/material-de-clase-1/07-mineria-de-datos
[Barcel,
2001]
books.google.com.mx/books?isbn=8484298930
[Benavides,
2012]
[Brookshear,
2012]
[Conessa,
2010]
P g i n a 9 | 32
[Date, 2001]
[EImasri,
2007]
[Frawley,
1991]
[Gmez,
1998]
Gmez Martin, Jos Antonio & Puerta Callejn, Jos Miguel. Sistemas
Experto Probabilsticos. Editorial; Ediciones de la universidad de CatillaLa Mancha, 1998.
books.google.com.mx/books?isbn=8489958351
[Gmez,
1998]
[Garca,
2006]
[Garca,
2007]
[Garca,
2009]
Garca, Gervilla E., Jimnez Lpez, R., Montao Moreno, J. J., Ses
Abad, A., Cajal Blasco, B., & Palmer Pol, A. (2009). La
metodologa del Data Mining. Una aplicacin al consumo de
alcohol en adolescentes. (e. A. Sociedad Cientfica Espaola de
Estudios sobre el Alcohol, Ed.) Adicciones, 21(1), 65-80.
[Garzn,
2000]
P g i n a 10 | 32
[Gelbukh,
2010]
[Gmez,
2008]
[GonzlezBaales,
2012]
[Guil, 2009]
[Harmon,
1998]
[Haugeland,1
988]
Siglo Veintiuno.
books.google.com.mx/books?isbn=9682314119
[Hernndez,
2004]
[Inmon, 1994] Inmon, W. H.; Hackathorn; Richard D. Using the Data Warehouse. New
York: John Wiley & Sons. ISBN: 0-471-05966. 1994.
http://fit.hcmute.edu.vn/Resources/Docs/SubDomain/fit/ThayTuan/Data
WH/Bulding%20the%20Data%20Warehouse%204%20Edition.pdf
[Jiawei, 2006] Jiawei Han & Micheline Kamber: Data Mining: Concepts and Techniques
Morgan Kaufmann, 2006.
books.google.com.mx/books?id=pQws07tdpjoC&pg=PR6&dq=Data+Mi
ning:+Concepts+and+Techniques+Morgan+Kaufmann
[Kimball,
2008]
Kimball, Ralph., Margy, Ross., Thornthwaite, Warren & Mundy, Joy. The
Data Warehouse Lifecycle Toolkit. Indiana, 2008.Editorial; Wiley
Publishing.
books.google.com.mx/books?id=ONQio9do_70C&printsec=frontcover&
dq=The+Data+Warehouse+Lifecycle+Toolkit
[Len, 2007].
P g i n a 11 | 32
[Lpez, 2005]
[Molero,
2008]
http://www.uaeh.edu.mx/docencia/Tesis/icbi/licenciatura/documentos/Si
stemas%20expertos%20y%20sus%20aplicaciones.pdf
Lpez Takeyas, Bruno. Sistemas Expertos.
http://www.itnuevolaredo.edu.mx/takeyas/Apuntes/Inteligencia%20Artific
ial/Apuntes/Filminas_Sistemas_Expertos/SistemasExpertos5.PDF
Molero Castillo, Guillermo Gilberto. Tesis, Desarrollo de un modelo
basado en tcnicas de minera de datos para clasificar zonas
climatolgicamente similares en el estado de Michoacn. Universidad
Autnoma de Mxico.
http://www.geologiafeflow.unam.mx/documentos/tesis%20mineria%20de%20datos.pdf
[Norton,
2006]
[Pan-Ning,
2006]
[Parra, 1998]
[Prez, 2007]
[Perin,
2012]
[Perversi,
2007]
[Piedra,
2005]
[Pino, 2001]
Pino Diez, Ral., Gmez Gmez, Alberto & de Abajo Martnez, Nicols.
Introduccin a la inteligencia artificial: Sistemas Expertos, Redes
Neuronales Artificiales y Computacin Evolutiva. Editorial; Universidad
de Oliviedo.
books.google.com.mx/books?isbn=8483172496
P g i n a 12 | 32
[Pujari, 2001]
[Reparaz,
2008]
[Riquelme,
2006]
[Rodrguez,
2011]
[Rodriguez;
2010]
[Rojas, 2009]
[Sesmero,
2013]
[Silberschatz,
2002]
[Sperley,
1999]
P g i n a 13 | 32
[Tllez, 2009]
[Torrez,
2012]
[Trujillo,
2000]
[Vieira, 2009]
P g i n a 14 | 32
ANEXO 1
MARCO TEORICO
Turing defini que una maquina ser inteligente si tiene capacidades cognitivas tales
como [Garzn, 2000]:
[Pino,2001],
[Rauch-Hindin,1989];
estos
perecederos
de
la
[Norton, 2006]; tales ficheros pueden ser estructuras muy complejas pues son
compartidos por diversos procesos [Camps, 2005] ya que; el hecho de que estos se
encuentren relacionados no significa que la informacin contenida solo este dirigida
a un caso.
La minera de datos requiere informacin de calidad es por ello que se recomienda
integrar al BD a un Data Warehouse para la obtencin de mejores resultados al
estudio, puesto que este almacn o coleccin de datos orientada a determinado
mbito variable en el tiempo [Rojas, 2009], organizado para soportar necesidades
[Inmon, 1994]. Es una B.D comparativa que se caracteriza por integrar o depurar
informacin que se salga del contexto [Sinnexus, 2016] para la obtencin de datos
de calidad y la toma de decisiones [Hernndez, 2004].
Los beneficios del uso de DWH son diversos entre ellos se encuentra la capacidad
de eliminar gran cantidad de datos intiles y no deseados, facilitando la comprensin
de los datos, transformndolos en informacin til, teniendo como bandera el apoyo
a la toma de decisiones [Osterfeldt,1993], entender el pasado y planear el futuro,
mejorando la entrega de informacin, toma de decisiones. [Inmon, 1994], [Sperley,
1999]. Un OLP es una herramienta tecnolgica que facilita el anlisis de los datos
en tiempo real [Hernndez, 2004], capaz de tomar decisiones [Trujillo, 2000] y
manejar los datos de forma interactiva para comprender la variabilidad en la funcin
y escalabilidad como complemento del DWH [Parra, 1998], [Conessa, 2010].
ANEXO 2
P g i n a 19 | 32
P g i n a 22 | 32
Este modelo trabaja simultneamente con cuatro procesos interactivos los cuales
arrojan datos a travs del tiempo, contribuyendo con algn patrn de incidencia
repetitivo para un porcentaje importante de los casos, que se pueda transformar en
conocimiento de alto impacto o bien un nuevo modelo que represente conocimiento
al rea [Hernndez, 2007].
Tal sistema simula los casos de la enfermedad, tanto detectada como oculta, o a
nivel individual, til tambin para responder a preguntas sobre la seleccin y
efectividad de los tratamientos adecuados para cada tipo de paciente de acuerdo a
las similitudes del mismo con respecto a los resultados obtenidos durante la
clasificacin, adems de estimar beneficios para mujeres de edades e historiales
especficos; un Modelo podra calcular el diagnstico del cncer a partir de
imgenes digitalizadas de un aspirado de masa de la mama, para clasificar si el
tumor es Maligno o Benigno [Hernndez, 2007].
P g i n a 23 | 32
ANEXO 3
MARCO METODOLOGICO
P g i n a 25 | 32
Metodologa SEMMA
P g i n a 26 | 32
Metodologa CRISP-DM
P g i n a 28 | 32
P g i n a 32 | 32