La Minería de Datos es un conjunto de técnicas para la inducción de
conocimiento útil a partir de masas ingentes de datos (En el caso de este proyecto trabajamos con 240 datos). Tiene, por lo tanto, un solapamiento importante con otras disciplinas como la estadística tradicional, el reconocimiento de patrones, la inteligencia artificial, etc.
La Minería de datos se basa en la estadística, de la que toma las
siguientes técnicas:
- Análisis de la Varianza: Mediante el cual se contrasta la existencia
de diferencias significativas entre las medidas de una o más variables continuas en grupo de población distintos.
- Regresión: Define la relación entre una o más variables y un conjunto
de variables predictoras de las primeras.
- Ji cuadrado: Por medio del cual se realiza el contraste la hipótesis de
dependencia entre variables.
- Análisis cluster: Permite la clasificación de una población en un
número determinado de grupos, en base a semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de la población.
- Análisis discriminante: Permite la clasificación de individuos en
grupos que previamente se han establecido, permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.
- Series temporales: permite el estudio de la evolución de una
variable a través del tiempo para, a partir de ese conocimiento, y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones.
Teniendo en cuenta esto para el análisis de los datos (Archivo
adjuntado), nosotros utilizamos 4 de estas técnicas antes descritas para obtener los siguientes resultados:
- Regresión: Se aplicó un análisis utilizando la prueba de correlación
lineal bivariada, determinándose el coeficiente de Pearson, Kendall y Spearman. El coeficiente en todos los casos resultó ser no significativo. Concluyéndose que no existe relación entre la edad de los pacientes y el tiempo de hospitalización de los mismos (Ver tablas de correlación). - Análisis discriminante: Al realizar el análisis discriminante, teniendo en cuenta la edad (4 - 6 años) como variable de agrupación y el tiempo de hospitalización como variable predictora; se encontró que solo podían ser clasificados correctamente el 18.5% de los casos agrupados originales. Es decir, no se pudo encontrar la regla de clasificación de los elementos de estos grupos, y por tanto tampoco una mejor identificación de cuáles son las variables que definan la pertenencia al grupo. Se recomienda agrupar a los pacientes por conglomerados para homogenizar características y su posterior análisis.
- Análisis de la Varianza: Al aplicar la prueba ANOVA
intergrupalmente, para los grupos antes formados, no se pudo encontrar significancia estadística a favor de la hipótesis que sostenía que había diferencia entre los mismos entre el tiempo de hospitalización de los pacientes y su edad respectiva. Es decir, el tiempo de hospitalización es muy semejante, sin importar la edad de los pacientes de estudio.
- Análisis de cluster: Se pudo clasificar a los pacientes de estudio en 5
conglomerados fácilmente identificables, mediante el método de k medios. Los perfiles de semejanza fueron: Edad, sexo y grado de instrucción. La diferencia intergrupal se pudo comprobar con la prueba ANOVA entre los conglomerados, siendo en este caso significativa a favor de la hipótesis de diferencia.
- Otros estadísticos: Entre los cuales se encuentran: Distribución de
frecuencias, Estadísticos descriptivos, Estadísticos exploratorios, Medidas de resumen numérico para datos cuantitativos (media, mediana, desviación estándar, etc.), los cuales se adjuntan en el archivo resultados, de los cuales se obtuvieron conclusiones importantes.
CONCLUSIONES:
1) El pronóstico de padecer una enfermedad en los pacientes es
independiente de su edad, grado de instrucción y lugar de procedencia, según los datos obtenidos de la muestra de población estudiada.
2) El tiempo de hospitalización de los pacientes es indiferente a la edad
del mismo. La correlación entre ambas variables es insignificante estadísticamente.
3) Existe una mayor predisposición en pacientes de sexo masculino de
presentar alguna patología que motive su hospitalización el presente establecimiento de salud.
4) Existe mayor prevalencia de patologías en pacientes infantes (2-6
años) en comparación con los infantes en edad de niñez (7-13 años), aunque como ya se mencionó, el tiempo de hospitalización de los mismos es independiente de esta edad.
5) La gran mayoría de pacientes atendidos en establecimiento de salud
pertenecen al servicio de Neumología, como se puede constatar por la frecuencia de patologías respiratorias diagnosticadas en el ingreso de los mismos.
6) La patología respiratoria que más aqueja a los pacientes
hospitalizados en el presente establecimiento de salud es el Asma y/o variedades (crisis asmática, alérgicas, etc), la cual presenta una tendencia a la cronicidad como lo muestra el gráfico de diagnósticos de egreso con esta misma patología.