You are on page 1of 13

UNIVERSIDAD

MARIANO
GALVEZ

SISTEMAS DE
INFORMACION
MSC. MARÍA EUGENIA ALVAREZ GOMEZ
GUATEMALA, 2017
Calidad de Datos - Información
Incluye los criterios:
• Precisión: Valor agregado a través de los
criterios de integridad, consistencia y densidad.
• Integridad: Valor agregado a través de:
▫ Cabalidad y validez
▫ La corrección de las anomalías de datos que
contienen
• Validez: Equivalente a la veracidad del
contenido que refleja el dato almacenado, que
satisfaga las restricciones de integridad
Calidad de Datos - Información
• Consistencia: Ausencia de contradicciones y
anomalías sintácticas.
• Uniformidad : Que mantenga homogeneidad
con la "unidad de medida"
• Densidad : El cociente de los valores que faltan
en los datos contra el número de los valores
totales que debería contener la Base de Datos.
Mejora en la Calidad de la Información

• Establecer el origen o causa de las entradas


erróneas
• Dimensionar el efecto de la mala información
• Establecer metodologías para solucionar la
problemática definida
• Evaluar y seleccionar la mas adecuada a la
organización
• Implementar metodología
• Medir resultados
Establecer el origen o causa de las
Entradas erróneas
• Información original inexistente
• Documentos ilegibles
• Datos requeridos incompletos
• Datos duplicados
• Similitudes en un alto grado
• Origen de datos incompatible con sistemas
actuales
Dimensionar el efecto de la mala
información
• A cuales áreas de la organización afecta o
afectara
• Valor económico de no contar con esa
información
• Impacto en la rentabilidad organizacional
• Consecuencias legales
• Efectos tecnológicos y estructuras actuales de
información
Establecer metodologías para
solucionar la problemática definida
De análisis:
La limpieza se lleva a cabo para la detección de errores de
sintaxis.
• Un analizador (parser) decide si una serie de datos es
aceptable dentro de la especificación de criterios permitidos.
• Esto es similar a la forma en que un analizador funciona en la
gramática y lenguaje.
Transformación de datos:
Permite el mapeo de los datos de acuerdo a un modelo de
formato definido y su adecuada aplicación.
• Incluye conversiones de valores o funciones de traducción
• También contempla la normalización de los valores
numéricos para ajustarse a los valores máximo y mínimo.
Eliminación de Duplicados:
Requiere de un algoritmo para determinar si contiene
representaciones de datos duplicados de la misma entidad.
• Por lo general, los datos se clasifican por una clave que traería
entradas duplicadas más juntos para acelerar la identificación.

Métodos estadísticos: Utilizar medias de tendencia central para


realizar el análisis de los datos
▫ Media, desviación estándar, rangos
▫ Agrupar a través de algoritmos
• Lo anterior permite encontrar valores inesperados, que no
mantienen ningún patrón o que están fuera de la realidad.
• La corrección de dichos datos es difícil puesto que el valor real no se
conoce
• Puede resolverse mediante el establecimiento de un valor medio
estadístico o de otro tipo.
• También se puede utilizar para controlar los valores que faltan y
pueden ser remplazados por uno o más valores posibles.
Generalmente se obtienen por algoritmos incrementales.
Tecnología disponible en el mercado
• Oracle Data Quality
• Oracle - Exalytics
• SAP HANA (High-Performance Analytic
Appliance)
• Trillium Software System
• SQL Power Dqguru - Data Cleansing &
MDM Tool
• Otros proveedores
Evaluar y seleccionar la mas adecuada
a la organización
• En función de la problemática encontrada
• Puede ser necesario utilizar mas de una
metodología
• Seleccionar la herramienta tecnológica que
mejor resuelva la necesidad de la organización
• Evaluar la capacidad de la empresa de acuerdo al
costo económico que implica
• Tomar en cuenta la experiencia de soporte en la
aplicación seleccionada
Implementar metodología
El proceso de limpieza de datos implica

• Auditoría de datos: Los datos son auditados con el uso


de estadísticas y métodos para detectar anomalías y
contradicciones.
• Esto finalmente indica las características de las anomalías y
sus ubicación.
• Especificación de flujo de trabajo: La detección y
eliminación de anomalías se realiza mediante una secuencia
de operaciones sobre los datos conocidos como el flujo de
trabajo.
• Se especifica después del proceso de auditoría de los datos y
es crucial para lograr como producto final la alta calidad de
los datos.
• Con el fin de lograr un flujo de trabajo apropiado, las causas
de las anomalías y los errores en los datos deben ser
ampliamente considerados.
• Ejecución de flujo de trabajo: En esta
etapa, el flujo de trabajo se ejecuta después
que su especificación este completa y su
corrección sea verificada.
• La ejecución del flujo de trabajo debe ser
eficiente, incluso en grandes volúmenes de
datos.
• Esto plantea inevitablemente una
compensación porque la ejecución de una
operación de limpieza de datos puede ser
computacionalmente caro.
Medir resultados
• Post-procesamiento y de control: Después de
ejecutar el flujo de trabajo de limpieza, los
resultados son inspeccionados para verificar la
corrección.
• Los datos que no se pueden corregir durante la
ejecución del flujo de trabajo se corrigen
manualmente, si fuera posible.
• El resultado es un nuevo ciclo en el proceso de
limpieza de datos.
• Se audita los datos de nuevo para permitir la
especificación de un flujo de trabajo adicional para
purificar aún más los datos mediante el
procesamiento automático.

You might also like