Sistemas de Informacion IV

UNIVERSIDAD
MARIANO
GALVEZ
SISTEMAS DE
INFORMACION
MSC. MARÍA EUGENIA ALVAREZ GOMEZ
GUATEMALA, 2017
Calidad de Datos - Información
Incluye los criterios:
• Precisión: Valor agregado a través de los
criterios de integridad, consistencia y densidad.
• Integridad: Valor agregado a través de:
▫ Cabalidad y validez
▫ La corrección de las anomalías de datos que
contienen
• Validez: Equivalente a la veracidad del
contenido que refleja el dato almacenado, que
satisfaga las restricciones de integridad
Calidad de Datos - Información
• Consistencia: Ausencia de contradicciones y
anomalías sintácticas.
• Uniformidad : Que mantenga homogeneidad
con la "unidad de medida"
• Densidad : El cociente de los valores que faltan
en los datos contra el número de los valores
totales que debería contener la Base de Datos.
Mejora en la Calidad de la Información
• Establecer el origen o causa de las entradas

erróneas
• Dimensionar el efecto de la mala información
• Establecer metodologías para solucionar la
problemática definida
• Evaluar y seleccionar la mas adecuada a la
organización
• Implementar metodología
• Medir resultados
Establecer el origen o causa de las
Entradas erróneas
• Información original inexistente
• Documentos ilegibles
• Datos requeridos incompletos
• Datos duplicados
• Similitudes en un alto grado
• Origen de datos incompatible con sistemas
actuales
Dimensionar el efecto de la mala
información
• A cuales áreas de la organización afecta o
afectara
• Valor económico de no contar con esa
información
• Impacto en la rentabilidad organizacional
• Consecuencias legales
• Efectos tecnológicos y estructuras actuales de
información
Establecer metodologías para
solucionar la problemática definida
De análisis:
La limpieza se lleva a cabo para la detección de errores de
sintaxis.
• Un analizador (parser) decide si una serie de datos es
aceptable dentro de la especificación de criterios permitidos.
• Esto es similar a la forma en que un analizador funciona en la
gramática y lenguaje.
Transformación de datos:
Permite el mapeo de los datos de acuerdo a un modelo de
formato definido y su adecuada aplicación.
• Incluye conversiones de valores o funciones de traducción
• También contempla la normalización de los valores
numéricos para ajustarse a los valores máximo y mínimo.
Eliminación de Duplicados:
Requiere de un algoritmo para determinar si contiene
representaciones de datos duplicados de la misma entidad.
• Por lo general, los datos se clasifican por una clave que traería
entradas duplicadas más juntos para acelerar la identificación.
Métodos estadísticos: Utilizar medias de tendencia central para

realizar el análisis de los datos
▫ Media, desviación estándar, rangos
▫ Agrupar a través de algoritmos
• Lo anterior permite encontrar valores inesperados, que no
mantienen ningún patrón o que están fuera de la realidad.
• La corrección de dichos datos es difícil puesto que el valor real no se
conoce
• Puede resolverse mediante el establecimiento de un valor medio
estadístico o de otro tipo.
• También se puede utilizar para controlar los valores que faltan y
pueden ser remplazados por uno o más valores posibles.
Generalmente se obtienen por algoritmos incrementales.
Tecnología disponible en el mercado
• Oracle Data Quality
• Oracle - Exalytics
• SAP HANA (High-Performance Analytic
Appliance)
• Trillium Software System
• SQL Power Dqguru - Data Cleansing &
MDM Tool
• Otros proveedores
Evaluar y seleccionar la mas adecuada
a la organización
• En función de la problemática encontrada
• Puede ser necesario utilizar mas de una
metodología
• Seleccionar la herramienta tecnológica que
mejor resuelva la necesidad de la organización
• Evaluar la capacidad de la empresa de acuerdo al
costo económico que implica
• Tomar en cuenta la experiencia de soporte en la
aplicación seleccionada
Implementar metodología
El proceso de limpieza de datos implica
• Auditoría de datos: Los datos son auditados con el uso

de estadísticas y métodos para detectar anomalías y
contradicciones.
• Esto finalmente indica las características de las anomalías y
sus ubicación.
• Especificación de flujo de trabajo: La detección y
eliminación de anomalías se realiza mediante una secuencia
de operaciones sobre los datos conocidos como el flujo de
trabajo.
• Se especifica después del proceso de auditoría de los datos y
es crucial para lograr como producto final la alta calidad de
los datos.
• Con el fin de lograr un flujo de trabajo apropiado, las causas
de las anomalías y los errores en los datos deben ser
ampliamente considerados.
• Ejecución de flujo de trabajo: En esta
etapa, el flujo de trabajo se ejecuta después
que su especificación este completa y su
corrección sea verificada.
• La ejecución del flujo de trabajo debe ser
eficiente, incluso en grandes volúmenes de
datos.
• Esto plantea inevitablemente una
compensación porque la ejecución de una
operación de limpieza de datos puede ser
computacionalmente caro.
Medir resultados
• Post-procesamiento y de control: Después de
ejecutar el flujo de trabajo de limpieza, los
resultados son inspeccionados para verificar la
corrección.
• Los datos que no se pueden corregir durante la
ejecución del flujo de trabajo se corrigen
manualmente, si fuera posible.
• El resultado es un nuevo ciclo en el proceso de
limpieza de datos.
• Se audita los datos de nuevo para permitir la
especificación de un flujo de trabajo adicional para
purificar aún más los datos mediante el
procesamiento automático.

Sistemas de Informacion IV

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sistemas de Informacion IV

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD

• Establecer el origen o causa de las entradas

Métodos estadísticos: Utilizar medias de tendencia central para

• Auditoría de datos: Los datos son auditados con el uso

You might also like