You are on page 1of 8

Coleccin de Tesis Digitales

Universidad de las Amricas Puebla

Alvarez Carrin, Guillermo

Para que el usuario de un MDBMS pueda accesar de manera transparente


y uniforme la informacin almacenada en diferentes componentes de
bases de datos, se necesita resolver los conictos de heterogeneidad
semntica y de datos. La idea de resolver los conictos es lograr una
integracin de esquemas, que permita a los usuarios de MDBMS formular
solo una consulta para n Bases de Datos en lugar de n consultas, una para
cada Base de Datos.
El presente captulo presenta la clasicacin de los conictos de esquema
y de datos; adems describe de manera detallada, como es que se
presentan los conictos al integrar las Bases de Datos Componentes
(BDCs). Se revisa y discute la metodologa propuesta para lograr la
integracin de esquemas. La metodologa de integracin se describe,
considerando los conictos y casos particulares para el integrador de
esquemas propuesto en este trabajo de investigacin.

3.1 Conictos de Esquema


Debido a que las BDCs operan independientemente (sin un control
centralizado o coordinador distribuido), stas pueden presentar
discrepancia estructural y de representacin. Estas diferencias permiten
identicar y clasicar los conictos de esquema manejados durante el
proceso de integracin. El conjunto de conictos identicados por [Kim y
Seo, 1991] para la integracin de esquemas se describen en los prrafos
siguientes.

3.1.1 Conictos en tablas


Conictos de nombrado de tablas
a. Nombres diferentes para tablas equivalentes.- Ocurre cuando se
asignan nombres diferentes a tablas semnticamente equivalentes
(sinnimos).
b. Nombres iguales para tablas no equivalentes.- Cuando se asigna el
mismo nombre a tablas semnticamente diferentes (homnimos).

Conictos en la estructura de las tablas


a. Atributos faltantes.- La conceptualizacin del diseo de un
esquema de BD puede llevar a la omisin de atributos que no se
consideren representativos.
b. Atributos implcitos.- En ocasiones los atributos existentes pueden
ser sucientes para deducir algn otro atributo requerido para la
integracin.
Conictos en restricciones de integridad.- En esta categora se incluyen
las deferencias que pueden surgir con respecto a la seleccin de llaves
primarias, secundarias, extranjeras y conictos en medida de la integridad
referencial.
Conictos en la organizacin de la informacin.- El nmero de tablas
requeridas para modelar la BD en cada componente puede diferir de
acuerdo a la conceptualizacin de solucin de cada diseador.

3.1.2 Conictos en atributos


Conictos de nombrado de atributos.- El concepto de sinnimo y
homonimia aplicado a los conictos de nombrado de tablas son
aplicables a stos tipos de conictos.
Conictos en valores por ausencia.- La denicin implcita de algunos
valores por ausencia asignados por DBMS, podra llevar a contradicciones
en la semntica de los datos.
Conictos por restricciones de asignacin de valores a los atributos
a. Conictos en los tipos de datos.- Los tipos de datos pueden diferir
en cuanto al criterio de diseo de cada aplicacin.
b. Conictos en restricciones de dominio .- Reglas impuestas para a
asignacin de valores o consideracin en los criterios de unicidad.
Conictos por la cardinalidad y grado de atomicidad.- El grado de detalle
de cada atributo puede ser distinto en cada aplicacin. Adems, cada
modelo de informacin establece restricciones y posibilidades de
estructuracin muy diferentes.
Conictos en la representacin de la informacin.- Puede presentarse el
caso de que el mismo concepto se presente como una entidad en una
aplicacin y en otra como un solo atributo.

3.2 Conictos de datos

An a pesar de tener esquemas de BDCs equivalentes en cuanto a la


estructura de sus tablas y atributos, es posible presentar otra serie de
problemas identicados como conictos de datos, dichos conictos
presentados por [Kim y Seo 1990], se describen a continuacin:
Conictos entre los valores.- Cuando se espera que instancias
equivalentes tengan los mismos valores, pero muestran inconsistencia
debido a que los datos son capturados incorrectamente o los datos son
obsoletos.
Diferencias en la representacin.- Situaciones de contexto y cultura
organizacional, entre otros factores pueden llevar a que cada BDC
seleccione una representacin distinta en la informacin. Dichas
inconsistencias pueden presentarse por:
a. Notaciones diferentes.- Cuando existen diferentes
formas para representar un mismo dato. (p.e.
calicaciones numricas o con escalas de letras)
b. Unidades distintas.- La diversidad de unidades, sobre
todo para valores numricos, trae consigo problemas
de interpretacin. (p.e. la diferencia en el sistema de
medicin ingles y el internacional)
c. Diferencias en las representaciones.- Cuando existen
diferentes formas para representar un valor de un
atributo. (p.e. para el atributo Estado se puede tener:
Tlaxcala, Tlax., Tx, etc.)

3.3 Modelado de datos en los esquemas locales y


federados
El modelado de datos es el proceso de crear una representacin
consistente de los datos del usuarios. Existen diferentes propuestas de
modelado, tales como el de red, jerrquico, relacional y orientado a
objetos, cada uno con caractersticas particulares de diseo y
representacin.
Para la propuesta de integracin de este proyecto se considera
exclusivamente el modelo relacional, como requerimiento tanto para los
esquemas locales como para los esquemas globales generados. La
justicacin de la utilizacin de este modelo, es que sigue siendo uno de
los estndares de modelado ms utilizado en la industria de las Bases de
Datos.
El modelo relacional, basado en la teora de conjuntos usa como primitiva
bsica de construccin la relacin. Una relacin es una tabla

bidimensional. Cada hilera de la tabla contiene datos que pertenecen a


alguna cosa o porcin de una cosa. Cada columna de la tabla contiene
datos sobre atributos. Las hileras son tambin llamadas tuplas y las
columnas atributos
Para que una tabla sea una relacin, esta debe cumplir ciertas
restricciones. Primero, los atributos deben ser atmicos. Todos los valores
en algn atributo deben ser de la misma clase. Cada columna debe tener
un nombre nico y el orden de las columnas en la tabla es insignicante.
Finalmente, dos tuplas en la tabla no pueden se idnticas.
Es importante tomar en cuenta estas consideraciones para la seleccin
apropiada de las BDCs y para garantizar una consistencia con la
metodologa de integracin propuesta.

3.4 Metodologa de integracin de esquemas


La necesidad de integrar diversas BDCs trae consigo la necesidad de
utilizacin de metodologas formales que permitan un proceso de
integracin conable y seguro.
Una metodologa descompone la integracin de esquemas en un nmero
de tareas que pueden ligarse en un proceso interactivo que ofrezca como
resultado un esquema global para DBMS federados fuertemente acoplado.
Con la idea de mantener un balance entre simplicidad y rentabilidad se
describe la metodologa de integracin propuesta por [Batini y Lenzerini
1986], la cual consiste de cuatro fases: preintegracin, comparacin de
esquemas, adecuacin de esquemas y unin de esquemas.

Figura 3.1 Entradas y salidas en la integracin de esquemas

3.5.2 Comparticin de informacin

3.5 Preintegracin
Otro aspecto importante de esta fase es denir qu informacin se
compartir y con qu restricciones de acceso. Este proceso podra
entenderse como un anlogo a la denicin de vistas en el modelo
relacional. En el contexto de Bases de Datos Federadas, esto puede verse
como la determinacin de las entidades que cada Base de Datos
Componente compartir con la Federacin y su denicin en un esquema
de componentes.

Figura 3.2 Estrategias para el proceso de integracin

Figura 3.3 Estrategia binaria de escalera para el proceso de integracin.

3.6 Comparacin de esquemas


En este ejemplo existe la descripcin del mismo nmero de objetos en
cada base de datos local, pero a diferente nivel de detalle por lo que es
posible establecer la relacin lgica a travs de un atributo comn y
ofrecer un acceso global a la informacin sin redundancias. Ambos tipos
de integracin consideran informacin espacial (modelo basado en
fragmentos) e informacin descriptiva.

3.7 Adecuacin de esquemas


La operacin inversa, partiendo de la cadena UBICACION 1 , puede ser, en
algunos casos ms difcil. Esto es debido a que en ocasiones es casi
imposible proponer los criterios para decidir qu parte de la cadena
original corresponde a cada uno de los atributos propuestos para la otra
representacin. Esto, sin embargo, puede llevar a conictos con el orden
que se usa para cada representacin. Debe considerarse , que lo anterior
es posible si el sistema soporta solamente consultas, ya que para las
operaciones de modicaciones y alta de informacin, dada la ubicacin
como un solo atributo, plantea la necesidad de decidir que parte
pertenece a cada atributo de la segunda representacin.

3.7.4 Claves primarias


El uso de llaves primarias en el modelo relacional permite, en la
integracin heterognea establecer la operacin de join para integrar los
componentes locales. Entonces, ser de suma importancia denir cuales
son los atributos considerados como claves primarias de cada BDC.

3.7.5 Nivel de precisin


El modelado de datos espaciales a travs de la tcnica de Quadtree (Ver
Apndice A para detalle de esta tcnica) permite representar objetos
espaciales a diferentes niveles de precisin. A mayor nivel de precisin,
mayor el detalle de representacin obtenido del objeto.
Las BDCs que representan informacin espacial, pueden manejar niveles

de precisin diferentes, lo que implicara una manipulacin a nivel de


implementacin para homogeneizar la representacin de los objetos
espaciales a un mismo nivel de resolucin.
Al considerar el nivel de precisin como un conicto es posible lograr
dicha homogeneizacin a nivel de integracin de esquemas.

3.8 Unin y reestructuracin


Una vez solucionados los conictos en la fase anterior, es posible la
integracin de los esquemas. Despus de la integracin sigue una fase de
reestructuracin interactiva hasta que se llegue al esquema global
deseado. La evaluacin de esquema nal, es a travs de los siguientes
criterios:
Completitud y Validez. El esquema integrado debe contener todos los
conceptos presentes en los esquemas componentes. El esquema
integrado debe ser una representacin de la unin de los dominios de las
aplicaciones asociadas a los esquemas [Batini y Col 1986].
Representacin mnima.- Si el mismo concepto se encuentra en ms de
un concepto componente, este se debe representar slo una vez en el
esquema integrado.
Comprensibilidad.- El esquema global nal debe ser fcil de entender
tanto por el diseador como por el usuario nal.
La comprensin detallada de los conictos de esquema y de datos que se

presentan en este captulo, permitir plantear una mecanismo de


solucin que ofrezca un acceso transparente a las Bases de Datos
Componentes. Los conceptos de equivalencia y tipo de integracin
requieren de atencin especial para garantizar una seleccin apropiada de
los componentes a integrar.
La metodologa de integracin que se discute, establece un patrn de
referencia para llevar a cabo la integracin de manera semiautomtica
con la propuesta que se plantea en los captulos siguientes.

Alvarez Carrin, G. 1999. Integracin de esquemas en bases de datos


heterogneas fuertemente acopladas. Tesis Maestra. Ciencias con
Especialidad en Ingeniera en Sistemas Computacionales. Departamento
de Ingeniera en Sistemas Computacionales, Escuela de Ingeniera,
Universidad de las Amricas Puebla. Mayo. Derechos Reservados 1999.

You might also like