Professional Documents
Culture Documents
1. Introduo
Devido massificao da informao e grande quantidade de dados disponveis tanto
na Web quanto em redes internas de organizaes, faz-se necessrio um esforo
contnuo para assegurar que sistemas e processos sejam gerenciados para aumentar
oportunidades de troca e reuso de informaes internas ou externas de uma organizao.
Gerenciar a heterogeneidade semntica e estrutural das informaes a fim de prover
acesso integrado aos dados um dos principais problemas a serem solucionados por
sistemas de integrao de dados [Siedler, 2004]. Assim, devido a essa grande quantidade
de dados ser produzida em um curto perodo de tempo, as organizaes se tornam
potencialmente vulnerveis aos impactos da exploso de informao, podendo causar
problemas em sua gesto. Nesse contexto, o desenvolvimento de metadados aparece
como uma possvel soluo para os problemas da organizao e da gesto de dados.
Em uma definio simplista, metadados seriam dados que descrevem outros
dados, mas na verdade so marcos ou pontos de referncia que permitem limitar a
informao sob todas as formas. Metadados servem para descrever e estruturar, de
maneira estvel e uniforme os dados que so registrados sob diferentes suportes
documentais [Taylor, 2003]. Metadados permitem acessar facilmente a informao,
extra-la e compreend-la, fornecendo tambm um contexto, ou seja, para cada ambiente
que produz ou gera uma massa documental, existem motivos particulares que justificam
e explicam a elaborao deles. Metadados so, por assim dizer, resumos da informao
sobre a forma ou o contedo de uma fonte. Mas, atualmente eles tambm vm sendo
usados pelos servios de informao on-line em vrios processos como busca de
informao, autenticao, direitos de autor e arquivamentos.
No contexto de sistemas de integrao de dados, os metadados devem conter
informaes sobre as fontes e prover suporte a diferentes nveis de informao desde sua
estrutura at quais so as funcionalidades oferecidas por elas. Para cada participante do
ambiente de integrao, os metadados podem incluir (ou possibilitar a gerao
automtica) o esquema da fonte (se houver), estatsticas, taxas de mudanas, capacidade
de resposta a consultas, domnio a que pertence, e polticas de acesso e segurana.
Relacionamentos existentes entre as fontes de dados podem estar armazenados como
grafos, vises, ou at mesmo descries textuais. Sempre que possvel, os metadados
devem fornecer informaes sobre: identificador, tipo, data de criao, data de
atualizao e assim por diante. Deve servir, no mnimo, para responder sobre a presena
ou ausncia de determinados metadados, ou determinar quais participantes manipulam
um determinado tipo de dado. Diante desse contexto, a grande dificuldade que existe
saber identificar quais so os metadados mais importantes para cada aplicao.
Especificamente, no contexto deste trabalho, o grande desafio identificar quais
metadados so essenciais em aplicaes inseridas em ambientes de integrao de dados.
Esta identificao necessria para que seja possvel acessar os dados integrados,
atravs de um formato flexvel que permita troca de informaes uma vez que na Web
os dados podem possuir uma estrutura bem definida como tambm podem ser totalmente
desestruturados - e executar consultas atravs de alguma.
Nesta linha de raciocnio, o presente trabalho tem por objetivo descrever uma
proposta que apresenta uma taxonomia para definio de metadados, utilizados em
ambientes de integrao de dados. A taxonomia proposta possui, no nvel mais alto de
abstrao, a seguinte classificao: (i) metadados sintticos, descrevem informaes no
contextuais sobre o contedo, geralmente provendo informaes de carter geral (por
exemplo, localizao da fonte, data de criao, entre outros); (ii) metadados estruturais,
provm informaes sobre a estrutura dos dados, independentes do contedo, e
descrevem como os itens esto organizados na fonte de dados e regras para esta
organizao (por exemplo, estrutura seguida pelos dados, tais como XML, relacional,
documentos e dados semi-estruturados, entre outros); e (iii) metadados semnticos,
fornecem informaes sobre o significado dos dados disponveis e seus relacionamentos
semnticos (por exemplo, dados que descrevem o contedo semntico de um valor de
dado - como unidades de medida e escala), ou dados que fornecem informaes
adicionais sobre sua criao (algoritmo de clculo ou derivao da frmula usada),
linhagem dos dados (fontes) e qualidade (atualidade e preciso). Uma discusso informal
sobre a necessidade desta classificao pode ser encontrada em [Lines, 2008]. Quando o
mesmo metadado est inserido em mais de uma classificao, ele chamado de
metadados multifacetados. Por exemplo, o conceito poltica de acesso pode ser
considerado ao mesmo tempo um metadado estrutural (que indica a estrutura
computacional utilizada) e metadado sinttico (indicando como proceder, sintaticamente,
com os comandos de acesso).
Este artigo est organizado como segue. A Seo 2 apresenta os trabalhos
relacionados enquanto a Seo 3 descreve os conceitos bsicos e terminologias
importantes no contexto de metadados e integrao de dados. A Seo 4 descreve a
taxonomia proposta atravs de uma classificao multifacetada de metadados para
utilizao em ambientes de integrao de dados na Web. Por fim, a Seo 5 dedicada
s consideraes finais e trabalhos futuros.
2. Trabalhos Relacionados
Bibliotecas digitais e pginas Web constituem importantes iniciativas de acesso
informao, entretanto, para oferecerem uma cobertura mais abrangente de recursos,
utilizam servios que fazem uso de metadados. Moura et. al. (2002) propem uma
estrutura formal para realizar tal tarefa, baseado em um modelo conceitual de metadados
que explora as relaes entre recursos de informao em diferentes nveis de
granularidade.
Alguns trabalhos [Loureno, 2007] se inserem em duas linhas de ao do
Programa Brasileiro da Informao: contedos e identidade cultural e P&D. Na primeira
linha de ao, o autor trata o problema da preservao e da disseminao da identidade
cultural, com enfoque nos metadados. Na segunda linha, encontram-se estudos sobre a
aplicao das tecnologias da informao de maneira apropriada s necessidades atuais da
Web, atravs da utilizao de metadados, a fim de que os contedos sejam descritos e
estruturados com vistas a uma melhor recuperao pelas mquinas de buscas da Internet.
A questo sobre solues para comrcio eletrnico levantada por alguns
autores [Passos 2006], com nfase ao grande nmero de mapeamentos e padronizaes,
propondo um mtodo que utiliza ontologias para intermediar os domnios. O trabalho
foca o problema de integrar dados originados de fontes distintas na comunidade de
banco de dados, no ambiente Web, bases de conhecimento, planilhas, entre outros, com
nfase na interoperabilidade. O trabalho relata que duas caractersticas da Internet
dificultam o acesso a informaes especficas e relevantes: (i) a quantidade e a ausncia
de definio semntica precisa para as informaes publicadas, para que sejam
inteligveis por programas e sistemas; e (ii) necessidade de agregar valor informao
disponvel, tal que a mesma possa ser inferida tanto por humanos quanto por agentes
inteligentes. Assim, ao descrever os desafios da integrao de dados, o autor cita
metadados como necessrios aos esquemas mediadores como forma de descrio da
estrutura das fontes envolvidas no ambiente de mediao.
Metadados no so usados apenas em catalogaes bibliogrficas [Baptista
2007], tradicionalmente provendo suporte s atividades de classificao, catalogao e
indexao, mas tambm na identificao, localizao e recuperao de informaes na
Web. O trabalho de Baptista 2007 foca o impacto dos metadados na representao
descritiva, explora aspectos conceituais e a aplicao de metadados. O foco
caracterizar o impacto dos metadados na catalogao, entendida no s como atividade
bibliotecria, mas, sobretudo, como um conjunto de prticas. Tais prticas, baseadas em
conhecimento especializado, passam a integrar novos conhecimentos no esforo
multidisciplinar de se prover o acesso informao da forma mais gil e eficaz possvel.
O que se observa na maioria dos trabalhos existentes na literatura a grande
importncia dada ao uso de metadados. Esta caracterstica reflete a real utilidade desta
estrutura em sistemas heterogneos e/ou distribudos (integrao de dados, bibliotecas
digitais). O ponto fraco dos trabalhos existentes, no entanto, consiste na definio clara
do conjunto de metadados que se considera adequado a sistemas de integrao de dados.
Como se pode observar, sistemas de bibliotecas digitais podem basear seus metadados
em padres consolidados como o Dublin Core, por exemplo; o que no acontece com
ambientes distribudos de integrao de dados. Neste sentido, o presente trabalho
apresenta um passo em direo discusso e definio de metadados para este tipo de
aplicao.
Sinttico,
Estrutural, semntico
Referncias
Baptista, Dulce (2007). O Impacto dos Metadados na Representao Descritiva. Revista
ACB: Biblioteconomia em SC, Florianpolis, v.12, n.2, p. 177-190, jul./dez
Lines, Weibel. (2008) Metadata: Semantics; Structure; Syntax. February. Disponvel em:
http://weibel-lines.typepad.com/weibelines/2008/02/metadata-semant.html
Loureno, Cntia de Azevedo (2005). Anlise do Padro Brasileiro de Metadados de
Teses e Dissertaes segundo o Modelo Entidade-Relacionamento. Tese
(Doutorado na Escola de Cincia da Informao - UFMG), Belo Horizonte.
Madmick, Stuart E. (1995) From VLDB to VMLDB (Very MANY Large Data Base):
Dealing with Large-Scale Semantic heterogeneity, VLDB.
Matos, Ely Edison da Silva (2008). CelOWS: Um Framework Baseado em Ontologias
com Servios Web para Modelagem Conceitual em Biologia Sistmica.
[dissertao]. Juiz de Fora (MG): Mestrado em Modelagem Computacional, UFJF.
Moura, Ana Maria de C.; PEREIRA, Genelice da Costa and CAMPOS, Mara Luiza
Machado (2002). A metadata approach to manage and organize electronic
documents and collections on the web. J. Braz. Comp. Soc., vol.8, n.1, pp. 16-31.
Passos, Rmulo Augusto Nogueira de O. (2006) Uma arquitetura para integrao de
dados baseada em ontologia. Centro de Informtica Universidade Federal de
Pernambuco (UFPE).
Siedler, Marcelo da Silveira. SOUZA. (2004) Fernando da Fonseca. Sistema de
Integrao de Dados usando Tcnicas de Web Semntica. Centro de Informtica
Universidade Federal de Pernambuco (UFPE).
Taylor, Chris.(2003) An Introduction to Metadata. University of Queensland Library..