You are on page 1of 31

Recuperao de Informao em

documentos semi-estruturados (XML)


Caio Teixeira e Fernanda Macedo

Informaes sobre o Artigo


Um estudo sobre diferentes modelos de Recuperao de Informao em
documentos semi-estruturados (XML) - Implementao, Anlise, Avaliao e
Comparao
Autor: Mirella Silva Junqueira
Orientador: Prof. Dr. Ilmrio Reis da Silva
Universidade Federal de Uberlndia (UFU)
Nvel: Mestrado
Ano: 2007

Outline

Introduo
Caracterizao do problema
Trabalhos Relacionados

Modelos de R.I. semi-estruturada


Modelos de Avaliao
Coleo de testes

Estado atual do trabalho


Caracterizao da contribuio
Concluso
Referncias
3

INTRODUO

Recuperao de Informao
Recuperao de Informao a rea que estuda mtodos para facilitar o
acesso a itens de informao.
Variaes de itens:

Textos
Vdeos
Imagens
Hipertextos

Sistema de Recuperao de Informao


De acordo com Salton (1968), o sistema de RI composto por:

Conjunto de documentos
Conjunto de consultas
Mecanismo para determinar quais documentos atendem s consultas

Objetivo:
Atender s necessidades de informao de usurios, expressas por consultas.

Sistema de Recuperao de Informao


Modelos:

Lgico - criado por Robertson e Sparck-Jones (1976)

Consulta representada por termos concatenados por operadores lgico

Probabilstico - criado por Robertson e Sparck-Jones (1976)

Recupera documentos atravs de probabilidades de relevncia


Indicador de Relevncia:

Probabilidade de o documento ser relevante consulta dividida pela


probabilidade de ele no ser relevante.

Sistema de Recuperao de Informao


Modelos:

Vetorial - criado por Salton (1971)

Documentos e a consulta so representados por vetores de termos ponderados

O peso determina a importncia de um termo para descrever o contedo de um


documento
Frequncia do termo determina o peso

Documentos so recuperados de acordo com a similaridade dos vetores de consulta e


documento

CARACTERIZAO DO PROBLEMA

Caracterizao do Problema

Sistemas R.I. recuperam informaes partir de texto no estruturado


Bancos de dados so designados para pesquisas em dados estruturados

Alguns problemas de busca altamente estruturada so resolvidos com um banco de


dados relacional

No existe consenso a respeito de um modelo para estrutura de dados e


consulta na recuperao de informao em XML.

10

TRABALHOS RELACIONADOS

11

Trabalhos Relacionados
Modelos:

sTerm
JuruXML

12

Trabalhos Relacionados
Avaliao de Modelos de RI: Modelos de R.I. podem ser avaliados de acordo com o
conjunto de resultados retornados como resposta a uma consulta

Preciso-Revocao
EPRUM

Coleo de testes:

INEX

13

Preciso-Revocao
Mecanismo de avaliao da qualidade do resultado da consulta.
Preciso

Maior preciso - frao de documentos recuperados que so relevantes

Revocao

Maior abrangncia - frao de documentos relevantes que foram


recuperados

14

Preciso-Revocao

Fonte: <http://slideplayer.com.br/slide/40927/> Acessado em 09 de Agosto de 2016


15

EPRUM
EPRUM - Generalizao do Preciso-Revocao
Objetivo:

Permitir ao usurio navegar na estrutura da coleo

Aplicao:

Contexto de recuperao XML semi-estruturada

16

INEX
Programa que fornece colees para testes de documentos XML.
Dois tipos de consultas:

CO - somente contedo
CAS - contedo e estrutura

17

sTerm
Estrutura:

Adio de estrutura nas palavras chaves


Consultas interpretadas como rvores rotuladas (XML)
Coleo de documentos modelada como uma rvore
Cada documento uma sub-rvore

18

sTerm
Consulta:

Raz da consulta determina documentos aceitveis

Igualdade do n raz do documento e da consulta - resultado candidato

Documento comparado com a consulta - similaridade define posio no ranking de


resultados

19

sTerm
Clculo do Grau de similaridade:

Distribuio dos s-terms

Nmero de ocorrncia dos s-terms (para definir peso do termo)


Dentro de um documento
Nmero de documentos

20

sTerm
Vetor de documentos

Construdo a partir dos pesos de termos

Vetor de consultas

Pesos do s-terms definidos pelo usurio

Ambos vetores comparados utilizando critrios do modelo.

21

JuruXML
Similar ao modelo sTerm
Diferena:

Utiliza o conceito de caminho


Clculo do peso dos termos e similaridades entre consulta e documento
consideram semelhana entre dois caminhos

Sub-rvore de consulta e de documento

22

CARACTERIZAO DA CONTRIBUIO

23

Caracterizao da Contribuio

Motivao

Proposta

Dificuldades na indexao e formulao de consultas


Indexao considera termo e estrutura
Usurio tem dificultade em definir a estrutura da consulta
Interface com melhor usabilidade
Aumento da qualidade dos resultados

Mtodo

Navegao entre documentos a partir de um documento retornado

24

ESTADO ATUAL DO TRABALHO

25

Estado Atual do Trabalho


Sistema sTerm

Implementado em Java

Coleo pequena de documentos


Leitura e Anlise de arquivo XML
API Java - SAX

Consulta no Sistemas sTerm

artigo [ acadmico,empresas]
Termos: acadmico, empresas
Contexto: artigo

26

Estado Atual do Trabalho


Sistema JuruXML

Implementado em Java

API SAX

Consulta no Sistemas JuruXML

termo# contexto
Termo: termo da consulta (folha da rvore)
Contexto: caminho da raz at a folha

27

Estado Atual do Trabalho


Sistema sTerm e Sistema JuruXML

Prxima etapa

Tratar problemas relacionados a escalabilidade


Memria
Testes com colees maiores - coleo do INEX

28

Concluso

29

Concluso
Uma vez que solues para recuperao de dados semi-estruturados no podem ser apresentadas
por sistemas de bancos de dados convencionais e diante de um cenrio onde a busca de informao
est cada vez mais ligada a dados que apresentam estruturas heterogneas, como os encontrados na
WEB, o estudo sobre a recuperao semi-estruturada se torna cada vez mais relevante e buscas de
solues para os problemas relacionados a esse tipo de consulta so necessrias para minimizar o
impacto desse quadro atual.

30

Referncias
ROBERTSON, S.E.; SPARCK-JONES, K. Relevance weighting on search terms.
Journal of American Society for Information Sciences , v. 27, n. 3, p.129146,
1976.
SALTON, G. Automatic information organization and retrieval . New York:
McGraw Hill, 1968. 421 p.
JUNQUEIRA, M. S.. Um estudo sobre diferentes modelos de Recuperao de
Informao em documentos semi-estruturados (XML) - Implementao,
nalise, Avaliao e Comparao. -- Uberlndia: UFU, 2007.
31

You might also like