You are on page 1of 105

ALLAN KOCH VEIGA

UM ESTUDO SOBRE QUALIDADE DE DADOS EM BIODIVERSIDADE: APLICAO A UM SISTEMA DE DIGITALIZAO DE OCORRNCIAS DE ESPCIES

Dissertao apresentada Escola Politcnica da Universidade de So Paulo para obteno do ttulo de Mestre em Cincias.

So Paulo 2012

Este exemplar foi revisado e alterado em relao verso original, sob responsabilidade nica do autor e com a anuncia de seu orientador. So Paulo, 27 de fevereiro de 2012.

Assinatura do autor ____________________________

Assinatura do orientador ________________________

FICHA CATALOGRFICA

Veiga, Allan Koch Um estudo sobre qualidade de dados em biodiversidade: aplicao a um sistema de digitalizao de ocorrncias de espcies / A.K. Veiga. -- ed. rev -- So Paulo, 2012. 101 p. Dissertao (Mestrado) - Escola Politcnica da Universidade de So Paulo. Departamento de Engenharia de Computao e Sistemas Digitais. 1. Informao (Qualidade) 2. Informtica 3. Biodiversidade 4. Sistemas de informao 5. Ocorrncia de espcie I. Universidade de So Paulo. Escola Politcnica. Departamento de Engenharia de Computao e Sistemas Digitais II. t.

ALLAN KOCH VEIGA

UM ESTUDO SOBRE QUALIDADE DE DADOS EM BIODIVERSIDADE: APLICAO A UM SISTEMA DE DIGITALIZAO DE OCORRNCIAS DE ESPCIES

Dissertao

apresentada

Escola

Politcnica da Universidade de So Paulo para obteno do ttulo de Mestre em Cincias. rea de Concentrao: Sistemas Digitais Orientador: Antonio Mauro Saraiva

So Paulo 2012

minha famlia pelo incentivo e apoio realizao deste trabalho.

AGRADECIMENTOS
Ao meu orientador, Prof. Dr. Antonio Mauro Saraiva, pela orientao e dedicao na conduo deste trabalho e, sobretudo, pela confiana, pulso firme, oportunidades e amizade que permitiram o meu crescimento profissional e pessoal durante estes dois anos de POLI. minha famlia que meu ponto de confiana e que me deu incentivo, apoio e suporte para eu seguir em frente. Em especial, minha me Leila, minha madrasta Miriam, ao meu pai Jonas e ao meu irmo Felipe que contriburam fortemente na minha formao pessoal e profissional. famlia LABI (Laboratrio de Bioinformtica da Universidade Estadual do Oeste do Paran) pelos valorosos ensinamentos, conselhos e disciplinas que tiveram grande impacto sobre o meu modo de pensar, de agir e de ser. Em especial, aos coordenadores do LABI, Professores Dra. Huei Diana Lee, Dr. Wu Feng Chung e Msc. Renado Bobsin Machado, exemplos de pesquisadores e de pessoas para mim. Ao Msc. Etienne Americo Cartolano Jr. pela contribuio, incentivo, apoio e pela experincia de dez anos de POLI compartilhada durante todo a minha permanncia na USP. Aos companheiros de pesquisa do LAA, em especial, Joo Victor, Lucas Dias, Lucas Isern, Luiz Saraiva, Guilhermo, Diogo, Jorge, Fernanda, Rafael, Willian, Raul, Joo Ferreira e Aline, que contriburam diretamente e indiretamente para a realizao deste trabalho. Aos amigos, por contriburem com os bons e breves momentos de descanso em Foz do Iguau e em Itaja e com o enriquecimento da minha formao nas atividades extracurriculares.

Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN), cujo projeto apoiado pelo Global Environmental Facility (GEF) e Organizao dos Estados Americanos (OEA) permitiu a concesso da Bolsa de Mestrado ao autor, por meio da Fundao de Apoio USP (FUSP). Srta. Cllia e seus colaboradores da FUSP pelo excelente servio no atendimento e no suporte as questes relativas as bolsas. Este trabalho foi desenvolvido no mbito do Ncleo de Apoio Pesquisa em Biodiversidade e Computao da Universidade de So Paulo (NAP BioComp).

RESUMO
Para o combate da atual crise de sustentabilidade ambiental, diversos estudos sobre a biodiversidade e o meio ambiente tm sido realizados com o propsito de embasar estratgias eficientes de conservao e uso de recursos naturais. Esses estudos so fundamentados em avaliaes e monitoramentos da biodiversidade que ocorrem por meio da coleta, armazenamento, anlise, simulao, modelagem, visualizao e intercmbio de um volume expressivo de dados sobre a biodiversidade em amplo escopo temporal e espacial. Dados sobre ocorrncias de espcies so um tipo de dado de biodiversidade particularmente importante, pois so amplamente utilizados em diversos estudos. Contudo, para que as anlises e os modelos gerados a partir desses dados sejam confiveis, os dados utilizados devem ser de alta qualidade. Assim, para melhorar a Qualidade de Dados (QD) sobre ocorrncias de espcies, o objetivo deste trabalho foi realizar um estudo sobre QD aplicado a dados de ocorrncias de espcies que permitisse avaliar e melhorar a QD por meio de tcnicas e recursos de preveno a erros. O estudo foi aplicado a um Sistema de Informao (SI) de digitalizao de dados de ocorrncias de espcies, o Biodiversity Data Digitizer (BDD), desenvolvido no mbito dos projetos da Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) e BioAbelha FAPESP. Foi realizada uma reviso da literatura sobre dados de ocorrncias de espcies e sobre os seus domnios de dados mais relevantes. Para os domnios de dados identificados como mais importantes (txon, geoespacial e localizao), foi realizado um estudo sobre a Avaliao da QD, no qual foi definido um conceito de QD em relao a cada domnio de dados por meio da identificao, definio e inter-relao de dimenses de QD (aspectos) importantes e de problemas que afetam essas dimenses. Embasado nesse estudo foram identificados recursos computacionais que permitissem melhorar a QD por meio da reduo de erros. Utilizando uma abordagem de Gerenciamento da QD de preveno a erros, foram identificados 13 recursos computacionais que auxiliam na preveno de 8 problemas de QD, proporcionando, assim, uma melhoria da acurcia, preciso, completude, consistncia, credibilidade da fonte e confiabilidade de dados taxonmicos, geoespaciais e de localizao de ocorrncias de espcies. Esses recursos foram implementados em duas ferramentas integradas ao BDD. A

primeira a BDD Taxon Tool. Essa ferramenta facilita a entrada de dados taxonmicos de ocorrncias livres de erros por meio de, entre outros recursos, tcnicas de fuzzy matching e sugestes de nomes e de hierarquias taxonmicas baseados no Catalog of Life. A segunda ferramenta, a BDD Geo Tool, auxilia o preenchimento de dados geoespaciais e de localizao de ocorrncias de espcies livres de erros por meio de tcnicas de georeferenciamento a partir de descrio em linguagem natural da localizao, de georeferenciamento reverso e de mapas interativos do Google Earth, entre outros recursos. Este trabalho demonstrou que com a implementao de determinados recursos computacionais em SI, problemas de QD podem ser reduzidos por meio da preveno a erros. Como consequncia, a QD em domnios de dados especficos melhorada em relao a determinadas dimenses de QD. Palavras-chave: Qualidade de dados, informtica para biodiversidade, sistemas de informao, ocorrncias de espcies, biodiversidade.

ABSTRACT
For fighting the current environment sustainability crisis, several studies on biodiversity and the environment have been conducted in order to support efficient strategies for conservation and sustainable use of natural resources. These studies are based on assessment and monitoring of biodiversity that occur by means of the collection, storage, analysis, simulation, modeling, visualization and sharing of a significant volume of biodiversity data in broad temporal and spatial scale. Species occurrences data are a particularly important type of biodiversity data because they are widely used in various studies. Nevertheless, for the analyzing and modeling obtained from these data to be reliable, the data used must be high quality. Thus, to improve the Data Quality (DQ) of species occurrences, the aim of this work was to conduct a study about DQ applied to species occurrences data that allowed assessing and improving the DQ using techniques and resources to prevent errors. This study was applied to an Information System (IS) designed to digitize species occurrences, the Biodiversity Data Digitizer (BDD), that was developed in the scope of the Inter-American Biodiversity Information Network Pollinators Thematic Network (IABIN-PTN) and BioAbelha FAPESP projects. A literature review about species occurrences data and about the most relevant data domains was conducted. For the most important data domains identified (taxon, geospatial and location), a study on the DQ Assessment was performed, in which important DQ dimensions (aspects) and problems that affect theses dimensions were identified, defined and interrelated. Based upon this study, computational resources were identified that would allow improving the DQ by reducing errors. Using the errors preventing DQ Management approach, 13 computing resources to support the prevention of 8 DQ problems were identified, thus providing an improvement of accuracy, precision, completeness, consistency, credibility of source and believability of taxonomic, geospatial and location data of species occurrences. These resources were implemented in two tools integrated to the BDD IS. The first tool is the BDD Taxon Tool. This tool facilitates the entrance of error-free taxonomic data of occurrences by means of fuzzy matching techniques and suggestions for taxonomic names and hierarchies based on Catalog of Life, among other resources. The second tool, the BDD Geo Tool, helps to fill in error-free geospatial and location data about species

occurrence by means of georeferencing techniques from natural language description of location, reverse georeferencing and Google Earth interactive maps, among other resources. This work showed that with the development of certain computing resources integrated to an IS, DQ problems are reduced by preventing errors. As a result of reducing some problems in particular, the DQ in specific data domains is improved for certain DQ dimensions. Keywords: Data quality, biodiversity informatics, information system, species occurrences, biodiversity.

LISTA DE FIGURAS

Figura 1 - Cadeia de produo de informaes de ocorrncias de espcies. 28 Figura 2 - Modelo de requisitos de Kano. Baseado em Bolt & Mazur (1999). 34 Figura 3 - Um framework para Avaliao da QD. ........................................... 36 Figura 4 - Definio de dimenses de QD a partir de diferentes aspectos.. .. 39 Figura 5 - Definio de problemas de QD. ..................................................... 44 Figura 6 - Definio de dimenses de QD. Baseada em Dalcin (2005). ....... 46 Figura 7 - Metodologia de Avaliao da QD. .................................................. 47 Figura 8 - Relao entre preciso e acurcia em dados geoespaciais .......... 56 Figura 9 - Modelo hierrquico de dimenses de QD ...................................... 58 Figura 10 - Representao da Avaliao da QD de ocorrncias.................... 59 Figura 11 - Arquitetura de software do BDD. .................................................. 72 Figura 12 - Autocomplete de nomes de txons. ............................................. 80 Figura 13 - Sugestes de nomes vlidos........................................................ 81 Figura 14 - Sugestes de hierarquias vlidas e invlidas............................... 82 Figura 15 - Sequncia de uso da ferramenta BTT.......................................... 83 Figura 16 - Primeira etapa da ferramenta BGT. ............................................. 85 Figura 17 - Georeferenciamento reverso. ....................................................... 86 Figura 18 - Georeferenciamento utilizando um mapa interativo. .................... 87 Figura 19 - Georeferenciamento a partir da descrio near sao paulo. ....... 87 Figura 20 - Indicador de incerteza. ................................................................. 88 Figura 21 - Sequncia de uso da ferramenta BGT. ........................................ 89

LISTA DE ABREVIATURAS E SIGLAS

ABCD Access to Biological Collections Data AJAX Asynchronous Javascript and XML ALA Atlas of Living Australia API Application Programming Interface BDD Biodiversity Data Digitizer BGT BDD Geo Tool BTT BDD Taxon Tool CDB Conveno sobre Diversidade Biolgica CoL Catalog of Life DwC Darwin Core EoL Encyclopedia of Life GBIF Global Biodiversity Information Facility GPS Global Positioning System HTML Hypertext Markup Language IABIN Inter-American Biodiversity Information Network IABIN-PTN IABIN Pollinators Thematic Network IB Informtica para Biodiversidade ITIS Integrated Taxonomic Information System JSON Javascript Object Notation LAA Laboratrio de Automao Agrcola MVC Model-View-Controller PDD Pollinator Data Digitizer PHP - Hypertext Preprocessor PTN Pollinator Thematic Network QD Qualidade de Dados SI Sistema de Informao SIG Sistema de Informaes Geogrficas TAPIR TDWG Access Protocol for Information Retrieval TDWG Biodiversity Information Standards (Taxonomic Database Working Group) TI Tecnologia da Informao

XML eXtensible Markup Language

SUMRIO
1. Introduo ................................................................................................... 13 1.1. Objetivo ............................................................................................... 13 1.2. Justificativa.......................................................................................... 13 1.3. Metodologia......................................................................................... 16 1.4. Organizao do texto .......................................................................... 17 2. Tpicos em Informtica para Biodiversidade .............................................. 19 2.1. Introduo ........................................................................................... 19 2.1.1. Iniciativas para a padronizao de informaes ........................ 20 2.2. Ferramentas e servios aplicados em IB ............................................ 22 2.2.1. Repositrios de informaes taxonmicas................................. 22 2.2.2. Servios de georeferenciamento................................................ 23 2.3. Dados de ocorrncias de espcies ..................................................... 25 2.4. Cadeia de produo de informaes sobre ocorrncias de espcies 27 2.4.1. Atores ......................................................................................... 27 2.5. Consideraes finais do captulo ........................................................ 31 3. Qualidade de Dados ................................................................................... 33 3.1. Abordagens de pesquisas sobre QD .................................................. 35 3.1.1. Avaliao da QD ........................................................................ 35 3.1.2. Gerenciamento da QD ............................................................... 40 3.2. Consideraes finais do captulo ........................................................ 41 4. Materiais e Mtodos.................................................................................... 42 4.1. Estudo do domnio de aplicao ......................................................... 42 4.2. Definio do escopo ........................................................................... 42 4.3. Estudo sobre a Avaliao da QD ........................................................ 43 4.3.1. Identificar problemas de QD....................................................... 43 4.3.2. Definir problemas de QD ............................................................ 44 4.3.3. Identificar dimenses de QD ...................................................... 44 4.3.4. Definir dimenses de QD ........................................................... 45 4.3.5. Definio de uma metodologia de avaliao da QD .................. 46 4.4. Estudo sobre o Gerenciamento da QD ............................................... 47 4.5. Estudo de caso de aplicao dos estudos de QD .............................. 47

4.5.1. Anlise e desenvolvimento de um SI ......................................... 48 4.5.2. Desenvolvimento de ferramentas de QD ................................... 48 5. Resultados .................................................................................................. 49 5.1. Estudo sobre QD de ocorrncias de espcies .................................... 49 5.1.1. Avaliao da QD ........................................................................ 50 5.1.2. Gerenciamento da QD ............................................................... 60 5.2. Estudo de caso de aplicao dos estudos de QD .............................. 71 5.2.1. Sistema de Informao: BDD ..................................................... 71 5.2.2. Ferramentas de QD desenvolvidas ............................................ 79 6. Consideraes Finais ................................................................................. 91 6.1. Contribuies ...................................................................................... 91 6.2. Concluses ......................................................................................... 93 6.3. Trabalhos futuros ................................................................................ 93

1. INTRODUO
Neste captulo so apresentados o objetivo do trabalho, a justificativa para a sua realizao e a metodologia utilizada para a alcanar o objetivo proposto. Tambm descrita a estrutura do texto.

1.1.

Objetivo

O objetivo deste trabalho realizar um estudo sobre Qualidade de Dados no contexto de Informtica para Biodiversidade que permita identificar causas que afetam a Qualidade de Dados de ocorrncias de espcies em seus domnios de dados mais relevantes e identificar tcnicas e recursos computacionais que permitam melhorar aspectos importantes da qualidade desses dados. Com base nesse estudo, implementar ferramentas que permitam melhorar a Qualidade de Dados de ocorrncias de espcies em um Sistema de Informao de digitalizao de dados de biodiversidade.

1.2.

Justificativa

O planeta tem passado por uma crise de sustentabilidade decorrente da dificuldade em se estabelecer um equilbrio entre o desenvolvimento econmico e social e a conservao do meio ambiente e da biodiversidade (Brundtland, 1987). Para o combate dessa crise de magnitude ainda desconhecida, diversos estudos sobre sustentabilidade tm sido realizados com o propsito de embasar estratgias de conservao e de uso de recursos naturais de modo a no comprometer as futuras geraes, especialmente quando se trata de assuntos ambientais, nos quais os danos podem ser irreversveis (Hill et al., 2010). A degradao da diversidade biolgica, ou biodiversidade, pode afetar o planeta e a sociedade em diversos aspectos. Segundo Schnase et al. (2007), a biodiversidade e os ecossistemas so responsveis por nos fornecer ar puro, gua potvel, alimento, vesturios, abrigos e medicamentos. Essa diversidade, em conjunto com os ecossistemas que a suporta, tambm contribui com trilhes de dlares para a economia mundial, de maneira direta, em setores como agricultura,
13

silvicultura, pesca e ecoturismo, e indireta, por meio de servios biologicamente mediados, como polinizao de plantas, disperso de sementes, pastagens, remoo de dixido de carbono, fixao de nitrognio, controle de enchentes, degradao de resduos e o controle biolgico de pragas. Por esses motivos, tem havido uma crescente necessidade em se compreender e resolver complexos problemas relacionados a esse tema (MA, 2005). Segundo Stockwell (2007, apud Cartolano, 2009, p. 21), a Cincia da Biodiversidade procura entender as tendncias relacionadas riqueza da diversidade dos ambientes biolgicos. Essa riqueza um dos fatores que mais influencia a estabilidade e a sade do meio ambiente (Schnase et al., 2007). Estudos demonstram que aes de conservao ou de degradao da biodiversidade tm impacto sobre conceitos complexos e interdependentes e de alto nvel de organizao, como biomas, ecossistemas, floras e faunas (Bisby, 2000). Contudo, para que as aes de conservao e de uso sustentvel da biodiversidade sejam efetivas, necessrio avaliar e monitorar de maneira integrada e contnua o status do risco de perda de recursos, por meio da coleta, armazenamento, anlise, simulao, visualizao e intercmbio de um volume expressivo de informaes de amplo escopo temporal e espacial. Para tanto, recursos computacionais e de comunicao modernas so necessrias (Saraiva, 2003). Como consequncia dessa demanda, uma nova rea da computao surgiu, a Biodiversity Informatics, ou Informtica para Biodiversidade IB (Canhos, 2003; Saraiva, 2003). Nesse sentido, vrias iniciativas foram criadas com a proposta de digitalizar, integrar e publicar dados de espcies e espcimes em portais na Internet (Canhos et al., 2004). Dentre essas iniciativas destacam-se, pelo grande volume de dados publicados e pela abrangncia geogrfica global, o Global Biodiversity Information Facility GBIF (GBIF, 2011), o Encyclopedia of Life EoL (EoL, 2011) e o Catalog of Life CoL (CoL, 2011). H, tambm, iniciativas que se especializaram em determinados conjuntos de espcies ou regies geogrficas, ou em ambos, como a Inter-American Biodiversity Information Network IABIN, a VertNet (VERTNET, 2011), a Euro-Mediterranean Plant Diversity e o Atlas of Living Australia ALA (ALA, 2011), por exemplo.

14

A IABIN consiste em um importante frum criado para promover a coordenao e colaborao tcnica entre os pases da Amrica para realizar a digitalizao, compartilhamento e uso de informaes sobre biodiversidade (Cartolano, 2009). Essas aes so organizadas em cinco redes temticas: reas Protegidas, Espcies e Espcimes, Ecossistemas, Espcies Invasoras e Polinizadores (IABIN, 2011). Cada rede temtica possui um grupo de trabalho multidisciplinar dedicado ao seu tema. A Rede Temtica de Polinizadores (Pollinators Thematics Network PTN) tem como principal objetivo coordenar esforos para realizar a digitalizao, o compartilhamento e o uso de informaes relacionadas a polinizao e espcies polinizadoras. Para tanto, a Universidade de So Paulo, representada pelo Laboratrio de Automao Agrcola LAA da Escola Politcnica tem definido padres tcnicos e desenvolvido ferramentas de digitalizao e de publicao de dados sobre espcies e espcimes. Uma dessas ferramentas o Biodiversity Data Digitizer BDD (Cartolano et al., 2010; Saraiva et al., 2011). O BDD um Sistema de Informao SI baseado na web desenvolvido para facilitar a digitalizao, manipulao e publicao de dados de biodiversidade. Por meio desse SI, dados sobre ocorrncias de espcies, interaes, dficit de polinizao, monitoramento de polinizadores, recursos multimdia e recursos bibliogrficos podem ser gerenciados e publicados em portais de dados, como os portais da IABIN-PTN, do projeto Polinizadores do Brasil, do GBIF, entre outros. Dentre os diversos tipos de dados sobre a biodiversidade digitalizados por meio do BDD, destacam-se os dados sobre ocorrncia de espcies. Esses dados so amplamente utilizados em muitos estudos sobre a gesto e o uso sustentvel do meio ambiente (Chapman, 2005a). Uma ocorrncia de espcie pode ser definida com uma observao ou uma coleta de um organismo biolgico em um determinado espao geogrfico e tempo, ou seja, um testemunho de um fato biolgico. Assim, o sistema BDD assume uma funcionalidade chave no contexto da IB: a digitalizao. por meio da digitalizao que as informaes sobre a biodiversidade so coletadas e armazenadas em formato digital para posteriormente serem utilizadas. A digitalizao pode ser considerada uma questo crtica, pois os dados produzidos nesse processo so utilizados como insumo em anlises, modelagens, simulaes e visualizaes, os quais so utilizados para melhorar a compreenso
15

sobre a natureza. Portanto, a digitalizao constitui uma etapa fundamental para o cumprimento dos objetivos da IB e da IABIN-PTN. Contudo, para que as anlises e os modelos gerados a partir desses dados sejam confiveis, necessrio que os dados utilizados sejam de alta qualidade. O uso indiscriminado de dados, sem considerar possveis erros, pode levar a resultados incorretos, a informaes enganosas e, por consequncia, a tomadas de decises que podem afetar negativamente a gesto e a manuteno do meio ambiente (Chapman, 2005b). consenso que a Qualidade de Dados QD tem impacto nas tomadas de decises, na credibilidade dos dados, na satisfao dos usurios, no custo de gerenciamento de banco de dados e no valor e no uso efetivo dos dados (Chapman, 2005c). A baixa QD pode ter um forte impacto sobre a eficcia global de uma organizao (Wand & Wang, 1996). Devido a esses fatores e com o rpido crescimento da disponibilidade e da troca de dados sobre biodiversidade global, os consumidores dos dados tm exigido um melhor detalhamento sobre a qualidade dos dados (Chapman, 2005b). Segundo o GBIF (Hill et al., 2010), essencial assegurar que a qualidade dos dados de ocorrncias de espcies seja to boa quanto reportada para que se possa determinar a sua adequao ao uso. Nesse sentido, a avaliao da QD assume um importante papel. Portanto, a aplicao de mtodos de Avaliao e de Gerenciamento da QD em SI de gesto de dados de ocorrncias de espcies pode impactar significativamente a qualidade e a credibilidade de anlises, simulaes e modelos gerados a partir dos dados produzidos por meio desse SI e, por consequncia, permitir que as aes estratgicas e de gesto da biodiversidade e do meio ambiente sejam mais efetivas, melhorando assim, a qualidade de vida dos seres humanos (Chapman, 2005b).

1.3.

Metodologia

Para atingir o objetivo deste trabalho, foi necessrio realizar uma reviso da literatura sobre Informtica para Biodiversidade, especialmente sobre dados de ocorrncias de espcies, para compreender o domnio de aplicao. Dentro desse
16

domnio de aplicao, foi preciso definir um escopo. Esse escopo foi definido com base nos domnios de dados de ocorrncias de espcies mais relevantes. Posteriormente, foi necessrio definir um conceito de QD para cada um dos domnios de dados identificados. Essa definio foi realizada com base no framework de Avaliao da QD proposto por Ge & Helfert (2007). Desse modo, foi realizada uma identificao de problemas de QD comuns em cada domnio de dados. Foi tambm preciso identificar as dimenses de QD e os seus significados em relao a cada domnio de dados. Por fim, foi feita uma analise para identificar quais dimenses de QD podem ser afetadas pelos problemas identificados em relao a cada domnio de dados. Com base nesse estudo sobre Avaliao da QD, aplicado ao escopo definido neste trabalho, foi possvel realizar um estudo sobre o Gerenciamento da QD de ocorrncias de espcies, o qual consistiu em identificar mecanismos, tcnicas e recursos para melhorar a QD. Como estudo de caso, esses recursos foram implementados em um SI, a fim de melhorar a QD por meio da preveno a erros durante a digitalizao de dados de ocorrncias de espcies.

1.4.

Organizao do texto

Este texto composto de seis captulos, distribudos da seguinte forma: O Captulo 2 apresenta uma introduo sobre conceitos, ferramentas, importncia e histria do emergente campo da computao denominado de Informtica para Biodiversidade. O Captulo 3 introduz conceitos e abordagens metodolgicas relacionados a Qualidade de Dados em Sistemas de Informao. O Captulo 4 apresenta uma descrio dos materiais e mtodos utilizados na pesquisa para alcanar o objetivo estabelecido neste trabalho.

17

O Captulo 5 traz os resultados obtidos quanto aplicao de conceitos e mtodos de Qualidade de Dados em um Sistema de Informao sobre Biodiversidade. As contribuies e as concluses deste trabalho, e as propostas de trabalhos futuros so apresentados no Captulo 6.

18

2. TPICOS EM INFORMTICA PARA BIODIVERSIDADE


Para se definir um conceito de QD de biodiversidade necessrio entender o contexto em que esses dados so gerados, manipulados e utilizados. Isso essencial para se definir diretrizes para realizar a Avaliao e o Gerenciamento da QD, bem como identificar fontes da degradao da qualidade. Portanto, nesse captulo apresentada uma breve reviso da literatura sobre Informtica para Biodiversidade.

2.1.

Introduo

A Biodiversidade pode ser definida como a variabilidade entre os organismos vivos de todas as fontes incluindo, entre outras, ecossistemas terrestres, marinhos e outros ecossistemas aquticos, e os complexos ecolgicos dos quais eles so parte; isso inclui diversidade dentro das espcies, entre espcies e de ecossistemas (Steinhage, 2003 apud Saraiva, 2003). Em Hawksworth (1996), a Biodiversidade descrita como: a diversidade de espcies em uma comunidade de organismos vivos e dos ecossistemas aos quais eles pertencem. O uso de informaes sobre a biodiversidade crtico para a tomada de decises em uma ampla gama de domnios (Canhos, 2004). Segundo Saraiva & Canhos (2011), h uma crescente necessidade de se entender e resolver complexos problemas de meio ambiente. Assim como tem-se desenvolvido a capacidade de predizer eventos climticos, necessrio desenvolver a capacidade de predizer os resultados ecolgicos do futuro. Para isso, o uso integrado de informaes de biodiversidade em amplo escopo geogrfico e temporal, de diversas fontes de dados, associadas a informaes sobre mudanas globais dos ecossistemas, dados sobre o ciclo de vida do carbono e de dados abiticos como precipitao, umidade, entre outros, essencial para a realizao de anlises que produzam resultados compreensveis e teis (Saraiva & Canhos, 2011; Canhos, 2004). Assim, a forte demanda pela acessibilidade, integrao e visualizao de diferentes repositrios de dados de biodiversidade de diferentes campos de conhecimento, motivou o desenvolvimento de um novo campo de pesquisa, a IB.
19

Esse campo emergente tem o objetivo de usar e gerenciar de maneira eficiente informaes globais sobre a biodiversidade por meio de ferramentas que auxiliam na anlise e no entendimento dessas informaes (Saraiva, 2003). Entretanto, Schnase (2007) destaca dois fatores que mais afetam o trabalho nesse campo: a complexidade biolgica e a complexidade sociolgica. A complexidade biolgica resultante de mais de trs bilhes de anos de evoluo, o que causou uma alta variabilidade qumica, fisiolgica, do ciclo de desenvolvimento e do comportamento das espcies. Existem milhes de espcies, cada uma apresenta variaes em relao aos organismos individuais e a sua populao. H centenas, se no milhares, de ecossistemas, cada um compreendendo interaes complexas entre diversas espcies e mltiplos fatores abiticos. A complexidade sociolgica inclui problemas de comunicao e de coordenao entre diferentes instituies, as quais podem ter interesses e pontos de vistas divergentes, possurem diferentes nveis de experincia e conhecimento, alm de estarem localizadas em regies geogrficas distintas. Os dados de biodiversidade e do ecossistema podem ser politicamente e comercialmente sensveis, podendo haver conflitos de interesses. Alm disso, os tipos de dados sobre os organismos coletados, os mtodos de coleta, a acurcia e preciso, e a estrutura dos dados podem ser distintas. Por exemplo, importantes dados podem ser coletados por no-cientistas, como observadores amadores de pssaros, ou os dados podem ser obtidos de fontes de dados geogrficos, meteorolgicos, qumicos e genticos. Portanto, h uma necessidade de acomodar diferentes tipos de dados com diferentes nveis de qualidade dentro de uma infraestrutura democratizada de informao formal e informal (Schnase, 2007). Assim, diversas iniciativas surgiram com a proposta de criar padres, protocolos e ferramentas para facilitar o acesso e o uso de informaes consistentes e confiveis sobre a biodiversidade entre sistemas heterogneos de diferentes organizaes.

2.1.1. Iniciativas para a padronizao de informaes sobre biodiversidade Na Conveno sobre a Diversidade Biolgica CDB, comumente referida como Conveno da Biodiversidade, realizada no Rio de Janeiro em 1992, foi
20

firmado um acordo global que cobre todos os aspectos da diversidade biolgica: conservao, uso sustentvel e compartilhamento dos benefcios dos recursos genticos (CBD, 2011). Para alcanar os seus objetivos, a CDB passou a promover o surgimento de iniciativas para utilizar a Tecnologia da Informao TI como suporte a Cincia da Biodiversidade. Essas iniciativas tm o papel de prover um conjunto de ferramentas para atender necessidades de: coleta de dados; registro e armazenamento dos dados; anlise dos dados; acesso aos dados e sua divulgao; integrao de dados (Saraiva, 2003). Com os avanos decorrentes da CDB e dos esforos de governos e sociedade civil, houve uma enorme evoluo da produo de informaes associadas a amostras (espcimes) de material biolgico depositadas em herbrios e colees zoolgicas. Contudo, a base de conhecimento sobre a biodiversidade global continuava incipiente e desagregada (Canhos, 2003). Portanto, para melhorar a interoperabilidade entre as informaes mantidas pelas iniciativas, o Taxonomic Database Working Group TDWG (TDWG, 2011), em parceria com outras organizaes, passou a unir esforos para definir padres para a troca de informaes biolgicas e protocolos para a interoperabilidade de sistemas de informao. O TDWG, atualmente chamado de Biodiversity Information Standards, promove as suas atividades em um ambiente colaborativo e internacional com uma equipe multidisciplinar que envolve: bilogos, zologos, entomologistas, ecologistas, geneticistas, cientistas da computao, engenheiros, etc. (Cartolano, 2009). Entre os principais padres ratificados pelo TDWG, esto o Access to Biological Collection Data ABCD, o Darwin Core DwC e o TDWG Access Protocol for Information Retrieval TAPIR.

2.1.1.1.

Padro Darwin Core

O DwC um padro de metadados baseado principalmente em txons e suas ocorrncias na natureza documentadas por observaes ou coletas de espcies, e outras informaes correlatas. Esse padro documentado por meio de um glossrio de termos, os quais so utilizados para descrever ocorrncias de espcies e permitir que essas informaes sejam facilmente compartilhadas entre sistemas heterogneos. O DwC disponibiliza documentos que descrevem como estes termos
21

so gerenciados, como podem ser utilizados e como podem ser estendidos, a fim de abranger novos domnios de dados. Visando o compartilhamento de informaes sobre ocorrncias de espcies entre sistemas heterogneos, o DwC foi implementado como um esquema de metadados em Extensible Markup Language XML. Esse esquema organizado em sete principais domnios de dados: nvel de registro, ocorrncia, evento, localizao, contexto geolgico, identificao e txon (DwC, 2011). Alm desses domnios de dados, o DwC admite o acoplamento de outros domnios especficos para determinadas aplicaes, chamadas de extenses, como por exemplo, domnio de dados geoespaciais e de interaes entre espcimes.

2.2.

Ferramentas e servios aplicados em IB

Com o progresso da IB e os avanos da TI, diversas ferramentas e servios foram desenvolvidos e disponibilizados na Internet para o uso da comunidade. Essas ferramentas e servios podem ser utilizados como importantes recursos em SI sobre biodiversidade, facilitando a digitalizao de dados de qualidade.

2.2.1. Repositrios de informaes taxonmicas A padronizao de nomenclaturas e de hierarquias taxonmicas essencial para a manipulao computacional dessas informaes, pois a ambiguidade e a incerteza que frequentemente esto associadas a dados taxonmicos podem representar obstculos a sua computao. Portanto, a disponibilidade de informaes taxonmicas consistentes, padronizadas e consideradas corretas pela comunidade, pode ser um importante recurso para melhorar a credibilidade, acurcia e a consistncia de informaes de biodiversidade. A seguir, so brevemente descritos dois importantes repositrios centralizados de informaes taxonmicas disponveis na Internet.

2.2.1.1.

Catalog of Life - COL

O CoL planejado para ser um catlogo de todas as espcies conhecidas de organismos do mundo. A dcima primeira edio desse catlogo contm o registro
22

de 1.370.276 espcies. Esse catlogo resultado da compilao de 101 bancos de dados de diversas partes do mundo. O CoL foi criado a partir da parceria do Integrated Taxonomic Information System ITIS (ITIS, 2011) e do Species 2000 (SPECIES2000, 2011), duas importantes iniciativas globais envolvidas com a criao de repositrio de dados taxonmicos (CoL, 2011). Esses repositrios so considerados autoridades taxonmicas internacionais pela comunidade cientfica. A consulta a esse catlogo pode ser feita por meio de uma aplicao web disponvel no site do CoL (http://www.catalogoflife.org), por web services, plug-ins web ou por meio de aplicaes desktop para os sistemas operacionais Windows, Linux ou MacOSX, as quais podem ser baixadas no website (http://www.catalogueoflife.org/services). O banco de dados do CoL tambm pode ser baixado (http://www.catalogueoflife.org/services) e usado em um banco de dados local.

2.2.1.2.

Encyclopedia of Life - EoL

O objetivo do EoL (http://www.eol.org) aumentar a conscientizao e a compreenso relacionadas natureza por meio da produo e compartilhamento de conhecimento confivel sobre a biodiversidade em formatos digitais e de acesso livre. O EoL mantm um banco de dados que inclui informaes taxonmicas, morfolgicas, comportamentais, sobre hbitat, recursos multimdia e bibliogrficos, etc. relacionados a espcies (EoL, 2011). Como forma de compartilhamento dessas informaes, o EoL disponibiliza uma Application Programming Interface API (http://eol.org/api) que permite o uso das funcionalidades do website do EoL em outros SI ou ferramentas. Essa API permite, por meio de web services, realizar consultas para obter informaes e imagens sobre txons.

2.2.2. Servios de georeferenciamento de ocorrncias Georeferenciamento pode ser definido como a atribuio de dados de coordenadas geoespaciais a um determinado objeto. O georeferenciamento pode ser realizado por meio de dispositivos de geoposicionamento ou (BioGeomancer, 2011) por meio de um processo de converso de descries de localizaes para
23

informaes

geoespaciais

legveis

computacionalmente

por

Sistemas

de

Informaes Geogrficas SIG. ocorrncias de espcies.

A seguir so listados alguns recursos

computacionais disponveis na web que podem auxiliar o georeferenciamento de

2.2.2.1.

BioGeomancer

O Projeto BioGeomancer (http://www.biogeomancer.org) resultado de uma colaborao entre especialistas em dados geoespaciais e em histria natural. O principal objetivo do projeto maximizar a qualidade e a quantidade de dados de biodiversidade georeferenciados, a fim de que esses dados sejam utilizados como suporte de pesquisas cientficas, planejamentos, conservao e gesto da biodiversidade (BioGeomancer, 2011). Dentre os resultados do projeto, est um web service (http://bg.berkeley.edu:8080/ws) que permite realizar o georeferenciamento a partir de uma descrio de uma localizao em linguagem natural como 5 miles north of So Paulo, por exemplo.

2.2.2.2.

Google Maps APIs

O Google Maps um servidor de mapas que permite a visualizao e a navegao em mapas interativos na web. O Google Maps possui um amplo conjunto de APIs (http://code.google.com/apis/maps) que permite a incluso das funcionalidades do Google Maps em outras aplicaes, websites e ferramentas (GoogleMaps, 2011). As APIs disponibilizadas pelo Google Maps so: Google Earth API, Maps Javascript API, Maps Image APIs, web services e Maps API for Flash.

2.2.2.3.

GeoNames

O banco de dados geogrficos do GeoNames (http://www.geonames.org) cobre todos os pases do planeta e contm mais de oito milhes de nomes de lugares que esto disponveis para serem baixados gratuitamente (GeoNames, 2011). Alm de baixar essas informaes, possvel acess-las por meio de um

24

conjunto de web services disponveis em http://www.geonames.org/export/wsoverview.html.

2.2.2.1.

GeoLocate

O GeoLocate (http://www.museum.tulane.edu/geolocate) uma plataforma para georeferenciamento de dados de colees de histria natural. O projeto GeoLocate coordena esforos para desenvolver softwares e servios para traduzir descries textuais de localidade, associados aos dados de biodiversidade, em coordenadas geogrficas (GeoLocate, 2011). Como resultado do projeto, foi disponibilizado um conjunto de web services para auxiliar o georeferenciamento de dados de biodiversidade (http://www.museum.tulane.edu/geolocate/developers).

2.3.

Dados de ocorrncias de espcies

As observaes da natureza so fundamentais para a realizao de estudos relacionados ecologia e conservao da biodiversidade. Informaes relacionadas a essas observaes so utilizadas como um importante recurso no desenvolvimento de planos de gesto da biodiversidade e na criao de polticas de conservao e uso sustentvel do meio ambiente. Em muitos casos, para que complexas pesquisas sobre o meio ambiente e a biodiversidade possam ser realizadas, necessria a disponibilidade de dados de observaes de espcies em ampla escala geogrfica e temporal (Chapman, 2005a). Para isso, diversas fontes de dados so utilizadas, para assim, integrar um banco de dados mais completo (Kelling, 2008). Assim, para que haja interoperabilidade na integrao de diferentes fontes de dados de ocorrncias de espcies necessrio que haja uma padronizao do esquema de metadados dos dados compartilhados. Um dos padres mais utilizados para esse objetivo o esquema de metadados DwC. Esse esquema organizado em subconjuntos correlatos de elementos chamados, neste trabalho, de domnios de dados (Dalcin, 2005). Dentre os domnios de dados disponveis no DwC, trs destacam-se em importncia por serem essenciais para o uso em diversos domnios de aplicao, inclusive modelagem de distribuio de espcies biolgicas:
25

Domnio de dados de localizao: Os dados desse domnio referem-se s informaes geogrficas das ocorrncias. Entre os elementos desse domnio esto pas, estado, municpio e localidade. Domnio de dados geoespaciais: Dados geoespaciais so relacionados ao georeferenciamento e detalham a localizao da ocorrncia. Os elementos desse domnio incluem latitude, longitude, altitude e datum geodsico. Domnio de dados de taxonmicos: Esse domnio compreende informaes sobre nomenclatura e hierarquia taxonmica de organismos. Reino, filo, classe, ordem, famlia, gnero e nome cientfico so exemplos de elementos que fazem parte desse domnio de dados. Ambos os domnios de dados geoespaciais e de localizao representam, de maneira diferente, o local aonde houve a ocorrncia. Esses domnios so importantes componentes dos dados de ocorrncias, pois so mandatrios para muitos estudos e modelos computacionais, como os modelos de distribuio de espcies (Chapman, 2005a). Esses modelos podem ser utilizados, por exemplo, para desenvolver cenrios para uma espcie em relao s mudanas globais do meio ambiente (Hill et al., 2010). Taxonomia, ou Sistemtica, a teoria e a prtica de classificao e nomenclatura de organismos (Chapman, 2005b; Dalcin, 2005). Classificao o processo de criar e definir hierarquias sistemticas de grupos de organismos de txons conhecidos. A nomenclatura nesse contexto pode ser definida como atribuio de nomes nicos para cada grupo taxonmico (Dalcin, 2005). Todo organismo vivo conhecido faz parte de um txon. Assim, toda ocorrncia de espcie deve receber uma identificao taxonmica, ou seja, deve-se associar um nome de txon ocorrncia. Dados de ocorrncias sem txons associados so inteis em muitos estudos sobre biodiversidade (Chapman, 2005a). O domnio de dados de txon, ou taxonmico, no DwC refere-se classificao e nomenclatura de ocorrncias de espcies.

26

Devido a importncia desses dados, existem diversas solues de SI utilizados para digitalizar dados de ocorrncias de espcies, dos quais pode-se destacar o Specify 61, o Brahms2 e o SpeciesBase3.

2.4.

Cadeia de produo de informaes sobre ocorrncias

de espcies
Segundo McGilvray (2008), problemas de QD podem ser causados principalmente por trs elementos: usurios, processos ou sistemas. Portanto, para melhor entender e definir questes sobre a QD em SI sobre ocorrncias de espcies necessrio compreender como esses elementos se relacionam e desempenham seus papis nas atividades de criao, gesto, utilizao e disseminao de dados sobre ocorrncias de espcies.

2.4.1. Atores A Figura 1 apresenta um diagrama que ilustra a cadeia de produo de informaes de ocorrncias de espcies por meio do SI BDD. Esse diagrama est em concordncia com uma representao do ciclo de informao taxonmica proposta por Dalcin (2005) e com uma representao do processo de descoberta e organizao de informao sobre biodiversidade apresentado por Kelling (2008). Essa cadeia de produo de informaes sobre ocorrncias de espcies composta de seis atores: Produtor de dados; Taxonomista; Curador; Especialista em processamento de dados; Especialista em biodiversidade; Instituio.

1 2

http://specifysoftware.org/ http://dps.plants.ox.ac.uk/bol/ 3 http://splink.cria.org.br/speciesbase?criaLANG=pt

27

Figura 1 Cadeia de produo de informaes de ocorrncias de espcies.

28

O processo de produo, gesto, utilizao e disseminao de dados de ocorrncias de espcies comea com os produtores de dados, que representam as pessoas que so responsveis por coletar e digitalizar informaes sobre ocorrncias de espcies por meio do SI BDD ou de planilhas eletrnicas. Esses dados so, ento, gerenciados e validados por taxonomistas e curadores. Os dados digitalizados so armazenados em um banco de dados que pode ser acessado por portais, como o do GBIF ou da IABIN, utilizando o protocolo TAPIR. O banco de dados tambm pode ser utilizado por especialistas em processamento de dados para gerar modelos e anlises computacionais, os quais podem ser utilizados por especialistas em Biodiversidade, em conjunto com dados puros direto do BDD, para produzir conhecimento cientfico, o qual pode ser usado pela indstria, governo e na educao e, assim, beneficiar as Instituies mantenedoras. Uma breve descrio das funes e das responsabilidades desses atores apresentada a seguir.

2.4.1.1.

Produtor de dados

Os produtores de dados representam as pessoas responsveis por coletar e digitalizar o insumo do SI: informaes de ocorrncias de espcies. Essa atividade normalmente desenvolvida em duas partes, podendo, cada parte, ser executada por pessoas diferentes. A primeira parte consiste em testemunhar o fato biolgico, ou seja, observar ou coletar o organismo na natureza, e tomar nota desse acontecimento em meios no, necessariamente, digitais. Essa parte pode ser desenvolvidas em quatro etapas: Percepo: observao do organismo na natureza; Interpretao: entendimento das informaes percebidas, baseado em conhecimentos adquiridos; Abstrao: interpretadas; Anotao: transcrio das informaes abstradas em meios no digitais.
29

seleo

de

aspectos

relevantes

das

informaes

A segunda parte est relacionada a digitalizao das informaes coletadas em campo. Essa parte tambm pode ser desenvolvida em quatro etapas: Percepo: observao de informaes contidas nas anotaes; Interpretao: entendimento das informaes percebidas; Abstrao: interpretadas; Digitalizao: transcrio das informaes abstradas em meios digitais. Em cada etapa dessas atividades h a possibilidade de ocorrer erros ou anomalias que podem afetar a QD. Por exemplo, erros na etapa de interpretao podem causar baixa acurcia e inconsistncia dos dados ou uma abstrao inadequada pode levar a uma baixa completude de dados. seleo de aspectos relevantes das informaes

2.4.1.2.

Taxonomista

Os taxonomistas so especialistas em Taxonomia, ou Sistemtica, e so responsveis por realizar a identificao taxonmica dos organismos. Em relao ao SI, a sua funo est relacionada a validao, correo e preenchimento de informaes faltantes sobre a taxonomia das espcies observadas ou coletadas. O xito da realizao das tarefas desse ator dependente do conhecimento adquirido e da experincia do especialista em relao a um determinado grupo taxonmico especfico, como famlia ou gnero.

2.4.1.3.

Curador

Os curadores so responsveis pelo zelo, manuteno e organizao de colees ou herbrios. Esses usurios assumem uma funo gerencial de supervisionar colees de exemplares de organismos biolgicos armazenados em museus, herbrios e colees biolgicas de instituies. So tambm responsveis pela gesto, manuteno e reviso dos dados relacionados aos espcimes, de modo a mant-los consistentes com as amostras fsicas armazenados na instituio.
30

2.4.1.4.

Especialista em processamento de dados

Esses especialistas so pessoas ligadas s reas de Cincias Exatas com conhecimento em Computao, Engenharia ou Matemtica. Esse ator representa pessoas responsveis pela utilizao de dados de ocorrncias de espcies como insumo em mtodos computacionais de anlise inteligente de dados, na gerao de modelos matemticos ou computacionais e nas visualizaes grficas de um grande volume de dados, a fim de facilitar a interpretao dos dados e a descoberta de conhecimento.

2.4.1.5.

Especialista em Biodiversidade

Os especialistas em Biodiversidade so representados por pessoas que utilizam informaes sobre ocorrncias de espcies para gerar conhecimento e produo cientfica. A partir dos dados de ocorrncias e de modelos e anlises derivados desses dados, os especialistas em Biodiversidade podem realizar inferncias que lhes permitiro responder questes sobre a biodiversidade, meio ambiente e sobre assuntos correlatos. A partir desses estudos, podero ser produzidos artigos cientficos, livros, teses, relatrios, entre outras produes cientficas. Esses produtos podem, ento, ser utilizados pela indstria, pelo governo e pela prpria academia para auxiliar a tomada de decises estratgicas para o uso e a gesto sustentvel da biodiversidade, alm de servir como insumo para novas pesquisas.

2.4.1.6.

Instituio

As instituies representam as organizaes responsveis pelo fornecimento de recursos humanos e tecnolgicos e de infraestrutura, necessrios para manter e melhorar a produo cientfica.

2.5.

Consideraes finais do captulo

A IB desempenha um importante papel para o desenvolvimento sustentvel do planeta. Para cumprir com os objetivos da IB, diversas organizaes ao redor do
31

mundo tm unido esforos para, entre outras atividades, desenvolver padres e ferramentas que auxiliem na tarefa de formar uma infraestrutura de compartilhamento, anlise e uso de dados de biodiversidade, em escopo global. Um tipo particularmente importante de dados de biodiversidade so os dados de ocorrncias de espcies, os quais so essenciais para o estudo relacionadas ao uso sustentvel de recursos naturais. A produo e gesto desses dados realizada por diversos atores especializados e faz uso de SI como o BDD. Para que esses dados possuam valor aceitvel para serem usados com credibilidade e confiana, a sua qualidade deve ser avaliada e melhorada. No Captulo 3 apresentada uma reviso da literatura que demonstra como a Avaliao e o Gerenciamento da QD podem ser realizados para medir e melhorar a QD.

32

3. QUALIDADE DE DADOS
De acordo com Crosby (1984, apud Wang et. al., 1993), amplamente aceito que a qualidade pode ser definida como a conformidade com os requisitos. Isso implica que o conceito de qualidade muda medida que os requisitos dos usurios mudam. De acordo com Rose (1994), para se definir um conceito de qualidade necessrio, alm de entender quais so as reais exigncias dos usurios, descobrir requisitos extras que no so esperados pelos usurios, mas que, quando apresentados, so percebidos como necessrios. Assim, para se definir um conceito de qualidade em um determinado contexto, necessrio entender e considerar os requisitos que afetam a satisfao dos usurios. Segundo o modelo de Kano, representado pela Figura 2, existem trs tipos de requisitos, descritos a seguir (Mazur, 1993; Bolt & Mazur 1999): Requisitos Normais (Normal Requirements): so requisitos

declarados pelos usurios. A considerao desse tipo de requisito aumenta a satisfao do usurio na mesma proporo em que a desconsiderao do requisito diminui a satisfao do usurio. Requisitos Esperados (Expected Requirements): so requisitos to bsicos que normalmente os usurios no os declaram. A identificao e considerao de requisitos desse tipo, normalmente no aumenta a satisfao do usurio, contudo a desconsiderao deles tende a diminuir muito a sua satisfao. Requisitos Entusiasmantes (Exciting Requirements): so difceis de identificar. Normalmente so requisitos implcitos e no declarados. Encontrar e considerar os requisitos desse tipo tende a aumentar muito a satisfao do usurio, pois excede a expectativa do usurio, contudo, a desconsiderao deles no afeta a satisfao do usurio.

33

Figura 2 Modelo de requisitos de Kano. Baseado em Bolt & Mazur (1999).

De modo consonante, segundo Wang et al. (1993), esses conceitos de qualidade de produtos e servios podem tambm ser aplicados ao conceito de QD, ou seja, a definio de QD depende da satisfao dos usurios em relao a um determinado conjunto de requisitos. Uma definio frequentemente utilizada sobre QD a de que dados de alta qualidade so dados adequados ao uso (Strong et al., 1997); ou seja, os dados devem servir aos propsitos de quem os usa. De acordo com Wang et al. (1993), em geral, dados de alta qualidade so capazes de representar as condies do mundo real e de serem utilizados de maneira satisfatria pelos seus usurios. Nesse sentido, em relao s vrias definies, estudos e abordagens sobre QD, consenso que para se definir um conceito de QD em um determinado domnio de aplicao, necessrio compreender o valor que os dados possuem ao serem utilizados para algum propsito (English, 1999 apud Dalcin, 2005). Strong et al. (1997) afirmam no ser possvel definir um conceito de QD independentemente de
34

seus usurios. Nesse sentido, a qualidade pode ser definida como um conceito idiossincrtico, ou seja, definida em ltima instncia por um indivduo ou um grupo de indivduos. Portanto, dados de qualidade pode ser definidos como dados que so capazes de representar adequadamente as condies do mundo real e que atendem a um conjunto de requisitos relacionados a um contexto.

3.1.

Abordagens de pesquisas sobre QD

Na reviso da literatura sobre QD realizada por Ge & Helfert (2007) sugerido que pesquisas em QD podem ser conduzidas conforme trs abordagens: Avaliao, Gerenciamento e Contextualizao da QD. A Avaliao da QD pode ser definida como o processo de atribuir um valor numrico ou categrico a um aspecto da QD em um determinado contexto. A abordagem de Gerenciamento da QD est relacionada aplicao de mtodos e tcnicas para aprimorar a qualidade, com base na Avaliao da QD. A abordagem de Contextualizao est relacionada ao impacto da QD na organizao gestora dos dados. Assim, a seguir apresentada uma reviso da literatura relacionada Avaliao e ao Gerenciamento da QD, a qual pode auxiliar na concepo de metodologias de medio e aprimoramento da QD em um domnio de aplicao especfico.

3.1.1. Avaliao da QD Ge & Helfert (2007) afirmam que na literatura existem trs componentes chaves utilizados na abordagem de Avaliao da QD: problemas de QD; dimenses de QD; metodologias de Avaliao da QD. Esses componentes podem ser organizados em trs camadas interrelacionadas: problema, dimenso e metodologia, conforme a Figura 3.
35

Figura 3 Um framework para Avaliao da QD. Adaptado de Ge & Helfert (2007).

Portanto, as pesquisas sobre Avaliao da QD podem ser conduzidas por meio do estudo da identificao, definio e relao dos elementos dessas camadas.

3.1.1.1.

Camada de problema

Os elementos dessa camada representam os problemas mensurveis de QD. Esses problemas, neste trabalho, podem ser definidos como classes de instncias de erros, ou seja, so generalizaes de erros que afetam a QD. Os problemas de QD podem ser classificados de acordo com o contexto e de acordo com a perspectiva (Chen et al., 2009; Ge & Helfert, 2007), conforme exemplificado no Quadro 1, proposto por Ge & Helfert (2007). Baseado nessa proposta de classificao, os problemas de QD podem ser, portanto, dependentes ou independentes de contexto. Problemas independentes do contexto so problemas que podem ser aplicados a qualquer conjunto de dados, sem considerar as regras de negcio. Enquanto que problemas dependentes do contexto so associados s regras de negcio (Ge & Helfert, 2007). Assim, para
36

realizar a identificao de problemas dependentes de contextos necessrio compreender as regras de negcio do domnio de aplicao.
Perspectiva Intrnseca aos Dados Erros de digitao Dados faltantes Dados duplicados Valor incorreto Formato do dado inconsistente Dados desatualizados Violao de sintaxe Violao da restrio de integridade Formatao de texto Violao do domnio da restrio Violao das regras de negcio da organizao Violao dos relacionamentos da companhia e do governo Violaes das restries do banco de dados Perspectiva do Consumidor A informao est inacessvel A informao est insegura A informao dificilmente recupervel A informao difcil de agregar Erros na transformao da informao

Independente do Contexto

Dependente do Contexto

A informao no baseada em fatos A informao de credibilidade questionvel A informao apresenta uma viso imparcial A informao irrelevante para o trabalho A informao possui significados diferentes A informao est incompleta A informao est representada de maneira compacta A informao difcil de manipular A informao difcil de entender

Quadro 1 Classificao de problemas de QD (Ge & Helfert, 2007).

De acordo com Redman (2000) uma informao considerada de alta qualidade se ela estiver livre de defeitos e possuir as caractersticas desejveis. Nesse sentido, os problemas de QD tambm podem ser classificados em relao s seguintes perspectivas: problemas de qualidade intrnsecos aos dados e problemas de qualidade relacionados s expectativas do usurio. Os problemas de QD intrnsecos aos dados normalmente podem ser resolvidos por processos autnomos como algoritmos de data cleansing e regras de data mining, por exemplo. Os problemas de QD sob a perspectiva do consumidor, por outro lado, normalmente no admitem o uso de processos autnomos para identificao e resoluo de problemas. Anlise do negcio e a reengenharia de

37

processos so exemplos de mtodos que podem ser utilizados para identificar e resolver problemas sob a perspectiva do usurio (Ge & Helfert, 2007). Portanto, a identificao de problemas de QD pode ser realizada por meio da observao das caractersticas intrnsecas aos dados, das regras de negcio e das necessidades dos consumidores dos dados.

3.1.1.2.

Camada de dimenso

Diversos autores afirmam que a QD um conceito multidimensional (Dalcin, 2005; McGilvray, 2008; Wang et al., 1995; Strong et al., 1997). Uma dimenso de QD pode ser definida como um atributo que representa um aspecto da QD (Wang & Strong, 1996). As dimenses de QD podem possuir diferentes graus de relevncia e diferentes significados dependendo do contexto. Portanto, um fator importante a identificao de quais dimenses de QD devem ser utilizadas no Avaliao da QD e a definio do significado de cada dimenso nos diferentes contextos do domnio de aplicao (Dalcin, 2005; McGilvray, 2008). Segundo Wang & Strong (1996), trs abordagens podem ser utilizadas em estudos sobre QD: intuitiva, terica e emprica. Essas abordagens podem ser utilizadas para realizar a identificao e a definio das dimenses de QD, conforme descrito a seguir (Wang & Strong, 1996; Ge & Helfert, 2007).

Identificao de dimenses A identificao de dimenses consiste em selecionar as dimenses de QD mais relevantes em um determinado contexto. Baseada nas abordagens propostas por Wang & Strong (1996), Ge & Helfert (2007) apresentaram trs mtodos de identificao de dimenses de QD, so elas: identificao intuitiva, terica e emprica. A identificao intuitiva de dimenses de QD apoia-se na experincia do pesquisador e no contexto de aplicao. Essa abordagem se baseia no conhecimento adquirido do pesquisador sobre o domnio de aplicao. A abordagem terica para a identificao baseia-se na observao das deficincias dos dados, causadas durante a produo de dados. Um exemplo de
38

utilizao dessa abordagem a observao da inconsistncia entre o mundo real e o SI (Wang & Strong, 1996). Na abordagem emprica, a identificao das dimenses de QD realizada por meio de anlises e coletas de atributos que determinem a adequao ao uso de dados com foco nos usurios (Ge & Helfert, 2007). Aps a identificao das dimenses de QD necessrio definir os significados de cada uma dessas dimenses.

Definio de dimenses As dimenses de QD podem possuir diferentes significados ou se manifestarem de diferentes maneiras em relao aos domnios de dados. Por exemplo, a definio de completude em dados taxonmicos diferente da definio de completude em dados geoespaciais. Segundo Ge & Helfert (2007), a definio de dimenses de QD pode ser realizadas de acordo com trs perspectivas, conforme ilustrado na Figura 4.

Figura 4 Definio de dimenses de QD a partir de diferentes aspectos. Adaptado de Ge & Helfert (2007).

Com a abordagem intuitiva, a definio de dimenses de QD realizada a partir da perspectiva intrnseca aos dados. De acordo com essa abordagem, a dimenso de completude pode ser definida, por exemplo, como o preenchimento de todos os valores de uma determinada varivel.

39

A abordagem terica procura definir as dimenses de QD a partir da perspectiva do mundo real. Por exemplo, Wand & Wang (1996) definiram completude como a capacidade de um SI representar todos os estados significativos de sua representao do mundo real. A abordagem emprica utilizada para definir dimenses a partir das perspectivas dos usurios dos dados. Por exemplo, Wang & Strong (1996) definiram completude como a medida para o qual os dados sejam amplos e detalhados o suficiente para realizar uma determinada tarefa.

3.1.1.3.

Camada de metodologia de avaliao

Na camada de metodologia de avaliao, so propostos mtodos para medir as dimenses de QD em relao ao contexto. Ou seja, nessa camada procura-se identificar como a QD, em cada dimenso, pode ser avaliada em relao a um domnio de dados. Pipino et al. (2002) categorizaram a Avaliao da QD em objetiva e subjetiva. A avaliao objetiva identifica os problemas de QD de um conjunto de dados, e busca medir o quanto a informao est em concordncia com a especificao de qualidade. A avaliao subjetiva da QD reflete as necessidades e expectativas dos usurios, e busca medir o quanto as informaes esto adequadas para o uso (Ge & Helfert, 2007).

3.1.2. Gerenciamento da QD Segundo Dalcin (2005), a maioria dos especialistas em QD concordam que os princpios gerais do gerenciamento da qualidade de produtos podem tambm ser aplicados ao Gerenciamento da QD. Isso sugere que pode haver duas abordagens bsicas para melhorar da QD: a preveno a erros e a deteco e correo de erros (Embury, 2001 apud Dalcin, 2005; Chapman, 2005b). Preveno a erros considerada superior deteco e correo de erros, uma vez que a deteco e a correo uma abordagem dispendiosa e no garante o total sucesso do procedimento (Dalcin, 2005; Chapman, 2005b). Contudo, no importa o quo eficiente seja o processo de digitalizao, os dados esto inerentemente sujeitos a erros, e, portanto, a abordagem de deteco e correo de
40

erros no pode ser ignorada (Chapman, 2005c). Nesse sentido, a deteco de erros, validao e limpeza de dados tem um papel essencial, principalmente em dados legados, como por exemplo, dados de museus e herbrios coletados h mais de 300 anos (Chapman, 2005c).

3.2.

Consideraes finais do captulo

A QD um conceito idiossincrtico e portanto no pode ser definida independentemente do domnio de aplicao. Portanto, pesquisas relacionadas QD acarretam no estudo dos domnios de aplicao e de dados. A compreenso desses domnios, seus significados e como eles so utilizados essencial para se estabelecer um conceito de QD e para avaliar o que so dados de qualidade e o que no so. Para esse propsito, um estudo sobre a Avaliao da QD pode ser realizado, o qual consiste em realizar a identificao, definio e inter-relao de elementos de trs camadas: problema, dimenso e metodologia. Com base na Avaliao da QD possvel identificar e implementar recursos para a melhoria da QD, ou seja, realizar o Gerenciamento da QD. A identificao desses recursos de melhoria pode ser realizado baseado em duas abordagens: preveno ou deteco e correo. Portanto, pesquisas em QD podem ser realizadas por meio de estudos sobre: o contexto (domnios de aplicao e de dados), a Avaliao da QD (conceito e medio de QD) e o Gerenciamento da QD (melhoria da QD).

41

4. MATERIAIS E MTODOS
O mtodo utilizado para atingir o objetivo deste trabalho foi organizado em cinco etapas principais: Estudo do domnio de aplicao; Definio de escopo; Estudo sobre Avaliao da QD; Estudo sobre Gerenciamento da QD; Estudo de caso de aplicao dos estudos de QD: o Anlise e desenvolvimento de um SI; o Desenvolvimento de ferramentas de QD. Essas etapas foram desenvolvidas de maneira iterativa e incremental, conforme descritas a seguir.

4.1.

Estudo do domnio de aplicao

Nesta etapa foi realizada uma ampla reviso da literatura sobre o domnio de aplicao, ou seja, sobre dados de ocorrncias de espcies no contexto de SI. Para isso, foram estudados assuntos relacionados IB, definies, importncia e utilidade de dados de ocorrncias de espcies, domnios de dados de ocorrncias de espcies, correlatos. Tambm foi realizada uma anlise dos atores envolvidos no processo de produo, gesto, utilizao e disseminao de dados de ocorrncias de espcies, por meio do SI BDD. Esse estudo foi descrito no Captulo 2. padres e iniciativas de padronizao de informaes sobre biodiversidade, ferramentas e protocolos relacionadas IB, entre outros assuntos

4.2.

Definio do escopo

Dados de ocorrncias de espcies podem ser organizados em vrios domnios de dados. O esquema de metadados DwC, utilizado neste trabalho para
42

fazer a modelagem dos dados de ocorrncias de espcies, possui sete domnios de dados padres. Segundo Dalcin (2005), a QD deve aplicada separadamente a cada domnio de dados e em relao a cada dimenso de QD. Assim, o objetivo desta etapa foi realizar um estudo para identificar os domnios de dados mais relevantes e, assim, torna-los escopo do trabalho. Portanto, baseado no estudo apresentado na Seo 2.3 e na afirmao de Chapman (2005b) que diz que erros em posies geoespaciais (georeferenciamento) e em identificaes taxonmicas so duas das maiores causas de erros em ocorrncias de espcies, os domnios de dados de localizao, geoespaciais e taxonmicos foram identificados como os domnios mais relevantes e, portanto, foram definidos como escopo deste trabalho.

4.3.

Estudo sobre a Avaliao da QD

Para melhorar a QD em um determinado domnio de dados necessrio compreender o que QD nesse domnio e quais so os fatores que fazem essa qualidade variar. Portanto, para se definir um conceito de QD em relao aos domnio de dados identificados, foi necessrio identificar os problemas de QD e como esses problemas se manifestam em cada domnio de dados. Tambm foi preciso identificar dimenses de QD relevantes e compreender os seus significados em relao aos domnios de dados. Posteriormente, foi realizada uma anlise sobre como os elementos identificados e definidos (os problemas e as dimenses) se relacionam entre si. Com base nessa anlise foi proposta uma metodologia que permitisse avaliar a QD de maneira mais objetiva em relao a cada domnio de dados. Esse processo se deu em cinco etapas secundrias, conforme descrito a seguir.

4.3.1. Identificar problemas de QD A identificao dos problemas QD foi realizada por meio da observao das caractersticas intrnsecas aos dados de ocorrncias de espcies, das regras de negcio do domnio de aplicao e das necessidades dos consumidores dos dados, conforme descrito na Subseo 3.1.1.1. Essa identificao foi realizada com base
43

em uma reviso da literatura sobre QD e sobre dados de biodiversidade, os quais permitiram listar um conjunto de erros comuns que afetam a QD. Nesta etapa, portanto, foram identificados padres de erros comuns em dados de biodiversidade e que podem ser aplicados aos domnios de dados de ocorrncias de espcies.

4.3.2. Definir problemas de QD A definio de problemas de QD foi realizada por meio de uma anlise de como os problemas identificados se manifestam em cada domnio de dados, conforme ilustrado na Figura 5.

Problemas de QD
Padres de Erros Definio de Problemas de QD

Dados de Ocorrnci s a de Espcies

Domnios de Dados

Figura 5 - Definio de problemas de QD.

4.3.3. Identificar dimenses de QD Para realizar a identificao de dimenses de QD relevantes no contexto de dados de ocorrncias de espcies e do SI BDD, foram utilizadas trs abordagens, apresentadas na Subseo 3.1.1.2 (Ge & Helfert, 2007), conforme descritas abaixo: Identificao intuitiva: com essa abordagem, a identificao das dimenses de QD foi realizada com base na experincia de
44

pesquisadores envolvidos com pesquisas em Informtica para Biodiversidade. Foi tambm realizada uma ampla reviso bibliogrfica sobre os assuntos de QD e IB, para auxiliar na identificao das dimenses de QD relevantes no domnio de aplicao. Identificao terica: usando essa abordagem, a identificao das dimenses foi realizada por meio de observaes dos bancos de dados do SI BDD e do seu antecessor Pollinator Data Digitizer PDD, a fim de encontrar deficincias e padres de erros que pudessem auxiliar na identificao de dimenses de QD relevantes. Identificao emprica: a identificao emprica foi realizada por meio de interaes com bilogos. O objetivo dessas interaes foi compreender as necessidades e expectativas dos usurios do SI. Essas interaes ocorreram por meio de discusses e de debates com os bilogos em eventos, como o IABIN-PTN Training Workshop em 20104 e o TDWG Annual Conference em 20115, e com os usurios do BDD e do PDD. Tambm foram utilizados meios digitais, como vdeo conferncias, e-mails e chats, como recurso para a interao com bilogos e outros profissionais envolvidos com IB para obter informaes relacionadas QD e ao SI BDD. Cada dimenso de QD identificada pode possuir significados diferentes e, portanto, necessrio definir as dimenses em relao aos domnios de dados, conforme descrito a seguir.

4.3.4. Definir dimenses de QD A principal abordagem utilizada para definir as dimenses de QD foi a abordagem emprica. Para entender o significado de cada uma das dimenses de QD foi realizada uma reviso bibliogrfica sobre a utilidade dos dados de ocorrncias de espcies em pesquisas no campo da IB. Com base nesse estudo

Treinamento realizado para 40 pessoas do Brasil, Canad, Chile, Colmbia, El Salvador, Equador, Estados Unidos, Guatemala, Mxico, Paraguai e Peru, durante os dias 26 e 27 de Julho de 2010 em Ribeiro Preto SP. 5 Evento realizado em Nova Orleans nos Estados Unidos durante os dias 16 a 21 de Outubro de 2011.

45

foram definidas as dimenses de QD de acordo com os domnios de dados, conforme ilustrado na Figura 6.

Qualidade de Dados
Dimenses de QD Definio de Dimenses de QD

Dados de Ocorrnci s a de Espcies

Domnios de Dados

Figura 6 - Definio de dimenses de QD. Baseada em Dalcin (2005).

4.3.5. Definio de uma proposta de metodologia de avaliao da QD Esta etapa est relacionada camada de metodologia de avaliao do framework de Avaliao da QD, proposto por Ge & Helfert (2007). Nesta etapa so definido modos de se medir ou avaliar a QD em cada dimenso e de acordo com cada domnio de dados. Para isso foi realizada uma anlise para identificar quais problemas afetam quais dimenses e em quais domnios de dados, conforme ilustrado na Figura 7. Assim, com base na presena de determinados problemas em determinados domnios de dados possvel inferir em quais dimenses a QD degradada, e quais problemas devem ser reduzidos para melhorar a QD em determinadas dimenses.

46

Definio de Problemas de QD
Metodologias de Avaliao da QD

Definio de Dimenses de QD

Figura 7 - Metodologia de Avaliao da QD.

4.4.

Estudo sobre o Gerenciamento da QD

Para melhorar a QD, a abordagem de Gerenciamento da QD de preveno a erros foi utilizada. Segundo Dalcin (2005), a preveno uma abordagem superior em relao abordagem de deteco e correo de erros. Portanto, baseado na metodologia de Avaliao da QD, definida neste trabalho, nesta etapa foi identificado um conjunto de recursos computacionais que, se integrados a um SI de digitalizao de dados de ocorrncias de espcies, pode provocar uma reduo de erros durante o processo de digitalizao, melhorando assim a QD.

4.5.

Estudo de caso de aplicao dos estudos de QD

Nesta etapa, foram utilizados os resultados dos estudos sobre QD para projetar e desenvolver ferramentas de QD. Essas ferramentas foram implementadas para serem integradas a um SI de digitalizao de dados de ocorrncias de espcies em desenvolvimento. Para que esse SI pudesse suportar as novas ferramentas, foi necessrio realizar uma anlise do SI e readequ-lo quanto arquitetura de software, banco de dados, Interface Humano-Mquina IHM e codificao.

47

4.5.1. Anlise e desenvolvimento de um SI Os recursos identificados no estudo sobre Gerenciamento da QD foram implementados no SI BDD. Esse sistema uma evoluo do PDD, o qual foi projetado para a digitalizao de dados de ocorrncias de polinizadores. O BDD, na verso Beta, foi inicialmente implementado com base na antiga verso do DwC, o DwC 1.4. Para a verso do BDD utilizada neste trabalho, o banco de dados do BDD passou por uma reestruturao para que ficasse adequada nova verso do DwC (submetida ao TDWG dia 12 de Fevereiro de 2009 e modificada dia 08 de Outubro de 2009), adotado oficialmente como um padro pelo TDWG. Nesta etapa, tambm foi realizado uma anlise de requisitos sob o ponto de vista dos usurios e uma restruturao do cdigo e da arquitetura de software, para torna o SI mais modular, manutenvel, escalvel e com uma melhor usabilidade. Essas mudanas foram necessrias para que o SI BDD pudesse suportar a implementao das novas ferramentas de QD e para que o SI fosse mais atrativo para os usurios. O SI e a anlise de requisitos so descritos na Subseo 5.2.1.

4.5.2. Desenvolvimento de ferramentas de QD As ferramentas de QD desenvolvidas nesta etapa (apresentadas na Subseo 5.2.2) foram baseadas nos recursos computacionais identificados no estudo sobre Gerenciamento da QD. Projetadas para serem acopladas ao formulrio de cadastro de ocorrncias de espcies do BDD, duas ferramentas web foram implementadas. Essas ferramentas foram projetadas com o objetivo de evitar que, inadvertidamente, os usurios cometessem erros durante a digitalizao dos dados taxonmicos, geoespaciais e de localizao de ocorrncias de espcies.

48

5. RESULTADOS
Neste captulo so apresentados os resultados obtidos durante a pesquisa. Os resultados foram organizados em duas partes: estudo sobre QD de ocorrncias de espcies e estudo de caso de aplicao desse estudos sobre QD em um SI de digitalizao de ocorrncias de espcies. A primeira parte (Seo 5.1) apresenta um estudo sobre Avaliao e Gerenciamento da QD em SI sobre ocorrncias de espcies. Nessa parte foi aplicada uma metodologia de Avaliao da QD para identificar problemas e dimenses de QD no contexto de dados de ocorrncias de espcies a fim de propor uma forma de avaliar a qualidade desses dados. Com base nessa avaliao, no estudo sobre Gerenciamento da QD, foram identificados recursos computacionais que, se integrados a um SI, podem proporcionar uma melhora da QD por meio da preveno a erros. Na segunda parte dos Resultados (Seo 5.2) apresentado o estudo de caso de aplicao do estudo de QD no SI BDD. Esse SI foi utilizado para implementar os recursos computacionais identificados no estudo sobre Gerenciamento da QD deste trabalho. Devido abordagem de gerenciamento adotada, a abordagem de preveno a erros, foi necessrio realizar uma anlise de requisitos do SI com foco nos usurios, a fim de identificar caractersticas do SI que possam melhorar a aceitao dos usurios ao sistema e s ferramentas de QD nele implementadas. Na Subseo 5.2.2, so descritas duas ferramentas de QD desenvolvidas e integradas ao SI BDD. Essas duas ferramentas implementam os recursos identificados no estudo sobre Gerenciamento da QD.

5.1.

Estudo sobre QD de ocorrncias de espcies

Nesta seo so apresentados os resultados relacionados QD aplicados a dados de ocorrncias de espcies. Na primeira subseo descrito o estudo sobre Avaliao da QD, no qual so identificados os problemas de QD e como esses problemas se manifestam em cada domnio de dados. Tambm so apresentadas as dimenses de QD identificadas e suas definies em relao a cada domnio de dados. Ainda na primeira seo, descrita a metodologia de avaliao, que
49

consistiu em realizar uma anlise para identificar, em relao a cada domnio de dados, quais problemas podem degradada a qualidade de cada dimenso de QD. Com base nesse estudo da Avaliao da QD, na segunda subseo apresentado um estudo sobre Gerenciamento da QD de ocorrncias de espcies, o qual lista um conjunto de recursos computacionais que, se implementados em um SI, podem reduzir a ocorrncia de problemas de QD por meio da preveno a erros durante a digitalizao.

5.1.1. Avaliao da QD Nesta subseo apresentada a identificao e a definio de problemas e de dimenses de QD em relao os domnios de dados de localizao, geoespaciais e taxonmicos. Com base nessas identificaes e definies apresentada uma anlise sobre como esse elementos (problemas, dimenses e domnios de dados) se relacionam.

5.1.1.1.

Camada de problema

Baseando-se em English (1999), Dalcin (2005) realizou um estudo sobre padres de erros em dados sobre biodiversidade. Esses padres de erros foram utilizados como base para a identificao de problemas de QD no contexto de ocorrncias de espcies. Assim, os problemas de QD identificados neste trabalho so: Domain value redundancy (Redundncia do valor de domnio): ocorre quando os valores dos dados no so padronizados ou so sinnimos. Ou seja, quando dois ou mais valores diferentes representam a mesma coisa no mundo real. Missing data value (Valor do dado faltante): ocorre quando h a ausncia de dados necessrios. Isso inclui campos obrigatrios e no obrigatrios, mas que so necessrios para a realizao de determinadas tarefa. Incorrect data values (Valores de dados incorretos): esses erros podem ser causados pela transposio de caracteres no momento da
50

digitao, por insero de dados em campos incorretos, pela no compreenso conhecido. Nonatomic data values (Valores de dados no atmicos): ocorre quando um dado possui mltiplos valores, quando deveria possuir um nico valor atmico. Domain schizophrenia (Esquizofrenia de domnio): ocorre quando campos so interpretados e utilizados de diferentes maneiras, dependendo do contexto. Duplicate occurrences (Ocorrncias duplicadas): ocorre quando mltiplos registros com o mesmo valor representam uma nica entidade no mundo real. Inconsistent data values (Valores de dados inconsistentes): as inconsistncias podem ocorrer devido heterogeneidade de padres e de procedimentos adotados por diferentes instituies, colees ou indivduos. Esses erros so caracterizados por contradies em informaes. Information quality contamination (Contaminao da qualidade da informao): a contaminao ocorre ao se utilizar dados incorretos combinados a dados corretos para a produo de novos dados. Esses problemas podem ser manifestos de distintas maneiras em relao a cada domnio de dados, conforme descrito a seguir (Dalcin, 2005). do significado da informao ou, ainda, pela obrigatoriedade da insero de algum dado que no momento no

Definio de problemas no domnio de dados de localizao No domnio de dados de localizao, os problemas de domain value redundancy podem estar relacionados ao idioma em que as informaes foram digitalizadas. Por exemplo, Brasil (portugus) e Brazil (ingls); os dois so corretos e referem-se mesma entidade no mundo real, contudo, so dados distintos. Os problemas de duplicate occurrences normalmente ocorrem quando no h uma restrio de unicidade em entidades de bancos de dados relacionais (Group, 2005).
51

O no uso dessa restrio permite, por exemplo, a insero de dois ou mais registros com chaves primrias distintas, mas com os demais valores da entidade idnticos. Um exemplo desse erro seria o cadastro de um registro na entidade country (ID, COUNTRY_NAME) com os valores ID = 1, COUNTRY_NAME = Brazil e outro registro com os valores ID = 3, COUNTRY_NAME = Brazil, em que o atributo ID chave primria. Incorrect data values no domnio de dados de localizao so comumente causados por erros de digitao. Nonatomic data values podem ocorrer, por exemplo, quando no campo da cidade digitado New York, NY, ou seja, nome da cidade e cdigo do estado. Information quality contamination ocorre quando um dado com erro reaproveitado para produzir novos dados, por exemplo, reutilizar o nome da cidade New York, NY para cadastrar um novo registro.

Definio de problemas no domnio de dados geoespaciais No domnio de dados geoespaciais o problema de missing data value est fortemente relacionado com os campos de latitude e longitude. A ausncia de um desses valores, normalmente, tem o mesmo efeito da ausncia de ambos os valores, visto que os dois valores em conjunto representam as coordenadas geoespaciais. Erros de digitao tambm so comuns nesse domnio de dados. A transposio da vrgula ou a ausncia de um sinal de menos (quando deveria haver) no campo de latitude ou de longitude decimal, por exemplo, podem ser considerados problemas de incorrect data values. A insero da latitude e da longitude em um mesmo campo, por exemplo, Latitude: -23.834, -59.984, um problema de nonatomic data values. Problemas de domain schizophrenia e de inconsistent data value podem ocorrer quando coordenadas geoespaciais so preenchidas em formato de graus (minutos, segundos) em campos que deveriam ser preenchidos em formato decimal.

Definio de problemas no domnio de dados taxonmicos No domnio de dados de txon, os problemas de domain value redundancy e duplicate values podem ocorrer devido ao fato de a nomenclatura dos txons
52

poderem mudar com o tempo, e assim sinnimos surgirem. Por exemplo, um filo pode receber o nome de Magnolifita, Magnoliophyta ou Angiosperma. Essas trs nomenclaturas so sinnimos e representam a mesma entidade no mundo real. O problema de missing value muito comum em txons mais especficos da hierarquia taxonmica, como o nome cientfico da espcie ou o epteto especfico. Isso ocorre porque a identificao nos nveis mais especficos da hierarquia taxonmica pode ser uma tarefa mais difcil de ser realizada, pois essa tarefa pode exigir um grau elevado de experincia e de conhecimento especfico sobre um determinado grupo taxonmico. Assim, esses dados so omitidos quando h dvida em relao a sua corretude. O erro de incorrect data values muito comum nesse domnio de dados e causado por erros de digitao. O fato de os nomes de txons serem escritos em latim, pode contribuir para o aumento da quantidade de erros nesse domnio de dados. Nonatomic data values podem ocorrer quando h a insero de sinnimos de um txon em um mesmo campo. Por exemplo, informar o nome de um filo como: Angiosperma, Magnoliophyta. No domnio de dados de txon, o problema de domain schizophrenia ocorre quando um campo utilizado para um propsito ao qual ele no foi designado, por exemplo, utilizar o campo de nome cientfico da espcie para cadastrar sp1, que indica uma morfoespcie. Inconsistent data values pode estar relacionado ao no uso de padres de nomenclatura e de hierarquias taxonmicas ou inadequao dos dados digitalizados ao padro adotado. O problema de information quality contamination ocorre quando parte de uma hierarquia taxonmica incorreta utilizada para complementar outra hierarquia taxonmica mais completa, por exemplo. Esses problemas identificados por English (1999), contextualizados para banco de dados taxonmicas por Dalcin (2005) e definidos no contexto de dados de localizao, geoespaciais e taxonmicos de ocorrncias de espcies (Veiga et al., 2011a), foram utilizados na camada de problemas do framework de Avaliao da QD proposto por Ge & Helfert (2007). A vista desses padres de erros, a seguir so apresentadas as dimenses de QD que foram utilizadas neste trabalho.
53

5.1.1.2.

Camada de dimenso

A QD definida na literatura como um conceito multidimensional (Pipino et al., 2002), no qual as dimenses representam aspectos da qualidade dos dados. Essas dimenses permitem realizar a Avaliao e o Gerenciamento da QD de maneira mais objetiva e especfica. Nesse sentido, foram identificadas seis dimenses de QD importantes no contexto do SI BDD: Completude (Completeness) uma dimenso gerencivel e

mensurvel que indica a suficincia de dados vlidos para serem utilizadas na realizao de uma determinada tarefa (Pipino et al., 2002; Dalcin, 2005); Consistncia (Consistency) utilizada para medir e gerenciar a ausncia de contradies em banco de dados (McGilvray, 2008); Credibilidade da fonte (Credibility of source) est relacionada medio de aspectos associados reputao dos dados ou de sua fonte (Dalcin, 2005) e utilizada para medir o quanto os dados merecem crdito para serem utilizados (Wang et al. 1995); Acurcia (Accuracy) considerada em muitos estudos de QD como uma dimenso chave, e pode ser definida como a medida da corretude ou da veracidade dos dados (Pipino et al., 2002); Preciso (Precision) frequentemente confundida com acurcia; contudo, acurcia est relacionada ao erro, enquanto que preciso est relacionada resoluo ou granularidade dos dados (Chapman, 2005b). Confiabilidade (Believability) indica o grau de confiana para que os dados possam ser utilizados. No campo de estudo da QD, essa dimenso constituda pela composio das dimenses de completude, acurcia, consistncia e credibilidade da fonte, de acordo com Wang et al. (1995).

54

Assim como os problemas discutidos anteriormente, as dimenses tambm podem assumir diferentes significados em relao aos domnios de dados, conforme descrito a seguir.

Definio de dimenses no domnio de dados de localizao e geoespaciais No domnio de dados geoespaciais e de localizao, a completude de dados considerada um fator importante, pois a ausncia de alguns dados geoespaciais (como latitude ou longitude) ou de localizao geogrfica (como nome da cidade) de ocorrncias de espcies limita o uso desses dados para muitas aplicaes (Chapman, 2005b). A causa da incompletude de dados geoespaciais pode ocorrer devido indisponibilidade de recursos de geoposicionamento, como receptores GPS (Global Positioning System), no momento do registro da ocorrncia. Uma tcnica que pode ser utilizada para obter uma coordenada geoespacial, quando os dados de localizao foram preenchidos corretamente, utilizar a coordenada do centroide do municpio aonde houve a ocorrncia. Contudo, essa tcnica pode prejudicar a qualidade nas dimenses de acurcia e de preciso. A consistncia, nesses domnios de dados, pode ser interpretada como a ausncia de contradies entre as coordenadas geoespaciais e os dados de localidade. Indicar que o local da ocorrncia foi na cidade de So Paulo, Brasil, mas a coordenada geoespacial referir-se a uma posio no continente africano um exemplo de inconsistncia. Outra forma de inconsistncia relacionada ao domnio de localizao indicar que a ocorrncia foi registrada na cidade de Londres, estado de So Paulo e pas Argentina, por exemplo. No domnio de dados de localizao, a acurcia pode estar relacionada corretude ortogrfica dos nomes das localizaes geogrficas. Enquanto que a preciso pode estar relacionada presena ou ausncia de dados de localidades mais especficas, como nome da cidade, por exemplo. Em relao ao domnio de dados geoespaciais, as dimenses de acurcia e de preciso so fortemente correlatas, e suas definies so normalmente confundidas ou incompreendidas (Dalcin, 2005; Chapman, 2005b). A Figura 8 ilustra esses dois conceitos.
55

Figura 8 - Relao entre preciso e acurcia em dados geoespaciais (Dalcin, 2005).

A acurcia refere-se ao intervalo entre o valor real da posio e o valor informado. Preciso (ou resoluo) pode ser dividida em duas abordagens principais: estatstica e numrica. Preciso estatstica refere-se relativa conformidade das posies geoespaciais de um conjunto de ocorrncias. Conforme demonstra a Figura 8, as posies geoespaciais das ocorrncias podem ser precisas, mas no acuradas. Preciso numrica relativa quantidade de dgitos significativos utilizados para representar uma posio no espao. Por exemplo, a latitude e a longitude decimal podem ser representadas com 10 casas decimais, ou seja, cerca 0,01 milmetros, contudo, a resoluo real no superior a 10 metros (Chapman, 2005b).

Definio de dimenses no domnio de dados taxonmicos A definio de qualidade no domnio de dados de txon difere

consideravelmente dos domnios de dados geoespacial e de localizao, pois normalmente dados taxonmicos so mais abstratos e mais difceis de qualificar (Chapman, 2005b). Esses dados so os principais identificadores das ocorrncias de espcies, pois eles indicam a qual grupo taxonmico a espcie observada ou coletada pertence e, consequentemente, quais so suas caractersticas morfolgicas, genticas, ecolgicas, fisiolgicas, ambientais, entre outras. A tarefa de realizar uma identificao taxonmica, ou seja, associar uma nomenclatura taxonmica a um
56

determinado organismo exige experincia e conhecimento especfico sobre determinados grupos taxonmicos. Muitas vezes, o pesquisador precisa consultar bibliografias, recursos multimdia e chaves taxonmicas para auxiliar na sua tomada de deciso em relao identificao. Assim, a completude desses dados depende basicamente do conhecimento do pesquisador a cerca da espcie coletada ou observada. A consistncia de dados taxonmicos est relacionada ausncia de contradio em hierarquias taxonmicas e nas nomenclaturas. Contudo, cada instituio pode adotar uma nomenclatura ou hierarquia taxonmica prpria (Kelling, 2008). Assim, ainda que haja essa inconsistncia em um mbito global, necessrio que, ao menos, cada instituio adote um padro de hierarquia e de nomenclatura para ser usado em um mbito mais restrito. Nesse contexto, existem as chamadas autoridades taxonmicas, como ITIS, Species 2000 ou CoL, por exemplo, que definem padres de hierarquias e nomenclaturas. A adoo de um padro de uma dessas autoridades pode influenciar na credibilidade da fonte dos dados. A acurcia nesse domnio de dados est relacionada corretude ortogrfica dos nomes dos txons. A preciso pode ser definida pela presena de dados de txons mais especficos da hierarquia taxonmica, como gnero, subgnero, epteto especfico ou espcie, por exemplo. A acurcia tambm pode estar relacionada com a corretude da identificao taxonmica de um espcime, ou seja, informar corretamente que um determinado espcime pertence a um txon X e no a um txon Y. A confiabilidade dos dados pode ser representada pelo modelo hierrquico de dimenses de QD proposto por Wang et al. (1995). Nesse modelo de representao, a confiabilidade definida pela composio das dimenses de completude, consistncia, credibilidade da fonte e acurcia, conforme a Figura 9.

57

Figura 9 Modelo hierrquico de dimenses de QD. Adaptado de Wang et. al (1995).

Assim, com base nesses conceitos, observa-se que a qualidade de um conjunto de dados depende de uma srie de questes (Wang et al., 1995), e pode variar de acordo o domnio de dados. A seguir, ser apresentada uma anlise que identifica como a qualidade nessas dimenses de QD pode ser afetada.

5.1.1.3.

Camada de metodologia de avaliao

Os elementos da camada de metodologia de avaliao esto relacionados aos domnios de dados, escopo deste trabalho. Desse modo, os elementos da camada de metodologia de avaliao so: Avaliao da QD Taxonmicos; Avaliao da QD Geoespaciais; Avaliao da QD de Localizao. Esses componentes esto relacionados com os elementos da camada de dimenso, os quais esto relacionados com os elementos da camada de problema, conforme exemplificado pela Figura 10.

58

Figura 10 Representao da Avaliao da QD de ocorrncias de espcies. Baseado em Ge & Helfert (2007).

A metodologia de Avaliao da QD proposta neste trabalho baseada na premissa de que a qualidade em cada dimenso afetada pela presena ou ausncia de problemas. Alm disso, como os problemas e as dimenses possuem diferentes significados em cada domnio de dados, os elementos da camada de metodologia de avaliao so baseados nesses domnios de dados. Assim, a avaliao da QD em determinada dimenso definida com base na presena ou ausncia de determinados erros em um determinado domnio de dados Localizao (L), Geoespacial (G) ou Taxonmico (T) conforme o Quadro 2.

59

Dimenses Completude Problemas Consistncia Acurcia Preciso

Credibilidade da Fonte

Confiabilidade

Domain value redundancy Missing data value Incorrect data values Nonatomic data values Domain schizophrenia Duplicate occurrences Inconsistent data values Information quality contamination

T|G|L T|G|L T|G|L T|G|L -

T|G|L T|G|L T|G|L T|G|L T|G|L T|G|L T|-|L

T|G|L T|G|L T|G|L T|G|L T|G|L T|-|L

T|-|L -|G|-

T|G|L T|G|L T|G|L T|G|L T|G|L T|-|L

T|G|L T|G|L T|G|L T|G|L T|G|L T|G|L T|G|L T|-|L

Quadro 2 - Impacto dos problemas nas dimenses de QD nos domnios de dados. Domnio de dados de Localizao (L), Geoespaciais (G) e Taxonmicos (T).

O Quadro 2 demonstra quais problemas (linhas) afetam, ou degradam, a qualidade nas dimenses de QD (colunas) em cada domnio de dados (L, G ou T). A presena do smbolo de um domnio de dados (L, G ou T) em uma clula indica que o erro naquela linha afeta a dimenso de QD da coluna correspondente clula. Por exemplo, a clula destacada em cinza, que tem o valor T | - | L representa que o erro missing data value (linha) afeta a preciso (coluna) nos domnios de dados Taxonmicos (T) e de Localizao (L), mas no no domnio de dados Geoespaciais (-). Portanto, o resultado da camada de metodologia de avaliao, representada pelo Quadro 2, mostra como a QD pode ser melhorada em uma determinada dimenso e domnio de dados por meio da reduo de determinados problemas.

5.1.2. Gerenciamento da QD Com base na Avaliao da QD, a seguir so listadas algumas tcnicas e recursos que podem ser implementados em SI para a preveno a erros durante a digitalizao de dados de ocorrncias de espcies, e assim melhorar a qualidade desses dados.

60

5.1.2.1.

Sugestes de nomenclaturas taxonmicas usando uma

tcnica de Fuzzy Matching Esse recurso pode ser implementado em um campo do tipo autocomplete. Com esse tipo de campo, medida que o usurio comea a digitar caracteres, uma lista de sugestes apresentada e atualizada medida que caracteres vo sendo inseridos ou excludos. Essa lista de sugestes pode ser gerada utilizando uma tcnica de Fuzzy Matching. Essa tcnica permite recuperar dados textuais ortograficamente similares. Por exemplo, se o usurio digitar Apes melfera, o sistema pode sugerir Apis mellifera, caso o segundo nome exista no banco de dados consultado. Assim, se houver algum erro de digitao do nome taxonmico o sistema pode sugerir nomes similares e corretos. Essa consulta pode ser realizada a um banco de dados de alguma autoridade taxonmica, como o CoL. Assim, caso haja dvidas sobre a ortografia de algum nome taxonmico, sugestes de nomes ortograficamente similares e considerados internacionalmente corretos podem ser apresentadas ao usurio. Contudo, as bases de dados dessas autoridades taxonmicas tendem a ser muito grandes, chegando a ter milhes de registros de nomes de todos os nveis da hierarquia taxonmica. Assim, consultas utilizando Fuzzy Matching a um volume muito grande de dados pode demandar muito processamento e memria para realizar os clculos de similaridade para cada registro, podendo afetar o desempenho do SI e do banco de dados, aumentando, portanto, o tempo de resposta. Para aumentar a produtividade do usurio, reduzindo o tempo de resposta desse recurso, consultas preliminares ao banco de dados local podem ser realizadas, visto que a quantidade de nomes taxonmicos distintos registrados localmente normalmente menor que as registradas em banco de dados de autoridades taxonmicas. Caso o nome consultado no exista no banco de dados local, ento, uma segunda consulta poderia ser feita ao banco de dados das autoridades taxonmicas. Com isso, o desempenho do sistema melhora para os casos em que o usurio procurar por um nome anteriormente utilizado no SI, aumentando, assim, a produtividade dos produtores de dados. Em dados taxonmicos, esse recurso pode reduzir erros de domain value redundancy, visto que o sistema no ir sugerir sinnimos. Incorrect data values,
61

tambm pode ser reduzido pois, caso haja erros de digitao, o SI sugere uma correo. Nonatomic data values tambm so evitados, visto que o sistema sugere nomes atmicos. Domain schizophrenia pode se reduzido visto que no so sugeridos nomes de morfoespcies. O uso desse recurso pode melhorar, portanto, a QD nas dimenses de acurcia, consistncia, credibilidade da fonte e confiabilidade.

5.1.2.2. Esse

Sugesto de hierarquias taxonmicas consiste em preencher automaticamente a hierarquia

recurso

taxonmica a partir da seleo de um nome de txon mais especfico. Ou seja, o usurio escolhe o nome de um txon e baseado em fontes de dados de autoridades taxonmicas ou de um banco de dados local, o sistema sugere os demais nomes, menos especficos (mais altos) da hierarquia taxonmica. Por exemplo, se o usurio seleciona o nome de um gnero X, o sistema ir sugerir os nomes da famlia, ordem, classe, filo e reino relacionados a esse gnero com base nos registros das fontes de dados. Ao aceitar uma sugesto, o SI preenche automaticamente o formulrio de cadastro de ocorrncia de espcie com a hierarquia selecionada. Esse recurso, alm de agilizar o preenchimento dos dados taxonmicos, melhorando a produtividade dos usurios, permite tambm uma potencial reduo de erros de domain value redundancy, missing data value, incorrect data values, nonatomic data values, nonatomic data values, inconsistent data values e information quality contamination no domnio de dados taxonmicos.

5.1.2.3.

Validao de nomenclaturas e hierarquias taxonmicas em

relao a autoridades taxonmicas A validao de nomenclatura e de hierarquia taxonmica pode ser realizada por meio da verificao da conformidade desses dados a um padro, norma ou amostra que seja considerado aceitvel, correto ou vlido pela comunidade cientfica. Essa validao essencial, principalmente, para determinar ou avaliar a credibilidade dos dados. Assim, a validao dos dados taxonmicos pode ser realizada por meio de consultas aos bancos de dados de autoridades taxonmicas, a fim de comparar os nomes e hierarquias taxonmicos digitalizados em relao aos nomes e hierarquias
62

considerados vlidos de acordo com as autoridades taxonmicas. Caso o sistema encontre uma comparao que combine, ento o SI associa aos dados taxonmicos digitalizados os nomes das autoridades taxonmicas que consideram tais dados vlidos. Desse modo, a credibilidade dos dados taxonmicos da ocorrncia de espcie digitalizada pode ser avaliada com base na credibilidade da autoridade taxonmica validadora. Esse recurso pode reduzir, portanto, erros de missing data value, visto que uma informao importante sobre a credibilidade da fonte dos dados taxonmicos no omitida.

5.1.2.4.

Consulta a recursos multimdia sobre txons

O uso de recursos multimdia, como fotografias, vdeos e sons, pode auxiliar taxonomistas na identificao taxonmica de espcies, caso haja dvida sobre a classificao de um determinado organismo. Assim, consultas a recursos multimdia, implementadas no SI por meio de um dispositivo que apresente ao usurio fotos, vdeos ou sons relacionados a um determinado txon, pode auxiliar na digitalizao correta de dados taxonmicos de ocorrncias de espcies. Visto que a atividade de identificao taxonmica depende do conhecimento sobre grupos taxonmicos especficos, imagens e sons podem ser teis para melhorar a preciso, completude e acurcia de dados taxonmicos de ocorrncias de espcies. Esse recurso pode ser implementado no formulrio de cadastro de ocorrncias de espcies, de modo que permita ao usurio consultar um banco de dados de fotografias, vdeos e sons indexados por nome taxonmico. Assim, se o usurio no tiver certeza se uma determinada abelha uma Apis mellifera, por exemplo, o usurio pode consultar imagens sobre essa espcie para comparar e tirar dvidas, a fim de aumentar as chances de realizar uma identificao correta. Essa consulta pode ser realizada a um banco de dados local ou a repositrio de informaes taxonmicas, como ao banco de dados do EoL, que disponibiliza web services para a consulta de imagens sobre txons. Esse recurso pode minimizar erros de missing data value, incorrect data value, inconsistent data values e information quality contamination em dados taxonmicos.
63

5.1.2.5.

Consulta a recursos bibliogrficos sobre txons

Durante a identificao taxonmica, recursos bibliogrficos, como artigos e livros, podem ser consultados para ajudar a realizar a identificao taxonmica ou para valida-la. Assim, a implementao de um dispositivo que permita fazer consultas a esse tipo de recurso durante a digitalizao de ocorrncias de espcies pode auxiliar o usurio a realizar uma identificao taxonmica mais precisa, completa e exata, diminuindo possveis incertezas relacionadas identificao. A consulta a esses materiais bibliogrficos pode ser feita a um banco de dados local ou a fontes de dados externas. A implementao desse recurso no SI pode auxiliar na diminuio de erros de missing data value, incorrect data value, inconsistent data values e information quality contamination no domnio de dados taxonmicos.

5.1.2.6.

Suporte a morfoespcies

Existem casos em que h dvidas em relao classificao taxonmica de um conjunto de espcimes, contudo, sabe-se que todos os espcimes do conjunto pertencem a um mesmo txon. Quando isso ocorre, esses espcimes podem receber um identificador temporrio chamado de morfoespcie, como sp1, por exemplo. Isso indica que todos os espcimes identificados como sp1 pertencem a um mesmo txon. Assim, ao se realizar a identificao taxonmica de um indivduo desse conjunto, todos os outros indivduos, que receberam o mesmo identificador de morfoespcie sero, consequentemente, identificados como sendo do mesmo txon. Desse modo, o suporte a morfoespcie em campos de nomes taxonmicos pode reduzir alguns problemas. Esse recurso pode ser implementado no SI da seguinte maneira: quando o usurio digitar a sequncia de caracteres sp, seguido por um nmero, por exemplo, sp1, sp5, em um campo de nome taxonmico, o sistema automaticamente identificar esse txon como uma morfoespcie. Posteriormente, quando uma dessas morfoespcies for identificada, os outros registros com os mesmos identificadores sero, tambm, alterados para o mesmo txon.

64

Esse recurso pode causar uma reduo de erros de incorrect data values, domain schizophrenia e information quality contamination em dados taxonmicos.

5.1.2.7.

Indicador de incerteza da identificao taxonmica

Esse recurso permite ao usurio reportar o grau de incerteza em relao a uma identificao taxonmica. Por exemplo, normalmente, se um usurio tem dvidas sobre a identificao de um espcime ele pode tomar uma entre duas decises: no cadastrar e, assim, diminuir a completude, ou cadastrar e, se a identificao estiver incorreta, diminuir a acurcia. Nesse sentido, a disponibilidade de indicador de incerteza no SI permite ao usurio indicar que a informao cadastrada tem uma probabilidade de estar incorreta, necessitando assim de uma validao de um especialista. Assim, mesmo que o usurio no tenha certeza sobre a classificao do espcime, o dado pode ser inserido e a sua acurcia pode ser avaliada. Por meio desse indicador, pode-se avaliar a adequao ao uso dos dados, alm de impactar nas dimenses de credibilidade da fonte e de completude de dados. Portanto, a implementao desse recurso pode reduzir erros de missing data value em dados taxonmicos, visto que por meio desse recurso so fornecidas informaes importantes para avaliar a credibilidade, a acurcia e a confiabilidade dos dados.

5.1.2.8.

Georeferenciamento a partir de descrio da localizao

O georeferenciamento processo de obter informaes geoespaciais a partir da descrio de uma localizao (BioGeomancer, 2011). A implementao desse recurso no SI pode ser realizada por meio de um campo de texto, no qual o usurio poderia digitar uma descrio da localizao da ocorrncia, como Bariloche, 25 km NNE via Ruta Nacional 40 (=Ruta 237), por exemplo, e obter como resposta um conjunto de coordenadas geogrficas correspondentes a essa descrio. comum a localizao de uma ocorrncia ser descrita em linguagem natural pela indisponibilidade de recursos geoposicionamento, como receptores GPS. Portanto, a implementao de um recurso de georeferenciamento no SI pode auxiliar no preenchimento de dados geoespaciais. Essa implementao pode ser realizada
65

por meio da API do Google Maps ou dos web services do BioGeomancer e do GeoLocate, por exemplo, os quais permitem georeferenciar ocorrncias de espcies a partir da descrio de suas localizaes. Desse modo, com a implementao desse recurso, pode haver uma reduo de erros de missing data value, incorrect data values, inconsistent data values e information quality contamination em dados geoespaciais.

5.1.2.9.

Georeferenciamento reverso a partir das coordenadas

geogrficas O georeferenciamento reverso o processo de obter informaes geogrficas de uma localizao, como nome do pas, do estado, da cidade e descrio da localizao, a partir de dados geoespaciais, como coordenadas geoespaciais. A implementao desse recurso no SI de digitalizao de ocorrncias de espcies permite ao usurio preencher consistentemente os dados do domnio de localizao a partir de coordenadas geoespaciais, como latitude e longitude decimais. Esse recurso pode ser implementado utilizando a API do Google Maps ou os web services do GeoNames e do GeoLocate. Quando implementado no SI, esse recurso pode permitir uma reduo de erros de domain value redundancy, missing data value, nonatomic data values, domain schizophrenia, inconsistent data values e information quality contamination no domnio de dados de localizao.

5.1.2.10. Georeferenciamento a partir de um mapa interativo Esse recurso consiste em permitir que o usurio utilize um mapa interativo para obter as coordenadas geoespaciais a partir de um clique sobre a localizao desejada no mapa. Ao selecionar uma localizao aproximada, o recurso de georeferenciamento reverso pode ser executado para obter informaes mais completas sobre a localizao. A implementao desse recurso no SI pode ser feita utilizando a API do Google Earth e do Google Maps. Desse modo, pode haver uma potencial melhora da completude de dados, pois o usurio no precisa, necessariamente, ter as
66

coordenadas geoespaciais exatas da ocorrncia da espcie para poder preencher os campos de latitude, longitude e altitude, por exemplo. O usurio pode localizar alguma regio conhecida no mapa, como um parque ou uma montanha, por exemplo, e utilizar uma referncia mais especfica, como um rio ou uma estrada, para obter os dados de localizao e as coordenadas geoespaciais aproximadas. Em alguns casos, esse recurso pode contribuir, tambm, para a melhora da acurcia e da preciso no domnio de dados geoespaciais como, por exemplo, nos casos em que a coordenada geogrfica obtida a partir do centro de massa da cidade aonde houve a ocorrncia. Portanto, essa ferramenta pode reduzir erros de missing data value, incorrect data value, domain schizophrenia e information quality contamination em dados geoespaciais e de localizao.

5.1.2.11. Indicador de incerteza das coordenadas geogrficas Um aspecto importante sobre a QD no domnio de dados geoespaciais suscitado pelo GBIF em Hill et al. (2010). A acurcia e a preciso no precisam, necessariamente, ser perfeitas (Wang et al., 1995). O uso dos dados geoespaciais em algumas aplicaes admite baixa acurcia e baixa preciso. Contudo, h casos em que a acurcia e a preciso dos dados devem ser altas. Desse modo, a qualidade dos dados definida pela adequao ao uso. Portanto, necessrio reportar o quo preciso e acurado os dados so para avaliar a sua adequao ao uso (Hill et al., 2010). Visando essa necessidade, a implementao de um recurso que permita ao usurio indicar o grau de incerteza da exatido dos valores informados importante sob o ponto de vista de QD. Com esse recurso possvel reportar o quo preciso ou exato os dados so. Assim, se um determinado usurio sabe que um espcime foi coletado em uma montanha especfica, mas no sabe a posio geoespacial exata, possvel, por meio de um indicador de incerteza/erro, reportar que a posio geoespacial informada pode conter um erro de at 10 km, por exemplo. Desse modo, ser possvel avaliar adequao ao uso dos dados. Esse recurso soluciona erros de missing data value, pois fornecem informaes que pode melhorar a credibilidade da fonte em dados geoespaciais.
67

5.1.2.12. Plotagem das coordenadas geoespaciais em um mapa Esse recurso permite ao usurio visualizar um mapa com as coordenadas geoespaciais plotadas. Desse modo, o usurio pode realizar uma validao visual das coordenadas geoespaciais digitalizadas. comum o usurio esquecer-se de colocar o sinal negativo nos campos de latitude e de longitude decimal, para localidades do hemisfrio sul e para oeste do meridiano zero respectivamente, ocasionando uma plotagem incorreta das coordenadas. Com esse recurso, se o usurio cometer esse erro, um mapa ser exibido com as coordenadas plotadas em uma regio incorreta, facilitando a identificao e correo do erro. Portanto, a implementao desse recurso no SI pode reduzir erros de incorrect data values em dados geoespaciais.

5.1.2.13. Restrio de unicidade no banco de dados A restrio de unicidade garante que os valores contidos em uma coluna, ou no grupo de colunas, sejam nicos em relao aos valores de todas as outras linhas de uma tabela (PostgreSQL, 2011). A implementao dessa restrio no banco de dados permite a preveno de erros de duplicate occurrences em dados taxonmicos, geoespaciais e de localizao.

5.1.2.14. Consolidao dos recursos propostos Os recursos listados anteriormente, se implementados em um SI de digitalizao de ocorrncias de espcies, pode provocar uma potencial reduo de erros e, consequentemente, uma melhora na QD nos domnios de dados de Localizao (L), Geoespaciais (G) ou Taxonmicos (T). O Quadro 3 demonstra quais recursos (linhas) previnem, ou reduzem, a ocorrncia dos problemas de QD (colunas) em cada domnio de dados (L, G ou T). A presena do smbolo de um domnio de dados (L, G ou T) em uma clula indica que o recurso naquela linha pode prevenir o problema de QD da coluna correspondente clula.
68

Problemas Recursos

Domain value redundancy

Missing data value

Incorrect data values

Nonatomic data values

Domain schizophrenia

Duplicate occurrence s

Inconsistent data values

Information quality contamination

Sugestes de nomenclaturas taxonmicas usando uma tcnica de Fuzzy Matching Sugestes de hierarquias taxonmicas Validao de nomenclaturas e hierarquias taxonmicas em relao a autoridades taxonmicas Consulta a recursos multimdia sobre txons Consulta a recursos bibliogrficos sobre txons Suporte a morfoespcies Indicador de incerteza da identificao taxonmica Georeferenciamento a partir de descrio da localizao Georeferenciamento reverso a partir das coordenadas geoespaciais Georeferenciamento a partir de um mapa interativo Indicador de incerteza das coordenadas geogrficas Plotagem das coordenadas geoespaciais em um mapa Restrio de unicidade no banco de dados

T|-|-

-|-|-

T|-|-

T|-|-

T|-|-

-|-|-

-|-|-

-|-|-

T|-|-

T|-|-

T|-|-

T|-|-

-|-|-

-|-|-

T|-|-

T|-|-

T|-|-

T|-|-

T|-|-

T|-|-

T|-|-

-|-|-

T|-|-

T|-|-

-|-|T|-|-|-|-|-|-

T|-|T|-|T|-|T|-|-

T|-|T|-|T|-|-|-|-

-|-|-|-|-|-|-|-|-

-|-|-|-|T|-|-|-|-

-|-|-|-|-|-|-|-|-

-|-|T|-|T|-|-|-|-

-|-|T|-|-|-|-|-|-

-|-|-

-|G|-

-|G|-

-|G|-

-|G|-

-|-|-

-|G|L

-|-|-

-|-|L

-|-|L

-|-|L

-|-|L

-|-|-

-|-|-

-|G|L

-|-|L

-|-|-

-|G|-

-|G|-

-|G|-

-|G|-

-|-|-

-|G|L

-|-|-

-|-|-

-|G|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|G|L

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

-|-|-

T|G|L

-|-|-

-|-|-

Quadro 3 - Problemas potencialmente reduzidos com o uso dos recursos de Gerenciamento da QD. Domnio de dados de Localizao (L), Geoespaciais (G) e Taxonmicos (T).

69

O Quadro 4 demonstra quais recursos (linhas) melhoram, ou afetar, a qualidade nas dimenses de QD (colunas) em cada domnio de dados (L, G ou T). A presena do smbolo de um domnio de dados (L, G ou T) em uma clula indica que o recurso naquela linha pode melhorar a qualidade na dimenso de QD da coluna correspondente a clula.
Dimenses Completude Recursos Consistncia Acurcia Preciso

Credibilidade da Fonte

Confiabilidade

Sugestes de nomenclaturas taxonmicas usando uma tcnica de Fuzzy Matching Sugesto de hierarquias taxonmicas Validao de nomenclaturas e hierarquias taxonmicas em relao a autoridades taxonmicas Consulta a recursos multimdia sobre txons Consulta a recursos bibliogrficos sobre txons Suporte a morfoespcies Indicador de incerteza da identificao taxonmica Georeferenciamento a partir de descrio da localizao Georeferenciamento reverso a partir das coordenadas geoespaciais Georeferenciamento a partir de um mapa interativo Indicador de incerteza das coordenadas geogrficas Plotagem das coordenadas geoespaciais em um mapa Restrio de unicidade no banco de dados

-|-|-

T|-|-

T|-|-

-|-|-

T|-|-

T|-|-

T|-|-

T|-|-

T|-|-

-|-|-

T|-|-

T|-|-

T|-|-

T|-|-

T|-|-

-|-|-

T|-|-

T|-|-

T|-|T|-|T|-|T|-|-|G|-

-|-|T|-|T|-|-|-|-|G|L

T|-|T|-|T|-|T|-|-|G|-

T|-|T|-|-|-|T|-|-|G|-

T|-|T|-|-|-|T|-|-|G|-

T|-|T|-|T|-|T|-|-|G|L

-|-|L

-|G|L

-|-|L

-|-|L

-|-|L

-|G|L

-|G|-|G|-

-|G|L - |-|-

-|G|-|G|-

-|G|-|G|-

-|-|L -|G|-

-|G|L -|G|-

-|-|-

-|-|-

-|G|L

-|-|-

-|G|L

-|G|L

-|-|-

T|G|L

-|-|-

-|-|-

-|-|-

T|G|L

Quadro 4 - Dimenses de QD afetadas com o uso dos recursos de Gerenciamento da QD. Domnio de dados de Localizao (L), Geoespaciais (G) e Taxonmicos (T). 70

O resultado do estudo de Gerenciamento da QD deste trabalho, compilado por meio dos Quadros 3 e 4, so consistentes com os resultados do estudo da Avaliao da QD, representado pelo Quadro 2.

5.2.

Estudo de caso de aplicao dos estudos de QD

Os estudos de QD resultados deste trabalho, sobretudo os resultados do estudo sobre o Gerenciamento da QD, foram aplicados a um SI de digitalizao de ocorrncias de espcies. Para que isso pudesse ser feito, foi necessrio considerar alguns aspectos relacionados ao SI, como arquitetura de software, manutenibilidade, escalabilidade, acoplamento, entre aspectos relacionados a engenharia de software, e aspectos relacionados aos usurios, como a cultura, expectativas e preferncias, por exemplo. Baseado nessas consideraes o SI existente, BDD verso Beta, passou por uma reestruturao de cdigo e arquitetura de software para que pudesse suportar as ferramentas de QD desenvolvidas e descritas na Subseo 5.2.2.

5.2.1. Sistema de Informao: BDD O SI utilizado neste trabalho foi o BDD. Esse sistema web de cdigo aberto (http://code.google.com/p/laa-biodiversitydatadigitizer/) foi projetado para permitir a fcil digitalizao, manipulao e publicao de dados de biodiversidade, principalmente, dados de ocorrncias de espcies. O BDD foi projetado em uma arquitetura multi-mdulos, no qual cada mdulo tem o objetivo de digitalizar um tipo de dados diferente. So sete mdulos desenvolvidos para manipular dados de ocorrncias de espcies, espcies, interao entre espcies, monitoramento de polinizadores, dficit de polinizao, recursos multimdia e recursos bibliogrficos. Esses mdulos permitem a digitalizao (criao), manipulao (edio e excluso) e consultas de registros. A maioria desses mdulos foram desenvolvidos baseados nos padres publicados pelo TDWG, permitindo a publicao e o compartilhamento dos dados armazenados no BDD com outros sistemas, por meio do protocolo TAPIR.
71

Alm dos mdulos de digitalizao, tambm fazem parte do BDD um mdulo de anlise estatstica e visualizao de dados e um mdulo de sincronizao de dados entre o banco de dados do BDD e planilhas eletrnicas. Esse SI foi desenvolvido utilizando tecnologias open source, incluindo Javascript, PHP, Java, servidores Tomcat e Apache, biblioteca Javascript jQuery, framework Yii e banco de dados PostgreSQL. Visando a escalabilidade, manutenibilidade e baixo acoplamento, foi utilizada a arquitetura de software ModelView-Controller MVC, conforme representado pela Figura 11.

Figura 11 - Arquitetura de software do BDD.

Conforme representado na Figura 11, o usurio faz requisies HTTP por meio de um navegador web camada View (Viso), na qual pginas escritas em PHP e interpretadas pelo servidor Apache geram documentos em HTML, CSS e Javascript, que so retornados como resposta ao usurio. Por meio dos documentos dessa camada, requisies assncronas em Asynchronous Javascript and XML

72

AJAX so realizadas usando o mtodo POST e com parmetros em formato Javascript Object Notation JSON. Essas requisies so feitas para camada Controller (Controlador), que interpreta e converte os dados passados por parmetro para objetos PHP. Esses objetos so, ento, enviados para a camada de Model (Modelo), onde fica a lgica de negcio do sistema. Nessa camada, toda a lgica para processar as requisies est implementada e, para isso, requisies aos bancos de dados e a web services externos podem ser realizadas. Visto que a abordagem de Gerenciamento da QD neste trabalho a preveno a erros durante a digitalizao e considerando alguns aspectos culturais dos usurios do BDD, uma anlise de requisitos foi realizada para identificar caractersticas de um SI que possam aumentar a aceitao dos usurios ao BDD e as ferramentas de Gerenciamento da QD.

5.2.1.1.

Requisitos do sistema

Produtores de dados de biodiversidade tendem a utilizar ferramentas que lhes so familiares, simples e fceis de usar, pois permitem aos usurios realizarem suas atividades com maior agilidade. Essas ferramentas so, predominantemente, planilhas eletrnicas, conforme constatado no Workshop de Treinamento da IABINPTN em 2010 e no TDWG Annual Conferece 2011. Contudo, erros que podem afetar negativamente a QD podem ocorrer durante a digitalizao por meio de planilhas, os quais podem no ser despercebidos e, consequentemente, no corrigidos. Assim, visto que a abordagem deste trabalho a preveno a erros por meio de ferramentas implementadas no SI BDD, a seguir apresentada uma anlise de requisitos de um SI para digitalizao de ocorrncias de espcies com suporte a QD, sob a perspectiva dos usurios do BDD, representados pelos atores listados na Subseo 2.4.1, com o objetivo de melhorar a aceitao de usurios de planilhas eletrnicas ao SI.

73

Produtividade Produtividade, no contexto de digitalizao de dados de ocorrncias de espcies, refere-se quantidade de ocorrncias digitalizadas por tempo. Esse requisito pode ser uma tnica em sistemas de digitalizao, especialmente para os produtores de dados, visto que a produo de dados pode ser, com frequncia, rotineira e dispendiosa. Talvez esse requisito seja o principal motivo de os produtores de dados preferirem utilizar planilhas eletrnicas, pois com elas possvel criar rapidamente um novo registro a partir da cpia de outro registro j existente e parecido. Em muitos registros alguns campos tm valores iguais ou similares. Assim, o uso do recurso de copiar e colar uma linha na planilha eletrnica pode aumentar a produtividade do usurio. Sob essa perspectiva, uma soluo compatvel para aumentar a produtividade do usurio desenvolver um recurso de templates de dados. Ou seja, o sistema permite ao usurio pr-cadastrar dados que so frequentemente utilizados por ele. Assim, quando for necessrio cadastrar um novo registro, o usurio pode utilizar os dados pr-cadastrados no template para preencher o formulrio de cadastro. Outro recurso que pode aumentar a produtividade consiste em o sistema permitir ao usurio reutilizar os dados do ltimo registro cadastrado por ele.

Usabilidade A usabilidade caracterstica mensurvel que indica o grau em que um sistema fcil de usar. Desse modo, a seguir so listados alguns requisitos de usabilidade baseado em (FEC, 2003): O sistema deve guiar o usurio na execuo de suas tarefas de maneira correta e eficiente; O sistema deve fornecer um nvel adequado de orientao e feedback durante a realizao de tarefas, permitindo ao usurio detectar e corrigir eventuais erros. O sistema deve oferece uma interface intuitiva que facilite a navegao pelos recursos disponveis no sistema.
74

O usurio deve sentir-se emocionalmente confortvel e confiante ao realizar suas tarefas por meio do sistema. Sistemas fceis de instalar e de aprender a usar tm maior aceitabilidade dos usurios (Rose, 1994). Assim, o processo de instalao do sistema no pode ser um problema para o usurio. A instalao deve ser conduzida com facilidade por usurios inexperientes. No entanto, pode haver questes tcnicas que impeam a fcil instalao. Nesses casos, um servio de suporte instalao deve ser oferecido aos usurios (Rose, 1994). Outra soluo disponibilizar o sistema remotamente por meio da web. Desse modo, o sistema pode ser mantido por uma equipe tcnica especializada, dispensando assim, a instalao do sistema por usurios regulares.

Beleza esttica da interface grfica A ideia de que a beleza no apenas uma caracterstica efmera, mas que deve servir aos bons propsitos, j era defendida pelo filsofo Plato (Reber & Topolinski, 2010). Mas afinal, o que beleza? Beleza, assim como qualidade, um conceito idiossincrtico, ou seja, definido em ltima instncia por um indivduo ou um grupo de indivduos (Rose, 1994; Reber et al., 2004). Entretanto, existem alguns aspectos relativos beleza que podem ser utilizados para definir diretrizes para a construo de interfaces grficas relativamente belas. Muitos tericos veem a beleza como uma propriedade de um objeto que produz uma experincia agradvel a um observador (Reber et al., 2004). Esse conceito inspirou psiclogos a investigar quais so as caractersticas que contribuem para que as pessoas tenham a percepo de que algo belo. Entre as caractersticas identificadas esto: equilbrio e proporo, simetria, contedo informativo e complexidade, alm de contraste e a nitidez (Reber et al., 2004). Mas, como essas caractersticas so percebidas pelos usurios? Uma teoria sobre a percepo esttica considera que as pessoas consideram uma obra especialmente bela se ela de fcil apreciao. Esse fenmeno denominado pelos psiclogos de processing fluency (fluncia do processamento) (Reber & Topolinski, 2010).
75

Pesquisas mostraram que objetos de fcil legibilidade, ou seja, que podem ser processados fluentemente e que se combinam de maneira harmoniosa criam uma predisposio mental de aceitao, despertando um sentimento positivo no observador (Reber & Topolinski, 2010). Portanto, construir interfaces grficas com cores e componentes harmoniosos, simtricos e de fcil apreciao pode contribuir para o aumento da aceitabilidade de novos SI de digitalizao de ocorrncias de espcies.

Privacidade Alguns tipos de dados que podem ser sensveis e, por motivos estratgicos, no podem ser publicados. Desse modo, necessrio permitir aos usurios indicarem quais dados podem ou no ser publicados. Outro fator que deve ser considerado que cada ao de criao, alterao e excluso de registro deve ser registrada em um log. Visto que haver vrios usurios trabalhando com os mesmos dados, esse tipo de controle pode ser importante para resolver possveis conflitos.

Disponibilidade Disponibilidade, no contexto de SI de gesto de dados de ocorrncia de espcies, refere-se a quando, onde e como o sistema estar disponvel para o uso. Os produtores de dados, normalmente, coletam dados em campo, ou seja, na natureza. Para garantir a disponibilidade do sistema nesse contexto, uma soluo disponibilizar aos usurios um sistema para dispositivos mveis que permita a coleta de dados em campo e que, posteriormente, esses dados possam ser sincronizados com o SI principal. Sistemas web acessveis via Internet tambm pode aumentar a disponibilidade do SI para equipes geograficamente distantes.

Suporte a sincronizao de planilhas eletrnicas Suporte a sincronizao de planilhas eletrnicas pode ser importante para os usurios por pelo menos dois aspectos:
76

Produtividade: reaproveitar os dados anteriormente digitalizados em planilhas eletrnicas, visto que a redigitalizao dessas informaes pode ser muito custosa; Disponibilidade: permitir a manipulao dos dados em lugares onde no h acesso a Internet. Apesar de o suporte a sincronizao de planilhas eletrnicas propiciar uma provvel reduo da QD, visto que a digitalizao ocorre sem ferramentas que do suporte a preveno a erros, esse recurso pode ser importante para que os usurios venham a ter um primeiro contato com um SI com suporte a QD. Sem esse recurso, a migrao dos dados previamente digitalizados em planilhas teria que ser feita registro a registro, desperdiando um tempo que poderia ser utilizado para produo de novos dados.

Auxlio tomada de decises durante a digitalizao Esse requisito intrnseco QD em SI de biodiversidade. Auxiliar os usurios a tomar decises corretas no processo de digitalizao e manipulao de dados de biodiversidade pode ajudar na preveno de problemas de QD. Esse requisito pode ser implementado de diversas maneiras, desde um simples recurso de autocomplete em determinados campos at complexas ferramentas de validao ou de georeferenciamento.

Flexibilidade Com o objetivo de permitir o intercmbio e a interoperabilidade de dados de biodiversidade num contexto global, tm sido propostos padres de esquemas de metadados de biodiversidade, como DwC, ABCD entre outros. Naturalmente, o uso desses padres em sistemas de gesto de dados de biodiversidade recomendado e incentivado. Contudo, a delimitao de quais dados devem ser ou no digitalizados pode ter um impacto negativo para alguns pesquisadores. Algumas pesquisas podem exigir a digitalizao de dados especficos que no esto
77

disponveis nos esquemas de metadados de maneira explcita. Esse fator pode ser decisivo para a aceitao ou no do usurio a um determinado SI. Assim, necessrio que o sistema permita ao usurio incrementar atributos especficos ao formulrio de cadastro de maneira dinmica e interativa, assim como ele faria em uma planilha eletrnica ao incrementar uma coluna. Para manter o sistema coerente com esquema de metadados, atributos como o Dynamic Properties do Darwin Core, por exemplo, podem ser utilizados na implementao desse recurso.

Adequao ao uso dos dados Assim como o requisito de auxlio tomada de deciso, esse requisito tambm intrnseco QD. A QD pode ser definida como fitness-for-use (adequao ao uso), ou seja, os dados so de qualidade se eles forem teis ao uso (Dalcin, 2005; Chapman, 2005b). Assim, necessrio haver indicadores que permitam identificar aspectos da qualidade, como completude, consistncia, preciso, acurcia, entre outros. Desse modo, quando os usurios forem utilizar os dados eles podero identificar se os dados so adequados, ou no, ao uso naquela aplicao especfica (Hill et al., 2010). Esse requisito afeta principalmente os consumidores dos dados, como os especialistas em processamento de dados e os especialistas em biodiversidade.

Suporte a impresso O recurso de gerao e impresso de relatrios de produtividade e de QD de grande importncia para as instituies, pois permitem o acompanhamento do trabalho da equipe. Outro recurso importante nesse sentido o suporte a impresso de etiquetas para espcimes preservadas em colees. Em muitos casos, os espcimes so capturados e levados para fazer parte de uma coleo. Nesse contexto, o curador responsvel por manter a coleo organizada e consistente com o banco de dados. Para facilitar esse trabalho, o suporte a impresso de etiquetas para identificao dos espcimes coletados de grande importncia para os curadores.
78

5.2.2. Ferramentas de QD desenvolvidas Com base nos estudo de Avaliao e Gerenciamento da QD e na arquitetura do sistema do BDD, foram implementadas duas ferramentas para a preveno a erros em dados de ocorrncias de espcies. Cada ferramenta foi implementada como um mdulo independente e acoplado ao formulrio de cadastro de ocorrncias de espcies.

5.2.2.1.

BDD Taxon Tool

A QD no domnio de dados taxonmicos est fortemente ligada conformidade de nomes e de hierarquias de txons a um determinado padro, seja esse padro reconhecido internacionalmente ou utilizado somente internamente por uma instituio. Portanto, para tentar melhorar a QD taxonmicos, est em desenvolvimento no SI BDD uma ferramenta web, denominado BDD Taxon Tool BTT (Veiga et al., 2011a, b, c). Essa ferramenta tem o objetivo de auxiliar os usurios a preencherem dados taxonmicos livres de erros. Essa ferramenta composta por sete recursos: (1) sugestes de nomenclaturas baseado no banco de dados local, (2) sugestes de hierarquias taxonmicas baseada no banco de dados local, (3) sugestes de nomenclaturas baseado em autoridades taxonmicas, (4) sugestes de hierarquias taxonmicas baseadas em autoridades taxonmicas, (5) auxlio tomada de deciso na identificao taxonmica, (6) suporte a morfoespcies e (7) indicador de incerteza. Ao utilizar o BTT, um campo texto apresentado ao usurio. medida que os caracteres vo sendo inseridos nesse campo, sugestes de nomes taxonmicos, de todos os nveis hierrquicos, so apresentadas, como ilustrado na Figura 12.

79

Figura 12 Autocomplete de nomes de txons.

Com esse recurso de autocomplete, as sugestes so recuperadas do banco de dados local da instituio utilizando uma implementao de Fuzzy Matching do PostgreSQL (Wagner & Fischer, 1974). Os nomes recuperados do banco de dados local podem estar vlidos ou invlidos em relao ao CoL. Se for selecionado um txon invlido, uma segunda consulta realizada ao banco de dados do CoL, conforme Figura 13. Tambm utilizando Fuzzy Matching, a ferramenta sugere nomes de txons vlidos de acordo com a autoridade taxonmica CoL.

80

Figura 13 Sugestes de nomes vlidos.

Ao selecionar um nome, so apresentadas ao usurio todas as hierarquias taxonmicas distintas que possuem na sua composio o nome selecionado. Essas hierarquias so consultadas no banco de dados local e no banco de dados do CoL, como apresentado na Figura 14.

81

Figura 14 Sugestes de hierarquias vlidas e invlidas.

Esses recursos foram projetados para serem utilizados segundo o diagrama representado pela Figura 15.

82

Figura 15 - Sequncia de uso da ferramenta BTT.

Os prximos recursos projetados para o BTT esto em fase de desenvolvimento. Esse recursos esto relacionados atividade de identificao de espcimes. Visto que essa atividade est fortemente ligada ao conhecimento sobre txons especficos, a ferramenta permitir obter informaes teis relativas a esses txons, as quais podem auxiliar na identificao de um espcime.
83

Por exemplo, caso haja dvidas sobre um espcime ser ou no da espcie Tetragonisca angustula, a BTT permitir ao usurio obter informaes bibliogrficas e recursos multimdia, como fotos e chaves taxonmicas relacionadas ao txon em questo. Essas informaes so previamente cadastradas e relacionadas aos txons no SI BDD. Tambm so consultados informaes e recurso multimdias do banco de dados do EoL (EOL, 2011), por meio de web services disponibilizados na Internet. Tambm foi projetado e est sendo implementado no BTT, um suporte a morfoespcies. Quando o usurio digitar a sequncia de caracteres sp seguido por um nmero, por exemplo, sp1, sp5, no campo de txon, o sistema automaticamente identificar esse txon como uma morfoespcie. Posteriormente, quando uma dessas morfoespcies for identificada, os outros registros com os mesmos identificadores sero automaticamente alterados. O ltimo recurso da BTT permite ao usurio reportar o grau de incerteza em relao a uma identificao. Esse indicador de incerteza permite ao usurio indicar que a informao cadastrada tem uma probabilidade de estar incorreta, necessitando assim de uma validao de um especialista. Para a implementao dessa ferramenta, foram utilizadas as linguagens de programao PHP (PHP, 2011) e Javascript (JAVASCRIPT, 2011). Os dados do CoL so atualizados periodicamente e mantidos em um banco de dados em um servidor dedicado. Os dados obtidos do EoL so recuperados via um web service disponibilizado por eles. At o momento foram implementados no BDD os quatro primeiros recursos, (1) sugestes de nomenclaturas baseado no banco de dados local, (2) sugestes de hierarquias taxonmicas baseada no banco de dados local, (3) sugestes de nomenclaturas baseado em autoridades taxonmicas e (4) sugestes de hierarquias taxonmicas baseadas em autoridades taxonmicas.

5.2.2.2.

BDD Geo Tool

Para a reduo de erros em dado geoespaciais e de localizao de ocorrncias de espcies, o BDD implementa uma ferramenta denominado BDD Geo Tool BGT (Veiga et al., 2010; Veiga et al., 2011a, b, c). Essa ferramenta est organizada em trs etapas: (1) inserir dados primrios, (2) selecionar informaes e fontes de dados e (3) reportar incerteza.
84

Na primeira etapa, o usurio pode escolher entre trs tipos de dados primrios sobre o geoposicionamento da ocorrncia. Conforme a Figura 16, o usurio pode inserir as coordenadas geoespaciais, usar um mapa interativo para obter uma localizao aproximada conhecida ou utilizar uma descrio textual da localizao da ocorrncia.

Figura 16 Primeira etapa da ferramenta BGT.

Caso sejam conhecidas as coordenadas geoespaciais, o usurio pode inserilas no local indicado e realizar um georeferenciamento reverso. Esse recurso permite obter os nomes da cidade, do estado, do pas e a altitude relativa s coordenadas informadas. Essas informaes so obtidas a partir de duas fontes de dados distintas: do Google Maps e do banco de dados geoespaciais do GeoNames (GeoNames, 2011). Na segunda etapa o usurio pode escolher qual fonte de dados ser utilizada, conforme a Figura 17.

85

Figura 17 Georeferenciamento reverso.

Caso as coordenadas geoespaciais no sejam conhecidas, o usurio pode utilizar um mapa interativo em trs dimenses para obter a latitude e a longitude por meio de um clique sobre a localizao desejada no mapa, conforme ilustrado na Figura 18. Ao selecionar uma localizao aproximada, o recurso de georeferenciamento reverso executado. O usurio pode tambm utilizar uma descrio textual da localizao, como Bariloche, 25 km NNE via Ruta Nacional 40 (=Ruta 237), por exemplo, para obter as informaes geoespaciais e de localizao. Esse recurso de georeferenciamento utiliza um web service projetado pelo projeto BioGeomancer (BioGeomancer, 2011) e disponibilizado pela Universidade de Berkeley para obter um conjunto de possveis coordenadas geoespaciais a partir da descrio da localidade, conforme ilustrado Figura 19.

86

Figura 18 Georeferenciamento utilizando um mapa interativo tridimensional.

Figura 19 Georeferenciamento a partir da descrio near sao paulo. 87

Aps a seleo das coordenadas geoespaciais e das informaes geogrficas, a ferramenta permite ao usurio reportar o nvel de incerteza/erro em relao s informaes geoespaciais, na terceira etapa. Essa incerteza reportada em metros e pode ser visualizada em um mapa, de acordo com a ilustrao na Figura 20. Por fim, os dados selecionados so utilizados para preencher o formulrio de ocorrncias de espcies do BDD.

Figura 20 Indicador de incerteza.

Esses recursos foram projetados para serem utilizados segundo o diagrama representado pela Figura 21.

88

Figura 21 - Sequncia de uso da ferramenta BGT.

Para a implementao dessa ferramenta foram utilizadas as linguagens de programao PHP (PHP, 2011) e Javascript (JAVASCRIPT, 2011). Para a renderizao do mapa tridimensional foi utilizado a Google Earth API, sendo, desse

89

modo, necessria a instalao do plug-in do Google Earth no navegador para utilizar a ferramenta.

90

6. CONSIDERAES FINAIS
Neste ltimo captulo so apresentadas as principais contribuies deste trabalho e os trabalhos futuros que podem ser realizados a partir dele.

6.1.

Contribuies

Como contribuio deste trabalho, destaca-se a metodologia utilizada para realizar o estudo da QD de ocorrncias de espcies, pois ela pode ser usada em outras pesquisas sobre QD aplicada em outros domnios de aplicao, como em dados mdicos, dados financeiros ou outros tipos de dados de biodiversidade, por exemplo. Outra contribuio foi o resultado do estudo sobre QD aplicada a um importante tipo de dado sobre a biodiversidade: dados de ocorrncias de espcies. Esse estudo foi dividido em duas partes: estudo sobre a Avaliao da QD e estudo sobre o Gerenciamento da QD. Como resultado do estudo sobre a Avaliao da QD de ocorrncias de espcies, foi identificado um conjunto de problemas de QD, os quais foram contextualizados em relao aos domnios de dados de localizao, geoespaciais e taxonmicos. Tambm foi identificado um conjunto de dimenses de QD importantes no contexto de dados de ocorrncia de espcies. Visto que cada dimenso pode possuir um significado diferente em relao aos domnios de dados (Dalcin, 2005), a definio dessas dimenses, em relao domnios de dados, escopo deste trabalho, foi realizada. Ainda no estudo da Avaliao da QD, foi identificado como os problemas, dimenses e domnios de dados se relacionam, a fim de definir um modo de avaliar a QD. Desse modo, o resultado desse estudo pode ser utilizado por outros pesquisadores para identificar quais problemas de QD devem ser reduzidos para melhorar a QD em determinadas dimenses e em determinados domnios de dados. Portanto, esse estudo contribui para o desenvolvimento de estratgias, polticas e ferramentas para melhorar a QD, por meio da identificao de quais tipos de erros devem ser evitados ou corrigidos para melhorar determinados aspectos da QD. A segunda parte do estudo sobre QD est relacionada ao melhoramento da QD, ou seja, o Gerenciamento da QD. Nessa parte do estudo foram identificados
91

recursos computacionais que se implementados em um SI sobre ocorrncias de espcies, pode auxiliar na reduo de problemas por meio da preveno a erros durante a digitalizao informaes sobre ocorrncias de espcies. Esse estudo foi baseado na Avaliao da QD e demonstra como os recursos identificados se relacionam com os problemas e as dimenses de QD. Portanto, esse estudo tambm pode ser utilizado como diretriz para o desenvolvimento de SI sobre ocorrncias de espcies com suporte a QD. So contribuies tambm as duas ferramentas desenvolvidas com base no estudo sobre o Gerenciamento da QD, implementadas no SI BDD. Com o auxlio dessas ferramentas, BTT e BGT, a QD de ocorrncias de espcies digitalizadas por meio do BDD pode ser melhorada, sendo, portanto, uma importante contribuio para os pesquisadores que utilizam os dados digitalizados. uma contribuio a evoluo do SI que abriga as ferramentas citadas, o BDD. Com a reestruturao do SI, quanto a codificao, IHM, arquitetura de software e banco de dados, o BDD tornou-se uma ferramenta de digitalizao de dados de ocorrncias de espcies com suporte a QD com boa aceitao, conforme feedback em apresentaes dos SI no TDWG Annual Conference 2011 e em reunies com integrantes da IABIN-PTN. Por ser de cdigo e de uso aberto, qualquer interessado pode utilizar o BDD para a digitalizao de seus dados. Por fim, a anlise de requisitos de SI de ocorrncias de espcies uma importante contribuio. A identificao e anlise desses requisitos teve por objetivo listar e descrever caractersticas que tornasse o SI mais atrativo aos usurios em relao as, frequentemente utilizadas, planilhas eletrnicas. Visto que a abordagem de Gerenciamento da QD utilizada neste trabalho foi a de preveno a erros e, portanto, a melhora da QD s ocorre quando o SI utilizado para a digitalizao de informaes sobre ocorrncias de espcies, essa anlise foi um estudo particularmente importante neste trabalho. Essa anlise tambm pode ser utilizada por outros pesquisadores envolvidos com o projeto e o desenvolvimento de SI para digitalizao de informaes de ocorrncias de espcies.

92

6.2.

Concluses

O estudo sobre a Avaliao da QD, aplicado a dados de ocorrncias de espcies, demonstrou que a QD, em determinadas dimenses e em relao aos domnios de dados de localizao, geoespaciais e taxonmicos, degradada pela incidncia de determinados problemas e, portanto, a QD pode ser avaliada por meio da presena ou ausncia desses problemas. Com base no estudo da Avaliao da QD, conclui-se tambm que a QD pode ser melhorada em determinadas dimenses por meio da reduo de erros especficos. O estudo sobre o Gerenciamento da QD em SI sobre ocorrncias de espcies demonstrou que determinados recursos computacionais, se implementados em um SI, so capazes de proporcionar uma reduo de determinados problemas de QD por meio da preveno a erros. Assim, com a implementao no SI dos recursos identificados no estudo sobre o Gerenciamento da QD, possibilitou que houvesse uma reduo de determinados erros e, conforme apresentado no estudo da Avaliao da QD, a QD de ocorrncia de espcies melhorada em determinadas dimenses nos domnio de dados de localizao, geoespaciais e taxonmicos.

6.3.

Trabalhos futuros

Como trabalhos futuros sugere-se realizar o estudo de Avaliao e de Gerenciamento da QD aplicados aos demais domnios de dados do DwC, como os domnio de dados de evento e de nvel de registro, por exemplo, e a outros tipos de dados de biodiversidade, como Interao entre Espcies, Espcies, Monitoramento de Espcies, entre outros. previsto, como trabalho futuro, finalizar e otimizar as ferramentas de QD propostas neste trabalho (BGT e BTT) e implementar no BDD todos os requisitos identificados para melhorar aceitabilidade dos usurios BDD. Posteriormente, realizar uma pesquisa com usurios do BDD para avaliar estatisticamente a aceitao dos usurios ao SI e as ferramentas de QD. Um importante trabalho futuro consiste em realizar um estudos sobre Gerenciamento da QD utilizando a abordagem de deteco e correo de erros. Ou
93

seja, com base no estudo da Avaliao da QD identificar tcnicas e recursos que possam ser utilizados para detectar e corrigir erros em bases de dados de ocorrncias de espcies. A implementao de uma metodologia para a quantificao da QD em cada dimenso um trabalho a ser implementado futuramente, o qual poder trazer grandes contribuies para comunidade cientfica, pois permitir realizar a Avaliao da QD de maneira mais objetiva.

94

REFERNCIAS

ALA. Atlas of Living Australia. Disponvel em: http://www.ala.org.au. Acesso em: 06 dez. 2011. BIOGEOMANCER. BioGeomancer. Disponvel em:

http://www.biogeomancer.org. Acesso em: 06 ago. 2011. BISBY, F. A. The quiet revolution: biodiversity informatics and the internet. Science, v. 289, n. 5488, p. 2309-2312, 2000. BOLT, A..; MAZUR, G. H. Jurassic QFD: integration service and product quality function deployment. In: The Eleventh Symposium on Quality Function Deployment. Novi, Michigan, 1999. BRUNDTLAND, G. H. Our Common Future. Oxford University Press, Oxford, p. 15-22, 1987. CANHOS, V. P. Informtica para biodiversidade: padres, protocolos e ferramentas. Cincia e Cultura, 55, p. 4547, 2003. CANHOS, V. P.; SOUZA, R.; CANHOS, D. A. L. Global biodiversity informatics: setting the scene for a "New World" of ecological modeling. Biodiversity Informatics, v. 1, p. 1-13, 2004. CARTOLANO, E. A. Proposta de um sistema de informao orientado a servios sobre a biodiversidade de abelhas. 2009. Dissertao de Mestrado Departamento de Engenharia de Computao e Sistemas Digitais, Escola Politcnica, Universidade de So Paulo, So Paulo, 2009. CARTOLANO, E. A.; SARAIVA, A. M.; VEIGA, A. K.; KROBATH, D. B.; SARAIVA, L. G. P.; TAVARES, G. Biodiversity Data Digitizer. In: The Proceedings
95

of TDWG: Provisional Abstracts of the 2010 Annual Conference of the Taxonomic Databases Working Group. Woods Hole, USA, 2010. CBD. Convetion on Biological Diversity. Disponvel em:

http://www.biodiv.org. Acesso em: 06 dez. 2011. CHAPMAN, A. D. Uses of Primary Species-Occurrence Data. Report for the Global Biodiversity Information Facility, v. 1.0, Copenhagen. 2005a. ______. Principles and Methods of Data Cleaning Primary Species and Species. Report for the Global Biodiversity Information Facility, v. 1.0, Copenhagen. 2005c. ______. Principles of Data Quality. Report for the Global Biodiversity Information Facility, v. 1.0, Copenhagen. 2005b. CHEN, B.; WANG, B.; ZHENG, C.; HU, X. Research and Implementation of Information Quality Improvement. In: Proceedings of Cooperation and Promotion of Information Resources in Science and Technology, p. 255-229, 2009. COL. Catalogo of Life. Disponvel em: http://www.catalogoflife.org. Acesso em: 06 ago. 2011. CROSBY, P. B. Quality Without Tears. McGraw-Hill Book Company. New York. 1984. DALCIN, E. C. Data Quality Concepts and Techniques Applied to Taxonomic Databases. 2005. Tese de Doutorado de Filosofia School of Biological Sciences, Faculty of Medicine, Health and Life Sciences, University of Southampton, Southampton, England, 2005. DWC. Darwin Core Terms: A quick reference guide. Disponvel em: http://rs.tdwg.org/dwc/terms/. Acesso em: 06 ago. 2011.
96

EMBURY, S. M. Data quality issues in information systems. Database Systems Cardiff University, School of Computer Science, Cardiff, p. 41, 2001. ENGLISH, L. P. Improving data warehouse and business information quality: methods for reducing costs and increasing profits. John Wiley & Sons, Inc., New York, 1999. EOL. Encyclopedia of Life. Disponvel em: http://www.eol.org. Acesso em: 06 ago. 2011. FEC. Developing a user-centered voting system. Technical report. Federal Election Commission. 2003. GBIF. Global Biodiversity Information Facility. Disponvel em:

http://www.gbif.org. Acesso em: 06 ago. 2011. GE, M.; HELFERT, M. A review of information quality research-develop a research agenda. In: Proceedings of the 12th International Conference on Information Quality. 2007. GEOLOCATE. GEOLocate: A platform for georeferencing natural history colections data. Disponvel em: http://www.museum.tulane.edu/geolocate. Acesso em: 06 dez. 2011. GEONAMES. GeoNames Geographical Database. Disponvel em: http://www.geonames.org. Acesso em: 06 ago. 2011. SARAIVA A.M., CANHOS, D.A.L. Sistemas de informao e ferramentas computacionais para pesquisa, educao e disseminao do conhecimento sobre polinizadores. In: Polinizadores no Brasil - contribuio e perspectivas para a biodiversidade, uso sustentvel, conservao e servios ambientais.

97

(IMPERATRIZ-FONSECA V.L., CANHOS D.A.L., ALVES D.A., SARAIVA A.M., eds), So Paulo, SP: EDUSP. GOOGLEMAPS. Famlia da Google Maps API. Disponvel em:

http://code.google.com/intl/pt-BR/apis/maps/index.html. Acesso em: 06 dez. 2011. GROUP, I. Introduction to Database Management Systems. McGraw-Hill Education (India) Pvt Ltd, 2005. HAWKSWORTH, D. L. Biodiversity: measurement and estimation. Chapman & Hall in association with The Royal Society, 1996. HILL, A. W.; OTEGUI, J.; ARIO, A. H.; GURALNICK, R. P. GBIF Position Paper on Future Directions and Recommendations for Enhancing Fitness-for- Use Across the GBIF Network. Report for the Global Biodiversity Information Facility, v 1.0, Copenhagen, 2010. IABIN. Inter-American Biobiversity Network. Disponvel em:

http://www.iabin.net . Acesso em: 03 ago. 2011. ITIS. Integrated Taxonomic Information System. Disponvel em:

http://www.itis.gov. Acesso em: 06 ago. 2011. JAVASCRIPT. Javascript. Disponvel em:

http://www.w3schools.com/js/default.asp. Acesso em: 06 ago. 2011. KELLING, S. Significance of organism observations: Data discovery and access in biodiversity research. Report for the Global Biodiversity Information Facility, 2008. MA. Ecosystems and human well-beings: Biodiversity Synthesis. Millennium Ecosystem Assessment Report. World Resources Institute. Washington, DC. 2005.
98

MAZUR, G. H. QFD for service industries: from voice of custumer to task deployment. In: The Fifth Symposium on Quality Function Deployment. Novi, Michigan. 1993. MCGILVRAY, D. Executing data quality projects: ten steps to quality data and trusted information. Morgan Kaufmann, Elsevier, 2008. PHP. PHP. Disponvel em: http://www.php.net . Acesso em: 18 mar. 2011. PIPINO, L. L.; LEE, Y. W.; WANG, R. Y. Data quality assessment. Transactions on Communications of the ACM. 45, n. 4, p. 211-218, 2002. POSTGRESQL. Documentao do PostgreSQL. Disponvel em:

http://pgdocptbr.sourceforge.net/pg74/ddl-constraints.html. Acesso em: 06 dez. 2011. REBER, R.; SCHWARZ, N.; WINKIELMAN, P. Processing fluency and aesthetic pleasure: is beauty in the perceivers processing experience? Personality and Social Psychology Review. p. 364-382. 2004. REBER, R.; Topolinski, S. Simples + belo = correto: sera? Mente e Crebro, Scientific American. p. 60-65. 2010. REDMAN, T. C. Data quality: the field guide. Digital Press. Newton, MA, USA, 2000. ROSE, P. Quality in services and services in quality. Customer Driven Quality in Product Design, IEEE Colloquium on. p. 16, 1994. SARAIVA, A. M. Tecnologia da informao na agricultura de preciso e biodiversidade: estudos e proposta de utilizao de Web Services para desenvolvimento e integrao de sistemas. 2003. Tese (Livre Docncia)

99

Departamento de Engenharia de Computao e Sistemas Digitais, Escola Politcnica da Universidade de So Paulo, So Paulo, 2003. SCHNASE, J. L.; CUSHING, J.; SMITH, J. A. Biodiversity and ecosystem informatics. Journal of Intelligent Information Systems, v. 29, n. 1, p. 1-6, 2007. SPECIES2000. Species 2000. Disponvel em: http://www.sp2000.org. Acesso em: 06 ago. 2011. STEINHAGE, V. Automated identification of Bee Species in biodiversity information system. Disponvel em: http://www.informatik.unibonn.de/~steinhag/stelleabis/abis_ui_200.pdf. Acesso em: 22 jan. 2003. STOCKWELL, D.R.B. Overview of computational biodiversity research. Publicado em 03/02/97. Disponvel em: http://biodi.sdsc.edu/doc/bis/overview.html Acesso em 22 jan. 2007. STRONG, D. M.; LEE, Y. W.; WANG, R. Y. Data quality in context. Transactions on Communications of the ACM. 40, n. 5, p. 103110, 1997. TDWG. Biodiversity Information Standards. Disponvel em:

http://www.tdwg.org . Acesso em 30 jul. 2011. VEIGA, A. K.; CARTOLANO, E. A; SARAIVA, A. M. Data quality resources in in Species occurrences digitization. In: The Proceedings of TDWG: Provisional Abstracts of the 2011 Annual Conference of the Taxonomic Databases Working Group. New Orleans, USA, 2011c. VEIGA, A. K.; SARAIVA, A. M.; CARTOLANO, E. A. A georeferencing tool to improve biodiversity data quality. In: The Proceedings of TDWG: Provisional Abstracts of the 2010 Annual Conference of the Taxonomic Databases Working Group. Woods Hole, USA, 2010.

100

VEIGA, A. K.; SARAIVA, A. M.; CARTOLANO, E. A. Methods and tools to improve data quality in biodiversity specimens-occurrence data. In: Proceedings of the World Congress on Computers In Agriculture of the European Federation for Information Technology in Agriculture, Food and the Environment. Prague, Czech Republic, 2011a. VEIGA, A. K.; SARAIVA, A. M.; CARTOLANO, E. A. Mtodos e ferramentas de preveno a erros em dados de ocorrncias de espcies. In: Proceedings of VIII Congresso Brasileiro de Agroinformtica da Sociedade Brasileira de Agroinformtica. Bento Gonalves, RS, Brasil, 2011b. VERTNET. VertNet. Disponvel em: http://vertnet.org. Acesso em: 06 dez. 2011. WAGNER, R. A.; FISCHER, M. J. The String-to-String Correction Problem. Journal of the ACM. 21, n. 1, p. 168176, 1974. WAND, Y.; WANG, R. Y. Anchoring data quality dimensions in ontological foundations. Transactions on Communications of the ACM. 39, n. 11, p. 8695, 1996. WANG, R. Y.; KON, H. B.; MADNICK, S. E. Data quality requirements analysis and modeling. In: Data Engineering, 1993. Proceedings. Ninth International Conference on. p. 670677, 1993. WANG, R. Y.; REDDY, M. P.; KON, H. B. Toward quality data: An attributebased approach. Decision Support Systems. 13, 3-4, p. 349-372, 1995. WANG, R. Y.; STRONG, D. M. Beyond accuracy: What data quality means to data consumers. Journal of Management Information Systems. 12, n. 4, p. 533, 1996.

101

You might also like