You are on page 1of 172

UNIVERSIDADE FEDERAL DO PARAN

PROGRAMA DE PS-GRADUAO EM MTODOS NUMRICOS EM


ENGENHARIA
rea de Concentrao: Programao Matemtica

MARCO AURLIO SILVA NETO

MINERAO VISUAL DE DADOS: EXTRAO DO


CONHECIMENTO A PARTIR DAS TCNICAS DE VISUALIZAO
DA INFORMAO E MINERAO DE DADOS
Experimentos: ITAIPU e SIMEPAR

DISSERTAO DE MESTRADO

Curitiba
Maro/2008

MARCO AURLIO SILVA NETO

MINERAO VISUAL DE DADOS: EXTRAO DO


CONHECIMENTO A PARTIR DAS TCNICAS DE VISUALIZAO
DA INFORMAO E MINERAO DE DADOS
Experimentos: ITAIPU e SIMEPAR

Dissertao apresentada ao Programa de PsGraduao em Mtodos Numricos em


Engenharia (PPGMNE) da Universidade Federal
do Paran (UFPR), como parte dos requisitos
para obteno do ttulo de Mestre em Cincias
na rea de concentrao Programao
Matemtica.
Orientador: Prof. Dr. Srgio Scheer

Curitiba
Maro/2008

TERMO DE APROVAO

MARCO AURLIO SILVA NETO

MINERAO VISUAL DE DADOS: EXTRAO DO CONHECIMENTO A


PARTIR DAS TCNICAS DE VISUALIZAO DA INFORMAO E
MINERAO DE DADOS
Estudos de Casos: ITAIPU e SIMEPAR

Dissertao aprovada como requisito parcial para obteno do ttulo de Mestre


em Cincias, na rea de concentrao Programao Matemtica, do Programa de
Ps-Graduao

em Mtodos

Numricos

em Engenharia (PPGMNE) da

Universidade Federal do Paran (UFPR), pela comisso formada pelos


professores:
Aprovada em 06 de maro de 2008.
Comisso examinadora:

Prof. Dr. Srgio Scheer


Universidade Federal do Paran - UFPR
Orientador

Prof. Dr. Maria Teresinha Arns Steiner


Universidade Federal do Paran - UFPR

Prof. Dr. Hlio Pedrini


Universidade Federal do Paran UFPR

Prof. Dr. Cinthia Obladen de Almendra Freitas


Pontifcia Universidade Catlica do Paran - PUCPR

Este trabalho dedicado a todas as pessoas que me


acompanharam ao longo destes anos e que comigo
compartilharam as dvidas, as certezas, as alegrias e as
frustraes que nos cercaram ao longo deste perodo. Em
especial dedico a meus Pais Suely e Carlos e minha
esposa Margarete que sempre me encorajaram a ir
adiante, mesmo nos momentos de dificuldade.

Agradecimentos

A obteno do ttulo de Mestre em Cincias antes de tudo uma realizao


pessoal. Ao longo destes dois anos muitas dificuldades foram superadas e novas
experincias foram adquiridas. Hoje, tenho certeza que este ttulo s foi possvel
graas ajuda daqueles que fizeram com que eu acreditasse que poderia chegar
at aqui.
Meu primeiro agradecimento para Margarete, minha esposa, que
pacientemente soube aceitar os meus picos de mau-humor e s longas horas de
estudos madrugadas adentro. Obrigado pelo apoio, incentivo e confiana.
Agradeo a meus pais, Suely Maria Silva e Carlos Eduardo Neto, e a meus
irmos Priscilla e Carlos, que me ajudaram nos momentos que mais precisei e
que

nunca

deixaram

de

acreditar

em

meu

potencial.

Obrigado

pelo

companheirismo nesta jornada.


Ao professor Srgio Scheer, meu orientador, por me introduzir na rea de
Visualizao e me guiar em todos os passos. Minha eterna gratido.
Aos professores do PPGMNE, especialmente Maria Teresinha Arns
Steiner, Celso Carnieri, Arinei Carlos Lindback da Silva, Neida Maria Patias Volpi,
Srgio Scheer, Liliana Madalena Gramani Cumin, Anselmo Chaves Neto e Klaus
de Geus, por contriburem com minha formao.
professora Andrea Sell Dyminski por sua dedicao e colaborao junto
ao projeto ITAIPU e pela ajuda fornecida na interpretao dos resultados.

AGRADECIMENTOS

Aos meus amigos, que em momentos distintos da vida, me fizeram feliz, e


agradecido a Deus por t-los. Obrigado por aceitarem as minhas ausncias em
muitas festas realizadas por ter que ficar estudando.
Aos colegas de ps, em especial, Chico (Francisco), Vanessa, Ricardo,
Wirllen, Bernadete, Ana Beatriz, Carmem, Marcelo, Cristiane (UTFPR), Michelly
(UTFPR) e Vanessa (UTFPR), pelo companheirismo e apoio nas horas difceis (e
nas fceis tambm...) e pelos momentos de descontrao.
Aos colegas Pablo, Neile, Rosangela, Mayko, membros do projeto ITAIPU.
Obrigado por ajudar!
Ao Tiago e funcionrios do SIMEPAR pela ajuda durante a pesquisa e
desenvolvimento deste trabalho.
Aos funcionrios do CESEC, em particular secretria Maristela, que
sempre nos divertia com seu alto ndice de humor e que com muita disposio
fazia cafezinhos a todos.
UFPR pela oportunidade.
Ao SIMEPAR pelo apoio financeiro e fornecimento dos dados.
ITAIPU pelo fornecimento dos dados.
A todos que de alguma forma contriburam para a realizao deste
trabalho, levo a mais completa admirao.

Marco Aurlio Silva Neto

O cansao fsico, mesmo que suportado forosamente,


no prejudica o corpo, enquanto o conhecimento imposto
fora no pode permanecer na alma por muito tempo.
Plato

RESUMO

Extrair rapidamente informaes de grandes conjuntos de dados , hoje,


uma demanda crescente devido ao aumento da capacidade de gerao de dados
por sensores e outras fontes. A alta dimensionalidade e a grande quantidade de
registros contidos nas bases de dados atuais so problemas no triviais na busca
e extrao de conhecimento. O Processo KDD (Knowledge Discovery in
Database), termo criado em 1989, refere-se ao processo de seleo, prprocessamento e transformao de dados, necessrio para avaliao e
interpretao de resultados pelo uso de tcnicas de Minerao de Dados (MD)
que, por sua vez, possibilita a extrao de padres escondidos nos dados. Por
ser uma rea cientfica multidisciplinar, a MD exige o conhecimento em vrias
outras reas, incluindo a Visualizao e a Estatstica. Assim, a Minerao Visual
de Dados (MVD) uma abordagem para integrar a Minerao de Dados com a
Visualizao. Refere-se explorao visual de dados fazendo uso de recursos
visuais e Computao Grfica Interativa. Neste trabalho, apresentado um
estudo no qual foram utilizados algoritmos de MVD para analise de dados em dois
experimentos. A ITAIPU, maior hidreltrica em operao do mundo, atualmente
possui mais de 2200 instrumentos de auscultao instalados, produzindo dados
que vm sendo armazenados h mais de 30 anos. Neste experimento, a MVD foi
utilizada para analisar relaes nos instrumentos instalados na estrutura da
barragem, permitindo, por exemplo, detectar indesejveis falhas nas leituras, e
conseqentemente, na sua segurana. No segundo experimento a MVD foi
utilizada na filtragem de dados que no representam chuvas em imagens do radar
meteorolgico do SIMEPAR. Para tanto, um maior nmero de informaes
extrado mais facilmente quando diferentes tcnicas de Visualizao da
Informao (baseadas em Projees Geomtricas, Iconogrficas e Orientadas a
Pixels) so aplicadas aos dados. Esta anlise visual dos dados mostrou-se
eficiente por agilizar a deteco de padres e anomalias nos dados, mostrando-se
uma valiosa ferramenta de apoio tomada de decises.

Palavras-chave: Processo KDD, Minerao de Dados, Visualizao da


Informao, Minerao Visual de Dados, Monitoramento de Barragens, Radar
Meteorolgico.

ABSTRACT

Extracting information quickly from large data sets is now an increasing


demand due to increased capacity to generate data for sensors and other sources.
The high dimensionality and the large number of records contained in databases
are non trivial current problems in the search and extraction of "knowledge". The
KDD (Knowledge Discovery in Database), term created in 1989, refers to the
process of selection, pre-processing and processing of data, necessary for
evaluation and interpretation of results by using Data Mining (DM) techniques.
These techniques enable the extraction of "hidden patterns in data. As a
multidisciplinary scientific area, the DM requires knowledge in several other areas,
including Visualization and Statistics. Thus, the Visual Data Mining (VDM) is an
approach to integrate the Data Mining with Visualization, and refers to the visual
exploration of data by making use of interactive computer graphics. This work
presents a study where VDM algorithms are used to analyze two experiments
data. The active largest hydroelectric power plant in the world is ITAIPU in the
frontier of Brazil and Paraquay. Its dam currently has more than 2200 monitoring
instruments installed. They are continuously producing data that have been stored
for more than 30 years. It served as the first experiment and VDM was used to
examine relationships in the installed instruments, allowing, for example, to detect
undesirable weaknesses in reading, and consequently, the dam structure safety.
In the second experiment, VDM was used in the filtering of data that do not
represent rain on the weather radar images of SIMEPAR, the meteorological
system of the Parana State in the South of Brazil. Thus, a greater number of
information is extracted more easily when different techniques of Information
Visualization are applied to filtering radar data. This data visual analysis proved to
be efficient by speeding up the pattern and anomally detection in the data.
Moreover, they proved to be a valuable tool to support decision-making.

Keywords: KDD Process, Data Mining, Information Visualization, Visual Data


Mining, Dam Monitoring, Weather Radar.

SUMRIO

1 INTRODUO................................................................................. 19
1.1
Consideraes Iniciais............................................................ 19
1.2
Objetivos .................................................................................. 21
1.3
Organizao do Trabalho ....................................................... 22
2 VISUALIZAO .............................................................................. 23
2.1
Consideraes Iniciais............................................................ 23
2.2
Definies e Conceitos Iniciais .............................................. 23
2.3
Interao e Navegao............................................................ 27
2.4
Dados Complexos e Multidimensionais ................................ 30
2.5
Sistemas de Visualizao e suas Exigncias........................ 32
2.6
Consideraes Finais ............................................................. 42
3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS.... 44
3.1
Consideraes Iniciais............................................................ 44
3.2
Etapas do KDD ........................................................................ 45
3.2.1 Seleo..................................................................................... 48
3.2.2 Pr-Processamento de Dados ................................................ 49
3.2.3 Transformao de Dados ....................................................... 50
3.2.4 Minerao de Dados................................................................ 50
3.2.5 Interpretao e Avaliao ....................................................... 52
3.3
Integrao de Visualizao e o Processo KDD ..................... 52
3.4
Consideraes Finais ............................................................. 55
4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS ...................... 56
4.1
Consideraes Iniciais............................................................ 56
4.2
Organizao dos Dados .......................................................... 58
4.3
Anlise de Correlao Multivariada ....................................... 59
4.4
Anlise de Agrupamentos ...................................................... 61

SUMRIO

4.5
4.6

Classificao de Dados Redes Neurais .............................. 63


Consideraes Finais ............................................................. 71

5 VISUALIZAO DA INFORMAO............................................... 73
5.1
Consideraes Iniciais............................................................ 73
5.2
Tcnicas de Visualizao da Informao .............................. 74
5.2.1 Tcnicas 2D e 3D Tradicionais ............................................... 82
5.2.2 Tcnicas Orientadas a Pixels ................................................. 87
5.2.3 Tcnicas de Projeo Geomtrica ......................................... 89
5.2.4 Tcnicas Iconogrficas ..........................................................100
5.2.5 Tcnicas Hierrquicas / Grafos .............................................103
5.2.6 Tcnicas Dinmicas ...............................................................112
5.2.7 Tcnicas Hbridas...................................................................115
5.3
Consideraes Finais ............................................................116
6 MTODO DE PESQUISA E EXPERIMENTOS ..............................118
6.1
Consideraes Iniciais...........................................................118
6.2
Primeiro Experimento: ITAIPU ..............................................119
6.2.1 Introduo ITAIPU ...............................................................119
6.2.2 Monitoramento e Instrumentao Estrutural .......................121
6.2.3 Organizao dos Dados .........................................................124
6.2.4 Tcnicas Visuais Aplicadas aos Dados de ITAIPU ..............125
6.3
Segundo Experimento: SIMEPAR .........................................134
6.3.1 Introduo ao SIMEPAR ........................................................134
6.3.2 O Radar Meteorolgico ..........................................................141
6.3.3 Minerao Visual de Dados Aplicada s Imagens do
Radar Meteorolgico do SIMEPAR ..................................................144
6.4
Consideraes Finais ............................................................153
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS 155
REFERNCIAS ...................................................................................159

LISTA DE FIGURAS

Figura 1 - Reconhecimento de padres usando a viso. Onde est o


Tringulo? ..................................................................................................... 24
Figura 2 - Fluxo de ar em torno do automvel (LUO, X. -L. et al., 2007).............. 25
Figura 3 - Representao visual da anatomia humana
(HRNE, K. H. et al, 2007) ........................................................................... 26
Figura 4 - Tcnica de cisalhamento aplicada italizao de caracteres.............. 28
Figura 5 - Exemplo do efeito do zoom quando o ngulo alterado
(COHEN; MANSSOUR, 2006) ...................................................................... 29
Figura 6 - Diferenas visuais entre as reas (a) Visualizao Cientfica
(JOHNSON; EDWARDS, 2007) e (b) Visualizao da Informao
(FARNEA; CARPENDALE; ISENBERG, 2005; FARNEA, 2006) .................. 31
Figura 7 - Modelo de fluxo de dados para obteno da imagem.......................... 33
Figura 8 - Relao das reas do Processo KDD (GIMENES, 2000) .................... 46
Figura 9 - Etapas do Processo KDD (FAYYAD, 1996) ......................................... 47
Figura 10 - Processo de integrao da visualizao ao Processo KDD
(ANKERST, 2001) ......................................................................................... 53
Figura 11 - Processo KDD centrado no usurio (ANKERST, 2001) ..................... 54
Figura 12 - Representao da matriz de correlao conforme suas propriedades.
Valores das clulas acima da diagonal (amarelas) so iguais aos valores das
clulas abaixo da diagonal (verdes). Clulas da diagonal principal (cinzas)
possuem valores iguais a 1 ........................................................................... 60
Figura 13 - Anlise de agrupamentos: (a) grfico dos pontos em coordenadas
cartesianas e (b) uso de dendrogramas para formao de cluster ............... 63
Figura 14 - Constituintes das clulas nervosas .................................................... 64
Figura 15 - Modelo de neurnio artificial. Fonte: adaptado de MCCULLOCH e
PITTS (1943, p. 115-133).............................................................................. 65
Figura 16 - Tipos de funes de ativao ............................................................ 66
Figura 17 - Modelo de rede com mltiplas camadas ............................................ 67
Figura 18 - Comportamento da rede ao aumentar o nmero de camadas
escondidas. Fonte: adaptado de GORNI (1993) ........................................... 68
Figura 19 - Modelo de rede neural usado nas aplicaes deste trabalho com
uma camada escondida ................................................................................ 68
Figura 20 - Algoritmo Back-Propagation usando funo de ativao sigmide ... 70

LISTA DE FIGURAS

Figura 21 - Desempenho de uma rede neural conforme a variao da taxa de


aprendizagem e a taxa de momento. Fonte: adaptado de KRSE e
VAN DER SMAGT (1993) ............................................................................. 71
Figura 22 - Representao grfica de uma cidade da Babilnia h 6200 a.C.
(FRIENDLY, 2007) ........................................................................................ 74
Figura 23 - Inclinao das rbitas planetrias ao longo do tempo ano 950
(FRIENDLY, 2007; FUNKHOUSER, 1936, p. 261) ....................................... 75
Figura 24 - Importao e Exportao entre 1770 e 1782 (FRIENDLY, 2007;
FRIENDLY, 2005) ......................................................................................... 76
Figura 25 - Declinao Magntica (FRIENDLY, 2007; HALLEY, 1701; PALSKY,
1996) ............................................................................................................. 76
Figura 26 - Infogrfico de Charles Minard sobre a marcha de Napoleo
(FRIENDLY, 2007; FRIENDLY, 2002; FRIENDLY, 2005) ............................. 77
Figura 27 - Mapa de Londres com casos de clera (pontos) e poos de gua
(cruzes) (FRIENDLY, 2007; GILBERT, 1958) ............................................... 78
Figura 28 - Classificao das Tcnicas de Visualizao (Keim, 2002) ................ 80
Figura 29 - Tcnicas 2D e 3D comumente utilizadas ........................................... 82
Figura 30 - Representao por grfico de pizza sobre dados de venda,
evidenciando a dificuldade de interpretar os dados no caso de fatias
pequenas ...................................................................................................... 83
Figura 31 - Representao por grfico de pizza de pizza dos dados de
vendas........................................................................................................... 83
Figura 32 - Exemplo de uma visualizao do tipo Cityscape
(CHUAH et al, 1995; SANTOS; GROS; ABEL, 1999) ................................... 84
Figura 33 - Representao visual da tcnica Bifocal Display ............................... 85
Figura 34 - Exemplo de uma parede de perspectiva
(MUKHERJEA; FOLEY; HUDSON, 1995)..................................................... 86
Figura 35 - Representao por janelas de 6 atributos de um item do conjunto
de dados (KEIM, 2000) ................................................................................. 87
Figura 36 - Identificao de correlao e dependncias funcionais no VisDB
(KEIM, 1996) ................................................................................................. 88
Figura 37 - Tcnica segmentos circulares. (a) Distribuio dos dados. (b)
Mapeamento dos dados. (c) Representao de um conjunto de dados
(ANKERST; KEIM; KRIEGEL, 1996) ............................................................. 89
Figura 38 Representao da tcnica matriz de disperso para um conjunto
de dados de 10 atributos (WARD, et al, 2007) .............................................. 90
Figura 39 Visualizao por Coordenadas Paralelas do conjunto de dados
financeiros ao longo de 5 anos, onde cada eixo rotulado pelo nome
correspondente varivel (WARD et al, 2007) ............................................. 92
Figura 40 - Coordenadas Paralelas na anlise de agrupamentos........................ 93
Figura 41 - Uso da tcnica Coordenadas Paralelas em 3D (CARVALHO, 2001). 93
Figura 42 - (a) Obteno da tcnica Grfico Estrela a partir da tcnica
Coordenadas Paralelas (Hoffman, 1999); e (b) Visualizao de dois
registros de dimenso oito utilizando o Grfico Estrela ................................ 94
Figura 43 - Visualizao de um conjunto de dados atravs da tcnica RadVis
(ARTERO, 2005) ........................................................................................... 95

LISTA DE FIGURAS

Figura 44 (a) Projeo 3D no Viz3D; (b) Mapeamento dos registros r0, r1, r2 e
r3 (dimensionalidade quatro) no Viz3D, adotando a seqncia de eixos a0,
a1, a2 e a3; (c) Mapeamento com a seqncia de eixos a0, a2, a1 e a3. .... 97
Figura 45 - Anlise de cluster a partir da tcnica Vis3D. Aqui cinco
agrupamentos so observados (ARTERO, 2005) ......................................... 98
Figura 46 (a) Visualizao de um conjunto de dados com a tcnica Star
Coordinates;
(b) Visualizao obtida aps interao do usurio com
os eixos ......................................................................................................... 99
Figura 47 (a) Disposio dos dados no Tubo de Dados; (b) Visualizao de
alguns registros de um conjunto de dados com seis atributos
(ANKERST, 2000) ......................................................................................... 99
Figura 48 - Uso da tcnica Faces de Chernoff para representao longitudinal
de 8 atributos .............................................................................................. 100
Figura 49 - Uso da tcnica Star Glyphs para representar diferentes
caractersticas de diferentes automveis .................................................... 101
Figura 50 - Stick Figures. (a) cone representando cinco variveis; (b) famlia
de Stick Figures (WONG; BERGERON , 1997) .......................................... 102
Figura 51 - Uso da tcnica Stick Figures no mapeamento de cinco variveis
(ANKERST, 2001) ....................................................................................... 103
Figura 52 - Tcnicas hierrquicas de visualizao (a) Cone Tree e (b) Cam
Tree (ROBERTSON; MACKINLAY; CARD, 1991) ...................................... 104
Figura 53 - Uso da tcnica Treemap no mapeamento de diretrios de
computadores (SCHNEIDERMAN et al, 2007) ........................................... 105
Figura 54 - Uso da tcnica Cushion Treemaps. Iluminao e cores so usados
para diferenciar os nveis dos diretrios (VAN WIJK; VAN DE WETERING,
1999) ........................................................................................................... 106
Figura 55 - Uso da tcnica Information Slices mostrando semicrculo auxiliar
para apresentar nveis com mais detalhes
(ANDREWS; HEIDEGGER, 1998) .............................................................. 107
Figura 56 - Modelo conceitual da Empilhamento de Dimenso
(Ankerst, 2001)............................................................................................ 108
Figura 57 - Empilhamento de Dimenses aplicado botnica, as trs cores
designam os trs tipos de flores, em alguns casos a classificao mista
(HOFFMAN; GRINSTEIN, 1999)................................................................. 109
Figura 58 - Dados de dimensionalidade 6 mapeados no espao tridimensional
atravs da tcnica Mundo dentro de Mundos. No caso as variveis
x3, x4 e x5 so mantidas constantes (BESHIERS; FEINER, 1993) .............. 110
Figura 59 - Representao por grafos na visualizao de dados; (a) Grafo
otimizado para agrupamento; (b) Grafo acclico direcionado
(ANKERST, 2001) ....................................................................................... 111
Figura 60 - Representao em 3 dimenses de um grafo otimizado para
agrupamentos (ANKERST, 2001) ............................................................... 111
Figura 61 - Grafo representando as principais cidades dos EUA (SARKER;
BROW, 1992) .............................................................................................. 113
Figura 62 - Uso da tcnica Vistas de Fisheye nas proximidades de St. Louis
(SARKER; BROW, 1992) ............................................................................ 113

LISTA DE FIGURAS

Figura 63 - Uso da tcnica Rubber Sheet sobre o grafo das cidades dos EUA
com focos em St. Louis e em Salt Lake City (SARKAR et al, 1993) ........... 114
Figura 64 - Representao de dados atravs da tcnica Parallel Glyphs
(FANEA; CARPENDALE; ISENBERG, 2005) ............................................. 116
Figura 65 - Estrutura geral do complexo ITAIPU (ITAIPU, 2008) ....................... 121
Figura 66 - Representao de parte dos instrumentos do tipo extensmetros .. 125
Figura 67 - Anlise visual das relaes existentes entre pares de variveis do
instrumento do tipo extensmetro, utilizando Coordenadas Paralelas
(imagem gerada pelo software ParVis) ....................................................... 127
Figura 68 - Ilustrao por Coordenadas Paralelas do comportamento das
variveis EMF21_h2 e EMF22_h1 (imagem gerada pelo software MDV) ... 127
Figura 69 - Tcnica Coordenadas Paralelas aplicada a visualizao dos dados
dos instrumentos do tipo extensmetro ordenados pelos valores de suas
correlaes (imagem gerada pelo software ParVis) .................................... 128
Figura 70 Relao entre as variveis do instrumento do tipo extensmetro
mostradas pela tcnica Scatterplots (imagem gerada pelo software
XmdvTool) ................................................................................................... 129
Figura 71 - Uso da tcnica Orientada a Pixel para representar os dados de
extensmetro (imagem gerada pelo software XmdvTool) ........................... 130
Figura 72 - Relacionamento das variveis atravs das tcnicas (a) Star Glyphs
e (b) Faces de Chernoff (imagem gerada pelo software MATLAB)............. 131
Figura 73 - Uso das tcnicas Coordenadas Paralelas no agrupamento por ano
das variveis dos extensmetros (imagem gerada pelo software ParVis) .. 132
Figura 74 - Tcnica RadVis aplicada aos dados de extensmetros no
agrupamento por ano (imagem gerada pelo software MDV)....................... 133
Figura 75 - Distribuio da temperatura mnima no Paran (SIMEPAR, 2008).. 135
Figura 76 - Deteco de descargas atmosfricas no Brasil (fonte: SIMEPAR) .. 137
Figura 77 - Visualizao de dados de radar atravs do RadVis
(fonte: SIMEPAR) ........................................................................................ 138
Figura 78 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis
usando uma escala preto e branco (fonte: SIMEPAR) ................................ 140
Figura 79 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis
usando uma escala colorida (fonte: SIMEPAR) .......................................... 140
Figura 80 - Funcionamento do Radar
(PINHEIRO; VAZ; MARTINHAGO, 2005) ................................................... 141
Figura 81 - Ilustrao das imagens de radar para as variveis (a) refletividade,
(b) velocidade radial e (c) largura espectral (fonte: SIMEPAR) ................... 143
Figura 82 - Tipos de informaes que no representam chuvas encontrados
nas imagens do radar meteorolgico do SIMEPAR (fonte: SIMEPAR) ....... 145
Figura 83 - Minerao Visual de Dados: Algoritmo de minerao de dados com
a insero da visualizao em busca da filtragem das imagens de radar... 146
Figura 84 - Classificao dos pixels das imagens como sendo de rudo
(branco) (Fonte: SIMEPAR) ........................................................................ 147
Figura 85 - Vizinhana de um pixel .................................................................... 148
Figura 86 - Topologia de rede neural usada nas aplicaes .............................. 149
Figura 87 Imagens filtradas aps apresentao Rede Neural...................... 150

LISTA DE FIGURAS

Figura 88 - Regio de costume de ecos de terreno ........................................... 151


Figura 89 - Resultado obtido pelo treinamento de duas redes, uma para
eliminar os rudos e a outra para eliminar os ecos de terreno
152

LISTA DE TABELAS

Tabela 1 - Linguagens de Programao Visual.................................................... 36


Tabela 2 - Bibliotecas Grficas............................................................................. 37
Tabela 3 - Sistemas Interpretativos ...................................................................... 39
Tabela 4 - Sistemas Interativos ............................................................................ 40
Tabela 5 - Organizao das Variveis ................................................................. 58
Tabela 6 - Caracterizao de dados baseada em critrios, exemplos de
domnios diferentes (FREITAS; WAGNER, 1995) ........................................ 80
Tabela 7 - Caractersticas dos trechos da Barragem do ITAIPU ........................ 121
Tabela 8 - Funcionalidades dos instrumentos encontrados na barragem de
ITAIPU no concreto e na fundao (ITAIPU, 2008) .................................... 122
Tabela 9 - Quantidades e tipos de instrumentos no concreto encontrados
nos blocos do trecho F da barragem de ITAIPU (ITAIPU, 2008) ................ 123
Tabela 10- Quantidades e tipos de instrumentos na fundao encontrados
nos blocos do trecho F da barragem de ITAIPU (ITAIPU, 2008) ................ 124

LISTA DE ABREVIATURAS

AA

Anlise de Agrupamento

AM

Anlise Multivariada

ANA

Agncia Nacional de guas

CAPPI

Constant Plan Position Indicator

CG

Computao Grfica

COPEL

Companhia Paranaense de Energia

DM

Data Mining

IAPAR

Instituto Agronmico do Paran

IHC

Iterao Humano-Computador

INPE

Instituto Nacional de Pesquisas Espaciais

KDD

Knowledge Discovery Databases

KM

Quilmetro

KWh

Quilowatts-Hora

LEMA

Laboratrio de Estudos em Monitoramento e Modelagem Ambiental

MD

Minerao de Dados

MVD

Minerao Visual de Dados

MW

Megawatts

ONS

Operador Nacional do Sistema

PI

Processamento de Imagem

PPI

Plan Position Indicator

PS

Processamento de Sinal

RHI

Range Height Indicator

RIDAT

Rede Integrada de Deteco de Descargas Atmosfricas no Brasil

RN

Rede Neural

LISTA DE ABREVIATURAS

SV

Sistema de Visualizao

Varivel Velocidade Radial do Radar Meteorolgico

VC

Visualizao Cientfica

VI

Visualizao da Informao

VRML

Virtual Reality Modeling Language

Varivel Largura Espectral do Radar Meteorolgico

Varivel Refletividade do Radar Meteorolgico

INTRODUO

1.1 Consideraes Iniciais


Os bancos de dados geralmente, possuem grandes conjuntos de dados
numricos ou categricos (como datas e horas) definidos em domnios
multidimensionais e cuja anlise e interpretao no trivial.
O termo KDD (Knowledge Discovery in Databases), que responsvel
por extrair informaes importantes desta base de dados, foi criado em 1989 e
constitudo por uma srie de etapas necessrias para que isso ocorra.
Aps entender o domnio da aplicao e definir os objetivos a serem
atingidos, iniciam-se as etapas do chamado Processo KDD com a Seleo dos
dados de interesse do banco.
Dados

estranhos

ou

inconsistentes

geralmente

podem

ser

pr-

processados e estratgias podem ser tomadas para contornar estes problemas. A


ausncia de dados, por exemplo, pode ser facilmente resolvida pela excluso dos
registros que apresentam algum dado no preenchido ou ento pela interpolao
dos valores, com preenchimento dos campos incompletos.
Em alguns casos, poder ser necessrio fazer uma transformao nos
dados, transformando, por exemplo, dados categricos (como datas e horas) em
valores numricos.
Estas etapas, embora seja uma preparao nos dados que sero
apresentadas etapa de Minerao de Dados, so de extrema importncia para
todo o Processo KDD. Uma m seleo dos dados, ou uma excluso de registros

20

1 INTRODUO

importantes podem ser cruciais na etapa de interpretao dos resultados.


Segundo Silver (1996), estas etapas podem ocupar mais da metade do tempo
necessrio de todo o processo.
Com base nas especificaes do que se est querendo buscar nos
dados, diversas tcnicas podem ser usadas para se extrair o conhecimento
desejado. Todo o processo pode ser realimentado e novas selees ou novos
mtodos podem levar a diferentes solues.
Devido multidisciplinaridade do Processo KDD, a escolha dos mtodos
a serem usados no uma tarefa fcil e exige o conhecimento em diferentes
reas (GIMENES, 2000), incluindo a Visualizao.
A Visualizao, processo para transformar informao em uma forma
visual (GERSHON, 1994), tem sido usada para analisar e mostrar grandes
volumes de dados multidimensionais. A Visualizao permite, diferentemente dos
mtodos estatsticos, visualizar os resultados sem necessariamente saber que
tipo de fenmeno deve ser analisado.
Diferentes reas da Visualizao so facilmente confundidas entre si. A
Visualizao Cientfica, por exemplo, se preocupa em estudar dados de natureza
fsica, que possuem caractersticas espaciais. J a Visualizao da Informao se
preocupa com a anlise de dados abstratos, sem referncias espaciais (RHYNE,
2003).
As tcnicas de Visualizao podem ser usadas para auxiliar, ou serem
auxiliadas pelas tcnicas de Minerao de Dados. A tentativa de integrar estas
reas ficou conhecida na literatura por Minerao Visual de Dados (WONG,
1999).
Ankerst (2000) inseriu a Minerao Visual de Dados no Processo KDD,
sendo responsvel pela comunicao entre o computador e o usurio, atravs da
visualizao.

21

1 INTRODUO

1.2 Objetivos
O objetivo principal deste trabalho buscar a experimentao de
mecanismos e tcnicas de integrao da Minerao de Dados (MD) com a
Visualizao de Informaes (VI), resultando em experimentos realizados em
casos reais sobre a Minerao Visual de Dados como apoio visual na
interpretao de grandes volumes de dados.
Assim, em uma primeira experimentao em caso real foi possvel realizar
uma anlise visual geral das interaes existentes entre as leituras da
instrumentao de uma barragem de concreto. Para tanto, utilizou-se tcnicas de
Minerao Visual de Dados para extrair as informaes existentes e escondidas
no interior dos dados.
Num segundo experimento foi utilizado o algoritmo Back-Propagation para
treinar uma Rede Neural, baseado nas informaes da vizinhana dos pixels das
imagens do radar meteorolgico do SIMEPAR para classific-los como sendo
rudos, ecos de terreno ou chuva.
Como objetivos secundrios, as contribuies a serem citadas so:

O levantamento das tcnicas de Visualizao da Informao e a


sua reclassificao baseada nas literaturas existentes, mostrando
suas vantagens e desvantagens;

O referencial bibliogrfico e forma de integrar as reas de


Visualizao e Minerao de dados;

A integrao de duas reas distintas de pesquisas, a Visualizao


e a Minerao de Dados, utilizando tcnicas tpicas de ambas para
anlise dos resultados;

O desenvolvimento de uma classe em Java para ser integrado ao


RadVis (software, disponvel no SIMEPAR, para visualizar
imagens de radares meteorolgicos) na implementao da
extrao dos rudos nas imagens de radar.

22

1 INTRODUO

1.3 Organizao do Trabalho


Este trabalho est dividido em sete captulos:
Este captulo constitudo por uma breve introduo dos contedos
abordados neste trabalho, onde so mostrados os objetivos e os resultados que
se deseja obter a partir da anlise dos dados com tcnicas de Minerao Visual
de Dados.
O captulo 2 responsvel por conceituar o termo Visualizao e suas
reas de pesquisa, Visualizao Cientfica, Visualizao da Informao e
Minerao Visual de Dados. Ainda neste captulo, so estudadas algumas
tcnicas de interao, responsveis por facilitar na interpretao dos resultados.
No captulo 3 visto como se realiza a extrao de informaes teis em
banco de dados. Este processo que passa por diversas etapas, incluindo a
Minerao de Dados e a Visualizao, conhecido por Processo KDD.
Alguns mtodos de Minerao de Dados so vistos no captulo 4, com o
objetivo de encontrar relaes entre variveis e anlise de grupos (clusters), alm
de serem estudados os conceitos de Redes Neurais.
No captulo 5, apresenta-se uma reviso bibliogrfica sobre Visualizao
da Informao. Aqui diversas tcnicas so estudadas e uma caracterizao
baseada nas caractersticas dos dados realizada.
As tcnicas de Visualizao da Informao junto s tcnicas de
Minerao de Dados so usadas nos casos descritos no captulo 6. A unio delas
ficou conhecida na literatura por Minerao Visual de Dados, usada em duas
situaes. O primeiro caso, com a anlise de instrumentos geotcnico-estrutural
da Barragem de ITAIPU, verificando as relaes existentes entre eles. E em uma
segunda situao de estudo, na predio de chuvas nas imagens do radar
meteorolgico do SIMEPAR.
No captulo 7 so apresentadas as concluses deste trabalho e sugestes
para trabalhos futuros.

2 VISUALIZAO

2.1 Consideraes Iniciais


Este captulo fundamental para se familiarizar com os conceitos que
envolvem a Visualizao permitindo diferenciar Visualizao Cientfica (VC) de
Visualizao da Informao (VI).
A visualizao de dados multivariveis ou multidimensionais, sendo um
subcampo da VC (WONG, 1997), um conceito importante estudado por diversos
cientistas. Diversas tcnicas para visualizar dados multidimensionais esto sendo
usadas para apoiar a tomada de decises. Estas tcnicas sero vistas
separadamente no captulo 5.
Neste captulo ser visto um modelo de visualizao baseado em fluxo de
dados, onde a imagem formada a partir de uma srie de transformaes nos
dados. Alm disso, foi feito um levantamento de sistemas de visualizao sob um
ponto de vista de uma nova classificao de sistemas que pode ser usada para
gerar as visualizaes.

2.2 Definies e Conceitos Iniciais


Segundo McCormick, Defanti e Brown (1987) a Visualizao um mtodo
de computao que transforma o simblico no geomtrico, permitindo que

24

2 VISUALIZAO

pesquisadores observem os resultados de seus experimentos e simulaes


computacionais. A visualizao prov um mtodo para ver o invisvel.
J Foley e Ribarsky (1994) consideram que uma definio til de
Visualizao, poderia ser a ligao (ou mapeamento) de dados para uma
representao que pode ser percebida. As ligaes poderiam ser visuais, audveis
ou tteis, quem sabe, at uma combinao destas. Portanto, atualmente tambm
se considera Visualizao a representao de dados por meio de estmulos a
outros sentidos como o tato e a audio.
Conforme Gershon (1994), Visualizao mais do que um mtodo
computacional. Visualizao um processo para transformar informao em uma
forma visual, permitindo aos usurios observar a informao. A exibio visual
resultante permite ao cientista ou engenheiro perceber caractersticas escondidas
nos dados, porm necessrias para anlises exploratrias visuais dos mesmos.
Essas definies deixam claro o principal objetivo da Visualizao que
prover um maior compreendimento de um determinado processo, conjunto de
dados ou informaes.
Conceitualmente entende-se por Visualizao a transformao de
informaes, das mais variadas naturezas, em representaes grficas com o
objetivo de tornar essas informaes mais inteligveis para a mente humana. Para
isso conta-se com o principal sentido humano, a viso.

Figura 1 - Reconhecimento de padres usando a viso. Onde est o Tringulo?

25

2 VISUALIZAO

A viso o sentido humano que possui maior capacidade de captao de


informao por unidade de tempo. Alm de ser rpido e paralelo, a viso
treinada para reconhecer padres. Tente-se, por exemplo, encontrar o tringulo
em meio aos crculos da figura 1. Note que esta tarefa realizada rapidamente,
comprovando a afirmao inicial. Se o tringulo estivesse pintado de uma cor
diferente a dos crculos, este processo de reconhecimento seria ainda mais fcil e
rpido.
Para se atingir o objetivo da Visualizao, esta apoiada por diversas
reas

cientficas,

como

Computao

Grfica

(CG),

Interao

Humano-

Computador (IHC), Processamento de Imagem (PI), Processamento de Sinal


(PS). Dessa forma a Visualizao por meio do computador, apoiada em tcnicas
destas diversas reas cientficas, segundo Brodlie (1992), tem proporcionado
inmeros benefcios para as mais diversas reas. Benefcios esses como o
aumento de produtividade e maior rapidez e eficincia na tomada de decises.
Dentre as inmeras reas que tm se beneficiado com produtos da
Visualizao, merecem destaque o campo de dinmica dos fludos, por ser o
precursor do uso da Visualizao na rea cientfica devido aos resultados gerados
por simulao numrica (LUO, STOKES e BARTON, 1996). A figura 2 mostra o
fluxo de ar ao passar por um veculo em movimento, as cores representam a
intensidade da presso no encontro do ar com a superfcie do automvel.

Figura 2 - Fluxo de ar em torno do automvel (LUO, X. -L. et al., 2007)

26

2 VISUALIZAO

Profissionais da medicina tambm constituem exemplos tpicos de


usurios de Visualizao, conseqncia direta do aumento da capacidade dos
equipamentos de medio (tomografia computadorizada, ressonncia magntica,
etc.). Na figura 3 mostrada a representao visual da anatomia humana atravs
de renderizao1 de volumes, tcnica bastante conhecida em VC.

Figura 3 - Representao visual da anatomia humana (HRNE, K. H. et al, 2007)

Outras aplicaes cientficas e profissionais para a Visualizao so, por


exemplo, nas reas da Biologia Molecular, Meteorologia, Cincias Ambientais,
Microscopia, Odontologia, Fsica Nuclear, Engenharias, Geologia e Geografia
(MINGHIN; LEVKOWITZ, 2006).
Por meio de Visualizao podem ser utilizadas tcnicas interativas que
permitam rpida e facilmente alterar o tipo de informao analisada. As tcnicas
de interao sero vistas com mais detalhes na seo 2.3. Tambm til para a
percepo de caractersticas que se aplicam a pequenos subconjuntos dos dados
1

Renderizao: O termo "renderizar" (do ingls to render) vem sendo usado na computao
grfica, significando converter uma srie de smbolos grficos num arquivo visual, ou seja, "fixar"
as imagens num vdeo, convertendo-as de um tipo de arquivo para outro, ou ainda "traduzir" de
uma linguagem para outra.(RENDERIZAO, 2008).

27

2 VISUALIZAO

e que poderiam passar despercebida se fossem utilizados somente meios


estatsticos, pois estes consideram basicamente caractersticas genricas.
Para os mtodos visuais no necessrio saber que tipo de fenmeno
deve ser analisado ou que questes especficas devem ser feitas, tal como
acontece com mtodos estatsticos, pois, em termos humanos, tais caractersticas
se tornam explcitas quando os dados so representados graficamente.
Assim, tcnicas e ferramentas de Visualizao tm sido usadas para
analisar e mostrar grandes volumes de dados multidimensionais, freqentemente
variantes no tempo.

2.3 Interao e Navegao


As tcnicas de Visualizao de grandes volumes de informao muito
provavelmente no permitem apresentar toda informao numa nica vista e com
um grau de detalhes desejado. Constantemente ser necessrio analisar regies
dos dados mais de perto ou ver as informaes em ngulos diferentes.
As tcnicas de interao e navegao possibilitam uma maior varredura
no espao virtual permitindo a interao direta do usurio com as informaes
apresentadas. Segundo Furnas e Jul (1997), a navegao definida como o
processo pelo qual as pessoas determinam onde esto, onde est tudo o resto, e
como chegar a objetos ou lugares especficos.
Os principais mtodos de interao com o mundo virtual so estudados
pela Computao Grfica (CG), dos quais a translao, a rotao, o escalamento,
o espelhamento e o cisalhamento permitem ao usurio explorar todo o mundo
virtual. Estas tcnicas de CG so baseadas em transformaes geomtricas
aplicadas aos pontos dos objetos (COHEN; MANSSOUR, 2006).
A translao, matematicamente, consiste em adicionar constantes de
deslocamento em todos os vrtices fazendo com que a imagem se posicione em
outro lugar do espao.

28

2 VISUALIZAO

A rotao responsvel pelo giro de objetos da cena, permitindo o


usurio

analisar

de

diversos

ngulos

as

informaes

mostradas.

Matematicamente, a rotao uma composio de clculos de seno e cosseno


do ngulo de rotao em todos os vrtices da cena em torno de um dos seus
eixos (x, y ou z).
A transformao geomtrica de escala usada para aumentar ou diminuir
objetos da cena. Esta tcnica consiste em multiplicar um valor de escala em todos
os pontos dos objetos.
Espelhamento consiste em girar os objetos em torno de uma linha de
referncia (caso bidimensional) ou ao redor de plano (tridimensional) de modo
que as coordenadas dos pontos dos objetos na posio inicial e os da rotao
mantenham a mesma distancia em relao a estes.
J na operao de cisalhamento h uma variao no valor da coordenada
x em funo do valor da de y. Um exemplo clssico pode ser visto na figura 4,
onde aplicada esta transformao para gerar a italizao de caracteres.

II
Figura 4 - Tcnica de cisalhamento aplicada italizao de caracteres

Espelhamento e cisalhamento so transformaes dificilmente usadas em


tcnicas de Visualizao da Informao, porm de bastante importncia na
Computao Grfica.
Outras tcnicas bastante usadas para interagir com a cena a aplicao
de zoom e pan. Estas tcnicas permitem aproximar ou afastar objetos da cena

29

2 VISUALIZAO

(zoom) ou ento deslocar os objetos da cena (pan) de tal forma que o usurio
possa visualizar diferentes partes do universo.
No zoom, por exemplo, ao contrrio da transformao geomtrica de
escala, a transformao no aplicada nos pontos da cena e sim num incremento
ou decremento do ngulo de viso . Este ngulo funciona como o ngulo de
abertura da lente de uma mquina fotogrfica. A figura 5 mostra o efeito do zoom
quando este ngulo alterado.

Figura 5 - Exemplo do efeito do zoom quando o ngulo alterado (COHEN; MANSSOUR,


2006)

Outros artefatos podem ser teis na anlise dos dados e no


reconhecimento de padres. O uso de cores, iluminao, transparncia e formas
diferenciadas

permitem

uma

identificao

mais

rpida

das

informaes

mostradas. Assim como nas demais, um mapeamento por cores, segundo Branco
(2003), aumenta o grau de percepo o que facilita a distino na visualizao
(Just Noticiable Differences).
Estas tcnicas tambm podem ser usadas para tratar sobreposio de
dados. Em se tratando de pontos que so mapeados num mesmo lugar do
espao, um recurso denominado jittering, onde uma perturbao aleatria
aplicada nos pontos, resolve facilmente este problema. Mas quando a limitao
est na rea de visualizao, a sobreposio pode ser resolvida usando

30

2 VISUALIZAO

transparncia/brilho nos valores com um nvel proporcional ao nvel de


sobreposio (ARTERO, 2005).

2.4 Dados Complexos e Multidimensionais


A visualizao tradicional em duas dimenses e a plotagem de linhas
esto entre as tcnicas mais comuns utilizadas para dados de baixa
dimensionalidade. Porm, para dados com dimenses superiores, estas tcnicas
tradicionais no se aplicam com alto grau de confiabilidade, pois h muita perda
de informaes. Neste contexto, diferentes reas da Visualizao tm feito seus
estudos para aprimorar as tcnicas na interpretao de dados multidimensionais.
Segundo Wong (1997), a Visualizao de Dados multivariveis e
multidimensionais um subcampo importante da Visualizao Cientfica. Foi
estudado separadamente por estatsticos e psiclogos desde antes da
computao ter sido transformada em uma disciplina.
Visualizao Cientfica, Visualizao da Informao, Visualizao de
Dados, Minerao Visual de Dados, Discovery Visualization e Anlise Visual so
alguns dos termos comumentes usados para designar diferentes reas da
Visualizao. Estas reas de estudos so facilmente confundidas entre si, pois
no possuem diferenas claras e nem uma metodologia universal que permita a
diviso nestas reas.
Por exemplo, enquanto que a Visualizao Cientfica est preocupada em
estudar dados de natureza fsica, que geralmente possuem uma caracterstica
especial, facilitando seu mapeamento em representaes tridimensionais (3D), a
Visualizao da Informao se preocupa na anlise de dados abstratos que no
possuem referncias espaciais e cuja complexidade aumentada devido s
grandes quantidades de informaes. Segundo Rhyne (2003), as fronteiras
destas reas no so ntidas e nem est claro que haja vantagens nesta
separao.

31

2 VISUALIZAO

Optou-se por usar, neste trabalho, o termo Visualizao de Dados, ou


simplesmente Visualizao rea de estudo mais genrica que engloba a
Visualizao da Informao e a Visualizao Cientfica.
A tentativa de integrar os termos Visualizao da Informao com
Minerao de Dados (Data Mining), principal etapa do processo de descoberta de
informaes em banco de dados (KDD Knowledge Discovery Databases) que
ser estudada com mais detalhes no captulo 3, deu origem ao termo Minerao
Visual de Dados (Visual Data Mining) (GANESH et al, 1996; KEIM; KRIEGEL,
1996; WONG, 1999; BRANCO, 2003). Outros termos como, Discovery
Visualization (RIBARSKY et al, 1999) e Anlise Visual (ROHRER; SIBERT;
EBERT, 1999) tambm so usados com este propsito.
A figura 6 mostra a diferena visual destas reas de estudos. esquerda,
na figura 6(a), uma imagem tpica de Visualizao Cientfica onde esto
representados

dados

meteorolgicos

de

presso

atmosfrica.

Nesta

representao tcnicas como mapeamento por cores, planos de cortes,


isocontornos, texturas, visualizao de volumes e visualizao de geometrias de
terreno podem ser observados. direita, na figura 6(b), uma representao visual
de dados usando tcnicas de Visualizao de Informaes. As tcnicas Glyphs e
Coordenadas Paralelas esto nesta representao.

Figura 6 - Diferenas visuais entre as reas (a) Visualizao Cientfica (JOHNSON;


EDWARDS, 2007) e (b) Visualizao da Informao (FARNEA; CARPENDALE; ISENBERG,
2005; FARNEA, 2006)

32

2 VISUALIZAO

2.5 Sistemas de Visualizao e suas Exigncias


Um Sistema de Visualizao (SV) pode ser entendido como um processo
que deve ser iniciado pela anlise dos dados, verificando que tipos de
informaes podero ser extradas e quais tcnicas podero ser usadas. Ento,
este

processo

abrange

desde

anlise

dos

dados,

passando

pelo

desenvolvimento e at a execuo de um sistema usado para analisar


visualmente as imagens.
Como um programa, o Sistema de Visualizao executa certas
transformaes nestes dados e os exibe atravs de uma representao visual. O
desenvolvedor da visualizao deve considerar as exigncias bsicas para
assegurar que as tcnicas de transformao e de visualizao a serem aplicadas
aos dados sejam as apropriadas no sentido de que transmitam um alto grau de
percepo. Este passo importante nas exigncias do processo, porque,
utilizando-se tcnicas de visualizao imprprias para analisar os dados podemse tirar concluses errneas.
O processo de visualizao de dados passa necessariamente por trs
passos fundamentais, que so: a aquisio dos dados, a transformao em uma
forma apropriada para representao e a renderizao (rendering) ou
representao na tela do monitor ou em outro display (ou superfcie de
visualizao). As tcnicas de visualizao envolvem, portanto, algoritmos de
processamento de dados que extraem os dados de interesse da amostra e os
convertem em uma forma adequada para representao (BURIOL, 2006; SILVA
NETO; BURIOL; SCHEER, 2007; BURIOL et al, 2007)
A Figura 7 ilustra o modelo de processo de visualizao conhecido por
Fluxo de Dados (dataflow). Este modelo, que influenciou o desenvolvimento de
diversos Sistemas de Visualizao (WALTON, 1993), orientado aos dados, isto
, nele os dados so transformados por meio de passos lgicos at a
representao final.

33

2 VISUALIZAO

Figura 7 - Modelo de fluxo de dados para obteno da imagem

A primeira transformao descrita como filtro. Utilizando os dados brutos


reais ou de uma simulao e convertendo-os em um formato que esteja pronto
para as operaes de visualizao subseqentes.
O segundo passo, chamado mapeamento da visualizao mapeia os dados
para um objeto de visualizao. Estes objetos tm atributos como geometria, cor,
tempo, transparncia, luminosidade e reflexo, que sero usados para retratar o
significado dos dados ao espectador.
O terceiro passo faz a renderizao e aplica operaes como translao,
rotao e escurecimento, sombreando e dando aspectos mais realsticos (ou
ressaltando caractersticas) aos objetos de visualizao criados no passo anterior.
Sem perda da generalidade, pode-se utilizar o modelo de Card, Mackinlay
e Shneiderman (1999), onde dados brutos (coletados ou gerados por algum
processo) so transformados em tabelas. Aqui cabe ressaltar que o uso de
tabelas uma simplificao desnecessria, pois os dados podem ser
representados em outros tipos quaisquer de estruturas de dados, dependendo da
aplicao.
Um SV deve ser desenvolvido com a finalidade de transformar dados em
imagens. Alm disso, deve-se considerar tambm qual o pblico que este sistema
ir atingir. Segundo Carvalho (2001), pode-se dividir este pblico em trs tipos de
visualizao: visualizao individual, visualizao em grupo e visualizao para o
pblico em geral.


Visualizao individual: visualizao preparada para a percepo por


somente uma pessoa, no precisando de informaes extras, como
legenda, cores, pois o usurio j est familiarizado com os dados;

34

2 VISUALIZAO

Visualizao em grupo: ao contrrio da visualizao individual, aqui a


visualizao voltada para um grupo de pessoas partindo do princpio
que estes j estejam familiarizados com os conceitos cientficos e com
os dados que esto sendo trabalhados. Informaes adicionais, como
as cores e legendas devem ser adotados;

Visualizao para o pblico em geral: neste caso, um prottipo dever


ser realizado para verificar a correta e adequada utilizao dos dados,
fazendo uso de diversas tcnicas e explorando as visualizaes extras
como barra de cores, legendas. Devem-se transmitir conceitos de
Visualizao Cientfica para o usurio no cientfico, pois estes no tm
experincias com tcnicas de Visualizao e no entendem a
complexidade dos dados cientficos.

Os avanos ocorridos nas tecnologias de obteno de dados e informaes


por simulaes computacionais e medidores (sensores), fizeram com que
surgisse uma demanda de ferramentas grficas e de auxlio computacional como
apoio ao processo de interpretao dessas informaes. Estes avanos, segundo
Santos (2007), permitiram que os SV evolussem de acordo com quatro tipos
diferentes que ainda se utilizam: Bibliotecas Grficas, Sistemas Interativos,
Sistemas de Programao Visual e Visualizao Atravs da Internet.
Neste trabalho, elaborou-se uma nova classificao para Sistemas de
Visualizao. Alm dos propostos por Santos (2007), um novo tipo foi adicionado,
Sistemas Interpretativos. E o Sistema de Programao Visual foi subdividido em
dois tipos, Linguagens de Programao Visual e Ambientes de Programao
Visual. Alguns conceitos foram modificados a fim de reclassificar os novos tipos
de Sistema de Visualizao.
Assim, esta nova classificao para SV resultou em seis tipos:


Linguagens de Programao Visual

Ambientes de Programao Visual

Bibliotecas Grficas

Sistemas Interpretativos

Sistemas Interativos

35

2 VISUALIZAO

Sistemas de Visualizao Atravs da Internet

Os Sistemas de Programao Visual, que surgiram em torno de 1980, so


sistemas que fornecem mdulos que implementam passos simples do Pipeline de
Visualizao2. Os mdulos so ligados por programao visual sem necessidade
de programao. Ou ento, atravs da programao, novos mdulos podem ser
adicionados.
Os Sistemas de Programao Visual podem ser divididos em dois tipos:
Ambientes de Programao Visual e Linguagens de Programao Visual.
Ambientes, como o Microsoft Visual Studio, que possuem recursos que englobam
uma ou mais linguagens de programao e permitam desenvolver interfaces
grficas (Visual C#, Visual J#, Visual Basic, Qt, Fltk, NetBeans, Tcl/TK), so
facilmente confundidos com as Linguagens de Programao Visual.
Aqueles so Ambientes de Programao Visual, que utilizam ferramentas
que facilitam na organizao textual do cdigo fonte para uma determinada
linguagem de programao (Java, C, C++, C#, Visual Basic), ou seja, permitem a
construo de um cdigo fonte em forma de texto (especificao de dilogos e
interfaces de usurio, baseadas em janelas, por exemplo) e que corresponde s
informaes grficas adicionadas (como os botes, formulrios, reas de texto).
J as Linguagens de Programao Visual, so linguagens de programao que
permitem aos usurios desenvolvedores manipular elementos graficamente e no
s por especificao textual. A maioria das Linguagens de Programao Visual
so baseadas na idia de caixas e setas, ou seja, caixas ou crculos e outros
elementos grficos teis na construo de diagramas, tratados como objetos da
tela, ligados por setas, linhas ou arcos (JOHNSTON; HANNA; MILLAR, 2007). A
tabela 1 exemplifica algumas das Linguagens de Programao Visual existentes.
Na primeira coluna apresentado o nome da linguagem, na segunda, uma breve
descrio e onde esta linguagem pode ser encontrada.

Pipeline de Visualizao: seqncia de passos que devem ser realizados para a visualizao
do manipulador na tela. A cada alterao no manipulador, o pipeline deve ser novamente
aplicado de forma a manter a consistncia da exibio.

36

2 VISUALIZAO
Tabela 1 - Linguagens de Programao Visual
Linguagem de
Programao
Visual
Iris Explorer

AVS

VisiQuest

OpenDx

LabVIEW

Informaes
Ires Explorer: Desenvolvido inicialmente pela Silicon Graphics, uma
poderosa ferramenta para desenvolvimento de aplicaes grficas.
http://www.nag.co.uk/welcome_iec.asp
AVS Advanced Visual System: Software usado para criar
aplicaes de visualizao de dados multidimensionais.
www.avs.com
VisiQuest: Sucessor do Khorus. Permite processamento de imagens,
e anlise de dados atravs de solues visuais.
www.accusoft.com/imaging/visiquest
OpenDx: Desenvolvido com base no IBM Visualization Data Explorer.
OpenDX uma ferramenta que possui diversas funcionalidades e
possui vrios pacotes para a visualizao de informaes cientficas,
de engenharia e de anlise de dados. Seu sofisticado modelo de
dados fornece aos usurios uma grande flexibilidade na criao de
visualizaes.
www.opendx.org
LabVIEW - Laboratory Virtual Instrument Engineering Workbench:
uma linguagem de programao grfica pertencente National
Instruments. A primeira verso surgiu em 1986 para o Macintosh, e
atualmente existem ambientes de desenvolvimento integrado
tambm para Windows, Linux e Solaris. O principal campo de
aplicao na tcnica de medio e na automatizao.

MeVisLab

http://www.ni.com/labview/whatis/
MeVisLab: Linguagem de programao visual destinado a criao de
mtodos cientficos e software para medicina assistida e radiologia,
em especial, incluindo diagnstico auxiliado pelo computador,
planejamento teraputico.

AgentSheets

http://www.mevislab.de/
AgentSheets: Usado principalmente na educao para ensinar os
alunos sobre a programao e multimdia atravs de jogos e cincia
computacional.

Outros

http://www.agentsheets.com/
Alice, Amiga Vision, Analytica, Automator, Baltie, CanDO, CODE,
DRAKON, Flow, G, Hollywood Designer, jMax, Ladder logic, Lava,
Limnor, Max/MSP, Mindscript, OpenMusic, Pipeline Pilot, Prograph,
Pure Data, Quartz, Composer, SCADE, Scala Multimedia Authoring,
Simulink, Built on Squeak, Etoys scripting, Scratch, Stagecast
Creator, Subtext, SynthMaker, Tersus, ThingLab, ToonTalk, Turtle
Art, VEE, VisSim, virtools, WireFusion.

37

2 VISUALIZAO

A partir de 1960, as Bibliotecas Grficas j permitiam desenhar contornos e


outros tipos de grficos simples. Estas so utilizadas via cdigos em vrias
linguagens e exigem programao e so bastante flexveis quanto necessidade
do usurio. Atualmente, as Bibliotecas Grficas permitem desde o tratamento
simples nos dados, como a criao de polgonos e linhas, at um tratamento mais
avanado, como desenvolvimento de aplicaes grficas que abusam de recursos
grficos como desenvolvimento de desenhos animados e cenas de efeitos
especiais. Diversas tcnicas esto sendo estudadas e desenvolvidas por
pesquisadores a fim de aprimorar e aperfeioar estes conceitos.
A

tabela

ilustra

alguns

exemplos

de

bibliotecas

usadas

no

desenvolvimento de animaes das mais diferentes reas, incluindo a indstria de


jogos, cientfica e de animao.

Tabela 2 - Bibliotecas Grficas


Biblioteca grfica

NAG

Informaes
NAG - Numerical Algorithms Group: uma biblioteca open source
composta de um vasto conjunto de rotinas em FORTRAN para
soluo de problemas numricos e estatsticos.

VTK

www.nag.co.uk
VTK Visualization ToolKit: Biblioteca Grfica para desenvolvimento
de aplicaes baseado em computao grfica, processamento de
imagem e visualizao. Rotinas desenvolvidas em C++. Possui
interface para Tcl/TK, Java, Python. Desenvolvido pela KitWare. Inc.

ITK

www.vtk.org
ITK Insight Toolkit: Biblioteca open source usada para
desenvolvimento de aplicaes mdicas. Implementada em C++ e
possui interface para Tcl/TK, Java, Python. Desenvolvida pela
KitWare. Inc.

IVTK

www.itk.org
IVTK InfoVis ToolKit: Pacote grfico interativo escritos em Java.
Inclui uma srie de componentes para anlise visual de dados, dentre
as quais, rvore de Decises e Coordenadas Paralelas.
http://ivtk.sourceforge.net/

38

2 VISUALIZAO

Biblioteca grfica

VIS5D

Informaes
VIS5D Visualization in Five Dimension: Biblioteca cientfica usada
para visualizao volumtrica baseada em OpenGl. um sistema
interativo para a visualizao de grandes em dimenses como os
produzidos pelos modelos numricos meteorolgicas.

VISAD

http://www.ssec.wisc.edu/~billh/vis5d.html
VISAD - Visualization for Algorithm Development: uma biblioteca
desenvolvida originalmente em Java usada na visualizao e anlise
de dados numricos.

OpenGL

OpenMap

http://www.ssec.wisc.edu/~billh/visad.html
OpenGl Open Graphics Library: API grfica multiplataforma e
multilinguagem usada na construo de aplicaes 3D ou 2D. Possui
mais 250 funes diferentes capazes de construir cenas
tridimensionais complexas. Bastante usada na indstria de jogos.
Compete diretamente com o DirectX (no microsoft windows).
www.opengl.org
OpenMap Open System Mapping Technology: Biblioteca em Java
de desenvolvimento de aplicaes e Applets aplicados em
informaes geogrficas.
http://openmap.bbn.com/

Neste trabalho, adotou-se o nome de Sistemas Interpretativos aos sistemas


que utilizam menus ou uma linguagem de comandos. Em geral, estes sistemas
permitem a visualizao dos dados atravs da interpretao de scripts oriundas
de arquivos textos ou de linhas de comandos no havendo necessidade de
escrever programas.
Este mesmo conceito foi enunciado por Santos (2007), porm para
Sistemas Interativos. Aqui no se considerou adequado usar esta nomenclatura
pelo fato deste tipo de sistema interpretar linhas de comando alm de no lidar
diretamente com a interao das visualizaes. Os Sistemas Interpretativos so
mais simples de serem usados do que as Bibliotecas Grficas, porm so menos
flexveis e exigem um conhecimento dos comandos disponveis. A tabela 3 ilustra
alguns exemplos destes sistemas.

39

2 VISUALIZAO
Tabela 3 - Sistemas Interpretativos
Sistemas
interpretativos

GnuPlot

MatLab

IDL

Maple

GraDS

Octave

Informaes
GnuPlot: um aplicativo de domnio pblico, destinado construo de
grficos e superfcies. uma poderosa ferramenta. Uma caracterstica
importante deste aplicativo o fato de se ter arquivos binrios para diferentes
sistemas operacionais, possibilitando que um arquivo script seja executado
em diferentes plataformas.
www.gnuplot.info
MATLAB - MATrix LABoratory: um software interativo de alta performance
voltado para o clculo numrico. O MATLAB integra anlise numrica, clculo
com matrizes, processamento de sinais e construo de grficos 3D e 2D.
Permite tratamento de imagens e uso de tcnicas de visualizao cientfica e
computao grfica.
http://www.mathworks.com/
IDL: Software ideal para anlise de dados, visualizao, e desenvolvimento
de aplicao multi-plataforma.
http://www.ittvis.com/idl/
Maple: um sistema de lgebra computacional comercial de uso genrico.
Constitui um ambiente informtico para a computao de expresses
algbricas, simblicas, permitindo o desenho de grficos a duas ou a trs
dimenses. O seu desenvolvimento comeou em 1981 pelo Grupo de
Computao Simblica na Universidade de Waterloo em Waterloo, no
Canad, provncia de Ontrio.
http://www.scientific.de/maple.html
GraDS: uma ferramenta de desktop interativa que est atualmente em uso
global analise e exibio de cincias da Terra. Trabalha com dados de
modelos de 4 dimenses (latitude, longitude, nvel e tempo). O GraDS possui
um rico conjunto de funes embutidas. O usurio pode adicionar suas
prprias rotinas externas escritas em qualquer linguagem de programao.
http://www.iges.org/grads/
R: Pacote para anlise estatstica de dados com interface por linha de
comando. Tcnicas como anlise de covarincia, componentes principais,
correlao, Coordenadas Paralelas podem facilmente serem usadas.
http://cran.r-project.org/
Octave: Clone do MATLAB. Trabalha facilmente com matrizes e dados
estatsticos e possui praticamente todas as classes do MATLAB.
http://www.octave.org/

Entende-se por Sistemas Interativos, sistemas nos quais o usurio pode


alterar parmetros e de forma interativa ver as alteraes realizadas. Estes no

40

2 VISUALIZAO

exigem programao e, em geral, usam recursos de Bibliotecas Grficas no seu


desenvolvimento. Os softwares so desenvolvidos com o intuito de que usurios
possam visualizar seus dados sem ter conhecimentos de programao. A Tabela
4 mostra alguns destes Sistemas Interativos.

Tabela 4 - Sistemas Interativos


Sistemas
interativos
Amira

DataViewer

Paraview

Radvis

Velocity

XmdvTool

Informaes
Amira Visualize, Analyse, Present: Software de visualizao e analise de
dados, bastante usado na rea biolgica mdica.
http://www.amiravis.com
DataViewer: um sistema de visualizao de dados para PCs, desenvolvido
com base na ferramenta VTK que possui uma interface grfica que permite
controlar diversos parmetros dos algoritmos de visualizao fornecendo ao
usurio maior liberdade de interao com os dados sob investigao.
http://rbv.cesec.ufpr.br/
ParaView: Software open source e multi-plataforma. Permite aplicaes para
visualizar conjuntos de dados de tamanho varivel, de pequeno a grande.
Usa a biblioteca VTK para gerar as visualizaes e possui interface grfica
Qt.
http://www.paraview.org
3
RadVis Radar Visualisation: Software desenvolvido pelo SIMEPAR para
analise visual de dados de radar meteorolgico. Permite visualizar locais e
concentraes de chuva alm de fazer animaes. O RadVis foi desenvolvido
utilizando a tecnologia Web Start do Java e a bibliotca grfica VisAD para
gerar suas visualizaes.
http://www.simepar.br/radvis/
Velocity: Software de visualizao que inclui funcionalidades para visualizar
dados 2D, 3D e 4D. Avaliado para MacOS e Windows.
http://www.improvision.com/products/volocity/volocity_le/
XmdvTool: Software livre para interao e explorao visual de dados
multivariveis. Desenvolvido usando as bibliotecas grficas OpenGl e VTK.
Incluem tcnicas de visualizao da informao como Scatterplots, Star
Glyphs, Parallel Coordinate, Dimensional Stacking, Pixel-oriented Display.
http://davis.wpi.edu/~xmdv/

SIMEPAR Instituto Tecnolgico do Paran: responsvel pela execuo das atividades de


monitoramento e previso de tempo, elaborao de laudos meteorolgicos e fornecimento de
dados hidrometeorolgicos, bem como pela disseminao dos mesmos. (www.simepar.br)

41

2 VISUALIZAO

Sistemas
interativos
xgobi, rgobi,
ggobi, xgvis

MDV

CViz

SisRaios

SatVis

ParVis

HCE

KLIMT

Mondrian

GAUGUIN

Informaes
xgobi, rgobi, ggobi, xgvis: Sistema interativo para visualizao de dados
multivariados. Incluem Coordenadas Paralelas e Scatterplots, Dimension
Stacking.
http://www.research.att.com/areas/stat/xgobi/index.html
MDV Multidimensional Visualisation: Programa desenvolvido para anlise
de dados multidimensionais. Possui uma srie de tcnicas da Visualizao da
Informao implementadas. (Artero,2005)
CViz: Ferramenta projetada para analise visual de dados de alta
dimensionalidade, em geral, conjuntos de dados complexos. CViz facilmente
carrega os conjuntos de dados e exibe os fatores mais importantes
relacionados com a agregao dos registros.
http://www.alphaworks.ibm.com/tech/cviz
SisRaios: Software desenvolvido no SIMEPAR para monitoramento em
tempo real da localizao de ocorrncias de descargas eltricas
atmosfricas. Desenvolvido em Java com auxlio da Biblioteca OpenMap.
http:// www.simepar.br
SatVis - Satellite Visualisation: Aplicativo desenvolvido pelo SIMEPAR para
visualizar imagens do Satlite GOES e NOAA. Foi implementado em
linguagem Java e usa a biblioteca grfica VTK para apresentao das
imagens.
http://www.simepar.br
ParVis: Ferramenta para anlise visual de dados multidimensionais a partir da
tcnica de Visualizao da Informao Coordenadas Paralelas. O ParVis
permite alterar as posies dos eixos de forma interativa.
http://home.subnet.at/flo/mv/parvis/
HCE Hierarchical Clustering Explorer: Sistema para anlise exploratria de
grandes conjuntos de dados. Incluem tcnicas de clusterizao de forma que
todas possam ser vistas numa mesma tela facilitando a extrao do
conhecimento por comparao entre elas.
http://www.cs.umd.edu/hcil/hce/
KLIMT Klassification - Interactive Methods for Trees: Software interativo
para analise de dados com foco na classificao e regresso por rvores de
deciso. Desenvolvido em Java.
http://stats.math.uni-augsburg.de/KLIMT
Mondrian: Sistema de visualizao de dados. Diversas tcnicas estatsticas e
de visualizao esto disponveis.
http://stats.math.uni-augsburg.de/Mondrian/
GAUGUIN Grouping And Using Glyphs Uncovering Individual Nuances:
Software para anlise interativa de dados multivariados usando Glyphs.
http://stats.math.uni-augsburg.de/software/

42

2 VISUALIZAO

Sistemas
interativos

CASSATT

Informaes
CASSATT Coordinate Analysing Statistical Software Applying Tandem
Transformation: Software para anlise exploratria de dados a partir de
Coordenadas Paralelas.
http://stats.math.uni-augsburg.de/CASSATT/

O sexto tipo de Sistema de Visualizao surgiu da necessidade de explorar


visualmente grficos 3D em ambientes interativos na Internet. Na Visualizao
Atravs da Internet, o servio de visualizao fornecido usando tecnologias
web, das quais duas so bastante conhecidas: Java-Applets (programas
desenvolvidos em linguagem Java que podem ser includos em uma pgina
hipertextual em HTML) e VRML (Virtual Reality Modeling Language). A tecnologia
Java-Applets permite executar / processar informaes diretamente no cliente. J
na tecnologia VRML, a visualizao devolvida aps um pedido do cliente via
Internet, cujas informaes so processadas num SV do servidor.
Portanto, a escolha de uma tcnica de visualizao fortemente
dependente das caractersticas dos dados que sero analisados. Em outras
palavras, a deduo de exigncias de SV para uma correta visualizao deve
comear com a anlise dos dados. Aps esta anlise inicial, deve-se buscar
desenvolver um prottipo para experimentar as funcionalidades desejadas para a
parte visual do sistema e definir qual a linguagem ou ambiente de
desenvolvimento e as bibliotecas que sero usadas, no deixando de considerar
o pblico que se pretende atingir.

2.6 Consideraes Finais


Inicialmente, neste captulo foram apresentados os principais conceitos
sobre Visualizao em suas reas como Visualizao Cientfica e Visualizao da
Informao. O termo Minerao Visual de Dados usado com o objetivo de

43

2 VISUALIZAO

auxiliar o processo de descoberta de informaes em base de dados (Processo


KDD) na tentativa de unir as reas de VI e MD na extrao do conhecimento.
A Visualizao baseada em tcnicas que transformam os dados
numricos em imagens bi ou tri-dimensionais. Imagens em trs dimenses tornam
possvel um maior grau de interatividade com o usurio, permitindo o passeio no
interior dos dados atravs de rotaes, translaes e outras operaes de
visualizao. Parmetros visuais, como transparncia, luminosidade, tambm
podem ser exploradas.
Foi apresentado tambm um modelo de visualizao denominado Fluxo
de Dados proposto por Walton (1993), que atravs de transformaes aplicadas
nos dados (filtro, mapeador e renderizao) transformam as informaes dos
dados em imagem, devendo levar em considerao o pblico para o qual ser
feita a visualizao, verificando se o(s) usurio(s) est(o) familiarizado(s) com os
conceitos cientficos e com as tcnicas de visualizao a serem exploradas.
Finalmente,

foi

apresentado

um

levantamento

de

Sistemas

de

Visualizao com uma classificao sugerida em seis tipos, sendo eles:


Linguagens de Programao Visual, Ambientes de Programao Visual,
Bibliotecas Grficas, Sistemas Interpretativos, Sistemas Interativos, Sistemas de
Visualizao Atravs da Internet.

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

3.1 Consideraes Iniciais


Empresas e instituies de uma forma geral esto podendo armazenar
dados em grandes quantidades das mais variadas fontes. Isso se tornou possvel
graas ao avano da informtica. A partir da dcada de 80, diversos estudos
comearam a ser realizados para extrair informaes valiosas escondidas
nestes dados. Um dado se transforma em informao quando este passa a ter
algum significado para seu utilizador.
A explorao de dados na busca de informaes um conjunto de
atividades contnuas que compartilham o conhecimento descoberto. A este
processo, deu-se o nome de Knowledge Discovery in Databases (KDD).
O termo KDD que foi criado em 1989, refere-se ao amplo processo de
descoberta de informao em banco de dados, na qual se enfatiza a aplicao de
alto nvel do mtodo particular Minerao de Dados (MD). Enquanto que a etapa
de MD se destaca pela extrao de padres escondidos nos dados, o processo
completo KDD mais amplo e abrange todos os processamentos (seleo, prprocessamento, e transformao dos dados) necessrios para que isso ocorra,
tornando possvel, aps tcnicas de MD, avaliar e interpretar os resultados
obtidos.
Na etapa Minerao de Dados, principal etapa do KDD, diversas tarefas
podem ser realizadas, como anlise de regras de associao e anlise de
agrupamentos. Para cada tarefa, diversas tcnicas podem ser aplicadas. Dentre
as principais tcnicas utilizadas em minerao de dados, tm-se tcnicas

45

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

estatsticas, tcnicas de aprendizado de mquina, tcnicas baseadas em


crescimento-poda-validao e tcnicas visuais conhecidas por Visualizao da
Informao (VI).
Neste captulo sero vistos os conceitos envolvidos no Processo KDD
para cada uma de suas etapas. Alm de integrar ao processo visualizao
usada como apoio extrao do conhecimento, procedimento conhecido por
Minerao Visual de Dados (MVD).

3.2 Etapas do KDD


O processo de descoberta do conhecimento (KDD - Knowledge Discovery
in Databases) considerado, segundo alguns autores, como sendo uma anlise
inteligente dos dados, pois extraem das bases de dados informaes triviais e no
triviais que podem ser desconhecidas e potencialmente teis.
Se os especialistas elaborarem uma norma (ou regra), a interpretao do
confronto entre o fato e a regra constitui um conhecimento (GIMENES, 2007).
Sendo assim, o principal objetivo do Processo KDD obter o conhecimento de
informaes escondidas nos dados que sejam teis nas tomadas de decises.
Essa tarefa possui natureza interativa e iterativa, de tal forma que no se pode
esperar obter conhecimento til pelo simples fato de introduzir uma grande
quantidade de dados em um determinado programa ou sistema.
Por ser um processo interativo, o KDD envolve profissionais que devem
possuir uma boa comunicao, viabilizando a troca de informaes. Estes
profissionais possuem diferentes especialidades e cada um com seu papel dentro
do processo.
Para Batista (2003) e Lourdes (2007), o analista de dados a pessoa que
tem conhecimento sobre o funcionamento dos algoritmos e das ferramentas
utilizadas no processo, mas no conhece o domnio aos quais os dados
pertencem. J o especialista no domnio, aquele que tem conhecimento na rea
onde ser aplicado o Processo KDD, no necessariamente precisa conhecer as

46

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

tcnicas, responsveis pela manuteno, programao e limpeza nos bancos de


dados. E o usurio, quem estabelece os critrios de avaliao e decide se o
conhecimento ser utilizado em alguma deciso (diretores, gerentes, pessoas de
nvel gerencial e executivo). O usurio deve participar de todo o processo, isso lhe
dar a confiabilidade necessria dos resultados obtidos.
O Processo KDD envolve reas relativas ao Aprendizado de Mquina,
Reconhecimento de Padres, Bases de Dados, Estatstica e Matemtica,
aquisio de conhecimento para Sistemas Especialistas e Visualizao de Dados.
Este processo utiliza mtodos, algoritmos e tcnicas oriundos destas diversas
reas, com o objetivo principal de extrair conhecimento a partir de grandes bases
de dados. A figura 8 mostra a relao entre estas diversas reas.

Figura 8 - Relao das reas do Processo KDD (GIMENES, 2000)

O Aprendizado de Mquina a rea onde so utilizados modelos


cognitivos ou estratgias de aprendizado de mquina, bem como os paradigmas
para a aquisio automtica de conhecimento.
Na rea Reconhecimento de Padres concentram-se estudos sobre as
teorias e os algoritmos para extrao de padres e modelos.
Na rea Bases de Dados existem tecnologias especficas, bem como uma
srie de pesquisas que objetivam melhor explorar as caractersticas dos dados a
serem

trabalhados.

Tem-se,

por

exemplo,

pesquisas

que

trabalham

interativamente com bases de dados relacionais de clientes em atividades de


marketing.

47

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

Modelos Matemticos ou Estatsticos podem ser construdos para


determinar regras, padres e regularidades. No caso especfico da Estatstica,
essa disponibiliza um grande nmero de procedimentos tcnicos e testes para as
tarefas de Minerao de Dados. Algumas sero apresentadas no captulo 4.
Os Sistemas Especialistas so programas complexos de Inteligncia
Artificial4 criados para resolver problemas do mundo real. Inicialmente, estes
sistemas ofereciam apenas mecanismos para a representao do conhecimento,
raciocnio e explicaes. Posteriormente foram incorporadas ferramentas para a
aquisio do conhecimento.
Finalmente, a Visualizao que inclui diversas tcnicas que podem ser
usadas para apoiar ou serem apoiadas na interpretao e na gerao dos
resultados. Alm de poder visualizar vrias informaes numa mesma imagem de
forma interativa, permitindo navegar e selecionar reas importantes. Em se
tratando de dados oriundos de tabelas sem comportamento espacial, diversas
tcnicas de Visualizao da Informao sero estudadas no captulo 5.
Para Fayyad (1996), o Processo KDD um conjunto de atividades
contnuas que so compostas por cinco etapas, Seleo dos Dados, Prprocessamento e Limpeza, Formatao ou Transformao, Minerao de Dados
e Interpretao (ver figura 9).

Figura 9 - Etapas do Processo KDD (FAYYAD, 1996)


4

Inteligncia Artificial: rea de estudo que tem por objetivo imitar os comportamentos da
natureza. A tcnica rede neural, por exemplo, uma tentativa de imitar a capacidade que os seres
humanos tm para processar e armazenar informaes de forma inteligente.

48

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

Inicia-se o processo com o entendimento do domnio da aplicao e dos


objetivos a serem atingidos. Ento uma seleo poder ser realizada nestes
dados a fim de trabalhar com os dados de interesse. Logo em seguida vem a
etapa de limpeza, atravs de um pr-processamento dos dados. Os dados prprocessados podem ainda ser modificados, a fim de facilitar o uso das tcnicas de
Minerao de Dados. As etapas de pr-processamento e transformao podem
levar at 80% do tempo necessrio para todo o processo (SILVER, 1996).
Prosseguindo no processo, chega-se a etapa de Minerao de Dados,
onde diversos mtodos podem ser usados para extrao de informaes as quais
so apresentadas a ltima etapa do KDD, a interpretao destes resultados, onde
o conhecimento adquirido.
Se o resultado final no for satisfatrio, todo o processo pode ser
realimentado alterando algumas informaes as quais podem ser reprocessadas
nas etapas anteriores.

3.2.1 Seleo

Uma vez definido o domnio de trabalho para o qual se deseja adquirir o


conhecimento, deve-se selecionar e coletar o conjunto de dados ou variveis
necessrias, ou seja, escolher os dados que realmente sero teis no processo
KDD. A escolha dos dados a serem estudados uma operao importante na
obteno dos resultados finais, pois todo o processamento seguinte baseado
unicamente neles.
A Seleo pode ser uma fase crtica, pois muitas vezes os dados podem
no estar no formato desejado, ou estarem em outros bancos de dados ou ainda
estarem ausentes nestes bancos. As causas que levam situao de ausncia
de dados so a no disponibilidade do dado ou a inexistncia do mesmo. Para
estes tipos de situaes, cuidados especiais devem ser levados em considerao
e sero tratados na etapa pr-processamento dos dados.

49

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

3.2.2 Pr-Processamento de Dados

A etapa Pr-processamento de Dados a atividade pela qual os rudos,


dados estranhos ou inconsistentes so tratados e onde so estabelecidas as
estratgias para resolver os problemas de ausncia de dados. Estes dados so
ento pr-processados e armazenados em forma de tabelas.
As estratgias para tratar as ausncias de dados podem ser feitas das
seguintes maneiras, podendo ser atravs da anlise dos dados brutos, utilizado
algoritmos apropriados:


A primeira excluir os registros que apresentam algum dado no


preenchido. Entretanto, necessrio verificar quantos registros se
encontram nesta situao para avaliar a perda de informao
decorrente.

A segunda alternativa consiste em preencher os campos incompletos,


usando uma interpolao, realizada a partir de uma anlise dos demais
registros. A mdia e mediana dos valores tambm podem ser utilizadas
no caso de atributos quantitativos. Uma anlise em sries temporais
tambm pode ser usada para determinar tais dados.

A terceira maneira de tratar o problema consiste em excluir aqueles


dados que apresentam muitos registros com valores no preenchidos, o
que consiste de fato em uma nova seleo de dados. Esta escolha
precisa ser feita com bastante critrio, considerando a anlise a ser
realizada.

A etapa de pr-processamento tem conseqncias cruciais nas demais


etapas do Processo KDD, e os resultados ao final do processo podem sugerir
novas tentativas com diferentes configuraes. Por fim, as decises mais
indicadas so aquelas que minimizam a perda de informaes.

50

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

3.2.3 Transformao de Dados

Nesta fase, os dados devero ser modificados de acordo com o algoritmo


que ser aplicado, representando-os mais adequadamente para as manipulaes
a serem realizadas pelas tcnicas de Minerao de Dados, por exemplo,
mapeando dados categricos em valores numricos. Ainda nessa fase podem ser
feitas combinaes de atributos para reduzir a dimensionalidade dos dados.
Em geral, campos representando datas e horrios precisam ser
convertidos em formas numricas. Para estes valores, que possuem uma ordem
natural, uma converso bastante utilizada, consiste em obter, no caso de datas no
formato dd/mm/yyyy, o valor inteiro que corresponde ao nmero de dias
transcorridos desde o dia 01/01/1900 (datas anteriores resultam em nmeros
negativos). Uma converso similar pode ser aplicada a dados que informam
horrios.

3.2.4 Minerao de Dados

A Minerao de Dados (MD) uma tecnologia usada para revelar


informaes escondidas em grandes massas de dados. usada em diversas
reas, como anlise de riscos, marketing direcionado, controle de qualidade,
anlise de dados cientficos.
Minerao de Dados define o processo automatizado de captura e anlise
de enormes conjuntos de dados, para ento extrair um significado. Sua utilizao
permite avanos tecnolgicos e descobertas cientficas.
A maioria dos mtodos de MD baseada em conceitos de aprendizagem
de mquina, reconhecimento de padres, estatstica, classificao, clusterizao,
visualizao.
As tarefas de Minerao de Dados consistem na especificao do que se
est querendo buscar nos dados e que tipo de regularidades ou categoria de
padres tem interesse em encontrar.

51

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

Vrias so as tarefas de minerao proposta na literatura cientfica. Dentre


elas, podem-se citar Regras de Associao (AGRAWAL; SRIKANT, 1994),
Classificao (MEHTA; AGRAWAL; RISSANEN, 1996; LU; SETIONO; LIU, 1995),
Anlise de Clusters (NG; HAN, 1994; ESTER et al, 1996; GUHA; RASTOGI;
SHIM, 1998), Anlise de Outliers (KNORR; NG, 1998) e Anlise de Padres
Seqenciais (Anlise Evolutiva) (AGRAWAL; SRIKANT, 1995; AGRAWAL;
SRIKANT, 1996; BREJOVA et al, 2000). A seguir so descritas de forma sucinta
estas principais tarefas de minerao:


Anlise de Regras de Associao: Uma regra de associao um


padro da forma X Y, onde X e Y so conjuntos de valores. Como
exemplo, tem-se a regra de associao {po, leite} {caf}. Esta regra
diz que os clientes que compram po e leite tm uma tendncia de
tambm comprarem caf. Uma regra de associao reflete um padro
de comportamento dos clientes do supermercado. Estas regras podem
ser teis para melhorar a organizao das prateleiras, facilitar (ou
dificultar) as compras do usurio ou induzi-lo a comprar mais.

Classificao e Predio: Classificao o processo de encontrar um


conjunto de modelos (funes) que descrevem e distinguem classes ou
conceitos, com o propsito de utilizar o modelo para predizer a classe
de objetos que ainda no foram classificados. Clientes da faixa
econmica baixa, com idade entre 50 e 60 anos so maus
compradores, este um exemplo desta tarefa de minerao.

Anlise de Clusters: Consiste em determinar agrupamentos ou


identificar classes de objetos. Como exemplo, clientes que moram na
zona sul fazem compra no mercado A, enquanto que clientes da zona
norte fazem suas compras no mercado B.

Anlise de Outliers: Outliers so dados que no apresentam o


comportamento geral da maioria em uma base de dados. Como
exemplo prtico, o uso fraudulento de cartes de crdito determinado
identificando compras em valores extremamente altos (outliers), que
fogem do padro habitual de gastos do cliente.

52

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

Anlise de Padres Seqenciais: Um padro seqencial uma


expresso da forma <I1,...In>, onde cada Ii um conjunto de itens.
Conforme a ordem em que esto alinhados, estes conjuntos refletem a
ordem cronolgica em que aconteceram os fatos representados por
estes conjuntos. Como exemplo, tem-se o seguinte padro seqencial,
{[carro], [pneu, toca-fitas]}, ou seja, clientes que compram carro, tempos
depois compram pneu e toca-fitas.

Diversas tcnicas so estudadas para cada uma destas tarefas de


minerao que podem ser realizadas de forma visual. Em particular, no captulo 4,
algumas destas tcnicas sero estudadas.

3.2.5 Interpretao e Avaliao

O analista de dados verifica os resultados obtidos analisando o grau de


satisfao e a consistncia dos resultados com base no tempo de processamento
e taxa de erro. Nesta etapa aconselhvel mais de um especialista no domnio e
todos os profissionais envolvidos no processo. As Interpretaes dos resultados
podem ser feitas atravs de uma anlise numrica dos resultados ou de forma
visual usando tcnicas de Visualizao da Informao.
Essa fase tambm pode realimentar todo o processo, oferecendo novas
informaes que podem ser novamente processadas nas etapas anteriores, em
uma tentativa de refinamento dos resultados.

3.3 Integrao de Visualizao e o Processo KDD


Para Rezende et al (2003), a Visualizao um processo indispensvel na
etapa de Minerao de Dados. A Visualizao da Informao permite ao usurio
adquirir percepes sobre os dados, podendo provocar o surgimento de novas
hipteses (KEIM, 1979). Este mesmo autor acrescenta dizendo que quando

53

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

comparada s tcnicas automticas de Minerao de Dados como s Estatsticas


e Mquinas de Aprendizagens, a explorao visual dos dados apresenta
vantagens excedentes: lida mais facilmente com dados altamente heterogneos e
rudosos, intuitiva, e no requer maior entendimento de complexos algoritmos
ou parmetros da matemtica ou estatstica.
As tcnicas de Visualizao podem ser usadas para dar suporte ao
processo de deciso quando as tcnicas de Minerao de Dados requerem
grande interao com o usurio de forma complexa. A integrao destas reas,
Minerao de Dados e Visualizao d origem ao que hoje conhecida na
literatura por Minerao Visual de Dados (WONG, 1999). De acordo com Wong
(1999), h duas formas de integrar estas reas:


Acoplamento Forte: Aproveita os pontos fortes de cada rea, unindo-as


numa nica ferramenta.

Acoplamento Fraco: As tcnicas das duas reas so intercaladas,


possibilitando um aproveitamento parcial de cada uma.

Figura 10 - Processo de integrao da visualizao ao Processo KDD (ANKERST, 2001)

A figura 10, segundo a proposta de Ankerst (2001), mostra como as


tcnicas de Visualizao podem ser integradas ao processo de Minerao de

54

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

Dados. Nela, observa-se que a Visualizao pode ser usada antes (Visualizao
Anterior) ou depois (Visualizao Posterior) dos algoritmos de MD ou aps cada
interao (Visualizao Fortemente Integrada).
Ankerst (2000) definiu Minerao Visual de Dados, como sendo um passo
no Processo KDD, utilizando a Visualizao como um canal de comunicao
entre o computador e o usurio. Nesta abordagem, a Visualizao seria
empregada principalmente na etapa de Minerao de Dados e na de Avaliao.
Sendo assim, a etapa de MD passa a ser um dos passos em que o usurio pode
introduzir seu conhecimento ao invs de ser um passo meramente automatizado.
Em Ankerst (2001), conforme a figura 11, o Processo KDD pde ser estendido de
forma que o usurio pudesse inserir seu conhecimento em todas as etapas do
processo, no que foi chamado de Processo de Descoberta de Conhecimento
Centrado no Usurio.

Figura 11 - Processo KDD centrado no usurio (ANKERST, 2001)

Portanto, a Visualizao assume um papel importante j que esta pode ser


usada em todo o processo de descoberta facilitando a sua interao com o ser
humano. Por exemplo, uma minerao inicial poder ser feita atravs de tcnicas
de Visualizao da Informao na busca de filtrar a dimenso dos dados

55

3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS

trabalhados. A visualizao de dados pode ser usada tambm para extrair


informaes servindo como apoio ou serem apoiadas para as tcnicas de
Minerao de Dados ou na fase final do Processo KDD onde feita a
interpretao dos resultados.

3.4 Consideraes Finais


As etapas do KDD, analisadas neste captulo, so fundamentais no
processo de descoberta do conhecimento. Caso o resultado seja insatisfatrio, o
processo de extrao do conhecimento poder ser repensado e uma nova
seleo com outro conjunto de dados poder ser o suficiente.
Fayyad, Shapiro e Smyth (1996) salientam que todas as etapas do
processo de descoberta so bastante interativas, principalmente, porque a
experincia do analista fundamental para a obteno de bons resultados. Na
etapa de minerao, normalmente, cabe tambm ao analista definir, com base em
sua experincia, a tcnica mais indicada em cada situao.
Alm de poderem ser aplicadas nas demais etapas do Processo KDD, as
tcnicas visuais, conhecidas como tcnicas de Minerao Visual de Dados,
quando aplicadas na Minerao de Dados podem ser usadas para aumentar a
extrao de informaes escondidas nos dados.
O resultado final deve ser compreensvel para que os profissionais que
tomam as decises saibam onde, como e quando o conhecimento ser aplicado.

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

4.1 Consideraes Iniciais


As compreenses de fenmenos fsicos e sociais geralmente envolvem
uma grande quantidade de dados. Estes dados podem ser analisados atravs do
Processo KDD (capitulo 3), que comea pela seleo e tratamentos iniciais dos
dados at a aplicao de mtodos, dentre os quais podem ser estatsticos ou de
visualizao, na busca de informaes teis. A etapa de Minerao de Dados,
principal etapa do Processo KDD, responsvel pela aplicao destes mtodos
que em geral lidam com um nmero grande de variveis e tambm chamados de
multivariadas ou multidimensionais.
Estabelecer relaes, encontrar ou propor leis explicativas o papel
prprio da cincia. Para isso necessrio controlar, manipular, medir as variveis
que so consideradas relevantes ao entendimento do fenmeno analisado.
(MOITA NETO, 2007)
Segundo Landim (2007), a Anlise Multivariada (AM) ajuda o pesquisador
na reduo de dados e na simplificao estrutural. Alm de ser muito usada na
identificao de agrupamentos, em dados amostrais ou experimentais, em
investigaes de dependncia entre variveis, na predio de variveis a partir do
estudo de outras variveis e na construo e tese de hipteses.
Os modelos multivariados, em geral, permitem o pesquisador testar ou
induzir uma hiptese de um determinado fenmeno. Porm a sua utilizao
adequada depende do conhecimento das tcnicas e das suas limitaes.

57

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

As tcnicas multivariadas tm sido aplicadas em vrias investigaes


cientficas, nas reas de Biologia, Fsica, Sociologia, Cincias Mdicas,
Engenharias e Meteorologia. Na Biologia, por exemplo, a Estatstica usada na
seleo de plantas que sero os genitores da prxima gerao, cujo objetivo
maximizar o ganho gentico em um espao mnimo de tempo. Uma srie de
caracterstica das plantas pode ser convertida para um ndice atravs do estudo
multivariado nos dados (COELHO, 2007).
Na engenharia, Buzzi (2007) props uma metodologia para analisar as
relaes existentes entre as variveis nas estruturas de barragens. O estudo foi
desenvovido com os dados da barragem da Hidroeltrica de ITAIPU e teve como
principal objetivo determinar relaes entre os diversos instrumentos, cada um
com uma funcionalidade diferente, presentes nos blocos da barragem. Para isso,
foi usado Anlise de Correlao Multivariada. Esta mesma idia vai ser usada
neste trabalho atravs de tcnicas de Minerao Visual de Dados e ser vista
com mais detalhes no captulo 6.
Ainda no captulo 6, ser visto como as tcnicas para tratamento de
dados multivariados podem apoiar as tcnicas visuais. Uma aplicao baseada
em Redes Neurais ser usada para tratamento de imagens de dados provindos
de radares meteorolgicos em busca de uma filtragem daqueles que no
representam chuva.
Assim, neste captulo, nas prximas sees, ser realizado um
detalhamento das tcnicas para Anlise Multivariada de dados, incluindo Redes
Neurais. Este estudo se torna necessrio para critrio de comparao e validao
dos mtodos visuais. Alm de poderem ser usados, como apoio a modelos
visuais.

58

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

4.2 Organizao dos Dados


Em se tratando de dados multidimensionais, geralmente uma enorme
quantidade de dados deve ser armazenada. Muitas vezes necessrio organizar
os dados em tabelas de forma que estes sejam facilmente compreendidos pelo
usurio. Neste trabalho, as linhas (tuplas) representaro as amostras e as colunas
as variveis conforme mostrado na tabela 5.

Tabela 5 - Organizao das Variveis

A organizao de dados em tabelas envolve algumas fases do Processo


KDD. As trs primeiras etapas do KDD, que so, seleo, processamento e
tratamento dos dados, devem ser levadas em considerao durante a montagem
da tabela. Estas etapas, respectivamente permitem, por exemplo, selecionar da
base de dados queles de interesse, filtrar dados faltantes e converter dados
categricos (como datas e horrios) em formatos numricos.
Com a tabela criada, torna-se possvel o uso de tcnicas de Minerao de
Dados na extrao do conhecimento, o qual obtido atravs da anlise dos
resultados.

59

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

4.3 Anlise de Correlao Multivariada


A Anlise de Correlao Multivariada, como o prprio nome j diz, envolve
a relao existente entre diversas variveis. Este mtodo usado para encontrar
o grau de relacionamento entre as variveis.
O coeficiente de correlao uma medida que, atravs de um nico
nmero, identifica o nvel de correlao entre variveis. Para Johnson e Wichern
(1998) e Triola (1999), este coeficiente a medida de relacionamento entre pares
de variveis.
O coeficiente de correlao varia no intervalo [-1, 1] e, sendo assim, quanto
mais prximo dos extremos (-1 e 1), maior a relao entre os dados. Quando os
dados so prximos de -1, as variveis so inversamente correlacionveis, ou
seja, os valores crescentes de uma das variveis estaro associados aos valores
decrescentes da outra, e quando este coeficiente prximo de 1 estas variveis
possuem comportamentos prximos. Coeficientes prximos de zero sugerem que
as variveis no possuem relao (KACHIGAN, 1986).
Graficamente, em tcnicas de Visualizao da Informao, em particular a
tcnica Grficos de Disperso, vista com mais detalhes no captulo 5, permite
analisar a correlao entre variveis atravs da disperso dos pontos em torno de
uma reta (TOLEDO; OVALLE, 1995).
Uma das grandes vantagens do coeficiente de correlao a facilidade
com

que

as

variveis

podem

ser

relacionadas

estando

em

escalas

completamente diferentes e em diferentes unidades (KACHIGAN, 1986).


Quando se trabalha com vrias variveis, combinaes entre estas podem
ser usadas para calcular a correlao entre todos os pares de variveis. Estes
dados podem ser armazenados em forma de matriz (matriz de correlao) onde
os valores da diagonal principal so iguais a 1 (correlao perfeita) e
representam o coeficiente de correlao de uma determinada varivel consigo
mesma. Alm disso, esta matriz simtrica em relao a sua diagonal, ou seja,
Cij = Cji e quadrada. Cada linha da matriz representa a relao de uma varivel
com as demais (ver figura 12). Sendo assim, para K variveis, o nmero total de

60

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

clulas ser K2" das quais K pertencem s diagonais e K2 K so clulas no


diagonais.

K-variveis

K - variveis

Figura 12 - Representao da matriz de correlao conforme suas propriedades. Valores


das clulas acima da diagonal (amarelas) so iguais aos valores das clulas abaixo da
diagonal (verdes). Clulas da diagonal principal (cinzas) possuem valores iguais a 1

A correlao entre pares de variveis pode ser determinada atravs da


seguinte equao, onde o coeficiente de correlao (r) determinado atravs dos
conjuntos de valores das variveis x e y indicando o quo relacionadas esto
estas variveis.

r=

(x

x )( y i y )

(n 1) S x S y

, 1 i n

(1)

onde:

x representa a mdia do conjunto de valores de x e definido por : x =

1 n
xi (2)
n j =1

y representa a mdia do conjunto de valores de y e definido por : y =

1 n
yi (3)
n j =1

( xi x ) representa o desvio entre o xi e a mdia do conjunto x

(4)

61

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

( yi y ) representa o desvio entre o yi e a mdia do conjunto y

(5)

S x representa o desvio padro do conjunto x : S x =

( xi x ) 2
(n 1)

(6)

S y representa o desvio padro do conjunto y : S y =

( yi y ) 2
(n 1)

(7)

4.4 Anlise de Agrupamentos


Para Soukup e Davidson (2002), a Anlise de Agrupamento (AA) (cluster
analysis) um procedimento que consiste na diviso de uma populao de
objetos em grupos que apresentem similaridades entre os itens que os compem.
Sendo assim, a anlise de agrupamentos o termo usado para descrever
diversas tcnicas numricas cujo objetivo classificar os valores de uma matriz
de dados sob estudo de grupos discretos. Os mtodos, em geral, buscam uma
formulao de hipteses procura de agrupamentos de itens representados por
pontos do espao n-dimensional em um nmero conveniente de grupos
relacionados a partir de coeficientes de similaridade. (LANDIM, 2007; DYAS;
RAGAN, 2007)
Os coeficientes de similaridade podem ser gerados atravs das distncias
entre pares de pontos, ou de correlao entre pares de valores ou ainda atravs
de associao entre pares de caracteres qualitativos. Existem na literatura
diversos estudos que discutem estes diversos tipos de coeficientes, dentre as
quais: Sneath e Sokal (1973), Everitti (1982), Prentice (1980), Gordon (1981),
Greig-Smith (1983) e Pielou (1984).
Os mtodos para Anlise de Agrupamentos podem ser enquadrados nos
seguintes tipos (DAVIS, 1986):


Mtodos de Partio: procura classificar regies no espao, definido em


funo de variveis, que sejam densamente ocupados em termos de
observaes daqueles com ocupao mais rala.

62

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

Mtodos com Origem Arbitrria: procuram classificar as observaes


segundo "k" conjuntos previamente definidos. Neste caso, "k" pontos
arbitrrios serviro como centrides iniciais e as observaes iro se
agrupando, por similaridade, em torno desses centrides para formar
agrupamentos.

Mtodos por Similaridade Mtua: procuram agrupar observaes que


tenham uma similaridade comum com outras observaes. Inicialmente
uma matriz n x m de similaridades entre todos os pares da observao
calculada. Em seguida, as similaridades entre colunas so
repetidamente recalculadas. Colunas representando membros de um
nico agrupamento tendero a presentar correlaes prximas a 1 e
valores menores como no membros.

Mtodos por Agrupamentos Hierrquicos: so as tcnicas mais


comumente usadas. Para o seu desenvolvimento parte-se de uma
matriz simtrica de coeficientes de associao entre itens e para a
combinao dos mesmos, segundo nveis hierrquicos de similaridade,
utiliza-se de um procedimento aglomerativo de tal modo que cada ciclo
de agrupamento obedea a uma ordem sucessiva no sentido do
decrscimo de similaridade. Embora diversas medidas de similaridade
tenham sido propostas, somente duas so geralmente usadas:
coeficiente de correlao e coeficiente de distncia.

Mtodo K-means, Mtodo de Kohonen, Mtodo Fuzzy-K-Means, Mtodo


Hierrquico

Aglomerativo,

Mtodo

Hierrquico

Divisvel,

Anlise

dos

Componentes Principais, Mtodo de Ward, Ligao Mdia, Ligao Completa


(vizinho mais distante) e Ligao Simples (vizinho mais prximo) so algumas das
tcnicas usadas para encontrar clusters em dados multidimensionais.
Uma forma de analisar o resultado final dos agrupamentos gerados por
estes mtodos atravs de formas visuais em duas dimenses conhecida por
dendrograma, um tipo especfico de diagrama ou representao icnica que
organiza determinados fatores e variveis, organizando de forma hierrquica seus

63

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

agrupamentos. Em termos grficos se assemelha aos ramos de uma rvore que


vo se dividindo noutros sucessivamente.
A figura 13(a) mostra o grfico dos pontos em sistemas cartesianos para
quatro variveis sendo C1(1,2), C2(5,7), C3(2,2) e C4(7,5), na qual possvel
observar, baseando-se na distncia Euclidiana, a formao de dois clusters
{C1(1,2), C3(2,2)} e {C2(5,7), C4(7,5)}. A figura 13(b) mostra um dendrograma
destas mesmas variveis, donde se extrai as mesmas concluses.

Figura 13 - Anlise de agrupamentos: (a) grfico dos pontos em coordenadas cartesianas e


(b) uso de dendrogramas para formao de cluster

A Anlise de Agrupamentos controversa entre pesquisadores, pois pouco


se sabe dos pressupostos estatsticos dos seus vrios mtodos. O que se tm
so vrios testes limitados que verificam a significncia dos resultados. Dentre os
quais, segundo Johnson (1998), est o T de Hotteling e a tcnica da MANOVA
(Anlise de Varincia Multivariada).

4.5 Classificao de Dados Redes Neurais


O crebro humano capaz de processar informaes mais rpido que
qualquer outro processador conhecido. Ele constitudo de aproximadamente dez
bilhes de neurnios (clulas nervosas) responsveis pela transmisso de
informaes relacionadas a todas as funes e movimentos do organismo. A
comunicao entre os neurnios feita atravs de sinapses, que transmitem

64

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

estmulos atravs de diferentes concentraes de sdio (Na+) e potssio (K+). Os


neurnios, juntos formam uma enorme rede, chamada Rede Neural (RN), que
proporciona uma fabulosa capacidade de processamento e armazenamento de
informaes.
As clulas nervosas (neurnios) so constitudas por componentes
responsveis por determinadas funes. Os dendritos so responsveis por
receber as informaes vindas de outros neurnios; o corpo da clula (soma) faz
a coleta e combinam as informaes vindas dos outros neurnios e finalmente, o
axnio, constitudo por fibras tubulares que podem chegar a alguns metros
responsvel pela transmisso das informaes para outras clulas (ver figura 14).

Figura 14 - Constituintes das clulas nervosas

As Redes Neurais possuim algumas caractersticas peculiares: altamente


interconectada; apresenta paralelismo macio, ou seja, muitos neurnios operam
ao mesmo tempo; o processamento distribudo, de modo que um fato pode
corresponder atividade de uma srie de neurnios; admite tolerncia a falhas; e
a aprendizagem exibida pelo ajustamento do efeito do acoplamento de dois
neurnios.
Baseada nestes fatos, estudos tm sido realizados na tentativa de imitar o
processo bsico do aprendizado humano por meio da qual as novas informaes
so absorvidas e se tornam disponveis para referncias futuras. Esta rea
conhecida por Inteligncia Artificial, que segundo Rich e Knight (1994), a rea
da cincia da computao destinada ao conhecimento, construo e validao de

65

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

sistemas inteligentes, isto , exibindo alguma forma ou caractersticas associadas


inteligncia, abrange modelos capazes de aprender na tentativa de fazer com
que os computadores possam realizar tarefas e pensar inteligentemente como
seres humanos.
Estes estudos vm se aprimorando a partir de 1940. Mc Culloch e Pitts, em
1943, propuseram um modelo para uma clula nervosa, chamado de neurnio
artificial e mostraram que uma coleo de neurnios artificiais eram capazes de
calcular certas funes lgicas. Em 1959, baseadas nas idias iniciais de
McCulloch e Pitts, e ainda aps Hebb ter apontado o significado das conexes
entre as sinapses e ter desenvolvido uma idia de aprendizagem bsica em 1949,
Rosenblatt descreveu o primeiro modelo de Rede Neural Artificial, o Perceptron,
que permitiu a aprendizagem de funes lgicas a partir de um arranjo nos
neurnios artificiais numa rede com topologia particular e modificaes nas
conexes entre as sinapses. Em 1962, Windrow desenvolveu um tipo diferente de
RN baseada numa poderosa estratgia de aprendizagem. E em 1974, aps o
estudo de Redes Neurais Artificiais quase ter sido abandonado por completo, por
fora do trabalho de MinsKy e Papert que expuseram as limitaes do Perceptron,
Werbus conseguiu o maior progresso nos estudos de redes neurais, lanando as
bases do algoritmo Back-Propagation.

Figura 15 - Modelo de neurnio artificial. Fonte: adaptado de MCCULLOCH e PITTS (1943, p.


115-133).

Os

neurnios

artificiais,

conforme

figura

15,

sofreram

algumas

modificaes em relao aos biolgicos. Os dendritos foram substitudos por

66

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

entradas, cujas ligaes com o corpo celular artificial so realizadas atravs de


elementos, chamados de pesos (simulando as sinapses). Os estmulos captados
pelas entradas so processados pela funo de soma, e o limiar de disparo do
neurnio biolgico foi substitudo pela funo de ativao ou funo de
transferncia.
A Funo de Ativao (FA), tambm chamada de Funo de Transferncia,
uma funo matemtica que, aplicada combinao linear entre as variveis de
entrada e pesos que chegam a determinado neurnio, retorna o seu valor sada.
De acordo com Msson e Wang (1990), a Funo de Ativao corresponde a um
limiar que restringe a propagao do impulso nervoso transposio de um certo
nvel de atividade, mapeando o potencial da unidade de processamento para um
intervalo pr-especificado de sada. Existem diversas funes matemticas que
so utilizadas como FA. As Funes de Ativao mais comumente usadas so:
linear, degrau, rampa e a sigmide (ver figura 16).

Figura 16 - Tipos de funes de ativao

O treinamento em uma Rede Neural pode ser supervisionado ou no


supervisionado. A primeira usada quando se tem o conhecimento da sada
desejada, o sucesso obtido quando se obtm a correta sada para uma
determinada entrada. Os algoritmos de Perceptron e o Back-Propagation fazem
parte deste grupo. Na segunda, o treinamento no supervisionado usado
quando se tem apenas o conjunto de entradas conhecidos e deseja-se classificlos. Neste caso, o algoritmo busca extrair quaisquer informaes estatsticas do

67

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

interior dos dados. Algoritmos de Kohonen e a Rede de Hopfield so modelos


baseados nesta filosofia de aprendizagem.
Quanto ao fluxo de dados em uma rede neural, estes podem ser
classificados como Feed-Forward (propagao dos dados unidirecional) ou FeedBack (propagao dos dados nos dois sentidos).
So muitos os modelos de Redes Neurais, sendo que os mais estudados
so: o Perceptron, Redes Lineares, e Redes de Mltiplas Camadas. Neste
trabalho a nfase ser dada a este ltimo, por ser um modelo de grande aplicao
e usado no captulo 6.
A figura 17 mostra o esquema geral para uma Rede Neural com mltiplas
camadas do tipo Feed-Forward.

Figura 17 - Modelo de rede com mltiplas camadas

Ao aplicar Redes Neurais h dois parmetros iniciais que devem ser


determinados: o nmero de camadas e o nmero de neurnios em cada camada.
Redes com apenas duas camadas (a de entrada e a de sada) so pouco
utilizadas devido a sua limitao.
O aumento do nmero de camadas melhora o desempenho da rede,
aumentando sua capacidade de aprendizagem, ou seja, o aumento do nmero de
camadas aumenta a preciso com que a rede delimita as regies de deciso. A
figura 18 mostra como esse aumento de camadas influencia no treinamento.

68

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

Figura 18 - Comportamento da rede ao aumentar o nmero de camadas escondidas. Fonte:


adaptado de GORNI (1993)

O uso de muitas camadas escondidas, embora tenha um desempenho


melhor, exige muito processamento e no so muito utilizados na prtica por fora
do teorema de Kolmogorov (HECHT-NIELSEN, 1991) que afirma que o uso de
uma RN com apenas uma camada escondida suficiente para calcular uma
funo arbitrria qualquer a partir dos dados fornecidos.

Figura 19 - Modelo de rede neural usado nas aplicaes deste trabalho com uma camada
escondida

69

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

Neste trabalho optou-se pelo o uso de Redes Neurais com uma camada de
entrada, com nmero de entradas variveis, uma escondida com nmero de
neurnios variveis e uma de sada que diz se o dado bom (valores prximos de
1) ou ruim (prximos de 0). Este modelo pode ser visto na figura 19.
As redes de mltiplas camadas podem ser criadas e treinadas pelo
algoritmo Back-Propagation (ver Figura 20), que constitudo de duas fases:
Propagao Forward e Propagao Backward. Vetores de entradas e os
correspondentes vetores de sadas so usados para treinar a rede at que ela
possa aproximar uma funo que classifique os vetores de entradas de maneira
apropriada.
o vetor de pesos (w) que determina como a rede responder a uma
entrada arbitrria, nele que so armazenadas todas as informaes do
treinamento da rede. Um conjunto inicial de pesos (soluo inicial) deve ser
apresentado rede. Estes valores mudam a cada iterao do algoritmo.
Outros parmetros devem ser considerados na aplicao do algoritmo
Back-Propagation, como, a taxa de aprendizagem () e o momento () que so
valores que auxiliam a performance de uma rede neural. Alguns autores sugerem
um declive gradual da taxa de aprendizagem a medida que evolui (GORNI, 1993).
Outros optaram pela fixao destes valores enfatizando a necessidade de
estarem no intervalo (0,1) (HAYKIN, 1994).
O parmetro um valor thresshold adicionado a soma ponderada, e em
alguns casos omitido, enquanto que em outros considerado como o valor peso
cujo correspondente valor de entrada sempre igual a 1. O papel de , tambm
chamado de bias ou vcio, aumentar o nmero de graus de liberdade
disponveis no modelo, permitindo que a RN tenha maior capacidade de se
ajustar ao conhecimento a ela fornecido.

70

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

Figura 20 - Algoritmo Back-Propagation usando funo de ativao sigmide

A figura 21 mostra a importncia do termo momento num comparativo com


diferentes valores para taxa de aprendizagem. Na trajetria (a), o termo momento
adicionado e a taxa de aprendizagem pequena. Leva bastante tempo
(interaes) para chegar a soluo. Na trajetria (b), o termo momento no
considerado e a taxa de aprendizagem alta. Neste caso, o mnimo nunca ser
alcanado devido s oscilaes. Na trajetria (c), a taxa de aprendizagem alta e
o termo momento considerado. O mnimo alcanado rapidamente. (KRSE;
VAN DER SMAGT, 1993)

71

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

Figura 21 - Desempenho de uma rede neural conforme a variao da taxa de aprendizagem


e a taxa de momento. Fonte: adaptado de KRSE e VAN DER SMAGT (1993)

O treinamento pode conduzir a um mnimo local ao invs de global, porm


se este for um resultado insatisfatrio, um novo treinamento pode ser realizado
mudando o nmero de neurnios, ou de camadas ou at mesmo o nmero dos
pesos iniciais ou ainda a taxa de aprendizagem e o termo momento. A escolha
destes no uma determinao simples e pode variar na busca de uma soluo
mais adequada.

4.6 Consideraes Finais


No captulo 3, foram vistas as etapas do Processo KDD, em particular, a
etapa Minerao de Dados. A MD o termo usado para tratar dados
multidimensionais extraindo destes informaes importantes escondidas em seu
interior. O tratamento dos dados multivariados ou multidimensionais requerem

72

4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS

conhecimentos em diversas reas como Estatstica, Visualizao, Inteligncia


Artificial, Banco De Dados, nas quais diversos mtodos so estudados para este
fim.
Na prtica geralmente importante agrupar dados conforme algumas
caractersticas ou ento analisar as relaes existentes entre variveis ou ainda
classificar uma entrada como sendo boa ou ruim. Estes problemas podem ser
resolvidos utilizando tcnicas de tratamento de dados multidimensionais, dentre
as quais esto, respectivamente, as de Anlise de Agrupamentos, Anlise de
Correlaes e as Redes Neurais.
Neste contexto, o objetivo deste captulo foi dar a base para as tcnicas
existentes em Minerao de Dados, e no fazer um estudo aprofundado delas,
posto que estas sero usadas como apoio ou para comparao e validao das
tcnicas de Minerao Visual de Dados que sero vistas nos prximos captulos.

5 VISUALIZAO DA INFORMAO

5.1 Consideraes Iniciais


Antes mesmo do uso de computadores para criar visualizaes, a
visualizao de dados de duas ou trs dimenses j era realizada, e suas
tcnicas tm sido usadas por muitos anos (TUFTE, 1983; TUFTE, 1990). Quando
os computadores comearam a ser usados para criar visualizaes, tambm
comeou o desenvolvimento de muitas tcnicas novas, bem como a extenso de
tcnicas existentes. Tornou-se possvel o tratamento de grandes volumes de
dados alm de permitir interao.
Dentre as tcnicas de Visualizao para explorao de dados
multidimensionais, existem as tcnicas tradicionais em duas e trs dimenses,
como os Grficos de Linhas e Disperso (CLEVELAND, 1993; BERTIN, 1981), e
tcnicas mais sofisticadas, que permitem uma interao maior com usurio e uma
explorao em bancos de dados ainda mais robustos.
Neste captulo, alm dos conceitos da Visualizao da Informao, uma
breve discusso sobre as vantagens e desvantagens no contexto de aplicao
ser mencionada para cada uma das tcnicas de Visualizao a serem
estudadas.

74

5 VISUALIZAO DA INFORMAO

5.2 Tcnicas de Visualizao da Informao


A Visualizao da Informao (VI), conforme visto no captulo 2, o nome
dado a rea de estudo voltada visualizao de dados no inerentemente
espaciais, ou seja, grandes massas de dados, geralmente armazenados em
enormes tabelas ou banco de dados, sem caractersticas fsicas (como
temperatura, presso) e busca por informaes que possam ser teis para anlise
dos dados.
A visualizao de dados tem sido usada como meio de comunicao desde
os primrdios da humanidade. A primeira forma grfica que se tem notcias uma
representao de uma cidade da Babilnia encontrada na regio de Kirkuk no
Iraque h 6200 a.C. (figura 22).

Figura 22 - Representao grfica de uma cidade da Babilnia h 6200 a.C. (FRIENDLY,


2007)

Aps alguns sculos, o uso de visualizao para analisar o comportamento


de variveis deu incio ao que hoje conhecida por Visualizao da Informao, a
figura 23 ilustra uma das primeiras visualizaes realizadas a mostrar variveis,
representando um estudo das rbitas planetrias ao longo do tempo no sculo X.

75

5 VISUALIZAO DA INFORMAO

Figura 23 - Inclinao das rbitas planetrias ao longo do tempo ano 950 (FRIENDLY,
2007; FUNKHOUSER, 1936, p. 261)

William Playfair5, considerado o criador das primeiras tcnicas de VI, fez


vrias visualizaes entre 1770 e 1782, quando a Visualizao se tornou
importante no mercado de negcios. A figura 24 mostra a representao de dados
de exportao e importao para este perodo.
Em 1701, Edmund Halley6 faz uma das primeiras visualizaes utilizando
contornos (isolinhas) (ver figura 25).

Willian Playfair (1759-1823): um economista ingls. Em 1786, William Playfair publicou os


primeiro grfico em seu livro The Commercial and Political Atlas. Esse livro repleto de
grficos estatsticos que representam a economia no sculo XVIII na Inglaterra usando grficos
de barra (PLAYFAIR, 2007).

Edmund Halley (1656 1742): Foi um astrnomo e matemtico britnico. Halley foi o primeiro a
descobrir um cometa peridico, que subseqentemente passou a ser chamado cometa de
Halley. Aplicou o mtodo de Newton para calcular rbitas de cometas. Halley publicou os
resultados de suas observaes em 1705, na obra A Synopsis of the Astronomy of Planets.
Halley tambm dedicou uma parte de seu tempo aos assuntos relativos economia,
engenharia naval e diplomacia, exercendo papel de destaque na publicao dos Principia, de
Newton. (HALLEY, 1701)

76

5 VISUALIZAO DA INFORMAO

Figura 24 - Importao e Exportao entre 1770 e 1782 (FRIENDLY, 2007; FRIENDLY, 2005)

Figura 25 - Declinao Magntica (FRIENDLY, 2007; HALLEY, 1701; PALSKY, 1996)

77

5 VISUALIZAO DA INFORMAO

No

sculo

XX,

uma

das

primeiras

visualizaes
7

multidimensionais apresentada por Charles Minard

de

dados

na Campanha para

conquistar a Rssia. Um exemplo pioneiro de como muita informao pode ser


sintetizada para se tornar mais inteligvel. Nesse grfico (ver figura 26) h quatro
variveis diferentes que contribuem para demonstrar o fracasso da campanha
(em apenas uma representao bidimensional):


A distncia e direo que percorreram;

A altitude que as tropas atravessaram;

A variao no nmero de soldados medida que as tropas morriam de


fome e dos ferimentos;

As baixas temperaturas que enfrentaram.

Figura 26 - Infogrfico de Charles Minard sobre a marcha de Napoleo (FRIENDLY, 2007;


FRIENDLY, 2002; FRIENDLY, 2005)

Charles Joseph Minard (1781 - 1870): Engenheiro francs e pioneiro na visualizao


multidimensional. Ficou conhecido pela sua representao visual que mostra a marcha do
exrcito de Napoleo durante a campanha de 1812 para conquistar a Rssia. (MINARD, 2007)

78

5 VISUALIZAO DA INFORMAO

Dr. Snow8 mostra atravs da Visualizao a descoberta da causa do surto


de clera (figura 27).

Figura 27 - Mapa de Londres com casos de clera (pontos) e poos de gua (cruzes)
(FRIENDLY, 2007; GILBERT, 1958)

Na dcada de 80 do sculo XXI, o aparecimento de computadores


pessoais de baixo custo e as estaes de trabalho (workstations) trouxeram nova
vida dentro da anlise grfica dos dados multidimensionais.
Atualmente,

avano

da

tecnologia

fez

surgir

computadores

significativamente mais poderosos com possibilidades de gerar grficos


complexos 3D. Paralelamente houve um grande aumento na acessibilidade da

John Snow (1813 - 1858) - Mdico britnico e lder na adoo da anestesia e da higiene
mdica. Tambm considerado um dos pais da epidemiologia, por ter identificado a cadeia de
transmisso do vibrio cholerea, o responsvel pela clera. Antes de Snow, acreditava-se que a
contaminao da clera ocorria atravs do ar. (FRIENDLY, 2007)

79

5 VISUALIZAO DA INFORMAO

informao e na ligao a redes de comunicao. Estes fatores tornaram


possveis novas formas de apresentar visualmente.
Os parmetros visuais, como cor, tamanho, forma, posio, foram
incorporados no Sistemas de Visualizao e so muitos usados para representar
caractersticas e propriedades dos dados em Visualizao da Informao em
duas dimenses (2D).
Em VI em trs dimenses (3D), por trabalhar com uma dimenso a mais,
torna possvel uma representao mais eficiente do espao limitado disponvel.
Esta dimenso adicional permite novos parmetros visuais como tipo de material,
luminosidade, transparncia e novas tcnicas de interao, como rotaes
geomtricas e passeio (walkthrough) atravs dos dados, que convidam os
utilizadores a explorar e manipular sistemas de informaes grandes e complexos
(captulo 2, seo 2.3).
Baseado nestas formas de interao e navegao, diversas tcnicas de
Visualizao da Informao esto sendo desenvolvidas com o objetivo de facilitar
a interpretao de dados.
Determinar a tcnica a ser usada para visualizar um conjunto de dados de
uma determinada aplicao, no uma tarefa fcil. Uma caracterizao dos
dados uma das consideraes iniciais na escolha de uma tcnica de
visualizao. Diversos autores, na tentativa de padronizar as tcnicas de
visualizao de dados multidimensionais, sugerem classificaes que so feitas
de diferentes maneiras e seguindo diferentes critrios.
Schneiderman (1996), por exemplo, classificou as tcnicas segundo os
tipos de dados e as tarefas a serem realizadas pelo usurio. Segundo ele, os
dados podem ser: temporais, unidimensionais (1D), bidimensionais (2D),
tridimensionais (3D), multidimensionais (nD) e dirigidos visualizao de
hierarquias e de relacionamentos (grafos).
Freitas e Wagner (1995) apresentam uma proposta de caracterizao de
dados baseada em critrios como: classe (tipo) de informao, tipos de valores, e
natureza e dimenso do domnio (vide resumo na tabela 6).

80

5 VISUALIZAO DA INFORMAO

Tabela 6 - Caracterizao de dados baseada em critrios, exemplos de domnios diferentes


(FREITAS; WAGNER, 1995)
Critrio

Classe de Informao

Tipos de Valores

Natureza do Domnio

Dimenso do Domnio

Classe
Categoria
Escalar
Vetorial
Tensorial
Relacionamento
Alfa-numrico
Numrico
Simblico
Discreto
Contnuo
Contnuo-discretizado
1D
2D
3D
nD

Exemplo
Gnero
Temperatura
Grandezas fsicas associadas a
dinmicas dos fludos
Link num hiperdocumento
Gnero
Temperatura
Link num hiperdocumento
Marcas de automveis
Superfcies de um terreno
Anos (tempo discretizado)
Fenmeno ocorrendo no tempo
Superfcie de um terreno
Volume de dados mdicos
Dados de uma populao

De forma geral, os valores assumidos pelas variveis podem ser


classificados nos formatos bsicos nominal e quantitativo. O primeiro apresenta
valores claramente distintos, discretos e enumerveis. O segundo representa
valores numricos, contnuos, sobre os quais podem ser aplicadas operaes
aritmticas.

Figura 28 - Classificao das Tcnicas de Visualizao (Keim, 2002)

81

5 VISUALIZAO DA INFORMAO

Keim (2002) sugere uma classificao segundo trs critrios, ilustrada na


figura 28: a natureza do dado a ser visualizado, a abordagem de mapeamento
adotada pela tcnica e os mtodos de interao e distoro usados para
manipular a representao visual.
Quanto natureza dos dados, estes podem ser unidimensional (1D),
bidimensional (2D), multidimensional (nD), texto e hipertexto, hierarquias/grafos e
algoritmos/softwares. A abordagem para interagir com os dados visualmente
podem ser projees, filtragem, zoom, distoro e Seleo/Ligao. J as
Tcnicas de Visualizao esto classificadas como Tcnicas 2D/3D Tradicionais,
Tcnicas de Projees Geomtricas, Tcnicas Iconogrficas, Tcnicas Baseadas
em Pixel e Tcnicas de Empilhamento de Dimenses.
Na tentativa de agrupar melhor as tcnicas de Visualizao, neste trabalho
uma nova classificao para os grupos de tcnicas foi adotada. Este novo
agrupamento foi gerado a partir da literatura encontrada de diversos autores e
embora algumas tcnicas possam pertencer a dois ou mais grupos aqui foi
considerado quele que melhor se caracteriza devido natureza dos dados. Alm
das tcnicas de Visualizao adotadas por Keim (2002), neste trabalho
consideraram-se ainda trs novos grupos, a saber: Tcnicas Hierrquicas,
Tcnicas Dinmicas e Tcnicas Hbridas. As Tcnicas Empilhamento de
Dimenso foram colocadas juntas s Tcnicas Hierrquicas devido natureza
hierrquica dos dados.
A escolha de uma tcnica para visualizar um conjunto de dados se torna
mais fcil quando considerada a caracterizao dos dados. Porm, diversas
tcnicas devem ser aplicadas na tentativa de determinar qual delas transmitir um
nvel mais satisfatrio da informao que se procura. A comparao entre as
tcnicas para um determinado conjunto de dados poder ser til para uma maior
explorao da informao.
Nas prximas sees sero vistas as principais tcnicas de visualizao
onde se procurou mencionar as vantagens e desvantagens para cada tcnica em
questo.

82

5 VISUALIZAO DA INFORMAO

5.2.1 Tcnicas 2D e 3D Tradicionais

Tcnicas como Grfico de Pizza, Disperso, Linhas, Barras entre outros


so amplamente utilizados na exibio de dados em duas e trs dimenses. Este
grupo abrange todas estas tcnicas de Visualizao de dados. O programa Excel,
ferramenta do Microsoft, possibilita o uso de diversos grficos para visualizar
dados. A figura 29 mostra algumas destas tcnicas.

Figura 29 - Tcnicas 2D e 3D comumente utilizadas

Os Grficos de Pizza, por exemplo, so excelentes para a exibio de


pontos de dados9 como porcentagens de um todo. Entretanto, quando vrios
pontos de dados equivalem a menos de 5% da pizza, fica difcil distinguir as
fatias. Por exemplo, um Grfico de Pizza sobre os dados de vendas a seguir
(figura 30) contm trs fatias que ficam abaixo de 5%, dificultando a visualizao
e conseqentemente a sua interpretao.

Pontos de dados: valores individuais plotados em um grfico e representados por barras,


colunas, linhas, fatias de pizza ou rosca, pontos e diversas outras formas chamadas
marcadores de dados. Os marcadores de dados da mesma cor constituem uma srie de
dados.

83

5 VISUALIZAO DA INFORMAO

Figura 30 - Representao por grfico de pizza sobre dados de venda, evidenciando a


dificuldade de interpretar os dados no caso de fatias pequenas

Neste Caso, para tornar as fatias menores mais visveis em um Grficos


de Pizza, alguns recursos podem ser usados. O Excel, oferece os subtipos de
Grficos de Pizza de Pizza (figura 31) e de Barra de Pizza. Cada um desses
subtipos separa as fatias menores do Grficos de Pizza principal e as exibe em
um Grficos de Pizza adicional ou de barras empilhadas, conforme mostrado na
prxima imagem.

Figura 31 - Representao por grfico de pizza de pizza dos dados de vendas.

Observe que os rtulos de percentagens no Grfico de Pizza secundrio


exibem os mesmos nmeros que o Grfico de Pizza comum. Os nmeros

84

5 VISUALIZAO DA INFORMAO

representam apenas as fatias individuais que foram movidas para o grfico


secundrio; eles no totalizam 100%.
Os Grficos de Barras so grficos nos quais os itens de dados so
representados sob a forma de barras retangulares. As barras podem ser verticais
ou horizontais, e assim como no Grfico de Pizza, os dados podem se distinguir
pela cor ou por algum tipo de sombreado ou padro.
Dados qualitativos, particularmente quando as categorias so ordenadas,
so usualmente bem ilustrados num simples Grfico de Barras onde a altura da
barra igual freqncia.
Quando as barras so apresentadas em trs dimenses, ento se d o
nome de Cityscapes tcnica. Os dados so mapeados nos atributos das barras
e colocados no plano 2D horizontal (figura 32). Este conjunto usa como metfora
os

arranha-cus

de

uma

cidade.

Estilos

arquiteturais,

cores,

altura,

transparncia podem ser usados para representar os atributos nestes arranhacus.

Figura 32 - Exemplo de uma visualizao do tipo Cityscape (CHUAH et al, 1995; SANTOS;
GROS; ABEL, 1999)

Santos, Gros e Abel (1999) afirmam que Diagrama de Superfcies a


representao 3D para os populares grafos bidimensionais. Os dados so
traados ao longo dos trs eixos de coordenadas x, y, z; estes ento so ligados

85

5 VISUALIZAO DA INFORMAO

de modo a formarem uma malha que podem ser coloridas a partir de uma escala
de cores conforme os valores dos atributos. Esta tcnica permite facilmente
identificar picos (valores mnimos e mximos), alm de extrair padres.
Outra tcnica bastante conhecida que pode ser considerada como tcnica
tradicional a Paredes de Perspectivas, desenvolvida por Mackinlay (1991) e
usada para visualizar grandes volumes de dados ordenados ao longo de uma
nica dimenso.
Esta tcnica surgiu a partir do amadurecimento da idia proposta por
Spence e Apperley (1982). Na tcnica Bifocal Display (SPENCE; APPERLEY,
1982), os itens de informao so apresentados em trs reas distintas, sendo a
central aquela que contm a informao em foco, em destaque, e as outras
informaes do contexto geral so apresentados nas laterais da regio focal
(figura 33).

Figura 33 - Representao visual da tcnica Bifocal Display

Nas Paredes de Perspectivas as informaes so mapeadas no espao


bidimensional utilizando uma parede 3D (FREITAS et al, 2001). A figura 34
mostra o uso das paredes de perspectivas para representar arquivos de acordo
com a data da ltima alterao.
As Paredes de Perspectivas, segundo Freitas et al (2001), embora
permita ter uma viso global numa nica visualizao, alm de integrar uma vista
detalhada e reter o contexto da informao, uma das suas insuficincias est no
fato de s conseguir lidar com bases de informao ordenada ao longo de uma
nica dimenso.

86

5 VISUALIZAO DA INFORMAO

Figura 34 - Exemplo de uma parede de perspectiva (MUKHERJEA; FOLEY; HUDSON, 1995).

As Tcnicas Tradicionais 2D e 3D, embora simples, algumas dessas,


como os Grficos de Disperso, oferecem apoio eficaz para a anlise visual,
permitindo detectar distribuio, correlao entre os atributos, agrupamentos e
outras informaes.
Graficamente, a tcnica Grficos de Disperso, plota o comportamento
das variveis no espao bidimensional, permitindo analisar a disperso dos
dados. Quando estes dados esto dispersos aproximando-se de uma reta, diz-se
que os variveis so altamente correlacionveis. Se esta reta for crescente, as
variveis possuem correlao positiva, caso contrrio, se ela for decrescente, a
sua

correlao

ser

prxima

de

-1,

ou

seja,

sero

inversamente

correlacionveis. Caso os dados estejam dispersos, no se aproximando de uma


reta, ento estes possuem correlaes prximas de 0 identificando um baixo
ndice de relao entre as variveis.
Em geral, problemas como os citados para o Grfico de Pizza, embora
possam ser contornados, so comuns para estes tipos de tcnicas. Segundo

87

5 VISUALIZAO DA INFORMAO

Artero (2005), uma outra desvantagem para estas tcnicas est na limitao
quanto ao nmero de atributos que podem ser apresentados simultaneamente.

5.2.2 Tcnicas Orientadas a Pixels

Neste grupo, os atributos dos dados so mapeados em pixels coloridos,


conforme os valores dos atributos representados. Cada atributo apresentado em
uma janela individual de forma que para exibir m atributos a janela dever ser
dividida em m janelas (KEIM; KRIEGEL, 1994; KEIM; KRIEGEL, 1996). Cada
pixel da janela a representao visual de um dos registros dos dados para um
determinado atributo (figura 35). Este pixel colorido conforme um mapa de cores
previamente fixado de acordo com a faixa de possveis valores do atributo.

Figura 35 - Representao por janelas de 6 atributos de um item do conjunto de dados


(KEIM, 2000)

Esta tcnica, geralmente usada para determinar padres nos dados


(clusters), ou correlaes e dependncia funcional entre atributos (KEIM, 1996;
KEIM, 2000). Neste caso, uma anlise de regies correspondentes em atributos
distintos dever ser feita. A figura 36 exemplifica o caso da correlao existente
entre as dimenses MinAngle e RightAngle.

88

5 VISUALIZAO DA INFORMAO

Figura 36 - Identificao de correlao e dependncias funcionais no VisDB (KEIM, 1996)

Segundo Branco (2003), a principal desvantagem deste mtodo quando


o nmero de atributos muito grande. Isso se deve ao fato da dependncia direta
em relao resoluo da tela, pois quanto maior a dimensionalidade dos dados,
maior ser o nmero de janelas e, conseqentemente, menor ser o nmero de
atributos que podero ser vistos simultaneamente. Por outro lado, se um nico
atributo representado em uma janela de resoluo de 1280 x 1024, possvel
exibir mais de um milho de valores simultaneamente.
Keim e colaboradores tm tido um papel importante no desenvolvimento e
aplicao de tcnicas nesta categoria (KEIM; KRIEGEL, 1994; KEIM; KRIEGEL,
1996; KEIM, 2000; ANKERST; KEIM; KRIEGEL, 1996).
A tcnica Segmentos Circulares (Circle Segments) outra tcnica
bastante conhecida proposta por (ANKERST; KEIM; KRIEGEL, 1996). Esta
tcnica, conforme o prprio nome j diz, mapeia os dados em pixels coloridos em
segmentos circulares. A figura 37 (a) mostra um arranjo para a distribuio dos

89

5 VISUALIZAO DA INFORMAO

dados, em (b) mostra como estes dados so mapeados e em (c) a representao


de um conjunto de dados contendo cinqenta (50) atributos.

Figura 37 - Tcnica segmentos circulares. (a) Distribuio dos dados. (b) Mapeamento dos
dados. (c) Representao de um conjunto de dados (ANKERST; KEIM; KRIEGEL, 1996)

Esta tcnica apresenta limitaes para conjuntos de dados muito grandes,


pois o nmero de segmentos aumenta medida que aumenta a dimenso,
diminuindo o espao disponvel para representao do conjunto de dados.

5.2.3 Tcnicas de Projeo Geomtrica

As

Tcnicas

de

Projees

Geomtricas

projetam

os

dados

multidimensionais em um espao bidimensional, buscando apresentar projees


interessantes dos conjuntos de dados. Em particular, uma tcnica bastante
utilizada desta categoria a Coordenadas Paralelas (Parallel Coordinates), outra
tcnica como Matrizes de disperso (Scatterplot Matrices), Grfico Estrela (Star
Graph), Visualizao Radial (Radial Visualization - RadVis) e Tubo de Dados
(Data Tube), tambm fazem parte deste grupo.
Matrizes de Disperso uma generalizao para a tcnica Grficos de
Disperso (seo 5.2.1 - Tcnicas 2D e 3D Tradicionais). Enquanto esta se
preocupa com o mapeamento individual, aquela busca comparar diversos
atributos simultaneamente dois a dois mapeando os dados para um espao
bidimensional. Informaes como correlaes e disperses dos dados podem ser

90

5 VISUALIZAO DA INFORMAO

extradas neste tipo de visualizao contribuindo para um maior entendimento dos


dados alm de apoiar no procedimento de reduo de dimensionalidade.

Figura 38 Representao da tcnica matriz de disperso para um conjunto de dados de 10


atributos (WARD, et al, 2007)

A figura 38 mostra a aplicao da tcnica matriz de disperso para dados


financeiros ao longo de cinco anos; observe-se na imagem que as variveis
consumo e produo so altamente correlacionveis, ou seja, o aumento no
consumo implica num aumento da produo. Esta concluso pode ser extrada

91

5 VISUALIZAO DA INFORMAO

pois no grfico Consumo x Produo os dados esto dispersos se aproximando


de uma reta crescente.
Assim como nas tcnicas orientadas a pixels, visto na seo 5.2.2, a alta
dimensionalidade prejudica a visualizao dos dados, reduzindo a rea para cada
disperso (scatterplots). Problemas como estes podem ser minimizados usando
tcnicas de interao como, por exemplo, o zoom.
Outra metodologia para visualizao geomtrica em n-dimenses para
problemas multivariveis bastante conhecida so as Coordenadas Paralelas
(CARVALHO, 2001) cuja idia inicialmente foi apresentada por Alfred Inselberg na
Universidade de Illinois em 1959, que tem trabalhado nela desde ento. uma
tcnica de Visualizao onde as dimenses so representadas como uma srie
de eixos paralelos uns aos outros e com igual espaamento entre eles nos quais
os valores esto representados (INSELBERG, 1999; INSELBERG; AVIDAN,
1999).
Artero (2005) define Coordenadas Paralelas como um espao de dimenso
n mapeado para um espao bidimensional usando n eixos eqidistantes e
paralelos a um dos eixos principais. Cada eixo representa um atributo e,
normalmente, o intervalo de valores de cada atributo mapeado linearmente
sobre o eixo correspondente. Cada item de dado exibido como uma linha
poligonal que intercepta cada eixo no ponto correspondente ao valor do atributo
associado.
A figura 39 ilustra a aplicao da tcnica Coordenadas Paralelas para os
mesmos dados da figura 38. Nesta, selecionou-se os dados do ano 1 para
analisar a variao dos valores ao longo das variveis. Informaes de
relacionamento

entre

variveis

podem

ser

extradas

analisando

pares

consecutivos de atributos. Um grupo de linhas projetadas bastantes prximas


uma das outras e sem muitos cruzamentos, indica um grau de relacionamento
positivo entre as tuplas que as compem (ver o comportamento das tuplas dos
atributos produo e consumo, por exemplo).

92

5 VISUALIZAO DA INFORMAO

Outra vantagem deste mtodo de visualizao que a representao de


todos os vetores em um mesmo grfico nos permite efetuar comparaes visuais
entre vetores.

Figura 39 Visualizao por Coordenadas Paralelas do conjunto de dados financeiros ao


longo de 5 anos, onde cada eixo rotulado pelo nome correspondente varivel (WARD et
al, 2007)

Esta tcnica permite ainda encontrar clusters. A clusterizao facilmente


visualizada quando conjuntos de dados saem de um mesmo ponto e seguem para
as demais variveis. A figura 40 mostra a clusterizao para dados de dimenso
5D. Neste grupo foram encontrados sete clusters distintos pela colorao.
Uma desvantagem para esta metodologia est na representao de muitas
variveis, causando sobreposio de linhas dificultando a extrao de qualquer
tipo de informao, nem mesmo dedutiva, a respeito dos dados.
Outra desvantagem est na limitao da resoluo horizontal da tela, ou
seja, a medida que o nmero de dimenses cresce, os eixos vo se aproximando
um dos outros dificultando a interpretao dos resultados.

93

5 VISUALIZAO DA INFORMAO

Figura 40 - Coordenadas Paralelas na anlise de agrupamentos

Quando se deseja analisar correlaes entre pares de variveis,


necessrio que estas estejam em seqncias, em alguns casos pode ser feita a
ordenao dos eixos conforme os valores de suas correlaes como proposto por
Carvalho (2001) ou ento orden-los de forma interativa conforme intuio e
necessidade do usurio, alguns programas como o ParVis permitem este tipo de
interao.

Figura 41 - Uso da tcnica Coordenadas Paralelas em 3D (CARVALHO, 2001)

94

5 VISUALIZAO DA INFORMAO

Alguns autores dedicam seus estudos s Coordenadas Paralelas de forma


a aprimorar esta tcnica. Carvalho (2001), por exemplo, prope em seu trabalho o
uso de Coordenadas Paralelas em trs dimenses. Segundo o autor, o uso de
uma dimenso a mais ajuda na interpretao dos dados, permitindo uma maior
varredura das informaes alm de permitir tcnicas de interao como rotao,
zoom e pan (ver figura 41).
O Grfico Estrela (SOBOL; KLEIN, 1989; PARSAYE; CHIGNELLl, 1993;
HOFFMAN; 1999) outra tcnica inspirada em Coordenadas Paralelas,
diferenciando desta pelo fato dos eixos serem arranjados em uma disposio
radial conforme a figura 42 ao invs de serem paralelos. Assim como na
Coordenadas Paralelas, os dados so representados por poligonais que
interceptam cada eixo na posio correspondente aos valores dos atributos
associados. Segundo Chau, Lin e Yeh (1999), quando o nmero de atributos
alto, os eixos ficam muito prximos na parte central, dificultando a anlise.

Figura 42 - (a) Obteno da tcnica Grfico Estrela a partir da tcnica Coordenadas


Paralelas (Hoffman, 1999); e (b) Visualizao de dois registros de dimenso oito utilizando o
Grfico Estrela

O RadVis (Radial Coordinates Visualization) (HOFFMAN, 1999) outra


tcnica geomtrica que tambm adota um arranjo radial. Para uma visualizao ndimensional, n linhas emanam radialmente do centro de um crculo e terminam no

95

5 VISUALIZAO DA INFORMAO

seu permetro, como ilustrado na figura 43. Para cada atributo, constantes de
atrao (um sistema imaginrio de molas) so associadas aos valores, sendo que
a posio final do marcador visual ser aquela em que ocorre o equilbrio das
foras sobre o marcador. O mapeamento resultante constitui uma transformao
no linear do espao original, que preserva algumas simetrias.

Figura 43 - Visualizao de um conjunto de dados atravs da tcnica RadVis (ARTERO,


2005)

Grinstein et al (2001) salientam que as principais caractersticas desta


tcnica so:


registros cujos atributos tm valores iguais so posicionados no centro


do sistema de eixos;

registros em que um dos atributos tem valor dominante em relao aos


demais so mapeados prximos ao eixo correspondente a este atributo;

96

5 VISUALIZAO DA INFORMAO

registros similares no espao n-dimensional so mapeados prximos


entre si no espao 2D, o que favorece a identificao de agrupamentos
na visualizao;

apresenta baixa complexidade computacional O(mn), permitindo a sua


aplicao a grandes conjuntos de dados de alta dimensionalidade.

Entre as desvantagens, pode-se citar a intensa sobreposio dos


marcadores e o congestionamento visual excessivo quando aplicado a grandes
conjuntos de dados. No caso da anlise de agrupamentos, a principal
desvantagem que registros muito diferentes entre si podem ser mapeados em
posies prximas, o que precisa ser tratado de algum modo em etapas
posteriores.
Outras tcnicas, como Anlise dos Componentes Principais (PCA)
(PEARSON, 1901), FastMap (FALOUTSOS; LIN, 1995) e Vis3D (ARTERO,
2005), estendem o RadVis para uma visualizao no espao tridimensional. A
extenso em 3D consegue acomodar um maior nmero de marcadores e
contornar problemas como os de ocluso, pois permite que o usurio interaja com
o modelo de maneira a observar diferentes projees nos dados. Para dimenses
muito altas a sobreposio dos marcadores inevitvel, porm seus resultados
so mais satisfatrios que os das tcnicas de projees em duas dimenses,
como o RadVis (ARTERO, 2005).
Dada a matriz de dados Dmxn, a tcnica Viz3D projeta os dados ndimensionais na superfcie e no interior de um cilindro 3D, onde os m registros di
de D em coordenadas 3D (xi,yi,zi) so mapeados seguindo a equao.

1 n1 di , j min j
2j
cos( )
xi = xc +
n j =0 maxi min j
n

1 n 1 d min j
2j

Viz3Di (di ,0 , di ,1, ... , di, n 1 ) = yi = yc + i, j


sen( )
n j =0 maxi min j
n

1 n 1 d min j
zi = zc + i, j
, i = 0,...,m 1
n j =0 maxi min j

(8)

j = 0,...,n 1

97

5 VISUALIZAO DA INFORMAO

sendo: xc, yc e zc as coordenadas do centro de um sistema de eixos radiais;


maxj = Mximo(dk, j) e minj = Mnimo(dk, j) para k = 0, ..., m-1;
A figura 44 mostra como feito o mapeamento destes dados.

Figura 44 (a) Projeo 3D no Viz3D; (b) Mapeamento dos registros r0, r1, r2 e r3
(dimensionalidade quatro) no Viz3D, adotando a seqncia de eixos a0, a1, a2 e a3; (c)
Mapeamento com a seqncia de eixos a0, a2, a1 e a3.

Segundo Artero (2005), em seus testes, a tcnica Vis3D mostrou um


melhor desempenho quando comparadas s tcnicas FastMap e PCA. Os testes
foram aplicados para dados de dimensionalidade 11 com 10.000, 20.000 e 30.000
registros e comparados entre si pelo tempo de execuo para gerar as projees.
A figura 45 mostra o uso da tcnica Vis3D na anlise de agrupamentos. A
imagem foi gerada a partir do programa MDV (ARTERO, 2005), que possibilita o
usurio a formar os clusters de forma interativa e visual, selecionando regies das
quais, intuitivamente, pertence a um determinado grupo, sem usar algoritmos
matemticos ou estatsticos para este propsito.

98

5 VISUALIZAO DA INFORMAO

Figura 45 - Anlise de cluster a partir da tcnica Vis3D. Aqui cinco agrupamentos so


observados (ARTERO, 2005)

A tcnica Star Coordinates (KANDOGAN, 2001) estende o RadVis,


permitindo ao usurio controlar a direo e o comprimento dos eixos radiais, bem
como selecionar faixas de interesse sobre os eixos. A possibilidade de manipular
interativamente a disposio e o mapeamento dos eixos apia a busca por uma
projeo mais adequada. Entretanto, a interao dificultada quando o nmero
de atributos muito alto, o que torna impraticvel a tarefa de encontrar uma boa
configurao para os eixos. A figura 46 mostra a visualizao de um conjunto de
dados usando o Star Coordinates.

99

5 VISUALIZAO DA INFORMAO

Figura 46 (a) Visualizao de um conjunto de dados com a tcnica Star Coordinates;


(b) Visualizao obtida aps interao do usurio com os eixos

Ankerst (2000) prope uma tcnica denominada Tubo de Dados (Data


Tube) para a visualizao de grandes conjuntos de dados, a qual inspirada na
tcnica Segmentos Circulares. No Tubo de Dados os valores dos atributos so
projetados no interior de um tubo (3D), conforme disposio apresentada na
figura 47(a), sendo que o comprimento do tubo determinado pelo nmero de
registros do conjunto de dados. A visualizao de um conjunto com seis atributos
ilustrada na figura 47(b).

Figura 47 (a) Disposio dos dados no Tubo de Dados; (b) Visualizao de alguns
registros de um conjunto de dados com seis atributos (ANKERST, 2000)

100

5 VISUALIZAO DA INFORMAO

A tcnica permite ao usurio navegar pela representao tridimensional,


entrando e saindo do interior do tubo. A principal vantagem sobre a tcnica
Segmentos Circulares a capacidade de tratar conjuntos de dados muito
grandes, pois todos os registros podem ser apresentados ao usurio durante a
navegao pelo seu interior.

5.2.4 Tcnicas Iconogrficas

Este conjunto de tcnicas tem como objetivo mapear os atributos em


caractersticas particulares de cones. Cada caracterstica do cone representa um
atributo dos dados multidimensional.
Chernoff (1973) mapeou atributos dos dados em caractersticas faciais
com a inteno de utilizar conhecimentos comuns, uma vez que as pessoas esto
habituadas a distinguir expresses faciais na vida diria. Dois atributos so
mapeados para as duas dimenses espaciais da tela, e os demais so mapeados
para propriedades visuais de um cone na forma de uma face estilizada, como o
formato da boca, nariz, olhos, etc. Valores diferentes nos atributos resultam em
diferentes formas e posies dos componentes. A figura 48 exemplifica o uso da
tcnica Faces de Chernoff ao longo do tempo.

Figura 48 - Uso da tcnica Faces de Chernoff para representao longitudinal de 8 atributos

101

5 VISUALIZAO DA INFORMAO

O problema das Faces Chernoff que embora sejam bastante teis para
mostrar tendncias em dados multidimensionais, os valores dos dados
propriamente ditos tm que ser apresentados adicionalmente, uma vez que
aquelas no transmitem qualquer informao sobre os reais valores com as quais
se relacionam. No entanto, a capacidade de ilustrar tendncias no desprezvel,
dado que pode ser usada, por exemplo, para ilustrar sobre que parte dos dados a
ateno deve ser focada.
Essa abordagem explora a capacidade humana de reconhecer e analisar
faces, mas vrios autores (KEIM; KRIEGEL, 1996; CHOU; LIN; YEH, 1999)
observam que, devido dificuldade de distinguir diferenas muito pequenas nas
imagens resultantes, ela no adequada para a identificao de agrupamentos.
Ward (1994) usa outro cone para fazer a representao dos dados. A
tcnica Star Glyphs, mapeia os dados em formas de estrelas onde cada atributo
representado por uma das pontas das estrelas, cujo tamanho proporcional ao
valor representado. A figura 49 exemplifica o uso desta tcnica e mostra um
comparativo entre seis diferentes tipos de automveis onde cada ponta do cone
estrela representa diferentes atributos (acelerao, deslocamento, potncia, MPG,
peso).

Figura 49 - Uso da tcnica Star Glyphs para representar diferentes caractersticas de


diferentes automveis

102

5 VISUALIZAO DA INFORMAO

Stick Figures uma tcnica que utiliza as duas dimenses da tela para
mapear duas dimenses dos dados e as demais dimenses so mapeadas para
os ngulos e/ou comprimentos de segmentos de um cone formado por mltiplos
segmentos de reta (PICKETT; GRINSTEIN, 1988). A figura 50(a) apresenta um
cone com uma configurao que apresenta cinco variveis, na qual uma
dimenso mapeada pela inclinao do corpo do cone, e a orientaes das
varetas permitem mapear outras quatro dimenses. Uma famlia de Stick Figures
ilustrada na figura 50(b), em que cada uma tem um corpo e quatro segmentos.
Segundo Branco (2003), outras formas de representar dimenses nesses cones
seriam por meio da variao de cores e espessuras das varetas.

Figura 50 - Stick Figures. (a) cone representando cinco variveis; (b) famlia de Stick
Figures (WONG; BERGERON , 1997)

Quando mapeados na tela, os cones (um para cada item de dado)


formam texturas que variam de acordo com as caractersticas dos dados,
permitindo identificar padres na imagem que podem indicar dependncia
funcional entre os atributos visualizados (KEIM; KRIEGEL, 1996; WONG;
BERGERON, 1997). A figura 51 exibe a imagem formada por esta tcnica que
representam cinco variveis, exemplificando como essas texturas podem ser
formadas.

103

5 VISUALIZAO DA INFORMAO

Figura 51 - Uso da tcnica Stick Figures no mapeamento de cinco variveis


(ANKERST, 2001)

Embora esta tcnica permita o mapeamento de grandes quantidades de


dados, a sua alta dimenso pode prejudicar na extrao de informaes na
textura formada. Alm disso, o reconhecimento de um importante padro na
imagem depende da seleo de um mapeamento adequado dos parmetros dos
dados para os parmetros visuais. Segundo Wong (1997), o grande gargalo neste
processo de visualizao est neste nmero de possveis mapeamentos visuais
que crescem em ordem fatorial em relao ao nmero de dimenses mapeadas.

5.2.5 Tcnicas Hierrquicas / Grafos

As tcnicas hierrquicas, geralmente so aplicadas em dados cuja prpria


natureza apresenta uma correlao explcita entre nveis e subconjuntos (por
exemplo, diretrios em sistemas de arquivos). Sendo assim, o espao ndimensional dos dados (no necessariamente hierrquicos) ento dividido em

104

5 VISUALIZAO DA INFORMAO

subespaos que so organizados uns dentro dos outros e exibidos de forma


hierrquica.
As tcnicas Cone Trees e Cam Trees (ROBERTSON; MACKINLAY;
CARD, 1991) so a representao tridimensional das populares rvores 2D. Estas
tcnicas se diferenciam apenas pela posio da rvore de cones formada,
enquanto

nesta

representao

feita

na

horizontal,

naquela,

esta

representao na vertical.
A construo da rvore feita a partir de um n raiz localizado no vrtice
de um cone. Todos seus filhos so ento igualmente espaados e posicionados
na base deste cone. Este processo se repete para cada n da rvore que possui
filhos. Em cada nvel a altura e o dimetro da base dos cones so ento
recalculados para que toda a informao esteja visvel (ver figura 52). (SANTOS;
GROS; ABEL, 1999; FREITAS et al, 2001)

Figura 52 - Tcnicas hierrquicas de visualizao (a) Cone Tree e (b) Cam Tree
(ROBERTSON; MACKINLAY; CARD, 1991)

Recursos tridimensionais como rotao, zoom e pan, permitem acesso


rpido s informaes com boa orientao para a visualizao. Estes recursos
permitem, por exemplo, escolher um n que se deseja examinar mais
detalhadamente de modo que o cone do n escolhido seja apresentado mais a
frente. Embora estes recursos possam ser aplicados, eles no impedem a

105

5 VISUALIZAO DA INFORMAO

ocluso de ns. Para solucionar este problema uma variante desta tcnica o
Recunfigurable Disc Tree usa discos ao invs de cones permitindo que todos os
ns dos cones sejam exibidos (JEONG; PANG, 1998).
Uma abordagem diferente, utilizando o espao de tela para representar
elementos de informao, ao invs de utilizar objetos geomtricos, foi adotada por
Johnson e Schneiderman (1991), com a tcnica Treemap. A tcnica surgiu da
necessidade de saber como os arquivos estavam sendo usados e armazenados
pelo grupo de estudos da Universidade de Maryland (SCHNEIDERMAN et al,
2007).
O Treemap mapeia as informaes dividindo toda a tela do computador
em partes para representar os diretrios e subdividindo estas partes para
representar os subdiretrios e assim por diante (ver figura 53).

Figura 53 - Uso da tcnica Treemap no mapeamento de diretrios de computadores


(SCHNEIDERMAN et al, 2007)

Uma desvantagem do mtodo Treemap est na dificuldade de identificar


visualmente os diferentes nveis do Treemap quando a hierarquia se torna muito
profunda.

106

5 VISUALIZAO DA INFORMAO

Segundo Freitas et al (2001), esta tcnica deu origem a outras como


Cushion TreeMaps (VAN WIJK; VAN DE WETERING, 1999), Information Slices
(ANDREWS; HEIDEGGER, 1998) e a Interface do Sunburst (STASKO; ZHANG,
2000). Estas tcnicas, em geral, buscam facilitar a identificao dos diferentes
nveis do Treemap.
Em uma tentativa de realar a satisfao do usurio com a aparncia dos
Treemaps e a intuio do usurio sobre a informao da hierarquia a fim de
facilitar a identificao destes nveis, Wijk e Wetering (1999) desenvolveram uma
tcnica denominada por Cushion Tremaps. Conforme pode ser observado na
figura 54, o algoritmo do Cushion Treemap usa a iluminao dos pixels e uma
funo de altura para representar os diversos nveis da hierarquia. Esta funo de
altura acionada para destacar retngulos menores.

Figura 54 - Uso da tcnica Cushion Treemaps. Iluminao e cores so usados para


diferenciar os nveis dos diretrios (VAN WIJK; VAN DE WETERING, 1999)

A tcnica Information Slices usa discos semicirculares (figura 55) para


visualizar hierarquias. Esta tcnica permite que dados sejam vistos de forma
compacta com vrios nveis em duas dimenses (ANDREWS; HEIDEGGER,

107

5 VISUALIZAO DA INFORMAO

1998). Cada disco representa uma hierarquia de mltiplos nveis. Em cada nvel
da hierarquia, os filhos so dispostos de acordo com os valores dos dados. Para
hierarquias maiores uma srie de discos em cascatas podem ser usadas. Um
segundo semicrculo pode ser usado para representar nveis com mais detalhe.

Figura 55 - Uso da tcnica Information Slices mostrando semicrculo auxiliar para


apresentar nveis com mais detalhes (ANDREWS; HEIDEGGER, 1998)

Na Interface do Sunburst, Stasko e Zhang (2000) usam discos completos,


seguindo basicamente o mesmo conceito do Informaton Slices.
Na tcnica Empilhamento de Dimenso (Dimensional Stacking) (LE
BLANC; WARD; WITELLS, 1990), o espao n-dimensional dos dados
subdividido em espaos bidimensional. Segundo Keim, Kriegel (1996) e Wong e
Bergeron (1997), esta tcnica no exige funes ou regras extras para plotar os
dados, ao contrrio das demais tcnicas hierrquicas.

108

5 VISUALIZAO DA INFORMAO

Um esquema conceitual para est tcnica est representado na figura 56


onde quatro atributos esto sendo mapeados. A figura 57 exemplifica o uso da
tcnica aplicado a botnica, onde as cores representam um tipo de flor (em
alguns casos a classificao pode ser mista), no eixo-x est representado o
comprimento das ptalas e no eixo-y o comprimento das spalas (quadrados
menores), seguindo a mesma orientao dos eixos (quadrados maiores) esto as
medidas de altura das mesmas partes da flor.

Figura 56 - Modelo conceitual da Empilhamento de Dimenso (Ankerst, 2001)

Segundo Hoffman e Grinstein (1999), esta tcnica pode ser usada para
determinar agrupamentos de pontos com comportamento discrepantes, e de
padres. Branco (2003), afirma que a interpretao dos resultados se torna muito
difcil quando o nmero de atributos muito grande, segundo o autor acima de
nove atributos esta extrao de informao j bastante prejudicada.
Uma outra limitao a est tcnica o alto nmero de valores que um
determinado atributo poder assumir. O arranjo hierrquico dos atributos e a
categorizao dos dados devem ser levados em considerao, em geral, atributos
de maior importncia devero ficar em nveis mais externos (KEIM; KRIEGEL,
1996; WONG; BERGERON, 1997; WARD, 1994).

109

5 VISUALIZAO DA INFORMAO

Figura 57 - Empilhamento de Dimenses aplicado botnica, as trs cores designam os


trs tipos de flores, em alguns casos a classificao mista (HOFFMAN; GRINSTEIN, 1999)

Mundos dentro de Mundos (Worlds-within-Worlds) (BESHIERS; FEINER,


1993) uma outra tcnica baseada em hierarquias. Esta tcnica mapeia mundos
tridimensionais dentro de mundos tridimensionais. A funo de cinco variveis
f(x1, x2, x3, x4, x5) (6 atributos) exemplifica como esta tcnica pode ser aplicada.
A figura 58 mostra uma superfcie definida pelo valor da funo f(x1, x2) (mundo
interno) cuja representao est em funo das demais variveis (x3, x4, x5)
(mundo externo).

110

5 VISUALIZAO DA INFORMAO

Figura 58 - Dados de dimensionalidade 6 mapeados no espao tridimensional atravs da


tcnica Mundo dentro de Mundos. No caso as variveis x3, x4 e x5 so mantidas constantes
(BESHIERS; FEINER, 1993)

Em se tratando de grafos, a idia visualizar dados volumosos usando


tcnicas

que

mapeiem

as

caractersticas

(direcionado/no-direcionado,

cclico/acclico, etc.) de um dado grafo, de maneira clara e rpida. As tcnicas


podem ser subdivididas segundo a dimensionalidade visual da representao: 2D
ou 3D.
As visualizaes geradas dependem de muitos fatores que refletem
caractersticas inerentes aos grafos, muitas delas refletindo definies prprias da
teoria dos grafos. Em relao ao desenho de grafos 2D tem-se como
propriedades (existentes ou no): a planaridade (no cruzamento de linhas
arestas), a ortogonalidade (somente linhas ortogonais) e a propriedade de
distribuio em grade (coordenadas dos vrtices so nmeros inteiros). As
propriedades estticas, objetivando a otimizao so: nmero mnimo de
cruzamentos, exibio tima de simetria, exibio tima de agrupamentos,
nmero mnimo de curvas em grafos com poli-linhas, distribuio uniforme dos
vrtices, e comprimento uniforme das arestas. A figura 59 exemplifica o uso das
tcnicas para representao de grafos em 2D, adequando-se as propriedades

111

5 VISUALIZAO DA INFORMAO

descritas acima ao tipo do grafo. Na figura 60 mostrada a representao em


grafo 3D.

Figura 59 - Representao por grafos na visualizao de dados; (a) Grafo otimizado para
agrupamento; (b) Grafo acclico direcionado (ANKERST, 2001)

Figura 60 - Representao em 3 dimenses de um grafo otimizado para agrupamentos


(ANKERST, 2001)

112

5 VISUALIZAO DA INFORMAO

5.2.6 Tcnicas Dinmicas

Segundo Santos, Grol e Abel (1999), as Tcnicas Dinmicas so


responsveis por darem tratamentos dinmicos s visualizaes, fazendo com
que estas reajam automaticamente as aes do utilizador ou a mudanas dos
dados.
Em geral, estas tcnicas podem ser aplicadas nas maiorias dos mtodos
vistos anteriormente e embora seja possvel uma visualizao mais detalhada de
uma determinada regio, as outras regies so prejudicadas, alterando a
estrutura dos dados e dificultando a distino.
Vistas de Fisheye, por exemplo, usa a idia de uma lente de aumento ou
de fisheye, responsvel por aumentar os objetos que esto prximos a lente e
mostrando os objetos circundantes cada vez com menos detalhes.
O conceito de Vistas de Fisheye foi introduzido por Furnas (1986) e foram
Sarker e Brow (1992) os primeiros a usarem as Vistas de Fisheye em um grafo
2D. Este tipo de vista permite a visualizao de um grande volume de informao
numa nica vista, onde uma sub-regio especfica poder ser visualizada com
mais detalhes.
Esta tcnica permite a interao direta do usurio, ou seja, conforme vai
se movimentando a lente, automaticamente o foco vai mudando e toda a
visualizao centraliza-se neste foco, deixando-o com mais detalhes. A estrutura
dos dados vo se modificando conforme a Vista de Fisheye vai mudando de
posio. A figura 61 mostra a representao por grafo das principais cidades dos
EUA e na figura 62 a aplicao da Vista de Fisheye com foco em St. Louis.

113

5 VISUALIZAO DA INFORMAO

Figura 61 - Grafo representando as principais cidades dos EUA (SARKER; BROW, 1992)

Figura 62 - Uso da tcnica Vistas de Fisheye nas proximidades de St. Louis (SARKER;
BROW, 1992)

114

5 VISUALIZAO DA INFORMAO

Bem similar tcnica Vistas de Fisheye, a tcnica Rubber Sheet, usa


como metfora uma folha de borracha. Esta folha pode ento ser esticada e
conseqentemente os dados so movimentados e o foco, definido pelo utilizador
mostrado com mais detalhes.
Esta tcnica foi desenvolvida por Sarkar, entre outros, (1993) como
tentativa de aprimorar algumas tcnicas de visualizao da informao como as
Vistas de Fisheye e Paredes de Perspectivas. A principal vantagem desta tcnica
quando comparadas s tcnicas citadas a possibilidade do uso de focos
mltiplos alm de controlar com preciso o espao alocado a cada um dos focos
(ver figura 63).

Figura 63 - Uso da tcnica Rubber Sheet sobre o grafo das cidades dos EUA com focos em
St. Louis e em Salt Lake City (SARKAR et al, 1993)

Outra tcnica de carter dinmico so os Icons Emotivos. Segundo


Walker (1995) os Icons Emotivos so icons que mudam dinamicamente seu
comportamento com a presena de um utilizador no mundo virtual. Estes icons

115

5 VISUALIZAO DA INFORMAO

podem, por exemplo, agir agressiva ou passivamente, avanar ou recolher,


crescer ou encolher, dependendo do perfil ou do grau da importncia que estes
dados tm para o utilizador (SANTOS; GROL; ABEL, 1999). Icons Emotivos
podem agir na presena de outros icons. Por exemplo, quando dois icons
possuem natureza correlacionveis, estes podem se mover ficando uns prximos
aos outros, enquanto que icons com natureza sem correlao se afastam entre si.
Para Santos, Grol e Abel (1999), os Icons Emotivos podem ser utilizados
para aumentar a interatividade de uma apresentao de informao, tornando-a
mais dinmica e mais fcil para o utilizador compreender a informao
apresentada. O objetivo aumentar o impacto e eficcia da interface com o
utilizador numa visualizao complexa.

5.2.7 Tcnicas Hbridas

As Tcnicas Hbridas so tcnicas desenvolvidas a partir do uso de uma


ou mais tcnicas conhecidas. A tcnica Parallel Glyphs, proposta por Fanea,
Carpendale e Isenberg (2005), por exemplo, usa duas das visualizaes clssicas
na sua composio, a Coordenadas Paralelas e os Star Glyphs. Estas tcnicas
conforme vistas nos itens anteriores mapeiam as informaes no espao
bidimensional, a primeira usa eixos paralelos ao longo dos quais so plotados os
valores dos pontos correspondentes enquanto que a segunda as informaes so
formadas por polgonos que radiam eixos a partir de um ponto central.
Estas tcnicas foram usadas pelos autores para desenvolver uma tcnica
interativa, cujos valores so mapeados para uma visualizao tridimensional. A
idia usar os glyphs no lugar dos eixos paralelos da tcnica Coordenadas
Paralelas. O uso destes glyphs d uma representao tridimensional
visualizao (ver figura 64).

116

5 VISUALIZAO DA INFORMAO

Figura 64 - Representao de dados atravs da tcnica Parallel Glyphs (FANEA;


CARPENDALE; ISENBERG, 2005)

Para cada coluna da tabela de dados um polgono correspondente


construdo cujos vrtices so plotados a uma distncia proporcional ao valor da
tabela. Os polgonos so dispostos a uma mesma distncia uns dos outros,
ligando vrtices correspondentes a uma mesma linha da matriz de dados.
Esta tcnica tem como caracterstica principal evitar a sobreposio de
linhas. Alm de permitir que o usurio navegue sobre os dados de forma
interativa. Uma das suas desvantagens, assim como acontece com outras
tcnicas de Visualizao da Informao, est na representao visual de dados
de alta dimensionalidade, pois quanto o maior o nmero de dimenses, mais
vrtices sero construdos nos polgonos e conseqentemente mais linhas, que
vo se tornando cada vez mais prximas umas das outras dificultando a
interpretao dos resultados.

5.3 Consideraes Finais


A classificao das tcnicas de Visualizao da Informao uma tarefa
difcil. Muitos autores classificam estas tcnicas seguindo diversos critrios e
algumas das tcnicas podem pertencer a uma ou mais classificaes. Com base

117

5 VISUALIZAO DA INFORMAO

nas classificaes destes autores, e com um levantamento de diversas tcnicas


existentes na literatura, uma nova classificao foi proposta neste captulo.
Tambm foi discutido como tcnicas de minerao podem apoiar a
explorao visual de grandes conjuntos de dados, e tambm serem apoiadas por
recursos visuais. Percebe-se que os dois problemas crticos em Minerao de
Dados tambm so crticos em Visualizao de Informao. O primeiro a alta
dimensionalidade, tipicamente tratada durante a etapa de Transformao dos
Dados do Processo KDD. O segundo problema a grande quantidade de
registros contidos nas bases de dados atuais, o que demanda o uso de algoritmos
cada vez mais eficientes.
Alguns destes problemas podem ser contornados com tcnicas
interativas, zoom, pan e rotao. Estas tcnicas permitem o usurio navegar em
todo o mundo virtual, possibilitando que uma determinada regio seja vista com
mais detalhes.
As tcnicas de Visualizao da Informao permitem uma anlise de
dados de dimenses grandes, facilitando a extrao do conhecimento. Cada
tcnica de Visualizao sugerida a um determinado tipo de dados. A dificuldade
de encontrar uma tcnica que melhor represente os dados estudados acaba se
tornando um problema, porm estas tcnicas podem ser usadas em conjunto,
permitindo encontrar padres em tcnicas diferentes.

6 MTODO DE PESQUISA E EXPERIMENTOS

6.1 Consideraes Iniciais


O Processo KDD, responsvel pela descoberta do conhecimento em
banco de dados j inclui em suas etapas a Visualizao, fundamental em todo o
processo na busca do conhecimento.
Diferentes tcnicas de duas grandes reas de pesquisa, Visualizao da
Informao (VI) e tratamento de dados multidimensionais (Minerao de Dados)
foram estudadas nos captulos 4 e 5. Os experimentos que aqui sero
apresentados permitem dar uma viso de como unir estas reas para auxiliar no
processo de descoberta e extrair de forma mais eficiente informaes
importantes.
A Minerao Visual de Dados, nome dado na tentativa de integrar estas
reas, a Minerao de Dados e a Visualizao da Informao, similar etapa
Minerao de Dados. Assim como esta, a Minerao Visual de Dados utiliza
diferentes tcnicas para encontrar informaes teis escondidas na massa de
dados. Diferenciam-se uma da outra pelo fato daquela usar a Visualizao na
busca de padres e no simplesmente em uma anlise dos resultados numricos
gerados pela Minerao de Dados.
Em geral, as visualizaes no requerem conhecimentos especficos de
reas como Matemtica e Estatstica e utilizam o sentido da viso do ser humano
para explorar o ambiente e extrair as informaes necessrias (captulo 2). Por
outro lado, a Visualizao da Informao pode ser usada para auxiliar ou ser
auxiliada

por algoritmos

complexos

que

envolvem

conhecimentos

mais

119

6 MTODOS DE PESQUISAS E EXPERIMENTOS

aprofundados destas reas, melhorando o desempenho e facilitando a extrao


do conhecimento.
Muitas vezes, o uso das tcnicas de VI o suficiente para extrair as
informaes que se tem interesse. Porm, algumas vezes, interessante fazer
um estudo atravs de tcnicas de tratamentos de dados multidimensionais, e
inserir Visualizao para facilitar a interpretao dos resultados.
Neste captulo ser visto duas diferentes abordagens, uma para cada
estudo realizado nos experimentos, ITAIPU e SIMEPAR. Os resultados obtidos
foram gerados atravs de softwares existentes baseados na visualizao de
dados multidimensionais. Dentre os softwares utilizados esto o MDV, XMDVTool,
MatLab e Parvis, vistos no captulo 2. Alm disso, uma classe desenvolvida em
java, baseados em Redes Neurais, foi implementa para acrescentar ao software
RadVis a funcionalidade de filtragem dos dados.
O objetivo deste captulo mostrar como as tcnicas de Visualizao
podem auxiliar e facilitar na extrao de conhecimento sem muitos clculos
adicionais.

6.2 Primeiro Experimento: ITAIPU

6.2.1 Introduo ITAIPU

A ITAIPU Binacional, maior hidreltrica em produo de energia do mundo,


teve o incio da sua construo em 1973 num trecho do Rio Paran conhecido por
ITAIPU, que, em tupi, quer dizer a pedra que canta, localizado no corao da
Amrica do Sul na divisa entre o Paraguai e o Brasil. Entre 1975 e 1978, um
desvio do rio Paran de cerca de 2 Km foi escavado para alterar o curso do rio. O
novo canal permitiu que o trecho do leito principal do rio fsse secado, para ali ser
construda a barragem principal, em concreto. No dia 14 de novembro de 1978, foi

120

6 MTODOS DE PESQUISAS E EXPERIMENTOS

realizada a concretagem de 7.207 metros cbicos, equivalente a uma construo


de 24 edifcios de dez andares no mesmo dia, um recorde sul-americano na
Engenharia Civil. Em 1981, com as obras quase concludas, d-se o incio a
montagem das unidades geradoras com instalao de turbinas. Em outubro de
1982, chegam ao fim as obras da barragem. Com o fechamento das comportas
do canal de desvio, para a formao do reservatrio da usina, d-se o incio da
operao Mymba Kuera (que em tupi-guarani quer dizer pega-bicho). A
operao salva a vida de 36.450 animais que viviam na rea a ser inundada pelo
lago, cerca de 1350 Km2. Em 5 de novembro de 1982, com o reservatrio j
formado, os presidentes do Brasil, Joo Figueiredo, e do Paraguai, Alfredo
Stroessner, acionam o mecanismo que levanta automaticamente as 14 comportas
do vertedouro, liberando a gua represada do Rio Paran e, assim, inauguram
oficialmente a maior hidreltrica do mundo (ITAIPU, 2008).
Atualmente a ITAIPU possui 20 unidades geradoras de 700 MW
(megawatts) cada, gerando uma potncia total instalada de 14.000 MW. No ano
2000, a ITAIPU Binacional bateu seu recorde em gerao de energia, cerca de
93,4 bilhes de quilowatts-hora (KWh) foram gerados naquele ano.
A ITAIPU Binacional responsvel pelo abastecimento de 95% da energia
eltrica consumida no Paraguai e 24% de toda a demanda do mercado brasileiro.
A barragem da ITAIPU tem 7.919 metros de extenso e altura mxima de
196 metros, o equivalente a um prdio de 65 andares. Consumiu 12,3 milhes de
metros cbicos de concreto, enquanto o ferro e o ao utilizados permitiriam a
construo de 380 Torres Eiffel, dimenses que transformaram a usina em
referncia nos estudos de concreto e na segurana de barragens. A figura 65
mostra a estrutura geral da barragem de ITAIPU, e a tabela 7 mostra a as
principais caractersticas dos trechos da barragem.

121

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 65 - Estrutura geral do complexo ITAIPU (ITAIPU, 2008)


Tabela 7 - Caractersticas dos trechos da Barragem do ITAIPU
Estrutura

Trecho
1 (L)
2 (K)
3 (E e I) / 7 (D)
4 (H)
5 (F)
9 (Q)

Barragem Auxiliar
Barragem Auxiliar
Barragens Laterais
Estrutura de Desvio
Barragem Principal
Barragem Auxiliar

8 (A)
6 (U)

Terra
Enrocamento
Contraforte
Concreto Macio
Gravidade Aliviada
Terra

Vertedouro
Casa de Fora

Comprimento
(m)
2294
1984
1438
170
612
872

Altura
Mxima (m)
30
70
81
162
196
25

350 m de Largura
20 Unidades Geradoras

6.2.2 Monitoramento e Instrumentao Estrutural

A Barragem de ITAIPU composta por dois trechos de barragens de terra,


um trecho de barragem de enrocamento e um trecho de concreto. Em toda sua
extenso, para acompanhar o desempenho das estruturas de concretos e
fundao, so encontrados 2218 instrumentos (1362 no concreto e 856 nas
fundaes e aterros) sendo 270 automatizados, e 5239 drenos (949 no concreto e
4290 nas fundaes), cujas leituras ocorrem em diferentes freqncias, podendo
ser, por exemplo, diria, semanal, quinzenal, mensal, dependendo do tipo de
instrumento.

Conta-se

tambm

com

monitorao

dos

dados

hidro-

meteorolgicos, realizada atravs de algumas estaes que so da prpria

122

6 MTODOS DE PESQUISAS E EXPERIMENTOS

ITAIPU e de outras entidades, como a Companhia Paranaense de Energia


(COPEL), Agncia Nacional de guas (ANA) e Operador Nacional do Sistema
(ONS). A ITAIPU tambm utiliza dados de sistemas meteorolgicos, como
imagens de satlite, imagens de radar e localizao de descargas eltricas, por
meio de convnios com o Sistema Meteorolgico do Paran (SIMEPAR) e da
paraguaia Direccin Nacional de Aeronutica Civil (DINAC) (ITAIPU, 2008).
A tabela 8 mostra resumidamente as funcionalidades dos instrumentos
encontrados ao logo da barragem diferenciando em dois tipos, concreto e
fundao.

Tabela 8 - Funcionalidades dos instrumentos encontrados na barragem de ITAIPU no


concreto e na fundao (ITAIPU, 2008)
Tipo

Instrumento
Caixa seletora

Pndulo direto

Pndulo invertido
Concreto

Medidor eltrico de
junta
Base de alongmetro
Deformmetro de
armadura
Deformmetro de
concreto
Termmetro de
resistncia
Medidor de vazo

Fundao

Extensmetro mltiplo
de haste
Piezmetro Standpipe
Piezmetro eltrico

Funcionalidade
Rene os cabos eltricos de vrios instrumentos em
uma caixa central que, ao ser conectada ao aparelho
de leitura, fornece dados destes instrumentos.
Mede os deslocamentos horizontais de pontos dos
blocos instrumentados da barragem em
determinadas cotas, em relao fundao da
estrutura.
Mede os deslocamentos da fundao da barragem
em relao a um ponto da fundao suficientemente
profundo para ser considerado fixo.
Mede os deslocamentos de abertura e fechamento
de determinadas juntas de contrao de estruturas
de concreto.
Mede abertura, fechamento, recalque e deslizamento
entre blocos ou juntas de monolitos.
Mede as tenses em barras de armadura, no interior
de estruturas de concreto.
Mede a deformao do concreto e, por esta
deformao, obtm-se a tenso que est atuando na
estrutura.
Mede a temperatura no interior da estrutura de
concreto.
Mede as vazes de percolao atravs das
estruturas e fundaes das obras de terra e concreto.
Mede as deformaes da fundao com relao ao
ponto de ancoragem de sua haste.
Permite conhecer a subpresso atuante no local da
sua instalao.
Permite conhecer a subpresso atuante no local da
sua instalao.

123

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Tipo

Instrumento
Medidor de
assentamento IPT
(medidor de recalque)
Clula de presso total
Medidor triorgogonal
Medidor de nvel
dgua

Funcionalidade
Mede deformaes verticais ocorridas nas barragens
de terra.
Mede as presses totais atuantes na zona de contato
solo-concreto.
Mede os deslocamentos entre juntas de concreto e
zonas fraturadas nos macios rochosos.
Mede o nvel da gua presente no subsolo (lenol
fretico).

Embora os nove trechos da barragem de ITAIPU sejam instrumentados e


monitorados, o trecho Barragem Principal (trecho F) merece destaque e um
estudo mais aprofundado. O trecho F responsvel pela movimentao das
turbinas para gerao de energia eltrica, alm de ser o trecho de maior altura em
coluna de gua, tornando-o um dos mais crticos.
O trecho F constitudo de vrios blocos, sendo que cada um deles possui
instrumentos que fornecem dados a respeito de seu comportamento fsico, tanto
na estrutura de concreto como na sua fundao. Nas Tabelas 9 e 10, podem-se
observar os tipos e quantidades de instrumentos instalados no concreto e na
fundao dos blocos do trecho F.

Tabela 9 - Quantidades e tipos de instrumentos no concreto encontrados nos blocos do


trecho F da barragem de ITAIPU (ITAIPU, 2008)
Instrumentos no Concreto
Blocos do Trecho F
Instrumento
Sigla 5/ 13/ 15/ 19/ 35/
6
14 16 20 36
Rosetas Deformmetros
RD
4
11
Tensmetro
TN
1
4
Rosetas de Tensmetros
RT
2
6
Medidor de Junta Interna
JM
7
Pndulo Direto
PD
5
6
6
4
Pndulo Invertido
PI
3
1
1
1
Termmetro na Massa
TM
3
17
3
Termmetro na Superfcie
TS
2
6
2
Total por Bloco
20
7
1
58
9

Total por
Instrumento
15
5
8
7
21
6
23
10
95

124

6 MTODOS DE PESQUISAS E EXPERIMENTOS


Tabela 10- Quantidades e tipos de instrumentos na fundao encontrados nos blocos do
trecho F da barragem de ITAIPU (ITAIPU, 2008)
Instrumentos na Fundao
Instrumento

Sigla

Piezmetro
PS
Standpipe
Piezmetro
PG
Geomor
Extensmetro
EM
de Haste
Medidor de
MA
Aterro
Medidor
MT
Triortogonal
Clula de
CL
Presso Total
Medidor de
MV
Vazo
Drenos
DR
Medidor de
PZ
Nvel d'gua
Total por Bloco

Blocos do Trecho F
15/ 17/ 19/ 21/
16
18
20
22

23/
24

27/
28

29/
30

31/
32

35/
36

Total

10

74

29

11

12

12

12

11

12

14

13

127

1/
2

3/
4

5/
6

7/
8

9/
10

11/
12

13/
14

6.2.3 Organizao dos Dados

Os dados das instrumentaes da barragem da ITAIPU, originalmente,


encontravam-se organizados em arquivos em formato texto. De acordo com
Andraos (2006) e Sanchez (2006), estes dados foram reorganizados em um
banco de dados em planilhas do Excel, onde se procurou relacionar as
informaes de projeto com as constantes nos arquivos texto das leituras dos
instrumentos.
Buzzi (2007), baseado neste banco de dados, desenvolveu um programa
em MATLAB capaz de unir instrumentos diferentes cujas leituras tinham
ocorrncias numa mesma data. Para alguns instrumentos, o nmero de leituras
ocorridas em mesma data foi baixo. Com isso, certas anlises poderiam gerar
resultados duvidosos. Para estes casos, Buzzi (2007) props adotar tolerncias
de defasagem entre leituras de diferentes instrumentos de um at trs dias.
Com base na organizao inicial dos dados da ITAIPU, realizados pelos
trabalhos de Andraos (2006) e Sanchez (2006), e atravs do programa elaborado
por Buzzi (2007), neste trabalho, os dados foram organizados em tabelas onde as
colunas representam as variveis envolvidas, e as linhas, as leituras nas

125

6 MTODOS DE PESQUISAS E EXPERIMENTOS

diferentes datas. A figura 66 ilustra a organizao dos dados em tabela de parte


das leituras dos instrumentos do tipo extensmetro.

Figura 66 - Representao de parte dos instrumentos do tipo extensmetros

6.2.4 Tcnicas Visuais Aplicadas aos Dados de ITAIPU

Conforme observado no captulo 5, diferentes tcnicas de visualizao da


informao podem ser usadas na anlise de dados multidimensionais. A escolha
de uma delas no uma tarefa fcil. Cada tcnica possui vantagens e
desvantagens em relao s demais.
Nesta seo, diferentes tcnicas de Visualizao da Informao foram
aplicadas aos dados de monitoramento da Barragem da ITAIPU com o objetivo
principal de analisar as relaes existentes entre as variveis. Em algumas
visualizaes necessrio usar recursos estatsticos a fim de facilitar a
interpretao dos resultados.
Uma enorme quantidade de simulaes poderia ser feita com os dados, e
aqui optou-se por selecionar somente um caso para mostrar como se pode

126

6 MTODOS DE PESQUISAS E EXPERIMENTOS

realizar a anlise visual dos dados atravs das tcnicas de Minerao Visual de
Dados.
Neste primeiro experimento, selecionou-se do banco de dados aqueles
cujas variveis pertenciam ao grupo dos extensmetros. Esta seleo foi
realizada, pois se espera que haja relacionamentos considerveis entre estes
tipos de variveis. Alm destas aplicaes aqui mostradas, ainda poderiam ser
obtidas novas visualizaes conforme necessidade do usurio.
Os extensmetros so instrumentos que medem as deformaes da
fundao e so formados por vrias hastes. No bloco 19/20 do trecho F da
Barragem da ITAIPU, so encontrados quatro instrumentos deste tipo, assim
denominados: EMF21, EMF22, EMF23 e EMF24. O instrumento EMF21
constitudo de duas hastes enquanto que os demais possuem trs hastes. Os
dados aqui abordados foram selecionados no perodo de janeiro de 1996 a janeiro
de 2006. Este histrico de dez anos foi suficiente para analisar o comportamento
entre os instrumentos que compem um conjunto de 110 leituras de 13 variveis
(incluindo Ano e Ms).
Conforme mostrado na figura 66, estes dados foram organizados em
tabelas facilitando as entradas dos softwares utilizados para gerar as
visualizaes.
A figura 67 ilustra o uso das Coordenadas Paralelas para visualizar os
dados dos instrumentos do tipo extensmetros. Nesta imagem, pde se observar
claramente a relao existente entre vrios pares de variveis. A correlao entre
variveis, conforme visto anteriormente pode ser analisada quando existem
poucos cruzamentos entre as linhas que saem de um eixo a outro vizinho,
aproximando-se de retas paralelas. Observe-se que nesta imagem somente os
pares ANO x MS, MS x EMF21_h1 no possuem bons relacionamentos, como
era de se esperar.

127

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 67 - Anlise visual das relaes existentes entre pares de variveis do instrumento
do tipo extensmetro, utilizando Coordenadas Paralelas (imagem gerada pelo software
ParVis)

Olhando para os eixos EMF21_h2 e EMF22_h1, uma anlise curiosa


pode ser realizada. Observe com o auxlio da figura 68 que para valores baixos da
varivel EMF21_h2 os valores da varivel EMF22_h1 so altos, e vice-versa, isso
induz a concluir que estas variveis possuem comportamento de relacionamento
inverso (coeficiente de correlao negativo). Os demais pares, com exceo
daqueles mencionados anteriormente, possuem um relacionamento positivo.

Figura 68 - Ilustrao por Coordenadas Paralelas do comportamento das variveis


EMF21_h2 e EMF22_h1 (imagem gerada pelo software MDV)

128

6 MTODOS DE PESQUISAS E EXPERIMENTOS

A principal desvantagem deste mtodo est no fato de no poder analisar


a relao entre variveis cujos eixos no so vizinhos. Desta forma, no se pode,
de forma natural analisar, por exemplo, se as variveis EMF22_h1 e EMF22_h3
so bem relacionveis.
Carvalho (2001), em seu trabalho, prope um algoritmo para ordenao
dos eixos conforme os valores das correlaes entre variveis. Esta Minerao
Visual de Dados, integrando Anlise de Correlaes com Visualizao da
Informao, permitiu unir os eixos cujas correlaes so mais altas. A figura 69
exemplifica o uso deste algoritmo, onde possvel fazer novas observaes. Esta
nova imagem permitiu observar que as variveis EMF22_h1 e EMF22_h3, j
mencionadas anteriormente, possuem um valor alto de relacionamento. J as
variveis EMF24_h3 e EMF21_h1, devido a grande quantidade de cruzamentos
das linhas, no possuem uma boa relao. A relao entre outras variveis
tambm podem ser observadas.

Figura 69 - Tcnica Coordenadas Paralelas aplicada a visualizao dos dados dos


instrumentos do tipo extensmetro ordenados pelos valores de suas correlaes (imagem
gerada pelo software ParVis)

As ordenaes dos eixos tambm podem ser feitas de forma interativa,


onde intuitivamente o usurio aproxima aqueles eixos que deseja analisar. O
software ParVis permite este tipo de interatividade.

129

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Outra tcnica bastante utilizada para analisar relaes entre variveis so


a Scatterplots (grficos de disperso) e a Orientada a Pixels. Estas tcnicas
mapeiam as variveis numa nica tela permitindo compar-las par a par.
A figura 70 ilustra o uso da tcnica Scatterplots na visualizao das
variveis do instrumento extensmetro, lembrando que variveis cujos dados
esto dispersos aproximando-se do comportamento de uma reta indicam
variveis bem relacionadas.

Figura 70 Relao entre as variveis do instrumento do tipo extensmetro mostradas pela


tcnica Scatterplots (imagem gerada pelo software XmdvTool)

Uma anlise na imagem gerada por esta tcnica permitiu observar que
olhando para a linha 'ANO' e percorrendo pelas colunas, com exceo das
variveis EMF21_h1, EMF21_h2 e EMF24_h3, as demais possuem um

130

6 MTODOS DE PESQUISAS E EXPERIMENTOS

relacionamento inverso ao ano, ou seja, conforme o passar dos anos, os valores


destas variveis foram diminuindo.
A figura 71 utiliza a tcnica Orientada a Pixel para visualizar os dados do
extensmetro,

onde

imagens

visualmente

parecidas

indicam

um

bom

relacionamento entre as variveis. Desta forma, uma anlise da imagem, permite


observar que as variveis que formam os seguintes grupos: {EMF22_h1,
EMF22_h2, EMF22_h3, EMF23_h1 e EMF23_h2}, { EMF21_h1, EMF21_h2}, {
EMF24_h1, EMF24_h2} e { EMF23_h3, EMF24_h3} possuem um bom
relacionamento entre si.

Figura 71 - Uso da tcnica Orientada a Pixel para representar os dados de extensmetro


(imagem gerada pelo software XmdvTool)

As tcnicas Star Glyphs e Faces Chernoff tambm podem ser utilizadas


com a finalidade de analisar as correlaes entre as variveis. A figura 72 ilustra o
uso destas tcnicas, onde stars ou faces semelhantes indicam um bom
relacionamento entre as variveis. Assim, os seguintes grupos, {EMF21_h1,
EMF21_h2}, {EMF22_h1, EMF22_h2, EMF22_h3, EMF21_h1, EMF23_h1,
EMF23_h2, EMF24_h1, EMF24_h2} e {EMF23_h3, EMF24_h3} possuem um bom
relacionamento de suas variveis.

131

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 72 - Relacionamento das variveis atravs das tcnicas (a) Star Glyphs e (b) Faces
de Chernoff (imagem gerada pelo software MATLAB)

Alm de analisar as relaes existentes entre variveis, as tcnicas de


Visualizao da Informao podem ser usadas na anlise e formao de
agrupamentos (clusters). Estas tcnicas permitem, sem a necessidade de ter
conhecimentos em reas como estatsticas ou matemtica, analisar visualmente a
imagem formada pelas variveis e nela, intuitivamente, formar os grupos.
Para os dados em anlise, a formao dos clusters pela varivel 'Ano'
induz a interpretar a variao dos valores das demais variveis. As imagens da
figura 73 usam a tcnica Coordenadas Paralelas para destacar o comportamento
destas variveis ao longo dos anos. Observe que assim como na anlise feita
pela tcnica Scatterplots, possvel observar o decrescimento daquelas variveis
ao passar dos anos.

132

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 73 - Uso das tcnicas Coordenadas Paralelas no agrupamento por ano das variveis
dos extensmetros (imagem gerada pelo software ParVis)

Vale observar tambm que outros agrupamentos poderiam ser realizados.


Ao invs de agrupar por ano, poder-se-ia agrupar pelos meses, por exemplo, e
ento se teria o comportamento mensal das variveis.

133

6 MTODOS DE PESQUISAS E EXPERIMENTOS

A tcnica RadVis tambm permite a anlise de agrupamentos. A figura 74


ilustra o uso desta tcnica no agrupamento destes mesmos dados conforme a
varivel ANO, mostrando a distribuio das variveis.

Figura 74 - Tcnica RadVis aplicada aos dados de extensmetros no agrupamento por ano
(imagem gerada pelo software MDV)

Estas tcnicas, embora possuam limitaes, podem ser teis na extrao


do conhecimento em banco de dados. Em geral, uma nica tcnica de
Visualizao da Informao no permite a extrao de todo o conhecimento,
porm se estas tcnicas forem utilizadas em conjunto e ainda unidas com
mtodos numricos para tratamentos de dados (tcnicas de Minerao de
Dados), a extrao do conhecimento se torna mais fcil e rpida.

134

6 MTODOS DE PESQUISAS E EXPERIMENTOS

6.3 Segundo Experimento: SIMEPAR

6.3.1 Introduo ao SIMEPAR

O Instituto Tecnolgico SIMEPAR, empresa de direito privado e interesse


pblico, foi institudo em maro de 1993 na forma de um convnio entre o Instituto
Agronmico do Paran (IAPAR) e a Companhia Paranaense de Energia
(COPEL). Junto ao Laboratrio de Estudos em Monitoramento e Modelagem
Ambiental (LEMMA) da UFPR, o SIMEPAR organiza seu processo buscando
implementar sistemas e desenvolver solues tecnolgicas nas reas de
Meteorologia, Hidrologia e Meio Ambiente, de forma a obter maior provimento dos
dados e das previses de tais reas.
O uso das tecnologias e das informaes ambientais disponveis no
SIMEPAR auxiliam na tomada de decises de profissionais de diferentes ramos
de atuao. Na agricultura, por exemplo, as informaes geradas pelo SIMEPAR
contribuem para a determinao da poca ideal de plantio e colheita, bem como
para indicao do melhor momento para aplicao de adubos e defensivos. Alm
disso, o SIMEPAR faz previses de geada, granizo, chuva, etc.
No transporte, uma previso confivel do tempo garante menos atrasos e
maior segurana nos vos e nas operaes porturias. O SIMEPAR fornece
tambm informaes sobre condies do tempo nas estradas.
Com as informaes disponveis possvel, tambm, programar atividades
de lazer e turismo com antecedncia, alm de poderem ser usadas no ramo de
energia, contribuindo para as empresas de gerao, transmisso e distribuio,
na reduo de riscos na operao hidro-energtica, diminuindo custos de
manuteno de linhas de transmisso e distribuio, agregando segurana em
novos projetos, fornecendo informaes para avaliao da viabilidade de

135

6 MTODOS DE PESQUISAS E EXPERIMENTOS

explorao de fontes alternativas de energia eltrica, reduzindo a freqncia e a


durao das interrupes de fornecimento de energia eltrica e permitindo o
controle mais adequado dos nveis dos reservatrios das usinas. O Sistema
tambm proporciona economia de energia e maior segurana para pessoas e
propriedades.
Desde a sua instituio, o SIMEPAR j dispunha de toda a infraestrutura de
equipamentos para monitoramento e previso hidrometeorolgica. No Estado do
Paran, esto espalhados entre as cidades, 39 estaes meteorolgicas, 36
estaes hidrolgicas, seis estaes remotas de recepo de descargas
atmosfricas e um radar meteorolgico.
As estaes meteorolgicas so compostas de antenas e de sensores
responsveis pela coleta de dados de temperatura, direo e velocidade dos
ventos, umidade relativa, chuva, presso atmosfrica e radiao solar, que so
transmitidos via satlite para a sede do SIMEPAR, em Curitiba.
A figura 75 mostra a distribuio da temperatura mnima em todo estado do
Paran, gerada com base nos dados das estaes meteorolgicas dos SIMEPAR
do dia 08 de janeiro de 2008 atravs do software GraDS.

Figura 75 - Distribuio da temperatura mnima no Paran (SIMEPAR, 2008)

136

6 MTODOS DE PESQUISAS E EXPERIMENTOS

As estaes hidrolgicas fornecem dados de chuvas e nveis dos rios, a


partir dos quais se estima as suas vazes. As estaes hidrolgicas tambm
fornecem dados de muita importncia para operao de reservatrios de usinas
hidreltricas, como a de Foz do Areia, que opera com um medidor de nvel a base
de sonar.
O Sistema de Deteco e Localizao de Descargas Atmosfricas gera
pesquisa cientfica e produtos destinados a aplicaes na previso de tempo, na
anlise e manuteno de sistemas eltricos de transmisso, de distribuio e na
emisso de laudos de anlise de eventos severos para seguradoras e empresas
de engenharia.
Beneti et al (2000), num convnio de cooperao tcnico-cientfica firmado
entre a Companhia Paranaense de Energia (COPEL) atravs do SIMEPAR, a
CEMIG e FURNAS, tornou possvel a integrao dos sistemas de deteco de
descargas atmosfricas operados por estas empresas formando a Rede Integrada
de Deteco de Descargas Atmosfricas no Brasil (RIDAT), cujo objetivo
desenvolver um intercmbio das informaes tcnico-cientficas, e dos sinais
obtidos pelos sensores das redes de deteco, alm de integrar os procedimentos
de anlise, manuteno e operao conjuntas.
Ao todo, o RIDAT possui 22 sensores de descargas eltricas espalhados
pelo Brasil, sendo, 7 do CEMIG, 6 do SIMEPAR, 8 de FURNAS e 1 do INPE, que
possibilitam a criao de diversos sistemas de visualizao, dentre os quais:
(BENETI et al, 2000)


Localizao geogrfica e temporal de descargas atmosfricas nuvemterra;

Localizao de temporais

Determinao de caractersticas de descargas como: valor estimado do


pico da corrente de retorno, polaridade e nmero de componentes
(multiplicidade) se a descarga for de natureza mltipla.

A figura 76, gerada pelo software SisRaios, mostra a disposio de


descargas atmosfricas espalhadas em grande parte de Minas Gerais, Gois,

137

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Esprito Santo, So Paulo, Mato Grosso do Sul e Paraguai, num total de 534
descargas no perodo de 15 minutos a partir das 18:07 horas do dia 08 de janeiro
de 2008. Pontos azuis mais escuros representam descargas mais recentes.

Figura 76 - Deteco de descargas atmosfricas no Brasil (fonte: SIMEPAR)

O Radar Meteorolgico Doppler (nome dado para a tcnica de captura de


informao pelo radar) do SIMEPAR est em operao de monitoramento e
vigilncia ambiental desde outubro de 1998, sendo o primeiro do estado do
Paran. As medies do Radar so realizadas numa rea de at 480 km de raio,
cobrindo a rea do estado do Paran, Santa Catarina, parte do centro-sul de So
Paulo e norte do Rio Grande do Sul. Os dados do Radar do SIMEPAR so
obtidos em tempo real (a cada 10 minutos e em dias chuvosos a cada 5 minutos)

138

6 MTODOS DE PESQUISAS E EXPERIMENTOS

para monitoramento e previso de tempo e armazenados para serem utilizados


em pesquisa e desenvolvimento de produtos meteorolgicos.
Em geral, os dados provindos do Radar Meteorolgico Doppler do
SIMEPAR so utilizados no monitoramento em curtssimo prazo (0 a 3 horas) da
precipitao, vento e granizo em eventos de tempo severo (tempestades, chuvas
intensas, ventos fortes, ocorrncia de granizo, descargas atmosfricas), alm de
permitir estimar a intensidade da chuva com grande resoluo espacial e temporal
(CALVETTI et al, 2003).
A figura 77 ilustra o uso do software RadVis, onde possvel observar a
intensa chuva ocorrente naquela data (24/07/2007 s 23:41). A visualizao
baseada nas tcnicas de Visualizao da Informao, vistos com mais detalhes
no captulo 5, onde os pixels so mapeados conforme valores da matriz de dados.

Figura 77 - Visualizao de dados de radar atravs do RadVis (fonte: SIMEPAR)

139

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Na prxima seo ser estudado mais detalhadamente o funcionamento


dos radares e a manipulao dos dados, pois estes sero posteriormente
utilizados na aplicao de predio de chuvas.
Outra fonte de dados disponvel no SIMEPAR a recepo e o
processamento de imagens de satlites, responsvel pela recepo em tempo
real de dados de alta resoluo dos satlites meteorolgicos das sries GOES e
NOAA, bem como pelo processamento e visualizao de dados e produtos de
satlites.
As informaes geradas pelos sistemas so usadas por meteorologistas no
monitoramento e previso do tempo, como tambm para atividades de pesquisa
em modelagem numrica da atmosfera.
O processamento das imagens de satlite disponibiliza diversos produtos,
assim classificados:


Produtos GOES: imagens de infra-vermelho, vapor d' gua e visvel a


cada 3 horas (mnimo), algoritmos de deteco de nevoeiros e
queimadas, estimativa de precipitao por satlite;

Produtos NOAA: ndices vegetativos, temperatura da superfcie do mar,


temperatura do solo e perfil vertical de temperatura e umidade, entre
outros.

As informaes dos satlites so armazenadas no ambiente de banco de


dados do SIMEPAR e esto disponveis para todos os usurios da sua homepage
(SIMEPAR, 2008).
As figuras 78 e 79 mostram o uso do software SatVis na visualizao de
dados de satlite na gerao de imagens do canal infra-vermelho (IR4) do dia 08
de janeiro de 2008 s 05:45 horas. A primeira imagem numa escala preta e
branca e na segunda numa escala colorida. Assim como o RadVis, o SatVis
tambm mapeia os pixels conforme os valores da matriz de dados.

140

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 78 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis usando uma
escala preto e branco (fonte: SIMEPAR)

Figura 79 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis usando uma
escala colorida (fonte: SIMEPAR)

141

6 MTODOS DE PESQUISAS E EXPERIMENTOS

6.3.2 O Radar Meteorolgico

O princpio de funcionamento do radar meteorolgico anlogo ao


sistema de navegao de um morcego. O morcego emite sons em alta freqncia
que ao ser interceptados por obstculos retornam ao ouvido do morcego. O
tempo levado para o som retornar informao necessria para que o morcego
saiba quo distante ele est do obstculo.
No radar meteorolgico, ao invs de sons, so empregadas ondas
eletromagnticas de alta energia capazes de atingir grandes distncias. Estas
ondas causam uma ressonncia na freqncia da onda incidente em cada gota
de chuva, de forma a irradiar ondas eletromagnticas em todas as direes. Parte
destas ondas so ento retornadas ao radar, e atravs de informaes
conhecidas como o momento que o feixe de onda foi emitido pelo radar e quanto
tempo depois o sinal retornou, possvel determinar a distncia do alvo ao radar.
Alm disso, com informaes de elevao da antena e o azimute correspondente,
pode-se determinar com preciso a regio espacial onde est chovendo (ver
figura 80).

Figura 80 - Funcionamento do Radar (PINHEIRO; VAZ; MARTINHAGO, 2005)

142

6 MTODOS DE PESQUISAS E EXPERIMENTOS

O radar meteorolgico do SIMEPAR um radar Banda S Doppler (nome


dado para a tcnica de captura de informao pelo radar), modelo DWSR-95S, da
empresa EEC Corporation e est em operao na regio central do estado, no
municpio de Teixeira Soares, nas coordenadas espaciais (-25.505313, 50.361330). A antena do radar DWSR-95S, de 8.2m de dimetro, gera um feixe
de ondas eletromagnticas com aproximadamente 0.9 de abertura e monitora
continuamente a atmosfera com uma seqncia pr-programada de varreduras
azimutais em 360. Um volume de varredura corresponde a uma seqncia
completa de vrias varreduras azimutais com diferentes elevaes da antena.
O sistema de aquisio dos dados est configurado de tal forma a permitir
uma avaliao de alta resoluo espacial (rea mnima de 4km2 ) e temporal (10
minutos) das informaes de precipitao e vento. O radar programado para
fazer uma varredura num raio de 480 km para uma elevao de 0 grau e
varredura com raio de 200 km para cada uma das elevaes. O radar do
SIMEPAR est calibrado para detectar gotculas de chuvas muito pequenas
(garoas) at gotculas muito volumosas (presena de tempestades). As
caractersticas tcnicas do radar e do sistema de medio e processamento dos
dados podem ser obtidas em Beneti, Nozu e Saraiva (1998).
O radar permite a medio de trs variveis. A Refletividade (Z) o fator
de refletividade entre a irradiao emitida pelo radar e a recebida por ele depois
de

espalhadas

pelas

gotas

de

chuvas

presentes

na

atmosfera.

A unidade utilizada o dBZ, que uma escala logartmica da refletividade. Os


valores variam de zero e 60 dBZ e quanto maior forem esses valores, maior sero
os dimetros das gotas presentes no volume medido e, conseqentemente, maior
ser a intensidade de precipitao (SIMEPAR, 2008).
A Velocidade Radial (V) mede a velocidade de aproximao ou
afastamento dos alvos (gotas de chuvas) em relao ao radar na direo do feixe.
O vento radial mostrado em m/s com valores positivos para os alvos que se
afastam e valores negativos para os alvos que se aproximam do radar.

143

6 MTODOS DE PESQUISAS E EXPERIMENTOS

A Largura Espectral (W) mede o desvio padro das medidas obtidas em


cada amostra (pixel) e, meteorologicamente, indica a turbulncia nesse volume
conforme a varincia dos alvos presentes medida em m/s.
A figura 81 ilustra as imagens geradas pelo RadVis no dia 24 de julho de
2007 s 23:41 horas para cada uma destas variveis, em (a) a refletividade, em
(b) a velocidade radial e em (c) a largura espectral.

Figura 81 - Ilustrao das imagens de radar para as variveis (a) refletividade, (b) velocidade
radial e (c) largura espectral (fonte: SIMEPAR)

Atravs dos valores (V, Z, W) possvel a visualizao das imagens de


radar em diferentes modos, dos quais os mais utilizados so o modo PPI, o
CAPPI e o RHI (SIMEPAR, 2008; PINHEIRO; VAZ; MARTINHAGO, 2005).
O modo PPI (Plan Position Indicator) fornece a projeo num plano
horizontal dos dados de refletividade, taxa de precipitao, velocidade radial
mdia ou largura espectral, obtido atravs de uma varredura em azimute em
coordenadas polares, para um ngulo de elevao determinado.
O CAPPI (Constant Plan Position Indicator) o produto que fornece a
projeo em um plano horizontal constante pr-definido, dos dados de
refletividade, taxa de precipitao, velocidade radial mdia ou largura espectral,
obtidos atravs de uma varredura volumtrica.
O RHI (Range Height Indicator) o produto que fornece a projeo num
plano vertical que passa pelo centro do radar dos dados de refletividade, taxa de

144

6 MTODOS DE PESQUISAS E EXPERIMENTOS

precipitao, velocidade radial mdia ou largura espectral, obtida atravs de uma


varredura em elevao em coordenadas polares, para um ngulo de azimute
determinado.
Os dados que so enviados pelo radar esto em formato numrico e
depois so transformados em informaes tais como: data, hora, localizao,
volume de chuva e a altura (em graus) da elevao da antena e uma matriz de
dados de dimenso 512 x 512, onde esto armazenados os valores lidos pelas
ondas eletromagnticas do radar. As coordenadas que representam a localizao
da nuvem podem estar em coordenadas geogrficas (latitude, longitude) ou em
coordenadas UTM (Universal Transverse Mecarcator).
Para uma melhor percepo humana, os dados numricos do radar so
ento convertidos em imagens, atravs do uso da tcnica orientada a pixel da
visualizao da informao, onde os pixels so mapeados conforme os valores da
matriz de dados.

6.3.3 Minerao Visual de Dados Aplicada s Imagens do


Radar Meteorolgico do SIMEPAR

Em algumas imagens geradas atravs dos dados de radar possvel


observar que alguns pontos no correspondem presena de chuva. Estes
pontos so gerados na presena de algum alvo, que no as gotas d'gua, dos
quais as ondas eletromagnticas do radar interpretam-os de forma errnea como
sendo um dado de chuva, que geralmente ocorrem na presena de rudos, ecos
de terrenos, presena de nuvens de insetos, neves, raios de sol (no por ou no
nascer do sol), atravs da propagao anmala das ondas eletromagnticas.
Dentre estas possveis causas, no radar meteorolgico do SIMEPAR, esto
presentes os ecos de terrenos e os rudos, conforme podem ser vistos na figura
82. So estes pontos que se pretende eliminar atravs do treinamento de uma
Rede Neural baseada em informaes histricas conhecidas.

145

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 82 - Tipos de informaes que no representam chuvas encontrados nas imagens do


radar meteorolgico do SIMEPAR (fonte: SIMEPAR)

O treinamento de uma Rede Neural baseada nas imagens de radar da


base de dados do SIMEPAR possibilita o aprendizado da rede na busca do
conhecimento. Neste caso, espera-se que a rede seja capaz de dizer com
preciso se os dados mostrados nas imagens (pixel a pixel) so dados de chuva
ou no. Esta avaliao permitir a excluso destes pontos das imagens,
facilitando na interpretao dos meteorologistas.
Lakshmanan et al (2006) propem o uso de Redes Neurais na filtragem
dos dados estranhos das imagens de radares meteorolgicos. O algoritmo
proposto pelos autores utiliza como entrada para a Rede Neural 27 caractersticas
extradas dos dados, dentre as quais esto propriedades do terreno, e anlise
estatsticas da vizinhana dos pixels, permitindo de uma forma genrica excluir os
pontos que no representam chuva oriundos das diferentes fontes.
No SIMEPAR, os dados de radar, que originalmente so recebidos em
coordenadas polares e de forma volumtrica, so convertidos para coordenadas
cartesianas e calculada as elevaes separadamente. Sendo assim, uma
implementao simplificada no algoritmo proposto por Lakshmanan et al (2006)
foi realizada.

146

6 MTODOS DE PESQUISAS E EXPERIMENTOS

A figura 83 mostra o processo executado at a obteno da imagem final,


onde os pixels da imagem sero reclassificados, eliminando aqueles que no
representam chuva.

Figura 83 - Minerao Visual de Dados: Algoritmo de minerao de dados com a insero


da visualizao em busca da filtragem das imagens de radar

A base de dados do radar meteorolgico do SIMEPAR possui informaes


armazenadas desde a sua implementao, em 1998. Em curtssimo prazo, cerca
de 20 minutos, uma nova imagem pode ser visualizada. Numa primeira tentativa

147

6 MTODOS DE PESQUISAS E EXPERIMENTOS

de filtrar os dados de chuva, uma seleo manual de dez imagens deste banco de
dados foram usada para serem apresentadas rede. Nesta seleo, trs imagens
possuam dados de chuva e rudos, duas com predominncia de chuva e cinco
imagens de rudos (sem chuva). Baseada nas experincias dos meteorologistas
do SIMEPAR, os pixels pintados de branco foram classificados como sendo
dados ruins (no representam chuva). As imagens da figura 84 mostram um
exemplo dos tipos de imagens selecionadas e sua respectiva classificao
realizada pelos meteorologistas.

Figura 84 - Classificao dos pixels das imagens como sendo de rudo (branco) (Fonte:
SIMEPAR)

148

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Para cada imagem selecionada uma srie de informaes baseadas na


vizinhana dos pixels so calculados. A vizinhana de um pixel formada pelos
pixels vizinhos a este, conforme mostra a figura 85.

Figura 85 - Vizinhana de um pixel

Neste trabalho, para cada pixel de cada imagem (no total 512 x 512) so
analisadas as informaes de sua vizinhana de raio de valor igual a 1 e delas
so extradas informaes de mdia, desvio padro e mediana. Cada pixel agora
possui seis caractersticas (mdia, mediana, desvio padro, valor do pixel,
posio i na matriz de dados e posio j da matriz).
Estas caractersticas so apresentadas rede (pixel a pixel), cuja sada
conhecida (0 representa chuva e 1, caso contrrio). Baseadas na teoria de
Redes Neurais vistas no captulo 4 e com base nos resultados obtidos num
comparativo queles definidos pelos meteorologistas e aps diversos testes, a
melhor topologia de rede encontrada nos testes realizados de seis neurnios na
camada de entrada, dez neurnios na camada escondida e um na camada de
sada que classifica se o dado chuva (prximos de 0) ou dado estranho
(prximos de 1). Nas aplicaes que seguem, foi utilizada taxa de aprendizado
igual a 0.7 e taxa de momento igual a 0.8. Notou-se tambm que aps 500
iteraes, no houve grande melhoria no treinamento da rede e, por conseguinte,
foi utilizado este nmero de iteraes nos treinamentos.

149

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Para novos dados apresentados rede, consideraram-se sadas menores


que 0.5 como sendo dados bons (que representam chuva) e maior ou igual a
0.5 como sendo dados que no representam chuva. Conforme utilizado em
Lakshmanan et al (2006), neste trabalho tambm se optou pelo uso da funo de
ativao tangente hiperblica na camada escondida e a sigmide na camada de
sada. Os pesos iniciais so gerados diretamente pela biblioteca Joone10 usada
na programao do mtodo. A figura 86 mostra a topologia da rede usada nas
aplicaes.

Figura 86 - Topologia de rede neural usada nas aplicaes

Aps a rede ter sido treinada, novas imagens podem ser apresentadas
rede e ento classificadas por ela. Uma anlise visual permite a extrao do
conhecimento. A figura 87 mostra alguns resultados obtidos.

10

Joone: Biblioteca para desenvolvimento de aplicaes baseadas em Redes Neurais


desenvolvida em linguagem JAVA. Disponvel em: http://www.jooneworld.com/

150

6 MTODOS DE PESQUISAS E EXPERIMENTOS

Figura 87 Imagens filtradas aps apresentao Rede Neural

Uma anlise nestes resultados permitiu observar que os dados de rudos


das imagens do radar foram eliminados, porm com os ecos de terrenos, no se
teve o mesmo sucesso. Este fato provavelmente ocorreu, pois estes pixels
possuem caractersticas semelhantes aos de chuva. Os dados de entrada da rede

151

6 MTODOS DE PESQUISAS E EXPERIMENTOS

(mdia, mediana, desvio padro, valor do pixel e posio i e j) no foram


suficientes para detectar os ecos de terreno.
Para tanto, optou-se pelo treinamento de duas redes separadamente, uma
considerando somente ecos de terrenos e outra considerando os rudos, cujo
conhecimento j foi alcanado pelo treinamento da rede anterior.
Este tipo de topologia de rede conhecido na literatra, segundo Oh e Suen
(2002), por Classe-Modular (Class-Modular), um exemplo de arquitetura do tipo
paralela utilizando a tcnica de voto para combinar as sadas dos agentes. Os
autores propem o conceito de modularidade em classes utilizando redes neurais
no reconhecimento de escritas.
Nesta topologia da rede baseada em Classe-Modular, foi considerado uma
vizinhana de raio cinco a fim de capturar informaes mais precisas do
comportamento dos pixels vizinhos. Alm disso, para a rede de treinamento dos
ecos de terreno, uma nova caracterstica baseada em duas informaes de
grande importncia para o treinamento foi adicionada.
A primeira, denominada por regio do pixel, indica se o pixel em anlise
pertence regio onde costuma existir ecos de terrenos. A figura 88 mostra a
regio de maior incidncia de ecos de terrenos, obtida pela sobreposio de mais
de 200 imagens.

Figura 88 - Regio de costume de ecos de terreno

152

6 MTODOS DE PESQUISAS E EXPERIMENTOS

A segunda, numa adaptao de uma das caractersticas usadas por


Lakshmanan et al (2006), o Spin, foi utilizado para analisar a diferena entre
pixels adjacentes cuja diferena de refletividade era superior a 2 dBZ dividido pelo
maior nmero possvel nesta vizinhana (STEINER; SMITH, 2002).
Sendo assim, essa nova entrada, possui valor 1 para pixels que se
encontram na regio de maior incidncia de ecos de terreno e parmetro spin
maior que 0.5, e 0 caso contrario.
A figura 89 mostra dois resultados obtidos pelo treinamento destas redes. A
primeira coluna mostra as imagens vindas do radar; a segunda, um exemplo da
seleo dos rudos; a terceira, a seleo dos ecos de terreno e a ltima coluna, a
filtragem das imagens iniciais que foram apresentadas rede, eliminando os
pontos que no representam chuva.

Figura 89 - Resultado obtido pelo treinamento de duas redes, uma para eliminar os rudos e
a outra para eliminar os ecos de terreno

Observe-se que os resultados esperados foram obtidos, ou seja, o


treinamento de duas redes separadamente, uma para tratar os rudos e outra para
o tratamento dos ecos de terreno, obtiveram sucesso na deteco dos dados de

153

6 MTODOS DE PESQUISAS E EXPERIMENTOS

chuva. O uso das imagens selecionadas de radar geradas a partir de Tcnicas


Orientadas a Pixel integradas ao uso de Redes Neurais para predio de dados
de chuvas e finalmente a apresentao final da imagem filtrada, fizeram a
insero da Visualizao no Processo KDD, sendo esta uma aplicao de
Minerao Visual de Dados do tipo fortemente integrado e de grande importncia
nos estudos realizados.

6.4 Consideraes Finais


Os estudos de casos aqui apresentados foram importantes, do ponto de
vista cientfico, para verificar a adequao de tcnicas da MVD e efetivamente
analisar visualmente os resultados gerados pelas aplicaes abordadas. As
tcnicas de Visualizao da Informao foram de grande valia para estes estudos,
facilitando a interpretao dos resultados e na extrao do conhecimento.
Em alguns casos, o uso de algoritmos de tratamento de dados (Minerao
de Dados) como os mencionados no captulo 4, usados juntamente com tcnicas
de Visualizao, facilita a anlise dos resultados, permitindo obter informaes
tais como o reconhecimento de padres, anlise de agrupamentos e
relacionamento entre variveis mais rpidos e facilmente.
Assim, no primeiro estudo de caso, diferentes tcnicas de Visualizao da
Informao (VI) foram aplicadas aos dados da Barragem de ITAIPU, responsveis
pelo monitoramento de suas estruturas. Estas tcnicas permitiram analisar de
forma visual o relacionamento entre diferentes variveis, de certo modo sem
necessidade de conhecimentos aprofundados em reas como estatstica e
matemtica.
Devido s vantagens e desvantagens que uma tcnica possui sobre a
outra, notou-se a necessidade de utilizar vrias tcnicas de VI, e num comparativo
entre elas pde ser extraido o conhecimento desejado.

154

6 MTODOS DE PESQUISAS E EXPERIMENTOS

A Minerao Visual de Dados, neste estudo de caso, foi usada na


ordenao dos eixos (variveis) da tcnica Coordenadas Paralelas conforme os
valores das correlaes existentes entre as variveis envolvidas. Isso permitiu
que variveis cujo relacionamento fosse maior se encontrassem em eixos
vizinhos de forma a facilitar a interpretao dos resultados.
J no segundo estudo de caso, a Minerao Visual de Dados foi usada na
filtragem de dados estranhos das imagens do Radar Meteorolgico do SIMEPAR.
Para tanto foram utilizadas duas redes neurais com topologias diferentes, uma
para cada tipo, rudos e ecos de terreno, baseada nas caractersticas dos pixels
vizinhos.
Neste caso, um estudo mais aprofundado deve se realizado na tentativa
de suprir as falhas na extrao de rudos ou ecos de terrenos. J que, embora os
resultados obtidos tenham sido satisfatrios, as informaes usadas para o
treinamento da rede no foram suficientes para filtrar com perfeio os dados,
que em alguns casos houve a eliminao de pequenas quantidades chuvas.
Em ambos os estudos de casos, os resultados atingiram as expectativas
esperadas e as tcnicas de Visualizao da Informao integradas s de
Minerao de Dados mostraram ser eficientes no ponto de vista computacional e
facilidade de uso.
No entanto, devido grande quantidade de tcnicas de Visualizao que
podem ser usadas com este propsito, a escolha daquelas que melhor se ajustam
aos dados em anlise no uma tarefa fcil e devem ser escolhidas com base no
que se est buscando. Diferentes tcnicas levam a diferentes resultados, e uma
comparao entre elas podem ser fundamentais para extrao do maior nmero
possvel de informaes.
A alta dimensionalidade e o alto nmero de registros contidos nos dados
podem ser um problema crucial na aplicao de tcnicas visuais, visto que a
maioria destas, mapeiam os dados na tela do computador, de forma que a
visualizao fica limitada pela resoluo do monitor. Em muitos casos, devido
esta grande quantidade de dados a ser apresentados, as imagens ficam
pequenas, dificultando a sua interpretao.

7 CONCLUSES E SUGESTES PARA TRABALHOS


FUTUROS

tratamento

de

dados

multidimensionais

requer

do

usurio

conhecimento em vrias reas cientficas, dentre elas esto a Estatstica, a


Inteligncia Artificial, a Visualizao. Diversas tcnicas oriundas destas diferentes
reas podem ser usadas para extrao do conhecimento que na literatura ficou
conhecida por Processo KDD, descoberta do conhecimento em bases de dados.
Este processo passa por diversas etapas, incluindo a seleo e tratamento dos
dados antes de se aplicar algoritmos especficos para um determinado propsito,
como anlise de agrupamento e anlise de relacionamentos entre variveis. Na
ltima etapa, o conhecimento pode ser obtido pela anlise dos resultados
gerados.
A aplicao da Visualizao no contexto de descoberta do conhecimento
em base de dados (Processo KDD) de extrema importncia na interpretao
dos resultados. Isso, devido ao grande poder de processamento de dados dos
computadores atuais e a facilidade dos seres humanos no reconhecimento de
padres visuais.
A Visualizao o termo genrico para visualizar qualquer tipo de dado e
pode ser dividida em duas grandes reas. Quando aplicadas a dados com
caractersticas espaciais, geralmente dados de natureza fsica (temperatura,
velocidade, tempo), ento a esta rea se d o nome de Visualizao Cientfica
(VC). J quando os dados so de natureza abstrata, ou seja, no se conhece o
comportamento no espao destas informaes, ento esta rea a Visualizao
da Informao (VI).

156
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS

A vertente Visualizao da Informao, por ser uma rea relativamente


recente, tem seu processo de classificao em formalizao. Diferentes autores
definem e classificam uma determinada tcnica seguindo diferentes critrios.
Neste trabalho, procurou-se apresentar as diferentes tcnicas de VI j
consolidadas e que trazem distines conceituais claras e intuitivas. J para as
tcnicas pouco citadas na literatura, buscou-se uma classificao conforme
caractersticas dos dados em estudo. Para cada tcnica apresentada aqui, foram
mostradas as suas vantagens e desvantagens, em relao interao,
processamento e capacidade de apresentar informaes das diversas variveis
ao mesmo tempo. Esta categorizao sistemtica das tcnicas de Visualizao da
Informao, mostrando suas vantagens e desvantagens, uma contribuio
deste trabalho.
Como visto, outra rea, ainda mais recente, a Minerao Visual de
Dados, como uma tentativa de integrar a Visualizao Minerao de Dados
(etapa do Processo KDD, responsvel por gerar o conhecimento). Esta rea
merece destaque devido aos experimentos e resultados obtidos na integrao
daquelas duas outras reas, gerando bibliografia especializada (SOUKUP;
DAVIDSON, 2002) e motivao para novos estudos que conseqentemente
aceleram o processo de definio da Minerao Visual de Dados. Desta forma, o
levantamento do referencial bibliogrfico e a forma de como estas reas,
Visualizao e Minerao de Dados, podem ser integradas seriam a segunda
contribuo aqui deixada.
Como terceira e quarta contribuies esto as aplicaes das tcnicas de
Visualizao da Informao e Minerao de Dados aos Experimentos aqui
abordados.
No primeiro experimento, ITAIPU, diferentes tcnicas de Visualizao da
Informao foram utilizadas com o propsito de encontrar relacionamentos entre
variveis responsveis pelo monitoramento da barragem. Neste caso, observouse a necessidade de comparar vrias destas tcnicas para extrao do maior
nmero possvel de informaes. Isso ocorre devido s limitaes que umas
tcnicas tm sobre as outras.
A tcnica Coordenadas Paralelas, por exemplo, permite a anlise de
correlao s para os eixos (variveis) vizinhos. Formas interativas de troca dos

157
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS

eixos podem ser utilizadas para analisar par a par, porm quando o nmero de
variveis muito grande, esta troca de eixos se torna invivel devido ao
comportamento combinatorial. Porm, quando se deseja saber quais so as
variveis mais (ou menos) correlacionveis, um pr-processamento ordenando os
eixos atravs de uma anlise estatstica das correlaes entre as variveis
envolvidas, pode ser fundamental para facilitar a anlise dos resultados.
O segundo experimento foi aplicado na filtragem dos dados do radar
meteorolgico do SIMEPAR, responsvel pelo monitoramento de chuvas. Nas
imagens geradas pela colorao dos pixels conforme os valores da matriz de
dados possvel observar que alguns pontos no correspondem como sendo
dados de chuva. Estes dados estranhos, no caso do radar do SIMEPAR, ocorrem
devido presena de rudos e ecos de terreno. Para tanto, uma rede neural
baseada em imagens cujos dados que no representam chuva foram pintados de
branco, seguindo orientaes dos meteorologistas do SIMEPAR, foi treinada para
cada um dos tipos de dados estranhos encontrados nas imagens (rudos e ecos
de terrenos). Informaes estatsticas dos pixels vizinhos para cada pixel da
matriz foi utilizada como entrada para rede. Diversas topologias de rede foram
utilizadas at se obter aquela cuja imagem gerada aps o treinamento era mais
satisfatria.
No caso do radar, o uso das imagens selecionadas geradas a partir de
Tcnicas Orientadas a Pixel integradas ao uso de Redes Neurais para predio
de dados de chuvas e finalmente a apresentao final da imagem filtrada
permitiram que se demonstrasse a insero da Visualizao no Processo KDD.
Assim, esta pode ser entendida como uma aplicao de Minerao Visual de
Dados do tipo fortemente integrado.
Em ambos os estudos, os objetivos foram alcanados, mostrando que as
tcnicas de Visualizao contriburam para a anlise visual dos resultados. Em
geral, o resultado foi muito mais satisfatrio quando a Visualizao foi integrada
Minerao de Dados. No primeiro caso, ITAIPU, a Minerao Visual de Dados, foi
aplicada de modo integrado com a Visualizao da Informao, com a ordenao
dos eixos pela tcnica de Coordenadas Paralelas atravs dos valores das
correlaes entre as variveis. J no segundo caso, SIMEPAR, a utilizao das
imagens classificadas pelos meteorologistas para o treinamento de duas redes

158
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS

neurais, uma para tratar rudos e outra para tratar os ecos de terreno, e finalmente
a apresentao rede treinada de uma nova imagem, foi aplicao de
Minerao Visual de Dados na filtragem dos dados que no representam chuvas.
Para trabalhos futuros, so sugeridas a implementao de um software,
capaz de ler um arquivo de dados e numa nica tela mostrar vrias das tcnicas
de Visualizao da Informao, facilitando a comparao entre elas. Este recurso
fundamental na anlise dos dados e no foi encontrado em nenhum dos
softwares pesquisados. Recursos adicionais, como selees de regies,
agrupamento por cores e formas novas de interaes podem ser utilizados.
Alm disso, no caso do experimento da ITAIPU, um estudo mais
aprofundado poder ser realizado. A idia fazer uma anlise visual dos demais
tipos de intrumentos existentes no bloco F19/20 e dos demais blocos da
barragem, misturando numa mesma visualizao tipos diferentes de instrumentos.
Isso permitir observar a relao existente entre instrumentos diferentes e em
diferentes posies da barragem.
J no caso do experimento do SIMEPAR, observou-se que em alguns
casos, quando a chuva estava presente em posies onde possuam ecos de
terrenos, a rede optava por classificar estes pontos como sendo pontos ruins,
deixando buracos no interior da chuva. Este problema poder ser resolvido, em
trabalhos futuros, por exemplo, atravs de uma interpolao dos pixels vizinhos
preenchendo estes espaos sem valores, ou adicionando novas infrmaes na
entrada para o treinamento da rede, como informaes topogrficas da regio do
radar.
Vale salientar que a avaliao do desempenho de classificao da rede foi
feito atravs da visualizao, onde aps o treinamento, foi posvel observal
visualmente a filtragem dos dados que no representariam chuvas. Desta forma,
sugere para trabalhos futuros desenvolver o treinamente e fazer uma Validao
Cruzada (Cross-Validation) para avaliar o desempenho da rede.

REFERNCIAS

AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules. Proc. 20th Int.
Conf. Very Large Data Bases, VLDB, 1994.

AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. In Proc. of 1995 Int. Conf. on Data
Engineering, Taipei, Taiwan, maro 1995.

AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns: Generalizations and Performance


th

Improvements. Proc. 5 EDBT, 3-17, 1996.

ANDRAOS, N. C. Organizao, Anlise e Mapeamento de Variveis Relacionadas


Instrumentao da Barragem de ITAIPU. In: 14 Evento de Iniciao Cientfica EVINCE
UFPR, 2006, Curitiba. 14o. Evento de Iniciao Cientfica - EVINCI UFPR, 2006. v. 14. p. 460-460.

ANDREWS, K.; HEIDEGGER, H. Information Slices: Visualization and Exploring Large


Hierarchies using Cascading, Semi-Circular Discs. Proceedings IEEE Symposium on
InformationVisualization (InfoVis'98), outubro 1998.

ANKERST, M. Visual Data Mining and Exploration of Large Databases. Tutorial at PKDD'2001,
Freiburg, Alemanha, 2001.

ANKERST, M. Visual Data Mining. Tese de Doutorado, Faculty of Mathematics and Computer
Science, University of Munich, Munique, 2000.

ANKERST, M.; KEIM, D.A.; KRIEGEL, H.P. Circle Segments: A Technique for Visually
Exploring Large Multidimensional Data Sets. Proc. Visualization 96, San Francisco, Ca, 1996.

160

REFERNCIAS

ARTERO, A. O. Estratgias para apoiar a deteco de estruturas em visualizaes


multidimensionais percentualmente sobrecarregadas. Tese de doutorado do Instituto de
Cincias Matemticas e de Computao ICMC-USP, So Carlos, Brasil, 2005.

BATISTA, G. E. A. Pr-processamento de Dados. Em: Aprendizado de Mquina Supervisionado,


So Paulo, 2003.

BENETI, C. A. A.; LEITE E. A.; GARCIA S. A. M.; ASSUNO L. A. R.; CAZETA FILHO A.; REIS,
R. J. RIDAT - Rede Integrada de Deteco de Descargas Atmosfricas no Brasil: situao
atual, aplicaes e perspectivas. In: CONGRESSO BRASILEIRO DE METEOROLOGIA, 11, Rio
de Janeiro, RJ. 2000

BENETI, C. A. A.; NOZU, I.; SARAIVA, E. A. Monitoramento da precipitao e de eventos de


tempo severo com radar meteorolgico no estado do Paran. In: CONGRESSO BRASILEIRO
DE METEOROLOGIA, 10., 1998, Braslia. CD-ROM.

BERTIN, J. Graphics and Graphic Information Processing. De Gruyter Publishers, 1981.


BESHERS, C.; FEINER, S. Autovisual: Rule-Based Design of Interactive Multivariate
Visualizations. IEEE Computer Graphics & Applications, p. 41-49, julho, 1993.

BRANCO, V. M. A. Visualizao como Suporte Explorao de uma Base de Dados


Pluviomtricos. Dissertao de mestrado do Instituto de Cincias Matemticas e de Computao
ICMC-USP, So Carlos, Brasil, 2003.

BREJOVA, B.; DIMARCO, C.; VINAR, T.; HIDALGO, S.R.; HOLGUIN, G.; PATTEN, C. Finding
Patterns in Biological Sequences. Project Report, Department of Biology, University of Waterloo,
2000.

BRODLIE, K. et al. Scientific Visualization, techniques and applications. Springer-Verlag,


1992.

BURIOL, T. M. Processamento e Visualizao de Campos em Ambientes Virtuais e Sistemas


CAD 3D Aplicados a Projetos de Iluminao em Subestaes. Dissertao de Mestrado em
Mtodos Numricos em Engenharia, Universidade Federal do Paran, Curitiba, Brasil, 2006.

BURIOL, T. M.; SILVA NETO, M. A.; SCHEER, S.; GODOI, W. C. Modelagem em VRML para
visualizao cientfica utilizando o Visualization Toolkit. In: IX Symposium on Virtual and

161

REFERNCIAS

Augmented Reality, 2007, Petrpolis. Proceedings SVR2007. Petrpolis : LNCC e SBC, 2007. v. 1.
p. 1-3.

BUZZI, M. F. Avaliao das Correlaes de Sries Temporais de Leituras de Instrumentos de


Monitorao Geotcnico-Estrutural e Variveis Ambientais em Barragens - Estudo de Caso
de ITAIPU. Dissertao de Mestrado do Programa de Ps Graduao em Mtodos Numricos em
Engenharias (PPGMNE), UFPR, Curitiba, Brasil, 2007.

CALVETTI, L.; BENETI, C.; PEREIRA FILHO, A. J. Integrao do radar meteorolgico dopller
do Simepar e uma rede pluviomtrica para a estimativa da precipitao. In: SIMPSIO
BRASILEIRO DE SENSORIAMENTO REMOTO, 11. 2003, Belo Horizonte. CD-ROM.

CARD, S.K.; MACKINLAY, J.D.; SHNEIDERMAN, B. Information Visualization. In: Readings in


Information Visualization - Using Visualization to Think. San Francisco, Morgan Kaufmann Publ.,
1999. Card, S.K.; Mackinlay, J.D.; Shneiderman, B. (eds.). p. 1-34.

CARVALHO, J. G. Coordenadas Paralelas: Uma Metodologia para Visualizao em 3D.


Dissertao de Mestrado, Programa de Ps Graduao em Cincia da Computao, Pontifcia
Universidade Catlica do Rio Grande do Sul (PUC-RS), Porto Alegre, Brasil, 2001.

CHERNOFF, H. The use of Faces to Represent Points in K-Dimensional Space Graphically.


Journal of American Statistical Association, vol. 68, p. 361-368, 1973.

CHOU, S. Y.; LIN, S. W.; YEH, C. S. Cluster Identification with Parallel Coordinates, Patterns
Recognition Letters, vol. 20, p. 565-572, 1999.

CHUAH, M. C.; ROTH, S. F.; MATTIS, J.; KOLOJEJCHICK, J. SDM: Selective dynamic
manipulation of visualizations. In Proceedings of the ACM Symposium on User Interface
Software and Technology, 3D User Interfaces, pages 6170. 1995.

CLEVELAND, W. S. Visualizing Data. Hobart Press, Summit, 1993.

COELHO, C. J. Seminrio de Anlise Multivariada. Disponvel


em:<http://agata.ucg.br/formularios/NPI/clarimar/>. Acesso em: 17/12/2007.

COHEN, M.; MANSSOUR, I. H. OpenGL Uma Abordagem Prtica e Objetiva. Ed. Novatec,
So Paulo, SP, Brasil, 2006.

162

REFERNCIAS

DAVIS, J.C. Statistics and Data Analysis in Geology 2th ed., John Wiley and Sons, Inc.1986.

DYAS, N.; RAGAN, S. Clusteing Algorithm. The Maryland Virtual High School of Science And
Mathematics, 1995. Disponvel em: <http://mvhs1.mbhs.edu/mvhsproj/clustering/cluster.html>.
Acesso em: 17/12/2007.

ESTER, M.; KRIEGEL, H-P; SANDER, J.; XU, X. A density-based Algorithm for Discovering
clusters in Large Spatial Databases with Noise. Proceedings of the 2

nd

International Conference

on Knowledge Discovery and Data Mining, KDD 1996.

EVERITT, B. Cluster Analyses. 2a. Ed., Gower Publishing Co., 1980.

FALOUTSOS, C.; LIN, K., FastMap: A Fast Algorithm for Indexing, Data-Mining and
Visualization of Traditional and Multimedia Datasets. In ACM SIGMOD, Zurich, Suia, 1995, p.
163-174.

FANEA, E.; CARPENDALE, S.; ISENBERG, T. An Interactive 3D Integration of Parallel


Coordinates and Star Glyphs. In Proceedings of the IEEE Symposium on Information
Visualization (InfoVis 2005, October 23--25, 2005, Minneapolis, Minnesota, USA). Los Alamitos,
CA. (John Stasko and Matt Ward, Eds.) IEEE Computer Society, p. 149-156, 2005.

FAYYAD, U.; SHAPIRO, P. G.; SMYTH, P. From Data Mining to Knowledge Discovery: An
Overview. In Fayyad, U., Piatetsky-Shapiro, G., Amith, Smyth, P., and Uthurusamy, R. (eds.),
Advances in Knowledge Discovery and Data Mining, MIT Press, p. 1-36, Cambridge, 1996.

FOLEY, J., RIBARSKY, B. Next-generation Data Visualization Tools, in Scientific


Visualization. Advances and Chalenges, Ed: L. Rosenblum, R.A. Earnshaw, J.Encarnacao, H.
Hagen, A. Kaufman, S. Klimenko, G. Nielson, F. Post, D. Thalmann, Academic Press. 1994.

FREITAS, C. M. D. S.; CHUBACHI, O. M.; LUZZARDI, P. R. G.; CAVA, R. A. Introduo


Visualizao de Informaes. Revista de Informtica Terica e Aplicada. Porto Alegre, RS, v. 8,
n. 2, p. 143-158, 2001.

FREITAS, C.M.D.S.; WAGNER, F.R. Ferramentas de Suporte s Tarefas da Anlise


Exploratria Visual. Revista de Informtica Terica e Aplicada, v.2, n.1, p.5-36, jan. 1995.

163

REFERNCIAS

FRIENDLY, M. A Brief History of Data Visualization. Handbook of Computational Statistics: Data


Visualization, Vol III, Springer, 2007. Disponvel em:
<http://www.math.yorku.ca/SCS/Gallery/milestone/>. Acesso em: 11/12/2007.

FRIENDLY, M. Milestones in the history of data visualization: A case study in statistical


historiography. In C. Weihs and W. Gaul, eds., Classification: The Ubiquitous Challenge, 2005,
(p. 34-52). New York: Springer. 25

FRIENDLY, M. Visions and re-visions of Charles Joseph Minard. Journal of Educational and
Behavioral Statistics, 2002, 27(1), 31-52. 14

FUNKHOUSER, H. G. (1936). A note on a tenth century graph. Osiris, 1, 260-262. 2, 3, 4

FUNKHOUSER, H. G. (1937). Historical development of the graphical representation of


statistical data. Osiris, 3(1), 269-405. Reprinted Brugge, Belgium: St. Catherine Press, 1937. 2,
12, 14, 18, 26

FURNAS, G. W. Generalized fisheye views. In Proceedings of ACM CHI86 Conference on


Human Factors in Computing Systems, Visualizing Complex Information Spaces, pages 1623.
1986.

FURNAS, G.; JUL, S. Navigation in electronic worlds. In Proceedings of ACM CHI 97.
Conference on Human Factors in Computing Systems, volume 2 of Workshop 9, page 230. 1997.

GANESH, M.; HAN, E-H.; KUMAR, V.; SHEKHAR, S.; SRIVASTAVA, J. ? Visual Data Mining:
Framework and Algorithm Development. Technical Report TR-96-021, Department of Computer
Science, University of Minnesota, Minneapolis, 1996.

GERSHON, N. From Perception to Visualization, in Scientific Visualization. Advances and


Chalenges, Ed: L. Rosenblum, R.A. Earnshaw, J. Encarnacao, H. Hagen, A. Kaufman, S.
Klimenko, G. Nielson, F. Post, D. Thalmann, Academic Press. 1994.

GILBERT, E. W. Pioneer maps of health and disease in England. Geographical Journal, 1958,
124, 172-183. 11, 12

GIMENES, E. Data Mining Data Warehouse A Imortncia da Minerao de Dados em


Tomadas de Decises. Centro Estadual de Educao Tecnolgica Paula Souza. Faculdade de

164

REFERNCIAS

Tecnologia de Taguaritinga. Monografia de concluso para Tecnlogo em Processamento de


Dados. Taquaritinga, 2000.

GIMENES, E. A importncia da Minerao de Dados em Tomadas de Deciso. Disponvel em:


<http://br.geocities.com/dugimenes/>. Acesso em: 13/12/2007.

GORDON, A. D. Classification. Chapman and Hall, 1981.

GORNI, A. A. Redes Neurais Artificiais Uma abordagem revolucionria em Inteligncia


Artificial. Micro Sistemas, So Paulo, 1993.

GREIGH-SMITH, P. Quantitative Plant Ecology. University of California Press, Berkeley, 1983.


GUHA, S.; RASTOGI, R.; SHIM, K. CURE: An Eficient Clustering Algorithm for Large
databases. ACM/SIGMOD 1998.

HALLEY, E. (1686). On the height of the mercury in the barometer at different elevations
above the surface of the earth, and on the rising and falling of the mercury on the change of
weather. Philosophical Transactions, (p. 104-115). 6

HALLEY, E. (1701). The description and uses of a new, and correct sea-chart of the whole
world, shewing variations of the compass. London. 7, 14

HALLEY, E. From Wikipedia, the free encyclopedia. Disponvel em:


<http://pt.wikipedia.org/wiki/Edmond_Halley>. Acesso em: 11/12/2007.

HAYKIN, S. Neural Networks A Comprehensive Foundation. Macmillian College Publishing,


inc., 1994.

HEICHT-NIELSEN, R. Neurocomputing. Addison-Wesley Publishing Company, New York, 1991.

HINNEBURG, A; KEIM, D.A; WAWRYNIUK, M. HD-Eye: Visual Mining of High-Dimensional


Data. IEEE Computer Graphics and Applications, v.19, n.5, p.22-31, set./out. 1999.

HOFFMAN, P. E. Table Visualization: A formal Model and Its applications. Doctoral Diss, Computer
Science Department, University Of Massachusetts, Lowell, Ma,1999.

165

REFERNCIAS

HOFFMAN, P.; GRINSTEIN, G. A Survey of Visualizations for High-Dimensional Data Mining.


In: FAYYAD, U.; GRINSTEIN, G.G.; WIERSE, A. A Information Visualization in Data Mining
and Knowledge Discovery. San Francisco, Morgan Kaufmann Publishers, 1999. p.47-82.

HRNE, K. H.; et al. VOXELman Simulao Visual de Corpos Humanos. Universidade de


Hamburgo. Disponvel em: <http://www.voxel-man.de>. Acesso em: 10/12/2007.

INSELBERG, A. Dont Panic ... just do it in Parallel!. J. of Comp.Stat.14:53 - 77, 1999.

INSELBERG, A.; AVIDAN, T. The automated multidimensional detective. InfoVis Conf. .99.
Proc. 112-119. IEEE Computer Society.

ITAIPU. ITAIPU Binacional. Disponvel em: <http://www.itaipu.gov.br>. Acesso em: 07/01/2008.

JEONG, C.; PANG, A. Reconfigurable disc trees for visualizing large hierarchical information
space. Proceedings of IEEE Information Visualization, Raleigh Durham, North Carolina, Outubro
1998. p. 19-25.

JOHNSON, B.; SHNEIDERMAN, B. TreeMaps: A space - filling approach to the visualization


of hierarchical information structures. Proceedings of IEEE Visualization. San Diego. 1991. p
284 291

JOHNSON, R.A & WICHERN, D.W. Applied Multivariate Statistical analysis. 2a ed. New
Jersey: Prentice Hall, Inc., 1998.

JOHNSON, S.; EDWARDS, J. Vis5D+ Project. Disponvel em:


<http://www.ssec.wisc.edu/~billh/vis5d.html>. Acesso em: 10/12/2007.

JOHNSTON, W.M.; HANNA, J.R.P.; MILLAR, R.J. Advances in dataflow programming


languages. ACM Computing Surveys (CSUR) 36 (1): 1-34. Retrieved on 2007, 03-31.

KACHIGAN, S. K. Statistical Analysis An Interdisciplinary Introduction to Univariate &


Multivariate Methods. Radius Press, New York, NY. 1986.

KANDOGAN, E. Visualizing Multi-Dimensional Clusters, Trends, and Outliers using Star


Coordinates, Proc. ACM Int. Conf. Knowledge Discovery and Data Mining, p.107-116, 2001.

166

REFERNCIAS

KEIM, D. A. Designing Pixel-Oriented Visualization Techniques:Theory And Applications.


IEEE Transactions on Visualization and Computers Graphics, vol. 6, n.1, p.59-78, 2000.

KEIM, D. A. Information Visualization and Visual Data Mining. IEEE Transactions on


Visualization And Computers Graphics, vol. 8, n.1, p. 1-8, 2002.

KEIM, D. A. Visual Exploration of Large Data Sets. Communications of the ACM, v.44, n.8, p.3844, agosto. 1979.

KEIM, D. A., KRIEGEL, H. P. VisDB: Database Exploration using Multidimensional


Visualization. IEEE Computer Graphics and Applications, vol. 14, n. 5, setembro, p. 40-49,1994.

KEIM, D. A., KRIEGEL, H. P. Visualization Techniques for Mining Large Databases: A


Comparison. IEEE Trans. Knowledge & Data Engineering, vol. 8, n. 6, p. 923-936, 1996.

KNORR, E.M.; NG, R.T. Algorithms for Mining Distance-Based Outliers in Large Datasets.
th

Proceedings of the 24 International Conference on Very Large Data Bases, VLDB 1998.

KRSE, B. J. A.; VAN DER SMAGT, P. P. An Introduction to Neural Networks. Amsterdam,


University of Amsterdam, 1993.

LAMPING J.; RAO, R.; PIROLLI, P. The hyperbolic browser: a focus+context technique for
visualizing large hierarchies. Journal of Visual Languages and Computing,7(1):33-55, maro
1996.

LANDIM, P. M. B. Anlise estatstica multivariada de dados geolgicos. Disponvel em:


<http://www.rc.unesp.br/igce/geologia/GAA02144/aulas.html> Acesso em: 17/12/2007.

LEBLANC, J.; WARD, M. O.; WITTELS, N. Exploring N-Dimensional Databases. Proc. IEEE
Visualization'90, IEEE CS Press, p. 230-237, 1990.

LOURDES, H. L. Data Mining Teoria e Prtica. Instituto de Informtica, Universidade Federal


do Rio Grande do Sul (UFRGS), Porto Alegre, RS, Brasil. Disponvel em:
<www.inf.ufrgs.br/~clesio/cmp151/cmp15120021/artigo_lourdes.pdf>. Acesso em: 13/12/2007.

LU, H.; SETIONO, R.; LIU, H. Neurorule: A connectionist approach to data mining. In Proc.
1995 Int. Conf. Very Large Data Bases (VLDB'95), 478-489, Zurich, Switzerland, Sept. 1995.

167

REFERNCIAS

LUO, X. -L.; et al. Mathematical and Information Sciences - Computational Modelling.


Disponvel em: <http://www.cmis.csiro.au/cfd/index.htm>. Acesso em: 10/12/2007.

LUO, X. -L.; STOKES, A. N.; BARTON, N.G. Turbulent flow around a car body - Report of
Fastflo solutions, WUA-CFD Freiburg (1996).

MACKINLAY, J. D.; ROBERTSON, G. G.; CARD, S. K. The perspective wall: Detail and context
smoothly integrated. In Proceedings of ACM CHI?91 Conference on Human Factors in
Computing Systems, Information Visualization, p. 173-179. 1991.

MSSON, E. e WANG, Y. Introduction to computation and learning in artificial neural


networks. European Journal of Operational Research. v. 47, p. 1-28, 1990.

MCCORMICK, B. H.; DEFANTI, T. A.; BROWN, M. D. Visualization in Scientific Computing.


Computer Graphics (special issue), vol. 21, no. 6, Nov. 1987.

MCULLOCH, W. S.; PITTS, W. A Logical Cauculos of the Ideas Immanent in Nervus Activity.
Bulletin of Mathematical Biophysics, vol 5, p. 115-133 - 1943;

MEHTA, M.; AGRAWAL, R.; RISSANEN, J. SLIQ: A Fast Scalable Classifier for Data Mining.
Proc. of the Fifth Int'l Conference on Extending Database Technology, Avignon, France, maro
1996.

MINARD, C. J. Infografia. From Wikipedia, the free encyclopedia. Disponvel em:


<http://pt.wikipedia.org/wiki/Infogr%C3%A1fico> Acesso em: 11/12/2007.

MINGHIM, R., LEVKOWITZ, H. Laboratrio de Computao de Alto Desempenho Visualizao Computacional. USP, 2006. Disponvel em:
<http://www.lcad.icmc.usp.br/~rosane/Vis.html>. Acesso em: 27/11/2006.

MOITA NETO, J. M. Estatstica Multivariada. Disponvel em:


<http://criticanarede.com/cien_estatistica.html>. Acesso em: 17/12/2007.

MUKHERJEA, S.; FOLEY, J. D.; HUDSON, S. Visualizing complex hypermedia networks


through multiple hierarchical views. In Proceedings of ACM CHI95 Conference on Human
Factors in Computing Systems, volume 1 of Papers: Creating Visualizations, pages 331337.
1995.

168

REFERNCIAS

NG, R.T.; HAN, J. Eficient and Effective Clustering Methods for Spatial Data Mining. In
Proceedings of the 1994 International Conference Very Large Data Bases, Santiago, Chile, p.
144155. Morgan Kaufmann, San Francisco, CA, setembro, 1994

PALSKY, G. Des Chiffres et des Cartes: Naissance et dveloppement de la Cartographie


e

Quantitative Francais au XIX sicle. Paris: Comit des Travaux Historiques et Scientifiques
(CTHS). 1996; 2, 7, 10, 14, 15, 18

PARSAYE, K.; CHIGNELL, M. Intelligent Database Tools and Applications. John Wiley & Sons,
1993.

PEARSON, K., On Lines and Planes of Closest Fit to System of Points in Space, Philosophy
Magazine, vol. 6, p. 559-572, 1901.

PICKETT, R.M.; GRINSTEIN, G.G. Iconographic Displays for Visualizing Multidimensional


Data. Proceedings of IEEE Conference on Systems, Man and Cybernetics88, Piscataway, NJ,
1988, p.361-370.

PIELOU, E. C. The Interpretation of Ecological Data. Wiley-Interscience, 1984.

PINHEIRO, L. C.; VAZ, M. S. M. G.; MARTINHAGO, A. Z. Proposta de uma Exteno do Padro


FGDC/CSGDM para Dados de Radar Meteorolgicos. Revista Publicatio UEPG, cincias exatas
e da terra, cincias agrrias e engenharias, ed. 03-2005, ano 11.

PLAYFAIR, W. H. William Playfair. From Wikipedia, the free encyclopedia. Disponvel em:
<http://en.wikipedia.org/wiki/William_Playfair>. Acesso em: 10/12/2007.

PRENTICE, I. C. Multidimensional scaling as a research tool in Quarternary palybology: A


review of theory and methods. Review of Paleobotany & Palynology, 71 104, 1980.

RENDERIZAO. Wikipdia a enciclopdia livre. Disponvel em:


<http://pt.wikipedia.org/wiki/Renderiza%C3%A7%C3%A3o> Acesso em 11/02/2008.

REZENDE, S.O.; PUGLIESI, J.B.; MELANDA, E.A.; DE PAULA, M.F. Minerao de Dados. In S.
O. Rezende (Ed.), Sistemas Inteligentes Fundamentos e Aplicac oes,
p. 307335. Editora Manole, 2003.

REZENDE, S.O. Sistemas Inteligentes: fundamentos e aplicaes. Barueri, SP. Manole, 2003.

169

REFERNCIAS

RHYNE, T. M. Does the Difference between Information and Scientific Visualization Really
Matter??, IEEE Computer Graphics and Applications, maio/junho, 2003, p. 6-8.

RIBARSKY, W.; KATZ, J.; JIANG, F.; HOLLAND, A. Discovery Visualization Using Fast
Clustering. IEEE Computer Graphics and Applications, v.19, n.5, p.32-39, setembro/outubro.
1999.

RICH, E.; KNIGHT, K. Inteligncia Artificial. Makron Books. 2. Edio. So Paulo, 1994.mins
722p.

ROBERTSON, G. G.; MACKINLAY, J. D.; CARD, S. K. Cone trees: Animated 3D visualizations


of hierarchical information. In Robertson, S. P., Olson, G. M., and Olson, J. S., editors, Proc.
ACM Conf. Human Factors in Computing Systems, CHI, pages 189194. ACM Press. 1991.

ROHRER, R.M.; SIBERT, J.L.; EBERT, D.S. A Shape-based Visual Interface for Text Retrieval.
IEEE Computer Graphics and Applications, v.19, n.5, p.40-46,setembrp/outubro. 1999.

SANCHEZ, P. F. Anlise e Previso de Sries Temporais de Alguns Instrumentos de


Auscultao da Barragem de ITAIPU. In: 14 Evento de Iniciao Cientfica EVINCI UFPR,
2006, Curitiba. Anais 14 EVINCI. Ed. UFPR, 2006.

SANTOS, B. S. Introduo Visualizao de Dados e Informao. Disponvel em:


<http://www.ieeta.pt/~bss/disciplinas/ADVI/ADVI.htm>. Acesso em: 11/12/2007.

SANTOS, C. R.; GROS, P.; ABEL, P. Visualizao Tridimensional de Grandes Volumes de


Informaes. CLME'99, Congresso Luso-Moambicano de Engenharia, 14-16, 1999, Maputo,
Mozambique, Proceedings Volume 2.

SARKAR, M.; BROWN, M. H. Graphical fisheye views of graphs. In Proceedings of ACM CHI92
Conference on Human Factors in Computing Systems, Visualizing Objects, Graphs, and Video, p.
8391. 1992.

SARKAR, M.; SNIBBE, S.; TVERSKY, O. J.; REISS, S. P. Stretching the rubber sheet: A
metaphor for viewing large layouts on small screens. Technical Report CS-93-39, Department
of Computer Science, Brown University. 1993.

SHNEIDERMA, B.; et. al. Treemap. Human-Computer Interection Lab. University of Maryland.
Disponvel em: <http://www.cs.umd.edu/hcil/treemap/>. Acesso em: 27/12/2007.

170

REFERNCIAS

SHNEIDERMAN, B. The Eyes Have It: A Task by Data Type Taxonomy for Information
Visualizations. Proceedings of IEEE Symposium on Visual Languages, Boulder, CO, 1996. p.
336- 343.

SILVA NETO, M. A.; BURIOL, T. M.; SCHEER, S. Um visualizador interativo para explorao
de dados volumtricos obtidos em anlise pelo mtodo dos elementos finitos. In: XXVIII
Congresso Ibero Latino Americano de Mtodos Computacionais em Engenharia, 2007, Porto.
CMNE / CILAMCE 2007. Porto : Faculdade de Engenharia - Universidade do Porto, 2007. v. 1. p.
1-17.

SILVER, D.L. Knowledge Discovery and Data Mining. Technical Report MBA6522 CogNova
Technologies London Health Science Center, 1996.

SIMEPAR. Institudo Tecnolgico SIMEPAR. Disponvel em: <www.simepar.br>. Acesso em:


08/01/2008.

SNEATH, D. H.; SOKAL, R. R. Numerical Taxonomy. W. H. Freeman & Co., 1973.

SOBOL, M. G.; KLEIN, G. New Graphics As Computerized Displays For Human Information
Processing. IEEE Transactions on Systems, Man, and Cybernetics, vol. 19, n. 4, 1989.

SOUKUP, T.; DAVIDSON, I., Visual Datamining - Techniques and Tools for Data Visualization
and Mining, Ed. Wiley Publishing, Inc. 2002.

SPENCE, R.; APPERLEY, M.D. Data Base Navigation: An Office Environment for the
Professional. Behaviour and Information Technology,1(1): 43-54, 1982.

STASKO, J.; ZHANG, E. Focus+Context Display and Navigation Techniques for Enhancing
Radial, Space-Filling Hierarchy Visualizations. Proceedings of IEEE Information Visualization,
San Francisco, California, October 2000. p. 57-65.

STEINER, M.; SMITH, J. Use of three-dimensional reflectivity structure for automated


detection and removal of non-precipitating echoes in radar data. J. Atmos. Ocea. Tech., 2002,
19, 673-686.

TOLEDO, G. L.; OVALLE, I. I. Estatstica Bsica. Editora Atlas, So Paulo, SP. 1995.

171

REFERNCIAS

TRIOLA, M. F. Introduo Estatstica. LTC Livros Tcnicos e Cientficos Editora S.A., Rio de
Janeiro, RJ, 1999.

TUFTE, E.R. Envisioning Information. Graphics Press, USA, 1990

TUFTE, E.R. The Visual Display of Quantitative Information. Graphics Press, USA, 1983

VAN WIJK, J.J.; VAN DE WETERING, H. Cushion Treemaps: Visualization of Hierarchical


Information. Proceedings of IEEE Information Visualization, Outubro 1999. p. 73-78.

WALKER, G. Challenges of information visualization. British Telecommunications Engineering

WALTON, J. Get the picture: a new direction in data visualization. In: Earnshaw, R. A.;
Watson, D. (Eds.) Animation and Scientific Visualization: tools & applications. Academic Press,
1993, P. 29-36.

WARD, M. O.; RUNDENSTEINER, E. A.; CUI, Q.; XIE, Z.; YANG, D.; WAD, C.; NGUYEN, D. Q.
Xmdv Tool Release The Multivariate Data Visualization Tool. Disponvel em:
<http://davis.wpi.edu/~xmdv/>. Acesso em: 26/12/2007.

WARD, M.O. XmdvTool: Integrating Multiple Methods for Visualizing Multivariate Data.
Proceedings IEEE Visualization '94, Washington, DC, 1994, p.326-33.

WONG, P. C.; BERGERON, R. D. 30 Years of Multidimensional MultivariateVisualization. In


NIELSON, G. M., HAGEN, H., MLLER, H. Scientific visualization: overviews, methodologies, and
techniques, Los Alamitos, California, 1997, 400p.

WONG, P.C. Visual Data Mining. IEEE Computer Graphics and Applications, v.19, n.5, p.20-21,
set./out. 1999.

You might also like