Professional Documents
Culture Documents
DISSERTAO DE MESTRADO
Curitiba
Maro/2008
Curitiba
Maro/2008
TERMO DE APROVAO
em Mtodos
Numricos
em Engenharia (PPGMNE) da
Agradecimentos
nunca
deixaram
de
acreditar
em
meu
potencial.
Obrigado
pelo
AGRADECIMENTOS
RESUMO
ABSTRACT
SUMRIO
1 INTRODUO................................................................................. 19
1.1
Consideraes Iniciais............................................................ 19
1.2
Objetivos .................................................................................. 21
1.3
Organizao do Trabalho ....................................................... 22
2 VISUALIZAO .............................................................................. 23
2.1
Consideraes Iniciais............................................................ 23
2.2
Definies e Conceitos Iniciais .............................................. 23
2.3
Interao e Navegao............................................................ 27
2.4
Dados Complexos e Multidimensionais ................................ 30
2.5
Sistemas de Visualizao e suas Exigncias........................ 32
2.6
Consideraes Finais ............................................................. 42
3 DESCOBERTA DO CONHECIMENTO EM BANCO DE DADOS.... 44
3.1
Consideraes Iniciais............................................................ 44
3.2
Etapas do KDD ........................................................................ 45
3.2.1 Seleo..................................................................................... 48
3.2.2 Pr-Processamento de Dados ................................................ 49
3.2.3 Transformao de Dados ....................................................... 50
3.2.4 Minerao de Dados................................................................ 50
3.2.5 Interpretao e Avaliao ....................................................... 52
3.3
Integrao de Visualizao e o Processo KDD ..................... 52
3.4
Consideraes Finais ............................................................. 55
4 TRATAMENTO DE DADOS MULTIDIMENSIONAIS ...................... 56
4.1
Consideraes Iniciais............................................................ 56
4.2
Organizao dos Dados .......................................................... 58
4.3
Anlise de Correlao Multivariada ....................................... 59
4.4
Anlise de Agrupamentos ...................................................... 61
SUMRIO
4.5
4.6
5 VISUALIZAO DA INFORMAO............................................... 73
5.1
Consideraes Iniciais............................................................ 73
5.2
Tcnicas de Visualizao da Informao .............................. 74
5.2.1 Tcnicas 2D e 3D Tradicionais ............................................... 82
5.2.2 Tcnicas Orientadas a Pixels ................................................. 87
5.2.3 Tcnicas de Projeo Geomtrica ......................................... 89
5.2.4 Tcnicas Iconogrficas ..........................................................100
5.2.5 Tcnicas Hierrquicas / Grafos .............................................103
5.2.6 Tcnicas Dinmicas ...............................................................112
5.2.7 Tcnicas Hbridas...................................................................115
5.3
Consideraes Finais ............................................................116
6 MTODO DE PESQUISA E EXPERIMENTOS ..............................118
6.1
Consideraes Iniciais...........................................................118
6.2
Primeiro Experimento: ITAIPU ..............................................119
6.2.1 Introduo ITAIPU ...............................................................119
6.2.2 Monitoramento e Instrumentao Estrutural .......................121
6.2.3 Organizao dos Dados .........................................................124
6.2.4 Tcnicas Visuais Aplicadas aos Dados de ITAIPU ..............125
6.3
Segundo Experimento: SIMEPAR .........................................134
6.3.1 Introduo ao SIMEPAR ........................................................134
6.3.2 O Radar Meteorolgico ..........................................................141
6.3.3 Minerao Visual de Dados Aplicada s Imagens do
Radar Meteorolgico do SIMEPAR ..................................................144
6.4
Consideraes Finais ............................................................153
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS 155
REFERNCIAS ...................................................................................159
LISTA DE FIGURAS
LISTA DE FIGURAS
LISTA DE FIGURAS
Figura 44 (a) Projeo 3D no Viz3D; (b) Mapeamento dos registros r0, r1, r2 e
r3 (dimensionalidade quatro) no Viz3D, adotando a seqncia de eixos a0,
a1, a2 e a3; (c) Mapeamento com a seqncia de eixos a0, a2, a1 e a3. .... 97
Figura 45 - Anlise de cluster a partir da tcnica Vis3D. Aqui cinco
agrupamentos so observados (ARTERO, 2005) ......................................... 98
Figura 46 (a) Visualizao de um conjunto de dados com a tcnica Star
Coordinates;
(b) Visualizao obtida aps interao do usurio com
os eixos ......................................................................................................... 99
Figura 47 (a) Disposio dos dados no Tubo de Dados; (b) Visualizao de
alguns registros de um conjunto de dados com seis atributos
(ANKERST, 2000) ......................................................................................... 99
Figura 48 - Uso da tcnica Faces de Chernoff para representao longitudinal
de 8 atributos .............................................................................................. 100
Figura 49 - Uso da tcnica Star Glyphs para representar diferentes
caractersticas de diferentes automveis .................................................... 101
Figura 50 - Stick Figures. (a) cone representando cinco variveis; (b) famlia
de Stick Figures (WONG; BERGERON , 1997) .......................................... 102
Figura 51 - Uso da tcnica Stick Figures no mapeamento de cinco variveis
(ANKERST, 2001) ....................................................................................... 103
Figura 52 - Tcnicas hierrquicas de visualizao (a) Cone Tree e (b) Cam
Tree (ROBERTSON; MACKINLAY; CARD, 1991) ...................................... 104
Figura 53 - Uso da tcnica Treemap no mapeamento de diretrios de
computadores (SCHNEIDERMAN et al, 2007) ........................................... 105
Figura 54 - Uso da tcnica Cushion Treemaps. Iluminao e cores so usados
para diferenciar os nveis dos diretrios (VAN WIJK; VAN DE WETERING,
1999) ........................................................................................................... 106
Figura 55 - Uso da tcnica Information Slices mostrando semicrculo auxiliar
para apresentar nveis com mais detalhes
(ANDREWS; HEIDEGGER, 1998) .............................................................. 107
Figura 56 - Modelo conceitual da Empilhamento de Dimenso
(Ankerst, 2001)............................................................................................ 108
Figura 57 - Empilhamento de Dimenses aplicado botnica, as trs cores
designam os trs tipos de flores, em alguns casos a classificao mista
(HOFFMAN; GRINSTEIN, 1999)................................................................. 109
Figura 58 - Dados de dimensionalidade 6 mapeados no espao tridimensional
atravs da tcnica Mundo dentro de Mundos. No caso as variveis
x3, x4 e x5 so mantidas constantes (BESHIERS; FEINER, 1993) .............. 110
Figura 59 - Representao por grafos na visualizao de dados; (a) Grafo
otimizado para agrupamento; (b) Grafo acclico direcionado
(ANKERST, 2001) ....................................................................................... 111
Figura 60 - Representao em 3 dimenses de um grafo otimizado para
agrupamentos (ANKERST, 2001) ............................................................... 111
Figura 61 - Grafo representando as principais cidades dos EUA (SARKER;
BROW, 1992) .............................................................................................. 113
Figura 62 - Uso da tcnica Vistas de Fisheye nas proximidades de St. Louis
(SARKER; BROW, 1992) ............................................................................ 113
LISTA DE FIGURAS
Figura 63 - Uso da tcnica Rubber Sheet sobre o grafo das cidades dos EUA
com focos em St. Louis e em Salt Lake City (SARKAR et al, 1993) ........... 114
Figura 64 - Representao de dados atravs da tcnica Parallel Glyphs
(FANEA; CARPENDALE; ISENBERG, 2005) ............................................. 116
Figura 65 - Estrutura geral do complexo ITAIPU (ITAIPU, 2008) ....................... 121
Figura 66 - Representao de parte dos instrumentos do tipo extensmetros .. 125
Figura 67 - Anlise visual das relaes existentes entre pares de variveis do
instrumento do tipo extensmetro, utilizando Coordenadas Paralelas
(imagem gerada pelo software ParVis) ....................................................... 127
Figura 68 - Ilustrao por Coordenadas Paralelas do comportamento das
variveis EMF21_h2 e EMF22_h1 (imagem gerada pelo software MDV) ... 127
Figura 69 - Tcnica Coordenadas Paralelas aplicada a visualizao dos dados
dos instrumentos do tipo extensmetro ordenados pelos valores de suas
correlaes (imagem gerada pelo software ParVis) .................................... 128
Figura 70 Relao entre as variveis do instrumento do tipo extensmetro
mostradas pela tcnica Scatterplots (imagem gerada pelo software
XmdvTool) ................................................................................................... 129
Figura 71 - Uso da tcnica Orientada a Pixel para representar os dados de
extensmetro (imagem gerada pelo software XmdvTool) ........................... 130
Figura 72 - Relacionamento das variveis atravs das tcnicas (a) Star Glyphs
e (b) Faces de Chernoff (imagem gerada pelo software MATLAB)............. 131
Figura 73 - Uso das tcnicas Coordenadas Paralelas no agrupamento por ano
das variveis dos extensmetros (imagem gerada pelo software ParVis) .. 132
Figura 74 - Tcnica RadVis aplicada aos dados de extensmetros no
agrupamento por ano (imagem gerada pelo software MDV)....................... 133
Figura 75 - Distribuio da temperatura mnima no Paran (SIMEPAR, 2008).. 135
Figura 76 - Deteco de descargas atmosfricas no Brasil (fonte: SIMEPAR) .. 137
Figura 77 - Visualizao de dados de radar atravs do RadVis
(fonte: SIMEPAR) ........................................................................................ 138
Figura 78 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis
usando uma escala preto e branco (fonte: SIMEPAR) ................................ 140
Figura 79 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis
usando uma escala colorida (fonte: SIMEPAR) .......................................... 140
Figura 80 - Funcionamento do Radar
(PINHEIRO; VAZ; MARTINHAGO, 2005) ................................................... 141
Figura 81 - Ilustrao das imagens de radar para as variveis (a) refletividade,
(b) velocidade radial e (c) largura espectral (fonte: SIMEPAR) ................... 143
Figura 82 - Tipos de informaes que no representam chuvas encontrados
nas imagens do radar meteorolgico do SIMEPAR (fonte: SIMEPAR) ....... 145
Figura 83 - Minerao Visual de Dados: Algoritmo de minerao de dados com
a insero da visualizao em busca da filtragem das imagens de radar... 146
Figura 84 - Classificao dos pixels das imagens como sendo de rudo
(branco) (Fonte: SIMEPAR) ........................................................................ 147
Figura 85 - Vizinhana de um pixel .................................................................... 148
Figura 86 - Topologia de rede neural usada nas aplicaes .............................. 149
Figura 87 Imagens filtradas aps apresentao Rede Neural...................... 150
LISTA DE FIGURAS
LISTA DE TABELAS
LISTA DE ABREVIATURAS
AA
Anlise de Agrupamento
AM
Anlise Multivariada
ANA
CAPPI
CG
Computao Grfica
COPEL
DM
Data Mining
IAPAR
IHC
Iterao Humano-Computador
INPE
KDD
KM
Quilmetro
KWh
Quilowatts-Hora
LEMA
MD
Minerao de Dados
MVD
MW
Megawatts
ONS
PI
Processamento de Imagem
PPI
PS
Processamento de Sinal
RHI
RIDAT
RN
Rede Neural
LISTA DE ABREVIATURAS
SV
Sistema de Visualizao
VC
Visualizao Cientfica
VI
Visualizao da Informao
VRML
INTRODUO
estranhos
ou
inconsistentes
geralmente
podem
ser
pr-
20
1 INTRODUO
21
1 INTRODUO
1.2 Objetivos
O objetivo principal deste trabalho buscar a experimentao de
mecanismos e tcnicas de integrao da Minerao de Dados (MD) com a
Visualizao de Informaes (VI), resultando em experimentos realizados em
casos reais sobre a Minerao Visual de Dados como apoio visual na
interpretao de grandes volumes de dados.
Assim, em uma primeira experimentao em caso real foi possvel realizar
uma anlise visual geral das interaes existentes entre as leituras da
instrumentao de uma barragem de concreto. Para tanto, utilizou-se tcnicas de
Minerao Visual de Dados para extrair as informaes existentes e escondidas
no interior dos dados.
Num segundo experimento foi utilizado o algoritmo Back-Propagation para
treinar uma Rede Neural, baseado nas informaes da vizinhana dos pixels das
imagens do radar meteorolgico do SIMEPAR para classific-los como sendo
rudos, ecos de terreno ou chuva.
Como objetivos secundrios, as contribuies a serem citadas so:
22
1 INTRODUO
2 VISUALIZAO
24
2 VISUALIZAO
25
2 VISUALIZAO
cientficas,
como
Computao
Grfica
(CG),
Interao
Humano-
26
2 VISUALIZAO
Renderizao: O termo "renderizar" (do ingls to render) vem sendo usado na computao
grfica, significando converter uma srie de smbolos grficos num arquivo visual, ou seja, "fixar"
as imagens num vdeo, convertendo-as de um tipo de arquivo para outro, ou ainda "traduzir" de
uma linguagem para outra.(RENDERIZAO, 2008).
27
2 VISUALIZAO
28
2 VISUALIZAO
analisar
de
diversos
ngulos
as
informaes
mostradas.
II
Figura 4 - Tcnica de cisalhamento aplicada italizao de caracteres
29
2 VISUALIZAO
(zoom) ou ento deslocar os objetos da cena (pan) de tal forma que o usurio
possa visualizar diferentes partes do universo.
No zoom, por exemplo, ao contrrio da transformao geomtrica de
escala, a transformao no aplicada nos pontos da cena e sim num incremento
ou decremento do ngulo de viso . Este ngulo funciona como o ngulo de
abertura da lente de uma mquina fotogrfica. A figura 5 mostra o efeito do zoom
quando este ngulo alterado.
permitem
uma
identificao
mais
rpida
das
informaes
mostradas. Assim como nas demais, um mapeamento por cores, segundo Branco
(2003), aumenta o grau de percepo o que facilita a distino na visualizao
(Just Noticiable Differences).
Estas tcnicas tambm podem ser usadas para tratar sobreposio de
dados. Em se tratando de pontos que so mapeados num mesmo lugar do
espao, um recurso denominado jittering, onde uma perturbao aleatria
aplicada nos pontos, resolve facilmente este problema. Mas quando a limitao
est na rea de visualizao, a sobreposio pode ser resolvida usando
30
2 VISUALIZAO
31
2 VISUALIZAO
dados
meteorolgicos
de
presso
atmosfrica.
Nesta
32
2 VISUALIZAO
processo
abrange
desde
anlise
dos
dados,
passando
pelo
33
2 VISUALIZAO
34
2 VISUALIZAO
Bibliotecas Grficas
Sistemas Interpretativos
Sistemas Interativos
35
2 VISUALIZAO
Pipeline de Visualizao: seqncia de passos que devem ser realizados para a visualizao
do manipulador na tela. A cada alterao no manipulador, o pipeline deve ser novamente
aplicado de forma a manter a consistncia da exibio.
36
2 VISUALIZAO
Tabela 1 - Linguagens de Programao Visual
Linguagem de
Programao
Visual
Iris Explorer
AVS
VisiQuest
OpenDx
LabVIEW
Informaes
Ires Explorer: Desenvolvido inicialmente pela Silicon Graphics, uma
poderosa ferramenta para desenvolvimento de aplicaes grficas.
http://www.nag.co.uk/welcome_iec.asp
AVS Advanced Visual System: Software usado para criar
aplicaes de visualizao de dados multidimensionais.
www.avs.com
VisiQuest: Sucessor do Khorus. Permite processamento de imagens,
e anlise de dados atravs de solues visuais.
www.accusoft.com/imaging/visiquest
OpenDx: Desenvolvido com base no IBM Visualization Data Explorer.
OpenDX uma ferramenta que possui diversas funcionalidades e
possui vrios pacotes para a visualizao de informaes cientficas,
de engenharia e de anlise de dados. Seu sofisticado modelo de
dados fornece aos usurios uma grande flexibilidade na criao de
visualizaes.
www.opendx.org
LabVIEW - Laboratory Virtual Instrument Engineering Workbench:
uma linguagem de programao grfica pertencente National
Instruments. A primeira verso surgiu em 1986 para o Macintosh, e
atualmente existem ambientes de desenvolvimento integrado
tambm para Windows, Linux e Solaris. O principal campo de
aplicao na tcnica de medio e na automatizao.
MeVisLab
http://www.ni.com/labview/whatis/
MeVisLab: Linguagem de programao visual destinado a criao de
mtodos cientficos e software para medicina assistida e radiologia,
em especial, incluindo diagnstico auxiliado pelo computador,
planejamento teraputico.
AgentSheets
http://www.mevislab.de/
AgentSheets: Usado principalmente na educao para ensinar os
alunos sobre a programao e multimdia atravs de jogos e cincia
computacional.
Outros
http://www.agentsheets.com/
Alice, Amiga Vision, Analytica, Automator, Baltie, CanDO, CODE,
DRAKON, Flow, G, Hollywood Designer, jMax, Ladder logic, Lava,
Limnor, Max/MSP, Mindscript, OpenMusic, Pipeline Pilot, Prograph,
Pure Data, Quartz, Composer, SCADE, Scala Multimedia Authoring,
Simulink, Built on Squeak, Etoys scripting, Scratch, Stagecast
Creator, Subtext, SynthMaker, Tersus, ThingLab, ToonTalk, Turtle
Art, VEE, VisSim, virtools, WireFusion.
37
2 VISUALIZAO
tabela
ilustra
alguns
exemplos
de
bibliotecas
usadas
no
NAG
Informaes
NAG - Numerical Algorithms Group: uma biblioteca open source
composta de um vasto conjunto de rotinas em FORTRAN para
soluo de problemas numricos e estatsticos.
VTK
www.nag.co.uk
VTK Visualization ToolKit: Biblioteca Grfica para desenvolvimento
de aplicaes baseado em computao grfica, processamento de
imagem e visualizao. Rotinas desenvolvidas em C++. Possui
interface para Tcl/TK, Java, Python. Desenvolvido pela KitWare. Inc.
ITK
www.vtk.org
ITK Insight Toolkit: Biblioteca open source usada para
desenvolvimento de aplicaes mdicas. Implementada em C++ e
possui interface para Tcl/TK, Java, Python. Desenvolvida pela
KitWare. Inc.
IVTK
www.itk.org
IVTK InfoVis ToolKit: Pacote grfico interativo escritos em Java.
Inclui uma srie de componentes para anlise visual de dados, dentre
as quais, rvore de Decises e Coordenadas Paralelas.
http://ivtk.sourceforge.net/
38
2 VISUALIZAO
Biblioteca grfica
VIS5D
Informaes
VIS5D Visualization in Five Dimension: Biblioteca cientfica usada
para visualizao volumtrica baseada em OpenGl. um sistema
interativo para a visualizao de grandes em dimenses como os
produzidos pelos modelos numricos meteorolgicas.
VISAD
http://www.ssec.wisc.edu/~billh/vis5d.html
VISAD - Visualization for Algorithm Development: uma biblioteca
desenvolvida originalmente em Java usada na visualizao e anlise
de dados numricos.
OpenGL
OpenMap
http://www.ssec.wisc.edu/~billh/visad.html
OpenGl Open Graphics Library: API grfica multiplataforma e
multilinguagem usada na construo de aplicaes 3D ou 2D. Possui
mais 250 funes diferentes capazes de construir cenas
tridimensionais complexas. Bastante usada na indstria de jogos.
Compete diretamente com o DirectX (no microsoft windows).
www.opengl.org
OpenMap Open System Mapping Technology: Biblioteca em Java
de desenvolvimento de aplicaes e Applets aplicados em
informaes geogrficas.
http://openmap.bbn.com/
39
2 VISUALIZAO
Tabela 3 - Sistemas Interpretativos
Sistemas
interpretativos
GnuPlot
MatLab
IDL
Maple
GraDS
Octave
Informaes
GnuPlot: um aplicativo de domnio pblico, destinado construo de
grficos e superfcies. uma poderosa ferramenta. Uma caracterstica
importante deste aplicativo o fato de se ter arquivos binrios para diferentes
sistemas operacionais, possibilitando que um arquivo script seja executado
em diferentes plataformas.
www.gnuplot.info
MATLAB - MATrix LABoratory: um software interativo de alta performance
voltado para o clculo numrico. O MATLAB integra anlise numrica, clculo
com matrizes, processamento de sinais e construo de grficos 3D e 2D.
Permite tratamento de imagens e uso de tcnicas de visualizao cientfica e
computao grfica.
http://www.mathworks.com/
IDL: Software ideal para anlise de dados, visualizao, e desenvolvimento
de aplicao multi-plataforma.
http://www.ittvis.com/idl/
Maple: um sistema de lgebra computacional comercial de uso genrico.
Constitui um ambiente informtico para a computao de expresses
algbricas, simblicas, permitindo o desenho de grficos a duas ou a trs
dimenses. O seu desenvolvimento comeou em 1981 pelo Grupo de
Computao Simblica na Universidade de Waterloo em Waterloo, no
Canad, provncia de Ontrio.
http://www.scientific.de/maple.html
GraDS: uma ferramenta de desktop interativa que est atualmente em uso
global analise e exibio de cincias da Terra. Trabalha com dados de
modelos de 4 dimenses (latitude, longitude, nvel e tempo). O GraDS possui
um rico conjunto de funes embutidas. O usurio pode adicionar suas
prprias rotinas externas escritas em qualquer linguagem de programao.
http://www.iges.org/grads/
R: Pacote para anlise estatstica de dados com interface por linha de
comando. Tcnicas como anlise de covarincia, componentes principais,
correlao, Coordenadas Paralelas podem facilmente serem usadas.
http://cran.r-project.org/
Octave: Clone do MATLAB. Trabalha facilmente com matrizes e dados
estatsticos e possui praticamente todas as classes do MATLAB.
http://www.octave.org/
40
2 VISUALIZAO
DataViewer
Paraview
Radvis
Velocity
XmdvTool
Informaes
Amira Visualize, Analyse, Present: Software de visualizao e analise de
dados, bastante usado na rea biolgica mdica.
http://www.amiravis.com
DataViewer: um sistema de visualizao de dados para PCs, desenvolvido
com base na ferramenta VTK que possui uma interface grfica que permite
controlar diversos parmetros dos algoritmos de visualizao fornecendo ao
usurio maior liberdade de interao com os dados sob investigao.
http://rbv.cesec.ufpr.br/
ParaView: Software open source e multi-plataforma. Permite aplicaes para
visualizar conjuntos de dados de tamanho varivel, de pequeno a grande.
Usa a biblioteca VTK para gerar as visualizaes e possui interface grfica
Qt.
http://www.paraview.org
3
RadVis Radar Visualisation: Software desenvolvido pelo SIMEPAR para
analise visual de dados de radar meteorolgico. Permite visualizar locais e
concentraes de chuva alm de fazer animaes. O RadVis foi desenvolvido
utilizando a tecnologia Web Start do Java e a bibliotca grfica VisAD para
gerar suas visualizaes.
http://www.simepar.br/radvis/
Velocity: Software de visualizao que inclui funcionalidades para visualizar
dados 2D, 3D e 4D. Avaliado para MacOS e Windows.
http://www.improvision.com/products/volocity/volocity_le/
XmdvTool: Software livre para interao e explorao visual de dados
multivariveis. Desenvolvido usando as bibliotecas grficas OpenGl e VTK.
Incluem tcnicas de visualizao da informao como Scatterplots, Star
Glyphs, Parallel Coordinate, Dimensional Stacking, Pixel-oriented Display.
http://davis.wpi.edu/~xmdv/
41
2 VISUALIZAO
Sistemas
interativos
xgobi, rgobi,
ggobi, xgvis
MDV
CViz
SisRaios
SatVis
ParVis
HCE
KLIMT
Mondrian
GAUGUIN
Informaes
xgobi, rgobi, ggobi, xgvis: Sistema interativo para visualizao de dados
multivariados. Incluem Coordenadas Paralelas e Scatterplots, Dimension
Stacking.
http://www.research.att.com/areas/stat/xgobi/index.html
MDV Multidimensional Visualisation: Programa desenvolvido para anlise
de dados multidimensionais. Possui uma srie de tcnicas da Visualizao da
Informao implementadas. (Artero,2005)
CViz: Ferramenta projetada para analise visual de dados de alta
dimensionalidade, em geral, conjuntos de dados complexos. CViz facilmente
carrega os conjuntos de dados e exibe os fatores mais importantes
relacionados com a agregao dos registros.
http://www.alphaworks.ibm.com/tech/cviz
SisRaios: Software desenvolvido no SIMEPAR para monitoramento em
tempo real da localizao de ocorrncias de descargas eltricas
atmosfricas. Desenvolvido em Java com auxlio da Biblioteca OpenMap.
http:// www.simepar.br
SatVis - Satellite Visualisation: Aplicativo desenvolvido pelo SIMEPAR para
visualizar imagens do Satlite GOES e NOAA. Foi implementado em
linguagem Java e usa a biblioteca grfica VTK para apresentao das
imagens.
http://www.simepar.br
ParVis: Ferramenta para anlise visual de dados multidimensionais a partir da
tcnica de Visualizao da Informao Coordenadas Paralelas. O ParVis
permite alterar as posies dos eixos de forma interativa.
http://home.subnet.at/flo/mv/parvis/
HCE Hierarchical Clustering Explorer: Sistema para anlise exploratria de
grandes conjuntos de dados. Incluem tcnicas de clusterizao de forma que
todas possam ser vistas numa mesma tela facilitando a extrao do
conhecimento por comparao entre elas.
http://www.cs.umd.edu/hcil/hce/
KLIMT Klassification - Interactive Methods for Trees: Software interativo
para analise de dados com foco na classificao e regresso por rvores de
deciso. Desenvolvido em Java.
http://stats.math.uni-augsburg.de/KLIMT
Mondrian: Sistema de visualizao de dados. Diversas tcnicas estatsticas e
de visualizao esto disponveis.
http://stats.math.uni-augsburg.de/Mondrian/
GAUGUIN Grouping And Using Glyphs Uncovering Individual Nuances:
Software para anlise interativa de dados multivariados usando Glyphs.
http://stats.math.uni-augsburg.de/software/
42
2 VISUALIZAO
Sistemas
interativos
CASSATT
Informaes
CASSATT Coordinate Analysing Statistical Software Applying Tandem
Transformation: Software para anlise exploratria de dados a partir de
Coordenadas Paralelas.
http://stats.math.uni-augsburg.de/CASSATT/
43
2 VISUALIZAO
foi
apresentado
um
levantamento
de
Sistemas
de
45
46
trabalhados.
Tem-se,
por
exemplo,
pesquisas
que
trabalham
47
Inteligncia Artificial: rea de estudo que tem por objetivo imitar os comportamentos da
natureza. A tcnica rede neural, por exemplo, uma tentativa de imitar a capacidade que os seres
humanos tm para processar e armazenar informaes de forma inteligente.
48
3.2.1 Seleo
49
50
51
52
53
54
Dados. Nela, observa-se que a Visualizao pode ser usada antes (Visualizao
Anterior) ou depois (Visualizao Posterior) dos algoritmos de MD ou aps cada
interao (Visualizao Fortemente Integrada).
Ankerst (2000) definiu Minerao Visual de Dados, como sendo um passo
no Processo KDD, utilizando a Visualizao como um canal de comunicao
entre o computador e o usurio. Nesta abordagem, a Visualizao seria
empregada principalmente na etapa de Minerao de Dados e na de Avaliao.
Sendo assim, a etapa de MD passa a ser um dos passos em que o usurio pode
introduzir seu conhecimento ao invs de ser um passo meramente automatizado.
Em Ankerst (2001), conforme a figura 11, o Processo KDD pde ser estendido de
forma que o usurio pudesse inserir seu conhecimento em todas as etapas do
processo, no que foi chamado de Processo de Descoberta de Conhecimento
Centrado no Usurio.
55
57
58
59
que
as
variveis
podem
ser
relacionadas
estando
em
escalas
60
K-variveis
K - variveis
r=
(x
x )( y i y )
(n 1) S x S y
, 1 i n
(1)
onde:
1 n
xi (2)
n j =1
1 n
yi (3)
n j =1
(4)
61
(5)
( xi x ) 2
(n 1)
(6)
( yi y ) 2
(n 1)
(7)
62
Aglomerativo,
Mtodo
Hierrquico
Divisvel,
Anlise
dos
63
64
65
Os
neurnios
artificiais,
conforme
figura
15,
sofreram
algumas
66
67
68
Figura 19 - Modelo de rede neural usado nas aplicaes deste trabalho com uma camada
escondida
69
Neste trabalho optou-se pelo o uso de Redes Neurais com uma camada de
entrada, com nmero de entradas variveis, uma escondida com nmero de
neurnios variveis e uma de sada que diz se o dado bom (valores prximos de
1) ou ruim (prximos de 0). Este modelo pode ser visto na figura 19.
As redes de mltiplas camadas podem ser criadas e treinadas pelo
algoritmo Back-Propagation (ver Figura 20), que constitudo de duas fases:
Propagao Forward e Propagao Backward. Vetores de entradas e os
correspondentes vetores de sadas so usados para treinar a rede at que ela
possa aproximar uma funo que classifique os vetores de entradas de maneira
apropriada.
o vetor de pesos (w) que determina como a rede responder a uma
entrada arbitrria, nele que so armazenadas todas as informaes do
treinamento da rede. Um conjunto inicial de pesos (soluo inicial) deve ser
apresentado rede. Estes valores mudam a cada iterao do algoritmo.
Outros parmetros devem ser considerados na aplicao do algoritmo
Back-Propagation, como, a taxa de aprendizagem () e o momento () que so
valores que auxiliam a performance de uma rede neural. Alguns autores sugerem
um declive gradual da taxa de aprendizagem a medida que evolui (GORNI, 1993).
Outros optaram pela fixao destes valores enfatizando a necessidade de
estarem no intervalo (0,1) (HAYKIN, 1994).
O parmetro um valor thresshold adicionado a soma ponderada, e em
alguns casos omitido, enquanto que em outros considerado como o valor peso
cujo correspondente valor de entrada sempre igual a 1. O papel de , tambm
chamado de bias ou vcio, aumentar o nmero de graus de liberdade
disponveis no modelo, permitindo que a RN tenha maior capacidade de se
ajustar ao conhecimento a ela fornecido.
70
71
72
5 VISUALIZAO DA INFORMAO
74
5 VISUALIZAO DA INFORMAO
75
5 VISUALIZAO DA INFORMAO
Figura 23 - Inclinao das rbitas planetrias ao longo do tempo ano 950 (FRIENDLY,
2007; FUNKHOUSER, 1936, p. 261)
Edmund Halley (1656 1742): Foi um astrnomo e matemtico britnico. Halley foi o primeiro a
descobrir um cometa peridico, que subseqentemente passou a ser chamado cometa de
Halley. Aplicou o mtodo de Newton para calcular rbitas de cometas. Halley publicou os
resultados de suas observaes em 1705, na obra A Synopsis of the Astronomy of Planets.
Halley tambm dedicou uma parte de seu tempo aos assuntos relativos economia,
engenharia naval e diplomacia, exercendo papel de destaque na publicao dos Principia, de
Newton. (HALLEY, 1701)
76
5 VISUALIZAO DA INFORMAO
Figura 24 - Importao e Exportao entre 1770 e 1782 (FRIENDLY, 2007; FRIENDLY, 2005)
77
5 VISUALIZAO DA INFORMAO
No
sculo
XX,
uma
das
primeiras
visualizaes
7
de
dados
na Campanha para
78
5 VISUALIZAO DA INFORMAO
Figura 27 - Mapa de Londres com casos de clera (pontos) e poos de gua (cruzes)
(FRIENDLY, 2007; GILBERT, 1958)
avano
da
tecnologia
fez
surgir
computadores
John Snow (1813 - 1858) - Mdico britnico e lder na adoo da anestesia e da higiene
mdica. Tambm considerado um dos pais da epidemiologia, por ter identificado a cadeia de
transmisso do vibrio cholerea, o responsvel pela clera. Antes de Snow, acreditava-se que a
contaminao da clera ocorria atravs do ar. (FRIENDLY, 2007)
79
5 VISUALIZAO DA INFORMAO
80
5 VISUALIZAO DA INFORMAO
Classe de Informao
Tipos de Valores
Natureza do Domnio
Dimenso do Domnio
Classe
Categoria
Escalar
Vetorial
Tensorial
Relacionamento
Alfa-numrico
Numrico
Simblico
Discreto
Contnuo
Contnuo-discretizado
1D
2D
3D
nD
Exemplo
Gnero
Temperatura
Grandezas fsicas associadas a
dinmicas dos fludos
Link num hiperdocumento
Gnero
Temperatura
Link num hiperdocumento
Marcas de automveis
Superfcies de um terreno
Anos (tempo discretizado)
Fenmeno ocorrendo no tempo
Superfcie de um terreno
Volume de dados mdicos
Dados de uma populao
81
5 VISUALIZAO DA INFORMAO
82
5 VISUALIZAO DA INFORMAO
83
5 VISUALIZAO DA INFORMAO
84
5 VISUALIZAO DA INFORMAO
arranha-cus
de
uma
cidade.
Estilos
arquiteturais,
cores,
altura,
Figura 32 - Exemplo de uma visualizao do tipo Cityscape (CHUAH et al, 1995; SANTOS;
GROS; ABEL, 1999)
85
5 VISUALIZAO DA INFORMAO
de modo a formarem uma malha que podem ser coloridas a partir de uma escala
de cores conforme os valores dos atributos. Esta tcnica permite facilmente
identificar picos (valores mnimos e mximos), alm de extrair padres.
Outra tcnica bastante conhecida que pode ser considerada como tcnica
tradicional a Paredes de Perspectivas, desenvolvida por Mackinlay (1991) e
usada para visualizar grandes volumes de dados ordenados ao longo de uma
nica dimenso.
Esta tcnica surgiu a partir do amadurecimento da idia proposta por
Spence e Apperley (1982). Na tcnica Bifocal Display (SPENCE; APPERLEY,
1982), os itens de informao so apresentados em trs reas distintas, sendo a
central aquela que contm a informao em foco, em destaque, e as outras
informaes do contexto geral so apresentados nas laterais da regio focal
(figura 33).
86
5 VISUALIZAO DA INFORMAO
correlao
ser
prxima
de
-1,
ou
seja,
sero
inversamente
87
5 VISUALIZAO DA INFORMAO
Artero (2005), uma outra desvantagem para estas tcnicas est na limitao
quanto ao nmero de atributos que podem ser apresentados simultaneamente.
88
5 VISUALIZAO DA INFORMAO
89
5 VISUALIZAO DA INFORMAO
Figura 37 - Tcnica segmentos circulares. (a) Distribuio dos dados. (b) Mapeamento dos
dados. (c) Representao de um conjunto de dados (ANKERST; KEIM; KRIEGEL, 1996)
As
Tcnicas
de
Projees
Geomtricas
projetam
os
dados
90
5 VISUALIZAO DA INFORMAO
91
5 VISUALIZAO DA INFORMAO
entre
variveis
podem
ser
extradas
analisando
pares
92
5 VISUALIZAO DA INFORMAO
93
5 VISUALIZAO DA INFORMAO
94
5 VISUALIZAO DA INFORMAO
95
5 VISUALIZAO DA INFORMAO
seu permetro, como ilustrado na figura 43. Para cada atributo, constantes de
atrao (um sistema imaginrio de molas) so associadas aos valores, sendo que
a posio final do marcador visual ser aquela em que ocorre o equilbrio das
foras sobre o marcador. O mapeamento resultante constitui uma transformao
no linear do espao original, que preserva algumas simetrias.
96
5 VISUALIZAO DA INFORMAO
1 n1 di , j min j
2j
cos( )
xi = xc +
n j =0 maxi min j
n
1 n 1 d min j
2j
1 n 1 d min j
zi = zc + i, j
, i = 0,...,m 1
n j =0 maxi min j
(8)
j = 0,...,n 1
97
5 VISUALIZAO DA INFORMAO
Figura 44 (a) Projeo 3D no Viz3D; (b) Mapeamento dos registros r0, r1, r2 e r3
(dimensionalidade quatro) no Viz3D, adotando a seqncia de eixos a0, a1, a2 e a3; (c)
Mapeamento com a seqncia de eixos a0, a2, a1 e a3.
98
5 VISUALIZAO DA INFORMAO
99
5 VISUALIZAO DA INFORMAO
Figura 47 (a) Disposio dos dados no Tubo de Dados; (b) Visualizao de alguns
registros de um conjunto de dados com seis atributos (ANKERST, 2000)
100
5 VISUALIZAO DA INFORMAO
101
5 VISUALIZAO DA INFORMAO
O problema das Faces Chernoff que embora sejam bastante teis para
mostrar tendncias em dados multidimensionais, os valores dos dados
propriamente ditos tm que ser apresentados adicionalmente, uma vez que
aquelas no transmitem qualquer informao sobre os reais valores com as quais
se relacionam. No entanto, a capacidade de ilustrar tendncias no desprezvel,
dado que pode ser usada, por exemplo, para ilustrar sobre que parte dos dados a
ateno deve ser focada.
Essa abordagem explora a capacidade humana de reconhecer e analisar
faces, mas vrios autores (KEIM; KRIEGEL, 1996; CHOU; LIN; YEH, 1999)
observam que, devido dificuldade de distinguir diferenas muito pequenas nas
imagens resultantes, ela no adequada para a identificao de agrupamentos.
Ward (1994) usa outro cone para fazer a representao dos dados. A
tcnica Star Glyphs, mapeia os dados em formas de estrelas onde cada atributo
representado por uma das pontas das estrelas, cujo tamanho proporcional ao
valor representado. A figura 49 exemplifica o uso desta tcnica e mostra um
comparativo entre seis diferentes tipos de automveis onde cada ponta do cone
estrela representa diferentes atributos (acelerao, deslocamento, potncia, MPG,
peso).
102
5 VISUALIZAO DA INFORMAO
Stick Figures uma tcnica que utiliza as duas dimenses da tela para
mapear duas dimenses dos dados e as demais dimenses so mapeadas para
os ngulos e/ou comprimentos de segmentos de um cone formado por mltiplos
segmentos de reta (PICKETT; GRINSTEIN, 1988). A figura 50(a) apresenta um
cone com uma configurao que apresenta cinco variveis, na qual uma
dimenso mapeada pela inclinao do corpo do cone, e a orientaes das
varetas permitem mapear outras quatro dimenses. Uma famlia de Stick Figures
ilustrada na figura 50(b), em que cada uma tem um corpo e quatro segmentos.
Segundo Branco (2003), outras formas de representar dimenses nesses cones
seriam por meio da variao de cores e espessuras das varetas.
Figura 50 - Stick Figures. (a) cone representando cinco variveis; (b) famlia de Stick
Figures (WONG; BERGERON , 1997)
103
5 VISUALIZAO DA INFORMAO
104
5 VISUALIZAO DA INFORMAO
nesta
representao
feita
na
horizontal,
naquela,
esta
representao na vertical.
A construo da rvore feita a partir de um n raiz localizado no vrtice
de um cone. Todos seus filhos so ento igualmente espaados e posicionados
na base deste cone. Este processo se repete para cada n da rvore que possui
filhos. Em cada nvel a altura e o dimetro da base dos cones so ento
recalculados para que toda a informao esteja visvel (ver figura 52). (SANTOS;
GROS; ABEL, 1999; FREITAS et al, 2001)
Figura 52 - Tcnicas hierrquicas de visualizao (a) Cone Tree e (b) Cam Tree
(ROBERTSON; MACKINLAY; CARD, 1991)
105
5 VISUALIZAO DA INFORMAO
ocluso de ns. Para solucionar este problema uma variante desta tcnica o
Recunfigurable Disc Tree usa discos ao invs de cones permitindo que todos os
ns dos cones sejam exibidos (JEONG; PANG, 1998).
Uma abordagem diferente, utilizando o espao de tela para representar
elementos de informao, ao invs de utilizar objetos geomtricos, foi adotada por
Johnson e Schneiderman (1991), com a tcnica Treemap. A tcnica surgiu da
necessidade de saber como os arquivos estavam sendo usados e armazenados
pelo grupo de estudos da Universidade de Maryland (SCHNEIDERMAN et al,
2007).
O Treemap mapeia as informaes dividindo toda a tela do computador
em partes para representar os diretrios e subdividindo estas partes para
representar os subdiretrios e assim por diante (ver figura 53).
106
5 VISUALIZAO DA INFORMAO
107
5 VISUALIZAO DA INFORMAO
1998). Cada disco representa uma hierarquia de mltiplos nveis. Em cada nvel
da hierarquia, os filhos so dispostos de acordo com os valores dos dados. Para
hierarquias maiores uma srie de discos em cascatas podem ser usadas. Um
segundo semicrculo pode ser usado para representar nveis com mais detalhe.
108
5 VISUALIZAO DA INFORMAO
Segundo Hoffman e Grinstein (1999), esta tcnica pode ser usada para
determinar agrupamentos de pontos com comportamento discrepantes, e de
padres. Branco (2003), afirma que a interpretao dos resultados se torna muito
difcil quando o nmero de atributos muito grande, segundo o autor acima de
nove atributos esta extrao de informao j bastante prejudicada.
Uma outra limitao a est tcnica o alto nmero de valores que um
determinado atributo poder assumir. O arranjo hierrquico dos atributos e a
categorizao dos dados devem ser levados em considerao, em geral, atributos
de maior importncia devero ficar em nveis mais externos (KEIM; KRIEGEL,
1996; WONG; BERGERON, 1997; WARD, 1994).
109
5 VISUALIZAO DA INFORMAO
110
5 VISUALIZAO DA INFORMAO
que
mapeiem
as
caractersticas
(direcionado/no-direcionado,
111
5 VISUALIZAO DA INFORMAO
Figura 59 - Representao por grafos na visualizao de dados; (a) Grafo otimizado para
agrupamento; (b) Grafo acclico direcionado (ANKERST, 2001)
112
5 VISUALIZAO DA INFORMAO
113
5 VISUALIZAO DA INFORMAO
Figura 61 - Grafo representando as principais cidades dos EUA (SARKER; BROW, 1992)
Figura 62 - Uso da tcnica Vistas de Fisheye nas proximidades de St. Louis (SARKER;
BROW, 1992)
114
5 VISUALIZAO DA INFORMAO
Figura 63 - Uso da tcnica Rubber Sheet sobre o grafo das cidades dos EUA com focos em
St. Louis e em Salt Lake City (SARKAR et al, 1993)
115
5 VISUALIZAO DA INFORMAO
116
5 VISUALIZAO DA INFORMAO
117
5 VISUALIZAO DA INFORMAO
por algoritmos
complexos
que
envolvem
conhecimentos
mais
119
120
121
Trecho
1 (L)
2 (K)
3 (E e I) / 7 (D)
4 (H)
5 (F)
9 (Q)
Barragem Auxiliar
Barragem Auxiliar
Barragens Laterais
Estrutura de Desvio
Barragem Principal
Barragem Auxiliar
8 (A)
6 (U)
Terra
Enrocamento
Contraforte
Concreto Macio
Gravidade Aliviada
Terra
Vertedouro
Casa de Fora
Comprimento
(m)
2294
1984
1438
170
612
872
Altura
Mxima (m)
30
70
81
162
196
25
350 m de Largura
20 Unidades Geradoras
Conta-se
tambm
com
monitorao
dos
dados
hidro-
122
Instrumento
Caixa seletora
Pndulo direto
Pndulo invertido
Concreto
Medidor eltrico de
junta
Base de alongmetro
Deformmetro de
armadura
Deformmetro de
concreto
Termmetro de
resistncia
Medidor de vazo
Fundao
Extensmetro mltiplo
de haste
Piezmetro Standpipe
Piezmetro eltrico
Funcionalidade
Rene os cabos eltricos de vrios instrumentos em
uma caixa central que, ao ser conectada ao aparelho
de leitura, fornece dados destes instrumentos.
Mede os deslocamentos horizontais de pontos dos
blocos instrumentados da barragem em
determinadas cotas, em relao fundao da
estrutura.
Mede os deslocamentos da fundao da barragem
em relao a um ponto da fundao suficientemente
profundo para ser considerado fixo.
Mede os deslocamentos de abertura e fechamento
de determinadas juntas de contrao de estruturas
de concreto.
Mede abertura, fechamento, recalque e deslizamento
entre blocos ou juntas de monolitos.
Mede as tenses em barras de armadura, no interior
de estruturas de concreto.
Mede a deformao do concreto e, por esta
deformao, obtm-se a tenso que est atuando na
estrutura.
Mede a temperatura no interior da estrutura de
concreto.
Mede as vazes de percolao atravs das
estruturas e fundaes das obras de terra e concreto.
Mede as deformaes da fundao com relao ao
ponto de ancoragem de sua haste.
Permite conhecer a subpresso atuante no local da
sua instalao.
Permite conhecer a subpresso atuante no local da
sua instalao.
123
Tipo
Instrumento
Medidor de
assentamento IPT
(medidor de recalque)
Clula de presso total
Medidor triorgogonal
Medidor de nvel
dgua
Funcionalidade
Mede deformaes verticais ocorridas nas barragens
de terra.
Mede as presses totais atuantes na zona de contato
solo-concreto.
Mede os deslocamentos entre juntas de concreto e
zonas fraturadas nos macios rochosos.
Mede o nvel da gua presente no subsolo (lenol
fretico).
Total por
Instrumento
15
5
8
7
21
6
23
10
95
124
Sigla
Piezmetro
PS
Standpipe
Piezmetro
PG
Geomor
Extensmetro
EM
de Haste
Medidor de
MA
Aterro
Medidor
MT
Triortogonal
Clula de
CL
Presso Total
Medidor de
MV
Vazo
Drenos
DR
Medidor de
PZ
Nvel d'gua
Total por Bloco
Blocos do Trecho F
15/ 17/ 19/ 21/
16
18
20
22
23/
24
27/
28
29/
30
31/
32
35/
36
Total
10
74
29
11
12
12
12
11
12
14
13
127
1/
2
3/
4
5/
6
7/
8
9/
10
11/
12
13/
14
125
126
realizar a anlise visual dos dados atravs das tcnicas de Minerao Visual de
Dados.
Neste primeiro experimento, selecionou-se do banco de dados aqueles
cujas variveis pertenciam ao grupo dos extensmetros. Esta seleo foi
realizada, pois se espera que haja relacionamentos considerveis entre estes
tipos de variveis. Alm destas aplicaes aqui mostradas, ainda poderiam ser
obtidas novas visualizaes conforme necessidade do usurio.
Os extensmetros so instrumentos que medem as deformaes da
fundao e so formados por vrias hastes. No bloco 19/20 do trecho F da
Barragem da ITAIPU, so encontrados quatro instrumentos deste tipo, assim
denominados: EMF21, EMF22, EMF23 e EMF24. O instrumento EMF21
constitudo de duas hastes enquanto que os demais possuem trs hastes. Os
dados aqui abordados foram selecionados no perodo de janeiro de 1996 a janeiro
de 2006. Este histrico de dez anos foi suficiente para analisar o comportamento
entre os instrumentos que compem um conjunto de 110 leituras de 13 variveis
(incluindo Ano e Ms).
Conforme mostrado na figura 66, estes dados foram organizados em
tabelas facilitando as entradas dos softwares utilizados para gerar as
visualizaes.
A figura 67 ilustra o uso das Coordenadas Paralelas para visualizar os
dados dos instrumentos do tipo extensmetros. Nesta imagem, pde se observar
claramente a relao existente entre vrios pares de variveis. A correlao entre
variveis, conforme visto anteriormente pode ser analisada quando existem
poucos cruzamentos entre as linhas que saem de um eixo a outro vizinho,
aproximando-se de retas paralelas. Observe-se que nesta imagem somente os
pares ANO x MS, MS x EMF21_h1 no possuem bons relacionamentos, como
era de se esperar.
127
Figura 67 - Anlise visual das relaes existentes entre pares de variveis do instrumento
do tipo extensmetro, utilizando Coordenadas Paralelas (imagem gerada pelo software
ParVis)
128
129
Uma anlise na imagem gerada por esta tcnica permitiu observar que
olhando para a linha 'ANO' e percorrendo pelas colunas, com exceo das
variveis EMF21_h1, EMF21_h2 e EMF24_h3, as demais possuem um
130
onde
imagens
visualmente
parecidas
indicam
um
bom
131
Figura 72 - Relacionamento das variveis atravs das tcnicas (a) Star Glyphs e (b) Faces
de Chernoff (imagem gerada pelo software MATLAB)
132
Figura 73 - Uso das tcnicas Coordenadas Paralelas no agrupamento por ano das variveis
dos extensmetros (imagem gerada pelo software ParVis)
133
Figura 74 - Tcnica RadVis aplicada aos dados de extensmetros no agrupamento por ano
(imagem gerada pelo software MDV)
134
135
136
Localizao de temporais
137
Esprito Santo, So Paulo, Mato Grosso do Sul e Paraguai, num total de 534
descargas no perodo de 15 minutos a partir das 18:07 horas do dia 08 de janeiro
de 2008. Pontos azuis mais escuros representam descargas mais recentes.
138
139
140
Figura 78 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis usando uma
escala preto e branco (fonte: SIMEPAR)
Figura 79 - Visualizao da imagem de satlite da Amrica do Sul pelo SatVis usando uma
escala colorida (fonte: SIMEPAR)
141
142
espalhadas
pelas
gotas
de
chuvas
presentes
na
atmosfera.
143
Figura 81 - Ilustrao das imagens de radar para as variveis (a) refletividade, (b) velocidade
radial e (c) largura espectral (fonte: SIMEPAR)
144
145
146
147
de filtrar os dados de chuva, uma seleo manual de dez imagens deste banco de
dados foram usada para serem apresentadas rede. Nesta seleo, trs imagens
possuam dados de chuva e rudos, duas com predominncia de chuva e cinco
imagens de rudos (sem chuva). Baseada nas experincias dos meteorologistas
do SIMEPAR, os pixels pintados de branco foram classificados como sendo
dados ruins (no representam chuva). As imagens da figura 84 mostram um
exemplo dos tipos de imagens selecionadas e sua respectiva classificao
realizada pelos meteorologistas.
Figura 84 - Classificao dos pixels das imagens como sendo de rudo (branco) (Fonte:
SIMEPAR)
148
Neste trabalho, para cada pixel de cada imagem (no total 512 x 512) so
analisadas as informaes de sua vizinhana de raio de valor igual a 1 e delas
so extradas informaes de mdia, desvio padro e mediana. Cada pixel agora
possui seis caractersticas (mdia, mediana, desvio padro, valor do pixel,
posio i na matriz de dados e posio j da matriz).
Estas caractersticas so apresentadas rede (pixel a pixel), cuja sada
conhecida (0 representa chuva e 1, caso contrrio). Baseadas na teoria de
Redes Neurais vistas no captulo 4 e com base nos resultados obtidos num
comparativo queles definidos pelos meteorologistas e aps diversos testes, a
melhor topologia de rede encontrada nos testes realizados de seis neurnios na
camada de entrada, dez neurnios na camada escondida e um na camada de
sada que classifica se o dado chuva (prximos de 0) ou dado estranho
(prximos de 1). Nas aplicaes que seguem, foi utilizada taxa de aprendizado
igual a 0.7 e taxa de momento igual a 0.8. Notou-se tambm que aps 500
iteraes, no houve grande melhoria no treinamento da rede e, por conseguinte,
foi utilizado este nmero de iteraes nos treinamentos.
149
Aps a rede ter sido treinada, novas imagens podem ser apresentadas
rede e ento classificadas por ela. Uma anlise visual permite a extrao do
conhecimento. A figura 87 mostra alguns resultados obtidos.
10
150
151
152
Figura 89 - Resultado obtido pelo treinamento de duas redes, uma para eliminar os rudos e
a outra para eliminar os ecos de terreno
153
154
tratamento
de
dados
multidimensionais
requer
do
usurio
156
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS
157
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS
eixos podem ser utilizadas para analisar par a par, porm quando o nmero de
variveis muito grande, esta troca de eixos se torna invivel devido ao
comportamento combinatorial. Porm, quando se deseja saber quais so as
variveis mais (ou menos) correlacionveis, um pr-processamento ordenando os
eixos atravs de uma anlise estatstica das correlaes entre as variveis
envolvidas, pode ser fundamental para facilitar a anlise dos resultados.
O segundo experimento foi aplicado na filtragem dos dados do radar
meteorolgico do SIMEPAR, responsvel pelo monitoramento de chuvas. Nas
imagens geradas pela colorao dos pixels conforme os valores da matriz de
dados possvel observar que alguns pontos no correspondem como sendo
dados de chuva. Estes dados estranhos, no caso do radar do SIMEPAR, ocorrem
devido presena de rudos e ecos de terreno. Para tanto, uma rede neural
baseada em imagens cujos dados que no representam chuva foram pintados de
branco, seguindo orientaes dos meteorologistas do SIMEPAR, foi treinada para
cada um dos tipos de dados estranhos encontrados nas imagens (rudos e ecos
de terrenos). Informaes estatsticas dos pixels vizinhos para cada pixel da
matriz foi utilizada como entrada para rede. Diversas topologias de rede foram
utilizadas at se obter aquela cuja imagem gerada aps o treinamento era mais
satisfatria.
No caso do radar, o uso das imagens selecionadas geradas a partir de
Tcnicas Orientadas a Pixel integradas ao uso de Redes Neurais para predio
de dados de chuvas e finalmente a apresentao final da imagem filtrada
permitiram que se demonstrasse a insero da Visualizao no Processo KDD.
Assim, esta pode ser entendida como uma aplicao de Minerao Visual de
Dados do tipo fortemente integrado.
Em ambos os estudos, os objetivos foram alcanados, mostrando que as
tcnicas de Visualizao contriburam para a anlise visual dos resultados. Em
geral, o resultado foi muito mais satisfatrio quando a Visualizao foi integrada
Minerao de Dados. No primeiro caso, ITAIPU, a Minerao Visual de Dados, foi
aplicada de modo integrado com a Visualizao da Informao, com a ordenao
dos eixos pela tcnica de Coordenadas Paralelas atravs dos valores das
correlaes entre as variveis. J no segundo caso, SIMEPAR, a utilizao das
imagens classificadas pelos meteorologistas para o treinamento de duas redes
158
7 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS
neurais, uma para tratar rudos e outra para tratar os ecos de terreno, e finalmente
a apresentao rede treinada de uma nova imagem, foi aplicao de
Minerao Visual de Dados na filtragem dos dados que no representam chuvas.
Para trabalhos futuros, so sugeridas a implementao de um software,
capaz de ler um arquivo de dados e numa nica tela mostrar vrias das tcnicas
de Visualizao da Informao, facilitando a comparao entre elas. Este recurso
fundamental na anlise dos dados e no foi encontrado em nenhum dos
softwares pesquisados. Recursos adicionais, como selees de regies,
agrupamento por cores e formas novas de interaes podem ser utilizados.
Alm disso, no caso do experimento da ITAIPU, um estudo mais
aprofundado poder ser realizado. A idia fazer uma anlise visual dos demais
tipos de intrumentos existentes no bloco F19/20 e dos demais blocos da
barragem, misturando numa mesma visualizao tipos diferentes de instrumentos.
Isso permitir observar a relao existente entre instrumentos diferentes e em
diferentes posies da barragem.
J no caso do experimento do SIMEPAR, observou-se que em alguns
casos, quando a chuva estava presente em posies onde possuam ecos de
terrenos, a rede optava por classificar estes pontos como sendo pontos ruins,
deixando buracos no interior da chuva. Este problema poder ser resolvido, em
trabalhos futuros, por exemplo, atravs de uma interpolao dos pixels vizinhos
preenchendo estes espaos sem valores, ou adicionando novas infrmaes na
entrada para o treinamento da rede, como informaes topogrficas da regio do
radar.
Vale salientar que a avaliao do desempenho de classificao da rede foi
feito atravs da visualizao, onde aps o treinamento, foi posvel observal
visualmente a filtragem dos dados que no representariam chuvas. Desta forma,
sugere para trabalhos futuros desenvolver o treinamente e fazer uma Validao
Cruzada (Cross-Validation) para avaliar o desempenho da rede.
REFERNCIAS
AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules. Proc. 20th Int.
Conf. Very Large Data Bases, VLDB, 1994.
AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. In Proc. of 1995 Int. Conf. on Data
Engineering, Taipei, Taiwan, maro 1995.
ANKERST, M. Visual Data Mining and Exploration of Large Databases. Tutorial at PKDD'2001,
Freiburg, Alemanha, 2001.
ANKERST, M. Visual Data Mining. Tese de Doutorado, Faculty of Mathematics and Computer
Science, University of Munich, Munique, 2000.
ANKERST, M.; KEIM, D.A.; KRIEGEL, H.P. Circle Segments: A Technique for Visually
Exploring Large Multidimensional Data Sets. Proc. Visualization 96, San Francisco, Ca, 1996.
160
REFERNCIAS
BENETI, C. A. A.; LEITE E. A.; GARCIA S. A. M.; ASSUNO L. A. R.; CAZETA FILHO A.; REIS,
R. J. RIDAT - Rede Integrada de Deteco de Descargas Atmosfricas no Brasil: situao
atual, aplicaes e perspectivas. In: CONGRESSO BRASILEIRO DE METEOROLOGIA, 11, Rio
de Janeiro, RJ. 2000
BREJOVA, B.; DIMARCO, C.; VINAR, T.; HIDALGO, S.R.; HOLGUIN, G.; PATTEN, C. Finding
Patterns in Biological Sequences. Project Report, Department of Biology, University of Waterloo,
2000.
BURIOL, T. M.; SILVA NETO, M. A.; SCHEER, S.; GODOI, W. C. Modelagem em VRML para
visualizao cientfica utilizando o Visualization Toolkit. In: IX Symposium on Virtual and
161
REFERNCIAS
Augmented Reality, 2007, Petrpolis. Proceedings SVR2007. Petrpolis : LNCC e SBC, 2007. v. 1.
p. 1-3.
CALVETTI, L.; BENETI, C.; PEREIRA FILHO, A. J. Integrao do radar meteorolgico dopller
do Simepar e uma rede pluviomtrica para a estimativa da precipitao. In: SIMPSIO
BRASILEIRO DE SENSORIAMENTO REMOTO, 11. 2003, Belo Horizonte. CD-ROM.
CHOU, S. Y.; LIN, S. W.; YEH, C. S. Cluster Identification with Parallel Coordinates, Patterns
Recognition Letters, vol. 20, p. 565-572, 1999.
CHUAH, M. C.; ROTH, S. F.; MATTIS, J.; KOLOJEJCHICK, J. SDM: Selective dynamic
manipulation of visualizations. In Proceedings of the ACM Symposium on User Interface
Software and Technology, 3D User Interfaces, pages 6170. 1995.
COHEN, M.; MANSSOUR, I. H. OpenGL Uma Abordagem Prtica e Objetiva. Ed. Novatec,
So Paulo, SP, Brasil, 2006.
162
REFERNCIAS
DAVIS, J.C. Statistics and Data Analysis in Geology 2th ed., John Wiley and Sons, Inc.1986.
DYAS, N.; RAGAN, S. Clusteing Algorithm. The Maryland Virtual High School of Science And
Mathematics, 1995. Disponvel em: <http://mvhs1.mbhs.edu/mvhsproj/clustering/cluster.html>.
Acesso em: 17/12/2007.
ESTER, M.; KRIEGEL, H-P; SANDER, J.; XU, X. A density-based Algorithm for Discovering
clusters in Large Spatial Databases with Noise. Proceedings of the 2
nd
International Conference
FALOUTSOS, C.; LIN, K., FastMap: A Fast Algorithm for Indexing, Data-Mining and
Visualization of Traditional and Multimedia Datasets. In ACM SIGMOD, Zurich, Suia, 1995, p.
163-174.
FAYYAD, U.; SHAPIRO, P. G.; SMYTH, P. From Data Mining to Knowledge Discovery: An
Overview. In Fayyad, U., Piatetsky-Shapiro, G., Amith, Smyth, P., and Uthurusamy, R. (eds.),
Advances in Knowledge Discovery and Data Mining, MIT Press, p. 1-36, Cambridge, 1996.
163
REFERNCIAS
FRIENDLY, M. Visions and re-visions of Charles Joseph Minard. Journal of Educational and
Behavioral Statistics, 2002, 27(1), 31-52. 14
FURNAS, G.; JUL, S. Navigation in electronic worlds. In Proceedings of ACM CHI 97.
Conference on Human Factors in Computing Systems, volume 2 of Workshop 9, page 230. 1997.
GANESH, M.; HAN, E-H.; KUMAR, V.; SHEKHAR, S.; SRIVASTAVA, J. ? Visual Data Mining:
Framework and Algorithm Development. Technical Report TR-96-021, Department of Computer
Science, University of Minnesota, Minneapolis, 1996.
GILBERT, E. W. Pioneer maps of health and disease in England. Geographical Journal, 1958,
124, 172-183. 11, 12
164
REFERNCIAS
HALLEY, E. (1686). On the height of the mercury in the barometer at different elevations
above the surface of the earth, and on the rising and falling of the mercury on the change of
weather. Philosophical Transactions, (p. 104-115). 6
HALLEY, E. (1701). The description and uses of a new, and correct sea-chart of the whole
world, shewing variations of the compass. London. 7, 14
HOFFMAN, P. E. Table Visualization: A formal Model and Its applications. Doctoral Diss, Computer
Science Department, University Of Massachusetts, Lowell, Ma,1999.
165
REFERNCIAS
INSELBERG, A.; AVIDAN, T. The automated multidimensional detective. InfoVis Conf. .99.
Proc. 112-119. IEEE Computer Society.
JEONG, C.; PANG, A. Reconfigurable disc trees for visualizing large hierarchical information
space. Proceedings of IEEE Information Visualization, Raleigh Durham, North Carolina, Outubro
1998. p. 19-25.
JOHNSON, R.A & WICHERN, D.W. Applied Multivariate Statistical analysis. 2a ed. New
Jersey: Prentice Hall, Inc., 1998.
166
REFERNCIAS
KEIM, D. A. Visual Exploration of Large Data Sets. Communications of the ACM, v.44, n.8, p.3844, agosto. 1979.
KNORR, E.M.; NG, R.T. Algorithms for Mining Distance-Based Outliers in Large Datasets.
th
Proceedings of the 24 International Conference on Very Large Data Bases, VLDB 1998.
LAMPING J.; RAO, R.; PIROLLI, P. The hyperbolic browser: a focus+context technique for
visualizing large hierarchies. Journal of Visual Languages and Computing,7(1):33-55, maro
1996.
LEBLANC, J.; WARD, M. O.; WITTELS, N. Exploring N-Dimensional Databases. Proc. IEEE
Visualization'90, IEEE CS Press, p. 230-237, 1990.
LU, H.; SETIONO, R.; LIU, H. Neurorule: A connectionist approach to data mining. In Proc.
1995 Int. Conf. Very Large Data Bases (VLDB'95), 478-489, Zurich, Switzerland, Sept. 1995.
167
REFERNCIAS
LUO, X. -L.; STOKES, A. N.; BARTON, N.G. Turbulent flow around a car body - Report of
Fastflo solutions, WUA-CFD Freiburg (1996).
MACKINLAY, J. D.; ROBERTSON, G. G.; CARD, S. K. The perspective wall: Detail and context
smoothly integrated. In Proceedings of ACM CHI?91 Conference on Human Factors in
Computing Systems, Information Visualization, p. 173-179. 1991.
MCULLOCH, W. S.; PITTS, W. A Logical Cauculos of the Ideas Immanent in Nervus Activity.
Bulletin of Mathematical Biophysics, vol 5, p. 115-133 - 1943;
MEHTA, M.; AGRAWAL, R.; RISSANEN, J. SLIQ: A Fast Scalable Classifier for Data Mining.
Proc. of the Fifth Int'l Conference on Extending Database Technology, Avignon, France, maro
1996.
MINGHIM, R., LEVKOWITZ, H. Laboratrio de Computao de Alto Desempenho Visualizao Computacional. USP, 2006. Disponvel em:
<http://www.lcad.icmc.usp.br/~rosane/Vis.html>. Acesso em: 27/11/2006.
168
REFERNCIAS
NG, R.T.; HAN, J. Eficient and Effective Clustering Methods for Spatial Data Mining. In
Proceedings of the 1994 International Conference Very Large Data Bases, Santiago, Chile, p.
144155. Morgan Kaufmann, San Francisco, CA, setembro, 1994
Quantitative Francais au XIX sicle. Paris: Comit des Travaux Historiques et Scientifiques
(CTHS). 1996; 2, 7, 10, 14, 15, 18
PARSAYE, K.; CHIGNELL, M. Intelligent Database Tools and Applications. John Wiley & Sons,
1993.
PEARSON, K., On Lines and Planes of Closest Fit to System of Points in Space, Philosophy
Magazine, vol. 6, p. 559-572, 1901.
PLAYFAIR, W. H. William Playfair. From Wikipedia, the free encyclopedia. Disponvel em:
<http://en.wikipedia.org/wiki/William_Playfair>. Acesso em: 10/12/2007.
REZENDE, S.O.; PUGLIESI, J.B.; MELANDA, E.A.; DE PAULA, M.F. Minerao de Dados. In S.
O. Rezende (Ed.), Sistemas Inteligentes Fundamentos e Aplicac oes,
p. 307335. Editora Manole, 2003.
REZENDE, S.O. Sistemas Inteligentes: fundamentos e aplicaes. Barueri, SP. Manole, 2003.
169
REFERNCIAS
RHYNE, T. M. Does the Difference between Information and Scientific Visualization Really
Matter??, IEEE Computer Graphics and Applications, maio/junho, 2003, p. 6-8.
RIBARSKY, W.; KATZ, J.; JIANG, F.; HOLLAND, A. Discovery Visualization Using Fast
Clustering. IEEE Computer Graphics and Applications, v.19, n.5, p.32-39, setembro/outubro.
1999.
RICH, E.; KNIGHT, K. Inteligncia Artificial. Makron Books. 2. Edio. So Paulo, 1994.mins
722p.
ROHRER, R.M.; SIBERT, J.L.; EBERT, D.S. A Shape-based Visual Interface for Text Retrieval.
IEEE Computer Graphics and Applications, v.19, n.5, p.40-46,setembrp/outubro. 1999.
SARKAR, M.; BROWN, M. H. Graphical fisheye views of graphs. In Proceedings of ACM CHI92
Conference on Human Factors in Computing Systems, Visualizing Objects, Graphs, and Video, p.
8391. 1992.
SARKAR, M.; SNIBBE, S.; TVERSKY, O. J.; REISS, S. P. Stretching the rubber sheet: A
metaphor for viewing large layouts on small screens. Technical Report CS-93-39, Department
of Computer Science, Brown University. 1993.
SHNEIDERMA, B.; et. al. Treemap. Human-Computer Interection Lab. University of Maryland.
Disponvel em: <http://www.cs.umd.edu/hcil/treemap/>. Acesso em: 27/12/2007.
170
REFERNCIAS
SHNEIDERMAN, B. The Eyes Have It: A Task by Data Type Taxonomy for Information
Visualizations. Proceedings of IEEE Symposium on Visual Languages, Boulder, CO, 1996. p.
336- 343.
SILVA NETO, M. A.; BURIOL, T. M.; SCHEER, S. Um visualizador interativo para explorao
de dados volumtricos obtidos em anlise pelo mtodo dos elementos finitos. In: XXVIII
Congresso Ibero Latino Americano de Mtodos Computacionais em Engenharia, 2007, Porto.
CMNE / CILAMCE 2007. Porto : Faculdade de Engenharia - Universidade do Porto, 2007. v. 1. p.
1-17.
SILVER, D.L. Knowledge Discovery and Data Mining. Technical Report MBA6522 CogNova
Technologies London Health Science Center, 1996.
SOBOL, M. G.; KLEIN, G. New Graphics As Computerized Displays For Human Information
Processing. IEEE Transactions on Systems, Man, and Cybernetics, vol. 19, n. 4, 1989.
SOUKUP, T.; DAVIDSON, I., Visual Datamining - Techniques and Tools for Data Visualization
and Mining, Ed. Wiley Publishing, Inc. 2002.
SPENCE, R.; APPERLEY, M.D. Data Base Navigation: An Office Environment for the
Professional. Behaviour and Information Technology,1(1): 43-54, 1982.
STASKO, J.; ZHANG, E. Focus+Context Display and Navigation Techniques for Enhancing
Radial, Space-Filling Hierarchy Visualizations. Proceedings of IEEE Information Visualization,
San Francisco, California, October 2000. p. 57-65.
TOLEDO, G. L.; OVALLE, I. I. Estatstica Bsica. Editora Atlas, So Paulo, SP. 1995.
171
REFERNCIAS
TRIOLA, M. F. Introduo Estatstica. LTC Livros Tcnicos e Cientficos Editora S.A., Rio de
Janeiro, RJ, 1999.
TUFTE, E.R. The Visual Display of Quantitative Information. Graphics Press, USA, 1983
WALTON, J. Get the picture: a new direction in data visualization. In: Earnshaw, R. A.;
Watson, D. (Eds.) Animation and Scientific Visualization: tools & applications. Academic Press,
1993, P. 29-36.
WARD, M. O.; RUNDENSTEINER, E. A.; CUI, Q.; XIE, Z.; YANG, D.; WAD, C.; NGUYEN, D. Q.
Xmdv Tool Release The Multivariate Data Visualization Tool. Disponvel em:
<http://davis.wpi.edu/~xmdv/>. Acesso em: 26/12/2007.
WARD, M.O. XmdvTool: Integrating Multiple Methods for Visualizing Multivariate Data.
Proceedings IEEE Visualization '94, Washington, DC, 1994, p.326-33.
WONG, P.C. Visual Data Mining. IEEE Computer Graphics and Applications, v.19, n.5, p.20-21,
set./out. 1999.