Jornalismo Na Era Da Web de Dados Inteligentes

FACULDADE CÁSPER LÍBERO
Diego da Silva Pinto
O jornalismo na era da web de dados inteligentes
São Paulo
2011
DIEGO DA SILVA PINTO
Trabalho de conclusão de curso de Pós-

Graduação lato sensu apresentado à Faculdade
Cásper Líbero como requisito parcial para a
especialização em Teorias e práticas da
comunicação.
Orientador: Prof. Dr. Walter Teixeira Lima Junior
São Paulo
2011
1.1.1.1 Pinto, Diego da Silva
Jornalismo na era da web de dados inteligentes/ Diego da Silva Pinto. -- São Paulo, 2011.
67 f. ; 30 cm.

Monografia (pós-graduação lato sensu ) – Faculdade Cásper Líbero, Programa de Pós-gradação em
Comunicação
1. Jornalismo Inteligente. 2. Web de dados. 3. Visualização de dados.

DIEGO DA SILVA PINTO
Trabalho de conclusão de curso de Pós-

Graduação lato sensu apresentado à Faculdade
Cásper Líbero como requisito parcial para a
especialização em Teorias e práticas da
comunicação.
_____________
Data da aprovação
Banca examinadora:
_____________
_____________
São Paulo
2011
“A mente que se abre a uma nova ideia
jamais voltará ao seu tamanho original”
Albert Einstein
RESUMO
Esta pesquisa visa introduzir os conceitos básicos propostos para o que vem a ser a
evolução da atual Internet para uma estrutura computacional em rede mais inteligente e
focada em dados. Pois como podemos ver, mesmo ainda em fase de consolidação, as
muitas ideias acerca de Web Semântica já começam a ganhar espaço/aplicação no
ciberespaço e passam a nortear o trabalho dos profissionais voltados ao desenvolvimento
das plataformas e conteúdos web, sobretudo, os profissionais de comunicação. Com base
nestes conceitos, objetivamos discutir os desafios e, se possível, propor caminhos para o
futuro da prática do jornalismo e da comunicação social, abordando temáticas como
jornalismo inteligente, open data, linked data, bases de dados, data mining e
representação visual de dados. Em um último momento, o trabalho se direciona para a
discussão sobre o perfil e as atribuições necessárias para quem pretende exercer a
função de jornalista dentro deste novo contexto. Trata-se de uma pesquisa que utiliza a
metodologia bibliográfica documental e de observação indireta, pois se baseia no estudo
de algumas das possibilidades comunicacionais resultantes da combinação dessas
tecnologia e contextos.
Palavras-chave: jornalismo inteligente, bases de dados, web semântica, web de dados,

visualização de dados.
ABSTRACT
This research aims to introduce basic concepts proposed for what turns out to be the
evolution of the current Internet structure for a computer network more intelligent and
focused on data. As we see, even still in the process of consolidation, many ideas about
the Semantic Web are starting to gain traction / application in cyberspace and start to
guide the work of professionals aimed at the development of platforms and web content,
especially the media professionals. Based on these concepts, we aim to discuss the
challenges and, if possible, propose ways for the future of the practice of journalism and
media, covering topics like intelligent journalism, open data, linked data, databases, data
mining and visual representation of data. In a last moment, the work is directed to the
discussion of the profile and tasks necessary for those wishing to exercise the function of
journalism in this new context. This is a research that uses the methodology of literature
documentary and indirect observation, because it relies on the study of some
communicative possibilities resulting of the combination of these technologies and
contexts.
Keywords: intelligent journalism, databases, semantic web, web of data, visual

representation of data.
SUMÁRIO
1 Introdução 7
2 Noções básicas sobre a Web Semântica 10
3 A realidade dos Open Data, das Linked Data e das Bases de Dados 19
4 Os caminhos para a consolidação de um jornalismo mais inteligente 29
5 Jornalismo de visualização de dados e os desafios da representação 38

visual de grandes massas de dados
6 O pensamento computacional e o novo perfil do profissional de 47

comunicação
7 Os hackers jornalistas serão a salvação do jornalismo? 53
8 Considerações finais 61
Referências Bibliográficas 63
7
1 Introdução
Na atualidade, é praticamente impossível imaginar nossas vidas longe da

Internet, sobretudo, das diversas possibilidades oferecidas pela World Wide Web,
também popularmente conhecida apenas como Web. Encabeçado por Tim Berners-
Lee, nos anos 1990, este projeto alcançou proporções inimagináveis e foi capaz de
transformar quase por completo toda uma sociedade. A Web, com suas
características ubíqua1 e dinâmica, passou a fazer parte do nosso cotidiano e alterou
de maneira radical a forma com que nos comunicamos, relacionamos, produzimos e
consumimos bens e informações etc.
Entretanto, como mostram os pesquisadores Souza e Alvarenga (2004), o

enorme crescimento – além das expectativas – do alcance e tamanho desta rede,
além da ampliação das possibilidades de utilização, faz com que seja necessário o
surgimento de uma nova filosofia, com suas tecnologias subjacentes, além da
ampliação da infraestrutura tecnológica de comunicação. Este argumento apontado
pelos autores pode ser entendido como uma necessidade de evolução da atual
estrutura dessa rede, principalmente com relação à estruturação das muitas
informações nela contida. Segundo Breitman (2005), atualmente, a rede que
habitamos pode ser denominada como Web Sintática ou Web de Documentos, onde
os computadores fazem apenas a apresentação da informação, enquanto o
processo de interpretação fica a cargo dos seres humanos, já que isso exige um
grande esforço para avaliar, classificar e selecionar informações e conhecimentos.
Em outras palavras, um lugar, onde nós, interagentes2, com o auxílio ou não de
sistemas especializados, adicionamos em um ritmo intenso documentos
informacionais na rede e depois, quando os computares nos possibilitam o retorno
desses documentos, temos a função exclusiva de interpreta-los e utiliza-los.
Diante dessa realidade, quase todos os dias, temos a impressão de

estarmos imersos em um gigantesco oceano de informações e, praticamente,
1 De acordo com o dicionário Houaiss, algo ou alguém que está ou existe ao mesmo tempo em toda parte;
onipresente; que se difundiu extensamente; geral, universal;
2 Como proposto por Alex Primo (2005), o termo “Interagente” substitui a palavra “usuário”, que deixa
subentendido que tal figura está à mercê de alguém hierarquicamente superior, que coloca um pacote a sua
disposição para uso (segundo as regras que determina). Para o autor, a adoção do termo “interagente” (uma
tradução nossa de interactant, não raro utilizado em pesquisas de comunicação interpessoal), faz emanar a
própria idéia de interação.
8
mergulhados de cabeça em uma sociedade informacional que só tende a crescer

mais e mais. Porém, junto desse sentimento, surgem também algumas questões,
como: O que faremos com tanta informação?, Como conviver com elas?, Como
organiza-las?, Como recupera-las?, Como relaciona-las?, entre tantas outras. Vale
constatar que foi também a partir desses questionamentos que surgiram algumas
empresas/ferramentas especializadas na criação de mecanismos de busca, como o
Google, Bing, Yahoo etc, com a finalidade de nos auxiliar nesses processos.
Contudo, como estes mecanismos realizam a recuperação dos dados por meio do
uso de palavras-chave, encontradas no parte de textual de uma página web, quase
sempre estas buscas não são eficientes e, outro fator ainda mais impactante, a
impossibilidade de uso inteligente desses dados mostra-se também um tanto quanto
limitador.
É a partir dessa realidade que nascem e tentam se consolidar as ideias

acerca de uma nova Web, ou melhor, uma evolução dentro desta já consolidada
Web. Este pensamento não é atual e já vem sendo proposto desde de o ano de
1994 por Tim Berners-Lee, pelo consórcio da W3C e por diversos estudiosos em
todo o mundo. Porém, do que se trata esta evolução? Para Berners-Lee (2001) esta
evolução seria a consolidação de uma Web Semântica ou Web de Dados
Inteligentes, capaz de propor uma estruturação semântica aos dados da rede,
viabilizando assim o processamento das informações tanto por parte dos humanos
como também das máquinas (agentes computacionais). Neste contexto, estes
agentes serão capazes de interpretar, processar e relacionar dados e, assim, nós
poderemos evoluir na maneira como recuperamos e utilizamos os dados disponíveis
na web. As possibilidades poderão ser inúmeras, tanto em eficiência de busca como
no possível uso inteligente de dados. Contudo, como apontam as pesquisadoras
Dziekaniak e Kirinus (2004), para que isto seja possível, os computadores
necessitam ter acesso a coleções estruturadas de informações (dados e metadados)
e de conjuntos de regras de inferência que ajudem no processo de dedução
automática para que seja administrado o raciocínio automatizado, ou seja, a
representação do conhecimento.
É diante deste contexto, que se apresenta este trabalho. Por se tratar de

uma temática atual e extremamente direcionada ao nosso dia-a-dia, o estudo tem
grande valor tanto no âmbito acadêmico como no social e no profissional. Partindo
9
da realidade descrita acima, do advento da Web Semântica, também conhecida

como Web de Dados, a pesquisa tem como objetivo discutir os caminhos
necessários para a sua consolidação e como a prática do jornalismo poderá se
desenvolver dentro dela, levando em consideração aspectos como dados abertos,
dados estruturados/linkados, padrões web, mineração de dados, inteligência
artificial, bases de dados, visualização de dados, entre outros. Em um último
momento, o trabalho se direciona para a discussão sobre o perfil e as atribuições
necessárias para quem pretende exercer a função de jornalista dentro deste novo
contexto. Para tanto, optou-se por uma pesquisa com base nas metodologias
bibliográfica documental e de observação indireta, por se tratar do estudo de
algumas das possibilidades comunicacionais resultantes da combinação dessas
tecnologia e contextos.
Afinal, as perguntas ainda são muitas e, cabe adiantar, que foram a partir
desses e outros questionamentos, expostos na sequência, que se desenrolou este
trabalho. Como estes processos irão afetar a prática do jornalismo? Quais os
caminhos a serem desbravados? Quais as possibilidades e os desafios? Assim,
sinta-se convidado a fazer parte dessas reflexões e, se possível, contribua em
aprofundar o esclarecimento das mesmas.
10
2 Noções básicas sobre a Web Semântica
A Web Semântica é a Web de Dados. Afinal, existem milhares de dados que todos
nós utilizamos todos os dias, porém os mesmos não fazem parte da web. Eu
posso ver os meus extratos bancários na web, as minhas fotografias e também
posso ver os meus compromissos em um calendário. Contudo, eu posso ver as
minhas fotos em um calendário para ver o que eu estava fazendo quando as tirei?
Eu posso ver os detalhes do meu extrato bancário em uma agenda ou calendário?
Por que não? Porque ainda não temos uma Web de Dados. Porque os dados são
controlados pelas aplicações e cada aplicativo os mantém exclusivos para si
mesmo. A Web Semântica representa duas coisas. Representa os formatos
comuns (padrões), fundamentais para a integração e a combinação de dados
provenientes de diversas fontes, em contraponto a Web original, concentrada
principalmente no intercâmbio de documentos. Representa também a linguagem,
necessária para armazenar (catalogar) como os dados se relacionam com os
objetos do mundo real. Isso permite que uma pessoa ou uma máquina comece
sua jornada em um banco de dados e então se mova através de um conjunto
interminável de bases de dados, que não estão conectadas por fios, mas sim, por
3
serem a mesma coisa. (W3C Semantic Web Activity, s/d – tradução nossa)
Para se discutir a Web Semântica, em primeiro lugar, devemos ter claro o

que isso significa e quais os caminhos necessários para a sua consolidação. Para
tanto, vale voltar um pouco no tempo e entender como deu-se o nascimento do
projeto Web. O trabalho de desenvolvimento deste projeto teve início em março de
1989, por Tim Berners-Lee, no CERN (Laboratório Europeu para Física de
Partículas), com a proposta de criar um sistema baseado em buscas de hipertextos,
que possibilitaria o surgimento de uma interface mais amigável e fácil para a
navegação na Internet. Porém, foi só no ano de 1992, que o projeto alcançou o
3 The Semantic Web is a web of data. There is lots of data we all use every day, and it is not part of the web. I
can see my bank statements on the web, and my photographs, and I can see my appointments in a calendar.
But can I see my photos in a calendar to see what I was doing when I took them? Can I see bank statement
lines in a calendar? Why not? Because we don't have a web of data. Because data is controlled by
applications, and each application keeps it to itself. The Semantic Web is about two things. It is about
common formats for integration and combination of data drawn from diverse sources, where on the original
Web mainly concentrated on the interchange of documents. It is also about language for recording how the
data relates to real world objects. That allows a person, or a machine, to start off in one database, and then
move through an unending set of databases which are connected not by wires but by being about the same
thing. (W3C Semantic Web Activity, s/d)
11
sucesso desejado e possibilitou que a Internet, agora baseada em uma plataforma

Web, se disseminasse pelo planeta.
A Web passou a propiciar uma nova plataforma para o desenvolvimento de

aplicações com acesso distribuído por diferentes partes do planeta. Antes de seu
surgimento, os principais serviços utilizados na Internet eram a transferência de
arquivos, o correio eletrônico e a emulação de terminal, e restritos aos meios
acadêmicos e militares. O uso generalizado da Internet só veio a acontecer, em
1992, com o surgimento da Web, que organizou as informações na Internet por
meio de hipertexto e, em um segundo momento, tornou a interação do usuário
com a rede mundial mais amigável. (DIAS e SANTOS, 2001)
O resultado você já sabe. A Internet, graças à Web, invadiu nosso ambiente

de trabalho, nossas casas e alterou radicalmente a forma com que vivemos.
Contudo, como apontam as pesquisadoras Dias e Santos (2001), a Web se
desenvolveu rapidamente como um ambiente de publicação e compartilhamento de
documentos e não de informação, que pudesse ser utilizada pelos computadores.
Este ideia nos remete ao pensamento de Breitman (2005) que diz que, atualmente, a
rede que habitamos pode ser denominada como Web Sintática ou Web de
Documentos4, onde os computadores fazem apenas a apresentação da informação,
enquanto o processo de interpretação fica a cargo dos seres humanos, já que isso
exige um grande esforço para avaliar, classificar e selecionar informações e
conhecimentos.
É a partir desse contexto que nasce a ideia da Web Semântica. O projeto,

também proposto por Tim Berners-Lee, já no ano de 1994, visa dotar a Web de
mecanismos de estruturação semântica dos dados, para que a plataforma torne-se
inteligente e, assim, possibilite tanto aos seres humanos, como às máquinas
computacionais, trabalhar com as informações disponíveis na rede. Em outras
palavras, dar significação a cada dado na rede, com a finalidade de identificação
precisa dos mesmos por meio de inferências e, assim, possibilitar a consolidação de
4 Web Sintática ou Web de Documentos são os nomes utilizados para descrever a atual fase da Web, em que
grande parte do conteúdo é baseado em HTML. O termo deriva do contraste entre a sintaxe, que é a mecânica
de uma linguagem utilizada para transmitir informações, e semântica, que é o real significado dessa
informação. Uma página na web sintática representa qualquer documento web que não contenha tags
especiais (marcações) que possam permitir a transmissão de um significado à maquina, ou melhor, a um
programa informático.
12
uma Web de Dados Inteligentes. Contudo, vale apontar que, o projeto da Web
Semântica não veio criar uma nova Web, mas sim tornar possível uma evolução da
já consagrada e estabelecida plataforma.
A Web Semântica representa a evolução da web atual. Enquanto a web tradicional

foi desenvolvida para ser entendida apenas pelos usuários, a Web Semântica está
sendo projetada para ser compreendida pelas máquinas, na forma de agentes
computacionais, que são capazes de operar eficientemente sobre as informações,
podendo entender seus significados. Desta maneira, elas irão auxiliar os usuários
em operações na web. (DZIEKANIAK e KIRINUS, 2004)
Agora, já compreendido o processo evolutivo da plataforma, nos resta

discutir os caminhos e as tecnologias necessárias para a consolidação dessa ideia.
Como apontam as pesquisadoras Dziekaniak e Kirinus (2004), para que a Web
Semântica seja possível, os computadores necessitam ter acesso a coleções
estruturadas de informações (dados e metadados) e de conjuntos de regras de
inferência que ajudem no processo de dedução automática para que seja
administrado o raciocínio automatizado, ou seja, a representação do conhecimento.
Para as autoras, esse conjunto de regras são especificadas através de ontologias,
que permitem representar explicitamente a semântica dos dados. Através dessas
ontologias é possível elaborar uma enorme rede de conhecimento humano,
complementando o processamento da máquina e melhorando qualitativamente o
nível de serviços na web.
O W3C projeta uma Web ideal, em que a recuperação de informação poderá ser
feita de forma objetiva e consensual e, mais do que isso, poderá oferecer
diretamente, através de um processamento inteligente, respostas para muitas
questões. Essa web ideal chama-se Web Semântica. Para que esse
processamento inteligente possa acontecer, é preciso, entre outras coisas, um
instrumento da padronização terminológica, que o W3C vem chamando de
ontologias. As ontologias são formadas por termo, definições e relações. Devido a
estes elementos, a literatura vem definindo ontologia como uma linguagem
documentária. Entretanto, apesar de possuir elementos comuns, as ontologias são
mais que linguagens documentárias: elas possuem funcionalidades que permitem
que a máquina possa processar o raciocínio automatizado, através de regras e
13
inferências. (SALES, CAMPOS, GOMES, 2008)
Portanto, um primeiro passo para se dotar a Web de semântica seria com a

criação dessas chamadas Ontologias de Domínio5. Para explicar esta afirmação, as
autoras citam o pesquisador J. Hendler, em seu obra Agents and the semantic web,
do ano de 2001, em que a Web Semântica pode ser considerada como a
composição de um grande número de pequenos componentes ontológicos que
apontam entre si. Dessa forma, companhias, universidades, agências
governamentais e grupos de interesses específicos procurarão ter seus recursos
web ligados a um conteúdo ontológico, já que ferramentas poderosas serão
disponibilizadas para intercambiar e processar essas informações entre aplicações
web.
Contudo, além das ontologias, outros recursos também são necessários

para a sematização da Web, no âmbito da representação e indexação dos
documentos.
Elas (as ontologias) não seriam suficientes para imprimir semântica à Web,
requerendo a adoção de tecnologias novas, como por exemplo, XML (Extensible
Markup Language) e RDF (Resource Description Framework). O XML possibilita a
criação de tags, campos de texto que ficam escondidos nas páginas web. Os
programas ou scripts podem fazer uso dos tags de várias formas, mas o
programador precisa saber o significado de cada tag criado pelos autores das
páginas para utilizá-los. Ou seja, XML permite que o usuário adicione estruturas
arbitrárias a seus documentos, mas não permite representar o significado de cada
estrutura. Este seria o papel desempenhado pelo RDF - expressar significado às
estruturas. O RDF codifica os tags em um conjunto de triplas, sendo cada tripla
dotada de um sujeito, verbo e objeto de uma sentença simples. Essas triplas
podem ser escritas utilizando XML tags. Em RDF, um documento pode fazer
assertivas sobre relações entre coisas tais como Maria (sujeito) é irmã (verbo) de
Pedro (objeto). Essa estrutura tende a ser uma maneira natural de descrever a
maioria das informações processadas pelos computadores. O sujeito e o objeto
desta sentença são identificados, cada um, por um indicador universal
5 Na ciência da computação e na ciência da informação, ontologia é um modelo de dados que representa um

conjunto de conceitos dentro de um domínio e os relacionamentos entre estes. Uma ontologia é utilizada para
realizar inferência sobre os objetos do domínio. Ontologias são aplicadas em inteligência artificial, web
semântica, engenharia de software e arquitetura da informação, como uma forma de representação de
conhecimento sobre o mundo ou alguma parte deste.
14
denominado URI (Universal Resource Identifier), como os utilizados em links nas

páginas web, já que a URL (Uniform Resource Locator) é o tipo mais comum de
URI. Os verbos também seriam identificados por URIs, facilitando a definição de
novos verbos ou conceitos apenas pela criação de novas URIs em qualquer lugar
na Web. (DIAS e SANTOS, 2001)
Seguindo o pensamento das pesquisadoras, como o intuito da Web

Semântica é permitir um ambiente de acesso inteligente à informação, por meio de
agentes computacionais, a característica heterogênea e distribuída dos dados na
rede dificulta muito este processo. Para tanto, ainda segundo Dias e Santos (2001),
o uso de metadados pode possibilitar a descrição homogênea dessa informação.
Mas afinal, o que são estes metadados? Para Dziekaniak e Kirinus (2004), pode-se
dizer que metadados são “dados sobre dados”. Nesse contexto, metadados referem-
se a estrutura descritiva da informação sobre outro dado, o qual é usado para ajudar
na identificação, descrição, localização e gerenciamento de recursos da Web. As
autoras citam um trecho do artigo: Metadata: Enabling the Internet, escrito por
Tannela e Waugh, em 1997, em que três aspectos devem ser considerados no
desenvolvimento de metadados:
• Descrição de recursos: informação expressa através de metadados,

determinado pelo objetivo e tipo do recurso.
• Produção de metadados: sumário da descrição dos dados, que pode

tornar-se um processo extremamente caro e cansativo quando realizado
manualmente. A tendência é realizar automaticamente esse processo, incentivados
pelo uso das tecnologias XML e RDF.
• Uso de metadados: Envolve o uso e acesso de metadados, é

especialmente relevante para a localização de recursos na web. Neste contexto,
metadados devem incluir informações sobre os recursos, tais como a identificação,
descrição, estrutura.
Em outras palavras, Dias e Santos (2001) reforçam a ideia destes três

aspectos norteadores do desenvolvimento de metadados:
15
O primeiro aspecto refere-se a quais informações estarão sendo consideradas nos

metadados. Um metadado tem que ser suficientemente flexível para capturar
informações de diversas fontes distintas. O segundo aspecto refere-se à
construção de metadados. Os metadados nada mais são do que sumários sobre
uma determinada informação. Utilizar trabalho humano para gerar estes
metadados seria caro e cansativo. A tendência é automatizar este processo o
máximo possível. Já o terceiro e último aspecto trata de como os metadados serão
acessados e utilizados. Eles têm que estar disponibilizados de maneira que
possam ser processados preservando seu conteúdo semântico. Quanto à sua
utilização, podem servir de forma especialmente relevante na localização de
recursos na Web, contendo informação descritiva dos recursos e onde estes
podem ser encontrados.
Contudo, como sabemos, todo o processo evolutivo da Internet só foi

possível com a existência de padrões pré-estabelecidos, como os protocolos de
comunicação IP, POP3, SMTP, VOIP etc. Assim, para a Web Semântica não podia
ser diferente. Se sonhamos com a concretização de uma Web de Dados Inteligente,
devemos ter em mente a importância da criação e o do respeito ao uso dos padrões
para que toda a estrutura possa funcionar em harmonia. Temos a obrigação de
pensar no acesso universal e na real possibilidade de cruzamento desses dados
inteligentes.
Portanto, nos dias de hoje, este vem sendo o grande desafio encontrado
pelos pesquisadores e desenvolvedores da plataforma. Aliás, encabeçados pelo
consórcio mundial da W3C, muitos desses padrões já estão estabelecidos, porém
outros ainda estão em fase de desenvolvimento. Para tanto, vale lembrar que, como
cidadãos globais, devemos ser mais ativos e participar das discussões e decisões
dessas padronizações.
Para atingir os objetivos de criação de uma Web de acesso universal e que

contenha informações estruturadas de maneira a serem utilizadas pelas máquinas
na automação de tarefas e informações confiáveis em que possam ser
identificados os autores e responsáveis por suas publicações, o W3C faz uso de
princípios como interoperabilidade, evolução e descentralização. (DIAS e
SANTOS, 2001)
16
Após esta breve introdução acerca dos conceitos e tecnologias envolvidas

neste processo de desenvolvimento e consolidação da Web Semântica, agora, cabe
a nós, discutirmos o que esta plataforma pode representar em nossas vidas no
âmbito da recuperação e uso dos dados. Neste momento, entram questões acerca
das infinitas possibilidades garantidas pelos agentes computacionais (softwares)
neste amplo universo informacional.
Para Dias e Santos (2001), os agentes computacionais:
[!] desempenham papel importante na Web Semântica. Agentes são programas

que capturam o conteúdo de várias fontes na Web, processam estas informações
e fazem intercâmbio desses resultados com outros programas. Possuem um certo
grau de autonomia e são capazes de realizar tarefas que auxiliem o usuário no
desempenho de suas atividades, de acordo com seus interesses . Por esses
motivos, a pesquisa na área de agentes é considerada um caminho promissor
para o desenvolvimento de aplicações para a Web, em especial aquelas
relacionadas a sistemas distribuídos e inteligentes.
Já para Souza e Alvarenga (2004), a Web Semântica só terá maior

visibilidade e importância com a evolução desses agentes.
O grande poder da Web Semântica só vai se realizar quando forem criadas peças
de programa que coletem conteúdo da Web de diversas fontes, processem estas
informações e compartilhem os resultados com outros programas. Estes
programas são os agentes. Embora não haja uma definição universal para o termo
“agente” no âmbito da computação, podemos considerar o conceito disseminado
de agentes como assistentes de tarefa, ou seja, entidades de software que
empregam técnicas de inteligência artificial com o objetivo de auxiliar o usuário na
realização de uma determinada tarefa, agindo de forma autônoma e utilizando a
metáfora de um assistente pessoal. A tecnologia de agentes permite que se
repense a natureza da interação entre homem e computador, na qual esse último
torna-se um parceiro do usuário, cooperando para o alcance dos objetivos
traçados. Podemos esperar que o futuro da computação seja caracterizado por
uma completa delegação de tarefas por parte dos usuários aos computadores,
sem a necessidade de qualquer tipo de manipulação direta. A utilização de
17
agentes possibilita a implementação de um estilo complementar de interação,

chamado gerência indireta, no qual o computador se torna uma entidade ativa,
dotada de certo grau de autonomia e capaz de realizar tarefas que auxiliem o
usuário no desempenho de suas atividades, de acordo com seus interesses.
(SOUZA e ALVARENGA, 2004)
A explanação dos autores supracitados vem de acordo com o pensamento

desenvolvido pelo pesquisador Lev Manovich em sua obra “Software takes
command”, de 2008, em que os softwares (programas de computador) estão cada
vez mais presentes em nossa sociedade e são responsáveis por diversas
transformações na maneira como interagimos com as máquinas e com a nossa
própria realidade.
Esse algo a mais é Software. Ferramentas de buscas, sistemas de recomendação,

aplicações de mapas, ferramentas de blogs, ferramentas de leilões, aplicativos de
mensagens instantâneas, e, é claro, plataformas que permitem que outros escreve
novos softwares – Facebook, Windows, Unix, Android – estão no centro da
economia mundial, da cultura, da vida social e, cada vez mais, na política. Essa é
a “Cultura do Software” – cultural no sentido de que isso é diretamente usado por
centenas de milhares de pessoas e isso carrega átomos de cultura (meios de
comunicação e informação, bem como as interações humanas em torno destes
meios de comunicação e informação) – é apenas a parte visível de um universo
6
muito maior de software. (MANOVICH, 2008 – tradução nossa)
Se a eletricidade e o motor de combustão fizeram a sociedade industrial possível,

o software permite igualmente a consolidação sociedade da informação, da
mesma forma global. Os "trabalhadores do conhecimento", os "analistas de
símbolos", as "indústrias criativas" e as "indústrias de serviços" – todos estes
jogadores-chave da economia da sociedade da informação não poderiam existir
sem o software. Software de visualização de dados usado por um cientista, o
software de planilha utilizado um analista financeiro, software de web design
6 This “something else” is software. Search engines, recommendation systems, mapping applications, blog
tools, auction tools, instant messaging clients, and, of course, platforms which allow others to write new
software – Facebook, Windows, Unix, Android – are in the center of the global economy, culture, social life,
and, increasingly, politics. And this “cultural software” – cultural in a sense that it is directly used by
hundreds of millions of people and that it carries “atoms” of culture (media and information, as well as
human interactions around these media and information) – is only the visible part of a much larger software
universe. (MANOVICH, 2008)
18
utilizado por um designer que trabalha para uma agência de publicidade

transnacional, software de reserva usado por uma companhia aérea. Software é o
que também impulsiona o processo de globalização, permitindo que as empresas
distribuam os nós de gestão, instalações de produção e as saídas de
armazenamento e de consumo ao redor do mundo. Independentemente de qual
nova dimensão da existência contemporânea em uma teoria social das últimas
décadas – alguns tem-se centrado na sociedade da informação, sociedade do
conhecimento, ou sociedade em rede --, todas essas novas dimensões são
7
habilitadas por software. (MANOVICH, 2008 – tradução nossa)
Diante deste cenário e em um mundo cada vez mais imerso em dados,

alguns novos conceitos começam a emergir desta realidade. Palavras como Open
Data e Linked Data, cada vez mais, começam a estampar reportagens e artigos ao
redor do mundo. Mas afinal, o que representam estes termos para a nossa
sociedade?
7 If electricity and the combustion engine made industrial society possible, software similarly enables gllobal
information society. The “knowledge workers”, the “symbol analysts”, the “creative industries”, and the
“service industries” - all these key economic players of information society can’t exist without software. Data
visualization software used by a scientist, spreadsheet software used a financial analyst, Web design software
used by a designer working for a transnational advertising energy, reservation software used by an airline.
Software is what also drives the process of globalization, allowing companies to distribute management
nodes, production facilities, and storage and consumption outputs around the world. Regardless of which new
dimension of contemporary existence a particular social theory of the last few decades has focused on—
information society, knowledge society, or network society—all these new dimensions are enabled by
software. (MANOVICH, 2008)
19
3 A realidade dos Open Data, das Linked Data e das Bases de Dados
Para pesquisadores como Tim Berners-Lee (em palestra realizada na edição

do TED de 2009 - www.ted.com/index.php/talks/
tim_berners_lee_on_the_next_web.html), a consolidação da web semântica, aliada

aos processos de Linked Data (Dados Linkados/Estruturados) e Open Data (Dados
Abertos), permitirá uma melhor circulação da informação na rede e uma maior
eficiência para aplicações advindas deste processo, garantindo assim uma nova
fase para a Internet e, consequentemente, para a sociedade. O website
linkeddata.org define o termo Linked Data como uma maneira de usar a Web para
conectar dados relacionados que não eram previamente linkados ou usar a Web
para diminuir as barreiras para linkar dados já linkados porém em outros métodos,
não os padrões recomendados pelo consórcio da W3C. Mais especificamente,
Linked data é um termo utilizado para descrever uma recomendação de boas
práticas de estruturação, exposição, compartilhamento e conexão de peças de
dados, informação e conhecimento na Web Semântica.
No entanto, para tornar a web dos dados uma realidade é importante ter a enorme
quantidade de dados disponíveis na Web em um formato padrão, alcançável e
gerenciável pelas ferramentas da Web Semântica. Além disso, não só existe a
necessidade de que estes dados sejam acessíveis à Web Semântica, mas as
relações entre esses dados também devem ser acessíveis para a possível
consolidação de uma Web de dados (em oposição a uma coleção enorme de
bases de dados). Esta coleção de dados inter-relacionados na Web também
podem ser chamado de Dados Linkados. Linked Data está no cerne do que a Web
Semântica se propõe a ser: a integração em larga escala e de raciocínio dos
dados na web. Quase todos os aplicativos listados, em digamos coleções de
estudos de caso sobre Web Semântica e Casos de Uso, são essencialmente
baseados na acessibilidade e na integração dos dados linkados a vários nível de
8
complexidades. (LINKED DATA, W3C, s/d – tradução nossa)
8 However, to make the Web of Data a reality, it is important to have the huge amount of data on the Web
available in a standard format, reachable and manageable by Semantic Web tools. Furthermore, not only does
the Semantic Web need access to data, but relationships among data should be made available, too, to create
a Web of Data (as opposed to a sheer collection of datasets). This collection of interrelated datasets on the
Web can also be referred to as Linked Data. Linked Data lies at the heart of what Semantic Web is all about:
large scale integration of, and reasoning on, data on the Web. Almost all applications listed in, say collection
20
O pesquisador Jerry Brito (2008) completa:
Dados estruturados são um termo de arte. Isso significa que a informação é

apresentada em um formato que permite aos computadores facilmente a
analisarem e a manipularem. Ao contrário de uma página estática na web [!] que
não está estruturada, a mesma página pode ter um companheiro chamado arquivo
XML contendo as mesmas informações. Um arquivo XML estruturado permite que
um usuário possa classificar os dados por ordem ascendente ou descendente, em
ordem alfabética por título ou autor, por número de palavras e de muitas outras
maneiras que uma simples página web estática não permite. (BRITO, 2008 –
tradução nossa) 9
Já o termo Open Data, ou Dados Abertos, como o próprio nome diz busca
caminhos para que os dados disponíveis na rede possam ser acessíveis a todos,
sem restrições de padrões, mecanismos de controle e direitos autorais. O consórcio
W3C classifica Open Data como sendo a publicação e disseminação das
informações do setor público, compartilhadas em formato bruto e aberto,
compreensíveis logicamente, de modo a permitir sua reutilização em aplicações
digitais desenvolvidas pela sociedade.
Estas decisões de apoio a abertura e a usabilidade de formatos de dados

permitiram uma inovação que nenhuma empresa poderia ter previsto. De fato,
quando um site disponibiliza os seus dados em formatos abertos não se pode
conceber (prever) as muitas maneiras criativas que estes dados serão colocados
em uso. (BRITO, 2008 - tradução nossa) 10
Trata-se de um fenômeno recente, mas que vem ganhando aplicação em
of Semantic Web Case Studies and Use Cases are essentially based on the accessibility of, and integration of
Linked Data at various level of complexities. (LINKED DATA, W3C, s/d)
9 Structured data is a term of art. It means that information is presented in a format that allows computers to
easily parse and manipulate it. While a static web page that lists a series of news stories or proposed
regulations is not structured, the web page may have a companion XML file containing the same information.
A structured XML file would allow a user to sort the data by ascending or descending date, alphabetically by
headline or author, by number of words, and in many other ways that a static web page does not afford.
(BRITO, 2008)
10 These decisions to support openness and useful data formats allowed for an innovation that neither company
could have predicted would emerge. Indeed, when a site makes its data available in open formats, it cannot
conceive of the many creative ways the data will be put to use. (BRITO, 2008 - tradução nossa)
21
diversas partes do planeta, como Canadá, Estados Unidos, Nova Zelândia,

Inglaterra, entre outros. O governo inglês foi pioneiro e hoje possui um dos portais
mais avançados e completos de dados abertos no mundo, o <http://data.gov.uk/> .
Assim, diversas empresas, como o The Guardian, já se aventuram em desenvolver
aplicações digitais que possam explorar estes recursos.
No Brasil, como aponta o artigo “Dataprev e o open data”, publicado pelo

portal da Empresa de Tecnologia e Informações da Previdência Social, do governo
federal <http://portal.dataprev.gov.br/2010/10/04/dataprev-e-o-%E2%80%9Copen-
data%E2%80%9D/>, algumas discussões e futuras aplicações nesse sentido
começam a surgir.
No Brasil já há a disposição declarada, de setores da sociedade civil para

desenvolver, por sua conta e risco, aplicações a partir de dados de governo
compartilhados e com isso experimentar, fora dos sistemas de governo, novos
modelos de uso e aplicação de informação pública com benefícios para a
sociedade e desoneração do setor público. E também há a necessidade, gerada
por pressão social, do setor público prosseguir implementando novas ações de
transparência governamental. Antecipando-se a demandas de seus clientes a
Dataprev estabeleceu um objetivo de desenvolver experiência pioneira em Open
Data e resolveu como primeiro passo escutar a sociedade civil e outros setores do
governo sobre áreas de interesse. (PACHECO, 2010, online)
Portanto, esta realidade estará cada vez mais presente no dia-a-dia dos
profissionais de comunicação e os desafios serão muitos. Afinal, mesmo diante
desse cenário, cada vez mais voltado à transparência, o simples ato de tornar esta
informação disponível na rede, não quer dizer que as mesmas são acessíveis e de
fácil compreensão. Como aponta o pesquisador Jerry Brito (2008):
Os dados são muitas vezes apenas nominalmente acessíveis ao público. Primeiro,

muitos dados dos governos não estão disponíveis on-line ou ainda não estão em
formato eletrônico. Segundo, os dados que podem ser encontrados on-line muitas
vezes não estão disponíveis em um formato facilmente acessível e pesquisável.
[!] Se os dados são difíceis de se pesquisar e de se encontrar, o efeito pode ser
o mesmo que se não estivessem on-line. Além disso, para permitir aos usuários
explorar todo o potencial da Internet - para se inscrever em fluxos de dados,
22
misturar e combinar dados de diferentes fontes de dados, os mesmos devem ser

11
apresentados em um formato estruturado e, sobretudo, legível por máquina.
(tradução nossa)
Contudo, mesmo quando os governos e instituições não colaboram com a

publicação padronizada e acessível desses dados, outras técnicas são utilizadas
para se realizar a abertura e estruturação dos mesmos. Empresas (como o jornais
The Washington Post, The New York Times e The Guardian), profissionais liberais
(hackers e desenvolvedores) e ativistas (como os do grupo T-Hacker “Transparência
Hacker”) se encarregam de tornarem estes dados acessíveis na marra, utilizando-se
de diversas técnicas, como as de screen-scraping (raspagem de dados) e sistemas
automatizados.
Quando o governo não disponibiliza os dados on-line, ou torna disponível, mas

não em um formato estruturado, cabe a terceiros a tarefa de preencher o vazio
através da implementação de hacks engenhosos. [...] Um número de terceiros
independentes criaram hacks que tornam disponíveis online, em formato
estruturado, os dados que o governo não quer colocar on-line ou não são
facilmente acessíveis. Por exemplo, os formulários de divulgação dos membros do
Congresso estão disponíveis online a partir do site do jornal “The Washington
Post’s U.S. Congress Votes Database”. Usando este banco de dados, um usuário
pode procurar pelas páginas de qualquer um dos membro do Congresso. A página
inclui uma foto, uma pequena nota biográfica, votações e muito mais informações,
incluindo links para formulários dos últimos dois anos de divulgação financeira.
Onde é que o Post obtém esses dados? De todos os membros da Câmara, o
Gabinete do Secretário-Geral, uma vez por ano, disponibiliza eletronicamente
todas as formas de divulgação em um CD-ROM. O Post usa esses dados para
preencher seu banco de dados on-line. Dos senadores, no entanto, o Post adquire
cópias físicas dos arquivamentos e, em seguida, os digitaliza, a fim de fazer cópias
eletrônicas. Enquanto o governo tem sido falho em fornecer os dados online e
exige que os cidadãos façam um pedido formal de cópias físicas dos documentos
públicos, os hacks do Washington Post oferecem acesso online fácil. (BRITO,
11 The data is often only nominally publicly available. First, much government data is not available online or
even in electronic format. Second, the data that can be found online is often not available in an easily
accessible or searchable format. […] If data is difficult to search for and find, the effect might be the same as
if it were not online. Additionally, to allow users to exploit the full potential of the Internet – to subscribe to
data streams and to mix and match data sources–data must be presented in a structured machine-readable
format.
23
12
2008, tradução nossa)
Mas afinal, como estas técnicas de screen-scraping são possíveis? Jerry

Brito (2008) expõe que:
Em essência, "screen-scraping" envolve solicitar a página de Web que exibe o tipo

de dado que o usuário pretende reunir (por exemplo, uma página da lista de
votação do Senado), identificando os padrões aparentes na página (como onde o
título do projeto de lei e o número são apresentados e a quais caixas de votos
correspondem os votos prós e contras) e, em seguida, escrevendo um script de
computador que irá transferir os dados encontrados em posições designadas para
os campos apropriados em uma base de dados. De muitas formas, isso é o
equivalente digital de se ter que fazer uma varredura dos documentos em cópias
em papel, por que, enquanto o original pode ser eletrônico, neste caso, é a
exibição final do usuário que é acessada e analisada em agrupamentos
13
significativos. Em suma, é um método ineficiente e muitas vezes inexato.
(tradução nossa)
Para o autor, estes atos de estruturação e abertura dos dados de maneira

forçada vão muito além do simples fato de torna-los acessíveis ao público.
A contribuição mais importante que todos estes hacks fazem, no entanto, pode
12 When government does not make data available online, or makes it available but not in a structured format,
third parties take it upon themselves to fill the void by implementing ingenious hacks. […] A number of
independent third parties have created hacks that make available online, in a structured format, data that the
government has either not put online or not made easily accessible. For example, disclosure forms for
members of Congress are available online from The Washington Post’s U.S. Congress Votes Database. Using
this database, a user can look up a page for any member of Congress. The page includes a photo, a short
biographical sketch, voting record, and much more information, including links to the past two years’
financial disclosure forms. Where does the Post get this data? For House members, the Office of the Clerk
once a year makes available electronically all the disclosure forms on a CD-ROM. The Post uses this data to
populate its online database. For Senators, however, the Post must acquire physical copies of the filings and
then scan them in order to make electronic copies. While government has failed to provide the data online
and requires citizens to make a formal request for physical copies of these public documents, the Washington
Post’s hack offers easy online access. (BRITO, 2008)
13 In essence, “screen-scraping” involves calling up the web page that displays the type of data the user wishes
to gather (for example, a senate roll call vote page), identifying the patterns apparent on the page (such as
where the bill title and number are displayed and which boxes correspond to the yeas and nays), and then
writing a computer script that will transfer data found in designated display positions to the appropriate fields
in a database. In many ways this is the digital equivalent of having to scan paper copies of documents
because, while the original may well be electronic in this case, it is the final user display that is accessed and
parsed into meaningful groupings. In short, it is an inefficient and often inexact method.
24
não ser o acesso que eles fornecem aos usuários individuais, mas sim o fato de
que seus dados hackeados são oferecidos em um formato estruturado e aberto.
Isto permite ainda que outros terceiros possam agora pegar esses úteis dados e
criarem novas aplicações. Como Joshua Tauberer explicou, "Reunir as
informações em um só lugar e em um formato comum dá origem a novas formas
14
de misturar as informações em conjunto." (tradução nossa)
Paralelo a isso, no mundo todo ocorrem algumas discussões a cerca de

questões como privacidade e direito de uso sobre dados linkados e abertos. No
artigo “Open data, you and me”, publicado pelo W3C em 2008, o autor Karl Dubost
diz que este será um dos nossos grandes desafios para os próximos anos. Pois
antes da era da internet, quando nós compartilhávamos algum dado (número de
telefone, endereço etc) com um amigo ou alguma outra pessoa, podíamos pedir
para a mesma não compartilhar isso com ninguém. Era uma relação de confiança
pessoal, sem a necessidade de assinar nenhum contrato etc. Era um dado local,
visto apenas por uma única pessoa.
Contudo, com o surgimento da web e dos muitos serviços online, nós

geralmente assinamos um contrato com a empresa que prove o serviço online de
poder utilizar nossos dados pessoais. Você tem a escolha de poder aceitar ou não
quando vai acessar um desses serviços, mas se não aceitar geralmente não poderá
utiliza-lo. Segundo o autor, um outro problema encontrado é que em nosso acervo
de dados online, existe também dados que pertencem a outras pessoas e quando
enviamos estes dados para um serviço online, podemos estar quebrando a
confiança de um relacionamento. Afinal, esta outra pessoa envolvida poderia não
desejar que os seus dados fossem compartilhados neste serviço. Para Dubost, “a
grande mudança é que todos nós nos tornamos ao mesmo tempo provedores e
consumidores de dados com a responsabilidade de os compartilhar. Assim, todos
nós somos um grande serviço de rede social com responsabilidades”.
Para os organizadores do opendatacommons.org, no artigo “Open Data:

Openess and Licensing” <http://blog.okfn.org/2009/02/02/open-data-openness-and-
14 The most important contribution all these hacks make, however, may not be the accessibility they provide to
individual users, but the fact that their hacked data is offered in a structured and open format. This allows yet
other third parties to tap into the now useful data and create new applications. As Joshua Tauberer has
explained, “Gathering the information in one place and in a common format gives rise to new ways of mixing
the information together.”
25
licensing/>, a questão central da discussão encontra-se em pontos como o

progresso do conhecimento humano e a liberdade de compreensão e
compartilhamento de dados. O conhecimento como algo comum a todos.
No entanto, dados abertos são cruciais para o progresso nesses itens

fundamentais. São cruciais pois dados aberto são muito mais fáceis de se
quebrar e recombinar, usar e reutilizar. Por isso, queremos que as pessoas
tenham incentivos para tornar os seus dados abertos e, assim, para que dados
abertos sejam facilmente utilizados e reutilizados - ou seja, para que dados
abertos possam formar um "commons". Uma boa definição para abertura como
um padrão que garanta que diferentes formatos de bases de dados abertas
sejam interoperáveis e, portanto, promovam um bem comum. (on-line – tradução
15
nossa)
Contudo, acreditam na necessidade de criação de licenças para estes dados

abertos.
O licenciamento é importante porque reduz a incerteza. Sem a licença você não

sabe onde você, como usuário, fica: quando você está autorizado a usar esses
dados? Você está autorizado a compartilhar com os outros? Distribuir as suas
próprias alterações etc? Juntos, uma definição de abertura, além de um conjunto
de licenças de esclarecimento, garantem clareza e simplicidade. Não só a
interoperabilidade é assegurada, mas as pessoas podem saber num ápice, sem
terem que passar por um monte de processos jurídicos, o que elas são livres para
16
fazer. (on-line – tradução nossa)
Com relação às bases de dados. Como pode ser visto no texto "A Base de
dados como Formato no Jornalismo Digital", do pesquisador Elias Machado (2004),
15 However, open data is crucial to progress on these more fundamental items. It’s crucial because open data is
so much easier to break-up and recombine, to use and reuse. We therefore want people to have incentives to
make their data open and for open data to be easily usable and reusable — i.e. for open data to form a
‘commons’. A good definition of openness acts as a standard that ensures different open datasets are
‘interoperable’ and therefore do form a commons. (on-line)
16 Licensing is important because it reduces uncertainty. Without a license you don’t know where you, as a
user, stand: when are you allowed to use this data? Are you allowed to give to others? To distribute your own
changes, etc? Together, a definition of openness, plus a set of conformant licenses deliver clarity and
simplicity. Not only is interoperability ensured but people can know at a glance, and without having to go
through a whole lot of legalese, what they are free to do. (on-line)
26
estas bases não são exclusividades do mundo digital. Mesmo bem antes de
utilizarmos computadores, nós já tínhamos o hábito de criar bases de dados
analógicas, como agendas telefônicas, catálogos de livros etc. O que acontece
agora é que estamos em constante migração para o ambiente digital e a partir dessa
realidade, as possibilidades de uso dessas bases foram ampliadas, nos permitindo
realizar relações automatizadas, antigamente um tanto quanto complexas. Assim,
estas bases de dados digitais estão cada vez mais presentes em quase todos os
lugares e serviços que nos cercam.
Em linhas gerais, base de dados (BDs) tem sido entendida como um repositório de
informações (sejam eles textos, audio, vídeo ou imagens estáticas ou em
movimento) que podem ser recuperadas através de sistemas automatizados e
cruzados para gerar uma nova informação. [...] BDs são definidoras da estrutura e
da organização, assim como a forma de apresentação dos conteúdos jornalísticos,
constituindo um elemento essencial na construção de sistemas complexos de
criação, manutenção, atualização, disponibilização e circulação de produtos
jornalísticos digitais dinâmicos. (RODRIGUES, 2008)
Rodrigues (2008) baseia-se no raciocínio desenvolvido pela pesquisadora

Suzana Barbosa, no texto “Jornalismo Digital em Bases de Dados”, para descrever
as sete categorias específicas para caráter operativo do jornalismo em base de
dados:
Dinamicidade, Automatização, Inter-relacionamento/Hiperlinkagem, Flexibilidade,

Densidade informativa, Diversidade temática, Visualização. Além de elencar
categorias, Barbosa defende a idéia de que as bases de dados produzem
rupturas, remediações e potencialidades para o jornalismo digital, assim como a
estruturação e organização das informações, construção de produtos informativos,
bem como a apresentação de conteúdos, incluindo-se a infografia. (RODRIGUES,
2008)
Como vemos, pode-se esperar muitas inovação advindas da fusão entre

jornalismo e bases de dados digitais. Um exemplo prático pode ser visto no
programa de televisão "Olhar Digital", do dia 11 de abril de 2010, em que foi
27
apresentada uma reportagem sobre Cidades inteligentes e o futuro das metrópoles

<http://olhardigital.uol.com.br/links/video_wide.phpid_conteudo=11182&/CIDADES+I
NTELIGENTES>. Na matéria, são comentadas algumas bases de dados já

existentes como: sistema de controle do tráfico e do transporte urbano, sistemas
meteorológicos, sistemas de empresas de seguros sobre dados do GPS dos clientes
etc. Os especialistas afirmam que para a possibilidade de uma organização mais
inteligente das nossas cidades, a única coisa que falta no momento é a criação de
soluções que possam integrar e relacionar estes dados. Um excelente campo de
atuação para o jornalismo, afinal o trânsito, além de ser um assunto de interesse
público/coletivo, pode gerar um amplo conteúdo informativo.
As funcionalidades das bases de dados para o jornalismo digital são percebidas

tanto quanto à gestão interna dos produtos como em relação às mudanças no
âmbito da estruturação das informações, da configuração e da apresentação da
notícia (âmbito da narrativa), assim como da recuperação das informações. Num
produto digital estruturado em bases de dados, as possibilidades combinatórias
entre os itens ou notícias inseridas podem gerar mais conhecimento com valor
noticioso, produzindo diferentes configurações para as informações e, inclusive,
novas tematizações ou elementos conceituais para a organização e apresentação
dos conteúdos. (BARBOSA, 2007)
Contudo, neste momento, entra a questão central proposta por Tim Berners-
Lee e pela W3C, da adoção de todos pelos padrões Web. Sem a existência de
padrões, a conversação e o relacionamentos dos dados disponíveis na rede perdem
força. Portanto, fica cada vez mais evidente, a importância dos desenvolvedores e,
sobretudo, das empresas em criarem os seus sites, bases de dados e conteúdo
digital de acordo com as recomendações do consórcio mundial. Caso contrário,
poderão ficar de fora dessas e tantas outras possibilidades que começam a emergir
no ciberespaço. Jerry Brito (2008) amplia esta discussão quando diz que “se as
informações governamentais fossem publicadas online respeitando as
padronizações de formatos aberto, as massas de pessoas online poderiam ajudar a
garantir ainda mais a transparência e a confiabilidade das mesmas, que, em primeiro
28
lugar, são as principais razões para se tornar públicas este tipo de informação”17.
Para finalizar, vale pontuar que na atualidade, mais do que manter extensas
bases de dados, as empresas e instituições necessitam desenvolver soluções
personalizadas e que permitam um uso mais rico desta complexa malha de dados
disponível. Para tanto, o desenvolvimento de sistemas inteligentes, baseado em
base de dados, e que utilizem os mais atuais recursos de Inteligência Artificial (AI) e
técnicas de Datamining, podem ser de grande valor, como veremos no capítulo
seguinte.
17 If government information were made public online in standard open formats, the online masses could help
ensure the transparency and accountability that is the reason for making information public in the first place.
29
4 Os caminhos para a consolidação de um jornalismo mais inteligente
Como aponta o pesquisador Walter Lima Jr (2006), “na atualidade, com o

advento da tecnologia de armazenamento digital, quase toda a informação
produzida passou a ser colocada diretamente no mundo de bits e bytes, e o que
existe no meio físico, como em livros, revistas e jornais, para citar alguns exemplos,
está sendo transmutado para discos rígidos ou para memórias digitais”. Portanto,
com base nos conceitos apresentados no capítulo anterior, percebe-se que estamos
caminhando para a consolidação de extensas e cada vez mais complexas bases de
dados. Cada interagente na rede, ao fazer parte de um serviço online e compartilhar
dados, passa a ser responsável pelo crescimento e enriquecimento dessas bases.
Mais do que isso, instituições e empresas de comunicação, passam a ter papel de
destaque neste cenário, pois durante anos puderam produzir e armazenar uma
quantidade sem fim de dados e informações.
A memória jornalística também transporta-se para as redes telemáticas no formato

de banco de dados, que agrega outros aplicativos mais complexos, e a capacidade
de exploração das potencialidades oferecidas projetando novos arranjos, formatos
e desafios. (RODRIGUES, 2008)
Decorrente da incrível expansão desses repositórios de dados, algumas

restrições físicas e biológicas começam a emergir deste cenário. Como aponta Lima
Jr (2006) este “imenso volume de informação, que tem sido sistematicamente
coletado e armazenado, ultrapassa a capacidade humana, principalmente a do
jornalista, na tarefa de levantar dados em pesquisas complexas e realizar os
cruzamentos das informações para posterior análise”. Afinal, este infinito mar de
informações, até o momento, não foi dotado de inteligência artificial capaz de auxiliar
os seres humanos a realizarem buscas automatizadas, inferências e,
eventualmente, virem a descobrir padrões nas relações de suas tabelas e dados.
Contudo, quando se fala em Inteligência Artificial é importante salientar que

a mesma não se trata mais daqueles complexos processos de se tentar recriar o
cérebro humano, realizados há alguns anos. Para ser mais exato, como mostra a
30
reportagem “The A.I. Revolution”, da edição de janeiro de 2011 da revista norte-

americana Wired, entramos em uma nova e promissora fase.
A Inteligência Artificial de hoje não tenta recriar o cérebro. Em vez disso, ela
utiliza-se do aprendizado de máquina, conjuntos de dados maciços, sofisticados
sensores e algoritmos inteligentes para dominar os desafios. Essa explosão é a
discreta e irônica recompensa da busca aparentemente infrutífera de décadas por
tentar imitar a inteligência humana. Esse objetivo se mostrou tão fugaz que alguns
cientistas perderam o ânimo e muitos outros acabaram perdendo os seus
financiamentos. As pessoas tratavam como uma fase de inverno para a AI -
temporada estéril em que nenhuma visão ou projeto pode enraizar-se ou crescer.
Mas mesmo com o sonho tradicional de AI congelando, um novo estava nascendo:
máquinas construídas para realizar tarefas específicas de maneira que as pessoas
jamais conseguiram. No início, haviam apenas alguns brotos verdes empurrados
para cima através do solo gelado. Mas agora estamos em plena floração. Bem-
vindo ao Verão da AI [...] Assim, durante os anos 80, os alunos de graduação
começaram a concentrar-se sobre os tipos de habilidades para que os
computadores eram bem adaptados e descobriram que eles poderiam construir
algo parecido com a inteligência de grupos de sistemas que operam de acordo
com seu próprio tipo de raciocínio. "A grande surpresa é que a inteligência não é
uma coisa unitária", diz Danny Hillis, que é co-fundador da Thinking Machines,
uma empresa que faz supercomputadores. "O que aprendemos é que existem
18
diferentes tipos de comportamentos." (online – tradução nossa)
Questões como o aprendizado de máquina, em que a inteligência do

computador passa a se aguçar à medida em que ele encontra dificuldades e
soluções, e algoritmos genéticos, em que a máquina é dotada para aprender a partir
do comportamento humano, vêm alterando e simplificando a forma de se consolidar
máquina e sistemas inteligentes.
18 Today’s AI doesn’t try to re-create the brain. Instead, it uses machine learning, massive data sets,
sophisticated sensors, and clever algorithms to master discrete tasks.This explosion is the ironic payoff of the
seemingly fruitless decades-long quest to emulate human intelligence. That goal proved so elusive that some
scientists lost heart and many others lost funding. People talked of an AI winter—a barren season in which
no vision or project could take root or grow. But even as the traditional dream of AI was freezing over, a new
one was being born: machines built to accomplish specific tasks in ways that people never could. At first,
there were just a few green shoots pushing up through the frosty ground. But now we’re in full bloom.
Welcome to AI summer... So during the ’80s, graduate students began to focus on the kinds of skills for
which computers were well-suited and found they could build something like intelligence from groups of
systems that operated according to their own kind of reasoning. “The big surprise is that intelligence isn’t a
unitary thing,” says Danny Hillis, who cofounded Thinking Machines, a company that made massively
parallel supercomputers. “What we’ve learned is that it’s all kinds of different behaviors. (online)
31
Por meio do uso de algoritmos baseados em probabilidade para extrair significado

de enormes quantidades de dados, os pesquisadores descobriram que não tinham
necessidade de ensinar ao computador como realizar uma tarefa. Eles podiam
apenas mostrar o que as pessoas faziam e deixar a máquina descobrir como
emular o comportamento em circunstâncias semelhantes. Eles usaram algoritmos
genéticos, que inspecionam pedaços de código gerados aleatoriamente,
selecionando os de mais alto desempenho e colocando-os juntos aos demais para
gerar um novo código. Como o processo é repetido, os programas evoluíram e se
mostraram surpreendentemente eficazes, muitas vezes, comparáveis aos
19
produzidos pelos codificadores mais experientes. (online – tradução nossa)
Já um outro processo, que anda lado a lado à Inteligência Artificial, são as

técnicas de mineração de dados (Data mining). Com a aplicação do Data mining, um
sistema de maneira automatizada poderá relacionar e filtrar dados, a fim de
encontrar novos e diferentes padrões, tendências e relações, que podem ser
invisíveis ao trabalho meramente humano (devido a complexidade das relações e
quantidade de dados existentes dentro das bases).
As ferramentas de Data mining são utilizadas para prever futuras tendências e

comportamentos. Empresas comerciais utilizam esse novo processo nas tomadas
de decisão, baseando-se, principalmente, no conhecimento acumulado, que está
“invisível” em seus próprios bancos de dados. (NAVEGA, 2002)
Para o autor Luis Alfredo de Vidal Carvalho (2005) podemos definir data
mining “como o uso de técnicas automáticas de exploração de grandes qunatidades
de dados de forma a descobrir novos padrões e relações que, devido ao volume dos
dados, não seriam facilmente descobertas ao olho nu pelo ser humano”. O autor
ainda faz uma ressalva de que:
19 By using probability-based algorithms to derive meaning from huge amounts of data, researchers discovered
that they didn’t need to teach a computer how to accomplish a task; they could just show it what people did
and let the machine figure out how to emulate that behavior under similar circumstances. They used genetic
algorithms, which comb through randomly generated chunks of code, skim the highest-performing ones, and
splice them together to spawn new code. As the process is repeated, the evolved programs become amazingly
effective, often comparable to the output of the most experienced coders. (online)
32
Quando aplicado na empresa, melhora a interação entre o cliente e a empresa,

aumenta as vendas e dirige as estratégias de marketing. O data mining, porém,
pode ser aplicado a qualquer massa de dados, sejam eles oriundos da medicina,
economia, astronomia, geologia, entre outras áreas de estudo. De fato, muitas são
as técnicas utilizadas, porém a mineiração de dados ainda é mais uma arte do que
uma ciência. O sentimento do especialista não pode ser dispensado, mesmo que
as mais sofisticadas técnicas sejam utilizadas.
O pesquisador Antônio Fidalgo (2008) é ainda mais contundente ao dizer

que:
A mineração de dados é uma forma de descobrir relações relevantes entre dados,

relações por vezes completamente inesperadas e, por conseguinte,
incontestavelmente de valor noticioso. O uso crescente que os players políticos e
econômicos fazem da mineração de dados, aproveitando-se do conhecimento que
a quantidade e a qualidade de um mole imensa de dados lhes oferece, obriga a
que os órgãos de comunicação recorram a semelhantes tecnologias a fim de
manterem o passo na corrida à informação e não serem apenas moços de fretes
dos recados que eles desejam passar para o público.
Portanto, quando se alia estes processos de inteligência artificial às técnicas

avançadas de mineração de dados (Data Mining) pode-se encontrar resultados
surpreendentes emergindo das complexas bases de dados.
Basicamente, falar de Data Mining é buscar padrões ocultos em massas de dados

que encontramos em data warehouses corporativos ou Bases de Conhecimento
de Sistemas Inteligentes. Como conceito que envolve Estatística, Inteligência
Artificial e Machine Learning (Aprendizado de Máquina), o Data mining garimpa
informações de valor estratégico que estão “invisíveis” nos registros, permitindo a
identificação de tendências para uma visão antecipada de cenários futuros e a
descoberta de novos padrões entre dados, nem sempre perceptíveis ao analista
humano. (LIMA JR, 2010)
Não se trata de um sistema futurista, afinal, na atualidade, este fenômeno já

tem sido percebido em outros campos do conhecimento humano, como o mercado
33
financeiro, governos nacionais, estrategistas militares, empresas de varejo etc.
São vários os setores que trabalham com informação que utilizam a técnica do
data mining para obter padrões válidos e potencialmente úteis em suas atividades.
Há cinco anos, ao procurar eventuais relações entre o volume de vendas e os dias
da semana, um software de data mining apontou que, às sextas-feiras, as vendas
de cerveja na rede Wal-Mart cresciam na mesma proporção que as de fraldas.
Uma investigação mais detalhada revelou que, ao comprar fraldas para seus
bebês, os pais aproveitavam para abastecer o estoque de cerveja para o fim de
semana. (LIMA JR, 2006)
Mas afinal, o que são e representam estes padrões encontrados? Para

Navega (2002), “padrões são unidades de informação que se repetem, ou então são
seqüências de informações que dispõe de uma estrutura que se repete”. E completa
fazendo uma referência do processo de Data mining ao funcionamento do cérebro
humano.
A tarefa de localizar padrões não é privilégio do Data Mining. Nosso cérebro

utiliza-se de processos similares, pois muito do conhecimento que temos em
nossas mentes é, de certa forma, um processo que depende da localização de
padrões. Por essa razão, muito do que se estuda sobre o cérebro humano
também pode nos auxiliar a entender o que deve ser feito para localizar padrões.
(NAVEGA, 2002)
Logicamente que estes sistemas também apresentam algumas falhas e

limitações. Mas a cada dia, estas máquinas vão acumulando conhecimentos e assim
se tornando mais inteligentes. Mesmo assim, vale salientar que o trabalho humano
ainda é algo de extrema importância para a análise, manutenção e consolidação
desses processos.
É importante ressaltar também que o Data Mining não é o final da atividade de

descoberta de conhecimentos, mas é tão somente o início. É imprescindível (ao
menos com a tecnologia atual) dispor de analistas capacitados que saibam
interagir com os sistemas de forma a conduzi-los para uma extração de padrões
34
úteis e relevantes. (NAVEGA, 2002)
Para o jornalismo, o uso desses processos e técnicas pode representar um

novo patamar de atuação. Aliando a criação de sistemas inteligentes e uso de
processos de Data mining às bases de dados jornalísticas, a indústria de produção
de conteúdo informativo poderá ampliar questões acerca de eficiência, relevância,
inovação, descobertas e, sobretudo, inteligência. Contudo, Lima Jr (2006) diz que:
No jornalismo, o Data mining poderá igualmente ser útil, mas, para isso, é preciso
que os bancos de dados sejam precisos e não históricos, e que tenham uma certa
inteligência artificial para lidar com as modificações semânticas das palavras, por
exemplo. Com o Data mining é possível extrair padrões válidos, por exemplo, para
investigar se o índice de desemprego diminui quando se aproxima uma eleição e
por que isso acontece.
O autor também reforça a ideia de que o papel do agente humano no

processo torna-se fundamental e dá diretrizes para uma nova linha de atuação
profissional dentro do jornalismo.
Entendo que essa necessidade de contar com analistas humanos seja uma
abertura para o trabalho de jornalistas especializados em mineração de dados e
padrões válidos e úteis. O profissional, para executar essa tarefa, precisa ter
“conhecimento de mundo” de que as máquinas ainda não dispõem. (LIMA JR,
2006)
Complementando esta linha de pensamento, Antônio Fidaldo(2007) diz que:
Tal como a investigação na vida real parte de fatos observados, assim também as
relações apuradas algoritmicamente servirão de ponto partida para a investigação
no âmbito do jornalismo de mineração de dados. Cabe ao jornalista dar-se conta
de num e noutro caso, nos eventos ocorridos na vida do dia a dia ou nas relações
extraídas dos dados informáticos, do que é e não é notícia. Tanto esses eventos
como essas relações são independentes do jornalista ou da sua percepção, mas a
35
percepção deles como matéria de notícia é do foro jornalístico, exige sensibilidade

jornalística e, normalmente, uma investigação posterior para a respectiva
contextualização. Ou seja, a investigação é feita a partir da observação do que
aconteceu realmente ou do que foi apurado pela mineração.
Contudo, o autor supra citado acima, utilizando-se do pensamento

desenvolvido por Pedro Almeida (2003), no artigo “Previsão de comportamento de
séries temporais financeiras com apoio de conhecimento sobre domínio”, aponta
que, quanto maior a automatização dos processos de data mining, as vantagens
para o resultado final do trabalho serão ainda melhores.
A maior automatização do Data Mining resulta em três vantagens principais. A

primeira é não exigir tanto tempo de trabalho de especialistas como o que uma
análise interativa (baseada em consultas individuais escolhidas caso a caso) de
um grande volume de dados pode implicar. A segunda é um ganho de capacidade
de extração de conhecimento, devido a ser possível testar um número muito mais
vasto de hipotéticas relações interessantes ao nível dos dados do que seria
possível se essas hipóteses tivessem de ser diretamente sugeridas ao sistema de
pesquisa (e os seus resultados tivessem de ser diretamente avaliados) por
especialistas humanos. A terceira vantagem, mais sutil, é que ao testarem
automaticamente conjuntos exaustivos de possíveis padrões, os sistemas de KDD
(Knowledge Discovery in Databeses – Descoberta de Conhecimento em Bases de
Dados) tem mais probabilidades de testar e encontrar conhecimento inesperado (e
inovador) do que se pode esperar de consultas interativas sugeridas com base no
conhecimento sobre o domínio previamente existente.
Assim sendo, percebe-se que o uso dessas técnicas só tendem a garantir

um fazer jornalístico ainda mais rico e inovador.
A questão essencial para o jornalismo é que a mineração de dados dá azo a

informações inesperadas, à descoberta de relações que deixam por vezes
literalmente uma pessoa de boca aberta, de espanto face à novidade que
apresentam. Por outro lado, tais relações são as causas ou os motivos por que se
verificam certos acontecimentos ou procedimentos que à primeira vista surgem
como fruto do acaso. (FIDALGO, 2007)
36
Para finalizar, em uma simples observação do cenário mundial e da

estrutura e cultura das empresas de sucesso dessa era informacional, como Google,
Yahoo!, The New York Times etc, vale lembrar que, atualmente, uma das maiores
riquezas de uma instituição é o tamanho e a qualidade das suas bases de dados
(volume e inteligência). Portanto, quem optar por esse caminho poderá gerar, além
de capital, um alto nível de relevância e notoriedade na sociedade.
Contudo, diante desta realidade de descobertas de padrões em bases de

dados, como o jornalismo poderá traduzir esse conhecimento ao público geral?
Quais técnicas e ferramentas poderão ser utilizadas? Como será apresentado a
seguir, observa-se a consolidação de uma promissora ferramenta para a prática do
jornalismo – a representação visual de massas de dados inteligentes. O autor
Benjamin Jotham Fry (2004), em seu trabalho de doutorado “Computational
information design”, ao MIT (Massachusetts Institute of Technology), aponta como
as técnicas de representação visual de grandes massas de dados podem ser
importantes para a compreensão humana.
A biologia rapidamente se tornou uma ciência rica em dados, onde a quantidade

de dados coletados pode ultrapassar a velocidade com que ele pode ser analisado
e, posteriormente, entendido. Projetos de seqüenciamento disponíveis têm feito
bilhões de laudos de código genético, adicionando a análise continua de camadas
de anotações que descrevem características conhecidas ou previstas ao longo da
seqüência linear. Dez anos atrás, alguns milhares de laudos, que representam
algumas centenas de genes, foram conhecidos a partir de um pequeno número de
'modelos' de organismos, onde hoje isso se tornou bilhões de laudos que
representam dezenas de milhares de genes através de um número crescente de
organismos. A grande quantidade desses dados torna extremamente difícil a
obtenção de uma "grande figura" para a compreensão do seu significado. O
problema é agravado pela constante mudança na natureza dos dados, o resultado
de novas informações que estão sendo adicionadas ou antigas informações que
estão sendo continuamente refinadas. Essa quantidade de dados requer novas
ferramentas baseadas em software e sua complexidade exige uma maior
consideração em relação a representação visual, a fim de destacar os recursos na
ordem de sua importância, revelar padrões nos dados e, simultaneamente,
mostrar características dos dados que existem em várias dimensões. Uma real
dificuldade com tais problemas é a de saber, frente a um conjunto de dados, como
37
recolher informações significativas a partir dele. Para a maioria, o processo é

totalmente opaco. Campos, como estatística, data mining, design gráfico e
visualização de informações, cada um oferece componentes de soluções, mas os
profissionais de cada um muitas vezes desconhecem ou não são qualificados em
20
métodos de campos adjacentes necessários para uma solução.
Assim, mergulhamos em mais uma das muitas possibilidades existentes

para a prática jornalística na era da web de dados inteligentes.
20 Biology has rapidly become a data-rich science, where the amount of data collected can outpace the speed
with which it can be analyzed and subsequently understood. Sequencing projects have made available
billions of letters of genetic code, as analysis continues to add layers of annotation that describe known or
predicted features along the linear sequence. Ten years ago, a few thousand letters, representing a few
hundred genes, were known from a small number of ‘model’ organisms, where today this has become
billions of letters representing tens of thousands of genes across a rapidly growing number of organisms. The
quantity of such data makes it extremely difficult to gain a “big picture” understanding of its meaning. The
problem is further compounded by the continually changing nature of the data, the result of new information
being added, or older information being continuously refined. The amount of data necessitates new software-
based tools, and its complexity requires extra consideration be taken in its visual representation in order to
highlight features in order of their importance, reveal patterns in the data, and simultaneously show features
of the data that exist across multiple dimensions. One significant difficulty with such problems is knowing,
given a set of data, how to glean meaningful information from it. To most, the process is entirely opaque.
Fields such as statistics, data mining, graphic design, and information visualization each offer components of
the solution, but practitioners of each are often unaware of, or unskilled in, the methods of the adjacent fields
required for a solution.
38
5 Jornalismo de visualização de dados e os desafios da representação visual

de grandes massas de dados
O ser humano por sua essência é um ser audiovisual. Afinal, desde que nos
conhecemos por gente, os nossos principais sensores de recepção de informação
são os nossos olhos e ouvidos. A imagem e o som sempre tiveram um caráter de
muito impacto em nossos complexos processos cognitivos. Aliás, toda a base de
comunicação humana se consolidou a partir desses pilares e, por conseqüência,
aplicamos estes mesmos conceitos em nossas tecnologias comunicacionais
(desenhos primitivos, alfabeto, impressos, rádio, TV, cinema etc). O pesquisador
Lima Jr (2010) utiliza um argumento da autora Martine Joly, do livro “Introdução à
análise da imagem” para justificar esta constatação.
No início, havia a imagem. Para onde quer que nos viremos, existe a imagem. Por
todo o lado através do mundo, o homem deixou vestígios das suas faculdades
imaginativas sob a forma de desenhos feitos na rocha e que vão desde os tempos
mais remotos do paleolítico até a época moderna. Estes desenhos destinavam-se
a comunicar mensagens e muitos deles constituíram aquilo a que chamamos “os
pré-anunciadores da escrita”, utilizando processos de descrição- representação
que apenas retinham um desenvolvimento esquemático de representações de
coisas reais. (JOLY, 1994 in: LIMA JR, 2010)
Não menos importante, mas por limitação de recursos e tecnologia, o

jornalismo impresso durante muitos anos manteve-se restrito a produção exclusiva
de conteúdo textual. Só um pouco mais tarde, com o intuito de agregar mais valor às
notícias, que aos poucos foram incorporadas ilustrações e fotografias a este tipo de
produto. O resultado? Depois dessa incorporação, foi praticamente impossível
imaginar a criação de qualquer publicação jornalística impressa sem o uso desses
recursos. Afinal, além de ajudar a contextualizar um fato, permite ao leitor ter um
grau maior de interação cognitiva com o conteúdo. Dos jornais e revistas, passando
pelo rádio, TV e cinema, a busca por explorar os sentidos audiovisuais humanos
sempre foi uma constante, mesmo quando lidamos apenas com imagens virtuais ou
mentais.
39
Com o advento da digitalização, mergulhamos em uma era de extrema

facilidade de acesso, reprodução e distribuição de conteúdo digital. Portanto, mais
do que nunca, torna-se fundamental a necessidade de organização visual de toda
esta montanha de dados disponível no ciberespaço, com a finalidade de facilitar a
apresentação e contextualização dessas informações.
Como apontam Viégas e Wattenberg (2010): “a marca do bom jornalismo
sempre foi a capacidade de tomar uma grande quantidade de informações e
escolher apenas as peças que realmente importam”. Os autores vão além e dizem
que:
Às vezes, isso significa encontrar uma pepita preciosa, por exemplo, escolher um
único indicador que possa resumir a agonia de uma crise econômica. No entanto,
há temas tão complexos que nenhum número pode fazer justiça; temas, onde
centenas de números são necessários para dar aos leitores contexto. E é aí que
entra a visualização de dados.
Já para a pesquisadora Rodrigues (2010), “a emergência da visualização de

grande volumes de dados tornou-se uma necessidade crescente na sociedade e no
jornalismo, e com isso, uma forma de extrair e analisar a informação em
profundidade”. O pesquisador Benjamin Jotham Fry (2004) aprofunda este debate e
diz que:
A visualização de informação ganha importância pela sua capacidade de ajudar-

nos a "ver" coisas não previamente compreendidas em dados abstratos. É uma
questão de percepção, afinal o cérebro humano é tão sagaz para compreender os
estímulos visuais, mas estende-se a noção de que nossa limitada capacidade
21
mental é ajudada por métodos de cognição “externalizada”.
21 The visualization of information gains its importance for its ability to help us ‘see’ things not previously
understood in abstract data. It is both a perceptual issue, that the human brain is so wired for understanding
visual stimuli but extends to the notion that our limited mental capacity is aided by methods for
“externalizing” cognition.
40
Assim, diante deste cenário, foi natural que diversas iniciativas de

visualização de dados começassem a surgir na rede. Porém, grande parte desses
projetos não são idealizados e nem desenvolvidos por veículos e profissionais de
comunicação, mas sim por cientistas da computação, designers, engenheiros,
desenvolvedores etc. Portanto, mais uma vez o jornalismo encontra-se frente a um
dilema nesta nova economia de rede – a incansável disputa pela atenção de seus
consumidores. Para tanto, Lima Jr (2010) acredita que o jornalismo atual “deva
tentar encontrar novos formatos e possibilidades de transmitir informações de
relevância social em sintonia com a demanda da sociedade contemporânea”. Ainda
segundo o autor:
Para que o Jornalismo continue a prestar relevantes serviços à sociedade

moderna será necessário uma evolução nos seus processos de produção e
distribuição de informações. Para isso, necessita incorporar tecnologias que
proporcionem novas experiências sensoriais nos usuários/consumidores de
conteúdos informativos de relevância social. Essa condição se faz necessária
devido à expansão vertiginosa das tecnologias digitais que proporcionam
experiências mais ricas sensorialmente. (LIMA JR, 2010)
Traçando uma linha de evolução, para Rodrigues (2010), a infografia digital,

ou melhor a visualização de dados a partir de bases de dados, encontra-se
atualmente “na transição entre a terceira e a quarta fase do jornalismo digital”. A
autora divide o processo evolutivo das infografias digitais em três fases. Sendo a
primeira marcada pelos infográficos lineares, os quais apresentavam-se de maneira
estática seqüencial na web, seguindo a mesma lógica dos veículos impressos. Já a
segunda fase é marcada pela introdução de elementos multimídias (imagens em
movimento, audio, animações, vídeos e outros recursos interativos) e é conhecida
como infografia multimídia. Nesta fase, segundo Rodrigues (2010), “a leitura passa
de linear para multilinear ou não linear em que a interatividade, ou seja, a
possibilidade de guiar a leitura e interagir com o infográfico, é mais potencializada”.
A terceira geração é a da infografia em base de dados, que se caracteriza pelo uso
de bases de dados na suas produções. Para a autora:
Este tipo de gráfico tem um maior grau de interatividade e também vem

41
explorando aplicativos da Web 2.0 disponíveis como o Google Maps, Mashups,

Flickr, GoogleEarth , oferecendo um maior dinamismo quanto à visualização da
informação ou dos dados; São infográficos que estão num estágio mais avançado
do que os demais por recuperar base de dados internas ou do ciberespaço para
construção dos gráficos e representam uma tendência ao uso mais sistemático na
fase atual da infografia interativa. (RODRIGUES, 2010)
Contudo, para a pesquisadora, mesmo havendo três fases distintas, as

mesmas “não são necessariamente excludentes do ponto de superação de uma em
relação a anterior porque há uma atualização de uma fase para outra e uma
convivência de modalidades. A terceira fase, por exemplo, atualizou as
características da segunda em termos de usos de recursos multimidiáticos. Mesmo
assim ela se distingue pela visibilidade das bases de dados como estruturação
primordial de seu funcionamento”. A transição completa da terceira para a quarta
geração de infografias digitais poderá se dar a partir do momento em que processos
inteligentes, como os discutidos nos capítulos anteriores, se desenvolverem e
consolidarem no meio jornalístico. É tudo uma questão de tempo e trabalho árduo.
Indo um pouco além na discussão, o autor Benjamin Jotham Fry (2004), diz que o
processo de compreensão de dados deve começar com um conjunto de passos e
questionamentos objetivos sobre os mesmos. Para ele cada fase deste processo se
classifica da seguinte maneira:
1. adquisição - a questão da obtenção dos dados, quer a partir de um arquivo em

um disco ou de uma fonte em uma rede. 2. analise - fornecendo uma estrutura em
torno do que os dados significam, ordenando-os em categorias. 3. filtragem – a
remoção de tudo, sobretudo, os dados de interesse. 4. mineração - a aplicação de
métodos de estatística ou data mining como uma maneira de discernir padrões ou
colocar os dados no contexto matemáticos. 5. representação - a determinação de
uma representação simples com os dados de uma ou várias formas, tais como um
gráfico de barras, lista ou árvore. 6. refinamento - a melhoria da representação
básica para torná-la mais clara e visualmente cativante. 7. interação - a adição de
métodos para manipular os dados ou para o controle de quais características
22
serão visíveis.
22 1. acquire – the matter of obtaining the data, whether from a file on a disk or from a source over a network. 2.
parse – providing some structure around what the data means, ordering it into categories. 3. filter – removing
all but the data of interest. 4. mine – the application of methods from statistics or data mining, as a way to
42
Vale lembrar, como aponta Rodrigues (2008), que “um aspecto a considerar
é que esse movimento ocorre no ambiente do ciberespaço, que apresenta
características ideais para o seu desenvolvimento em função da possibilidade de se
dispor de um lugar ilimitado, e ao mesmo tempo multimidiático, onde produtos
distintos podem ser construídos na web se alimentando da recuperação de
informações, armazenamento e indexação”. Portanto, o meio impulsiona esta
evolução.
Outro aspecto determinante para o desenvolvimento das infografias digitais

é o nível de envolvimento e exigência dos atuais interagentes da rede. Com a
constante expansão e evolução dos processadores e o aumento da banda de
conexão, estes interagentes estão cada vez mais exigentes e acostumados com
novidades dinâmicas e interativas.
Um dos principais aspectos a colaborar para o estabelecimento da aqui

denominada metáfora da estética base de dados é, principalmente, o nível de
exigência dos usuários, que sempre esperaram encontrar originalidade nos sites –
seja nos conteúdos, seja nas opções de visualização para os mesmos ou nas
opções de interação e, assim, realizarem uma experiência de navegação mais
envolventes em sites jornalísticos. (BARBOSA e FARBIAZ, 2009)
Percebe-se que a infografia em base de dados é um tanto quanto mais

complexa, interativa e dinâmica do que a da fase multimídia, pois além de agregar
todos os elementos multimidiáticos, ainda possibilita uma reconfiguração pelo
cruzamento dos dados disponível dentro de amplas bases. A possibilidade de
trabalhar com um número extremamente grande de dados sobre diferentes
plataformas de visualização, como o Google Maps, garante novas configurações ao
jornalismo de visualização de dados. Este tipo de aplicação é também conhecida
como “Mashup”, que segundo Jerry Brito (2008):
discern patterns or place the data in math- ematical context. 5. represent – determination of a simple
representation, whether the data takes one of many shapes such as a bar graph, list, or tree. 6. refine –
improvements to the basic representation to make it clearer and more visually engaging. 7. interact – the
addition of methods for manipulating the data or controlling what features are visible.
43
Este termo “Mashup” teve sua origem no campo da música. O advento das
tecnologias de edição digital tornou relativamente simples para Djs e amadores
pegarem duas ou mais diferentes músicas e as misturarem afim de criar novas
composições. [...] Agora, o termo “Mashup” se aplica também para aplicações que
misturam diferentes bases de dados para criar uma nova e exclusiva informação.
23
(Tradução-livre)
Para a pesquisadora brasileira Rodrigues (2008), “define-se como uma

técnica da web que se utiliza de outros aplicativos (no sentido de fusão de
aplicações) para gerar um novo serviço completo”. Rodrigues (2008), completa
dizendo que:
A utilização de base de dados no jornalismo digital pode ser pensada numa nova
forma cultural e digital para os produtos jornalísticos, com funções de indexar
objetos multimídia (sons, imagens, gráficos) armazenar material produzido e de
arquivo (memória), agilizar produções, compor conteúdos para a web, recuperar,
informações e, principalmente, cruzar dados que gerem uma nova informação
visual e dinâmica [...] Em relação à infografia se verifica a presença do Mashups
na composição de base de dados de diversas fontes com a possibilidade do uso
de fotos do Flickr e vídeos do Youtube a partir do uso de uma plataforma do
Google Maps para representar, por exemplo, um mapa geográfico da
criminalidade em uma cidade.
Quanto as configurações das infografias em bases de dados, Rodrigues

(2010) descreveu algumas das suas particularidades: “Cruzamento de dados:
Possibilidade de haver intercâmbio de dados das informações apresentadas
graficamente”; “Atualização contínua: atualização do conteúdo na medida em que
os fatos vão acontecendo”; “Participação e customização do conteúdo: condição
para que o usuário possa adaptar a informação gráfica atendendo às suas
preferências e objetivos, como calcular o preço de um imóvel em meio à crise
23 The term “mashup” has its origins in music. The advent of digital editing technologies made it relatively
simple for DJs and amateurs to take two or more different songs and mash them together to create novel
creations. […] The term mashup now extends to applications that mix together disparate sets of data to create
new and unique information.
44
financeira ou manusear os elementos interativos para gerar uma nova apresentação

gráfica, etc”; “Novos formatos de apresentação do conteúdo: Através das bases
de dados, a visualização permite que a diversidade da apresentação das
informações jornalísticas seja estruturada e ofertada, como por exemplo, uso de
bolhas, mapas, timeline, tabelas, dinâmicas independentes de elementos multimídia
como vídeo, áudios, imagens, etc”; “Apresenta diferentes graus de interatividade:
Utilizamos a classificação proposta por Cairo (2008), a saber: instrução (nível
básico), manipulação (onde o usuário pode manipular os elementos gráficos no
infográfico) e exploração (tipo uma imersão na infografia)”.
Um exemplo bem interessante de representação visual com amplas bases

de dados é o criado pelo jornal The New York Times, com os dados recém
publicados do censo demográfico norte americano. <http://projects.nytimes.com/
census/2010/explorer>. O uso inteligente dos dados estruturados, disponibilizados

pelo orgão “American Community Survey”, permitiu que a complexa malha de
informações escondida em uma montanha de números se transformasse em uma
representação visual direta e interativa, que facilita a compreensão do leitor e
possibilita um perfil do país, nunca antes apresentado. Por meio da aplicação, figura
1 e figura 2, é possível ver a distribuição étnica do país em níveis extremamente
detalhados, como ruas, quarteirões, bairros, cidade, e país.
45
Figura 1 – visualização dos dados do censo demográfico norte-americano
Figura 2 - visualização dos dados do censo demográfico norte-americano (região da cidade de

Nova Iorque)
46
A partir dessas constatações é possível dizer que o uso de bases de dados,

em ambientes dinâmicos e inteligentes, pode garantir originalidade e muita inovação
ao jornalismo do futuro. Portanto, neste cenário abre-se um novo caminho para a
produção de visualizações de dados digitais, ou melhor, para a representação visual
de grandes massas de dados inteligentes.
É neste contexto -- do poder dos sistemas inteligentes aliados às diversas

possibilidades ainda não desbravadas no campo dos agentes computacionais
voltados à web semântica, mas com foco na comunicação jornalística -- que a atual
pesquisa se propõe a refletir sobre o papel do profissional de comunicação dentro
deste novo ambiente comunicacional digital conectado inteligente. Você está pronto?
47
6 O pensamento computacional e o novo perfil do profissional de comunicação
Como em todos os outros campos de atividade profissional humana, a

comunicação social também encontra-se em um momento de transição, ou melhor,
em um momento de necessidade de adaptação à nova realidade exposta. Como já
foi discutido anteriormente, o advento da comunicação em rede digitais conectadas,
sobretudo, da Web e dos softwares nela inseridos, modificaram a maneira como
passamos a interagir e a nos comunicar com as pessoas, com as máquinas e com
mundo. Porém, no jornalismo ainda existe uma grande resistência a estas
mudanças. Para o pesquisador Walter Lima Jr:
Nas empresas de mídia e com os jornalistas, essa tendência não é diferente.

Muitas organizações jornalísticas, por questões de mercado (e no Brasil também,
por fatores financeiros), resistem em investir nos processos e produtos inovadores.
Já a resistência de muitos profissionais de jornalismo está calcada na prática, há
décadas, na realização dos mesmos procedimentos, que se transformaram em
conceitos contidos em livros, papers acadêmicos, apostilas, e são repassados, por
meio de cursos, aos iniciantes. Esse arcabouço conceitual e prático, por um lado,
é o que sustenta o jornalismo como produto social. Entretanto, a falta de
adaptação dos conceitos jornalísticos ao novo ambiente comunicacional
proporcionado pelas redes digitais conectadas também impede que muitas
inovações sejam introduzidas. [!] Entretanto, apesar da defasagem no
entendimento sobre a importância dessas tecnologias para o seu ofício, os
profissionais de jornalismo precisam realizar forte e rápida adaptação ao novo
ambiente comunicacional digital conectado. (LIMA JR, 2009)
Como reforço a este argumento, um artigo do site do Instituto Poynter “How

Computational Thinking is Changing Journalism & What's Next”, escrito por Kim
Pearson, cita a conceitualização de Pensamento Computacional, elaborado pelo site
da Carnegie Mellon University Center, em que Pensamento computacional significa
criar e fazer uso de diferentes níveis de abstração, para entender e resolver
problemas com mais eficiência. Significa pensar algoritmicamente e com habilidade
para aplicar conceitos matemáticos como indução para desenvolver soluções com
mais eficiência, justiça e segurança. Significa ainda entender as escalas de
48
conseqüência, não apenas as razões de eficiência, mas também as razões

econômicas e sociais envolvidas.
Traçando um paralelo com o jornalismo, para Kim Pearson significa que

estes profissionais da comunicação, como hoje já executam, necessitam
desenvolver ainda mais a habilidade de pensar computacionalmente e, assim,
desenvolverem novas soluções ao ofício.
Não existe mais uma discussão sobre se os jornalistas precisam ser alfabetizados
digitalmente. Hoje, a habilidade de produzir notícias requer a capacidade de
desenvolver programas capazes de fazerem raspagem de dados nas bases de
dados dos registros públicos e criar interfaces de design que façam as
informações contidas nesses bancos de dados interessantes, relevantes e
acessíveis. São obrigatórias a programação e as habilidades de design para
criação de apresentações interativas que representem os modelos das complexas
questões de ordem pública ou para explicar os processos sociais. Isso também
requer o domínio das tecnologias de mídias sociais utilizadas para organizar as
comunidades em torno de interesses, questões e preocupações. Exige ainda
questões éticas necessárias para garantir que o conteúdo gerado para essas
avançadas ferramentas são exatos, justos, globais e proporcionais. No entanto, a
transformação digital de produção e entrega notícias, exige que os jornalistas se
tornem criadores e não apenas consumidores de tecnologias de computação. Eu
não estou dizendo que os jornalistas precisam se tornar programadores. Eu estou
dizendo que precisamos ser capazes de raciocinar abstratamente sobre o que
fazemos, compreender todas as possibilidades das ferramentas computacionais à
nossa disposição e colaborar para implantar essas ferramentas com a máxima
eficiência e eficácia. Isso significa poder compreender as novas estruturas e
24
processos subjacentes de criação de mídia. (PEARSON, 2009 – tradução nossa)
24 There's no longer an argument about whether journalists need to be digitally literate. Today, newsgathering
requires the ability to write programs that scrape public records databases and design interfaces that make the
information in those databases interesting, relevant and accessible. It requires the programming and design
skills to create interactive presentations that model complex public policy issues or explain social processes.
It requires the mastery of social media technologies used to organize online communities around shared
interests, issues and concerns. It requires the ethical grounding needed to ensure that the content generated by
these advanced tools is accurate, fair, comprehensive and proportional. However, the digital transformation
of newsgathering and delivery requires that journalists become creators, not just consumers of computing
technologies. I'm not saying that journalists need to become programmers. I'm saying that we need to be able
to reason abstractly about what we do, understand the full palette of computational tools at our disposal, and
collaborate to deploy those tools with maximum efficiency and effectiveness. That means understanding the
underlying structures and processes of media creation. (PEARSON, 2009:on-line)
49
Nos Estados Unidos, este pensamento computacional dentro do jornalismo

já é temática de estudo em algumas universidades, como a Duke University. No
artigo “Buying Into Computational Journalism”, publicado por estudantes da
instituição, o termo Jornalismo Computacional já é proposto “como a combinação
entre algoritmos, dados e conhecimentos acumulados a partir das ciências sociais
que complementam a função de responsabilidade do jornalismo”25.
É com base neste pensamento de Jornalismo Computacional que este

trabalho vem propor desafios aos profissionais da comunicação para o mergulho nas
infinitas possibilidades da web semântica. Porém, antes desse mergulho, torna-se
necessária uma compreensão sobre o papel do jornalista na consolidação dessa
nova etapa da Web, como a sua participação na definição dos padrões, das
ontologias, na estruturação correta do conteúdo semântico e, sobretudo, na iniciativa
de criar ou propor agentes computacionais capazes de agregarem valor à
recuperação e ao uso dos dados em prol de um jornalismo mais inteligente.
Como vimos nos capítulos anteriores, a Web Semântica se propõe também

em possibilitar a interação de bancos de dados (estruturados) com softwares
refinados, que possam criar produtos midiáticos mais elaborados, como as já
existentes Api's (Application Programming Interface – Interface de Programação de
Aplicativos), os mecanismos de buscas internos e externos, os infográficos
multimídia a partir de dados estruturados e tantos outros que ainda estão por surgir.
O futuro das organizações jornalísticas sobre as redes permanece condicionado a

capacidade de traduzir os recursos possibilitados pelas bases de dados para a
automatização do armazenamento, classificação, indexação, conexão, pesquisa e
recuperação de grandes quantidades de dados em tipos criativos para a narração.
26
(MACHADO, 2004b in: BARBOSA, RIBAS)
Portanto, são diversas as novas funções e habilidades dentro do campo

jornalístico. E hoje, mesmo sem a total consolidação da Web Semântica, já
25 Computational Journalism is defined as the combination of algorithms, data, and knowledge from the social
sciences to supplement the accountability function of journalism
26 The future of journalistic organizations on the networks remains conditioned on their ability in translating the
capabilities made possible by databases for automatically storing, classifying, indexing, connecting,
searching and retrieving vast quantities of data in creative types for narration. (MACHADO, 2004b in:
BARBOSA, RIBAS)
50
começam a alterar a rotina de poucas redações jornalísticas pelo mundo, como a do

The New York Times, do The Guardian, El Pais, Clarin etc.
Assim, algumas organizações estão criando funções para um profissional

enredado – como editor de comunidades, conector de banco de dados (Mashups),
editor de distribuição de dados (data delivery editor) – e associando habilidades,
como disparo de alertas ou envio de links para agregadores de conteúdo (ex:
Digg!). Portanto, esse profissional de jornalismo não somente conhece a sua área
de atuação editorial, mas “também é visível no ambiente de rede, blogando,
subindo vídeos, compartilhando bookmark e comentando, por meio dos seus
especialistas, partes da blogosfera” (Bradshaw, 2008). Mas essas posições ainda
são raras e as habilidades para essas funções também são raras em jornalistas.
(LIMA JR, 2009)
Em um futuro próximo, a possível semantização da Web, aliada a todos os

processos de tratamento inteligente de dados, poderá abrir caminho a uma nova
fase na comunicação social. Para reforçar esta ideia, no texto de Lima Jr (2009), o
autor cita uma argumentação de Richard MacManus, em que:
! se a web é estruturada para receber o conteúdo gerado pelo usuários e de

acesso amigável a aplicações sociais e de compartilhamento, como YouTube e
Wikipédia, então, a inovação é a fase de dados mais abertos e estruturados, que
fazem a web mais “inteligente”. Quando os dados forem mais “inteligentes”, mais
formatos podem surgir a partir deles, como gráficos que revelam e interligam
contextos complexos. A atual tendência, filtragem de conteúdo, dados em tempo
real e personalização evidenciam que a web 3.0 está surgindo, apesar de não
estar bem definida. (MACMANUS, 2009)
Assim, norteados pelo pensamento do autor de que o estopim da inovação

encontra-se neste novo contexto de dados cada vez mais abertos, estruturados,
distribuídos e inteligentes, partimos em direção a uma nova e desafiante fase da
comunicação jornalística, a fim de desvendar alguns dos muitos desafios e
possibilidades que nos aguardam em um futuro nem tão distante.
Contudo, para que este anseio por inovações se torne uma realidade, Tim
51
Brown (2010), CEO da Ideo, uma das maiores e mais respeitadas consultorias de
design e inovação do mundo, expõe que os profissionais dessa era precisam
desenvolver uma nova e complementar habilidade, por ele classificada como: design
thinking.
Precisamos de uma abordagem à inovação que seja poderosa, eficaz e

amplamente acessível, que possa ser integrada a todos os aspectos dos negócios
e da sociedade e que indivíduos e equipes possam utilizar para gerar ideias
inovadoras que sejam realmente implementadas e que, portanto, façam a
diferença. O design thinking oferece uma abordagem desse tipo. [...] O design
thinking começa com habilidades que os designers têm aprendido ao longo de
várias décadas na busca por estabelecer a correspondência entre as
necessidades humanas e os recursos técnicos disponíveis considerando as
restrições práticas dos negócios. Ao integrar o desejável do ponto de vista humano
ao tecnológico e economicamente viável, os designers têm conseguido criar
produtos que usufruímos hoje. O design thinking representa o próximo passo, que
é colocar essas ferramentas nas mãos de pessoas que talvez nunca tenham
pensado em si mesmas como designers e aplicá-las a uma variedade muito mais
ampla de problemas. O design thinking se beneficia da capacidade que todos nós
temos, mas que são negligenciadas por práticas mais convencionais de resolução
de problemas. Não se trata de uma proposta apenas centrada no ser humano; ela
é profundamente humana pela própria natureza. O design thinking se baseia em
nossa capacidade de ser intuitivos, reconhecer padrões, desenvolver ideias que
tenham um significado emocional além do funcional, nos expressar em mídias
além das palavras ou símbolos. Ninguém quer gerir uma empresa com base
apenas em sentimento, intuição e inspiração, mas fundamentar-se demais no
racional e no analítico também pode ser perigoso. A abordagem integrada que
reside no centro do processo de design sugere um terceiro caminho.
Quando propomos traçar um paralelo entre a nossa realidade atual e a

ampliação do leque de necessidades para o desenvolvimento de um profissional
direcionado ao futuro, o pensamento do autor, sobre a importância de se “pensar
design” frente a todos os desafios encontrados em nossa sociedade, vem de
encontro a nossos anseios.
As causas subjacentes ao crescente interesse no design são claras. À medida que

52
o centro da atividade econômica no mundo em desenvolvimento foi passando

inexoravelmente da produção industrial à criação de conhecimento e prestação de
serviços, a inovação se tornou nada menos do que uma estratégia de
sobrevivência. Além disso, ela não se limita mais ao lançamento de novos
produtos físicos, mas inclui novos tipos de processos, serviços, interações, formas
de entretenimento e meios de comunicação e colaboração. Esses são exatamente
os tipos de tarefas centradas no ser humano nas quais os designers trabalham
todos os dias. A evolução natural de fazer design a pensar design reflete o
crescente reconhecimento por parte dos líderes de negócios de que o design se
tornou importante demais para ser deixado exclusivamente aos designers.
Assim, a partir do próprio papel inovador da Internet e, dos serviços

provenientes dela e de diversas outras inovações – como a energia elétrica, a
prensa, a televisão, os carros, aviões etc -- , frente a nossa sociedade, é possível
dizer que quando um produto ou serviço tem caráter de inovação ele gera um
impacto que pode transformar para sempre a vida das pessoas e a interação delas
com o mundo. Portanto, para qualquer setor social e profissional, a necessidade de
se aliar o pensamento computacional ao pensamento design torna-se evidente
quando desejamos promover soluções criativas e inovadoras ou, por extensão,
transformadoras.
53
7 Os hackers jornalistas serão a salvação do jornalismo?
Antes de entrarmos na discussão sobre um dos futuros possíveis à função

de um jornalista, devemos conceituar o termo “hacker”, que para muitas pessoas
ainda transmite um significado pejorativo. A expressão hacker advém do verbo hack,
que em inglês quer dizer: cortar, tossir, entalhar, golpear. Porém como substantivo, o
termo passa a ter o significado de alguém que entalha bem madeira. A transposição
para o cenário tecnológico deu-se apenas no final da década de 50, nos EUA. Como
mostra Medeiros (2002), “estudantes e professores do Instituto de Tecnologia de
Massachusetts (MIT) começam a usar o termo para definir alguém com grande
habilidade técnica na área da informática (hardware e software)”. Porém, como o
próprio Medeiros expõe, a definição designa-se a todo especialista que venha
executar suas tarefas com criatividade e paixão, portanto estende-se a qualquer
profissão.
Alguém que conhece muito bem sua área de trabalho e as ferramentas nela
utilizadas, tornando-se capaz de criar coisas incríveis e de resolver todo tipo de
problemas a partir desse conhecimento. [...] Um administrador de redes com
conhecimentos profundos sobre vários tipos de protocolos de comunicação,
hardware e sistemas de segurança é tão hacker quanto um encanador calejado
por anos de profissão e capaz de consertar qualquer tipo de encanamento, por
mais furado que esteja. (CARMONA, 2005)
Em nosso caso, o foco principal, porém, são os especialistas em micro-

informática e, especialmente, aqueles que habitam o ciberespaço. Como vê-se, a
cultura do hacking nasceu no final dos anos 1950, nos EUA, mas “se transformou
num dos principais expoentes da luta pela democratização da informação"
(MEDEIROS, 2002).
Hackers resolvem problemas e constroem coisas, e acreditam na liberdade e na

ajuda mútua voluntária. Para ser aceito como um hacker, você tem que se
comportar de acordo com essa atitude. E, para se comportar de acordo com essa
54
atitude, você tem que realmente acreditar nessa atitude. (RAYMOND, s/d)
Em um processo histórico, pode-se dividir os hackers em quatro gerações. A

primeira foi representada, antes mesmo da existência das redes de comunicação,
por jovens e professores do MIT e teve como marca o aprimoramento operacional
dos programas de computadores. Trabalhavam de forma compartilhada e lutavam
pelo desenvolvimento do conhecimento coletivo, por meio dos softwares com
código-fonte aberto. Foi esta geração também que fez nascer a famosa ética hacker,
baseada em seis princípios:
1 – O acesso a computadores – ou a qualquer coisa que possa lhe ensinar algo

sobre o funcionamento do mundo – deve ser ilimitado e total. 2 – Toda informação
deve ser livre. 3 – Desconfie de toda autoridade. Promova a descentralização. 4 –
Hackers devem ser julgados pela qualidade de suas realizações, e não por
critérios falsos como escolaridade, idade, raça ou posição social. 5 – É possível
criar arte e beleza em um computador. 6 – Computadores podem mudar a sua
vida para melhor. (LEVY apud MEDEIROS, 2002)
A segunda geração surge na década de 1970 e briga “pela democratização

da informática e critica o monopólio da empresa IBM. A luta desses guerreiros era
pelo acesso massificado à informática” (MEDEIROS, 2002). Segundo o autor, é
desse movimento que nasce o Homebrew Computer Club, ou melhor, o Clube do
Computador Feito em Casa, corrente que impulsiona o surgimento dos micro-
computadores pessoais.
Os hackers formam a elite da informática. Num primeiro momento, eles pretendem

liberar as informações e os computadores do poder militar, industrial e universitário
e vão ser os verdadeiros responsáveis pelo nascimento da micro-informática, nos
anos 70, na Califórnia. A micro-informática foi, por si só, uma espécie de rebelião
contra o peso da primeira informática (grandes computadores ligados a balística
militar). (LEMOS, 1996)
55
A corrente seguinte aparece na década de 80 e é representada pelos

programadores dos jogos de computador com suas interfaces arrojadas e
estratégias de inteligência. Como Medeiros (2002) expõe, esses hackers utilizaram-
se de uma nova forma de comunicação, o BBS (Bulletin Board System), para
propagar suas invenções pelo mundo. Porém, junto a esse novo método de
interação e comunicação entre hackers, alguns malfeitores começam a ganhar
espaço na rede.
Isso contribuiu para o desenvolvimento da quarta geração dos hackers, conhecida

como a geração criminosa, apesar deste termo ser contestado por muitos. [...]
Essa geração se caracteriza pela explosão das redes telemáticas de forma
massiva e comercial, cujo exemplo maior é a internet no seu ambiente web.
(MEDEIROS, 2002)
É então a partir da década de 1990, que adolescentes com “um pouco de

conhecimento de programação e, às vezes, nem isso, usam este 'conhecimento'
para fazer um tipo de ataque muito conhecido hoje como defacement” (MEDEIROS,
2002). Esse tipo de ação significa retirar uma home-page do lugar e colocar uma
outra com mensagens de protesto ou, apenas, a satisfação pelo simples prazer de
ver um site fora do ar. Mas, a ainda existente geração hacker, que se mantém
adepta aos princípios das primeiras gerações, passou a caracterizar esses rebeldes,
como script kiddies, crackers etc.
Definidas as quatro fases, vale fazer uma análise atualizada desses
períodos. Como André Lemos mostra, "os primeiros hackers visavam demonstrar a
falibilidade das redes, daí vem a invasão a sistemas de computadores. Por isso os
hackers tornaram-se conhecidos como os ‘Robin Wood’ da cibercultura” (LEMOS,
1996). Esses personagens, do então vunerável ciberespaço, ainda hoje “por meio da
tecnologia, denunciam a própria racionalidade tecnológica e o poder constituído por
grandes empresas e instituições governamentais" (LEMOS, 1996). Representando,
portanto, um papel social de extrema importância para a manutenção e evolução
das tecnologias da comunicação em rede.
56
Ainda hoje, é possível verificar que toda a evolução da micro-informática e

da comunicação em redes conectadas se deve em grande parte ao incansável
trabalho desses pioneiros. Suas lutas, ações e ideologias sobreviveram ao tempo e
as diversas manifestações preconceituosas disseminadas contra eles.
Não há dúvidas de que as principais tecnologias que contribuíram para o

desenvolvimento do computador pessoal e dos programas usados nessas
máquinas foram criadas pelas mentes dos hackers. Nesta época (década de 60 e
70), não havia ainda uma relação entre o termo hacker e os crimes cibernéticos.
(MEDEIROS, 2002)
Porém, como o autor menciona, o termo hacker na atualidade passa a

transmitir um significado errôneo. Um dos principais motivos para essa realidade é o
fato dos veículos de comunicação insistirem em rotular todos os autores de crimes
virtuais, praticados via internet, telefonia móvel etc, como hackers. Medeiros (2002)
conclui dizendo que “com o uso exagerado (deturpado) do termo hacker, a mídia
passou a cita-lo de forma indevida para designar os chamados criminosos virtuais”.
Portanto, desde então, vale salientar, que o termo “hacker”, quando utilizado
nesta pesquisa, visa expor o seu significado de essência, que descreve uma pessoa
com habilidades, engenhosidade etc.
Mas afinal, por que atrelar a palavra jornalista ao termo hacker? Como
apresentado nos capítulos anteriores, o jornalista do futuro, além de ser um contador
de histórias e um produtor de conteúdo multimídia, deverá aliar à sua prática diária
essa tal essência “hacker” e, com o auxílio do seu pensamento computacional,
começar a utilizar de forma mais inteligente o infinito oceano informacional
disponível na rede. Afinal, se o jornalismo busca ser relevante e despertar a atenção
do seu público, será obrigado a se reinventar e readaptar-se ao seu novo ambiente
de prática. Como aponta Antônio Fidalgo (2007), “a tarefa que fica em aberto é a
experimentação e a investigação das novas formas de informação jornalística que os
novos meios e as novas tecnologias vêm tornar possível”.
Em um primeiro momento, antes de desenvolver habilidades específicas em
softwares e linguagens de programação, o profissional de comunicação deve
57
entender as características peculiares da comunicação em rede e todas as suas

potencialidades. Já em uma segunda fase, não muito distante, novas habilidades
deverão ser incorporadas ao repertório profissional jornalístico, estreitando cada vez
mais o laço entre as ciências da comunicação social e da computação. A
multidisciplinaridade poderá ser uma necessidade vital para a sobrevivência do
jornalismo.
O jornalismo de investigação no futuro não contará apenas com os jornalistas que,

na tradição romântica, vão para a rua, arriscam a vida em situações de perigo,
mas também com os jornalistas que, prosaicamente sentados frente a um
computador, detectam e investigam novos fatos fornecidos pela análise de dados.
Para a nova área de investigação serão necessárias as mesmas qualidades que
para as áreas tradicionais, nomeadamente formação, treino, perseverança,
agudeza de raciocínio e, além dessas, as qualidades de um bom informático,
lógica apurada e procedimentos sistemáticos. Tendo em conta que a vida
contemporânea se organiza cada vez mais mediante a recolha e tratamento de
informação, é de admitir que o jornalismo de investigação do futuro incida também
sobre a nova realidade da informação recolhida e organizada em bases de dados.
(FIDALGO, 2007)
Porém, estes tais “Hackers Jornalistas”, também conhecidos como

“Jornalistas Desenvolvedores” ou “Jornalistas Programadores”, poderão possibilitar
novos horizontes à comunicação jornalístca? No artigo, “Can Computer Nerds save
Journalism?”, publicado no site da revista Time, o autor, Matt Villano, promove uma
discussão bastante interessante sobre esta realidade e aponta alguns dos possíveis
caminhos, principalmente quanto as novas diretrizes necessárias à formação desses
futuros profissionais.
Um palavra para aqueles que pensam que a Internet significa o fim da mídia
impressa tradicional: "Os hackers jornalistas" chegaram para salvar o dia. Um
grupo de crianças recém-cunhadas de gênios da mídia, que resolveram misturar
alta tecnologia com pesadas técnicas de jornalismo, está tendo um olhar mais
atento com relação aos caminhos que a crise dos códigos computacionais do
século 21 e o jornalismo tradicional podem ter, onde ambos têm espaço não só
para coexistir, mas também para prosperar. E o primeiro lote deles já saiu da
58
Medill Northwestern University School of Journalism. Eles acabaram de completar

um novo programa de mestrado em Medill - com bolsas de estudo John S. e
James L. Knight Foundation - dirigido a programadores com formação básica em
jornalismo para que eles possam melhor entender como a tecnologia está
impactando a indústria e, assim, tentar projetar uma mudança de direcionamento.
Medill não é a única instituição de ensino superior que mistura programação de
computadores e jornalismo; em outras escolas, como o Instituto de Tecnologia da
Geórgia e a Universidade da Califórnia, Berkeley, programas tradicionais de
jornalismo estão incorporando doses de tecnologia. Estimulados pelo sucesso de
sites de conteúdo dirigido, como o Digg, que cria uma página de notícias com base
no que os leitores considerarem mais popular a cada dia, os cérebros por trás
desses novos programas estão tentando capitalizar sobre os caminhos de como a
programação sofisticada poderá fazer para que a distribuição (propagação) das
27
notícias seja mais acessível. (VILLANO, online – tradução nossa)
E completa, mostrando que o inverso também vem ocorrendo:
No Instituto de Tecnologia da Georgia, em Atlanta, um programa de três anos em

"jornalismo computacional" auxilio cientistas da computação no estudo de como
realizar os processos jornalísticos de apurar, organizar e utilizar informações e,
em seguida, tomar esses fluxos de trabalho e ver como a tecnologia pode tornar o
processo mais fácil. O professor Irfan Essa diz: "Nós estamos tentando fazer as
pessoas conscientes do que cálculos e programas de software podem fazer por
seu trabalho no dia-a-dia. Esse tipo de pensamento permite que a tecnologia
possa agilizar os fluxos de trabalho de dezenas de outras indústrias. Não há razão
também dele não funcionar no jornalismo". Enquanto isso, a escola de jornalismo
da Universidade de Missouri começou a introduzir os estudantes da graduação de
jornalismo ao universo da programação, através dos processos da reportagem
assistida por computador e das noções básicas de gerenciamento de banco de
27 Word to those who think the Internet spells the end of traditional print media: "hacker journalists" have
arrived to save the day. A cadre of newly minted media whiz kids, who mix high-tech savvy with hard-nosed
reporting skills, are taking a closer look at ways in which 21st century code-crunching and old-fashioned
reporting can not only coexist but also thrive. And the first batch of them has just emerged from
Northwestern University's Medill School of Journalism. They've just completed a new master's program at
Medill — with scholarships from the John S. and James L. Knight Foundation — aimed at training
programmers in basic journalism so they can better understand how technology is impacting the industry and
trying to engineer change down the road. Medill isn't the only higher-education institution blending computer
programming and journalism; at other schools such as the Georgia Institute of Technology and the University
of California, Berkeley, traditional J-school programs are incorporating a dose of tech-thumping. Spurred by
the success of content-driven websites such as Digg, which creates a front page of news stories based on
what readers deem most popular each day, the brains behind these new programs are trying to capitalize on
ways in which sophisticated programming can make the delivery of news more accessible.
59
dados. Da mesma forma, a Universidade da Califórnia, Berkeley, exige que os

alunos em sua escola de graduação de jornalismo tenham um curso de seis
semanas, estilo a um Boot Camp, em que durante o qual são ensinados
conhecimentos sobre desenvolvimento web, noções básicas de XML, HTML e
outras linguagens de codificação comumente usadas na criação de sites na
28
atualidade. (VILLANO, online, tradução nossa)
Atualmente, como estamos inseridos em um mundo de constante evolução e

adaptação tecnológica, o jornalismo necessita mais do que nunca de inovação,
experimentação e desafios. Prova disso, são as recentes propostas encabeçadas
por tradicionais empresas de comunicação, como o britânico The Guardian e o
americano The New York Times. Estas corporações, ao abrirem suas Api's
(Application Programming Interface - Interface de Programação de Aplicativos)
à comunidade de desenvolvedores e também ao realizarem eventos de hackemento
(os famosos hack days) dentro das suas estruturas operacionais, apostam na
possibilidade de transformação e de readaptação do jornalismo dentro da cultura
das redes interconectadas.
"As maneiras de se fazer jornalismo podem estar mudando, mas o papel dos
meios de comunicação de informar o público e responsabilizar o governo continua
o mesmo", diz Brian Boyer, que cunhou o termo "jornalista hacker" para descrever
este novo tipo de jornalista. [!] "Embora as competências básicas do jornalismo
sejam sempre a de uma informação sólida e uma redação clara, não se trata mais
apenas de narrativa", diz o diretor do curso de novas mídias da Berkeley, Paulo
Grabowicz. Ele acrescenta que, embora algumas empresas de mídia mais
conservadoras possam ser "lentas" ou "hesitantes" - ou quebradas -, elas serão
obrigados a fazer a contratação de novos técnicos, a fim de competir com os
emergentes empreendimentos. Brian Boyer, o original jornalista hacker, prefere
colocar isso de forma diferente, comparando a mudança de paradigma com o
28 At the Georgia Institute of Technology in Atlanta, a three-year-old program in "computational journalism"

helps computer-science majors study how journalists gather, organize and utilize information, then take these
workflows and see how technology can make the processes easier. Says Professor Irfan Essa: "We're trying
to get people aware of what computations and software programs can do for their day-to-day work. This kind
of thinking has enabled technology to streamline workflows in dozens of other industries. There's no reason it
can't work in journalism, too." Meanwhile, the journalism school at the University of Missouri has started
introducing graduate-level journalism students to programming with computer-assisted reporting that delves
into the basics of database management. Similarly, the University of California, Berkeley, requires students
in its graduate school of journalism to take a six-week, boot camp–style course in Web development, during
which they are taught the basics of XML, HTML and other coding languages commonly used on websites
today.
60
velho ditado de que se você não pode vencê-los, junte-se a eles. "Se a origem do
tumulto no negócio das notícias é a tecnologia", diz ele, "então o jornalismo
29
precisa de mais nerds". (VILLANO, online, tradução nossa)
Afinal, como foi apontado, mais do que apurar e escrever bons textos, para
estas empresas, este novo perfil de profissional deverá saber lidar com a grande
quantidade de informação proveniente de diferentes bases de dados (sejam
públicas, privadas, abertas, fechadas etc), desenvolver e utilizar ferramentas de
extração, filtragem, cruzamento e visualização de dados, entre tantas outras
atividades computacionais ainda a serem concebidas.
O que a possibilidade e a exequibilidade da mineração de dados nos mostram é a

necessidade de formar jornalistas que integrados em equipas multi-disciplinares
de informáticos, especialistas de estatística e de hermenêutica de dados, saibam
detectar o valor noticioso das relações e dos padrões extraídos da massa imensa
de dados, coligidos a acumulados a uma rapidez estonteante. Teremos, tal como
já temos hoje, jornalistas de rua e jornalistas de secretária, sendo os primeiros de
fato os tais backpack journalists e os segundos investigadores de fatos complexos,
descobrindo relações importantíssimas de um ponto de vista jornalístico entre
ocorrências de uma absoluta trivialidade quanto encaradas isoladamente.
(FIDALGO, 2007)
É assim, diante de todos estes fatos, que este trabalho promove uma última
pergunta-reflexão: Você, jornalista, está preparado para esta realidade e estes
novos desafios? Chegou a hora de revolucionar-se!
29 "The forms of journalism might be changing, but the role of the media to inform the public and hold
government accountable remains the same," says Boyer, who coined the term "hacker journalist" to describe
this new breed of newsman. [..] "While the core skills of journalism will always be solid reporting and clear
writing, it's not just about storytelling anymore," says Berkeley's director of new media Paul Grabowicz. He
adds that although some old-school media companies may be "slow" or "hesitant" — or too broke — to hire
techies, they will be forced to do so in order to compete with more entrepreneurial ventures. Boyer, the
original hacker journalist, prefers to put it differently, likening the paradigm shift to the old adage that if you
can't beat 'em, join 'em. "If the source of the tumult in the news business is technology," he says, "then
journalism needs more nerds."
61
8 Considerações finais
Com os anos, o projeto de consolidação da Web Semântica vem ganhando

mais força e aplicabilidade. Como vimos, já são vários os caminhos percorridos até
aqui. Padrões já foram estabelecidos, algumas regras pré-definidas, entre outros.
Contudo, existe ainda um longo percurso a ser desbravado e debatido. Entra neste
contexto a função dos profissionais da comunicação, que aliados aos estudiosos e
profissionais das ciências exatas e computacionais, podem ajudar no
desenvolvimento e aplicação de todos estes novos conceitos. Dentro deste
panorama, surge a possibilidade de uma Web de Dados, recheada de conteúdos
inteligentes e que podem ser trabalhados por dispositivos e plataformas também
inteligentes e interativas. Agora, some tudo isso a mobilidade e a ubiqüidade, que as
redes digitais conectadas hoje nos proporcionam. Sim, o futuro guarda grandes
possibilidades para um jornalismo inovador e muito mais inteligente.
Como foi apresentado neste trabalho, nesta nova era informacional, também
conhecida como “The age of big data” – a era das grandes bases de dados--, o
nosso maior desafio será o de saber lidar com esta gigantesca massa de dados.
Afinal, como seremos relevantes e despertaremos a atenção do nosso público em
um ambiente cada vez mais rico em informação? Como podemos ver, já faz parte da
essência do bom jornalismo a arte de filtrar e traduzir dados em informação. O faro
jornalístico para se encontrar as notícias em meio aos milhões de fatos que fazem
parte diariamente de nosso caótico e complexo mundo é aguçado e perspicaz.
Portanto, devemos transportar estas e tantas outras características para o ambiente
das redes digitais conectadas, a fim de continuarmos sendo úteis para a nossa
sociedade. Para tanto, cada vez mais, devemos aliar o uso de novas ferramentas e
rompermos com os dogmas já estabelecidos. O futuro do jornalismo se dará em
sincronia com as ciências da computação e da informação, com o design, com a
matemática, com a estatística e diversos outros campos de estudo. Tentar limitar ou
fechar os olhos a esta realidade significará um retrocesso.
O uso de sistemas computacionais, dotados de inteligência artificial, será

cada vez mais evidente em nosso processo de trabalho. Técnicas de raspagem,
filtragem, cruzamento e visualização de dados estarão cada vez mais presentes no
62
dia-a-dia operacional das redações jornalísticas. A criação de sistemas de

informações personalizadas e de recomendação de conteúdo já são uma realidade e
a população já se encontra inserida neste contexto. Não há mais volta. O jornalismo
já passa por um processo de evolução e adaptação às novas demandas.
Contudo, mais do que nunca, uma revisão de valores é necessária ao

profissional de jornalismo. O desenvolvimento de novas habilidades e uma nova
percepção do mundo e da estrutura comunicacional em redes conectadas são
fundamentais. Como vimos, mais do que a programação básica de computadores,
cabe ao jornalista aprender a lógica computacional (pensamento algorítmico),
técnicas básicas de design (design thinking), estatística, arquitetura de informações,
bancos de dados, gestão de projetos, entre outros. Mesmo quando se pensa em
trabalhar em equipes com múltiplas qualificações, é imprescindível que todos os
profissionais possam ter clareza sobre todos os processos e possibilidades. Para
tanto, como já está acontecendo em outros países, a grade curricular dos cursos de
comunicação precisa de uma revisão imediata. Não podemos mais esperar que
outras pessoas desenvolvam as plataformas onde vamos trabalhar, devemos fazer
parte desse desenvolvimento e, assim, buscarmos novos caminhos narrativos,
visuais etc.
Diferente de outros tempos, atualmente, os concorrentes do jornalismo não

são mais apenas os veículos de comunicação. Cada interagente na rede passa a
fazer parte dessa concorrência – por esta busca incansável por atenção em uma
economia cada vez mais abundante em informação. Esta realidade já é perceptível.
Empreendedores, hackers, blogueiros e tantos outros já criaram e continuam criando
todos os dias diversos produtos comunicacionais que tiram o holofote principal dos
grandes e já estabelecidos veículos de comunicação. Afinal, a economia das redes
tornou muito mais acessível o poder de inovação e empreendedorismo. Todos
podem criar, todos têm espaço para serem ouvidos, todos podem ter acesso à
informação, todos podem alterar uma realidade. Basta vontade e muita criatividade.
Portanto, mãos à obra, senhores jornalistas, chegou a hora de sairmos da

nossa atual zona de conforto e aguçarmos a nossa criatividade. É tempo de ousadia,
de inovação, de revisão de valores e ações. Sejam bem-vindos a era da Web de
Dados Inteligentes e vida longa ao jornalismo!
63
Referências Bibliográficas
BARBOSA, S. Sistematizando conceitos e características sobre o jornalismo

digital em bases de dados. In: BARBOSA, S. (org). Jornalismo Digital de Terceira
Geração. Covilhã – Portugal: LabCom Universidade da Beira Interior, p. 127-153,
2007.
BARBOSA, S; FARBIAZ, A. A estética base de dados e os modos diferenciados

para visualização da informação jornalística. in: III Simpósio Nacional ABciber 16,
17 e 18 de Novembro de 2009 - ESPM/SP. Anais eletrônicos. Disponível em:
<http://www.abciber.com.br/simposio2009/trabalhos/anais/pdf/artigos/5_jornalismo/ei
xo5_art1.pdf> Acesso em: set. 2010.
BARBOSA, S; RIBAS, B. Databases in Cyberjournalism: methodological paths.

2008.
BERNERS-LEE, T. Semantic Web Road Map. set. 1998. Disponível em:

<www.w3.org/designissues/semantic>. Acesso em: nov. 2010.
BERNERS-LEE, T; LASSILA, O; HENDLER, J. The semantic web. Scientific

America. mai. 2001. Disponível em <http://
www.sciam.com/article.cfm?articleID=00048144-10D2-1C70- 84A9809EC588EF21>.
Acesso em: nov. 2010.
BREITMAN, K. Web Semântica: a Internet do futuro. Rio de Janeiro: LTC, 2005.
BRITO, J. Hack, Mash & Peer: Crowdsourcing Government Transparency. The

Columbia Science and Technology Law Review. 2008.
BROWN, T. Design Thinking: Uma metodologia poderosa para decretar o fim

das velhas ideias. Tradução: Cristina Yamagami. Rio de Janeiro: Elsevier, 2010.
BUYING into computional journalism. Disponível em:

<http://blog.thescoop.org/archives/2009/11/09/buying-intocomputational-journalism>.
Acesso em: out. 2010.
CARMONA, T. Segredos da espionagem digital. São Paulo: Digerati Books, 2005.
CARVALHO, L. Datamining: a mineração de dados no marketing, medicina,

economia, engenharia e administração. Rio de Janeiro: Editora Ciência Moderna,
64
2005.
DIAS, T; SANTOS, N. Web Semântica: Conceitos básicos e tecnologias

associadas. Universidade do Estado do Rio de Janeiro. 2001.
DUBOST, K. Open data, you and me. Jan. 2008. Disponível em:
<http://www.w3.org/QA/2008/01/open_data_you_and_me.html>. Acesso em: nov.
2010.
DUBLIN core metadata initiative. Disponível em: <http:/ /dublincore.org.>. Acesso

em: out. 2010.
DZIEKANIAK, G; KIRINUS, J. Web Semântica. Enc. Bibli: R. Eletr. Bibliotecon. Ci.

Inf., Florianópolis, n. 18, p. 20-39, 2004.
FERREIRA, E. Geração automática de metadados: uma contribuição para a

Web Semântica. Tese (Doutorado). Escola Politécnica da Universidade de São
Paulo. Departamento de Engenharia de Sistemas Eletrônicos. 2006.
FEW, S. Data Visualization: past, present, and future, 2003. Disponível em:
<http://www.perceptualedge.com/articles/Whitepapers/Data_Visualization.pdf>.
Acesso em: set. 2010.
FIDALGO, A. Data Mining e um novo jornalismo de investigação. In: BARBOSA,

S. (org). Jornalismo Digital de Terceira Geração. Covilhã – Portugal: LabCom
Universidade da Beira Interior, p. 155-168, 2007.
FRY, B. J. Computional Information Design. Program in Media Arts and Sciences,

School of Architecture and Planning, Massachusetts Institute of Technology, 2004
LEMOS, A. Ciber-Rebeldes. Faculdade de Comunicação da Universidade Federal

da Bahia, mai. 1996. Disponível em:
<http://www.facom.ufba.br/pesq/cyber/lemos/rebeldes.html>. Acesso em: dez. 2010.
LIMA JR, W; ROCHA, A. Visualização de dados estruturada por banco de dados

digitais sintoniza o Jornalismo com a complexidade informativa
contemporânea. In: XXXIII Congresso Brasileiro de Ciências da Comunicação,
Universidade de Caxias do Sul, 3-6 set. 2010, Caxias do Sul. Anais eletrônicos.
Disponível em: <http://www.intercom.org.br/papers/nacionais/2010/resumos/R5-
1940-1.pdf>. Acesso em: set. 2010.
LIMA JR, W. Tecnologias emergentes desafiam o jornalismo a encontrar novos

formatos de conteúdo. Revista Comunicação & Sociedade, Ano 30, n. 51, p. 201-
65
225, jan./jun 2009. Disponível em: <https://www.metodista.br/revistas/revistas-

ims/index.php/CSO/article/view/860/911>. Acesso em: set. 2010.
____________. Infografia multimídia avança na vanguarda no campo do

Jornalismo Visual. Trabalho apresentado no V Congreso Iberoamericano de
Periodismo en Internet, realizado na Faculade de Comunicação da Universidade
Federal da Bahia, 2004. Disponível em:
<http://www.comtec.pro.br/prod/artigos/walter_aiapi.pdf>. Acesso em: set. 2010.
____________. Jornalismo inteligente na era do data mining. Líbero, n.18, p.119-

126, dez. 2006.
____________. Mídia social conectada: produção colaborativa de informação

de relevância. Líbero, v.12, n.24, p.95-106, dez. 2009.
MACHADO, E. A Base de Dados como Formato no Jornalismo Digital. In: Anais

do VII Lusocom. 2004. Covilhã. Portugal. Disponível em:
<www.bocc.ubi.pt/.../machado-elias-base-dados-formato-jornalismo-digital.pdf>
Acesso em: jul. 2010.
MANOVICH, L. Software takes command. 2008. Disponível em:

<http://softwarestudies.com/softbook/manovich_soft-book_11_20_2008.pdf>. Acesso
em: ago. 2010.
MARQUES, I. Padrão HTML 5: Possíveis efeitos no jornalismo digital. In: XXXIII

Congresso Brasileiro de Ciências da Comunicação, Universidade de Caxias do Sul,
3-6 set. 2010, Caxias do Sul. Anais eletrônicos. Disponível em:
http://www.intercom.org.br/papers/nacionais/2010/resumos/R5-2173-1.pdf . Acesso
em: nov. 2010.
MEDEIROS, A. Hackers: entre a ética e a criminalização. Florianópolis: Visual

Books, 2002.
MYERS, S. Using Data Visualization as a Reporting Tool Can Reveal Story's

Shap. Poynter Online. Disponível em:
http://www.poynter.org/column.asp?id=101&aid=161675. Acesso em: set. 2010.
NAVEGA, S. Princípios Essenciais do Data Mining. Ago. 2002. Disponível em:

<http://www.intelliwise.com/snavega>. Acessado em: ago. 2010.
OPEN data: openess and licensing. Open Knowledge Foundation. Disponível em:
<http://blog.okfn.org/2009/02/02/open-data-openness-and-licensing/>. Acesso em:
66
nov. 2010.
PACHECO, R. Dataprev e o “open data”.out. 2010. Disponível em:

<http://portal.dataprev.gov.br/2010/10/04/dataprev-e-o-%E2%80%9Copen-
data%E2%80%9D/>. Acesso em: nov. 2010.
PEARSON, K. How computational thinking is changing journalism & what’s

next. 2009. Disponível em: <http://www.poyn-
ter.org/column.asp?id=31&aid=164084>. Acesso em: set. 2010.
PICKLER, M. Web Semântica: ontologias como ferramentas de representação

do conhecimento. Universidade Estadual de Londrina. Perspectivas em Ciência da
Informação, v.12, n.1, p. 65-83, 2007.
PRIMO, A. Enfoques e desfoques no estudo da interação mediada por

computador. 404NotFound, n. 45, 2005. Disponível em:
<http://www.facom.ufba.br/ciberpesquisa/ 404nOtF0und/404_45.htm >. Acesso em:
jan. 2011.
RAYMOND, E. Como se tornar um hacker. s/d. Disponível em:

<http://nagoo.vila.bol.com.br>. Acesso em: dez. 2010.
RODRIGUES, A. Infografia em Base de Dados no Jornalismo Digital. In:

ENCONTRO NACIONAL DE PESQUISADORES EM JORNALISMO (SBPJOR), 6.,
Universidade Metodista de São Paulo, 19-21 nov. 2008, São Paulo. Anais
eletrônicos. Disponível em:
<http://infografiaembasededados.files.wordpress.com/2008/11/individual_02_adriana
alvesrodrigues2.pdf>. Acesso em: set. 2010.
____________. Infografia interativa em base de dados no jornalismo digital.

Dissertação (mestrado) – Universidade Federal da Bahia, Faculdade de
Comunicação, Salvador, 2009. Disponível em:
<http://www.poscom.ufba.br/arquivos/Poscom_producao_cientifica_AdrianaAlvesRo
dri gues.pdf>. Acesso em: set. 2010.
____________. Visualização de dados na construção infográfica: abordagem

sobre um objeto em mutação. In: XXXIII Congresso Brasileiro de Ciências da
Comunicação, Universidade de Caxias do Sul, 3-6 set. 2010, Caxias do Sul. Anais
eletrônicos. Disponível em:
<http://www.intercom.org.br/papers/nacionais/2010/resumos/R5-2564-1.pdf>.
Acesso em: set. 2010.
67
SALES, L; CAMPOS, M; GOMES, H. Ontologias de domínio: um estudo das

relações conceituais. Perspectivas em Ciências da Informação. v.13, n.2, p. 62-
76, mai/ago. 2008. Disponível em:
<www.portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/219/474>. Acesso
em: dez. 2010.
SEMANTIC web. Disponível em: <http://www.semanticweb.org/ about.html>. Acesso

em: set. 2010.
SOUZA, R.; ALVARENGA, L. A Web Semântica e suas contribuições para a

ciência da informação. Ci. Inf., Brasília, v. 33, n.1, p.132-141, 2004.
THE A.I. revolution. Wired Magazine Online. Jan. 2011. Disponivel em:
<http://www.wired.com/magazine/2010/12/ff_ai_essay_airevolution/>. Acesso em:
jan.2011
VIÉGAS, F; WATTENBERG, M. Visualização de dados e jornalismo. in: SILVA, G.

(Org.). E-book Novos Jornalistas - Para entender o jornalismo hoje. p.196-200. São
Paulo, 2010. Disponível em: http://overmundo.com.br/banco/novos-jornalistas-e-
book-1. Acesso em: set. 2010.
VILLANO, M. Can computer Nerds Save Journalism? Time Magazine Online. 08

jun. 2009. Disponível em:
<http://www.time.com/time/business/article/0,8599,1902202,00.html>. Acesso em:
jun. 2010.
W3C Linked Data. Disponível em:

<http://www.w3.org/standards/semanticweb/data>. Acesso em jan.2011.
W3C Semantic Web Activity. Disponível em: <http://www.w3.org>. Acesso em: out.
2010.

Jornalismo Na Era Da Web de Dados Inteligentes

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Jornalismo Na Era Da Web de Dados Inteligentes

Uploaded by

Copyright:

Available Formats

FACULDADE CÁSPER LÍBERO

Diego da Silva Pinto

O jornalismo na era da web de dados inteligentes

O jornalismo na era da web de dados inteligentes

Trabalho de conclusão de curso de Pós-

Orientador: Prof. Dr. Walter Teixeira Lima Junior

1. Jornalismo Inteligente. 2. Web de dados. 3. Visualização de dados.

O jornalismo na era da web de dados inteligentes

Trabalho de conclusão de curso de Pós-

Palavras-chave: jornalismo inteligente, bases de dados, web semântica, web de dados,

Keywords: intelligent journalism, databases, semantic web, web of data, visual

2 Noções básicas sobre a Web Semântica 10

4 Os caminhos para a consolidação de um jornalismo mais inteligente 29

5 Jornalismo de visualização de dados e os desafios da representação 38

6 O pensamento computacional e o novo perfil do profissional de 47

7 Os hackers jornalistas serão a salvação do jornalismo? 53

Na atualidade, é praticamente impossível imaginar nossas vidas longe da

Entretanto, como mostram os pesquisadores Souza e Alvarenga (2004), o

Diante dessa realidade, quase todos os dias, temos a impressão de

mergulhados de cabeça em uma sociedade informacional que só tende a crescer

É a partir dessa realidade que nascem e tentam se consolidar as ideias

É diante deste contexto, que se apresenta este trabalho. Por se tratar de

da realidade descrita acima, do advento da Web Semântica, também conhecida

2 Noções básicas sobre a Web Semântica

Para se discutir a Web Semântica, em primeiro lugar, devemos ter claro o

sucesso desejado e possibilitou que a Internet, agora baseada em uma plataforma

A Web passou a propiciar uma nova plataforma para o desenvolvimento de

O resultado você já sabe. A Internet, graças à Web, invadiu nosso ambiente

É a partir desse contexto que nasce a ideia da Web Semântica. O projeto,

A Web Semântica representa a evolução da web atual. Enquanto a web tradicional

Agora, já compreendido o processo evolutivo da plataforma, nos resta

inferências. (SALES, CAMPOS, GOMES, 2008)

Portanto, um primeiro passo para se dotar a Web de semântica seria com a

Contudo, além das ontologias, outros recursos também são necessários

5 Na ciência da computação e na ciência da informação, ontologia é um modelo de dados que representa um

denominado URI (Universal Resource Identifier), como os utilizados em links nas

Seguindo o pensamento das pesquisadoras, como o intuito da Web

• Descrição de recursos: informação expressa através de metadados,

• Produção de metadados: sumário da descrição dos dados, que pode

• Uso de metadados: Envolve o uso e acesso de metadados, é

Em outras palavras, Dias e Santos (2001) reforçam a ideia destes três

O primeiro aspecto refere-se a quais informações estarão sendo consideradas nos

Contudo, como sabemos, todo o processo evolutivo da Internet só foi

Para atingir os objetivos de criação de uma Web de acesso universal e que

Após esta breve introdução acerca dos conceitos e tecnologias envolvidas

Para Dias e Santos (2001), os agentes computacionais:

[!] desempenham papel importante na Web Semântica. Agentes são programas

Já para Souza e Alvarenga (2004), a Web Semântica só terá maior

agentes possibilita a implementação de um estilo complementar de interação,

A explanação dos autores supracitados vem de acordo com o pensamento

Esse algo a mais é Software. Ferramentas de buscas, sistemas de recomendação,

Se a eletricidade e o motor de combustão fizeram a sociedade industrial possível,

utilizado por um designer que trabalha para uma agência de publicidade

Diante deste cenário e em um mundo cada vez mais imerso em dados,

Para pesquisadores como Tim Berners-Lee (em palestra realizada na edição

tim_berners_lee_on_the_next_web.html), a consolidação da web semântica, aliada

O pesquisador Jerry Brito (2008) completa:

Dados estruturados são um termo de arte. Isso significa que a informação é

Estas decisões de apoio a abertura e a usabilidade de formatos de dados

Trata-se de um fenômeno recente, mas que vem ganhando aplicação em

diversas partes do planeta, como Canadá, Estados Unidos, Nova Zelândia,

No Brasil, como aponta o artigo “Dataprev e o open data”, publicado pelo

No Brasil já há a disposição declarada, de setores da sociedade civil para