Professional Documents
Culture Documents
São Paulo
2011
DIEGO DA SILVA PINTO
São Paulo
2011
1.1.1.1 Pinto, Diego da Silva
Jornalismo na era da web de dados inteligentes/ Diego da Silva Pinto. -- São Paulo, 2011.
67 f. ; 30 cm.
_____________
Data da aprovação
Banca examinadora:
_____________
_____________
São Paulo
2011
“A mente que se abre a uma nova ideia
jamais voltará ao seu tamanho original”
Albert Einstein
RESUMO
Esta pesquisa visa introduzir os conceitos básicos propostos para o que vem a ser a
evolução da atual Internet para uma estrutura computacional em rede mais inteligente e
focada em dados. Pois como podemos ver, mesmo ainda em fase de consolidação, as
muitas ideias acerca de Web Semântica já começam a ganhar espaço/aplicação no
ciberespaço e passam a nortear o trabalho dos profissionais voltados ao desenvolvimento
das plataformas e conteúdos web, sobretudo, os profissionais de comunicação. Com base
nestes conceitos, objetivamos discutir os desafios e, se possível, propor caminhos para o
futuro da prática do jornalismo e da comunicação social, abordando temáticas como
jornalismo inteligente, open data, linked data, bases de dados, data mining e
representação visual de dados. Em um último momento, o trabalho se direciona para a
discussão sobre o perfil e as atribuições necessárias para quem pretende exercer a
função de jornalista dentro deste novo contexto. Trata-se de uma pesquisa que utiliza a
metodologia bibliográfica documental e de observação indireta, pois se baseia no estudo
de algumas das possibilidades comunicacionais resultantes da combinação dessas
tecnologia e contextos.
This research aims to introduce basic concepts proposed for what turns out to be the
evolution of the current Internet structure for a computer network more intelligent and
focused on data. As we see, even still in the process of consolidation, many ideas about
the Semantic Web are starting to gain traction / application in cyberspace and start to
guide the work of professionals aimed at the development of platforms and web content,
especially the media professionals. Based on these concepts, we aim to discuss the
challenges and, if possible, propose ways for the future of the practice of journalism and
media, covering topics like intelligent journalism, open data, linked data, databases, data
mining and visual representation of data. In a last moment, the work is directed to the
discussion of the profile and tasks necessary for those wishing to exercise the function of
journalism in this new context. This is a research that uses the methodology of literature
documentary and indirect observation, because it relies on the study of some
communicative possibilities resulting of the combination of these technologies and
contexts.
1 Introdução 7
3 A realidade dos Open Data, das Linked Data e das Bases de Dados 19
8 Considerações finais 61
Referências Bibliográficas 63
7
1 Introdução
1 De acordo com o dicionário Houaiss, algo ou alguém que está ou existe ao mesmo tempo em toda parte;
onipresente; que se difundiu extensamente; geral, universal;
2 Como proposto por Alex Primo (2005), o termo “Interagente” substitui a palavra “usuário”, que deixa
subentendido que tal figura está à mercê de alguém hierarquicamente superior, que coloca um pacote a sua
disposição para uso (segundo as regras que determina). Para o autor, a adoção do termo “interagente” (uma
tradução nossa de interactant, não raro utilizado em pesquisas de comunicação interpessoal), faz emanar a
própria idéia de interação.
8
Afinal, as perguntas ainda são muitas e, cabe adiantar, que foram a partir
desses e outros questionamentos, expostos na sequência, que se desenrolou este
trabalho. Como estes processos irão afetar a prática do jornalismo? Quais os
caminhos a serem desbravados? Quais as possibilidades e os desafios? Assim,
sinta-se convidado a fazer parte dessas reflexões e, se possível, contribua em
aprofundar o esclarecimento das mesmas.
10
A Web Semântica é a Web de Dados. Afinal, existem milhares de dados que todos
nós utilizamos todos os dias, porém os mesmos não fazem parte da web. Eu
posso ver os meus extratos bancários na web, as minhas fotografias e também
posso ver os meus compromissos em um calendário. Contudo, eu posso ver as
minhas fotos em um calendário para ver o que eu estava fazendo quando as tirei?
Eu posso ver os detalhes do meu extrato bancário em uma agenda ou calendário?
Por que não? Porque ainda não temos uma Web de Dados. Porque os dados são
controlados pelas aplicações e cada aplicativo os mantém exclusivos para si
mesmo. A Web Semântica representa duas coisas. Representa os formatos
comuns (padrões), fundamentais para a integração e a combinação de dados
provenientes de diversas fontes, em contraponto a Web original, concentrada
principalmente no intercâmbio de documentos. Representa também a linguagem,
necessária para armazenar (catalogar) como os dados se relacionam com os
objetos do mundo real. Isso permite que uma pessoa ou uma máquina comece
sua jornada em um banco de dados e então se mova através de um conjunto
interminável de bases de dados, que não estão conectadas por fios, mas sim, por
3
serem a mesma coisa. (W3C Semantic Web Activity, s/d – tradução nossa)
3 The Semantic Web is a web of data. There is lots of data we all use every day, and it is not part of the web. I
can see my bank statements on the web, and my photographs, and I can see my appointments in a calendar.
But can I see my photos in a calendar to see what I was doing when I took them? Can I see bank statement
lines in a calendar? Why not? Because we don't have a web of data. Because data is controlled by
applications, and each application keeps it to itself. The Semantic Web is about two things. It is about
common formats for integration and combination of data drawn from diverse sources, where on the original
Web mainly concentrated on the interchange of documents. It is also about language for recording how the
data relates to real world objects. That allows a person, or a machine, to start off in one database, and then
move through an unending set of databases which are connected not by wires but by being about the same
thing. (W3C Semantic Web Activity, s/d)
11
4 Web Sintática ou Web de Documentos são os nomes utilizados para descrever a atual fase da Web, em que
grande parte do conteúdo é baseado em HTML. O termo deriva do contraste entre a sintaxe, que é a mecânica
de uma linguagem utilizada para transmitir informações, e semântica, que é o real significado dessa
informação. Uma página na web sintática representa qualquer documento web que não contenha tags
especiais (marcações) que possam permitir a transmissão de um significado à maquina, ou melhor, a um
programa informático.
12
uma Web de Dados Inteligentes. Contudo, vale apontar que, o projeto da Web
Semântica não veio criar uma nova Web, mas sim tornar possível uma evolução da
já consagrada e estabelecida plataforma.
O W3C projeta uma Web ideal, em que a recuperação de informação poderá ser
feita de forma objetiva e consensual e, mais do que isso, poderá oferecer
diretamente, através de um processamento inteligente, respostas para muitas
questões. Essa web ideal chama-se Web Semântica. Para que esse
processamento inteligente possa acontecer, é preciso, entre outras coisas, um
instrumento da padronização terminológica, que o W3C vem chamando de
ontologias. As ontologias são formadas por termo, definições e relações. Devido a
estes elementos, a literatura vem definindo ontologia como uma linguagem
documentária. Entretanto, apesar de possuir elementos comuns, as ontologias são
mais que linguagens documentárias: elas possuem funcionalidades que permitem
que a máquina possa processar o raciocínio automatizado, através de regras e
13
Elas (as ontologias) não seriam suficientes para imprimir semântica à Web,
requerendo a adoção de tecnologias novas, como por exemplo, XML (Extensible
Markup Language) e RDF (Resource Description Framework). O XML possibilita a
criação de tags, campos de texto que ficam escondidos nas páginas web. Os
programas ou scripts podem fazer uso dos tags de várias formas, mas o
programador precisa saber o significado de cada tag criado pelos autores das
páginas para utilizá-los. Ou seja, XML permite que o usuário adicione estruturas
arbitrárias a seus documentos, mas não permite representar o significado de cada
estrutura. Este seria o papel desempenhado pelo RDF - expressar significado às
estruturas. O RDF codifica os tags em um conjunto de triplas, sendo cada tripla
dotada de um sujeito, verbo e objeto de uma sentença simples. Essas triplas
podem ser escritas utilizando XML tags. Em RDF, um documento pode fazer
assertivas sobre relações entre coisas tais como Maria (sujeito) é irmã (verbo) de
Pedro (objeto). Essa estrutura tende a ser uma maneira natural de descrever a
maioria das informações processadas pelos computadores. O sujeito e o objeto
desta sentença são identificados, cada um, por um indicador universal
Portanto, nos dias de hoje, este vem sendo o grande desafio encontrado
pelos pesquisadores e desenvolvedores da plataforma. Aliás, encabeçados pelo
consórcio mundial da W3C, muitos desses padrões já estão estabelecidos, porém
outros ainda estão em fase de desenvolvimento. Para tanto, vale lembrar que, como
cidadãos globais, devemos ser mais ativos e participar das discussões e decisões
dessas padronizações.
O grande poder da Web Semântica só vai se realizar quando forem criadas peças
de programa que coletem conteúdo da Web de diversas fontes, processem estas
informações e compartilhem os resultados com outros programas. Estes
programas são os agentes. Embora não haja uma definição universal para o termo
“agente” no âmbito da computação, podemos considerar o conceito disseminado
de agentes como assistentes de tarefa, ou seja, entidades de software que
empregam técnicas de inteligência artificial com o objetivo de auxiliar o usuário na
realização de uma determinada tarefa, agindo de forma autônoma e utilizando a
metáfora de um assistente pessoal. A tecnologia de agentes permite que se
repense a natureza da interação entre homem e computador, na qual esse último
torna-se um parceiro do usuário, cooperando para o alcance dos objetivos
traçados. Podemos esperar que o futuro da computação seja caracterizado por
uma completa delegação de tarefas por parte dos usuários aos computadores,
sem a necessidade de qualquer tipo de manipulação direta. A utilização de
17
6 This “something else” is software. Search engines, recommendation systems, mapping applications, blog
tools, auction tools, instant messaging clients, and, of course, platforms which allow others to write new
software – Facebook, Windows, Unix, Android – are in the center of the global economy, culture, social life,
and, increasingly, politics. And this “cultural software” – cultural in a sense that it is directly used by
hundreds of millions of people and that it carries “atoms” of culture (media and information, as well as
human interactions around these media and information) – is only the visible part of a much larger software
universe. (MANOVICH, 2008)
18
7 If electricity and the combustion engine made industrial society possible, software similarly enables gllobal
information society. The “knowledge workers”, the “symbol analysts”, the “creative industries”, and the
“service industries” - all these key economic players of information society can’t exist without software. Data
visualization software used by a scientist, spreadsheet software used a financial analyst, Web design software
used by a designer working for a transnational advertising energy, reservation software used by an airline.
Software is what also drives the process of globalization, allowing companies to distribute management
nodes, production facilities, and storage and consumption outputs around the world. Regardless of which new
dimension of contemporary existence a particular social theory of the last few decades has focused on—
information society, knowledge society, or network society—all these new dimensions are enabled by
software. (MANOVICH, 2008)
19
3 A realidade dos Open Data, das Linked Data e das Bases de Dados
No entanto, para tornar a web dos dados uma realidade é importante ter a enorme
quantidade de dados disponíveis na Web em um formato padrão, alcançável e
gerenciável pelas ferramentas da Web Semântica. Além disso, não só existe a
necessidade de que estes dados sejam acessíveis à Web Semântica, mas as
relações entre esses dados também devem ser acessíveis para a possível
consolidação de uma Web de dados (em oposição a uma coleção enorme de
bases de dados). Esta coleção de dados inter-relacionados na Web também
podem ser chamado de Dados Linkados. Linked Data está no cerne do que a Web
Semântica se propõe a ser: a integração em larga escala e de raciocínio dos
dados na web. Quase todos os aplicativos listados, em digamos coleções de
estudos de caso sobre Web Semântica e Casos de Uso, são essencialmente
baseados na acessibilidade e na integração dos dados linkados a vários nível de
8
complexidades. (LINKED DATA, W3C, s/d – tradução nossa)
8 However, to make the Web of Data a reality, it is important to have the huge amount of data on the Web
available in a standard format, reachable and manageable by Semantic Web tools. Furthermore, not only does
the Semantic Web need access to data, but relationships among data should be made available, too, to create
a Web of Data (as opposed to a sheer collection of datasets). This collection of interrelated datasets on the
Web can also be referred to as Linked Data. Linked Data lies at the heart of what Semantic Web is all about:
large scale integration of, and reasoning on, data on the Web. Almost all applications listed in, say collection
20
Já o termo Open Data, ou Dados Abertos, como o próprio nome diz busca
caminhos para que os dados disponíveis na rede possam ser acessíveis a todos,
sem restrições de padrões, mecanismos de controle e direitos autorais. O consórcio
W3C classifica Open Data como sendo a publicação e disseminação das
informações do setor público, compartilhadas em formato bruto e aberto,
compreensíveis logicamente, de modo a permitir sua reutilização em aplicações
digitais desenvolvidas pela sociedade.
of Semantic Web Case Studies and Use Cases are essentially based on the accessibility of, and integration of
Linked Data at various level of complexities. (LINKED DATA, W3C, s/d)
9 Structured data is a term of art. It means that information is presented in a format that allows computers to
easily parse and manipulate it. While a static web page that lists a series of news stories or proposed
regulations is not structured, the web page may have a companion XML file containing the same information.
A structured XML file would allow a user to sort the data by ascending or descending date, alphabetically by
headline or author, by number of words, and in many other ways that a static web page does not afford.
(BRITO, 2008)
10 These decisions to support openness and useful data formats allowed for an innovation that neither company
could have predicted would emerge. Indeed, when a site makes its data available in open formats, it cannot
conceive of the many creative ways the data will be put to use. (BRITO, 2008 - tradução nossa)
21
Portanto, esta realidade estará cada vez mais presente no dia-a-dia dos
profissionais de comunicação e os desafios serão muitos. Afinal, mesmo diante
desse cenário, cada vez mais voltado à transparência, o simples ato de tornar esta
informação disponível na rede, não quer dizer que as mesmas são acessíveis e de
fácil compreensão. Como aponta o pesquisador Jerry Brito (2008):
11 The data is often only nominally publicly available. First, much government data is not available online or
even in electronic format. Second, the data that can be found online is often not available in an easily
accessible or searchable format. […] If data is difficult to search for and find, the effect might be the same as
if it were not online. Additionally, to allow users to exploit the full potential of the Internet – to subscribe to
data streams and to mix and match data sources–data must be presented in a structured machine-readable
format.
23
12
2008, tradução nossa)
A contribuição mais importante que todos estes hacks fazem, no entanto, pode
12 When government does not make data available online, or makes it available but not in a structured format,
third parties take it upon themselves to fill the void by implementing ingenious hacks. […] A number of
independent third parties have created hacks that make available online, in a structured format, data that the
government has either not put online or not made easily accessible. For example, disclosure forms for
members of Congress are available online from The Washington Post’s U.S. Congress Votes Database. Using
this database, a user can look up a page for any member of Congress. The page includes a photo, a short
biographical sketch, voting record, and much more information, including links to the past two years’
financial disclosure forms. Where does the Post get this data? For House members, the Office of the Clerk
once a year makes available electronically all the disclosure forms on a CD-ROM. The Post uses this data to
populate its online database. For Senators, however, the Post must acquire physical copies of the filings and
then scan them in order to make electronic copies. While government has failed to provide the data online
and requires citizens to make a formal request for physical copies of these public documents, the Washington
Post’s hack offers easy online access. (BRITO, 2008)
13 In essence, “screen-scraping” involves calling up the web page that displays the type of data the user wishes
to gather (for example, a senate roll call vote page), identifying the patterns apparent on the page (such as
where the bill title and number are displayed and which boxes correspond to the yeas and nays), and then
writing a computer script that will transfer data found in designated display positions to the appropriate fields
in a database. In many ways this is the digital equivalent of having to scan paper copies of documents
because, while the original may well be electronic in this case, it is the final user display that is accessed and
parsed into meaningful groupings. In short, it is an inefficient and often inexact method.
24
não ser o acesso que eles fornecem aos usuários individuais, mas sim o fato de
que seus dados hackeados são oferecidos em um formato estruturado e aberto.
Isto permite ainda que outros terceiros possam agora pegar esses úteis dados e
criarem novas aplicações. Como Joshua Tauberer explicou, "Reunir as
informações em um só lugar e em um formato comum dá origem a novas formas
14
de misturar as informações em conjunto." (tradução nossa)
14 The most important contribution all these hacks make, however, may not be the accessibility they provide to
individual users, but the fact that their hacked data is offered in a structured and open format. This allows yet
other third parties to tap into the now useful data and create new applications. As Joshua Tauberer has
explained, “Gathering the information in one place and in a common format gives rise to new ways of mixing
the information together.”
25
Com relação às bases de dados. Como pode ser visto no texto "A Base de
dados como Formato no Jornalismo Digital", do pesquisador Elias Machado (2004),
15 However, open data is crucial to progress on these more fundamental items. It’s crucial because open data is
so much easier to break-up and recombine, to use and reuse. We therefore want people to have incentives to
make their data open and for open data to be easily usable and reusable — i.e. for open data to form a
‘commons’. A good definition of openness acts as a standard that ensures different open datasets are
‘interoperable’ and therefore do form a commons. (on-line)
16 Licensing is important because it reduces uncertainty. Without a license you don’t know where you, as a
user, stand: when are you allowed to use this data? Are you allowed to give to others? To distribute your own
changes, etc? Together, a definition of openness, plus a set of conformant licenses deliver clarity and
simplicity. Not only is interoperability ensured but people can know at a glance, and without having to go
through a whole lot of legalese, what they are free to do. (on-line)
26
estas bases não são exclusividades do mundo digital. Mesmo bem antes de
utilizarmos computadores, nós já tínhamos o hábito de criar bases de dados
analógicas, como agendas telefônicas, catálogos de livros etc. O que acontece
agora é que estamos em constante migração para o ambiente digital e a partir dessa
realidade, as possibilidades de uso dessas bases foram ampliadas, nos permitindo
realizar relações automatizadas, antigamente um tanto quanto complexas. Assim,
estas bases de dados digitais estão cada vez mais presentes em quase todos os
lugares e serviços que nos cercam.
Em linhas gerais, base de dados (BDs) tem sido entendida como um repositório de
informações (sejam eles textos, audio, vídeo ou imagens estáticas ou em
movimento) que podem ser recuperadas através de sistemas automatizados e
cruzados para gerar uma nova informação. [...] BDs são definidoras da estrutura e
da organização, assim como a forma de apresentação dos conteúdos jornalísticos,
constituindo um elemento essencial na construção de sistemas complexos de
criação, manutenção, atualização, disponibilização e circulação de produtos
jornalísticos digitais dinâmicos. (RODRIGUES, 2008)
Contudo, neste momento, entra a questão central proposta por Tim Berners-
Lee e pela W3C, da adoção de todos pelos padrões Web. Sem a existência de
padrões, a conversação e o relacionamentos dos dados disponíveis na rede perdem
força. Portanto, fica cada vez mais evidente, a importância dos desenvolvedores e,
sobretudo, das empresas em criarem os seus sites, bases de dados e conteúdo
digital de acordo com as recomendações do consórcio mundial. Caso contrário,
poderão ficar de fora dessas e tantas outras possibilidades que começam a emergir
no ciberespaço. Jerry Brito (2008) amplia esta discussão quando diz que “se as
informações governamentais fossem publicadas online respeitando as
padronizações de formatos aberto, as massas de pessoas online poderiam ajudar a
garantir ainda mais a transparência e a confiabilidade das mesmas, que, em primeiro
28
lugar, são as principais razões para se tornar públicas este tipo de informação”17.
Para finalizar, vale pontuar que na atualidade, mais do que manter extensas
bases de dados, as empresas e instituições necessitam desenvolver soluções
personalizadas e que permitam um uso mais rico desta complexa malha de dados
disponível. Para tanto, o desenvolvimento de sistemas inteligentes, baseado em
base de dados, e que utilizem os mais atuais recursos de Inteligência Artificial (AI) e
técnicas de Datamining, podem ser de grande valor, como veremos no capítulo
seguinte.
17 If government information were made public online in standard open formats, the online masses could help
ensure the transparency and accountability that is the reason for making information public in the first place.
29
A Inteligência Artificial de hoje não tenta recriar o cérebro. Em vez disso, ela
utiliza-se do aprendizado de máquina, conjuntos de dados maciços, sofisticados
sensores e algoritmos inteligentes para dominar os desafios. Essa explosão é a
discreta e irônica recompensa da busca aparentemente infrutífera de décadas por
tentar imitar a inteligência humana. Esse objetivo se mostrou tão fugaz que alguns
cientistas perderam o ânimo e muitos outros acabaram perdendo os seus
financiamentos. As pessoas tratavam como uma fase de inverno para a AI -
temporada estéril em que nenhuma visão ou projeto pode enraizar-se ou crescer.
Mas mesmo com o sonho tradicional de AI congelando, um novo estava nascendo:
máquinas construídas para realizar tarefas específicas de maneira que as pessoas
jamais conseguiram. No início, haviam apenas alguns brotos verdes empurrados
para cima através do solo gelado. Mas agora estamos em plena floração. Bem-
vindo ao Verão da AI [...] Assim, durante os anos 80, os alunos de graduação
começaram a concentrar-se sobre os tipos de habilidades para que os
computadores eram bem adaptados e descobriram que eles poderiam construir
algo parecido com a inteligência de grupos de sistemas que operam de acordo
com seu próprio tipo de raciocínio. "A grande surpresa é que a inteligência não é
uma coisa unitária", diz Danny Hillis, que é co-fundador da Thinking Machines,
uma empresa que faz supercomputadores. "O que aprendemos é que existem
18
diferentes tipos de comportamentos." (online – tradução nossa)
18 Today’s AI doesn’t try to re-create the brain. Instead, it uses machine learning, massive data sets,
sophisticated sensors, and clever algorithms to master discrete tasks.This explosion is the ironic payoff of the
seemingly fruitless decades-long quest to emulate human intelligence. That goal proved so elusive that some
scientists lost heart and many others lost funding. People talked of an AI winter—a barren season in which
no vision or project could take root or grow. But even as the traditional dream of AI was freezing over, a new
one was being born: machines built to accomplish specific tasks in ways that people never could. At first,
there were just a few green shoots pushing up through the frosty ground. But now we’re in full bloom.
Welcome to AI summer... So during the ’80s, graduate students began to focus on the kinds of skills for
which computers were well-suited and found they could build something like intelligence from groups of
systems that operated according to their own kind of reasoning. “The big surprise is that intelligence isn’t a
unitary thing,” says Danny Hillis, who cofounded Thinking Machines, a company that made massively
parallel supercomputers. “What we’ve learned is that it’s all kinds of different behaviors. (online)
31
Para o autor Luis Alfredo de Vidal Carvalho (2005) podemos definir data
mining “como o uso de técnicas automáticas de exploração de grandes qunatidades
de dados de forma a descobrir novos padrões e relações que, devido ao volume dos
dados, não seriam facilmente descobertas ao olho nu pelo ser humano”. O autor
ainda faz uma ressalva de que:
19 By using probability-based algorithms to derive meaning from huge amounts of data, researchers discovered
that they didn’t need to teach a computer how to accomplish a task; they could just show it what people did
and let the machine figure out how to emulate that behavior under similar circumstances. They used genetic
algorithms, which comb through randomly generated chunks of code, skim the highest-performing ones, and
splice them together to spawn new code. As the process is repeated, the evolved programs become amazingly
effective, often comparable to the output of the most experienced coders. (online)
32
São vários os setores que trabalham com informação que utilizam a técnica do
data mining para obter padrões válidos e potencialmente úteis em suas atividades.
Há cinco anos, ao procurar eventuais relações entre o volume de vendas e os dias
da semana, um software de data mining apontou que, às sextas-feiras, as vendas
de cerveja na rede Wal-Mart cresciam na mesma proporção que as de fraldas.
Uma investigação mais detalhada revelou que, ao comprar fraldas para seus
bebês, os pais aproveitavam para abastecer o estoque de cerveja para o fim de
semana. (LIMA JR, 2006)
No jornalismo, o Data mining poderá igualmente ser útil, mas, para isso, é preciso
que os bancos de dados sejam precisos e não históricos, e que tenham uma certa
inteligência artificial para lidar com as modificações semânticas das palavras, por
exemplo. Com o Data mining é possível extrair padrões válidos, por exemplo, para
investigar se o índice de desemprego diminui quando se aproxima uma eleição e
por que isso acontece.
Entendo que essa necessidade de contar com analistas humanos seja uma
abertura para o trabalho de jornalistas especializados em mineração de dados e
padrões válidos e úteis. O profissional, para executar essa tarefa, precisa ter
“conhecimento de mundo” de que as máquinas ainda não dispõem. (LIMA JR,
2006)
Tal como a investigação na vida real parte de fatos observados, assim também as
relações apuradas algoritmicamente servirão de ponto partida para a investigação
no âmbito do jornalismo de mineração de dados. Cabe ao jornalista dar-se conta
de num e noutro caso, nos eventos ocorridos na vida do dia a dia ou nas relações
extraídas dos dados informáticos, do que é e não é notícia. Tanto esses eventos
como essas relações são independentes do jornalista ou da sua percepção, mas a
35
20 Biology has rapidly become a data-rich science, where the amount of data collected can outpace the speed
with which it can be analyzed and subsequently understood. Sequencing projects have made available
billions of letters of genetic code, as analysis continues to add layers of annotation that describe known or
predicted features along the linear sequence. Ten years ago, a few thousand letters, representing a few
hundred genes, were known from a small number of ‘model’ organ- isms, where today this has become
billions of letters representing tens of thousands of genes across a rapidly growing number of organisms. The
quantity of such data makes it extremely difficult to gain a “big picture” understanding of its meaning. The
problem is further compounded by the continually changing nature of the data, the result of new information
being added, or older information being continuously refined. The amount of data necessitates new software-
based tools, and its complexity requires extra consideration be taken in its visual representation in order to
highlight features in order of their importance, reveal patterns in the data, and simultaneously show features
of the data that exist across multiple dimensions. One significant difficulty with such problems is knowing,
given a set of data, how to glean meaningful information from it. To most, the process is entirely opaque.
Fields such as statistics, data mining, graphic design, and information visualization each offer components of
the solution, but practitioners of each are often unaware of, or unskilled in, the methods of the adjacent fields
required for a solution.
38
O ser humano por sua essência é um ser audiovisual. Afinal, desde que nos
conhecemos por gente, os nossos principais sensores de recepção de informação
são os nossos olhos e ouvidos. A imagem e o som sempre tiveram um caráter de
muito impacto em nossos complexos processos cognitivos. Aliás, toda a base de
comunicação humana se consolidou a partir desses pilares e, por conseqüência,
aplicamos estes mesmos conceitos em nossas tecnologias comunicacionais
(desenhos primitivos, alfabeto, impressos, rádio, TV, cinema etc). O pesquisador
Lima Jr (2010) utiliza um argumento da autora Martine Joly, do livro “Introdução à
análise da imagem” para justificar esta constatação.
No início, havia a imagem. Para onde quer que nos viremos, existe a imagem. Por
todo o lado através do mundo, o homem deixou vestígios das suas faculdades
imaginativas sob a forma de desenhos feitos na rocha e que vão desde os tempos
mais remotos do paleolítico até a época moderna. Estes desenhos destinavam-se
a comunicar mensagens e muitos deles constituíram aquilo a que chamamos “os
pré-anunciadores da escrita”, utilizando processos de descrição- representação
que apenas retinham um desenvolvimento esquemático de representações de
coisas reais. (JOLY, 1994 in: LIMA JR, 2010)
Às vezes, isso significa encontrar uma pepita preciosa, por exemplo, escolher um
único indicador que possa resumir a agonia de uma crise econômica. No entanto,
há temas tão complexos que nenhum número pode fazer justiça; temas, onde
centenas de números são necessários para dar aos leitores contexto. E é aí que
entra a visualização de dados.
21 The visualization of information gains its importance for its ability to help us ‘see’ things not previously
understood in abstract data. It is both a perceptual issue, that the human brain is so wired for understanding
visual stimuli but extends to the notion that our limited mental capacity is aided by methods for
“externalizing” cognition.
40
22 1. acquire – the matter of obtaining the data, whether from a file on a disk or from a source over a network. 2.
parse – providing some structure around what the data means, ordering it into categories. 3. filter – removing
all but the data of interest. 4. mine – the application of methods from statistics or data mining, as a way to
42
Vale lembrar, como aponta Rodrigues (2008), que “um aspecto a considerar
é que esse movimento ocorre no ambiente do ciberespaço, que apresenta
características ideais para o seu desenvolvimento em função da possibilidade de se
dispor de um lugar ilimitado, e ao mesmo tempo multimidiático, onde produtos
distintos podem ser construídos na web se alimentando da recuperação de
informações, armazenamento e indexação”. Portanto, o meio impulsiona esta
evolução.
discern patterns or place the data in math- ematical context. 5. represent – determination of a simple
representation, whether the data takes one of many shapes such as a bar graph, list, or tree. 6. refine –
improvements to the basic representation to make it clearer and more visually engaging. 7. interact – the
addition of methods for manipulating the data or controlling what features are visible.
43
Este termo “Mashup” teve sua origem no campo da música. O advento das
tecnologias de edição digital tornou relativamente simples para Djs e amadores
pegarem duas ou mais diferentes músicas e as misturarem afim de criar novas
composições. [...] Agora, o termo “Mashup” se aplica também para aplicações que
misturam diferentes bases de dados para criar uma nova e exclusiva informação.
23
(Tradução-livre)
A utilização de base de dados no jornalismo digital pode ser pensada numa nova
forma cultural e digital para os produtos jornalísticos, com funções de indexar
objetos multimídia (sons, imagens, gráficos) armazenar material produzido e de
arquivo (memória), agilizar produções, compor conteúdos para a web, recuperar,
informações e, principalmente, cruzar dados que gerem uma nova informação
visual e dinâmica [...] Em relação à infografia se verifica a presença do Mashups
na composição de base de dados de diversas fontes com a possibilidade do uso
de fotos do Flickr e vídeos do Youtube a partir do uso de uma plataforma do
Google Maps para representar, por exemplo, um mapa geográfico da
criminalidade em uma cidade.
23 The term “mashup” has its origins in music. The advent of digital editing technologies made it relatively
simple for DJs and amateurs to take two or more different songs and mash them together to create novel
creations. […] The term mashup now extends to applications that mix together disparate sets of data to create
new and unique information.
44
Não existe mais uma discussão sobre se os jornalistas precisam ser alfabetizados
digitalmente. Hoje, a habilidade de produzir notícias requer a capacidade de
desenvolver programas capazes de fazerem raspagem de dados nas bases de
dados dos registros públicos e criar interfaces de design que façam as
informações contidas nesses bancos de dados interessantes, relevantes e
acessíveis. São obrigatórias a programação e as habilidades de design para
criação de apresentações interativas que representem os modelos das complexas
questões de ordem pública ou para explicar os processos sociais. Isso também
requer o domínio das tecnologias de mídias sociais utilizadas para organizar as
comunidades em torno de interesses, questões e preocupações. Exige ainda
questões éticas necessárias para garantir que o conteúdo gerado para essas
avançadas ferramentas são exatos, justos, globais e proporcionais. No entanto, a
transformação digital de produção e entrega notícias, exige que os jornalistas se
tornem criadores e não apenas consumidores de tecnologias de computação. Eu
não estou dizendo que os jornalistas precisam se tornar programadores. Eu estou
dizendo que precisamos ser capazes de raciocinar abstratamente sobre o que
fazemos, compreender todas as possibilidades das ferramentas computacionais à
nossa disposição e colaborar para implantar essas ferramentas com a máxima
eficiência e eficácia. Isso significa poder compreender as novas estruturas e
24
processos subjacentes de criação de mídia. (PEARSON, 2009 – tradução nossa)
24 There's no longer an argument about whether journalists need to be digitally literate. Today, newsgathering
requires the ability to write programs that scrape public records databases and design interfaces that make the
information in those databases interesting, relevant and accessible. It requires the programming and design
skills to create interactive presentations that model complex public policy issues or explain social processes.
It requires the mastery of social media technologies used to organize online communities around shared
interests, issues and concerns. It requires the ethical grounding needed to ensure that the content generated by
these advanced tools is accurate, fair, comprehensive and proportional. However, the digital transformation
of newsgathering and delivery requires that journalists become creators, not just consumers of computing
technologies. I'm not saying that journalists need to become programmers. I'm saying that we need to be able
to reason abstractly about what we do, understand the full palette of computational tools at our disposal, and
collaborate to deploy those tools with maximum efficiency and effectiveness. That means understanding the
underlying structures and processes of media creation. (PEARSON, 2009:on-line)
49
25 Computational Journalism is defined as the combination of algorithms, data, and knowledge from the social
sciences to supplement the accountability function of journalism
26 The future of journalistic organizations on the networks remains conditioned on their ability in translating the
capabilities made possible by databases for automatically storing, classifying, indexing, connecting,
searching and retrieving vast quantities of data in creative types for narration. (MACHADO, 2004b in:
BARBOSA, RIBAS)
50
Contudo, para que este anseio por inovações se torne uma realidade, Tim
51
Brown (2010), CEO da Ideo, uma das maiores e mais respeitadas consultorias de
design e inovação do mundo, expõe que os profissionais dessa era precisam
desenvolver uma nova e complementar habilidade, por ele classificada como: design
thinking.
Alguém que conhece muito bem sua área de trabalho e as ferramentas nela
utilizadas, tornando-se capaz de criar coisas incríveis e de resolver todo tipo de
problemas a partir desse conhecimento. [...] Um administrador de redes com
conhecimentos profundos sobre vários tipos de protocolos de comunicação,
hardware e sistemas de segurança é tão hacker quanto um encanador calejado
por anos de profissão e capaz de consertar qualquer tipo de encanamento, por
mais furado que esteja. (CARMONA, 2005)
atitude, você tem que realmente acreditar nessa atitude. (RAYMOND, s/d)
Mas afinal, por que atrelar a palavra jornalista ao termo hacker? Como
apresentado nos capítulos anteriores, o jornalista do futuro, além de ser um contador
de histórias e um produtor de conteúdo multimídia, deverá aliar à sua prática diária
essa tal essência “hacker” e, com o auxílio do seu pensamento computacional,
começar a utilizar de forma mais inteligente o infinito oceano informacional
disponível na rede. Afinal, se o jornalismo busca ser relevante e despertar a atenção
do seu público, será obrigado a se reinventar e readaptar-se ao seu novo ambiente
de prática. Como aponta Antônio Fidalgo (2007), “a tarefa que fica em aberto é a
experimentação e a investigação das novas formas de informação jornalística que os
novos meios e as novas tecnologias vêm tornar possível”.
Em um primeiro momento, antes de desenvolver habilidades específicas em
softwares e linguagens de programação, o profissional de comunicação deve
57
Um palavra para aqueles que pensam que a Internet significa o fim da mídia
impressa tradicional: "Os hackers jornalistas" chegaram para salvar o dia. Um
grupo de crianças recém-cunhadas de gênios da mídia, que resolveram misturar
alta tecnologia com pesadas técnicas de jornalismo, está tendo um olhar mais
atento com relação aos caminhos que a crise dos códigos computacionais do
século 21 e o jornalismo tradicional podem ter, onde ambos têm espaço não só
para coexistir, mas também para prosperar. E o primeiro lote deles já saiu da
58
27 Word to those who think the Internet spells the end of traditional print media: "hacker journalists" have
arrived to save the day. A cadre of newly minted media whiz kids, who mix high-tech savvy with hard-nosed
reporting skills, are taking a closer look at ways in which 21st century code-crunching and old-fashioned
reporting can not only coexist but also thrive. And the first batch of them has just emerged from
Northwestern University's Medill School of Journalism. They've just completed a new master's program at
Medill — with scholarships from the John S. and James L. Knight Foundation — aimed at training
programmers in basic journalism so they can better understand how technology is impacting the industry and
trying to engineer change down the road. Medill isn't the only higher-education institution blending computer
programming and journalism; at other schools such as the Georgia Institute of Technology and the University
of California, Berkeley, traditional J-school programs are incorporating a dose of tech-thumping. Spurred by
the success of content-driven websites such as Digg, which creates a front page of news stories based on
what readers deem most popular each day, the brains behind these new programs are trying to capitalize on
ways in which sophisticated programming can make the delivery of news more accessible.
59
"As maneiras de se fazer jornalismo podem estar mudando, mas o papel dos
meios de comunicação de informar o público e responsabilizar o governo continua
o mesmo", diz Brian Boyer, que cunhou o termo "jornalista hacker" para descrever
este novo tipo de jornalista. [!] "Embora as competências básicas do jornalismo
sejam sempre a de uma informação sólida e uma redação clara, não se trata mais
apenas de narrativa", diz o diretor do curso de novas mídias da Berkeley, Paulo
Grabowicz. Ele acrescenta que, embora algumas empresas de mídia mais
conservadoras possam ser "lentas" ou "hesitantes" - ou quebradas -, elas serão
obrigados a fazer a contratação de novos técnicos, a fim de competir com os
emergentes empreendimentos. Brian Boyer, o original jornalista hacker, prefere
colocar isso de forma diferente, comparando a mudança de paradigma com o
velho ditado de que se você não pode vencê-los, junte-se a eles. "Se a origem do
tumulto no negócio das notícias é a tecnologia", diz ele, "então o jornalismo
29
precisa de mais nerds". (VILLANO, online, tradução nossa)
Afinal, como foi apontado, mais do que apurar e escrever bons textos, para
estas empresas, este novo perfil de profissional deverá saber lidar com a grande
quantidade de informação proveniente de diferentes bases de dados (sejam
públicas, privadas, abertas, fechadas etc), desenvolver e utilizar ferramentas de
extração, filtragem, cruzamento e visualização de dados, entre tantas outras
atividades computacionais ainda a serem concebidas.
É assim, diante de todos estes fatos, que este trabalho promove uma última
pergunta-reflexão: Você, jornalista, está preparado para esta realidade e estes
novos desafios? Chegou a hora de revolucionar-se!
29 "The forms of journalism might be changing, but the role of the media to inform the public and hold
government accountable remains the same," says Boyer, who coined the term "hacker journalist" to describe
this new breed of newsman. [..] "While the core skills of journalism will always be solid reporting and clear
writing, it's not just about storytelling anymore," says Berkeley's director of new media Paul Grabowicz. He
adds that although some old-school media companies may be "slow" or "hesitant" — or too broke — to hire
techies, they will be forced to do so in order to compete with more entrepreneurial ventures. Boyer, the
original hacker journalist, prefers to put it differently, likening the paradigm shift to the old adage that if you
can't beat 'em, join 'em. "If the source of the tumult in the news business is technology," he says, "then
journalism needs more nerds."
61
8 Considerações finais
Como foi apresentado neste trabalho, nesta nova era informacional, também
conhecida como “The age of big data” – a era das grandes bases de dados--, o
nosso maior desafio será o de saber lidar com esta gigantesca massa de dados.
Afinal, como seremos relevantes e despertaremos a atenção do nosso público em
um ambiente cada vez mais rico em informação? Como podemos ver, já faz parte da
essência do bom jornalismo a arte de filtrar e traduzir dados em informação. O faro
jornalístico para se encontrar as notícias em meio aos milhões de fatos que fazem
parte diariamente de nosso caótico e complexo mundo é aguçado e perspicaz.
Portanto, devemos transportar estas e tantas outras características para o ambiente
das redes digitais conectadas, a fim de continuarmos sendo úteis para a nossa
sociedade. Para tanto, cada vez mais, devemos aliar o uso de novas ferramentas e
rompermos com os dogmas já estabelecidos. O futuro do jornalismo se dará em
sincronia com as ciências da computação e da informação, com o design, com a
matemática, com a estatística e diversos outros campos de estudo. Tentar limitar ou
fechar os olhos a esta realidade significará um retrocesso.
Referências Bibliográficas
2005.
DUBOST, K. Open data, you and me. Jan. 2008. Disponível em:
<http://www.w3.org/QA/2008/01/open_data_you_and_me.html>. Acesso em: nov.
2010.
FEW, S. Data Visualization: past, present, and future, 2003. Disponível em:
<http://www.perceptualedge.com/articles/Whitepapers/Data_Visualization.pdf>.
Acesso em: set. 2010.
OPEN data: openess and licensing. Open Knowledge Foundation. Disponível em:
<http://blog.okfn.org/2009/02/02/open-data-openness-and-licensing/>. Acesso em:
66
nov. 2010.
THE A.I. revolution. Wired Magazine Online. Jan. 2011. Disponivel em:
<http://www.wired.com/magazine/2010/12/ff_ai_essay_airevolution/>. Acesso em:
jan.2011
W3C Semantic Web Activity. Disponível em: <http://www.w3.org>. Acesso em: out.
2010.