You are on page 1of 13

Análise de Redes na Construção de Corpora de Pesquisa:

a seleção de imagens
Luciano de Sampaio Soares
Universidade Tuiuti do Paraná
lenteaberta@gmail.com

Resumo:

Ao se pesquisar imagens, a seleção de um corpus de pesquisa é tarefa necessária


para a obtenção de resultados devidamente e válidos cientificamente. Em especial ao
se trabalhar com uma quantidade relativamente alta de material imagético, a decisão
sobre quais imagens passarão por análises mais aprofundadas se torna essencial ao
estudo. O presente artigo oferece uma opção metodológica baseada em análise de
redes para a seleção de imagens de corpora de pesquisa, visando um embasamento
criterioso e fundamentado das opções feitas no recorte, associando também etapas
qualitativas à análise estatística do material coletado.

Palavras-chave: Metodologia; corpora de pesquisa; análise de redes; Estudos da

Imagem.

Introdução

Na proposição do estudo das imagens pelas Ciências Sociais, a definição do material

específico a ser avaliado nas etapas empíricas da investigação se torna crucial na

determinação dos rumos da pesquisa, além de influenciar diretamente na validade dos

resultados posteriormente obtidos (GOLDENBERG, 2004). Enquanto amostragens

estatísticas tradicionais são frequentemente utilizadas como referência para a delimitação do

material a ser estudado, pesquisadores como Bauer; Aarts (2003) elencam diversos problemas

que tal procedimento apresenta em termos de distorções das amostras obtidas

estatisticamente, principalmente quanto à representatividade da amostra em relação ao

universo estudado. Especificamente no caso de imagens

Este artigo pretende então descrever um processo alternativo para a construção de corpora

de pesquisa, utilizando para isso uma combinação de abordagens quantitativas e qualitativas

tratadas por meio de técnicas e conceitos das Ciências de Dados (Data Science) (STANTON,

2012) e da Ciência de Redes (Network Science) (BARABÁSI, 2012). Para ilustrar o


desenvolvimento do método aqui discutido serão utilizadas imagens obtidas em Páginas 1

(fanpages) do Facebook, ainda que outros objetos de estudo – inclusive materialidades não

imagéticas – sejam igualmente passíveis de receber este tipo de tratamento. O método aqui

descrito, aplicado à amostra de exemplo, faz parte de uma pesquisa de mestrado ainda em

curso, com previsão de conclusão no ano de 2015.

Espera-se que a sequência aqui apresentada demonstre ao pesquisador a validade da opção

por tal procedimento e por ferramentas que reforcem a representatividade de um corpus em

relação as perguntas de pesquisa que se pretende responder, bem como o embasamento

metodológico sólido para a justificativa dos objetos que comporão o corpus.

Coleta e definição inicial

Para exemplificar o procedimento de análise de redes na construção e corpora de

pesquisa, será utilizado um universo de 2.000 imagens coletadas em Páginas do Facebook 2

entre 19 e 30 de julho de 2013. A obtenção dos dados referentes às publicações foi realizada

pelo aplicativo Netvizz3 considerando as últimas 1.000 publicações de cada fonte selecionada.

Das 45.000 publicações cujos dados foram recuperados pelo aplicativo e obtidos em forma

tabular, 6.339 entradas eram imagens estáticas.

O passo seguinte deste procedimento, então, foi a obtenção dos arquivos destas imagens,

cuja nomenclatura seguiu a ordem crescente de recompartilhamentos sofridos, realizada

1
"As Páginas do Facebook são semelhantes às linhas do tempo pessoais, mas oferecem ferramentas
exclusivas para conectar as pessoas a um tópico pelo qual elas se interessam, como uma empresa, marca,
organização ou celebridade. Além disso, as Páginas são gerenciadas por administradores proprietários de
linhas do tempo pessoais. As Páginas não são separadas das contas do Facebook e não têm as informações de
login separadas da sua linha do tempo. Você pode curtir uma página para ver as atualizações no Feed de
notícias." (FACEBOOK, 2013)
2
As páginas aqui mencionadas foram selecionadas a partir de critérios arbitrários utilizando ferramentas
como a "Sugestão de Páginas" e "Páginas semelhantes". Os critérios adotados compreendem: 1) mais de 1
milhão de seguidores; 2) ausência de vínculo explícito com marcas, empresas e/ou celebridades; e 3)
publicação frequente de material imagético. Ao total, 45 páginas, das quais algumas não mais estão ativas,
foram selecionadas dessa forma.
3
O Netvizz é uma ferramenta para recuperação de dados relevantes a diversos tipos de páginas do Facebook,
incluindo perfis pessoais e Páginas e pode ser encontrado em: <http://apps.facebook.com/netvizz>
também a partir do arquivo fornecido pelo Netvizz, por meio da informação presente na

coluna Picture. Assim, a imagem com maior quantidade de recompartilhamentos recebeu o

nome de arquivo de 00001, enquanto a menos recompartilhada foi designada como 06339.

Como forma de automatizar esse processo – download da imagem e nomenclatura –, um

script na linguagem de programação Python4 foi desenvolvido.

De posse dos arquivos, ferramentas de detecção automática de arquivos duplicados 5 foram

utilizadas para remover do universo de imagens aqueles arquivos que apareceram mais de

uma vez na coleta. Foram mantidos sempre os arquivos de numeração mais baixa (e portanto

que apresentaram maior quantidade de recompartilhamentos) para cada arquivo duplicado

encontrado.

Além das imagens duplicadas, no estudo que idealizou esta metodologia também foram

removidas da amostra imagens de conteúdo puramente textual, como por exemplo, a Figura

1. Este tipo de publicação é comumente encontrado no Facebook como alternativa à

publicação de texto direto, devido às limitações de estilo tipográfico presentes na plataforma.

FIGURA 1 – Exemplo de imagem puramente textual

4
Python é uma linguagem de programação de alto nível, orientada a objetos e que não requer compilação de
código para que um programa ou script seja executado. (“What is Python? Executive Summary”, [s.d.]). O
script coleta.py utilizado pode ser encontrado em: < https://copy.com/jhxKGI2ewTgHR4lp>.
5
Os aplicativos MacPaw Gemini (disponível em: < http://macpaw.com/gemini> e dupeGuru Photo Edition
(disponível em: < http://www.hardcoded.net/dupeguru_pe/> comparam metadados e informação binária de
arquivos para encontrar identidades.
Fonte: Página Saudades <https://www.facebook.com/photo.php?fbid=487634821308469>

Excluídas as imagens duplicadas e textuais, reduziu-se o conjunto de imagens para análise

a um total de 4428 arquivos.

Uma etapa opcional

Em virtude de limitações da pesquisa, uma segunda etapa de filtros se fez necessária para

o início da formação de uma rede de categorias. Ressalta-se que, dependendo das condições

técncas disponíveis, a divisão aqui apresentada pode se mostrar desnecessária em outras

aplicações desta metodologia.

Porém, uma vez que a capacidade computacional disponível para o estudo se mostrou

bastante limitada, fez-se necessário reduzir o conjunto total de análise ainda mais, e para

tanto foram criados dois agrupamentos principais de imagens:

 Topo: grupo que reúne as 1000 imagens com maior contagem de

recompartilhammentos após as exclusões de duplicatas e textuais; e

 Baixo: compreendendo as 1000 imagens menos recompartilhadas da coleta, após

as exclusões de duplicatas e textuais.


Com essa redução da amostra para 2000 imagens, foi-se então possível, dentro da

limitação técnica da pesquisa, proceder com a composição da rede e subsequente análise e

determinação do corpus imagético. Explicita-se também que, no estudo em questão, cada

grupo foi analisado como uma rede diferente, ainda como forma de atender a reduzida

capacidade computacional disponível para a pesquisa.

Redes de categorização

Uma rede nada mais é do que um mapa, uma forma de representação de um conjunto de

entidades e das relações estabelecidas entre estas entidades (BARABÁSI, 2012). Por

convenção chamam-se as entidades representadas neste mapa de nós, enquanto as relações

estabelecidas recebem a nomenclatura de arestas. Raquel Recuero (2009, p. 20), afirma que a

representação de nós e arestas – o grafo – "pode ser utilizada como metáfora para diversos

sistemas". Entre os exemplos possíveis para a utilização de redes, Alfred Lazlo-Barabási

(2012, p. 11-16) cita o exame da interação de moléculas em organismos biológicos, padrões

de distribuição e avanço de doenças contagiosas, círculos de amizades, estudos neurológicos

e o combate ao terrorismo. Ainda que para cada uma dessas atividades, os elementos

estudados sejam extremamente heterogêneos, a estrutura encontrada na composição destas

redes é bastante semelhante.

Dada esta diversidade em tamanho, escopo, história, e evolução, não se


deveria causar surpresa se as redes por trás destes sistemas diferissem
muito. Ainda assim, uma descoberta chave da ciência de redes é que a
arquitetura e evolução de redes emergentes em vários domínios da ciência,
natureza, e tecnologia são bastante similares entre si, permitindo que
utilizemos um conjunto comum de ferramentas matemáticas para explorá-
los. (BARABÁSI, 2012, p. 8)

Desta forma acredita-se que as ferramentas matemáticas oriundas da ciência de redes,

devidamente adaptadas às necessidades do estudo em questão, podem oferecer uma

alternativa válida à utilização apenas de dados estatísticos na definição de corpora de


pesquisa com imagens. Além disso, a opção por uma metodologia que vá além apenas da

estatística segue a premissa de Hadley Wickham (2014) de que

A pesquisa estatística foca em coleta e modelagem de dados, com pouco


trabalho no desenvolvimento de boas questões, no pensamento sobre a
forma dos dados, ou na comunicação de resultados e construção de produtos
de dados.

Construção da rede de categorização

Após definir a opção pelo tratamento do conteúdo de ambos os grupos da amostra por

meio da análise de redes, torna-se necessário identificar então os elementos que comporão a

estrutura do grafo, ou seja, seus nós e arestas.

No estudo ora apresentado, os nós da rede são as imagens presentes nos grupos, e as restas

– as relações entre as imagens – são estabelecidas a partir de características comuns a cada

imagem. Estas características foram atribuídas a cada arquivo por meio de uma análise

baseada na metodologia descrita por Schlomo Lee Abrahmov (2008), considerando os três

níveis de significado da imagem, quais sejam:

 o nível factual, compreendendo aspectos formais e elementares da imagem;

 o nível interpretativo, aplicando significados aos diferentes elementos presentes

na imagem; e

 o nível conceitual, derivado da composição dos níveis anteriores para a obtenção

de um tema universal para a imagem.

Foram atribuídas a cada imagem as seguintes classificações: 1) a presença ou não de texto

no quadro da imagem, 2) a ocorrência de chamada à ação, e 3) o tipo de produção, que

correspondem ao nível factual da análise. O nível interpretativo da imagem corresponde à

classificação primária, enquanto o nível conceitual de análise é contemplado pela

classificação secundária. Enquanto as duas primeiras classificações (texto e chamada à ação)


receberam valores booleanos de verdadeiro ou falso, os valores correspondentes as demais

classificações estão elencados.

QUADRO 1 – Valores possíveis em cada classificação

Tipo Primária Secundária Primária Secundária


Foto Abstrato Cenáario Fundo Moda
Ilustração Ação Citação Ícone Nostalgia
Manipulação Alimentação Comparação Local Personalidade
Misto Animais Cultura Meme Pet
Arquitetura Ecologia Mídia Promoção
Arte Economia Objeto Relacionamentos
Beleza Educação Paisagem Religião
Cidade Entretenimento Publicidade Saúde
Cotidiano Estilo de Vida Retrato Sentimentos
Criançca Gênero Tecnologia Sociedade
Esporte Jornalístico Vegetais Trânsito
Evento Marca Trívia

Com estas classificações aplicadas, tornou-se então possível relacionar as diversas

imagens existentes umas às outras, dentro de cada grupo. A obtenção dessa correlação – ou

seja, a formação das arestas da rede – foi realizada pela utilização de um script criado na

linguagem de programação estatística R6. Além de revelar as características individuais

compartilhadas pelas diferentes imagens, o script também aplica uma medida numérica de

peso (weight), evidenciando a quantidade de identidades entre cada par de imagens. Por

exemplo, o nó 00001 apresenta, em relação ao nó 00550, três valores idênticos nas

classificações atribuídas e, portanto, a aresta relativa ao par 00001-00550 tem peso três. Esta

medida é significativa na rede por afetar o cálculo de algumas métricas, além de definir a

rede – acompanhada da falta de direção clara de uma aresta – como assimétrica (RECUERO,

2009, p. 177).

6
Mais informações a respeito da linguagem de programação R podem ser encontradas em: < http://www.r-
project.org/>. O script Comparação-arestas.R está disponível em: < https://copy.com/lbj0lPdHrsXGq1a2>.
Uma alternativa automatizada

Dependendo da natureza da investigação, o processo de classificação descrito

anteriormente não é o mais indicado. Projetos como SelfieCity7, por exemplo, utilizam

técnicas de leitura automatizada das imagens, em busca de valores objetivos como cores,

luminância, etc. Além destes, o SelfieCity também utilizou ferramentas de reconhecimento

facial para identificar estados de humor e outras características, como poses e similares, nas

imagens por eles coletadas.

Também se deve mencionar que, apesar da utilização de automação, o projeto de

Manovich lançou mão de recursos humanos para validar os dados obtidos pelas ferramentas

de software.

Ainda assim, dependendo da natureza da investigação, a obtenção de classificações de

forma automática por meio de software pode e deve ser utilizada de acordo com os critérios

da pesquisa, bem como da disponibilidade do aparato técnico necessário.

Análise das redes de classificação

A partir do momento que nós e arestas de uma rede estão definidos é possível proceder

com a etapa quantitativa da análise. De cunho estatístico, este passo oferece uma série de

escolhas ao pesquisador que são integralmente dependentes da natureza do estudo

desenvolvido. No caso da pesquisa ora apresentada, o corpus pretendido deveria ser

composto pelas imagens mais relevantes dentro da rede, aquelas que, a partir de métricas

características desse tipo de estrutura, pudessem se consideradas como mais representativas

na amostra.

7
Projeto de pesquisa coordenado por Lev Manovich da universidade da cidade de Nova York que analisou as
selfies (autor retratos normalmente publicados em sites de redes sociais) de 5 cidades em diferentes regiões
do planeta: Bangkok, Berlin, Moscou, Nova York e São Paulo. O projeto pode ser acessado em: <
http://selfiecity.net/>
Para a montagem das redes e composição dos grafos foi utilizado o aplicativo de código

livre Gephi8 (BASTIAN; HEYMANN; JACOMY, 2009), onde também se realizaram os

cálculos necessários para a definição do corpus final.

Uma vez que as redes aqui demonstradas podem ser consideradas praticamente completas

(BARABÁSI, 2012) por apresentarem conexões entre quase todos os nós, os grafos9 destas

estruturas não oferecem – ao contrário do que ocorre em redes com menores taxas de

interligação – grandes percepções a respeito das redes. Portanto, não se dará aqui o destaque

dado ao grafo como ferramenta de interpretação, preferindo-se trabalhar com uma hierarquia

de métricas da rede diretamente.

Para a definição do corpus da pesquisa que formulou esta metodologia foram elencadas –

dentro de cada grupo – as imagens que apresentam primeiramente maior grau ponderado

médio (ou seja, a medida da quantidade de conexões de um nó, relacionada ao peso médio

dessas conexões), subsequentemente dispostas por PageRank, algoritmo desenvolvido por

Sergey Brin e Larry Page (1998) para o motor de busca online Google baseado no conceito

de navegação cega, que consiste em uma medida de proximidade dos diversos nós e a

facilidade com que, partindo de um nó qualquer, é possível chegar a qualquer outro nó da

rede de forma aleatória. Enquanto o grau ponderado médio oferece uma visão da importância

relativa de um nó dentro da rede de acordo com a quantidade e qualidade das identidades com

outros nós, o PageRank permite inferir a relevância de um nó em relação a outros nós com os

quais não necessariamente compartilha arestas. É importante ressaltar que ambas as métricas

consideram o peso das arestas em seu cálculo. Assim, ao mesmo tempo em que nós com alto

grau (grande número de conexões, independente do peso destas) podem se destacar devido à

sua posição na rede, nós com grau reduzido mas com grande taxa de correlação em suas

8
O Gephi é um aplicativo de manipulação e análise de redes gratuito e multiplataforma, disponível em:
<http://www.gephi.org>.
9
Os arquivos de alta resolução dos grafos das redes podem ser encontrados em: grupo topo: <
https://copy.com/ygH0M3S9GwLBSFQ1>; grupo baixo: < https://copy.com/Am0uEHqND1o3SQis>.
arestas (peso elevado) também se mostram relevantes na rede. Naturalmente, nós de alto grau

e com arestas de peso elevado são os que mais se destacam neste conjunto de métricas.

Outras métricas possíveis

Devido à natureza quase completa da rede, algumas métricas que forneceriam a

classificação de relevância dos nós de forma mais direta se apresentaram bastante

homogêneas em valor, dificultando o processo de seleção das imagens a partir da rede.

Medidas comumente utilizadas em estudos de redes como as de centralidade (BONACICH,

1987; FREEMAN, 1979), neste caso, apresentaram uma distribuição homogênea e, portanto,

não foram utilizadas como determinantes no processo de seleção das imagens do corpus,

ainda que em redes de estruturas diferentes sejam uma opção bastante válida na determinação

de elementos relevantes da rede. As diferentes medidas de centralidade se referem à posição

assumida por um nó na estrutura geral da rede, e são derivadas do número de conexões, do

comprimento do caminho entre dois nós, ou das arestas presentes nos vizinhos (i.e.: os nós

com os quais o nó em questão compartilha arestas diretamente) do nó estudado (BRANDES,

2001).

Da mesma forma, medidas de agrupamento (clustering), que relacionam os nós dentro de

subgrupos da rede, também foram descartadas neste estudo – ainda que possam ser aplicadas

em outras amostras com maior sucesso – devido à baixa diferenciação de agrupamentos nas

redes ora estudadas. Os clusters, ou conjuntos, de nós são classificados de acordo com a

coesão demonstrada matematicamente por seus nós, e indicam a resiliência da rede contra

influências externas.

O corpus definido

A partir da hierarquia de métricas apresentada anteriormente, então, tornou-se possível

obter um conjunto de 16 imagens para a análise final do corpus de pesquisa, a partir ainda de

mais um critério arbitrário relacionado à classificação tipo da rede de imagens. Em cada um


dos grupos foram selecionadas 2 imagens de cada classificação (Foto, Ilustração,

Manipulação, e Mista), visando obter uma representatividade de cada um destes estilos

imagéticos na análise final. Na tabela 1 estão dispostos os dados relativos a cada uma das

imagens selecionadas para o corpus definitivo do trabalho.

TABELA 1 – Classificação e métricas do corpus definitivo

Imagem Grupo Texto Chamada Categoria Primária Secundária Grau P. PageRank Shares
à ação Médio
01175.jpg alto V F Foto Retrato Citação 3003.0 0.0011456 1291
01206.jpg alto V F Foto Retrato Citação 3003.0 0.0011456 1227
00140.jpg alto V F Ilustração Retrato Citação 2587.0 0.0010101 8327
00427.jpg alto V F Ilustração Retrato Citação 2587.0 0.0010101 3831
00495.jpg alto V F Manipulação Retrato Citação 2386.0 9.42620-4 3430
00450.jpg alto V F Manipulação Retrato Citação 2386.0 9.42620-4 3671
01302.jpg alto V F Misto Retrato Personalidade 2300.0 9.13269-4 1077
00729.jpg alto V F Misto Criança Citação 2176.0 8.72847-4 2345
05018.jpg baixo V F Foto Retrato Estilo de Vida 2644.0 0.0011591 29
04942.jpg baixo V F Foto Retrato Estilo de Vida 2644.0 0.0011591 33
05024.jpg baixo V F Ilustração Retrato Estilo de Vida 2022.0 9.28273-4 29
06218.jpg baixo V F Ilustração Retrato Moda 2001.0 9.195822-4 1
05496.jpg baixo V F Manipulçãao Midia Estilo de Vida 1900.0 8.816520-4 12
05901.jpg baixo F F Manipulçãao Objeto Estilo de Vida 1826.0 8.426547-4 1
06241.jpg baixo V F Misto Retrato Estilo de Vida 1896.0 8.774337-4 1
05094.jpg baixo V F Misto Mídia Estilo de Vida 1874.0 8.711768-4 27

Em virtude do pouco espaço disponível para um artigo desta natureza, as imagens

propriamente ditas não serão incluídas neste material10.

Considerações Finais

A composição de um corpus é uma atividade essencial ao processo de pesquisa, em

especial quando se pretende investigar uma grande quantidade de material. Os recortes feitos

nas amostras permitem que o pesquisador, sem prejudicar a validade de sua pesquisa,

concentre seus esforços analíticos no fenômeno estudado. Porém, independente da

metodologia escolhida para a aplicação destes recortes, uma série de escolhas arbitrárias

inevitavelmente se apresenta ao estudioso. Seja na decisão do teste estatístico a ser aplicado,

10
As imagens podem ser acessadas em <https://copy.com/rkcL8IAxFWm6a2SL>.
ou na utilização ou não de determinada métrica, essas opções oferecem riscos à

representatividade da amostra final componente dos corpora de investigação.

Não se quer afirmar, com isso, que a metodologia aqui apresentada elimina estes riscos,

mas que esta oferece um conjunto a mais de possibilidades e critérios embasados, visando a

diminuição do impacto destas decisões na validade e representatividade do conjunto de

objetos a serem estudados.

Por meio de critérios já utilizados em outras áreas do conhecimento, devidamente

adaptados à realidade da pesquisa com imagens, torna-se possível mais um passo em direção

ao rigor esperado das ciências como um todo. Além disso, as técnicas computacionais

envolvidas na metodologia aqui apresentada também permitem a utilização de conjuntos

vastos de imagens de maneira prática, dependendo apenas da disponibilidade de recursos

(materiais, tecnológicos e humanos) para a seleção de um corpus.

Entende-se também que a proposta metodológica aqui apresentada é passível de

aprimoramentos e espera-se, com este artigo, alavancar a discussão sobre a inclusão das

técnicas de análise de redes para além da utilização dos grafos como produto final da

pesquisa que lançar mão das práticas das Ciências de Dados e de Redes.

Referências

ABRAHMOV, S. L. Media Literacy: Reading and Writing Images in a Digital Age.


Educating Artists for the Future, Learning at the Intersections of Art, Science
Technology and Culture, 2008.

BARABÁSI, A.-L. Network Science. [s.l.] BarabásiLab, 2012.

BASTIAN, M.; HEYMANN, S.; JACOMY, M. Gephi: an open source software for
exploring and manipulating networks. ICWSM. Anais...2009Disponível em:
<http://www.medialab.sciences-po.fr/publications/Gephi%20paper.pdf>

BAUER, M. W.; AARTS, B. A Construção do Corpus: um princípio para a coleta de dados


qualitativos. In: BAUER, M. W.; GASKELL, G. (Eds.). Pesquisa Qualitativa com Texto,
Imagem e Som: um manual prático. 2. ed. Petrópolis: Vozes, 2003.
BONACICH, P. Power and centrality: A family of measures. American journal of sociology,
p. 1170–1182, 1987.

BRANDES, U. A faster algorithm for betweenness centrality. Journal of Mathematical


Sociology, v. 25, n. 2, p. 163–177, 2001.

BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine.
Computer Networks and ISDN Systems, v. 30, n. 1-7, p. 107–117, abr. 1998.

FACEBOOK. Informações Básicas sobre Páginas. 2013.

FREEMAN, L. C. Centrality in social networks conceptual clarification. Social networks, v.


1, n. 3, p. 215–239, 1979.

GOLDENBERG, M. A Arte de Pesquisar: como fazer pesquisa qualitativa em Ciências


Sociais. 8. ed. Rio de Janeiro: Record, 2004.

RECUERO, R. Redes sociais na internet. Porto Alegre: Sulina, 2009.

STANTON, J. An Introduction to Data Science. Syracuse: Syracuse University, 2012.

What is Python? Executive Summary. Disponível em:


<https://www.python.org/doc/essays/blurb/>. Acesso em: 2 out. 2014.

WICKHAM, H. How is data science different to mainstream statistics? Communication and


visualization are key features of analysis. Impact of Social Sciences, 2014. Disponível em:
<http://blogs.lse.ac.uk/impactofsocialsciences/2014/09/23/data-science-statistics-
communication/>. Acesso em: 23 set. 2014

You might also like