Professional Documents
Culture Documents
a seleção de imagens
Luciano de Sampaio Soares
Universidade Tuiuti do Paraná
lenteaberta@gmail.com
Resumo:
Imagem.
Introdução
material a ser estudado, pesquisadores como Bauer; Aarts (2003) elencam diversos problemas
Este artigo pretende então descrever um processo alternativo para a construção de corpora
tratadas por meio de técnicas e conceitos das Ciências de Dados (Data Science) (STANTON,
(fanpages) do Facebook, ainda que outros objetos de estudo – inclusive materialidades não
imagéticas – sejam igualmente passíveis de receber este tipo de tratamento. O método aqui
descrito, aplicado à amostra de exemplo, faz parte de uma pesquisa de mestrado ainda em
entre 19 e 30 de julho de 2013. A obtenção dos dados referentes às publicações foi realizada
pelo aplicativo Netvizz3 considerando as últimas 1.000 publicações de cada fonte selecionada.
Das 45.000 publicações cujos dados foram recuperados pelo aplicativo e obtidos em forma
O passo seguinte deste procedimento, então, foi a obtenção dos arquivos destas imagens,
1
"As Páginas do Facebook são semelhantes às linhas do tempo pessoais, mas oferecem ferramentas
exclusivas para conectar as pessoas a um tópico pelo qual elas se interessam, como uma empresa, marca,
organização ou celebridade. Além disso, as Páginas são gerenciadas por administradores proprietários de
linhas do tempo pessoais. As Páginas não são separadas das contas do Facebook e não têm as informações de
login separadas da sua linha do tempo. Você pode curtir uma página para ver as atualizações no Feed de
notícias." (FACEBOOK, 2013)
2
As páginas aqui mencionadas foram selecionadas a partir de critérios arbitrários utilizando ferramentas
como a "Sugestão de Páginas" e "Páginas semelhantes". Os critérios adotados compreendem: 1) mais de 1
milhão de seguidores; 2) ausência de vínculo explícito com marcas, empresas e/ou celebridades; e 3)
publicação frequente de material imagético. Ao total, 45 páginas, das quais algumas não mais estão ativas,
foram selecionadas dessa forma.
3
O Netvizz é uma ferramenta para recuperação de dados relevantes a diversos tipos de páginas do Facebook,
incluindo perfis pessoais e Páginas e pode ser encontrado em: <http://apps.facebook.com/netvizz>
também a partir do arquivo fornecido pelo Netvizz, por meio da informação presente na
nome de arquivo de 00001, enquanto a menos recompartilhada foi designada como 06339.
utilizadas para remover do universo de imagens aqueles arquivos que apareceram mais de
uma vez na coleta. Foram mantidos sempre os arquivos de numeração mais baixa (e portanto
encontrado.
Além das imagens duplicadas, no estudo que idealizou esta metodologia também foram
removidas da amostra imagens de conteúdo puramente textual, como por exemplo, a Figura
4
Python é uma linguagem de programação de alto nível, orientada a objetos e que não requer compilação de
código para que um programa ou script seja executado. (“What is Python? Executive Summary”, [s.d.]). O
script coleta.py utilizado pode ser encontrado em: < https://copy.com/jhxKGI2ewTgHR4lp>.
5
Os aplicativos MacPaw Gemini (disponível em: < http://macpaw.com/gemini> e dupeGuru Photo Edition
(disponível em: < http://www.hardcoded.net/dupeguru_pe/> comparam metadados e informação binária de
arquivos para encontrar identidades.
Fonte: Página Saudades <https://www.facebook.com/photo.php?fbid=487634821308469>
Em virtude de limitações da pesquisa, uma segunda etapa de filtros se fez necessária para
o início da formação de uma rede de categorias. Ressalta-se que, dependendo das condições
Porém, uma vez que a capacidade computacional disponível para o estudo se mostrou
bastante limitada, fez-se necessário reduzir o conjunto total de análise ainda mais, e para
grupo foi analisado como uma rede diferente, ainda como forma de atender a reduzida
Redes de categorização
Uma rede nada mais é do que um mapa, uma forma de representação de um conjunto de
entidades e das relações estabelecidas entre estas entidades (BARABÁSI, 2012). Por
estabelecidas recebem a nomenclatura de arestas. Raquel Recuero (2009, p. 20), afirma que a
representação de nós e arestas – o grafo – "pode ser utilizada como metáfora para diversos
e o combate ao terrorismo. Ainda que para cada uma dessas atividades, os elementos
Após definir a opção pelo tratamento do conteúdo de ambos os grupos da amostra por
meio da análise de redes, torna-se necessário identificar então os elementos que comporão a
No estudo ora apresentado, os nós da rede são as imagens presentes nos grupos, e as restas
imagem. Estas características foram atribuídas a cada arquivo por meio de uma análise
baseada na metodologia descrita por Schlomo Lee Abrahmov (2008), considerando os três
na imagem; e
imagens existentes umas às outras, dentro de cada grupo. A obtenção dessa correlação – ou
seja, a formação das arestas da rede – foi realizada pela utilização de um script criado na
compartilhadas pelas diferentes imagens, o script também aplica uma medida numérica de
peso (weight), evidenciando a quantidade de identidades entre cada par de imagens. Por
classificações atribuídas e, portanto, a aresta relativa ao par 00001-00550 tem peso três. Esta
medida é significativa na rede por afetar o cálculo de algumas métricas, além de definir a
rede – acompanhada da falta de direção clara de uma aresta – como assimétrica (RECUERO,
2009, p. 177).
6
Mais informações a respeito da linguagem de programação R podem ser encontradas em: < http://www.r-
project.org/>. O script Comparação-arestas.R está disponível em: < https://copy.com/lbj0lPdHrsXGq1a2>.
Uma alternativa automatizada
anteriormente não é o mais indicado. Projetos como SelfieCity7, por exemplo, utilizam
técnicas de leitura automatizada das imagens, em busca de valores objetivos como cores,
facial para identificar estados de humor e outras características, como poses e similares, nas
Manovich lançou mão de recursos humanos para validar os dados obtidos pelas ferramentas
de software.
forma automática por meio de software pode e deve ser utilizada de acordo com os critérios
A partir do momento que nós e arestas de uma rede estão definidos é possível proceder
com a etapa quantitativa da análise. De cunho estatístico, este passo oferece uma série de
composto pelas imagens mais relevantes dentro da rede, aquelas que, a partir de métricas
na amostra.
7
Projeto de pesquisa coordenado por Lev Manovich da universidade da cidade de Nova York que analisou as
selfies (autor retratos normalmente publicados em sites de redes sociais) de 5 cidades em diferentes regiões
do planeta: Bangkok, Berlin, Moscou, Nova York e São Paulo. O projeto pode ser acessado em: <
http://selfiecity.net/>
Para a montagem das redes e composição dos grafos foi utilizado o aplicativo de código
Uma vez que as redes aqui demonstradas podem ser consideradas praticamente completas
(BARABÁSI, 2012) por apresentarem conexões entre quase todos os nós, os grafos9 destas
estruturas não oferecem – ao contrário do que ocorre em redes com menores taxas de
interligação – grandes percepções a respeito das redes. Portanto, não se dará aqui o destaque
dado ao grafo como ferramenta de interpretação, preferindo-se trabalhar com uma hierarquia
Para a definição do corpus da pesquisa que formulou esta metodologia foram elencadas –
dentro de cada grupo – as imagens que apresentam primeiramente maior grau ponderado
médio (ou seja, a medida da quantidade de conexões de um nó, relacionada ao peso médio
Sergey Brin e Larry Page (1998) para o motor de busca online Google baseado no conceito
de navegação cega, que consiste em uma medida de proximidade dos diversos nós e a
rede de forma aleatória. Enquanto o grau ponderado médio oferece uma visão da importância
relativa de um nó dentro da rede de acordo com a quantidade e qualidade das identidades com
outros nós, o PageRank permite inferir a relevância de um nó em relação a outros nós com os
quais não necessariamente compartilha arestas. É importante ressaltar que ambas as métricas
consideram o peso das arestas em seu cálculo. Assim, ao mesmo tempo em que nós com alto
grau (grande número de conexões, independente do peso destas) podem se destacar devido à
sua posição na rede, nós com grau reduzido mas com grande taxa de correlação em suas
8
O Gephi é um aplicativo de manipulação e análise de redes gratuito e multiplataforma, disponível em:
<http://www.gephi.org>.
9
Os arquivos de alta resolução dos grafos das redes podem ser encontrados em: grupo topo: <
https://copy.com/ygH0M3S9GwLBSFQ1>; grupo baixo: < https://copy.com/Am0uEHqND1o3SQis>.
arestas (peso elevado) também se mostram relevantes na rede. Naturalmente, nós de alto grau
e com arestas de peso elevado são os que mais se destacam neste conjunto de métricas.
1987; FREEMAN, 1979), neste caso, apresentaram uma distribuição homogênea e, portanto,
não foram utilizadas como determinantes no processo de seleção das imagens do corpus,
ainda que em redes de estruturas diferentes sejam uma opção bastante válida na determinação
comprimento do caminho entre dois nós, ou das arestas presentes nos vizinhos (i.e.: os nós
2001).
subgrupos da rede, também foram descartadas neste estudo – ainda que possam ser aplicadas
em outras amostras com maior sucesso – devido à baixa diferenciação de agrupamentos nas
redes ora estudadas. Os clusters, ou conjuntos, de nós são classificados de acordo com a
coesão demonstrada matematicamente por seus nós, e indicam a resiliência da rede contra
influências externas.
O corpus definido
obter um conjunto de 16 imagens para a análise final do corpus de pesquisa, a partir ainda de
imagéticos na análise final. Na tabela 1 estão dispostos os dados relativos a cada uma das
Imagem Grupo Texto Chamada Categoria Primária Secundária Grau P. PageRank Shares
à ação Médio
01175.jpg alto V F Foto Retrato Citação 3003.0 0.0011456 1291
01206.jpg alto V F Foto Retrato Citação 3003.0 0.0011456 1227
00140.jpg alto V F Ilustração Retrato Citação 2587.0 0.0010101 8327
00427.jpg alto V F Ilustração Retrato Citação 2587.0 0.0010101 3831
00495.jpg alto V F Manipulação Retrato Citação 2386.0 9.42620-4 3430
00450.jpg alto V F Manipulação Retrato Citação 2386.0 9.42620-4 3671
01302.jpg alto V F Misto Retrato Personalidade 2300.0 9.13269-4 1077
00729.jpg alto V F Misto Criança Citação 2176.0 8.72847-4 2345
05018.jpg baixo V F Foto Retrato Estilo de Vida 2644.0 0.0011591 29
04942.jpg baixo V F Foto Retrato Estilo de Vida 2644.0 0.0011591 33
05024.jpg baixo V F Ilustração Retrato Estilo de Vida 2022.0 9.28273-4 29
06218.jpg baixo V F Ilustração Retrato Moda 2001.0 9.195822-4 1
05496.jpg baixo V F Manipulçãao Midia Estilo de Vida 1900.0 8.816520-4 12
05901.jpg baixo F F Manipulçãao Objeto Estilo de Vida 1826.0 8.426547-4 1
06241.jpg baixo V F Misto Retrato Estilo de Vida 1896.0 8.774337-4 1
05094.jpg baixo V F Misto Mídia Estilo de Vida 1874.0 8.711768-4 27
Considerações Finais
especial quando se pretende investigar uma grande quantidade de material. Os recortes feitos
nas amostras permitem que o pesquisador, sem prejudicar a validade de sua pesquisa,
metodologia escolhida para a aplicação destes recortes, uma série de escolhas arbitrárias
10
As imagens podem ser acessadas em <https://copy.com/rkcL8IAxFWm6a2SL>.
ou na utilização ou não de determinada métrica, essas opções oferecem riscos à
Não se quer afirmar, com isso, que a metodologia aqui apresentada elimina estes riscos,
mas que esta oferece um conjunto a mais de possibilidades e critérios embasados, visando a
adaptados à realidade da pesquisa com imagens, torna-se possível mais um passo em direção
ao rigor esperado das ciências como um todo. Além disso, as técnicas computacionais
aprimoramentos e espera-se, com este artigo, alavancar a discussão sobre a inclusão das
técnicas de análise de redes para além da utilização dos grafos como produto final da
pesquisa que lançar mão das práticas das Ciências de Dados e de Redes.
Referências
BASTIAN, M.; HEYMANN, S.; JACOMY, M. Gephi: an open source software for
exploring and manipulating networks. ICWSM. Anais...2009Disponível em:
<http://www.medialab.sciences-po.fr/publications/Gephi%20paper.pdf>
BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine.
Computer Networks and ISDN Systems, v. 30, n. 1-7, p. 107–117, abr. 1998.