Análise de Redes Na Composição de Amostras de Pesquisa

Análise de Redes na Construção de Corpora de Pesquisa:
a seleção de imagens
Luciano de Sampaio Soares
Universidade Tuiuti do Paraná
lenteaberta@gmail.com
Resumo:
Ao se pesquisar imagens, a seleção de um corpus de pesquisa é tarefa necessária

para a obtenção de resultados devidamente e válidos cientificamente. Em especial ao
se trabalhar com uma quantidade relativamente alta de material imagético, a decisão
sobre quais imagens passarão por análises mais aprofundadas se torna essencial ao
estudo. O presente artigo oferece uma opção metodológica baseada em análise de
redes para a seleção de imagens de corpora de pesquisa, visando um embasamento
criterioso e fundamentado das opções feitas no recorte, associando também etapas
qualitativas à análise estatística do material coletado.
Palavras-chave: Metodologia; corpora de pesquisa; análise de redes; Estudos da
Imagem.
Introdução
Na proposição do estudo das imagens pelas Ciências Sociais, a definição do material
específico a ser avaliado nas etapas empíricas da investigação se torna crucial na
determinação dos rumos da pesquisa, além de influenciar diretamente na validade dos
resultados posteriormente obtidos (GOLDENBERG, 2004). Enquanto amostragens
estatísticas tradicionais são frequentemente utilizadas como referência para a delimitação do
material a ser estudado, pesquisadores como Bauer; Aarts (2003) elencam diversos problemas
que tal procedimento apresenta em termos de distorções das amostras obtidas
estatisticamente, principalmente quanto à representatividade da amostra em relação ao
universo estudado. Especificamente no caso de imagens
Este artigo pretende então descrever um processo alternativo para a construção de corpora
de pesquisa, utilizando para isso uma combinação de abordagens quantitativas e qualitativas
tratadas por meio de técnicas e conceitos das Ciências de Dados (Data Science) (STANTON,
2012) e da Ciência de Redes (Network Science) (BARABÁSI, 2012). Para ilustrar o

desenvolvimento do método aqui discutido serão utilizadas imagens obtidas em Páginas 1
(fanpages) do Facebook, ainda que outros objetos de estudo – inclusive materialidades não
imagéticas – sejam igualmente passíveis de receber este tipo de tratamento. O método aqui
descrito, aplicado à amostra de exemplo, faz parte de uma pesquisa de mestrado ainda em
curso, com previsão de conclusão no ano de 2015.
Espera-se que a sequência aqui apresentada demonstre ao pesquisador a validade da opção
por tal procedimento e por ferramentas que reforcem a representatividade de um corpus em
relação as perguntas de pesquisa que se pretende responder, bem como o embasamento
metodológico sólido para a justificativa dos objetos que comporão o corpus.
Coleta e definição inicial
Para exemplificar o procedimento de análise de redes na construção e corpora de
pesquisa, será utilizado um universo de 2.000 imagens coletadas em Páginas do Facebook 2
entre 19 e 30 de julho de 2013. A obtenção dos dados referentes às publicações foi realizada
pelo aplicativo Netvizz3 considerando as últimas 1.000 publicações de cada fonte selecionada.
Das 45.000 publicações cujos dados foram recuperados pelo aplicativo e obtidos em forma
tabular, 6.339 entradas eram imagens estáticas.
O passo seguinte deste procedimento, então, foi a obtenção dos arquivos destas imagens,
cuja nomenclatura seguiu a ordem crescente de recompartilhamentos sofridos, realizada
1
"As Páginas do Facebook são semelhantes às linhas do tempo pessoais, mas oferecem ferramentas
exclusivas para conectar as pessoas a um tópico pelo qual elas se interessam, como uma empresa, marca,
organização ou celebridade. Além disso, as Páginas são gerenciadas por administradores proprietários de
linhas do tempo pessoais. As Páginas não são separadas das contas do Facebook e não têm as informações de
login separadas da sua linha do tempo. Você pode curtir uma página para ver as atualizações no Feed de
notícias." (FACEBOOK, 2013)
2
As páginas aqui mencionadas foram selecionadas a partir de critérios arbitrários utilizando ferramentas
como a "Sugestão de Páginas" e "Páginas semelhantes". Os critérios adotados compreendem: 1) mais de 1
milhão de seguidores; 2) ausência de vínculo explícito com marcas, empresas e/ou celebridades; e 3)
publicação frequente de material imagético. Ao total, 45 páginas, das quais algumas não mais estão ativas,
foram selecionadas dessa forma.
3
O Netvizz é uma ferramenta para recuperação de dados relevantes a diversos tipos de páginas do Facebook,
incluindo perfis pessoais e Páginas e pode ser encontrado em: <http://apps.facebook.com/netvizz>
também a partir do arquivo fornecido pelo Netvizz, por meio da informação presente na
coluna Picture. Assim, a imagem com maior quantidade de recompartilhamentos recebeu o
nome de arquivo de 00001, enquanto a menos recompartilhada foi designada como 06339.
Como forma de automatizar esse processo – download da imagem e nomenclatura –, um
script na linguagem de programação Python4 foi desenvolvido.
De posse dos arquivos, ferramentas de detecção automática de arquivos duplicados 5 foram
utilizadas para remover do universo de imagens aqueles arquivos que apareceram mais de
uma vez na coleta. Foram mantidos sempre os arquivos de numeração mais baixa (e portanto
que apresentaram maior quantidade de recompartilhamentos) para cada arquivo duplicado
encontrado.
Além das imagens duplicadas, no estudo que idealizou esta metodologia também foram
removidas da amostra imagens de conteúdo puramente textual, como por exemplo, a Figura
1. Este tipo de publicação é comumente encontrado no Facebook como alternativa à
publicação de texto direto, devido às limitações de estilo tipográfico presentes na plataforma.
FIGURA 1 – Exemplo de imagem puramente textual
4
Python é uma linguagem de programação de alto nível, orientada a objetos e que não requer compilação de
código para que um programa ou script seja executado. (“What is Python? Executive Summary”, [s.d.]). O
script coleta.py utilizado pode ser encontrado em: < https://copy.com/jhxKGI2ewTgHR4lp>.
5
Os aplicativos MacPaw Gemini (disponível em: < http://macpaw.com/gemini> e dupeGuru Photo Edition
(disponível em: < http://www.hardcoded.net/dupeguru_pe/> comparam metadados e informação binária de
arquivos para encontrar identidades.
Fonte: Página Saudades <https://www.facebook.com/photo.php?fbid=487634821308469>
Excluídas as imagens duplicadas e textuais, reduziu-se o conjunto de imagens para análise
a um total de 4428 arquivos.
Uma etapa opcional
Em virtude de limitações da pesquisa, uma segunda etapa de filtros se fez necessária para
o início da formação de uma rede de categorias. Ressalta-se que, dependendo das condições
técncas disponíveis, a divisão aqui apresentada pode se mostrar desnecessária em outras
aplicações desta metodologia.
Porém, uma vez que a capacidade computacional disponível para o estudo se mostrou
bastante limitada, fez-se necessário reduzir o conjunto total de análise ainda mais, e para
tanto foram criados dois agrupamentos principais de imagens:
 Topo: grupo que reúne as 1000 imagens com maior contagem de
recompartilhammentos após as exclusões de duplicatas e textuais; e
 Baixo: compreendendo as 1000 imagens menos recompartilhadas da coleta, após
as exclusões de duplicatas e textuais.

Com essa redução da amostra para 2000 imagens, foi-se então possível, dentro da
limitação técnica da pesquisa, proceder com a composição da rede e subsequente análise e
determinação do corpus imagético. Explicita-se também que, no estudo em questão, cada
grupo foi analisado como uma rede diferente, ainda como forma de atender a reduzida
capacidade computacional disponível para a pesquisa.
Redes de categorização
Uma rede nada mais é do que um mapa, uma forma de representação de um conjunto de
entidades e das relações estabelecidas entre estas entidades (BARABÁSI, 2012). Por
convenção chamam-se as entidades representadas neste mapa de nós, enquanto as relações
estabelecidas recebem a nomenclatura de arestas. Raquel Recuero (2009, p. 20), afirma que a
representação de nós e arestas – o grafo – "pode ser utilizada como metáfora para diversos
sistemas". Entre os exemplos possíveis para a utilização de redes, Alfred Lazlo-Barabási
(2012, p. 11-16) cita o exame da interação de moléculas em organismos biológicos, padrões
de distribuição e avanço de doenças contagiosas, círculos de amizades, estudos neurológicos
e o combate ao terrorismo. Ainda que para cada uma dessas atividades, os elementos
estudados sejam extremamente heterogêneos, a estrutura encontrada na composição destas
redes é bastante semelhante.
Dada esta diversidade em tamanho, escopo, história, e evolução, não se

deveria causar surpresa se as redes por trás destes sistemas diferissem
muito. Ainda assim, uma descoberta chave da ciência de redes é que a
arquitetura e evolução de redes emergentes em vários domínios da ciência,
natureza, e tecnologia são bastante similares entre si, permitindo que
utilizemos um conjunto comum de ferramentas matemáticas para explorá-
los. (BARABÁSI, 2012, p. 8)
Desta forma acredita-se que as ferramentas matemáticas oriundas da ciência de redes,
devidamente adaptadas às necessidades do estudo em questão, podem oferecer uma
alternativa válida à utilização apenas de dados estatísticos na definição de corpora de

pesquisa com imagens. Além disso, a opção por uma metodologia que vá além apenas da
estatística segue a premissa de Hadley Wickham (2014) de que
A pesquisa estatística foca em coleta e modelagem de dados, com pouco

trabalho no desenvolvimento de boas questões, no pensamento sobre a
forma dos dados, ou na comunicação de resultados e construção de produtos
de dados.
Construção da rede de categorização
Após definir a opção pelo tratamento do conteúdo de ambos os grupos da amostra por
meio da análise de redes, torna-se necessário identificar então os elementos que comporão a
estrutura do grafo, ou seja, seus nós e arestas.
No estudo ora apresentado, os nós da rede são as imagens presentes nos grupos, e as restas
– as relações entre as imagens – são estabelecidas a partir de características comuns a cada
imagem. Estas características foram atribuídas a cada arquivo por meio de uma análise
baseada na metodologia descrita por Schlomo Lee Abrahmov (2008), considerando os três
níveis de significado da imagem, quais sejam:
 o nível factual, compreendendo aspectos formais e elementares da imagem;
 o nível interpretativo, aplicando significados aos diferentes elementos presentes
na imagem; e
 o nível conceitual, derivado da composição dos níveis anteriores para a obtenção
de um tema universal para a imagem.
Foram atribuídas a cada imagem as seguintes classificações: 1) a presença ou não de texto
no quadro da imagem, 2) a ocorrência de chamada à ação, e 3) o tipo de produção, que
correspondem ao nível factual da análise. O nível interpretativo da imagem corresponde à
classificação primária, enquanto o nível conceitual de análise é contemplado pela
classificação secundária. Enquanto as duas primeiras classificações (texto e chamada à ação)

receberam valores booleanos de verdadeiro ou falso, os valores correspondentes as demais
classificações estão elencados.
QUADRO 1 – Valores possíveis em cada classificação
Tipo Primária Secundária Primária Secundária

Foto Abstrato Cenáario Fundo Moda
Ilustração Ação Citação Ícone Nostalgia
Manipulação Alimentação Comparação Local Personalidade
Misto Animais Cultura Meme Pet
Arquitetura Ecologia Mídia Promoção
Arte Economia Objeto Relacionamentos
Beleza Educação Paisagem Religião
Cidade Entretenimento Publicidade Saúde
Cotidiano Estilo de Vida Retrato Sentimentos
Criançca Gênero Tecnologia Sociedade
Esporte Jornalístico Vegetais Trânsito
Evento Marca Trívia
Com estas classificações aplicadas, tornou-se então possível relacionar as diversas
imagens existentes umas às outras, dentro de cada grupo. A obtenção dessa correlação – ou
seja, a formação das arestas da rede – foi realizada pela utilização de um script criado na
linguagem de programação estatística R6. Além de revelar as características individuais
compartilhadas pelas diferentes imagens, o script também aplica uma medida numérica de
peso (weight), evidenciando a quantidade de identidades entre cada par de imagens. Por
exemplo, o nó 00001 apresenta, em relação ao nó 00550, três valores idênticos nas
classificações atribuídas e, portanto, a aresta relativa ao par 00001-00550 tem peso três. Esta
medida é significativa na rede por afetar o cálculo de algumas métricas, além de definir a
rede – acompanhada da falta de direção clara de uma aresta – como assimétrica (RECUERO,
2009, p. 177).
6
Mais informações a respeito da linguagem de programação R podem ser encontradas em: < http://www.r-
project.org/>. O script Comparação-arestas.R está disponível em: < https://copy.com/lbj0lPdHrsXGq1a2>.
Uma alternativa automatizada
Dependendo da natureza da investigação, o processo de classificação descrito
anteriormente não é o mais indicado. Projetos como SelfieCity7, por exemplo, utilizam
técnicas de leitura automatizada das imagens, em busca de valores objetivos como cores,
luminância, etc. Além destes, o SelfieCity também utilizou ferramentas de reconhecimento
facial para identificar estados de humor e outras características, como poses e similares, nas
imagens por eles coletadas.
Também se deve mencionar que, apesar da utilização de automação, o projeto de
Manovich lançou mão de recursos humanos para validar os dados obtidos pelas ferramentas
de software.
Ainda assim, dependendo da natureza da investigação, a obtenção de classificações de
forma automática por meio de software pode e deve ser utilizada de acordo com os critérios
da pesquisa, bem como da disponibilidade do aparato técnico necessário.
Análise das redes de classificação
A partir do momento que nós e arestas de uma rede estão definidos é possível proceder
com a etapa quantitativa da análise. De cunho estatístico, este passo oferece uma série de
escolhas ao pesquisador que são integralmente dependentes da natureza do estudo
desenvolvido. No caso da pesquisa ora apresentada, o corpus pretendido deveria ser
composto pelas imagens mais relevantes dentro da rede, aquelas que, a partir de métricas
características desse tipo de estrutura, pudessem se consideradas como mais representativas
na amostra.
7
Projeto de pesquisa coordenado por Lev Manovich da universidade da cidade de Nova York que analisou as
selfies (autor retratos normalmente publicados em sites de redes sociais) de 5 cidades em diferentes regiões
do planeta: Bangkok, Berlin, Moscou, Nova York e São Paulo. O projeto pode ser acessado em: <
http://selfiecity.net/>
Para a montagem das redes e composição dos grafos foi utilizado o aplicativo de código
livre Gephi8 (BASTIAN; HEYMANN; JACOMY, 2009), onde também se realizaram os
cálculos necessários para a definição do corpus final.
Uma vez que as redes aqui demonstradas podem ser consideradas praticamente completas
(BARABÁSI, 2012) por apresentarem conexões entre quase todos os nós, os grafos9 destas
estruturas não oferecem – ao contrário do que ocorre em redes com menores taxas de
interligação – grandes percepções a respeito das redes. Portanto, não se dará aqui o destaque
dado ao grafo como ferramenta de interpretação, preferindo-se trabalhar com uma hierarquia
de métricas da rede diretamente.
Para a definição do corpus da pesquisa que formulou esta metodologia foram elencadas –
dentro de cada grupo – as imagens que apresentam primeiramente maior grau ponderado
médio (ou seja, a medida da quantidade de conexões de um nó, relacionada ao peso médio
dessas conexões), subsequentemente dispostas por PageRank, algoritmo desenvolvido por
Sergey Brin e Larry Page (1998) para o motor de busca online Google baseado no conceito
de navegação cega, que consiste em uma medida de proximidade dos diversos nós e a
facilidade com que, partindo de um nó qualquer, é possível chegar a qualquer outro nó da
rede de forma aleatória. Enquanto o grau ponderado médio oferece uma visão da importância
relativa de um nó dentro da rede de acordo com a quantidade e qualidade das identidades com
outros nós, o PageRank permite inferir a relevância de um nó em relação a outros nós com os
quais não necessariamente compartilha arestas. É importante ressaltar que ambas as métricas
consideram o peso das arestas em seu cálculo. Assim, ao mesmo tempo em que nós com alto
grau (grande número de conexões, independente do peso destas) podem se destacar devido à
sua posição na rede, nós com grau reduzido mas com grande taxa de correlação em suas
8
O Gephi é um aplicativo de manipulação e análise de redes gratuito e multiplataforma, disponível em:
<http://www.gephi.org>.
9
Os arquivos de alta resolução dos grafos das redes podem ser encontrados em: grupo topo: <
https://copy.com/ygH0M3S9GwLBSFQ1>; grupo baixo: < https://copy.com/Am0uEHqND1o3SQis>.
arestas (peso elevado) também se mostram relevantes na rede. Naturalmente, nós de alto grau
e com arestas de peso elevado são os que mais se destacam neste conjunto de métricas.
Outras métricas possíveis
Devido à natureza quase completa da rede, algumas métricas que forneceriam a
classificação de relevância dos nós de forma mais direta se apresentaram bastante
homogêneas em valor, dificultando o processo de seleção das imagens a partir da rede.
Medidas comumente utilizadas em estudos de redes como as de centralidade (BONACICH,
1987; FREEMAN, 1979), neste caso, apresentaram uma distribuição homogênea e, portanto,
não foram utilizadas como determinantes no processo de seleção das imagens do corpus,
ainda que em redes de estruturas diferentes sejam uma opção bastante válida na determinação
de elementos relevantes da rede. As diferentes medidas de centralidade se referem à posição
assumida por um nó na estrutura geral da rede, e são derivadas do número de conexões, do
comprimento do caminho entre dois nós, ou das arestas presentes nos vizinhos (i.e.: os nós
com os quais o nó em questão compartilha arestas diretamente) do nó estudado (BRANDES,
2001).
Da mesma forma, medidas de agrupamento (clustering), que relacionam os nós dentro de
subgrupos da rede, também foram descartadas neste estudo – ainda que possam ser aplicadas
em outras amostras com maior sucesso – devido à baixa diferenciação de agrupamentos nas
redes ora estudadas. Os clusters, ou conjuntos, de nós são classificados de acordo com a
coesão demonstrada matematicamente por seus nós, e indicam a resiliência da rede contra
influências externas.
O corpus definido
A partir da hierarquia de métricas apresentada anteriormente, então, tornou-se possível
obter um conjunto de 16 imagens para a análise final do corpus de pesquisa, a partir ainda de
mais um critério arbitrário relacionado à classificação tipo da rede de imagens. Em cada um

dos grupos foram selecionadas 2 imagens de cada classificação (Foto, Ilustração,
Manipulação, e Mista), visando obter uma representatividade de cada um destes estilos
imagéticos na análise final. Na tabela 1 estão dispostos os dados relativos a cada uma das
imagens selecionadas para o corpus definitivo do trabalho.
TABELA 1 – Classificação e métricas do corpus definitivo
Imagem Grupo Texto Chamada Categoria Primária Secundária Grau P. PageRank Shares
à ação Médio
01175.jpg alto V F Foto Retrato Citação 3003.0 0.0011456 1291
01206.jpg alto V F Foto Retrato Citação 3003.0 0.0011456 1227
00140.jpg alto V F Ilustração Retrato Citação 2587.0 0.0010101 8327
00427.jpg alto V F Ilustração Retrato Citação 2587.0 0.0010101 3831
00495.jpg alto V F Manipulação Retrato Citação 2386.0 9.42620-4 3430
00450.jpg alto V F Manipulação Retrato Citação 2386.0 9.42620-4 3671
01302.jpg alto V F Misto Retrato Personalidade 2300.0 9.13269-4 1077
00729.jpg alto V F Misto Criança Citação 2176.0 8.72847-4 2345
05018.jpg baixo V F Foto Retrato Estilo de Vida 2644.0 0.0011591 29
04942.jpg baixo V F Foto Retrato Estilo de Vida 2644.0 0.0011591 33
05024.jpg baixo V F Ilustração Retrato Estilo de Vida 2022.0 9.28273-4 29
06218.jpg baixo V F Ilustração Retrato Moda 2001.0 9.195822-4 1
05496.jpg baixo V F Manipulçãao Midia Estilo de Vida 1900.0 8.816520-4 12
05901.jpg baixo F F Manipulçãao Objeto Estilo de Vida 1826.0 8.426547-4 1
06241.jpg baixo V F Misto Retrato Estilo de Vida 1896.0 8.774337-4 1
05094.jpg baixo V F Misto Mídia Estilo de Vida 1874.0 8.711768-4 27
Em virtude do pouco espaço disponível para um artigo desta natureza, as imagens
propriamente ditas não serão incluídas neste material10.
Considerações Finais
A composição de um corpus é uma atividade essencial ao processo de pesquisa, em
especial quando se pretende investigar uma grande quantidade de material. Os recortes feitos
nas amostras permitem que o pesquisador, sem prejudicar a validade de sua pesquisa,
concentre seus esforços analíticos no fenômeno estudado. Porém, independente da
metodologia escolhida para a aplicação destes recortes, uma série de escolhas arbitrárias
inevitavelmente se apresenta ao estudioso. Seja na decisão do teste estatístico a ser aplicado,
10
As imagens podem ser acessadas em <https://copy.com/rkcL8IAxFWm6a2SL>.
ou na utilização ou não de determinada métrica, essas opções oferecem riscos à
representatividade da amostra final componente dos corpora de investigação.
Não se quer afirmar, com isso, que a metodologia aqui apresentada elimina estes riscos,
mas que esta oferece um conjunto a mais de possibilidades e critérios embasados, visando a
diminuição do impacto destas decisões na validade e representatividade do conjunto de
objetos a serem estudados.
Por meio de critérios já utilizados em outras áreas do conhecimento, devidamente
adaptados à realidade da pesquisa com imagens, torna-se possível mais um passo em direção
ao rigor esperado das ciências como um todo. Além disso, as técnicas computacionais
envolvidas na metodologia aqui apresentada também permitem a utilização de conjuntos
vastos de imagens de maneira prática, dependendo apenas da disponibilidade de recursos
(materiais, tecnológicos e humanos) para a seleção de um corpus.
Entende-se também que a proposta metodológica aqui apresentada é passível de
aprimoramentos e espera-se, com este artigo, alavancar a discussão sobre a inclusão das
técnicas de análise de redes para além da utilização dos grafos como produto final da
pesquisa que lançar mão das práticas das Ciências de Dados e de Redes.
Referências
ABRAHMOV, S. L. Media Literacy: Reading and Writing Images in a Digital Age.

Educating Artists for the Future, Learning at the Intersections of Art, Science
Technology and Culture, 2008.
BARABÁSI, A.-L. Network Science. [s.l.] BarabásiLab, 2012.
BASTIAN, M.; HEYMANN, S.; JACOMY, M. Gephi: an open source software for
exploring and manipulating networks. ICWSM. Anais...2009Disponível em:
<http://www.medialab.sciences-po.fr/publications/Gephi%20paper.pdf>
BAUER, M. W.; AARTS, B. A Construção do Corpus: um princípio para a coleta de dados

qualitativos. In: BAUER, M. W.; GASKELL, G. (Eds.). Pesquisa Qualitativa com Texto,
Imagem e Som: um manual prático. 2. ed. Petrópolis: Vozes, 2003.
BONACICH, P. Power and centrality: A family of measures. American journal of sociology,
p. 1170–1182, 1987.
BRANDES, U. A faster algorithm for betweenness centrality. Journal of Mathematical

Sociology, v. 25, n. 2, p. 163–177, 2001.
BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine.
Computer Networks and ISDN Systems, v. 30, n. 1-7, p. 107–117, abr. 1998.
FACEBOOK. Informações Básicas sobre Páginas. 2013.
FREEMAN, L. C. Centrality in social networks conceptual clarification. Social networks, v.

1, n. 3, p. 215–239, 1979.
GOLDENBERG, M. A Arte de Pesquisar: como fazer pesquisa qualitativa em Ciências

Sociais. 8. ed. Rio de Janeiro: Record, 2004.
RECUERO, R. Redes sociais na internet. Porto Alegre: Sulina, 2009.
STANTON, J. An Introduction to Data Science. Syracuse: Syracuse University, 2012.
What is Python? Executive Summary. Disponível em:

<https://www.python.org/doc/essays/blurb/>. Acesso em: 2 out. 2014.
WICKHAM, H. How is data science different to mainstream statistics? Communication and

visualization are key features of analysis. Impact of Social Sciences, 2014. Disponível em:
<http://blogs.lse.ac.uk/impactofsocialsciences/2014/09/23/data-science-statistics-
communication/>. Acesso em: 23 set. 2014

Análise de Redes Na Composição de Amostras de Pesquisa

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análise de Redes Na Composição de Amostras de Pesquisa

Uploaded by

Copyright:

Available Formats

Análise de Redes na Construção de Corpora de Pesquisa:

Ao se pesquisar imagens, a seleção de um corpus de pesquisa é tarefa necessária

Palavras-chave: Metodologia; corpora de pesquisa; análise de redes; Estudos da

Na proposição do estudo das imagens pelas Ciências Sociais, a definição do material

específico a ser avaliado nas etapas empíricas da investigação se torna crucial na

determinação dos rumos da pesquisa, além de influenciar diretamente na validade dos

resultados posteriormente obtidos (GOLDENBERG, 2004). Enquanto amostragens

estatísticas tradicionais são frequentemente utilizadas como referência para a delimitação do

que tal procedimento apresenta em termos de distorções das amostras obtidas

estatisticamente, principalmente quanto à representatividade da amostra em relação ao

universo estudado. Especificamente no caso de imagens

de pesquisa, utilizando para isso uma combinação de abordagens quantitativas e qualitativas

2012) e da Ciência de Redes (Network Science) (BARABÁSI, 2012). Para ilustrar o

curso, com previsão de conclusão no ano de 2015.

Espera-se que a sequência aqui apresentada demonstre ao pesquisador a validade da opção

por tal procedimento e por ferramentas que reforcem a representatividade de um corpus em

relação as perguntas de pesquisa que se pretende responder, bem como o embasamento

metodológico sólido para a justificativa dos objetos que comporão o corpus.

Coleta e definição inicial

Para exemplificar o procedimento de análise de redes na construção e corpora de

pesquisa, será utilizado um universo de 2.000 imagens coletadas em Páginas do Facebook 2

tabular, 6.339 entradas eram imagens estáticas.

cuja nomenclatura seguiu a ordem crescente de recompartilhamentos sofridos, realizada

coluna Picture. Assim, a imagem com maior quantidade de recompartilhamentos recebeu o

Como forma de automatizar esse processo – download da imagem e nomenclatura –, um

script na linguagem de programação Python4 foi desenvolvido.

De posse dos arquivos, ferramentas de detecção automática de arquivos duplicados 5 foram

que apresentaram maior quantidade de recompartilhamentos) para cada arquivo duplicado

1. Este tipo de publicação é comumente encontrado no Facebook como alternativa à

publicação de texto direto, devido às limitações de estilo tipográfico presentes na plataforma.

FIGURA 1 – Exemplo de imagem puramente textual

Excluídas as imagens duplicadas e textuais, reduziu-se o conjunto de imagens para análise

a um total de 4428 arquivos.

Uma etapa opcional

técncas disponíveis, a divisão aqui apresentada pode se mostrar desnecessária em outras

aplicações desta metodologia.

tanto foram criados dois agrupamentos principais de imagens:

 Topo: grupo que reúne as 1000 imagens com maior contagem de

recompartilhammentos após as exclusões de duplicatas e textuais; e

 Baixo: compreendendo as 1000 imagens menos recompartilhadas da coleta, após

as exclusões de duplicatas e textuais.

limitação técnica da pesquisa, proceder com a composição da rede e subsequente análise e

determinação do corpus imagético. Explicita-se também que, no estudo em questão, cada

capacidade computacional disponível para a pesquisa.

convenção chamam-se as entidades representadas neste mapa de nós, enquanto as relações

sistemas". Entre os exemplos possíveis para a utilização de redes, Alfred Lazlo-Barabási

(2012, p. 11-16) cita o exame da interação de moléculas em organismos biológicos, padrões

de distribuição e avanço de doenças contagiosas, círculos de amizades, estudos neurológicos

estudados sejam extremamente heterogêneos, a estrutura encontrada na composição destas

redes é bastante semelhante.

Dada esta diversidade em tamanho, escopo, história, e evolução, não se

Desta forma acredita-se que as ferramentas matemáticas oriundas da ciência de redes,

devidamente adaptadas às necessidades do estudo em questão, podem oferecer uma

alternativa válida à utilização apenas de dados estatísticos na definição de corpora de

estatística segue a premissa de Hadley Wickham (2014) de que

A pesquisa estatística foca em coleta e modelagem de dados, com pouco

Construção da rede de categorização

estrutura do grafo, ou seja, seus nós e arestas.

– as relações entre as imagens – são estabelecidas a partir de características comuns a cada

níveis de significado da imagem, quais sejam:

 o nível factual, compreendendo aspectos formais e elementares da imagem;

 o nível interpretativo, aplicando significados aos diferentes elementos presentes

 o nível conceitual, derivado da composição dos níveis anteriores para a obtenção

de um tema universal para a imagem.