UNIVERSIDADE FEDERAL DE MINAS GERAIS
Faculdade de Filosofia e Ciências Humanas
Programa de Pós-Graduação em Comunicação Social
André Goes Mintz
VISUALIDADES COMPUTACIONAIS E A IMAGEM-REDE:
reapropriações do aprendizado de máquina para
o estudo de imagens em plataformas online
Belo Horizonte
2019
André Goes Mintz
VISUALIDADES COMPUTACIONAIS E A IMAGEM-REDE:
reapropriações do aprendizado de máquina para
o estudo de imagens em plataformas online
Versão final
Tese apresentada ao Programa de Pós-
Graduação em Comunicação Social da
Universidade Federal de Minas Gerais,
como requisito parcial para obtenção
do título de Doutor em Comunicação
Social.
Área de concentração: Comunicação e
Sociabilidade Contemporânea.
Linha de pesquisa: Textualidades midi-
áticas.
Orientador: Prof. Dr. Carlos Frederico
de Brito d’Andréa
Belo Horizonte
2019
301.16
M667v
2019
Mintz, André Goes.
Visualidades computacionais e a imagem-rede [manuscrito]:
reapropriações do aprendizado de máquina para o estudo de
imagens em plataformas online / André Goes Mintz. - 2019.
316 f.
Orientador: Carlos Frederico de Brito d Andréa.
Tese (doutorado) – Universidade Federal de Minas Gerais.
Faculdade de Filosofia e Ciências Humanas.
Inclui bibliografia.
1. Comunicação – Teses. 2. Tecnologia – Teses. 3. Máquinas –
Teses. I D’Andréa, Carlos Frederico de Brito. II. Universidade
Federal de Minas Gerais. Faculdade de Filosofia e Ciências
Humanas. III. Título.
para naina
Agradecimentos
Tive muita sorte de contar com o privilégio da parceria e da orientação do Carlos
d’Andréa. Seu acompanhamento atento, tranquilidade e generosidade foram marcas im-
portantes da experiência do doutorado e suas contribuições à travessia desse difícil
percurso foram maiores do que posso agradecer aqui. Aos professores Carlos Falci e
Eduardo de Jesus agradeço, especialmente, pela leitura na fase de qualificação e pelas
indicações que me ajudaram a concluir o trabalho. À professora Maria Aparecida Moura,
agradeço pelo parecer elaborado ao projeto, em um momento ainda de muitas incerte-
zas, diante do qual me ajudou a encontrar o eixo experimental de minhas indagações.
Aos demais professores do PPGCOM e do DCS, agradeço pelo diálogo, pelo acolhimento
da pesquisa e por mais esse período de convivência, em especial a Fernanda Duarte, Joa-
na Ziller, Geane Alzamora, Roberta Veiga, Ana Carolina Vimieiro, Carlos Alberto
Carvalho, Ângela Marques e Elton Antunes. Às secretárias Elaine Martins e Tatiane Oli-
veira sou muito grato pelo apoio e orientação nos trâmites burocráticos. Como sempre,
trago ainda a gratidão a outros professores e orientadores tão importantes em minha
trajetória até aqui, em especial: André Brasil, Morten Søndergaard, Bernardo Jefferson
Oliveira, Laura Guimarães Corrêa, Patrícia Moran e Paulo B.
Aos colegas do PPGCOM, do NucCon e do R-EST, sou muito grato pela partilha desse pe-
ríodo. Pelas trocas, palavras de apoio e preciosa interlocução, agradeço especialmente a
Leo Melgaço, Amanda Jurno, Ana Guerra, Thereza Nardelli, Maiana Abi, Sílvia Dalben,
Tiago Salgado, Luciana Andrade, Daniel Loiola e Igor Lage. Esta pesquisa também não
poderia ter acontecido sem as muitas oportunidades de colaboração e interlocução ex-
ternas à UFMG. Agradeço em especial a Janna Joceli Omena, Elaine Rabello, Tarcízio
Silva, Gabriel Menotti, Beatrice Gobbo e Bernhard Rieder. Por conversas mais pontuais,
mas generosas, e que muito contribuíram a este percurso, sou também grato a Richard
Rogers, Donato Ricci, Gabriele Colombo, Daniel Irrgang, Martin Guinard-Terrin, Markus
Stauff, Judith Keilbach, Marc Tuters, Fabio Goveia e Fernanda Bruno.
Pelos convites e apoios, parciais ou integrais, concedidos à minha participação em even-
tos e outras atividades derivadas deste projeto, e que a ele muito contribuíram,
agradeço: ao iNOVA Media Lab da Universidade Nova de Lisboa, no nome de Janna Joceli
Omena; à Association of Internet Researchers, em especial à comissão de bolsas de via-
gem; ao CODA.BR, nos nomes de Tarcízio Silva e Natália Mazzote; ao Instituto de
Medicina Social da UERJ, no nome de Elaine Rabello; à organização da 7ª conferência
MediaArtsHistories, no nome de Wendy Coones; à organização da Summer School 2017
da Digital Methods Initiative, no nome de Sabine Niederer; e ao ConJor, da UFOP, no
nome de Débora Lopez.
Esta pesquisa foi desenvolvida com bolsa concedida pela CAPES, instituição cuja amea-
çada existência foi fundamental para a realização deste doutorado. Agradeço tanto pela
bolsa quanto pelos apoios concedidos ao PPGCOM/UFMG. Da mesma forma, sou imen-
samente grato à UFMG, instituição em que completo agora um terceiro ciclo de
formação. Também gostaria de reconhecer aqui a importância do CNPq e da Fapemig –
bem como de outras fundações de apoio do país – que, embora não tenham concedido
apoio direto, foram fundamentais para a realização desta pesquisa. Mesmo em estado já
fragilizado, elas são responsáveis pela constituição de um sistema de pesquisa e ambi-
ente de trocas de valor inestimável a este doutorado.
Aos amigos e à minha família, agradeço pelo apoio e pelo cuidado durante este difícil pe-
ríodo. Às amigas Hortência Abreu e Clarice Lacerda, especialmente, agradeço pela
escuta, pelas conversas e pela amizade ao longo destes anos. À minha mãe, meu pai e
minhas irmãs, à Tau e aos meus sogros, agradeço pela compreensão afetuosa de meu
distanciamento e por me apoiar, de diferentes formas, neste desafio. À Janaina dedico a
tese, mas não é suficiente. Quem quer este calhamaço em agradecimento? Espero, ao
menos, ser capaz de retribuir à altura. Obrigado por me ajudar a segurar as pontas do
mundo enquanto eu só podia me voltar a isto.
A questão é sempre saber a que ponto
essa metamorfose ainda é consciente.
Não vivemos outra coisa senão
a metamorfose.
Aby Warburg
Resumo
Esta pesquisa visa contribuir ao campo dos Métodos Digitais para estudos em Comuni-
cação e Mídia, enfocando especificamente o problema da análise computacional de
imagens por técnicas de aprendizado de máquina. Visando superar perspectivas meto-
dológicas operacionais que se voltam a abordagens quantitativas, este estudo propõe
refletir sobre o tratamento teórico concedido às imagens digitais nessas investigações e
sobre como métodos computacionais conformam modos de ver particulares. O referen-
cial teórico ampara-se principalmente nos Estudos de Ciência e Tecnologia (STS) e, em
especial, na Teoria Ator-Rede (TAR). Por meio de conceitos desses domínios, as imagens
são compreendidas como inscrições sociotécnicas, em uma condição de multiplicidade
ontológica. Assume-se, portanto, a incerteza quanto à possibilidade de tratamento indi-
vidual da imagem, considerando-a, de outro modo, como efeito de materialidades
relacionais distribuídas. Estes são aspectos centrais da hipótese conceitual da imagem-
rede, proposta por esta tese. Esta formulação é articulada a um esforço de descrição da
operação de técnicas de reconhecimento de imagem por aprendizado de máquina basea-
das em redes neurais artificiais. Em vista da vinculação desses modelos a amplas bases
de treinamento colhidas da internet, bem como de sua tendência de infraestruturaliza-
ção, considera-se que eles seriam parte importante do campo visual contemporâneo,
engendrando visualidades computacionais com forte participação em processos de dati-
ficação e mediação algorítmica das imagens em plataformas online. A aplicação dessas
técnicas como recursos metodológicos é proposta, portanto, como uma reapropriação
crítica que considera os métodos como partes integrantes do objeto investigado. Esse
gesto é exercitado em um estudo de caso voltado a imagens publicadas no Twitter du-
rante um evento midiático. Em uma confluência das discussões teórico-metodológicas
elaboradas ao longo do trabalho, propõe-se, ao final, um dispositivo metodológico de-
nominado Atlas para Imagens-Redes. Ele visa proporcionar condições para práticas de
navegação heurística pelas imagens, enquanto também busca resguardar a multiplicida-
de ontológica de suas instanciações.
Palavras-chave: imagem; métodos digitais; STS; aprendizado de máquina;
visão computacional.
Abstract
Computational visualities and the image-network: repurposing machine
learning for studying images on online platforms
This research seeks to contribute do the field of Digital Methods for studies in Commu-
nication and Media by focusing, specifically, the issue of computational analysis of
images through machine learning techniques. Aiming to overcome operational method-
ological perspectives which turn to quantitative approaches, this study proposes to
reflect upon how digital images are theoretically considered in those efforts and how
computational methods conform particular modes of seeing. The theoretical framework
is mainly derived from Science and Technology Studies (STS) and, especially, Actor-
Network Theory (ANT). Through concepts from these domains, images are understood
as sociotechnical inscriptions, in a condition of ontological multiplicity. An uncertainty
is therefore assumed regarding the possibility of treating images individually and, in
contrast, it is proposed to approach them as effects of distributed relational materiali-
ties. These are central aspects of the conceptual hypothesis of the image-network, which
is proposed by this thesis. This formulation is articulated to an effort of describing the
operation of machine learning image recognition techniques based on artificial neural
networks. Considering the relations among these models and large training data sets
harvested from the internet, as well as their infrastructuralization tendencies, it is con-
sidered that they are important components of the contemporary visual field,
generating computational visualitites with strong participation in datafication and al-
gorithmic mediation processes to which images are subjected in online platforms. The
application of these techniques as methodological resources is proposed, therefore, as a
critical repurposing which considers methods as integral parts of the objects under
scrutiny. This approach is exercised in a case study focusing on images published on
Twitter during a media event. In a confluence of the theoretical and methodological dis-
cussions, a methodological device named Atlas for Image-Networks is finally proposed. It
seeks to afford conditions for heuristic navigational practices through the images, while
also attempting to preserve the ontological multiplicity of their instantiations.
Keywords: image; digital methods; STS; machine learning; computer vision.
Lista de figuras
Figura 1: Interface do Instagram sem imagens................................................................................16
Figura 2: Exemplo de 'cartão Shirley' de 1978................................................................................68
Figura 3: Reconstrução de pranchas do Atlas Mnemosyne de Aby Warburg.........................93
Figura 4: Prancha 46 do Atlas Mnemosyne de Aby Warburg.....................................................98
Figura 5: Esquema comparativo entre os paradigmas dedutivos e indutivos.....................130
Figura 6: Ilustração do programa desenvolvido por Lawrence G. Roberts...........................141
Figura 7: Ilustração do ‘estímulo ótimo’ para classes de um modelo de rede neural.......142
Figura 8: Arquitetura da rede neural do modelo VGG19.............................................................145
Figura 9: Estímulos ótimos para 12 filtros da camada block1_conv2, modelo VGG19.....147
Figura 10: Estímulos ótimos para 12 filtros da camada block5_conv1, modelo VGG19.. .148
Figura 11: Exemplo de imagem gerada pelo programa DeepDream.......................................149
Figura 12: Impressão de tela do projeto Curator Table...............................................................162
Figura 13: Impressão de tela do projeto Neural Neighbors........................................................163
Figura 14: Montagem justapondo fotografias do tecido estendido no SMABC...................185
Figura 15: Protocolo de coleta e primeira fase de processamento...........................................188
Figura 16: Impressão de tela do Twitter com imagem carregada na plataforma..............203
Figura 17: Impressão de tela do Twitter com imagem de pré-visualização de link.........204
Figura 18: Protocolo de agrupamento das instâncias de imagens ‘únicas’.........................222
Figura 19: Protocolo de processamento das imagens pelo modelo VGG19..........................232
Figura 20: Esquema de processamento de uma imagem pelo VGG19...................................234
Figura 21: Detalhe da visualização em grade com layout pelo modelo VGG19....................241
Figura 22: Protocolo de processamento das imagens pela GVAPI..........................................244
Figura 23: Detalhe da visualização em grade com layout pelo modelo GVAPI...................256
Figura 24: Impressão de tela do estado inicial do Atlas no layout VGG19...........................264
Figura 25: Impressão de tela do Atlas em layout VGG19 com mapa de calor .....................265
Figura 26: Impressão de tela do Atlas em layout VGG19 com linhas de grade...................266
Figura 27: Impressão de tela do Atlas em visualização de detalhe.........................................267
Figura 28: Impressão de tela com exemplo de agrupamento inconsistente......................269
Figura 29: Montagem de matriz e instâncias de um agrupamento mal formado..............271
Figura 30: Impressão de tela do Atlas com imagens similares consideradas distintas....271
Figura 31: Impressão de tela com imagem do personagem Lula Molusco...........................272
Figura 32: Impressão de tela do Atlas com fotografia de Proner Ramos..............................274
Figura 33: Memes derivados da fotografia de Proner Ramos...................................................275
Figura 34: Montagens de Lula atrás das grades............................................................................277
Figura 35: Variações sobre o retrato de identificação de 1980.................................................277
Figura 36: Depoimentos de testemunhas e réus da Lava Jato..................................................277
Figura 37: Faixas da campanha pela liberdade de Lula..............................................................278
Figura 38: Chegada de Lula na sede da PF em Curitiba..............................................................278
Figura 39: Figurações de Lula na multidão....................................................................................278
Lista de gráficos
Gráfico 1: Visualização de espaços semânticos de três APIs de Visão Computacional......171
Gráfico 2: Diagrama de Gantt de períodos de coleta para termos de busca.........................194
Gráfico 3: Visualização da rede de coocorrência de termos de coleta....................................197
Gráfico 4: Série temporal do número de tuítes coletados, agregados por hora.................202
Gráfico 5: Visualização de grade das imagens com similaridade estimada pelo VGG19. 239
Gráfico 6: Visualização de rede bimodal imagem-etiqueta com dados da GVAPI............246
Gráfico 7: Visualização de rede imagem-etiqueta com imagens plotadas...........................251
Gráfico 8: Visualização de grade das imagens com similaridade estimada pela GVAPI..254
Lista de tabelas
Tabela 1: Descrição geral dos tuítes do caso Lula..........................................................................201
Tabela 2: Dados dos tuítes com media e URLs de media...........................................................206
Tabela 3: Dados das URLs de links.....................................................................................................212
Tabela 4: Estatísticas descritivas das publicações de URLs de links......................................214
Tabela 5: Estatísticas descritivas das publicações com URLs de link selecionadas...........216
Tabela 6: Estatísticas descritivas de publicação das ‘imagens únicas’................................229
Tabela 7: Estatísticas descritivas de publicação das ‘imagens únicas’ selecionadas.......230
Tabela 8: Termos de busca e métricas de desempenho de coleta no caso Lula...................310
Tabela 9: Sumário de camadas da rede neural do modelo VGG19...........................................315
Lista de abreviações e siglas
API Application Programming Interface – Interface de Programação de Aplicações
CBIR Content-based image retrieval – Recuperação de imagem baseada em conteúdo
CSS Cascading Style Sheets – Folhas de Estilo em Cascata
CSV Comma-separated values – Valores separados por vírgula
DMI Digital Methods Initiative – Iniciativa de Métodos Digitais da Universidade de
Amsterdã
DMI-TCAT Twitter Capture and Analysis Toolset – Kit de Ferramentas para Captura e Análise
do Twitter
GEXF Graph Exchange XML Format – Formato XML de Intercâmbio de Grafo
GIF Graphics Interchange Format – Formato de Intercâmbio de Gráficos
GVAPI Google Cloud Vision API – API Cloud Vision da Google
GPU Graphical Processing Unit – Unidade de Processamento Gráfico
HTML Hypertext Markup Language – Linguagem de Marcação de Hipertexto
HTTP Hypertext Transfer Protocol – Protocolo de Transferência de Hipertexto
IA Inteligência Artificial
ILSVRC Imagenet Large Scale Visual Recognition Challenge – Desafio de Reconhecimento
Visual de Grande Escala Imagenet
JPEG / JPG Joint Photographic Experts Group – Grupo Conjunto de Especialistas em
Fotografia
JSON JavaScript Object Notation – Notação de Objeto JavaScript
ML4A Machine Learning for Artists – Aprendizado de Máquina para Artista
NASA North-American Space Agency – Agência Espacial Norte-Americana
PCA Principal Component Analysis – Análise de Componente Principal
PF Polícia Federal
PNG Portable Network Graphics – Gráfico de Rede Portátil
SMABC Sindicato dos Metalúrgicos do ABC
SSK Sociology of Scientific Knowledge – Sociologia do Conhecimento Científico
STS Science and Technology Studies – Estudos de Ciência e Tecnologia
SVG Scalable Vector Graphics – Gráfico de Vetor Escalável
t-SNE t-Distributed Stochastic Neighbor Embedding
TAR Teoria Ator-Rede
TRF-4 Tribunal Regional Federal da 4ª Região
URL Uniform Resource Locator – Localizador Uniforme de Recursos
UvA Universiteit van Amsterdam – Universidade de Amsterdã
VSML Visual Social Media Lab – Laboratório de Mídia Social Visual das seguintes
instituições britânicas: Universidade de Sheffield, Escola de Arte de Manchester,
Universidade de Wolverhampton e Universidade de Londres
URL Uniform Resource Locator – Localizador Uniforme de Recursos
VGG Visual Geometry Group – Grupo de Geometria Visual da Universidade de Oxford
ZKM Zentrum für Kunst und Medien Karlsruhe – Centro de Arte e Mídia de Karlsruhe
Lista de notações e símbolos
fonte monoespaçada
Quando utilizada no corpo do texto, a fonte tipográfica monoespaçada
identifica termos com sentido específico a uma linguagem de programação
ou ao protocolo de uma API.
[]
Colchetes indicam a delimitação de um termo utilizado na busca (query) em
uma coleta de dados, exceto quando utilizados para indicar supressões ou
adições a citações diretas. Seguindo recomendação proposta por Richard
Rogers (2017), o uso dos colchetes tem por objetivo evitar a ambiguidade que
poderia decorrer do uso de aspas (“”), já que as aspas são geralmente
utilizadas como parte dos termos de busca para limitar os resultados a
ocorrências literais.
VGG19 □ VGG19 C:9
GVAPI □ VGG19 C:9
Coordenadas alfanuméricas precedidas por um quadrado ( )□ VGG19 indicam o
quadrante em que se localiza uma imagem ou grupo de imagens no Atlas para
Imagens-Redes apresentado no capítulo 4. Instruções de acesso e navegação
são apresentadas no Apêndice B .
A sigla VGG19 indica se tratar do mapa organizado pelo modelo de
reconhecimento de imagens homônimo. A sigla GVAPI indica se tratar do
mapa organizado segundo o modelo de reconhecimento de imagens da API
Cloud Vision da Google.
A letra indica a coluna do quadrante referenciado (A-Q) e o numeral indica a
linha (1-17).
Sumário
1 Introdução...............................................................................................................................17
1.1 Definição do problema............................................................................................................25
1.2 A questão do método...............................................................................................................32
1.3 Estrutura da tese.......................................................................................................................37
2 Imagem-rede.........................................................................................................................40
2.1 A imagem e o digital.................................................................................................................45
2.2 A imagem múltipla..................................................................................................................57
2.3 A imagem e a rede....................................................................................................................92
3 Visualidades computacionais.............................................................................................111
3.1 O visual e o computacional...................................................................................................116
3.2 Aprendizado de máquina.....................................................................................................127
3.3 Visualidade e infraestrutura...............................................................................................165
4 Estudo de caso: imagens de uma prisão.........................................................................178
4.1 Coleta e extração de dados..................................................................................................186
4.2 Processamento das imagens..............................................................................................217
4.3 Compondo imagens-redes.................................................................................................257
5 Considerações finais...........................................................................................................281
Referências...........................................................................................................................288
Apêndices.............................................................................................................................309
Anexo......................................................................................................................................314
Figura 1: Interface do Instagram sem imagens.
Simulação da falha operacional ocorrida no dia 3 de julho de 2019.
Fonte: Elaboração própria por meio de intervenção no carregamento da interface da plataforma.
1 Introdução
Em 3 de julho de 2019, uma quarta-feira, Facebook, Instagram e Whatsapp tiveram seu
funcionamento comprometido com a impossibilidade de acessar imagens, vídeos e ou-
tros arquivos, em todo o mundo (THE GUARDIAN, 2019). Embora comprometesse
apenas parcialmente o uso das plataformas, o defeito não passou desapercebido pelos
usuários, inclusive com a repercussão, no Twitter, de hashtags sobre o estado inoperante
das plataformas “vizinhas” – #facebookdown, #instagramdown e #whatsappdown. A au-
sência das imagens, cada vez mais centrais às práticas de uso das plataformas, tornava
estes ambientes inutilizáveis. As interfaces, normalmente povoadas de fotografias, me-
mes visuais e ilustrações, eram agora permeadas de quadrados cinzas. Ocupando as
lacunas deixadas pelas imagens, emergiram descrições verbais do conteúdo ausente. In-
dicando os aspectos presumidos das imagens segundo o software de reconhecimento que
integra as plataformas, apresentavam-se verbalmente formulações como: “A imagem
pode conter: uma pessoa em closeup” (Figura 1).
Os componentes defeituosos que levaram à falha técnica não foram divulgados. O Face-
book – empresa proprietária das três plataformas – apenas se desculpou aos usuários
quando os problemas haviam sido resolvidos1. Finda a instabilidade, reestabelecia-se a
regularidade funcional das plataformas. No entanto, as descrições tornadas visíveis pela
falha temporária tornaram-se objeto de discussão, ainda que esta também fosse transi-
tória. Com reações que ora ressaltavam o caráter simplório e falho das descrições, ora
especulavam sobre os seus usos potenciais para o perfilamento algorítmico e microdire-
cionamento publicitário, o caso chamou a atenção de usuários, pesquisadores2 e
imprensa especializada (VINCENT, 2019). Portadores de deficiências visuais que fazem
uso de tecnologias assistivas em sua interação com a Web possivelmente já teriam toma-
do contato com tais descrições, já que uma de suas finalidades é a acessibilidade do
1 No Twitter, o Facebook se manifestou na noite daquele dia: “Mais cedo hoje, algumas pessoas e empresas expe-
rienciaram problemas no carregamento e envio de imagens, vídeos e outros arquivos em nossos aplicativos e
plataformas. O problema foi resolvido desde então e deve estar 100% operante para todos. Nos desculpamos por
qualquer inconveniência”. No original: “Earlier today, some people and businesses experienced trouble uploading or
sending images, videos and other files on our apps and platforms. The issue has since been resolved and we should be
back at 100% for everyone. We're sorry for any inconvenience”. Tradução minha. (FACEBOOK, 2019).
2 Agradeço ao Tarcízio Silva, que chamou minha atenção a esse acontecimento.
17
18
conteúdo visual a esse segmento do público (WU, 2016)3. No âmbito da pesquisa em mí-
dias sociais, é também possível que as descrições fossem conhecidas como um dos
metadados disponíveis para o estudo de publicações nas plataformas4. Para a maior par-
te dos usuários videntes, contudo, tratava-se de uma camada oculta que precisou da
falha técnica do dia 3 de julho para vir à luz.
Situações de falha como esta constituem uma das oportunidades descritas por Bruno La-
tour para observar a agência de objetos técnicos: “subitamente, intermediários
completamente silenciosos tornam-se mediadores plenos”5 (LATOUR, 2005, p. 81)6. Se-
gundo o vocabulário do autor (LATOUR, 2001), diz-se que os objetos técnicos passam
por um processo de obscurecimento ou “encaixapretamento” (blackboxing), em referên-
cia à figura cibernética da caixa-preta. Este processo consistiria uma transição dos
objetos técnicos em que suas partes internas e dependências externas seriam invisibili-
zadas, passando a ser tomados como entidades integrais e estabilizadas. Remetendo a
Gilbert Simondon (2007), poderíamos relacionar tal processo de “encaixapretamento”
com o vetor de concretização que, segundo descreve, leva à integração eficiente dos com-
ponentes de um objeto técnico em seu processo de gênese. Tal processo, segundo o
autor: “tende à coerência interna, ao encerramento do sistema de causas e efeitos que se
exercem circularmente no interior de seu recinto” (SIMONDON, 2007, p. 67)7. A falha
técnica, porém, tem o poder de reverter o processo de concretização e de revelar o interi-
or, até então ignorado, da caixa-preta. Um ou mais componentes são então trazidos à
superfície e, com ele, incertezas quanto a seu papel e consequências naquele arranjo so-
ciotécnico.
Com as imagens fora de cena, tornaram-se visíveis indícios do modo pelo qual as plata-
formas as “veem”. Embora largamente ocultas pelo progressivo alisamento das
3 As descrições são inseridas no código fonte das páginas sob o atributo alt das imagens. Este atributo, segundo
recomendações do World Wide Web Consortium (W3C) para a HTML (Hypertext Markup Language), têm como fina-
lidade de descrever o conteúdo da imagem para um usuário que, por qualquer motivo não consiga vê-la ou
compreendê-la, tais como usuários com conexões lentas ou que fazem uso de tecnologias assistivas
(CALDWELL et al., 2008). Geralmente oculto, portanto, constitui um metadado utilizado por tais tecnologias.
4 Eu havia tomado conhecimento de sua existência apenas poucas semanas antes, durante uso da ferramenta Ins-
taloader (GRAF et al., 2019), para coleta de conteúdo do Instagram. A ferramenta funciona por meio de raspagem,
realizada por meio da extração de dados da interface gráfica da plataforma. O conteúdo do atributo alt é inte-
grado aos resultados da ferramenta sob o identificador accessibility-caption (legenda para acessibilidade).
5 No original: “[…] all of a sudden, completely silent intermediaries become full-blown mediators”. Tradução minha.
6 A listagem das situações em que a agência dos objetos técnicos se torna perceptível é apresentada por Latour em
2005 é uma reedição expandida de listagem apresentada por ele e Madeleine Akrich em 1992 (cf. AKRICH; LA-
TOUR, 1992, p. 260), como situações que tornam possível a de-scrição dos arranjos sociotécnicos.
7 No original: “[…] tiende a la coherencia interna, a la cerrazón del sistema de causas y efectos que se ejercen circular-
mente em el interior de su recinto [...]”. Tradução minha.
19
interfaces, na constituição de interações fluidas e intuitivas aos usuários, as tecnologias
de reconhecimento de imagens encontram-se cada vez mais integradas às plataformas
digitais. Elas vêm realizar, para as imagens, a demanda de datificação, central ao modelo
de negócios e à própria operação destas formações midiáticas contemporâneas (VAN
DIJCK, 2014, 2017). Compreendida como o processo de pretensa tradução de toda ativi-
dade social à forma dos dados computacionais, a datificação é o que permite às
plataformas online tratar computacionalmente esta atividade e submetê-la a seus pro-
cedimentos algorítmicos de mediação.
José Van Dijck (2013, p. 13–14) reflete que, contrariamente aos slogans de plataformas
como o Facebook, o que acompanhamos pelo menos desde o advento da chamada Web 2.0
(cf. O’REILLY, 2005) não foi tanto a Web se tornar mais social quanto, inversamente, a
sociabilidade tornar-se mais técnica. Segundo sugere a autora (VAN DIJCK, 2013, p. 51–
52), a amizade no âmbito das plataformas não pode ser compreendida apenas segundo
relações interpessoais espontâneas. Deve-se, de outro modo, compreendê-la também
como uma sociabilidade programada (cf. BUCHER, 2013b), informada pelo modo como a
plataforma codifica a amizade, inclusive por algoritmos de recomendação de novos ami-
gos. A mediação algorítmica do visível evidenciada pelo caso em questão, parece nos
autorizar a dizer que também as imagens são inseridas em outros arranjos técnicos no
âmbito das plataformas, em algo como uma visualidade programada. Esta tecnicização
das imagens relaciona-se, portanto, ao modo pelo qual as plataformas conseguem lidar
computacionalmente com as imagens para identificar pessoas, locais e objetos; desen-
volver perfis datificados de seus usuários; microdirecionar anúncios e publicações; e
realizar buscas, entre outras operações – explícitas ou não.
A demanda por estes processos automatizados de tratamento das imagens evidencia-se
quando se considera a crescente centralidade que os conteúdos visuais adquirem nos
usos contemporâneos das mídias sociais. Nos últimos anos, diz-se que as plataformas
passam por uma “virada visual” ou “pictórica” (FAULKNER; VIS; D’ORAZIO, 2018;
GIBBS et al., 2015; NIEDERER, 2018), ou, ainda, que manifestam uma “ubiquidade do vi-
sual” (HIGHFIELD; LEAVER, 2016). Nota-se não apenas o crescimento de plataformas
com foco específico em imagens (como Instagram, YouTube, Pinterest e TikTok) como,
também, a priorização das imagens em outras plataformas (como Facebook, Twitter e
Whatsapp). Diferentes estimativas referenciadas pelos autores que indicam esta “virada”
sugerem números astronômicos, na ordem de bilhões de imagens por dia, em uma única
20
plataforma, como o Instagram. A repercussão da falha do dia 3 de julho de 2019 constitui
um indicador ainda mais palpável da centralidade do visual: a indisponibilidade das
imagens foi sentida como total inoperância das plataformas, para além de uma falha
parcial e isolada.
A tendência de vinculação das imagens a processos de tratamento computacional não se
manifesta apenas nas plataformas mas, também, nas pesquisas que se voltam à comu-
nicação em mídias digitais. A “virada visual” coloca desafios metodológicos a um campo
de pesquisa que, como destacado por Ana Carolina Vimieiro e Janine Bargas (2018), em
diálogo com David Berry (2012), experiencia há alguns anos uma “virada computacio-
nal” em seus métodos de pesquisa. Segundo define Berry (2012, p. 4), esta “virada” seria
uma terceira onda das chamadas humanidades digitais, interessada no tema da compu-
tacionalidade das formas digitais, nos seus aspectos em alguma medida específicos, e nos
impactos epistêmicos das mudanças midiáticas. Os desafios do visual, como discutirei
adiante, decorrem de aspectos relativos às características informacionais das imagens
digitais, que elevam a complexidade técnica e, de modo mais importante, às incertezas
metodológicas em seu tratamento computacional. Recursos como as tecnologias de re-
conhecimento de imagens mobilizadas pelas plataformas são, nesse contexto,
instrumentos sedutores para a pesquisa já informada por métodos computacionais. Em
particular, dada sua maior acessibilidade, nos últimos anos, em soluções comerciais ou
de código aberto. Mas, embora cada vez mais mobilizadas como ferramentas metodoló-
gicas8, poucos estudos refletem acerca de suas implicações epistemológicas ou de seu
lastreamento teórico nos estudos das imagens. Este é um dos aspectos que busco traba-
lhar nesta tese.
Em linhas gerais, esta pesquisa se volta a um problema marcadamente metodológico
que, em seu aspecto mais operacional, se manifesta no desafio colocado pelas imagens
às pesquisas contemporâneas da comunicação em plataformas online. Em particular,
àquelas que se baseiam em métodos computacionais de coleta e análise. Tal aspecto
operacional, contudo, desdobra-se em dois fenômenos que considero de forma entrela-
çada: a já referida “virada visual” das plataformas de mídia social; e o desenvolvimento
de mediações algorítmicas do visível, em especial por programas de reconhecimento de
8 Cf. HUSSAIN et al., 2017; JOO et al., 2014; NIEDERER; COLOMBO, 2019; RICCI et al., 2017; RYKOV et al., 2016;
SILVA; BARCIELA; MEIRELLES, 2018; SILVA; ZANOTTI, 2018. Indico, também, alguns estudos em que participei
diretamente: CICALI et al., 2018; D’ANDREA; MINTZ, 2019; MINTZ; SILVA et al., 2019; OMENA; RABELLO;
MINTZ, 2017, no prelo.
21
imagens. Estes se manifestam, hoje, de muitas formas. Uma das mais controversas, em
vista de suas graves premissas e implicações, é o reconhecimento de rostos. Outro caso é
o reconhecimento e detecção de objetos, como no exemplo apresentado na Figura 1, uti-
lizado em programas de recuperação da informação, tecnologias assistivas e na
moderação e seleção de conteúdos em plataformas online. Casos em que a vinculação é
menos óbvia são, por exemplo, filtros do Instagram e Snapchat (muitos dos quais são
sensíveis ao conteúdo das imagens) ou na tecnologia recente que possibilita os deep
fakes.
O entrelaçamento entre estes fenômenos pode ser considerado em ao menos três níveis.
Primeiro, tendo em vista que a profusão de imagens – em larga medida estimulada pe-
los arranjos tecnológicos contemporâneos – gera a demanda por técnicas para integrá-
las à constituição sociotécnica das plataformas. Isto é: demanda processos de datificação
do visível, realizados por programas de reconhecimento de imagens.
Em um segundo nível, o desenvolvimento recente das tecnologias de reconhecimento de
imagens, pela via do aprendizado de máquina, encontra-se diretamente vinculado à pro-
fusão de imagens em plataformas online. Isto porque este paradigma de
desenvolvimento, baseado em redes neurais artificiais, realiza-se por processos induti-
vos de “treinamento” com base em exemplos. Desse modo, são tecnologias dependentes
da disponibilidade de grandes volumes de dados. Como ressaltado por autores da área da
computação (ALPAYDIN, 2016), a Web participativa – outrora chamada Web 2.0 e que
hoje culmina nas plataformas de mídia social – teve papel determinante na construção
destas bases de treinamento. Adrian Mackenzie (2017), em sua discussão do aprendizado
de máquina, situa-o como tecnologia emergente que tem o acúmulo de dados de treina-
mento na Web uma de suas condições de existência. Não por acaso, o projeto Imagenet,
que constituiu um dos principais bancos de imagens para treinamento destes progra-
mas, baseia-se inteiramente em imagens extraídas da Web (DENG et al., 2009). Nesse
sentido, mais do que uma tecnologia de análise exógena, trata-se de tecnologia cuja
constituição encontra-se já profundamente integrada ao contexto das plataformas onli-
ne e sua virada visual recente.
Em um terceiro nível, o tratamento articulado entre a profusão das imagens e seu trata-
mento computacional se justifica pela consideração de como estes fenômenos
constituiriam aspectos de uma visualidade contemporânea. Pouco acima me referi à ideia
22
de uma visualidade programada, em diálogo com a ideia de sociabilidade programada de
Van Dijck e Taina Bucher. Mas elaborarei nesta tese a ideia de uma visualidade computa-
cional, retomando noção que esbocei em trabalhos anteriores (MINTZ, 2015, 2018d). Não
quero estabelecer, aqui, uma distinção muito precisa entre os adjetivos (programada e
computacional), embora certamente haveria matizes por salientar. Um aspecto por res-
saltar, em todo caso, é mais conotativo: computacional sugere uma discussão mais
voltada ao aspecto salientado por Berry, das características de um meio computacional e
suas implicações epistemológicas, enquanto programada sugere a execução de uma roti-
na predeterminada. Voltarei a algumas destas questões adiante (veja 3 Visualidades
computacionais), mas já queria indicar a que me refiro antes de avançar.
Segundo formulou Hal Foster (1999, p. ix), visualidade designa um dos elementos de
uma diferença interna ao visual. Didaticamente, o termo sugere a constituição social e
histórica da visão. Esta, por sua vez, é tipicamente considerada em seu aspecto físico ou
fisiológico, com suposição de uma capacidade universal e a-histórica. Contudo, propõe o
autor, isto não deveria levar à contraposição entre estes termos nem sua correspondên-
cia à oposição entre natureza e cultura, mas sim à sua articulação enquanto duas
dimensões do tratamento do visual9. De modo importante, visualidade designa o caráter
necessariamente histórico do campo visual. Escreve:
[a] visão também é social e histórica e [a] visualidade envolve o corpo e a psi-
que. No entanto, elas tampouco são idênticas: aqui, a diferença entre os
termos marca uma diferença interna ao visual – entre o mecanismo da visão
e suas técnicas históricas, entre o dado da visão e suas determinações discur-
sivas – uma diferença, muitas diferenças, entre como nós vemos, como nós
somos capazes, permitidos, ou levados a ver, e como nós vemos esse ato de
ver ou o que nele permanece não visto10 (FOSTER, 1999, p. ix).
9 John Walker e Sarah Chaplin (2002, citados por ABRIL, 2012, p. 17) sintetizam a noção de visualidade como “vi-
são socializada”. Esta noção, retomada por Gonzalo Abril é, por sua vez, mobilizada por Carlos Mendonça e
Bruno Leal (2018, p. 110) em sua conceituação da visualidade. WALKER, John. CHAPLIN, Sarah. Una introducción a
la cultura visual. Barcelona: Octaedtro-EUB, 2002. Hal Foster (1999, p. ix), contudo, sugere uma abordagem que
parcialmente diverge dessa ao evitar a correlação imediata entre visão e visualidade ao par natureza e cultura.
Foster não recusa a oposição entre natureza e cultura, mas apenas indica que ela não é adequada para este caso,
como desenvolve na citação trazida ao texto. Neste trabalho, contudo, busco aprofundar esta perspectiva ao
adotar a perspectiva simétrica sugerida por Bruno Latour (1994), que visa justamente desfazer esta distinção
essencialista. Embora não se referenciem, considero que, no âmbito de seu tratamento do visual, a proposição
de Foster parece ir ao encontro de Latour. A discussão sobre a visão em articulação às suas mediações técnicas,
realizada por Jonathan Crary (1992), também ressoa nesta proposição, sem distinguir de antemão fisiologia e
história. Por esse caminho, a oposição entre visão e visualidade, que supõe a definição de ‘visão socializada’
funciona apenas de forma didática, mas não conceitualmente. Pois segundo esta perspectiva não haveria algo
como um conceito de ‘visão pré-social’ que pudesse ser então ‘socializada’.
10 No original: “vision is social and historical too, and visuality involves the body and the psyche. Yet, neither are they
identical: here, the difference between the terms signals a difference within the visual – between the mechanism of
sight and its historical techniques, between the datum of vision and its discursive determinations – a difference, many
differences, among how we see, how we are able, allowed or made to see, and how we see this seeing or the unseen
therein”. Tradução minha.
23
Visualidade sinaliza portanto uma demarcação contingente e situada do visual em sua
constituição situada, enquanto visão aponta para sua compreensão essencialista, de pre-
tensão universalizante. A visão, neste sentido, não existe senão como efeito retórico de
um encerramento desta fratura constituinte do visual, ignorando as práticas, materiali-
dades e formações discursivas que rompem com a possibilidade de uma visão universal
(FOSTER, 1999). Por visualidade computacional, portanto, viso denominar um fator con-
temporâneo desta fratura, um modo de ver articulado pelas tecnologias de
reconhecimento de imagens da chamada Visão Computacional e que, a seu modo, hoje
participam da modulação do visual. Evidentemente, mesmo nesse caso seria forçoso di-
zer de uma visualidade computacional, como indicarei adiante. Um fator de
complexificação é o fato de que estas tecnologias sejam desenvolvidas, como indiquei, a
partir das próprias imagens que elas visam descrever. De certo modo, as tecnologias de
reconhecimento de imagens são tanto efeitos da cultura visual contemporânea quanto
parte de suas muitas causas. Isto porque a Visão Computacional é hoje produzida a partir
destas imagens e é, também, constituinte dos modos pelos quais as imagens são inte-
gradas a plataformas digitais e a procedimentos metodológicos de pesquisa.
Recapitulando, sugiro ao menos três níveis de articulação entre a profusão de imagens
online e o desenvolvimento de técnicas para o seu tratamento computacional. Primeiro,
considerando que a explosão quantitativa das imagens demanda técnicas para seu trata-
mento computacional. Segundo, considerando que as próprias técnicas demandam um
afluxo de muitas imagens para seu desenvolvimento. Terceiro, que a conjunção entre as
imagens e as técnicas de seu tratamento computacional sugeriria modos particulares de
ver. Este complexo entrelaçamento, quero argumentar, traz implicações teóricas e me-
todológicas à pesquisa. Sustentarei, nas páginas a seguir, que em linha com a tradição
recente dos Estudos de Ciência e Tecnologia (Science and Technology Studies – STS), am-
bos fenômenos precisam ser tratados em uma perspectiva simétrica. O princípio da
simetria, proposto inicialmente por David Bloor, passou por diferentes releituras ao lon-
go das décadas11. Noortje Marres e David Moats (2015) propõem uma inflexão particular
ao princípio com o objetivo de superar tentativas de purificação das dinâmicas sociais
observadas em mídias digitais, destilando-as dos arranjos técnicos em que elas se de-
senvolvem. Os autores propõem que as dinâmicas tecnológico-midiáticas sempre serão
11 Marres e Moats (2015) apontam que em sua proposição inicial por David Bloor, visava-se o tratamento simétri-
co entre explicações consideradas verdadeiras e falsas em determinado campo científico. Posteriormente,
Callon e Latour propuseram o tratamento simétrico entre actantes humanos e não-humanos na descrição de
arranjos sociotécnicos. A proposição de Marres e Moats configura, assim, uma terceira acepção.
24
parte das dinâmicas sociais observadas e, portanto, que ambas devem ser consideradas
simetricamente. Para esta pesquisa, tal formulação sugere um caminho para compreen-
der as imagens digitais em plataformas de mídia social de maneira articulada com as
formas de sua mediação algorítmica.
Como ilustrado pela anedota trazida na abertura desta introdução, os programas de re-
conhecimento de imagens constituem uma instância importante da integração das
imagens às plataformas de mídia social. Do ponto de vista dos pesquisadores de comuni-
cação e mídia, tais programas também se apresentam como recursos para a análise das
imagens no contexto de sua profusão e de sua deriva digital. Contudo, mais do que ins-
trumentos, tais técnicas conformam um modo particular de olhar para as imagens. Um
modo de ver. Baseando-se apenas nas descrições obtidas por tais programas, uma pes-
quisa sobre imagens no Instagram acabaria por se debruçar sobre uma realidade que a
própria pesquisa produziu: um Instagram “sem imagens”, como ilustrado pela Figura 1.
Evidentemente, levando esta consideração às últimas consequências, cada método, a seu
modo, com sua epistemologia, constrói sua própria realidade. Este não é, em si, o pro-
blema. Na linha do que discute Bruno Latour (2005), a questão é se esta construção é
consistente ou não, algo que apenas se pode refletir se conhecemos as limitações de nos-
so método. Compreendendo que estas técnicas conformam uma visualidade particular,
que constitui o campo visual, mas que nele também introduz diferença, seria preciso
abordá-las dentro de seus próprios limites. Da mesma forma que esta visualidade não
poderia ser tomada como uma visão essencial, tampouco pode seu modo particular de
considerar as imagens sobrepor-se a outros modos possíveis. Conforme elaborarei adi-
ante, isto demanda que compreendamos as imagens em suas múltiplas inscrições, que
fazem delas o que Latour (LATOUR, 2001) se refere por uma referência circulante: não ob-
jetos precisos e de contornos definidos, mas como efeitos de uma multiplicidade
ontológica que se diversifica por meio de diferentes manifestações sociotécnicas.
A pergunta “como comparar um milhão de imagens?” já foi feita por pesquisadores do
campo (MANOVICH, 2012). Porém, quero argumentar que o problema não pode ser resu-
mido a um como mas deve, de outro modo, mobilizar questões quanto ao quê. O que é
comparar um milhão de imagens? O que significa este gesto de conhecimento e suas
descobertas? Quais suas implicações? Pois a eventual solução do problema de ordem
operacional apenas pode ser atestada se soubermos dizer o que é mesmo que estamos
fazendo ao resolvê-lo. Os procedimentos computacionais a que as imagens são submeti-
25
das inevitavelmente transformam sua ontologia e o próprio ato de ver. Como venho su-
gerindo, esta transformação já ocorre em práticas contemporâneas de produção e
consumo de imagens, em que a quantidade não é apenas um atributo dos corpora mobili-
zados nas análises, mas também de nossa experiência ao havermo-nos com as imagens.
Da mesma forma, para além de seu uso em pesquisas acadêmicas, mediações algorítmi-
cas do visível já são incorporadas aos modos de ver contemporâneos, como partes
integrantes das plataformas de mídia social. Contudo, esta pervasividade não significa
uma completa sobredeterminação das imagens e do visual. O como vincula-se desse
modo a um quê. O que são, então, as imagens que se compara?
1.1 Definição do problema
Esta tese visa contribuir ao desafio metodológico enfrentado por pesquisadores das ima-
gens e da comunicação contemporânea quando, por exemplo, em um único dia de
observações, se deparam com nada amigáveis 10 mil imagens como parte de seus corpo-
ra. Não falo aqui de um número hipotético. Uma coleta por tuítes mencionando os
termos [climate change]12 no dia 4 de julho de 2019 encontrou em torno de 10 mil ima-
gens13. Diante deste conjunto, o que fazer? Em certos casos, seria suficiente voltar-se às
publicações mais curtidas ou retuitadas. Isto é, pelo vocabulário das próprias plataformas,
às publicações que alcançaram maior “engajamento” e que, portanto, poderiam ser to-
madas, supostamente, como mais relevantes. Com base nestas métricas, seria possível
obter um conjunto menor que poderia ser analisado de forma detida. Contudo, para além
das várias críticas tecidas a tal abordagem14, é importante considerar que a publicação
mais curtida ou retuitada não necessariamente corresponde à imagem mais relevante
para o caso em questão, mesmo que o critério de relevância sejam tais métricas, pois
uma ‘mesma’ imagem não é uma unidade de análise prontamente proporcionada pelos
dados coletados. Geralmente, as imagens são identificadas por um arquivo de imagem
que, por sua vez, é indicado por uma URL (Localizador Uniforme de Recursos, na sigla
12 Utilizo aqui a notação de termos de busca segundo proposta feita por Richard Rogers (2017). Cf. Lista de nota-
ções e símbolos.
13 A coleta foi realizada por meio da API Streaming do Twitter, com o Twitter Capture and Analysis Toolset (RIE-
DER; BORRA, 2014). A base coletada foi composta de 36.558 tuítes no período e incluiu 2.349 tuítes contendo
imagem e/ou vídeo além de ao menos 7.848 tuítes com links externos, a maioria dos quais com imagens que são
exibidas pelo próprio Twitter como pré-visualização das páginas referenciadas.
14 Junto com Janna Joceli Omena e Elaine Rabello, apresento uma alternativa crítica a esta perspectiva (OMENA;
RABELLO; MINTZ, no prelo). Rafael Grohmann (2018) realiza uma importante revisão conceitual de engaja-
mento. Richard Rogers (2018b), por sua vez, sugere uma abordagem crítica das métricas de engajamento, em
contraposição ao que denomina vanity metrics.
26
em inglês). Mas uma imagem pode aparecer em muitas URLs diferentes se for carregada
por diferentes atores ou em diferentes plataformas. Uma situação em que tal desacordo
se manifesta será abordada no estudo de caso (veja 4 Estudo de caso: imagens de uma
prisão).
Uma ‘mesma’ imagem pode ser publicada e republicada por diferentes atores, inclusive
com pequenas variações, em uma atividade difusa cujo rastreamento é dificultado pelo
modo de representação informacional da imagem digital. O caso dos memes visuais e dos
memes fotográficos (SHIFMAN, 2014), em particular, ilustra bem a questão. Uma ‘mes-
ma’ fotografia serve, nestes casos, a múltiplas variações sobre o mesmo tema. Esta
situação levanta uma questão de ordem metodológica: estas variações devem ser trata-
das como uma ‘mesma’ imagem? Também, levanta uma questão de ordem operacional:
como traçar relações de identidade ou de diferença entre estas múltiplas instâncias? Até
uma ‘mesma’ fotografia, ou uma ‘mesma’ variação de um meme fotográfico, republica-
da por diferentes fontes, não será absolutamente idêntica em cada publicação. Processos
de compressão da imagem aplicados pela plataforma em cada iteração (ou nos percursos
da imagem para além das plataformas) gerarão resultados não idênticos a cada execu-
ção. Contrariamente ao senso comum sobre as mídias digitais, embora seja possível
gerar cópias idênticas da informação, este raramente é o caso em situações do “mundo
real”, pois algoritmos de compressão aplicados pelas plataformas, por exemplo, geram
instâncias similares mas não idênticas dos arquivos originais. Não é possível, portanto,
aferir uma vinculação absoluta entre estas diferentes instâncias, mas apenas relações
probabilísticas – uma chance maior ou menor de se tratar de uma ‘mesma’ imagem.
Mesmo a questão da identidade de uma imagem, portanto não é facilmente resolvida.
Outro desafio comumente enfrentado, diante destas imagens, é o de elaborar descrições
gerais do conjunto. No caso de conteúdos verbais, técnicas como a contagem da ocorrên-
cia de palavras ou de pares de palavras (bigramas) oferecem recursos simples, embora
limitados, evidentemente, para a sumarização. Para as imagens, este tipo de recurso não
é tão simples, como discutirei, tanto em um nível técnico quanto teórico e conceitual. A
identificação do conteúdo semântico de uma imagem, por exemplo, com atribuição de
uma palavra representativa de seu ‘conteúdo’, não é tarefa simples. Em todo caso, mes-
mo quando conseguimos fazê-lo de forma minimamente satisfatória, com aplicações de
reconhecimento de imagens, há muitas questões quanto a pertinência deste tipo de
análise quando estamos tratando de imagens, em especial as fotográficas. A teoria da
27
imagem fotográfica consolidou sua compreensão como o registro individual e indicial de
um acontecimento (BARTHES, 1984; DUBOIS, 2012; SONTAG, 2004), profundamente
distinta de uma palavra, cujo significado tem caráter mais geral e convencional. Adiante
retomarei criticamente esta vertente teórica, mas este aspecto seguirá relevante: uma
imagem não é equivalente a uma ou mais de mil palavras e, por mais que possa ser des-
crita dessa forma, não pode ser a ela reduzida15. Práticas contemporâneas de uso das
imagens tensionam esta consideração, tais como nos bancos de imagem e sua remissão
alegórica a tipicidades conceituais (FROSH, 2001; MINTZ; SILVA et al., 2019). Mas tal
tensionamento não autoriza que desconsideremos esta diferença.
Estudos em comunicação e mídia têm se debatido com alguns destes desafios em propo-
sições metodológicas diversas. Uma das mais conhecidas é a chamada Analítica Cultural
(Cultural Analytics), proposta inicialmente por Lev Manovich, que hoje atua na City Uni-
versity of New York (CUNY). Junto a colaboradores, Manovich desenvolveu abordagens e
ferramentas para realizar leituras distantes de grandes conjuntos de imagens de tipos
diversos – de páginas de mangás (MANOVICH, 2012) a selfies no Instagram (TIFENTALE;
MANOVICH, 2015). Discutirei sua abordagem em maiores detalhes adiante (veja 3 Visua-
lidades computacionais), mas seu aspecto característico é o tratamento das imagens
como dados culturais, em agregados de valores cromáticos ou de brilho. Desse modo, as
análises têm por objetivo descrever tendências estatísticas gerais a partir de tais dados e,
tipicamente, os estudos se distanciam da imagem em sua individualidade para tratar de
métricas descritivas de grandes conjuntos – reduzindo a complexidade dos corpora sob
uma visualidade voltada aos dados descritivos das imagens16. A Analítica Cultural teve
importante incidência no contexto brasileiro em pesquisas do Laboratório de Estudos
sobre Imagem e Cibercultura da Universidade Federal do Espírito Santo (LABIC). Seus
estudos se dedicaram especialmente ao entorno das manifestações políticas e grandes
eventos esportivos de 2013 e 2014 no Brasil (HONORATO et al., 2014; HONORATO; CAR-
REIRA; GOVEIA, 2014; MALINI et al., 2016).
Em outra vertente, o grupo interinstitucional britânico Visual Social Media Lab (VSML),
liderado por Farida Vis, da Universidade de Manchester, pauta um olhar multiperspecti-
vado do problema. Em 2015 o grupo realizou amplo estudo coletivo, derivando em
múltiplas produções (DRAINVILLE, 2018; FAULKNER; VIS; D’ORAZIO, 2018; VIS; GO-
15 Gillian Rose (2016) elabora sobre este fator de diferenciação como a agência das imagens.
16 Embora esta seja uma tendência geral da analítica cultural, Alise Tifentale (2015), colaboradora de Manovich,
sugere a necessidade de retorno à imagem, como também busco sustentar aqui.
28
RIUNOVA, 2015), em que se debruçam sobre uma imagem: a fotografia do corpo do garo-
to sírio Alan Kurdi, encontrado em uma praia na Turquia, em 2015, após tentativa de sua
família de buscar refúgio na Europa. As questões lançadas pelo grupo tomam esta ima-
gem como centro da investigação interessada em suas dinâmicas de apropriação por
diferentes públicos e, também, seu papel como articuladora dos debates acerca da crise
política gerada pelo afluxo de refugiados ao continente europeu. Há nesta abordagem,
portanto, um interesse justamente pela particularidade e individualidade daquela ima-
gem, buscando recuperar seu potencial e o caráter icônico que assume para o
acontecimento, ao longo do percurso investigativo.
Outra proposição contemporânea é a do grupo Visual Methodologies, da Universidade de
Amsterdam (UvA), liderado por Sabine Niederer. Articulando-se em torno da noção de
“imagem em rede” (networked images)17, Niederer e seus colaboradores propõem uma
compreensão da imagem articulada à gramática das plataformas de mídia social. As
imagens seriam enredadas, neste sentido, à medida que fossem vinculadas à atividade de
diferentes atores, em curtidas, comentários e republicações (NIEDERER, 2018). O grupo se
interessa, deste modo, pelo desenvolvimento e sistematização de métodos analíticos e
de visualização que permitam o estudo das imagens em grupo ao mesmo passo em que
coloquem em relevo os aspectos visuais dos objetos estudados (NIEDERER; COLOMBO,
2019; PEARCE et al., 2018). De modo importante, suas abordagens buscam recuperar as
imagens em sua materialidade visual – contrastando, assim, da indistinção dos dados
culturais trabalhados por Manovich. A estratégia das imagens compostas, proposta no
âmbito do grupo de pesquisa (COLOMBO, 2019), sugere estratégias de visualização de
dados que proporcionem uma passagem entre os grupos de imagens e suas instâncias
individuais.
Esta pesquisa busca somar esforços a estas iniciativas com um enfoque específico sobre
as implicações do emprego de tecnologias de reconhecimento de imagens, baseadas em
aprendizado de máquina. Técnicas deste tipo são mobilizadas em alguns estudos vincu-
lados à perspectiva da Analítica Cultural (RYKOV et al., 2016; TIFENTALE; MANOVICH,
2015), embora boa parte das análises nesta perspectiva tendam a enfocar descrições es-
tatísticas das imagens com base nos valores de cor dos pixels. O grupo Visual
17 Embora não seja mencionado por Niederer, esta formulação foi também proposta por Daniel Rubinstein e Katri -
na Sluis (2008), embora sem o mesmo peso para a definição de sua abordagem. A noção também nomeia centro
de estudos da London South Bank University, o Centre for the Study of the Networked Image (http://www.cen-
treforthestudyof.net/).
29
Methodologies também faz uso destas tecnologias, embora não desenvolvam uma dis-
cussão quanto a suas implicações (NIEDERER; COLOMBO, 2019). Um ponto que quero
destacar, portanto, é que o uso destes instrumentos de conhecimento e descrição não é
problematizado por estas pesquisas. Os estudos não discutem com maior foco ou densi-
dade os efeitos destas técnicas na pesquisa ou aspectos de sua constituição. De certo
modo, portanto, o problema permanece no plano operacional. Outro ponto importante
diz respeito à articulação que os estudos realizam entre a imagem individual e os gran-
des conjuntos. A Analítica Cultural, como indiquei, tende a trabalhar o conjunto em
detrimento das singularidades, dissolvendo as imagens em métricas estatísticas ou
mesmo em massas de pixels. O VSML e o Visual Methodologies complexificam esta relação
ao se voltar às duas escalas, mas até então se abstêm de tratar as escalas de forma arti -
culada, isto é, oscilando entre o micro e o macro – ou, de outro modo, entre o quali e o
quanti – que é outra ambição desta pesquisa.
Por mais que o tema da quantidade seja geralmente salientado como um dos desafios
centrais à análise de imagens em mídias sociais, em perspectivas como a Analítica Cul-
tural, sugiro que este problema precisaria ser também abordado qualitativamente. Não
basta dizer que temos hoje imagens na ordem dos bilhões e que isto cria dificuldades
operacionais aos estudos. É preciso considerar como esta transformação quantitativa é
acompanhada de transformações de ordem qualitativa. Pois, como sugeri, este volume
“sem precedentes” não constitui um desafio apenas à pesquisa mas também à nossa ex-
periência destas imagens e ao papel que elas desempenham na vida social. Trata-se de
questão que atravessa todo o circuito contemporâneo do visual, da produção à circulação
e ao consumo das imagens, oferecendo múltiplos pontos de entrada à investigação.
Como já antecipado, esta pesquisa se volta a um recorte particular deste contexto, defi-
nido pelas mediações algorítmicas que possibilitam a integração das imagens às
plataformas de mídia social.
Este enfoque demanda que consideremos a tecnicidade18 (RIEDER et al., 2015; SIMON-
DON, 2007) tanto das imagens digitais quanto dos métodos computacionais que nos
permitem estudá-las em grandes conjuntos. As técnicas investigadas nesta pesquisa são
respostas à compreensão da imagem digital enquanto inscrição sociotécnica (AKRICH,
1992; LATOUR, 2001), o que coloca desafios computacionais específicos. Uma imagem
digital é tipicamente constituída por uma sequência linear de valores numéricos que,
18 A tecnicidade das mídias sociais é tema de pesquisa desenvolvido atualmente por Janna Joceli Omena.
30
para a exibição, é organizada na forma de uma matriz de pixels. Em meio a essa massa de
valores, mesmo a simples identificação de um objeto representado na imagem (um aba-
caxi, um rosto, uma árvore) demanda um processamento complexo. Não há nenhum
segmento preestabelecido nos dados que seja pertencente a este ou aquele objeto repre-
sentado. Devido à não correspondência entre a estrutura de sua representação
computacional e a forma de seu “conteúdo” representacional, podemos compreender,
como formula Golan Levin (2006), que as imagens são “computacionalmente opacas”.
Tal opacidade é o que mobiliza a subdisciplina das Ciências da Computação denominada
Visão Computacional, que visa desenvolver algoritmos e heurísticas para a interpretação
computacional das imagens.
Pelo paradigma hoje dominante do aprendizado de máquina por redes neurais (CAR-
DON; COINTET; MAZIÈRES, 2018), interpretações computacionais das imagens sempre
produzirão representações probabilísticas, as quais elevam o grau de incerteza e o pro-
blema ontológico e epistemológico das imagens. Em qualquer paradigma de
desenvolvimento, segundo o jargão das Ciências da Computação, diz-se que a descrição
computacional de imagens é um problema “malposto” (ill-posed) (SMEULDERS et al.,
2000). Isto significa que, independente da abordagem adotada, não haverá resposta úni-
ca ao problema, mas apenas aproximações, que são validadas pragmaticamente segundo
a finalidade das aplicações. Nenhum programa de computador poderia oferecer uma in-
terpretação definitiva de uma imagem, não apenas porque sua representação do mundo,
na forma visível, será sempre incompleta e ambígua mas, também, porque múltiplas in-
terpretações sempre serão possíveis19. O paradigma objetivista ou positivista em que
tipicamente se baseia a computação, portanto, não consegue dar conta do problema da
imagem – algo que também pode ser afirmado, mas com outros matizes, à linguagem.
Portanto, superar a opacidade computacional não poderia levar a imagem a tornar-se, de
todo, transparente. Seria como colapsar a imagem e subtender, de forma positivista, sua
omnitraduzibilidade. Em outro contexto, o historiador da arte Georges Didi-Huberman
(2013a, p. 11) questiona, nestes termos, a herança da iconologia de Erwin Panofsky a seu
campo. A imagem ser a tudo tradutível seria, nesse caso, a premissa de que a imagem
poderia ser reduzida ao conceito. Didi-Huberman (2013a, p. 163) diz de uma “tirania do
conceito, da definição e, no fundo, do nomeável e do legível”, sugerindo uma operação
19 Smeulders et al. (2000) referem-se ao primeiro problema como “hiato sensorial” (sensory gap). Ao segundo,
como “hiato semântico” (semantic gap).
31
redutora da iconologia na subsunção da imagem e sua complexidade. Tomar a imagem
como omnitradutível implica, então, apartá-la de sua própria condição de existência,
como se fosse simples intermediária20 entre intelecto e mundo. Seria, assim, uma inscri-
ção visível que pudesse ser reduzida a uma condição legível sem que, em si mesma,
produza qualquer diferença. Em última medida, elabora o autor, tal perspectiva levaria a
“matar a imagem”, subjugando-a a uma condição de certeza (DIDI-HUBERMAN, 2013a,
p. 283), quando, efetivamente, estar diante da imagem é estar diante de uma fonte de in-
certeza. Considerando a questão metodológica desta pesquisa, poderíamos compreender
esta morte figurada da imagem como um efeito, também, de sua subsunção às descri-
ções geradas por programas de reconhecimento ou, ainda, por sua dissolução em
mensurações estatísticas que as tratam, irrefletidamente, como dados visuais. Teríamos
por este caminho, novamente, um Instagram sem imagens (Figura 1).
O desafio enfrentado por esta tese, portanto, é o de evitar que o caminho seja trilhado
sem a possibilidade de retorno, garantindo a possibilidade de recomposição do trajeto
que leva as imagens, de uma disponibilidade ao olhar às inscrições geradas por seu trata-
mento computacional. Uma das táticas possíveis envolve redobrar a atenção a cada
passo. Assim formulado, o problema da pesquisa diz respeito às complexas mediações
sociotécnicas que precisam ser mobilizadas para lidar com essas imagens, sob a com-
preensão de que estas mediações não apenas operacionalizam o tratamento das imagens
analisada mas, efetivamente, as transformam. Da imagem visível, oferecida ao nosso
olhar, à matriz de valores de cor e, enfim, à extração de características ou à classificação
por programas de aprendizado de máquina, a imagem passa por uma série de transfor-
mações. A cada passo, aquilo que é uma imagem se traduz a, progressivamente, outras
formas. Indo do fenômeno visual à inscrição computacional, percebe-se que não há
como que não transforme o quê da investigação. O problema enfrentado não pode ser,
portanto, apenas de método. Deve ser um problema metodológico, que nos leve a recon-
siderar a teorização sobre as imagens e a elaborar uma crítica das ferramentas (VAN ES;
WIERINGA; SCHÄFER, 2018), em uma consideração de como condicionam os modos pe-
los quais podemos conhecer as imagens.
Diante deste desafio, a presente tese tem como objetivo específico investigar a aplicação
de técnicas de aprendizado de máquina como recursos metodológicos para o estudo de
20 Didi-Huberman não utiliza esta palavra. Eu a introduzo aqui em referência ao sentido que lhe atribui Bruno La -
tour (2005) como contraponto à noção de mediador. Um intermediário seria, nesse sentido, um elemento que
apenas transmite uma agência sem produzir nenhuma interferência – sem possuir uma agência própria.
32
imagens em plataformas online, voltando-se, em sua parte empírica, a um estudo de
caso em que se propõe tensionar este referencial metodológico com a proposição de dis-
positivos de análise específicos. Em outras palavras, o método é parte substancial do
objeto. Uma das motivações é a indagação acerca das potenciais transformações das
imagens na sequência de translações a que são submetidas, em cada etapa do processo.
Sem recusar as oportunidades analíticas introduzidas pela análise computacional, pro-
curo considerá-las criticamente em um “trabalho de campo técnico” (RIEDER et al.,
2015) atento tanto aos potenciais quanto às limitações dos procedimentos adotados.
Para além do como, as perguntas geradoras da pesquisa assumem, principalmente, o
pronome interrogativo quê. O que fazemos ao estudar imagens por aprendizado de máqui-
na? O que se tornam as imagens quando interpeladas por tais métodos? O que eles nos dão a
conhecer? Situadas no horizonte da investigação, estas perguntas orientam o estudo de
caso, sem a pretensão de serem plenamente respondidas. Assumindo o estudo como
uma articulação situada das técnicas e métodos de análise, objetiva-se um exercício re-
flexivo em que as circunstâncias específicas possam elucidar aspectos gerais do
problema.
1.2 A questão do método
A elaboração de tais questões inspira-se fortemente na proposição dos Métodos Digitais,
inicialmente formulada por Richard Rogers (2013). Trata-se de um programa investiga-
tivo que se volta ao estudo de objetos nativos do digital por meio de métodos também
nativos do digital. Sua especificidade reside, portanto, em uma premissa de acoplamento
entre as características tecnológico-midiáticas dos objetos estudados e também das téc-
nicas e procedimentos empregados no estudo. Em comparação, o campo mais
abrangente das chamadas Humanidades Digitais (BERRY, 2012) frequentemente se vale
de técnicas analíticas computacionais para estudar objetos que não são nativos do digital
– como obras literárias, obras de artes visuais e documentos históricos. Em outra com-
paração, estudos da Internet frequentemente se valem de metodologias não nativas do
digital, como a etnografia ou a análise do discurso, que são então transpostas a ambien-
tes digitais, geralmente em formulações híbridas como “etnografia virtual”. Os Métodos
Digitais, de outro modo, se caracterizam pela busca de se estudar o digital digitalmente,
por assim dizer, o que implica um outro modo de concepção de seus objetos, considerada
a materialidade de sua constituição sociotécnica.
33
A respeito da noção de “objeto nativo do digital”, ela não deve ser compreendida na for-
ma de uma essencialização do meio – questão que será discutida adiante (veja 2.1 A
imagem e o digital). O próprio autor relativiza esta questão apontando que a “especifici-
dade do meio” diz respeito menos à circunscrição de uma definição essencialista do
digital e mais às implicações epistemológicas que os meios colocam ao estudo (ROGERS,
2013). Os objetos nativos do digital, nesse sentido, podem ser melhor compreendidos
pela noção de inscrição, segundo elaborado por Madeleine Akrich (1992). Na formulação
da autora, a pessoa que projeta um arranjo tecnológico “não apenas fixa a distribuição
dos atores, mas ele ou ela também provê uma ‘chave’ que pode ser usada para interpre-
tar todos eventos subsequentes”21 (AKRICH, 1992, p. 216). As inscrições, nesse sentido,
oferecem algo como uma articulação empírica, situada, do princípio de relação entre
formas de saber e poder analisadas por Foucault em boa parte de sua obra (cf. BRUNO,
2008, 2013; FOUCAULT, 1997). A noção também se relaciona com o que Venturini e La-
tour (2010) indicam por “traços digitais”, indicando como as mídias digitais produzem
múltiplos registros que podem ser reaproveitados pela pesquisa para interpelar a reali-
dade social (BRUNO, 2012). A noção de nativo do digital, portanto, deve ser considerada
em perspectiva ampliada, observando, principalmente, as complexas mediações que
conformam o objeto a cada instanciação, mais do que sua ontologia essencial. Noutra
ocasião, Rogers (2018a) enuncia este aspecto como uma sensibilidade ao meio, salientan-
do a necessidade de não se ignorar a relação entre o método e o modo de constituição dos
meios e objetos estudados.
Em vista destes princípios, um dos procedimentos chave dos Métodos Digitais é a “rea-
propriação” (no inglês, repurposing) de ferramentas computacionais e dos objetos
digitais estudados em sua materialidade específica. Estes elementos são tomados criti-
camente como instâncias metodológicas. Por exemplo, o mecanismo de busca da Google
é recorrentemente mobilizado por diferentes estudos como instância de mapeamento de
determinado tema. Porém, longe de tomá-lo ingenuamente como uma janela neutra
para a realidade estudada, a perspectiva dos Métodos Digitais busca realizar uma inves-
tigação que se volta simultaneamente aos objetos digitais e aos próprios métodos
empregados para descrevê-los – movimento relacionado, como indiquei acima, ao prin-
cípio da simetria, em sua releitura por Marres e Moats (2015). Ferramentas como a busca
da Google, portanto, são tomadas como mais do que um método para inquirir a realida-
21 No original: “… not only fixes the distribution of actors, he or she also provides a ‘key’ that can be used to interpret all
subsequent events”. Tradução minha.
34
de. Eles são efetivamente inseridos como objetos das investigações, enquanto mediado-
res ativos da investigação e, também, da experiência de navegação da Internet (cf.
RIEDER, 2012; RIEDER; SIRE, 2013).
Os Métodos Digitais são devedores da perspectiva teórico-metodológica dos STS (cf.
VENTURINI; MUNK; JACOMY, 2018). Diante da crescente complexidade das mediações
tecnológicas envolvendo os processos comunicacionais contemporâneos, os STS ofere-
cem importantes subsídios conceituais e metodológicos para os estudos voltados a
plataformas de mídia social, na medida em que investigam a constituição social da ciên-
cia e da tecnologia juntamente à constituição científica e tecnológica da sociedade. Os
Métodos Digitais e os STS permitem a adoção da perspectiva dupla, como afirmei, volta-
da tanto às imagens em plataformas online quanto às mediações sociotécnicas que as
conformam. Esta compreensão do problema se fundamenta, portanto, na não distinção,
de antemão, entre práticas sociais e as materialidades técnicas que participam, funda-
mentalmente, de sua constituição. No âmbito desta pesquisa, além da sua incidência
sobre os Métodos Digitais, os STS serão também mobilizados a partir da Teoria Ator-
Rede (TAR), uma de suas vertentes mais conhecidas, formulada inicialmente por Michel
Callon, Bruno Latour e John Law, nos anos 1980, com derivações e desdobramentos nas
décadas subsequentes.
John Law (2017, p. 47) elabora que, pela perspectiva dos STS, os métodos não devem ser
compreendidos simplesmente como técnicas, mas como um arranjo materialmente
complexo de práticas que articulam entidades heterogêneas, como sujeitos, objetos,
imaginários e instituições. Longe de dar acesso a uma realidade estável, portanto, esse
arranjo descreve “espaços de conhecimento” (“knowing spaces”, no original em inglês),
que definem fronteiras mais ou menos permeáveis entre o que é possível e o que é im-
possível de se conhecer. Há, desse modo, uma performatividade do método, que produz
diferença no interior de seu próprio objeto (LAW, 2017, p. 45). Tal consideração, eviden-
temente, levanta questões de ordem ontológica, já que se o método produz diferença, a
realidade é lançada em uma condição de instabilidade. Esta é, contudo, a circunstância
que descrevo acerca do problema lançado aos estudos das imagens. Situação esta que,
segundo defende John Law (2004), em perspectiva almejada por esta pesquisa, não deve
ser simplificada mas, sim, abraçada pela pesquisa.
35
Em resposta a esta instabilidade ontológica, o procedimento que adoto nesta investiga-
ção pode ser compreendido pela ideia de ontografia, segundo propõe Michael Lynch
(2013), como forma de desinflar a ontologia. Isto porque uma premissa dos STS envolve
justamente o ceticismo quanto a afirmações de verdades sobre o mundo sem que estas
sejam vinculadas às práticas que permitem revelá-las e que, em última medida, partici-
pam de sua constituição e manutenção. Segundo elabora Law (2017, p. 43), “ontologias
são efeitos relacionais que emergem em práticas […] [e] como práticas variam, também
variam os objetos”22. Uma reflexão metodológica, como a que proponho fazer, talvez
precise se haver com este ponto ao se indagar o que é, mesmo, que estamos fazendo ao
observar as imagens de um ou de outro modo. Que imagem estamos, afinal, produzindo
com nossa prática de saber? Importante ressaltar, especialmente em momentos de ata-
ques contra o saber científico, que isto não implica um relativismo absoluto. Trata-se, de
outro modo, do exercício de uma compreensão complexa das realidades produzidas pe-
los métodos, cuja validade depende justamente da força e consistência das práticas que
as constroem23. A perspectiva da ontografia visa, portanto, dar maior peso às formas de
conhecimento empregadas, justamente ao reconhecer a necessidade de evitar distinções
duras entre ontologia e epistemologia (LYNCH, 2013). Segundo a formulação de Lynch, a
ontografia compreende uma descrição situada e não essencialista dos objetos, assumindo
novamente uma perspectiva simétrica mas, desta vez, entre identidade e diferença.
Gabriel Menotti (2019), embora sem se referir a Lynch, mobiliza a noção de ontografia
para fraturar a noção unitária do dispositivo cinematográfico. Tomo sua discussão como
um ponto de apoio para também compreender a necessidade de revisar compreensões
essencialistas da dimensão técnica das imagens. Segundo sugere Menotti (2019, p. 15), o
dispositivo deve ser compreendido sempre no plural mesmo quando tratado no singular.
Embora o dispositivo seja frequentemente subsumido por instâncias específicas da
22 No original: “ontologies are relational effects that arise in practices […] [and] since practices vary, so too do objects”.
Tradução minha.
23 Esta discussão ultrapassa o escopo desta pesquisa, mas como se trata de tema hoje quente, gostaria de fazer
breves indicações. Em tom de revisão, Latour (2013, p. 6), identifica uma virada recente no discurso científico
que não se basearia mais nos fatos (matters of fact) ou na racionalidade para se defender da negação da ciência,
como no caso das mudanças climáticas. Em contraste, a defesa passaria hoje a se basear em um discurso de con-
fiança na instituição da ciência. Latour reflete que cientistas não apenas obscureceram as condições que
garantiriam esta possibilidade de confiança quanto combateram os estudos do STS que se propuseram a inves-
tigar as práticas que garantiriam solidez à instituição. Entretanto, reconhece que o tempo deste debate já teria
passado e estaríamos todos diante do desafio comum de defender os diagnósticos da ciência sobre o clima. Mais
recentemente, Latour (2018, p. 23) elabora: “Nenhum conhecimento comprovado pode se sustentar sozinho,
como sabemos bem. Fatos permanecem robustos apenas quando eles são suportados por uma cultura comum,
por instituições que podem ser confiadas, por uma vida pública mais ou menos decente, por uma mídia mais ou
menos confiável”. No original: “No attested knowledge can stand on its own, as we know very well. Facts remain ro -
bust only when they are supported by a common culture, by institutions that can be trusted, by a more or less decent
public life, by more or less reliable media”. Tradução minha.
36
constelação que efetivamente constituem nossa compreensão do cinema (tais como sala
de projeção, câmera etc.) (cf. BAUDRY, 1983), Menotti argumenta que este tipo de com-
preensão tende a priorizar determinadas instâncias em detrimento de outras e, assim,
configurar uma visão parcial do meio. Por exemplo, tal perspectiva unitária tende a des-
considerar a importância da pirataria como parte da dinâmica de circulação
contemporânea dos filmes e, portanto, da própria constituição do cinema. No caso desta
tese, como sugeri, cada etapa do processamento computacional de uma imagem, para os
fins da análise, implica uma transformação do seu estatuto ontológico. Nesse sentido,
não haveria como reivindicar uma ontologia estável atravessando todo o processo – a
imagem que se analisa ao final não pode ser tomada como equivalente àquela observada
ao começo. Neste sentido, o que proponho é uma ontografia da imagem digital nos pro-
cessos de translação a que é submetida ao longo da investigação. Espero que esta
abordagem contribua para adensar aplicações de aprendizado de máquina aos estudos
das imagens.
Dado o caráter necessariamente situacional deste tipo de abordagem, baseio-me em um
estudo de caso como instância a partir da qual aspectos gerais poderiam ser elaborados.
Nesse sentido, esta tese renova as apostas feitas no período de formação dos STS (cf.
BIJKER; LAW, 1992), quando se buscava um caminho intermédio entre a contingência
das narrativas singulares, no âmbito dos estudos históricos, e a busca por padrões e
grandes sistematizações da perspectiva sociológica. Gostaria, nesse sentido, de também
assumir o compromisso de me “debater com o desconcerto entre a exploração de estu-
dos de caso em seu desalinhamento e a tentativa de construir modelos em alguma
medida mais gerais ou modos de pensamento sobre a formação social da tecnologia” 24
(BIJKER; LAW, 1992, p. 7). Algo que, sugerem os autores, depende de modelos descriti-
vos “empiricamente sensíveis”. Por esse motivo, para além da reflexão teórica e
metodológica geral, esta tese tem, como ponto de chegada, reflexões desenvolvidas em
um “corpo a corpo” com os objetos analisados e os métodos empregados. Especifica-
mente, como ponto de confluência das discussões empreendidas neste trabalho,
apresenta-se um estudo de caso voltado aos desafios metodológicos colocados para uma
investigação interessada nas imagens que circularam no Twitter durante o aconteci-
mento da prisão do ex-presidente Luiz Inácio Lula da Silva, em abril de 2018.
24 No original: “wrestle with the trade-off between the exploration of messy case studies and the attempt to built [sic]
somewhat more general models or ways of thiking about the social shaping of technology”. Tradução minha.
37
1.3 Estrutura da tese
Após esta introdução, o texto se divide em três capítulos de desenvolvimento, seguidos
das considerações finais. O capítulo 2 (Imagem-rede) busca estabelecer uma base teórica
e conceitual para a compreensão das imagens segundo um princípio de “materialidade
relacional” (LAW, 1999). Parte-se de uma revisão da compreensão das imagens digitais
pelas teorias da imagem, buscando desenvolver uma crítica da hipótese de imaterialida-
de da imagem digital e, em especial, da desconsideração da constituição técnica como
elemento pertinente ao seu tratamento teórico. Em seguida, uma via alternativa é suge-
rida a partir de elementos teóricos e conceituais dos STS e da Teoria Ator-Rede (TAR),
em particular. Três eixos estruturam esta elaboração: o tema da mediação técnica (LA-
TOUR, 2001, 2005), como forma de compreender o caráter distribuído das agências que
participam na formação da imagem; o conceito de inscrição (AKRICH, 1992; AKRICH; LA-
TOUR, 1992; LATOUR, 1986, 2001), em sua dimensão sociotécnica, a fim de situar as
imagens em relação aos agenciamentos que as produzem mas, também, para compreen-
der as implicações de deslocamentos a outros arranjos sociotécnicos; e a noção de
multiplicidade ontológica (LAW, 2017; MOL, 1999), como forma de compreender as dife-
rentes instanciações materiais de uma imagem. Em uma terceira seção, busco elaborar a
hipótese conceitual desta tese, denominada imagem-rede. Primeiro, a abordagem da
imagem pela via dos STS e da TAR é aproximada a uma leitura interessada do trabalho do
historiador da arte Aby Warburg, do início do século XX. Aspectos de uma materialidade
relacional das imagens são postos em relação com a noção de “veículos de imagem”, de
Warburg (2015), e com seu projeto inacabado do Atlas Mnemosyne. A noção de imagem-
rede é proposta, então, como forma de descrever as imagens como efeitos emergentes de
formações distribuídas – noção que atravessará as discussões elaboradas na tese.
O capítulo 3 (Visualidades computacionais) volta-se mais especificamente ao tratamen-
to computacional da imagem como um fator de sua multiplicidade ontológica e,
especialmente, como elemento constituinte de “modos de ver” contemporâneos. A dis-
cussão enfoca, primeiro, a relação fricativa entre o visual e o computacional. A questão é
articulada, em particular, em uma revisão crítica da Analítica Cultural (MANOVICH,
2009), vertente de estudos que propõem uma abordagem quantitativa das imagens
como “dados culturais”. O principal argumento elaborado em contraste com a proposi-
ção de Manovich identifica em sua redução da imagem a um dado computacional
aspectos do que Van Dijck (2014) elabora, criticamente como dataísmo: a suposição de
38
que toda atividade social pudesse ser mensurável e tradutível a dados. Em um segundo
movimento, a discussão se volta ao aprendizado de máquina baseado em redes neurais
como uma forma contemporânea de transladar o visual ao computacional. As máquinas
indutivas (CARDON; COINTET; MAZIÈRES, 2018) constituídas por tal tecnologia são
consideradas pelo desafio que colocam à inteligibilidade de seus procedimentos e segun-
do o modo com que “aprendem a ver”, com a elaboração de modelos preditivos a partir
de grandes bases de dados. O aprendizado de máquina também é abordado pela natureza
dos vetores, as inscrições que esta técnica produz a partir dos dados processados e que
manipula em uma espacialidade abstrata, multidimensional. Ainda outro aspecto discu-
tido a seu respeito são as reconfigurações humano-máquina (SUCHMAN, 2007)
decorrentes da redistribuição agencial provocada no entorno de tais tecnologias. Na li-
nha da proposição de Adrian Mackenzie (2017), sugiro a compreensão de aprendizes
maquínicos, observando práticas de conhecimento distribuídas e compartilhadas entre
humanos e máquinas. Por fim, a terceira seção do capítulo se volta a aspectos das de-
pendências infraestruturais do aprendizado de máquina e como isto, para o caso
específico das aplicações de Visão Computacional, descreveria uma tendência de infraes-
truturalização (PLANTIN et al., 2016) de determinados modelos e bases de treinamento.
Esta situação levaria à prevalência de visualidades computacionais específicas que, inclu-
sive reproduziriam assimetrias políticas e sociais em seus modos de ver (BUOLAMWINI;
GEBRU, 2018; MINTZ; SILVA et al., 2019; SILVA, 2019). Estes aspectos são tensionados,
então, em uma discussão do gesto de reapropriação destes modelos como recursos meto-
dológicos para o estudo de imagens, em diálogo com o campo dos Métodos Digitais
(RIEDER; RÖHLE, 2017; ROGERS, 2013).
O capítulo 4 (Estudo de caso: imagens de uma prisão) desenvolve uma discussão meto-
dológica situada a partir das imagens que circularam no Twitter na época da prisão do
ex-presidente Luiz Inácio Lula da Silva, em abril de 2018. São processados 7,3 milhões
de tuítes publicados entre os dias 4 e 16 abril, desde a véspera da expedição do mandado
de prisão até o décimo dia de sua efetivação, ocorrida no dia 7 de abril. Entre os motivos
da escolha do caso, será ressaltada a relevância histórica do acontecimento e sua reper-
cussão midiática em uma disputa pela produção de imagens representativas da prisão.
Estes aspectos salientam tanto a relevância de uma abordagem centrada nas imagens
quanto a dinâmica relacional que se estabelece entre as diferentes figurações produzi-
das. Centralmente, porém, busca-se discutir os procedimentos metodológicos
39
demandados para o desenvolvimento de um estudo voltado a tais aspectos. Em remissão
aos debates teóricos dos capítulos precedentes, o objetivo é verificar o rendimento das
noções de imagem-rede e visualidade computacional, tomadas como eixos conceituais
desta tese. Como um ponto de confluência destas discussões, o capítulo apresenta um
dispositivo metodológico desenvolvido a fim de proporcionar uma navegação heurística
entre as imagens do acontecimento, denominado Atlas para imagens-redes (veja 4.3
Compondo imagens-redes). Instruções de acesso e utilização são indicadas no Apêndice
B . O Atlas apresenta cerca de 18,4 mil imagens extraídas dos tuítes, dispostas a partir de
dados extraídos por meio de dois modelos de reconhecimento de imagens baseados em
aprendizado de máquina: VGG19 (SIMONYAN; ZISSERMAN, 2014) e API Cloud Vision da
Google (GOOGLE, 2017). Ele também reúne métricas da circulação das imagens e alguns
dos tuítes que as compartilharam. Conforme a discussão realizada adiante, o Atlas busca
exercitar, em uma situação concreta, os desafios teóricos e metodológicos elaborados
nesta tese, em um esforço de composição (LATOUR, 2010) não reducionista da multipli-
cidade ontológica dos objetos estudados.
As Considerações finais sintetizam, por fim, os principais argumentos desenvolvidos ao
longo da tese e propõem respostas possíveis às perguntas geradoras da investigação.
2 Imagem-rede
Um primeiro desafio posto a esta pesquisa diz respeito ao tratamento teórico que será
concedido à imagem e, de modo mais específico, à sua materialidade técnica. Este enfo-
que, por si só, demanda um esforço de definição conceitual, pois a imagem possui um
problema ontológico de base que tende a se complexificar no contexto contemporâneo.
Como sugere Emmanuel Alloa (2015, p. 7), é como se a crescente exposição às imagens a
que somos submetidos fosse inversamente proporcional à nossa capacidade de descrever
o que elas efetivamente são. Um complicador fundamental, que independe das inflexões
contemporâneas, é a dificuldade em se estabelecer o lugar de sua ontologia. Sua condi-
ção de coisa, como descreve didaticamente Lavaud (1999, p. 13), tende a ser colocada
entre parênteses para dar lugar ao fenômeno de sua percepção ou à coisa representada.
Nesse sentido, as imagens parecem se apresentar como intermediárias fugazes que ape-
nas teriam relevância segundo fatores que, efetivamente, as transcendem25. Entre seus
múltiplos estatutos, como coisa, referente, percepção e, ainda, como desejo, a questão do
que é uma imagem é, por si só, desafiadora. No contexto de sua digitalização, o problema
é amplificado, já que nem mesmo os contornos materiais que a definiriam como coisa
não parecem, à primeira vista, ser assim tão claros.
Alloa elabora que a questão poderia estar mal colocada pois, longe de ser uma, “a ima-
gem tende a se disseminar, declinar-se dela mesma em formas plurais e desmultiplicar
em um devir-fluxo” (ALLOA, 2015, p. 7). Tudo pareceria indicar, nesse caminho, que a
questão da materialidade da imagem, de seu ser enquanto coisa, estaria no cerne da mal
colocação da questão. Como se fosse sua aparente estabilidade enquanto objeto que per-
mitisse esta interrogação, contrastando com a experiência e o modo de significação das
imagens, que sugerem, de outro modo, que a imagem-coisa seria apenas a manifestação
tangível de um fenômeno múltiplo. No entanto, sem recusar a complexidade de tais mo-
vimentos, quero argumentar que mesmo a materialidade da imagem não deve ser
tomada como estável ou determinada. Por um lado, é próprio à imagem constituir-se de
forma relacional, seja entre si e um olhar externo, seja na remissão ao acontecimento ou
25 Descreveu, em dado momento, Jacques Aumont: “Com todo rigor, a parte da imagem pode ser completamente
atribuída a um ou outro dos agentes da história social das imagens. Se a isolamos aqui, de modo um pouco arti -
ficial, é por pura comodidade, para apresentar um conjunto de pesquisas sobre a representação que, de certa
forma, consideraram a imagem como dotada de valores imanentes” (AUMONT, 2002, p. 197).
40
41
objeto ausentes. Por outro, a questão que levanto é que mesmo em sua constituição ma-
terial a imagem não se reduz a uma condição de imanência. Não é por a tratarmos,
transitoriamente, como coisa ou, no caso da imagem digital, como dado informacional,
que seria possível circunscrever sua ontologia. De outro modo, o caráter relacional que
fundamenta a compreensão fenomenológica, semiótica ou psicanalítica da imagem deve
se realizar, também, em um movimento que conecta a imagem-coisa às suas dependên-
cias de ordem material, técnica e infraestrutural. Neste sentido, meu argumento é de que
não há um artefato que possa ser considerado individualmente, senão pelo gesto de um
corte. Isto não só se aplica como se complexifica com as imagens digitais, colocando-se,
inclusive, como um dos aspectos centrais do problema metodológico a que se volta esta
pesquisa.
Uma primeira explicação para esta compreensão da materialidade dos meios poderia ser
apresentada na linha do que vêm discutindo autores como Jussi Parikka (2015) e Sean
Cubitt (2014, 2017). Segundo elabora Marcio Telles (2016) acerca de Parikka, teríamos na
linha destes autores algo como uma passagem da materialidade às matérias-primas da
comunicação. São proposições que se voltam concretamente às matérias que constituem
as tecnologias midiáticas. Estas, salientam, não surgem do nada e têm uma temporali-
dade que deve ser remetida a uma escala geológica. Dos pigmentos da pintura aos
minerais da indústria tecnológica contemporânea, as imagens seriam produtos que de-
pendem de amplas cadeias de extração, transformação e descarte, as quais se inserem
fortemente em disputas geopolíticas, inclusive como parte de sua valoração estética. Cu-
bitt (2014, p. 118–119) destaca como na Renascença, por exemplo, o alto custo político e
econômico do pigmento para a cor azul ultramar, proveniente do Afeganistão, fazia com
que ele fosse reservado para a representação de figuras de alto valor simbólico no perío-
do, como a Virgem Maria. Sobre o contexto contemporâneo, Parikka (2015) e Cubitt
(2017) destacam as dependências da cadeia produtiva das mídias digitais, com dinâmi-
cas neocoloniais de exploração do trabalho e dependências de minerais e de produção de
lixo ambientalmente desastrosos. Mesmo para o caso das imagens digitais, portanto, sua
imaterialidade é um mito26. Longe de supor uma ontologia estável, a dimensão da mate-
rialidade parece se situar justamente no campo do impensado da imagem27, como uma
26 Como Christianne Paul (2007) já havia alertado, do ponto de vista da preservação de obras de arte digital.
42
No enfoque específico que assumirei aqui, o tratamento da imagem enquanto coisa não
se voltará propriamente à matéria-prima das imagens, mas sim a como elas se integram
a arranjos sociotécnicos complexos, como condicionantes de seu modo de inscrição. A re-
lacionalidade da constituição material das imagens será considerada, então, de modo
próximo ao que John Law sugeriu, em uma revisão da Teoria Ator-Rede (TAR), como
uma “materialidade relacional” (LAW, 1999) ou uma “semiótica material” (LAW, 2009).
A TAR, escreve Law: “toma a compreensão semiótica da relacionalidade das entidades, a
noção de que elas são produzidas em relações, e a aplica impiedosamente a todos os ma-
teriais – e não apenas àqueles que são linguísticos”28 (LAW, 1999, p. 4). Para o caso da
imagem digital no contexto das plataformas online, esta relacionalidade deverá incluir
aspectos dos modos de inscrição dessa imagem e os processos computacionais que par-
ticipam de sua formação, transformação e circulação. Evidentemente, as imagens
possuem um apelo semiótico no seu sentido mais tradicional. No entanto, o olhar infor-
mado por uma perspectiva mais claramente material implica que consideremos outros
modos de sua relacionalidade que ultrapassam a questão do significado ou da semiose,
em seu sentido mais estrito, para lidar com sua ontologia.
Nas teorias da imagem derivadas do cinema e da fotografia, este aspecto não é ignorado,
sendo tipicamente articulado na noção de dispositivo. Geane Alzamora, Joana Ziller e
Carlos d’Andréa (2018), voltando-se a um contexto mais amplo de aplicação do conceito,
salientam a complexidade de se circunscrever uma definição precisa. A proposição mais
proeminente seria aquela de Foucault, que mobiliza o dispositivo de forma difusa em sua
obra, em especial em sua fase genealógica. Em seu pensamento, a noção visa nomear um
conjunto ou uma rede de práticas que envolve entidades heterogêneas, materiais e dis-
cursivas (FOUCAULT, 1979, p. 244). Esta rede de relações configura, de modo articulado,
formas de saber e de poder, socialmente disseminadas, em operações prescritivas e dis-
posicionais que não se caracterizam tanto pela censura mas, principalmente, pela
positividade (ALZAMORA; ZILLER; D’ANDRÉA, 2018). Isto é, seria mais pelo que permi-
tem do que pelo que proíbem que poderíamos compreender o modo de operação dos
27 Michel Callon, em texto que antecede, em muitos aspectos, sua proposição da teoria ator-rede, sugere que a di-
nâmica da constituição de problemas tecnocientíficos depende da distinção entre um campo de incertezas,
submetido à análise, e um campo de certezas, que não será analisado. A respeito deste último, afirma: “sua es-
trutura se assemelha àquela do inconsciente. Ela representa o que é silenciado para que o resto possa ser
afirmado” (CALLON, 1980, p. 213). No original: “its structure resembles that of the unconscious. It represents what is
kept silent so that the rest may be stated”. Tradução minha.
28 No original: “takes the semiotic insight, that of relationality of entities, the notion that they are produced in relations,
and applies this ruthlessly to all materials – and not simply to those that are linguistic”. Tradução minha.
43
dispositivos. Entretanto, muito embora tenha Foucault ao centro, a noção de dispositivo
lhe antecede em outras concepções29 e, também, lhe sucede no trabalho de comentado-
res (cf. AGAMBEN, 2009a; DELEUZE, 1999, 2006).
Especificamente no campo das imagens, a noção de dispositivo é anterior à consolidação
da acepção foucaultiana, inclusive em denominações distintas como aparelho ou aparato.
Um de seus principais antecedentes encontra-se na crítica de base marxista do dispositi-
vo cinematográfico, também denominado aparato cinematográfico, metonimicamente
referenciado pela sala de projeção (BAUDRY, 1983). Nos anos 1980, já sob influência de
Foucault, mas sem dispensar as demais correntes de formulação, a noção adquire im-
portância na reorientação pós-estruturalista das teorias da imagem, em especial no
entorno da fotografia. Em artigo de revisão, Philippe Dubois (2017) salienta como a
compreensão da especificidade da fotografia desenvolvida à época, em relação a outros
estatutos da imagem, se baseava fundamentalmente na essencialização de seu dispositi-
vo, o qual vinculava-se fortemente à constituição técnica da câmera e seu
condicionamento da gênese das imagens. Com base nesta compreensão, autores como o
próprio Dubois articularam uma teoria fundada na indicialidade e na referencialidade
como aspectos distintivos da categoria do fotográfico, descrevendo imagens com vincu-
lação ontológica com o real.
No âmbito destas teorias, a noção de dispositivo – que combina, em alguma medida, as
duas heranças – demonstra-se produtiva para a articulação conceitual dos efeitos cole-
tivos produzidos por elementos dispersos. Para o caso da fotografia, o efeito de
indicialidade é compreendido como derivado da atuação conjunta de processos físico-
químicos da película e do processo de revelação; da constituição óptico-mecânica da câ-
mera; e, também, de uma elaboração discursiva que reconhece nesse registro a condição
de inscrição do mundo ou de “emanação do real”, com efeitos ideológicos e psíquicos
(AUMONT, 2002; DUBOIS, 2012). No entanto, como Dubois (2017) reconhece em retros-
pectiva, o tratamento conferido ao dispositivo na teoria da fotografia tendeu à sua
essencialização, tomando-o, por vezes, como uma unidade.
29 Alzamora, Ziller e d’Andréa indicam, a partir de Raffnsøe, Gudmand-Høyer e Thaning (2014, citado por ALZA-
MORA; ZILLER; D’ANDRÉA, 2018), a existência de formulações anteriores de Louis Althusser, Jean-François
Lyotard e Louis Baudry. RAFFNSØE, Sverre; GUDMAND-HØYER, Marius & THANING, Morten S. What is a dis-
positive? Foucault’s historical mappings of the networks of social reality (2014). Disponível em:
http://foucaultnews.com/2015/01/10/foucaults-dispositive/. Acesso em fev. 2016. Outras formulações precurso-
ras podem ser observadas em Dubois (2012, p. 317–318), que se baseia na noção de aparelho em Sigmund Freud,
a qual toma como equivalente a dispositivo, para tratar dos efeitos psíquicos da fotografia. Ou em Aumont
(2002), que se refere principalmente a Christian Metz, para os efeitos psíquicos do dispositivo cinematográfico
e a Jean-Louis Baudry e Jean-Louis Comolli, para os efeitos ideológicos.
44
Em consequência, conforme argumentarei na primeira seção deste capítulo, a vertente
de teorização da imagem fotográfica desenvolvida naquele momento enfrentou dificul-
dades no tratamento da imagem digital. A suposição de uma ontologia essencialista
condensada em um dispositivo da imagem digital, a partir de uma transposição do mo-
delo teórico elaborado para a fotografia, revelou-se míope diante das implicações
trazidas pela digitalidade às imagens.
Na segunda seção do capítulo, busco delinear um caminho alternativo. Inspirado em as-
pectos da TAR, reviso a concepção teórica da mediação técnica e compreender as
imagens como inscrições sociotécnicas (AKRICH, 1992) em atendimento às prescrições
dos sistemas técnicos em que se encontram integradas e, também, a demandas institu-
cionais e políticas. Esta compreensão aponta, em particular, para uma abordagem
teórica das imagens como uma ontologia instável e múltipla (MOL, 1999). Contraria-
mente à essencialização do dispositivo como condição determinante do modo de
existência das imagens, o vocabulário teórico e a sensibilidade empírica que são consti-
tuídos pela TAR mostram-se capazes de descrever as múltiplas instanciações da
imagem, segundo a rede de mediações técnicas e as diferentes translações (CALLON,
1980, 1984) a que é submetida. Desse modo, sugere-se uma teorização da imagem pelas
suas dependências, no sentido da materialidade relacional indicada por John Law (1999).
Em um terceiro movimento, apresento a proposição da imagem-rede, tomada como hi-
pótese conceitual desta tese. Como elaborarei, trata-se de uma formulação que visa
reconhecer a tensão colocada pela multiplicidade ontológica das imagens. Busco dar um
passo além de tentativas de resolver tal tensão e argumento que uma tal elaboração te-
órica é demandada pela condição digital contemporânea, ao colocar em crise a
estabilidade ontológica outrora conferida à condição da imagem como coisa. Porém,
também argumento que esta consideração não se limita ao presente. Como forma de de-
senvolvimento desta proposição, realizo uma aproximação livre entre a noção de
imagem-rede e alguns aspectos da obra do historiador da arte Aby Warburg, cuja reno-
vada relevância em períodos recentes parece se dever, como sugere Maurício Lissovsky
(2014), à pertinência de suas observações para o contexto contemporâneo de deriva das
imagens. Em particular, retomarei sua noção de “veículos de imagem” (Bilderfahrzeuge)
e o seu projeto inacabado do Atlas Mnemosyne. Estes aspectos de sua obra serão tomados
como indicações importantes acerca da materialidade da circulação das imagens e tam-
bém das práticas desenvolvidas para conhecê-los. Busco, assim, verificar o rendimento
45
da proposição teórica da imagem-rede em contextos anteriores ao digital e mesmo ao
fotográfico. Esse olhar para o passado também visa compreender possíveis aspectos
transversais que o conectariam ao presente.
2.1 A imagem e o digital
Uma vertente dominante das teorizações produzidas a respeito da imagem digital nos
anos 1990 e 2000, como discuto a seguir, salientou seus aspectos de simulação, virtuali-
dade e perda do referente. Estas foram, de fato, algumas das principais “novidades”
inauguradas pela tecnologia digital – “informática” – em um primeiro momento,
quando câmeras fotográficas digitais, celulares com câmeras e a internet ainda não eram
muito difundidas e a imagem digital a que se referia era, majoritariamente, a da compu-
tação gráfica. As imagens de síntese, como foram nomeadas, eram produzidas não mais
a partir do gesto criativo manual ou por uma inscrição fotoquímica do mundo mas, sim,
por meio do cálculo computacional. Em retrospecto, contudo, percebe-se um sobredi-
mensionamento destes aspectos, em especial por sua elevação como traços definidores
da tecnologia digital. Ao enfocar a ruptura, as abordagens teóricas desenvolvidas no pe-
ríodo acabaram por perder de vista o que se oferecia como continuidade e, de modo mais
importante, as diferenças que eram ocultadas pelo tratamento monolítico do digital. Sob
esta perspectiva, um dos principais fatores que contribuíram a esse modo de compreen-
der a imagem digital parece se dever não apenas às possibilidades tecnológicas da época
mas, de modo mais importante, à tradição teórica que se desenvolveu na década anteri-
or, nos anos 1980, no entorno da imagem fotográfica. As teorizações sobre a imagem
digital refletem, em larga medida, as premissas teóricas desenvolvidas naquele período.
Em artigo de revisão, Philippe Dubois (2017) descreve os anos de 1980 como um período
de efervescência em que a noção de imagem assumiu seu sentido mais amplo de “regime
de visualidade” (DUBOIS, 2017, p. 34). Esta formulação ganhou corpo no entorno da
constituição teórica da fotografia e da categoria derivada do fotográfico. O autor delimita
a década da teoria francesa com dois marcos simbólicos, iniciando pela publicação, em
1980, de A Câmara Clara de Roland Barthes (1984) e concluindo com a publicação, em
1990, de O fotográfico, de Rosalind Krauss (2002). Outras obras-chave da periodização
incluem as de Susan Sontag (2004), publicada na década anterior, em 1977, e de Jean-
Marie Schaeffer (1996), publicada em 1987. Naquele mesmo período, em 1983, o próprio
46
Dubois publica seu influente O ato fotográfico (2012). Segundo elabora o autor, os teóricos
daquela geração tinham em comum a busca por uma superação da abordagem semioló-
gica estruturalista e, para isso, propunham uma visada em torno da especificidade da
fotografia e de seu dispositivo técnico. Desenvolveram, assim, um pensamento ontologi-
zante que buscava um “pensar próprio às imagens” (DUBOIS, 2017, p. 37). Este se
realizava em uma vinculação profunda entre a imagem e o real e em uma perspectiva de
irredutibilidade do visual à língua e sua racionalidade.
Entre os textos precursores retomados por aquela geração, há o conhecido “Ontologia da
imagem fotográfica” publicado em 1945 pelo crítico de cinema André Bazin (2014). No-
toriamente, Bazin destacara diferenças fundamentais entre a imagem fotográfica e a
pintura, sob a chave da objetividade essencial que lhe conferia, justamente, a máquina:
“Pela primeira vez, entre o objeto inicial e sua representação nada se interpõe, a não ser
outro objeto. Pela primeira vez, uma imagem do mundo exterior se forma automatica-
mente, sem a intervenção criadora do homem, segundo rigoroso determinismo”
(BAZIN, 2014, p. 31). A questão ontológica sobre a imagem era colocada, portanto, pela
singularidade de uma imagem que era produzida pelo próprio mundo não humano, por
assim dizer, em um distanciamento da subjetividade. Por um lado, este distanciamento
entre a imagem e a “intervenção criadora do homem” ressoa a apropriação da gênese da
imagem que no cristianismo, como descreve Marie-José Mondzain (2015), se deslocou
da mão humana à mão de Deus, como no sudário de Turim. Pela constituição técnica da
fotografia, contudo, a substituição não supunha uma divindade mas, de outro modo, a
noção moderna de objetividade30. Tratava-se, nesse sentido, de uma inscrição que a pró-
pria realidade objetiva do mundo realizava-se em si mesma.
Outra referência central à teoria fotográfica do período foi a semiótica de Charles S. Peir-
ce. Em particular, a categoria do índice, segunda instância da tríade pela qual Peirce
descreveu as relações entre os signos e seus objetos. O índice define-se por uma “corres-
pondência de fato ou relação existencial” (SANTAELLA, 2001, p. 21) entre signo e objeto.
Sua aplicabilidade à fotografia deve-se a que, diferentemente das imagens provenientes
do gesto criador da mão humana, a fotografia pode ser compreendida como efeito de um
processo químico, óptico e mecânico. Este aspecto, segundo desenvolveu Dubois (2012)
30 Lorraine Daston e Peter Galison (2010) desenvolvem como aspectos desta produção das imagens foram impor-
tantes na constituição do ideal de objetividade científica no século XIX.
47
em sua influente formulação, sobressaía até mesmo à relação de semelhança entre a
imagem e o mundo. Mais do que um espelho do real, a imagem fotográfica seria, assim,
um traço do real:
O ponto de partida é portanto a natureza técnica do processo fotográfico, o
princípio elementar da impressão luminosa regida pelas leis da física e da quí-
mica. Em primeiro lugar, o traço, a marca, o depósito […]. Em termos
tipológicos, isso significa que a fotografia aparenta-se com a categoria de
“signos” em que encontramos igualmente a fumaça (indício de fogo), a som-
bra (indício de uma presença), a cicatriz (marca de um ferimento), a ruína
(traço do que havia ali), o sintoma (de uma doença), a marca de passos etc.
(DUBOIS, 2012, p. 50).
A imagem sob o fotográfico (enquanto um regime de visualidade) definia-se, assim, pela
referencialidade, elevada à condição de essência pela conjunção entre o dispositivo técni-
co e a chave de leitura que ele proveu ao modo de significação da imagem.
Segundo elabora Dubois, em revisão, teria sido por causa deste enfoque ontológico que o
surgimento da imagem digital se fez sentir como um corte “dramático” ou “trágico”
entre a imagem e o mundo (DUBOIS, 2017, p. 42). Entre vertentes celebratórias (cf. COU-
CHOT, 2003; QUÉAU, 1993) e críticas (cf. VIRILIO, 1993, 1994) indicadas pelo autor,
encontramos acepções em que a digitalidade da imagem se resume a aspectos da virtua-
lidade e da simulação, sempre em vista do debate sobre a referencialidade, tomada como
aspecto essencial e ontológico da fotografia e, por conseguinte, da imagem enquanto ob-
jeto teórico. Desse modo, a visada essencialista, focada na especificidade do fotográfico,
acabou por enviesar a abordagem teórica da imagem digital. Esta limitação se fez sentir,
em especial, em um tratamento monolítico do digital, que não apenas ignorou modos de
sua diferenciação interna quanto supuseram um movimento de profunda ruptura, per-
dendo de vista as transformações graduais provenientes da digitalização da imagem. O
foco voltava-se ao que se introduzia de novidade específica, como o caráter sintético de
certas imagens de base digital, buscando elevá-lo à condição de essência de um novo
meio.
Em texto anterior dedicado às “máquinas de imagens”, Dubois (2004) expressa alguns
dos argumentos que ele viria revisar. Eles são ilustrativos da compreensão enviesada do
digital pela perda de referencialidade. As imagens digitais, segundo descreve, seriam ad-
vindas de uma ‘maquinaria extrema’ que constituiria, ela própria, a causa da imagem.
Nesse registro, a imagem seria imaterial, sem representação nem referente. Escreve ele:
48
De fato, com a imagem informática, pode-se dizer que é o próprio “Real” (o
referente originário) que se torna maquínico, pois é gerado por computador.
Isto produz uma transformação fundamental no estatuto desta “realidade”,
entidade intrínseca que a câmara escura do pintor captava, que a química fo-
tográfica inscrevia e que o cinema e a televisão podiam, em seguida, projetar
ou transmitir. Não há mais necessidade destes instrumentos de captação e
reprodução, pois de agora em diante o próprio objeto a se “representar” per-
tence à ordem das máquinas. Ele é gerado pelo programa de computador, e
não existe fora dele. É o programa que o cria, forma e modela a seu gosto
(DUBOIS, 2004, p. 47).
Desse modo, o autor sugere que a imagem digital causaria profundas inflexões nas cate-
gorias que até então fundamentaram a compreensão das imagens. Seria um caso
extremo de maquinização, que torna obsoleta a discussão da semelhança. Um caso situ-
ado, também, no extremo da imaterialidade: “A imagem informática é menos uma
imagem que uma abstração. Nem mesmo uma visão do espírito, mas o produto de um
cálculo” (DUBOIS, 2004, p. 65). Assim como se afasta do mundo, a imagem digital se
afastaria também da humanidade, pois o extremo da maquinaria produtora de imagens
seria também seu antípoda no eixo maquinismo-humanismo que estrutura o percurso
descrito por Dubois.
Em um tom celebratório que contrasta com o discurso da perda, Edmond Couchot (2003)
reforça, a seu modo, compreensão similar. O digital, segundo sugere, engendraria um
regime visual possuidor de características “totalmente novas” em que a imagem “se li-
bera” (COUCHOT, 2003, p. 160–164). Embora reconheça, para além da imagem de
síntese, a possibilidade de digitalização de uma imagem produzida sob outro regime
(como o fotográfico), Couchot iguala a ambas quanto à perda de referencialidade:
Quer o computador tenha procedido a partir de objetos reais numerizados
[digitalizados] ou de objetos descritos matematicamente, a imagem que apa-
rece sobre a tela não possui mais, tecnicamente, nenhuma relação direta com
qualquer realidade preexistente. Mesmo quando se trata de uma imagem ou
objeto numerizado, pois a numerização rompe esta ligação – esta espécie de
cordão umbilical – entre a imagem e o real. São números e somente números
expressos sob a forma binária na memória e nos circuitos do computador que
preexistem a esta imagem e a engendram (COUCHOT, 2003, p. 163).
Mais uma vez, a mudança no substrato tecnológico, em especial na forma da inscrição –
do químico ao informacional – era tido como ponto de clivagem fundamental pelo qual
se demandaria uma completa revisão ontológica da imagem e de seu modo de represen-
tação. Couchot aponta, assim, para uma espacialidade utópica e uma temporalidade
ucrônica que a imagem digital conseguiria estabelecer por este corte fundamental que a
separa do real e, por conseguinte, da história das imagens. O digital iria, assim, reencon-
49
trar-se com a “lógica da escrita alfabética que liberava o pensamento da materialidade
sonora da língua” (COUCHOT, 2003, p. 164)31. É interessante notar na descrição de Cou-
chot como a ideia de uma ruptura provocada pelo digital no estatuto da imagem a levaria
de volta ao paradigma linguístico, do qual, como relata Dubois (2017), a geração dos
anos 1980 buscava se distanciar.
Sob marcada influência da teoria francesa, Lucia Santaella e Winfried Nöth (2001) che-
garam a formulação similar em sua proposição analítica que distribuiu as tecnologias de
imagem segundo três paradigmas fundamentais, em analogia com a tríade semiótica de
Peirce. Assumindo o fotográfico como ponto de referência fundamental, Santaella e Nöth
sugerem como pré-fotográficas as imagens elaboradas manualmente; como fotográficas
aquelas geradas pela projeção óptica da imagem sobre um suporte químico ou eletrônico
(vídeo); e como pós-fotográficas aquelas de base informacional, referindo-se especifica-
mente às imagens de síntese. Os autores descrevem cada paradigma segundo aspectos
derivados da semiótica peirceana: o fotográfico seria caracterizado pela dominância di-
ádica, ou indicial, como já sugeria Dubois (2012); o pré-fotográfico, pela dominância
monádica, ou icônica; e o pós-fotográfico, a imagem digital, pela dominância triádica,
ou simbólica, dada a codificação binária da imagem na linguagem da máquina. Com a
dominância simbólica, os autores sugerem um caráter imaterial e informacional ao
modo de representação, já distante de qualquer materialidade ou empiria: “O que pree-
xiste um pixel? Um programa, linguagem e números. O que está implícito no programa?
Um modelo. O ponto de partida da imagem sintética já é uma abstração, não existindo a
presença do real empírico em nenhum momento do processo” (SANTAELLA; NÖTH,
2001, p. 167).
Em discussão realizada por César Guimarães (2002), em dado momento, a imagem digi-
tal foi também caracterizada, criticamente, no contexto de um novo regime do visível
marcado pela perda de sua relação com a experiência. Retomando expressão de Alain
Renaud-Alain (1994), Guimarães refere-se às imagens digitais (às de síntese, em espe-
cial, isto é, produzidas “no interior” das máquinas, sem o intermédio da câmera) como
“imagens sem gravidade”. Porém, diferentemente dos autores supracitados, argumenta
não se tratar de uma especificidade tecnológica mas, sim, de uma instância da experiên-
cia de sobrecarga informacional da pós-modernidade. Segundo sugere, a partir de
31 Abordando a interface sensorial da artemídia, Graziele Lautenschlaeger (2016) elabora, pela via das teorias ger -
mânicas da mídia, uma boa crítica da sugestão de imaterialidade das mídias digitais por Edmond Couchot.
50
Deleuze, o estatuto da imagem nesse contexto de sobrecarga teria sido antecipado por
certas obras do cinema moderno – em uma substituição do par Olho-Natureza pelo par
Cérebro-Informação (GUIMARÃES, 2002, p. 153). Entretanto, ainda que sem o mesmo
papel determinante, a natureza informacional da imagem digital ainda orienta a indaga-
ção do autor acerca da disponibilidade das imagens digitais à experiência sensível:
A questão que nos interessa aqui é: em que medida a ambiguidade da forma-
imagem digital ainda solicita a experiência sensível? Lembremos que se as
obras digitais são – em maior ou menor parte – orientadas pelo conceito
(pois a imagem é, inicialmente, a atualização dos dados do programa infor-
mático) e como tal – aos olhos de Lyotard – ameaçadas pelas situações
controladas e calculadas, a experiência estética define-se justamente por
uma duração que não pode ser medida ou calculada (GUIMARÃES, 2002, p.
158).
Voltando-se a aspectos da ontologia da imagem digital enquanto código e computação, o
autor salienta, a seu modo, a digitalidade no âmbito de um estatuto marcado pelo acú -
mulo de três perdas: da transcendência, do poder de fabulação, e do vínculo sensível com
o mundo (GUIMARÃES, 2002, p. 147).
Esse conjunto heterogêneo de elaborações é exemplar de vertente significativa de um
corpo teórico que, como venho discutindo, se desenvolveu acerca das imagens digitais
em seu contexto de emergência, nos anos 1990 e 2000. O cotejamento entre estas dife-
rentes formulações torna evidente como, em comum, expõem uma dramatização (seja
pela lamentação, seja pela efusividade) das transformações da passagem do regime fo-
tográfico ao que se identificava, então, como um regime digital. Estas proposições,
embora hoje pareçam datadas, são compreensíveis diante da instabilidade criada pela
tecnologia digital nos anos 1990, com especulações as mais diversas sobre suas implica-
ções, entre promessas e as ameaças32. Para além do tom, contudo – que poderíamos até
renovar em meio a aflições contemporâneas – o período também produziu elaborações
conceituais acerca da imagem e do digital que incidem ainda hoje em um direcionamen-
to epistemológico dos estudos do campo. Quero argumentar que a ênfase essencialista
sobre a natureza do registro, herdada das teorias sobre a imagem fotográfica, achatou a
compreensão das imagens digitais. Isto se torna ainda mais sensível se consideramos a
digitalidade para além das possibilidades de síntese, que eram tipicamente colocadas em
relevo nestas abordagens. Quero dizer com isto que boa parte das teorias sobre a imagem
digital enfocaram o tema de sua relação com o real e como esta seria transformada (ou
mesmo rompida) no âmbito das imagens de síntese, mas não consideraram outros as-
32 Wendy Chun (2006) e Geert Lovink (2009) elaboram boas revisões críticas dos discursos do período.
51
pectos desta transformação tecnológica – como as possibilidades de digitalização de
imagens originalmente não digitais, ou as possibilidades de circulação e as práticas cul-
turais delas decorrentes.
Deve-se reconhecer que as possibilidades de manipulação da imagem pelas tecnologias
digitais apontam, efetivamente, para outros tipos de regime de veracidade e atestação.
Hoje, o principal exemplo parecem ser os chamados deep fakes33, que colocam em crise
qualquer vestígio de credibilidade imanente da imagem de aparência fotográfica (estáti-
ca ou em movimento) como registro do real. Entretanto, por mais que se amplifiquem as
possibilidades de manipulação da fotografia e, com isso, sejam lançadas novas questões
acerca da realidade e de seu referente, parece ser significativo que a imagem considerada
realista ainda se manifeste em uma continuidade da estética fotográfica. Afinal, o desa-
fio colocado hoje pelos deep fakes se deve a uma maior verossimilhança da manipulação
que é obtida justamente em uma aproximação da imagem de base fotográfica. Como tra-
tarei brevemente no capítulo seguinte (3 Visualidades computacionais ), é igualmente
relevante que esse efeito não seja obtido por uma síntese pura ou absoluta – sem “a pre-
sença do real empírico em nenhum momento do processo” (SANTAELLA; NÖTH, 2001,
p. 197). Pelo contrário, mesmo a manipulação verossimilhante, hoje, baseia-se no que
poderíamos caracterizar como um processo de condensação e destilação do real empírico,
obtido por meio do registro fotográfico, mais do que por um cálculo matemático “puro”.
Os deep fakes são exemplares de um aprendizado de máquina generativo, ponto a que re-
tornarei adiante. O tensionamento da referencialidade no campo visual contemporâneo
parece se dar, nesse sentido, muito mais por uma incorporação da visualidade da foto-
grafia pelo computacional do que por sua ruptura ou substituição. Não cabem, portanto,
oposições binárias simples, a questão é mais complexa e poderá ser melhor compreendi-
da adiante, segundo o caráter indutivo do aprendizado de máquina. O virtual hoje opera,
com frequência, menos no sentido do cálculo abstrato do que por meio de condensações
de individualidades concretas.
Contudo, mesmo quando não se voltam à síntese como categoria definidora do regime
digital das imagens, teorizações sobre a imagem digital buscam evidenciar efeitos de
ruptura. São comuns formulações como a de Hoelzl e Marie (2015, p. 63) que em certa
33 Esta técnica de falseamento deriva de aplicações do aprendizado de máquina por redes neurais, na modalidade
chamada de deep learning (aprendizado profundo). Por isso a denominação deep fake. Uma de suas primeiras
aplicações conhecidas foi demonstrada em vídeo do ex-presidente estadunidense Barack Obama, produzido por
pesquisadores da Universidade de Washington, dos EUA (SUWAJANAKORN; SEITZ; KEMELMACHER-SHLIZER-
MAN, 2017). O vídeo ganhou atenção online a partir de julho de 2017.
52
passagem postulam uma superação da projeção geométrica como aspecto constituinte
da fotografia digital, em favor de sua constituição algorítmica. Um exagero, evidente-
mente, já que não se verifica uma transformação substancial na composição óptica das
câmeras digitais. Também William Uricchio (2011) ao se voltar para as possibilidades de
representação do espaço e de navegação pelas imagens de base fotográfica, aponta para
uma “virada algorítmica” das imagens. Ele não chega a afirmar que esta virada tenha
sido concluída, indicando de outro modo que as transformações que observa em tecno-
logias de realidade aumentada ou de fotografia 360º seriam “fissuras” em um regime
ainda bastante resiliente da modernidade. Contudo, ele sugere o horizonte de uma
transformação profunda pela via das imagens digitais.
Sem entrar no mérito do argumento teleológico, diria que estas formulações talvez exa-
gerem as questões em jogo. Parece-me mais produtivo o argumento de Daniel
Rubinstein e Katrina Sluis (2008, p. 11) que indicam como uma das principais conse-
quências da digitalização a “amadorização em massa” da fotografia, em uma
“visibilidade online renovada”. Com os celulares com câmera, encontramos mais ima-
gens feitas para circular do que para permanecer34. Seria também nesse sentido que
Dubois (2017, p. 39) indica a emergência de estudos voltados não tanto a uma discussão
ontológica, mas aos usos das imagens e suas manifestações vernaculares: “A questão ‘o
que é a fotografia?’ é assim sucedida por uma outra questão de fundo: ‘o que pode a fo-
tografia?’ (a que ela serve? Quais são os valores que ela veicula e que atribuímos a ela?)”.
Gostaria, em todo caso, de insistir na questão ontológica, porém em outro enquadra-
mento. Como venho argumentando, trata-se de uma questão fundamental para uma
consideração crítica do tratamento computacional conferido às imagens, tanto no âmbi-
to dos processos de datificação das plataformas, quanto no âmbito das metodologias de
pesquisa que se voltam à cultura visual contemporânea. Isto se torna mais evidente à
medida que este modo de tratamento das imagens, com sua visualidade particular, passa
a integrar ativamente o campo visual contemporâneo. Nesse sentido, trata-se de uma
transformação pertinente à questão do que é a fotografia, que também coloca questões
importantes quanto ao que pode a fotografia e a que ela serve. Parece-me especialmente
importante essa insistência porque o distanciamento que se observa da questão ontoló-
34 Indicações destes outros aspectos podem ser encontradas na ideia de um circulacionismo das imagens contem-
porâneas, descrito pela artista e pesquisadora Hito Steyerl (2009, 2013)
53
gica, longe de significar sua resolução, sugere um abandono. As razões indicadas para
este caminho, por sua vez, me parecem se dever justamente a uma manutenção do equí-
voco teórico que venho descrevendo, até aqui, acerca da caracterização do digital.
Voltando ao percurso do artigo de revisão de Dubois, o argumento central sustentado por
ele é o de uma reconfiguração teórica, que passa da concepção de uma imagem-traço
(conforme a teorização da fotografia dos anos 1980) a uma imagem-ficção. Esta transição
implica, segundo discute, um abandono da ideia de um “universo de referência” a que a
imagem se vincularia, por um “universo de ficção” (DUBOIS, 2017, p. 45). Ou seja, aban-
dona-se a ideia da imagem como emanação do real para sua reformulação como
inscrição fabuladora de um mundo possível. O que quero contestar não é a vertente de
investigação assumida pelo autor, mas sim como, em aspectos secundários de sua argu-
mentação, permanecem heranças do momento teórico precedente que talvez
merecessem uma revisão mais profunda. Um primeiro ponto é que, embora se observe a
redução de uma pretensão ontologizante, isto não se refletiu em um deslocamento da
referencialidade como eixo central de sua compreensão das imagens ou em uma reconsi-
deração do modo de constituição desta referencialidade. Ao contrapor o “universo de
ficção” a um “universo de referência”, a questão permanece central, embora em negati-
vo. Ou seja, sem a mesma ênfase ontologizante, a ideia de uma síntese ou de
distanciamento referencial ainda organiza sua elaboração.
Ao sustentar essa questão como eixo de sua análise, contudo, Dubois não o articula a
uma reconsideração do lugar da técnica na constituição da imagem e, com isto, chego ao
segundo ponto, central à minha discussão. Pois, justamente com a questão ontológica,
Dubois dispensa a técnica como categoria teórica. Este ponto, em particular, parece-me
decorrer de um equívoco já presente na concepção assumida nos anos 1980 e que perdu-
ra na reconfiguração agora proposta. Isto porque o instrumental teórico que
fundamentou a concepção da imagem-traço a partir do dispositivo da fotografia acabou
por elevar a uma condição determinante o momento da inscrição fotográfica. Este gesto
redutor teria sido suficiente, naquele momento, mas as tentativas de sua transposição às
imagens digitais parecem revelar sua inadequação. A esta inadequação, Dubois responde
por um abandono da questão, em vez de refinar seu tratamento teórico.
Essa dispensa seria justificada, para ele, porque a tecnologia digital tornaria a discussão
sobre o dispositivo produtor das imagens, em certa medida, obsoleta. De fato, como ar-
54
gumentarei, a tecnologia digital demanda que revisemos certa visada essencialista sobre
a técnica, não só acerca de suas configurações contemporâneas mas, também, como
uma falha que deve ser considerada retrospectivamente. Contudo, não é esse o sentido
da revisão de Dubois, que propõe um esvaziamento da questão. Segundo elabora, o digi-
tal viria aplainar a discussão do dispositivo na medida em que o código informacional
único, da máquina, trataria imagens de diferentes naturezas, ou, mesmo, imagens e
textos, de igual modo:
todos alojados sob a mesma insígnia digital indiferenciada da reprodução e da
transmissão dos “sinais” da informação […]. Do ponto de vista do digital, não
há diferença entre um texto, uma imagem e sons; tudo é reduzido à base “in-
formacional” dos data, ao mesmo substrato de sinais codificados
digitalmente. […] Essa mudança é fundamental, tanto para o pensamento da
ontologia da imagem e de seus dispositivos quanto para o pensamento sobre
os usos e as práticas da imagem. O campo teórico sob esse prisma se torna
mais intenso, mais denso, mais complexo; mais vasto e diversificado, mas
também menos claro, menos definido, menos estruturado (uma vez que tudo
é, agora, “digital”) (DUBOIS, 2017, p. 41).
Percebe-se, então, que seu argumento se baseia na redução da tecnologia digital a seu
aspecto mais elementar, o código numérico discreto. Pela universalidade presumida do
registro – reduzindo qualquer tipo de informação a uma mesma codificação – Dubois
argumenta que o código levaria a uma configuração menos definida e estruturada. Por
isso, sugere, não haveria muito o que se dizer sobre a ontologia das imagens e seus dis-
positivos. Sem estrutura, não haveria o que se descrever.
Há pertinência na consideração que faz ao final da citação ao indicar que “tudo é, agora,
‘digital’”. Com a pervasividade das tecnologias digitais, perde hoje sentido a postulação
do digital como indicação de uma especificidade essencial. Este é, inclusive, o mote de
parte das reflexões contemporâneas no entorno de uma condição pós-digital (BISHOP;
GANSING; PARIKKA, 2016; CRAMER, 2015; PAUL, 2015). No entanto, esta condição não
deveria encaminhar para um abandono da discussão sobre a digitalidade. Pelo contrário,
ela deveria motivar a que se adensassem as discussões acerca das diferenciações inter-
nas às tecnologias digitais, abandonando o digital enquanto categoria monolítica. Salta
aos olhos, nesse sentido, que embora Dubois reconheça um aumento de intensidade e
complexidade da dimensão técnica, esta constatação não seja acompanhada por um
equivalente adensamento das questões acerca da implicação ontológica da técnica, da
imagem e de seus dispositivos. No outro extremo, Dubois vê nesta situação um pretexto
para dispensar a questão:
55
No fundo, eu diria que a chegada do digital permitiu justamente relativizar,
recolocar no lugar essa teoria dos anos 1980 ao limitá-la à sua dimensão “ge-
nética”, a esse simples momento do processo de fabricação da imagem, e ao
mostrar que sua “ontologização” foi uma extensão para o menos discutível,
um tipo de cegueira epistemológica, uma tentativa de epifania teórica pela
absolutização, pela glorificação, do que não é, em suma, nada mais do que um
procedimento técnico (DUBOIS, 2017, p. 43–44).
Descrevo, deste modo, o que me parece o equívoco central da consideração da tecnologia
digital nos estudos da imagem. Se, por um lado, o afã ontologizante que levava a uma vi-
sada essencialista do fotográfico, de fato deva ser revisado, parece-me equivocado que a
digitalidade seja motivo para o abandono de uma reflexão acerca da materialidade técni-
ca das imagens contemporâneas. Haveria, me parece, outros modos de conceber a
tecnicidade das imagens digitais sem, com isto, derivar em uma compreensão essencia-
lista, seja do digital, seja de suas imagens.
Possivelmente, um dos problemas colocados pela tecnologia digital seria, justamente,
sua maior resistência a uma visada reducionista ou essencializante. Pois, se por um lado
o registro da imagem se materializa em uma codificação binária, por outro essa codifica-
ção é apenas uma de suas camadas constituintes, que é suplantada por outras, em
combinações com ampla variabilidade e que são irredutíveis ao tratamento essencialista
por uma categoria ampla como o digital. De fato, a codificação dos sinais pela matemáti-
ca discreta é um dos traços distintivos (se não o traço distintivo) das tecnologias digitais.
São eles que permitem a manipulação simbólica da informação por procedimentos algo-
rítmicos bem como a tradução de diferentes tipos de informação (imagem, som,
números, textos verbais) a registros de uma mesma natureza. O problema não está nesta
constatação mas, sim, na sua elevação a uma condição determinante das mídias digitais
sem levar em conta as múltiplas mediações em jogo.
A argumentação de Dubois é abordada aqui pela sua relevância e influência no campo
dos estudos das imagens, embora se trate, evidentemente, de um recorte limitado. No-
tavelmente, este enfoque tende a privilegiar autores franceses. Contudo, trata-se de
vertente teórica com forte influência também no contexto brasileiro, como minha revi-
são indicou, e que ainda hoje reverbera nos estudos da imagem no país. Apesar desta
limitação, é importante destacar que este ponto de divergência que discuto agora não é
específico de sua abordagem. Trata-se de uma compreensão recorrente das tecnologias
digitais que acaba por desconsiderar as particularidades técnicas ou ‘mitificá-las’ diante
do desafio colocado à sua descrição. De certo modo, parece ser um sintoma da carência
56
de instrumentos teóricos e metodológicos para descrever estas tecnologias, no campo de
estudo das imagens, na arte e na comunicação. Talvez indique, também, certa permea-
bilidade do campo a formulações pouco rigorosas propagadas pela indústria tecnológica
ou no senso comum. O caso da codificação binária, ressaltada por Dubois, talvez seja
hoje um aspecto menos saliente, mais claramente vinculado à emergência das tecnolo-
gias digitais. Porém, algo similar pode ser observado na hipervaloração do algoritmo
como categoria conceitual sem considerar as diferenciações subsumidas por esta deno-
minação. A esse respeito, Adrian Mackenzie (2017, p. 9), por exemplo, reivindica a
necessidade de uma compreensão mais específica destes objetos: “Que algoritmo, que
tipo de abstração, e que ‘processo matemático’ devemos focar? Como a automação e o
cálculo, a abstração e a matemática são historicamente mutáveis”35. Na mesma linha,
Bernhard Rieder (2018) sugere a categoria de “técnica algorítmica” como uma unidade
de estudo viável para considerar modos constituídos e replicáveis de elaboração de algo-
ritmos que permitam certo grau de generalização sem perder de vista as especificidades.
Observa-se, pois, a demanda que encontremos modos de tratar dados ou algoritmos evi-
tando formas vagas que tendem à essencialização.
Com este percurso, busquei sustentar ao menos três pontos. Primeiro, seguindo a revi-
são de Dubois (2017), que as teorias da imagem desenvolvidas na década de 1980 acerca
da imagem fotográfica demonstraram-se insuficientes ou mal direcionadas para lidar
com o caso da imagem digital. Pois a transposição do modelo teórico entre estes dois ob-
jetos foi realizada a partir da premissa de uma distinção ontológica de base entre seus
processos de gênese. Segundo, que a tecnologia digital colocou um problema epistemo-
lógico a esta tentativa de abordagem uma vez que não havia ainda um instrumental
teórico ou metodológico para descrever a constituição da imagem digital. Como resulta-
do, as teorias tenderam a essencializar o caráter simbólico e calculável do registro
digital, sem observar as mediações que o estruturam para além de sua instância mais
concreta de representação numérica. Avançando sobre estes desafios, na seção a seguir
busco esboçar modos de elaborar estas distinções internas ao digital, sem derivar em seu
tratamento monolítico.
35 No original: “Which algorithm, what kind of abstraction, and which ‘mathematical way’ should we focus on? Like au-
tomation and calculation, abstraction and mathematics are historically mutable”. Tradução minha.
57
2.2 A imagem múltipla
Contrariamente à concepção da técnica como determinante ou como sobredeterminada,
busco adotar um caminho intermediário em que a constituição digital da imagem seria
desessencializada. A justificativa para este movimento ficará mais compreensível ao lon-
go desta seção, mas antecipo que ele se deve a uma compreensão mais complexa da
mediação técnica, que busca evitar tanto sua anulação quanto sua acepção determinista.
Para isso é preciso desenvolver um olhar mais atento às diferentes mediações que to-
mam parte dos dispositivos de imagem, tomando-os em seus vetores de diferenciação e
não tanto no sentido de sua homogenização. Este modo de tratamento, conforme argu-
mentei na seção anterior, levou a uma incompreensão acerca das implicações da
tecnologia digital ao campo das imagens. O digital não pode ser reduzido à natureza do
registro pois ‘zeros e uns’ podem ser arranjados de diferentes formas. Por sua vez, os
modos de estruturação dos dados tampouco podem ser tomados como traços essenciais,
sem observar os algoritmos que os processam. E mesmo estes não podem ser tratados
por uma forma genérica – como o algoritmo – sem que neles reconheçamos seus dife-
rentes pressupostos e modos de operação, ou suas diferentes vinculações institucionais e
epistêmicas. Nesta seção, busco um vocabulário teórico para melhor descrever estas for-
mas de mediação evitando elaborações essencialistas como as que permearam o
fotográfico e, depois, o digital.
Um primeiro reenquadramento demandado pela tarefa diz respeito à compreensão uni-
tária do dispositivo. Não se trata de questão exclusiva da imagem digital. Voltado
especificamente ao cinema, Gabriel Menotti (2019) reivindica a necessidade de revisar a
aplicação singular do dispositivo cinematográfico para dar lugar à sua multiplicidade. Sua
proposta busca articular a perspectiva simondiana da individuação dos objetos técnicos
(SIMONDON, 2007) como um ponto de tensionamento com a categoria do dispositivo. Ele
propõe, por esta articulação teórica, a ideia de que uma identidade do cinema seria cons-
tituída performativamente36. Projecionista, projetor, curadores, público, filme, arquivo
digital, algoritmos de compressão/descompressão, tela, luzes, torrent, plataformas de
streaming. Todos esses elementos estão em jogo na constituição contemporânea do obje-
to filme37. De modo similar ao que observei na seção anterior acerca da categoria do
36 Não enfrentarei aqui as possíveis aproximações entre Simondon e a TAR, que mobilizo como referencial teórico
principal. Há contudo, importantes aproximações, embora Latour em certo momento tente traçar diferenças
fundamentais, conforme elabora Pedro Ferreira (2017), que contesta a posição de Latour.
37 No original em inglês, Menotti prefere se referir a estes objetos como movies. Diante da impossibilidade de tra-
dução, utilizo aqui filme.
58
fotográfico, Menotti argumenta que haveria um reducionismo nas acepções clássicas que
concebem o dispositivo cinematográfico por elementos proeminentes como a câmera, a
sala de projeção, a tela ou a película. Concepções como estas, argumenta, se evidenciam
inclusive nos editais de produção e premiação, os quais expressam diretrizes normativas
quanto ao que é considerado um filme, com demandas relacionadas ao suporte, ao cir-
cuito de exibição e à duração, entre outros aspectos.
Em contraposição às abordagens reducionistas, Menotti (2019, p. 24) propõe um gesto
analítico de desindividuação do cinema, perseguindo desde as dinâmicas heterodoxas ou
clandestinas de distribuição possibilitadas pelo videotape até as dinâmicas de conforma-
ção do filme pelos formulários de submissão de obras cinematográficas a festivais.
Contrariamente à ideia do cinema e do filme como possuidores de identidades estáveis e
bem definidas, ele argumenta que ambos levam uma existência precária que se encontra
sempre em processo de manutenção (MENOTTI, 2019, p. 61). A abordagem proposta por
Menotti abre algumas possibilidades interessantes para esta pesquisa. Uma desindividu-
ação da imagem digital demanda que consideremos, assim como no caso do cinema, que
a categoria do digital seria um efeito performativo de práticas e materialidades dispersas
e não uma categoria pré-definida. Neste sentido, se convocamos o digital por um pressu-
posto de irredutibilidade, como uma complexidade que não pode ser subsumida por
descrições gerais, trata-se de um fator de complexificação do problema, não de sua so-
lução.
Em linhas gerais, meu argumento é o de que a crise colocada pelo digital às teorias que
propunham uma ontologia das imagens impõe a necessidade de revisarmos a com-
preensão da materialidade técnica e suas implicações. Não porque a tecnologia digital
implique uma ruptura definitiva com os outros modos de existência da imagem mas,
sim, porque sua introdução promove uma multiplicação dos seus modos de existência.
Esta condição se coloca como oportunidade analítica para reconsiderarmos a suposição
de uma identidade que outrora conferíamos aos demais ‘regimes’. Como elaborei à In-
trodução, é justamente o trânsito entre esta multiplicidade que coloco como problema à
pesquisa, compreendendo que as práticas metodológicas performam materialidades dis-
tintas para uma ‘mesma’ imagem. No cerne desta compreensão encontram-se
concepções da realidade e das práticas de produção do conhecimento elaboradas no con-
texto da TAR.
59
Logo de início, é importante destacar que a TAR não constitui um corpo teórico coeso.
Pelo contrário, seu estatuto enquanto teoria é contestado até mesmo por John Law, um
dos membros da espécie de ‘triunvirato’ que é reconhecido pela formulação inicial dessa
abordagem, formado também por Michel Callon e Bruno Latour. Law (2009, p. 141) afir-
ma categoricamente que a TAR não é uma teoria. Entre outros motivos, porque sua força
não reside propriamente em seu poder explicativo mas, sim, em seu poder descritivo. Mais
do que isso, como também discute o autor, trata-se de um conjunto de métodos e sensi-
bilidades analíticas sem uma identidade clara – “uma diáspora que se sobrepõe a outras
tradições intelectuais”38 (LAW, 2009, p. 142).
Seus aspectos teóricos e conceituais são melhor considerados de forma articulada, sem
tomar a TAR como proposição artificialmente isolada mas, sim, como uma entre outras
abordagens que lhe avizinham. Em uma das narrativas genealógicas mais consolidadas,
trata-se de uma vertente dos Estudos de Ciência e Tecnologia (STS), precedida pela So-
ciologia do Conhecimento Científico (SSK, na sigla em inglês). Deve-se destacar,
também nesse contexto, seus débitos à historiografia da ciência, da qual herda a prefe-
rência por estudos de caso e não a grandes sistematizações (cf. BIJKER; LAW, 1992).
Como enfatiza Tiago Salgado (2019), trata-se também de uma de três vertentes das so-
ciologias pragmáticas francesas, gestadas no mesmo período e compartilhando alguns
princípios teóricos e premissas analíticas. Destaca-se, por exemplo, o compartilhamen-
to de uma compreensão do social como efeito das ações e associações entre os atores, e
não como entidade preestabelecida. Em ainda outro caminho, sem relação de exclusão
com os demais, há as dívidas da TAR à filosofia pós-estruturalista, em especial de Fou-
cault e Deleuze, pelas quais John Law (2009, p. 145) sugere que a TAR “pode ser
compreendida como uma versão empírica do pós-estruturalismo”39. Exatamente por
esta sensibilidade empírica, a TAR funda-se menos em modelos e paradigmas teóricos
abstratos do que em teorizações a partir de casos empíricos.
Arriscando uma síntese interessada pela abordagem que viso elaborar, diria que um dos
principais traços da TAR é a sua compreensão da realidade como um efeito de práticas
situadas. Segundo esta compreensão, a TAR parte da premissa de que não haveria ne-
nhuma realidade social preexistente que se oferecesse como explicação para os
fenômenos abordados. De outro modo, como elabora Latour (2005), é a própria consti-
38 No original: “a diaspora that overlaps with other intellectual traditions”. Tradução minha.
39 No original: “can be understood as an empirical version of post-structuralism”. Tradução minha.
60
tuição desta realidade que deve ser investigada. Ao se voltar às práticas como conforma-
doras da realidade, a TAR compreende uma ontologia performativa, já que, como
formula Law (2009, p. 141), “nada tem realidade ou forma fora da performance destas
relações”. A noção ator-rede vem nomear, nesse contexto, a constituição relacional e
performativa dos próprios atores sociais, que não são compreendidos em isolamento.
Pois a TAR assume um alto grau de incerteza quanto à fonte ou à origem da ação, conce-
bendo o próprio ator como efeito de uma rede de práticas, e a agência como uma
capacidade distribuída.
A proposição do termo ator-rede, nesse sentido, busca dar conta de uma ambiguidade
ontológica, como indica seu verbete em volume fundador desta proposta (CALLON;
LAW; RIP, 1986a, p. xvi): “o ator é tanto a rede quanto um ponto nela”40. Ou, como pos-
teriormente formulado por Latour (2011, p. 800): “É nessa completa reversibilidade – um
ator não é mais do que uma rede, exceto que uma rede não é mais do que atores – que
reside a principal originalidade desta teoria. Aqui, novamente, a rede é o conceito que lhe
ajuda a redistribuir e realocar a ação”41. Por isto, o hífen em ator-rede pode ser com-
preendido como sinal de igualdade: ator = rede (VENTURINI; MUNK; JACOMY, 2018).
A mobilização da TAR nesta investigação deve-se principalmente à sua capacidade des-
critiva diante de dinâmicas relacionais complexas. Especialmente, diante casos em que
as mediações técnicas são instâncias constitutivas fundamentais, demandando que se-
jam consideradas em sua capacidade de agência. Meus objetivos ao me apropriar da TAR
são, portanto, bastante específicos. Primeiro, me volto ao modo com que a TAR concebe
a mediação técnica, com o objetivo de desessencializar ou desindividuar a categoria do di-
gital e dos dispositivos de imagem. Em um segundo momento, volto-me à noção de
inscrição, segundo proposição de Madeleine Akrich (1992), para propor uma compreen-
são da imagem como inscrição sociotécnica, segundo os agenciamentos a que é
submetida em cada momento. Em um terceiro aspecto, a partir de Annemarie Mol
(1999), volto-me às implicações ontológicas da TAR, em especial sua acepção da reali-
dade como múltipla e performativa. Atentando-me à sensibilidade empírica constituinte da
TAR, busco desenvolver as discussões teóricas em proximidade com aspectos pertinen-
tes à constituição da imagem digital em uma antecipação, em parte, da discussão do
40 No original: “the actor is both the network and a point therein”. Tradução minha.
41 No original: “It is in this complete reversibility–an actor is nothing but a network, except that a network is nothing
but actors–that resides the main originality of this theory. Here again, network is the concept that helps you redistri-
bute and reallocate action”. Tradução minha.
61
próximo capítulo. O instrumental teórico que busco elaborar aqui será importante para,
adiante, dar conta das múltiplas instanciações das imagens em protocolos de análise por
métodos computacionais.
2.2.1 Mediação técnica: da luz à imagem
Uma das proposições mais conhecidas da TAR é a de um princípio de simetria generaliza-
da, desenvolvida inicialmente por Michel Callon (1984). Trata-se de uma extensão do
princípio formulado por David Bloor, no contexto da SSK, que se referia à consideração
de perspectivas divergentes em uma controvérsia científica sem distinções a priori acer-
ca de sua validade ou falsidade. Segundo a proposição de Callon, levada adiante no
contexto da TAR, “dado o princípio de simetria generalizada, a regra que devemos res-
peitar é a de não mudar de registro quando nos movermos dos aspectos técnicos aos
aspectos sociais do problema estudado”42 (CALLON, 1984, p. 200). Em outras passagens,
a questão é posta por Callon também no sentido de uma simetria entre o “mundo natu-
ral” eu “mundo social”, em aspecto posteriormente enfatizado por Bruno Latour (1994).
Fundamentalmente, uma consequência do princípio de simetria generalizada é a sua
permissividade ontológica quanto aos tipos de entidades consideradas em uma análise
social. Denunciando um antropocentrismo excessivo da sociologia clássica, autores da
TAR irão propor que, enquanto capacidade distribuída, a agência deve ser considerada
tanto em entidades humanas e quanto em entidades não-humanas.
Essa consideração da agência não-humana viria ser enfatizada em perspectivas notoria-
mente influenciadas pela TAR, como a chamada Ontologia Orientada aos Objetos (OOO),
em exercícios especulativos visando o descentramento do humano não apenas como
agente mas, também como senciente do mundo (BRYANT; SRNICEK; HARMAN, 2011;
GRUSIN, 2015; SALGADO, 2018). No âmbito do pensamento de Bruno Latour, contudo,
algumas das principais consequências deste princípio vêm hoje orientar um esforço de
revisão de aspectos da visão de mundo moderna em vista, especialmente, de seu fracas-
so diante do novo regime climático e ambiental43 (LATOUR, 2017, 2018; LATOUR;
LENTON, 2019). Para esta investigação, contudo, a questão da agência não-humana tem
uma relevância mais restrita, relacionada às contribuições mais consolidadas da TAR
42 No original: “given the principle of generalized symmetry, the rule which we must respet is not to change registers
when we move from the technical to the social aspects of the problem studied”. Tradução minha.
43 Nesse contexto, a consideração das entidades não-humanas é direcionada no sentido de sua descrição como
participantes ativas da construção do mundo como realidade habitável, como no equilíbrio das distribuições de
carbono nas diferentes camadas da chamada zona crítica (ARÈNES; LATOUR; GAILLARDET, 2018).
62
para os STS e as ciências sociais de modo geral. Ela importa, especificamente, como
compreensão teórica do lugar dos objetos técnicos na descrição da imagem, como fator
de multiplicidade de sua ontologia. Dois pontos, a esse respeito, serão fundamentais.
Primeiro, os objetos técnicos não podem ser tomados como simples ferramentas sobre-
determinadas que apenas transmitiriam, sem transformação, a agência de outras
entidades ontologicamente superiores. É ilustrativa dessa formulação a distinção con-
ceitual elaborada por Latour entre intermediários e mediadores (LATOUR, 2001).
Intermediários seriam entidades que poderiam ser plenamente compreendidas apenas
segundo aquilo que as antecede ou as sucede na cadeia de relações, ou seja, que não pro-
duziriam diferença por si próprias. Mediadores, ao contrário, não podem ser definidos
por tais fatores e, efetivamente, os ultrapassam. Como explica Tiago Salgado (2019),
trata-se de distinção didática, já que a mediação enquanto fator de transformação cons-
titui o cerne da formulação teórica do ator-rede. Isto porque o mediador modifica não
apenas o curso da ação mas, também, a si mesmo: “O mediador […] é aquele ator que não
apenas transporta a ação de um lugar a outro, mas a partilha, a distribui junto a outros
mediadores e, ao fazer isso, transforma a si mesmo, o que transporta e aquilo que possi-
bilita o transporte” (SALGADO, 2019, p. 108–109). Portanto, uma primeira consequência
da agência não-humana, segundo o princípio de simetria generalizada, é a consideração
de que os objetos técnicos não podem ser reduzidos a intermediários neutros a serviço de
um ator humano ou quaisquer outros. Como mediadores, os objetos técnicos transfor-
mam o curso da ação de modos que não podem ser resumidos por uma situação
preexistente ou pelos demais atores a que se associam.
De modo importante, esta compreensão não significa que os objetos determinam o curso
da ação. Como discute Latour (2005, p. 72):
podem existir muitas gradações metafísicas entre causalidade total e simples
inexistência. Além de ‘determinar’ e servir como ‘pano de fundo para a ação
humana’, coisas podem autorizar, conceder, proporcionar, encorajar, permi-
tir, sugerir, influenciar, bloquear, tornar possível, proibir e assim por
diante44.
Posto de outro modo, deve-se compreender que a agência de um objeto não é imanente.
Ele não pode determinar um programa de ação porque não age sozinho. Nos termos da
TAR, sua força deve ser compreendida de forma situacional, segundo sua capacidade de
44 No original: “there might exist many metaphysical shades between full causality and sheer inexistence. In addition to
‘determining’ and serving as a ‘backdrop for human action’, things might authorize, allow, afford, encourage, permit,
suggest, influence, block, render possible, forbid, and so on”. Tradução minha.
63
transladar (CALLON, 1984) os programas dos demais atores a os seus próprios termos.
Trata-se de processo que pode ser melhor ou pior sucedido, mas que nunca ocorrerá no
sentido de uma translação completa.
Um segundo aspecto que quero enfatizar, diz respeito à irredutibilidade do objeto a uma
unidade estável. Em referência à noção cibernética da caixa-preta, a TAR sugere uma in-
flexão ao termo, compreendendo-o menos como coisa do que como processo:
obscurecimento ou blackboxing (“encaixapretamento”). Assim, visa-se descrever a di-
nâmica que torna o trabalho técnico e científico invisível diante do bom funcionamento
de seus produtos. Escreve Latour: “quando um fato é estabelecido, basta-nos enfatizar
sua alimentação [(input)] e produção [(output)], deixando de lado sua complexidade in-
terna. Assim, paradoxalmente, quanto mais a ciência e a tecnologia obtêm sucesso, mas
opacas e obscuras se tornam” (LATOUR, 2001, p. 353). Como me referi à introdução (cf.
p. 18), há similaridades entre este processo e aquilo que Simondon (2007) descreve como
um vetor de concretização dos objetos técnicos. No âmbito da TAR, contudo, não se trata
de um processo apenas relativo aos objetos, mas também a outras instâncias do trabalho
tecnocientífico: fatos, conceitos, experimentos etc. O obscurecimento leva à invisibiliza-
ção daquilo que sustenta, precariamente, a constituição destas instâncias. Ou,
parafraseando John Law (2009), à ignorância do caráter relacional da materialidade tec-
nológica e científica.
Ou seja, este segundo ponto, articulado ao primeiro, diz respeito a uma multiplicidade
constituinte de um objeto técnico, cujo tratamento como uma unidade seria um efeito de
seu bom funcionamento e estabilidade. Longe de um dado, a unidade seria um estado
transitório, que poderíamos relacionar à capacidade de translação das múltiplas instân-
cias que o compõem em um programa de ação único. Esta situação tende a invisibilizar
componentes, premissas teóricas e outras dependências, embora elas precisem continu-
ar atuando de forma coordenada para que a entidade obscurecida siga mantendo este
estado. Há um trabalho de manutenção do objeto, portanto, para que ele siga igual a si
mesmo45.
Seria possível avançar em outros aspectos da teorização que a TAR elabora sobre a medi-
ação técnica, mas estes dois pontos serão suficientes para os objetivos desta
45 Em formulação posterior, já se distanciando da TAR, Latour indicará a reprodução [REP] como um dos modos de
existência segundo o qual as entidades precisariam estar constantemente se re-produzindo de modo a permane-
cer as mesmas (LATOUR, 2013, “A perilous change of correspondence”)
64
investigação. O sentido de sua mobilização, como indiquei, é a revisão do lugar dedicado
à materialidade e às técnicas nas teorias da imagem, especialmente para as imagens di-
gitais. Este trabalho se desdobra nas diferentes seções do capítulo, mas nesta subseção
volto-me especificamente ao entendimento de que o digital implicaria um distancia-
mento ou, mais ainda, um corte da relação entre a realidade empírica e a imagem.
Um primeiro aspecto, como já indiquei, parece ter relação com o tipo de imagem digital a
que se referia. Com efeito, muitos dos autores enfatizavam as imagens de síntese, isto é,
as geradas “internamente” ao computador e não o registro fotográfico digital. Contudo,
esta consideração raramente é feita pelos autores ao se referir ao digital ou ao regime de
visualidade que ele instituiria. Em alguns casos, como em Couchot (2003), a diferença
entre “imagens digitais” e “imagens digitalizadas” é até explicitamente tomada como
irrelevante. De modo mais importante, contudo, o contraste entre o fotográfico e o digital
se realiza em uma essencialização não apenas de um mas de ambos os termos, desfa-
zendo diferenciações internas, também, ao próprio regime fotográfico. O aspecto
essencializado é aquele da gênese da imagem, que no caso da fotografia é compreendida
pelo modo de constituição da técnica, como uma “emanação do real”, ou como uma
imagem formada “automaticamente” por uma impressão luminosa do mundo. A ima-
gem digital, nesta dicotomia, é compreendida essencialmente por sua codificação digital
e virtualidade, tomando forma visível apenas por meio de uma atualização algorítmica.
A questão da essencialização torna-se mais inteligível diante da compreensão conceitual
da mediação técnica da TAR. A convocação das categorias fotográfico e digital opera, afi-
nal, pelo obscurecimento de seus modos de operação específicos, sugerindo uma
homogeneidade de cada tipo de imagem e uma diferença essencial que as separa. Uma
segunda questão, articulada a esta, relaciona-se à fundamentação do fotográfico em
uma proximidade ontológica com o real sem, contudo, pormenorizar o caráter transfor-
mador das mediações técnicas mobilizadas no registro da imagem. Esta compreensão
subtende a mediação técnica como intermediária, algo que aparece, por exemplo, nas in-
dicações de uma linguagem da imagem fotográfica ou cinematográfica, que se funda nas
decisões assumidas pela pessoa que opera as máquinas, compreendidas como ferramen-
tas à realização criativa dos sujeitos sem necessariamente implicar um fator
fundamental de diferenciação. A inversão dos polos da relação sugerida por Flusser
(2002) ao cristalizar o programa da máquina e designar os operadores como pertencen-
tes à classe de funcionários das máquinas ou de seus programadores, nesse caso, não
65
resolve a questão. O espectro dicotômico do maquinismo–humanismo descrito por Dubois
(2004) tampouco ajuda. Seria importante compreender como o ato do registro é distri-
buído entre os diferentes actantes, tornando a imagem uma inscrição híbrida, nem
humana nem não-humana, que resulta destas múltiplas mediações.
Volto-me, então, especificamente, à questão do anteparo fotossensível que permite o
registro das imagens. De certo modo, esta é a primeira diferença substancial entre cada
tipo de aparato técnico, já que o principal componente logicamente anterior, a objetiva, é
substancialmente idêntico seja na fotografia analógica, seja na digital46. A mesma proje-
ção geométrica, em princípio, é o ponto de partida para o registro da imagem.
Tipicamente, contudo, a fotografia analógica utiliza como suporte uma película fotos-
sensível, o filme, enquanto a fotografia digital utiliza um sensor eletrônico (CCD ou
CMOS). Entretanto, como sustenta Sean Cubitt (2014) em sua genealogia das tecnologias
de imagem, mesmo a diferença entre estes suportes não implica uma ruptura ontológica
se o aspecto que nos interessa é, especificamente, o vínculo da imagem com o real. Isto
porque tanto a fotografia analógica quanto a fotografia digital baseiam-se em princípios
físico-químicos ontologicamente similares.
Como descreve Cubitt, na fotografia analógica, a incidência da luz sobre o filme fotos-
sensível causa a oxidação do material (os grãos de prata), com a liberação de elétrons. O
grau de oxidação irá, no processo de revelação, converter-se em tonalidades visíveis.
Neste sentido, poderíamos dizer que as intensidades luminosas são convertidas a infor-
mação química. Na fotografia digital, a incidência da luz sobre o sensor também faz com
que o material libere elétrons, mas em um processo fotolítico. A principal diferença é que
enquanto na fotografia analógica os elétrons são dispensados, na fotografia digital eles
são coletados e processados como sinais elétricos. A intensidade destes sinais é conver-
tida à forma digital (discreta) e codificada digitalmente como significante de uma
tonalidade. Esta informação digital, que pode ser armazenada em diferentes suportes
(magnético, eletrônico etc.) será novamente convertida em intensidades luminosas no
momento de exibição da imagem. Escreve o autor:
Analógico e digital dependem de reações químicas. Reveladores analógicos
reduzem os haletos de prata, mudando o estado de sua oxidação por um pro-
cesso que envolve a troca de íons entre o filme e o reagente: uma
46 Existem hoje diferenças em câmeras que operam em um registro distinto, como as tecnologias de registro do
“campo de luz”, também chamada de câmeras plenópticas, em que a objetiva já não tem a mesma constituição.
Trata-se, contudo, de uma diferenciação minoritária que não tem interesse específico para esta argumentação.
66
transferência de elétrons que é ontologicamente pouco diferente dos elétrons
liberados pelos processos fotolíticos diretos em chips digitais (CUBITT, 2014,
p. 244)47.
O ponto principal para o argumento é que embora se altere a natureza do registro, ambos
os tipos de imagem são traduções da informação luminosa em outro tipo de informação.
Também, ambos processos de tradução são reações químicas que diferem apenas no
modo do aproveitamento dos elétrons liberados para a produção do registro.
O argumento de Cubitt se articula ainda com outro aspecto. Ele indica como a oposição
de uma atualidade da imagem analógica, contraposta a uma virtualidade da imagem digi-
tal tampouco se sustenta. Segundo o autor, ambas formas possuiriam um estado de
latência que supõe a virtualidade, embora este estado se constitua de modos distintos,
em cada caso. Na fotografia analógica, a imagem permanece latente entre a exposição do
filme e a sua revelação e fixação química. No caso da fotografia digital, a imagem per-
manece latente entre a ativação do sensor, seu processamento e armazenamento, até
que ela seja atualizada em uma tela, projetada ou impressa48. Não há nenhuma realidade
essencial que atravesse intocada a estes processos, os quais são igualmente construídos
e manipuláveis. Em ambos os casos, a luz é codificada em um suporte material (como
informação química ou eletrônica) e permanece latente até que seja atualizada em um
processo de revelação (químico ou computacional).
A principal distinção entre os dois registros, segundo este caminho, refere-se ao modo
de codificação das imagens: espacial e contínuo, no caso do filme; temporal e discreto,
no caso do digital. O aspecto temporal deve-se ao modo de tradução da superfície da
imagem em código digital, o qual é, em última medida, linear. A codificação e a decodifi-
cação digital, por isso, não admite simultaneidade como no caso da reação da película ou
do papel fotossensível. O sensor tipicamente registra a imagem por uma varredura ao
longo do tempo e não na forma de um instantâneo49.
O caráter contínuo ou discreto, por sua vez, diz respeito a pelo menos dois aspectos. Um
é o modo de composição da superfície sensível que, no caso da imagem digital, estru-
47 No original: “Analog and digital rely on chemical reactions. Analog developers reduce the silve halides, changing the
state of their oxidation through a process involving the exchange of ions between film stock and developer: an electron
transfer, ontologically scarcely different from the electrons freed by direct photolytic processes in digital chips” . Tradu-
ção minha.
48 Haveria um sentido ainda mais específico de latência que se refere à persistência da carga no sensor fotossensí-
vel após a sua ativação. Isto é, relativo ao período em que o sensor permanece inutilizável, até que seja
descarregado e preparado para uma nova exposição (CUBITT, 2014).
49 Este aspecto é compartilhado pelos registros digital e eletrônico (da televisão e do vídeo analógico) e tem impli-
cações estéticas discutidas, em outro momento, por Arlindo Machado (1993).
67
tura-se na forma de uma matriz de pixels (picture elements), que são a menor unidade
sensível. Trata-se de uma superfície cartesiana, com números de linhas e colunas pre-
definidos. No caso da fotografia analógica, a distribuição dos grãos fotossensíveis não é
estruturada e tende à distribuição aleatória sugerindo, nesse sentido, o aspecto de uma
superfície contínua.
Outro aspecto pertinente ao caráter contínuo ou discreto é o modo de tradução das in-
tensidades luminosas ao registro químico ou informacional. Na fotografia analógica,
haveria um registro mais próximo do contínuo na medida em que não há um limite pre-
definido às subdivisões entre tons, as quais são sujeitas às características da matéria.
Embora a latitude de exposição do filme limite o espectro de gradações possíveis, não há
limites predefinidos entre os tons possíveis, formando uma variação que não apresenta
saltos quantitativos discretos. Na fotografia digital, por sua vez, os tons são discretos e
com um limite de gradações definido segundo a profundidade de cor utilizada no registro.
Há um limite explícito para o número de cores e tonalidades segundo o limite informaci-
onal estabelecido para cada pixel – a profundidade de 24 bits, utilizada em boa parte dos
casos contemporâneos, permite 16.777.216 cores (calculado por 2 elevado à 24ª potên-
cia).
Esta descrição pormenorizada, contudo, não implica diretamente o sentido de mediação
conforme sugerido a partir da TAR, pois há como compreender estes processos de ativa-
ção do material fotossensível e de registro técnico da imagem como processos lisos,
decorrentes da relação entre componentes relativamente inertes. Efetivamente, este é o
lugar ao qual tais processos são relegados na literatura técnica. A agência estaria inteira-
mente na parte humana da relação, que manipularia estes componentes segundo sua
vontade. Entretanto, tais descrições são problematizadas e a agência dos materiais
emerge quando observamos situações de crise ou de instabilidade que seriam capazes de
levar estes componentes a ‘falar’. Madeleine Akrich e Bruno Latour (1992, p. 260) indi-
cam que este seria o momento de uma ‘de-scrição’ (de-scription), quando “um evento
extraordinário – uma crise – modifica a direção da translação das coisas de volta às pa-
lavras e permite ao analista rastrear o movimento das palavras às coisas”50. Entre os
eventos que eles indicam, há situações de falha, de revisão histórica ou de uma brecha
experimental explícita. Esta capacidade de desobscurecer as mediações e apreendê-las
50 No original: “if some extraordinary event – a crisis – modifies the direction of the translation from things back to
words and allows the analyst to trace the movement from words to things”. Tradução minha.
68
em ação é um dos valores epistemológicos que os STS e a história da ciência atribuem às
controvérsias (D’ANDRÉA, 2018; LATOUR, 2005; SHAPIN; SCHAFFER, 2011; VENTURINI,
2010). Elas permitem apreender as fricções e contradições inerentes a entidades que, de
outro modo têm seu modo de operação invisibilizado.
Figura 2: Exemplo de 'cartão Shirley' de 1978
Fonte: Imagem da coleção de Hermann Zschiegner retirado de matéria da versão online do New York Times (LEWIS,
2019).
Um caso emblemático que se relaciona diretamente à instância de registro das imagens
tornou-se conhecido pelos “cartões Shirley” (Figura 5). Este foi o apelido dado aos ma-
teriais impressos usados ao longo do século XX como referência para a calibragem da
representação visual cromática – de tons de pele, em especial – em impressões foto-
gráficas analógicas e, posteriormente, também na produção televisiva. Lorna Roth
(2009) desenvolveu um amplo estudo destas representações, inclusive com entrevistas a
químicos e gerentes de produtos de fabricantes de filmes e relata como os “cartões Shir-
ley” são exemplares de um viés racial das tecnologias de imagem. Sistematicamente, o
parâmetro de calibragem hegemônico, guiando não apenas as práticas de estúdios de la-
69
boratórios fotográficos, mas da própria indústria de câmeras e emulsões, favorecia o re-
gistro da pele branca. Esta situação, segundo relata a autora, levaria décadas sem que
fosse efetivamente problematizada no âmbito das empresas fabricantes, embora mobi-
lizassem esforços de fotógrafos e produtores audiovisuais em táticas de compensação.
Segundo relata, este atraso se deve não apenas à dimensão socialmente estruturante do
racismo mas, também, a uma suposição geralmente compartilhada de que se tratava de
um problema estritamente técnico ou científico e não de uma escolha por parte dos res-
ponsáveis pelo desenvolvimento tecnológico.
De modo crucial, contudo, Roth (2009) elabora em sua análise como este viés é resultado
da constituição sociotécnica do desenvolvimento das emulsões e das demais tecnologias
de registro51. Por um lado, características químicas das emulsões colocam desafios a de-
mandas de ampla latitude cromática, isto é, que figuras de tonalidades e brilho distintas
sejam representadas visualmente com igual nível de detalhe. Por outro, os modos como
esta característica do material é trabalhada durante o desenvolvimento do produto vai
muito além das propriedades físicas da matéria. Escreve a autora:
Acreditava-se à época que física era física, química era química e a ciência era
baseada em decisões ponderadas sem considerações de sutilezas culturais ou
raciais. Agora tem se tornado mais amplamente reconhecido na indústria que
refinamentos à química das emulsões dos filmes nunca foram problemas de
física ou química exclusivamente, mas sim resultado de escolhas culturais
também52 (ROTH, 2009, p. 118).
Como resultado, as imagens produzidas, ao longo de décadas, tendiam à má qualidade
da representação de tons de pele além do branco, entre pessoas negras, orientais e indí-
genas. Esta questão, relata a autora, apenas viria a ser diretamente problematizada no
âmbito da indústria no final do século XX, com cartões de calibragem multirraciais tor-
nando-se mais comuns, inclusive pela descentralização de sua produção.
Roth (2009) não mobiliza a TAR em seu relato, mas parece-me possível uma aproxima-
ção, na linha do que venho discutindo. O caso estudado por ela é elucidativo da condição
mediadora das instâncias de registro da imagem que descrevi, pois, por meio de uma re-
visão histórica, alcança uma situação de de-scrição das mediações técnicas envolvidas.
51 No próximo capítulo desenvolverei a partir de trabalhos de Tarcízio Silva (2019) e Joy Buolamwini (BUOLAMWI-
NI; GEBRU, 2018; RAJI; BUOLAMWINI, 2019) como se observa hoje uma situação similar no âmbito das
tecnologias computacionais de aprendizado de máquina, com consequências ainda mais urgentes.
52 No original: “It was [...] believed at the time that physics was physics, chemistry was chemistry, and science was based
on reasoned decistions without consideration of cultural or racial subtleties. It is now becoming acknowledged more
widely within the industry that refinements to the chemistry of film emulsions have never been issues of physics or
chemistry exclusively, but have been the result of cultural choices as well”. Tradução minha.
70
Sua análise, por meio da mobilização dos “cartões Shirley” e, também, por meio de en-
trevistas, oferece sucessivos enquadramentos pelos quais torna-se explícito o modo
como a técnica institui determinada prescrição em seu modo de operação. Isto é: ela não
apenas transporta de forma neutra, neste caso, um modo de apresentação da realidade
para seu registro em imagem.
A necessidade de algum parâmetro de referência é já significativa, nesse sentido, do ca-
ráter mediador das tecnologias de representação visual, que não apenas transportam as
características da luz a registros químicos, eletrônicos ou digitais mas, efetivamente,
criam e transformam estes sinais no processo. Diante destas transformações, a represen-
tação não pode ser tomada como “natural”, “automática” ou “objetiva”, pois uma série
de decisões precisam ser tomadas de modo a transladar a forma de mediação da câmera
aos interesses de seus operadores e, nesta articulação, o problema não pode ser mera-
mente técnico e torna-se, efetivamente, sociotécnico. Devido a propriedades físicas da
matéria, transladadas por químicos e engenheiros a um determinado modo de funciona-
mento almejado, as emulsões fotográficas efetivamente prescrevem um modo como esta
realidade se apresenta em imagem. Assim, a técnica não opera de forma neutra e sim,
como bem apresenta a análise de Roth (2009), reforça dinâmicas culturais e sociais di-
fusas, atuando como uma prática constituinte do racismo.
Outros casos poderiam ser indicativos de programas de ação distintos em que as tecno-
logias de registro de imagens também seriam problematizadas. Em um outro exemplo
com implicações bem distintas do do anterior, mas que também contribui ao argumento
geral, imagens produzidas da superfície de Marte pela NASA (Agência Espacial Norte-
Americana, na sigla em inglês) constituem um caso interessante em que o modo de re-
gistro das imagens por meio de câmeras digitais não pode ser tomado como totalmente
“objetivo” mas, sim, como dependente de uma série de escolhas. Se, por um lado, o modo
de interpretação dos valores cromáticos registrados pelas câmeras depende sempre de
um padrão de referência (como os “cartões Shirley”), não há como estabelecer esse pa-
drão para uma condição de registro à qual o olhar humano não tem acesso direto, já que
jamais alguém esteve em Marte. Postagem em blog da NASA acerca da sonda Spirit, en-
viada ao planeta em 2004, relata o esforço demandado para gerar uma imagem com
cores que se aproximem daquelas que seriam percebidas por um olhar humano (NASA,
2004). Os cientistas envolvidos relatam que eles conseguem chegar a uma boa aproxima-
ção e apenas porque realizam muitos experimentos em condições simuladas na Terra e
71
porque as sondas enviadas possuem, acoplados, cartões de referência para operações de
calibragem. Nestes relatos, também é indicado que alcançar este registro cromático ‘na-
tural’ não constitui uma demanda propriamente científica, já que as análises se voltam
frequentemente à luz não-visível. Ou seja, trata-se de uma demanda para esforços de
divulgação, cruciais para a justificação dos investimentos nestes caros empreendimen-
tos de pesquisa, por exemplo. Mais uma vez, portanto, longe de automáticos, os possíveis
vínculos entre imagem e realidade empírica são produto de múltiplas mediações com-
preendidas sempre como entrelaçamento entre fatores ontologicamente heterogêneos
(“sociais” e “técnicos”, “humanos” e “não-humanos”).
O caso dos “cartões Shirley” e o caso das fotografias de Marte ilustram, portanto, cada
um a seu modo, que as tecnologias de registro da imagem – sejam analógicas (no senti-
do típico do fotográfico), sejam digitais – jamais operam como uma “emanação do real”,
em um sentido estrito53. Evidenciam, também, que os processos técnicos que permitem o
registro da imagem tampouco são meros instrumentos ou intermediários. Dizer que eles
são mediadores não significa que eles possuiriam “vontade própria” mas apenas que
eles possuem modos de operação específicos que são irredutíveis às vontades das pesso-
as que os operam. Eles oferecem resistências mas também ‘proporcionam’ (afford) seus
próprios programas de ação. O desenvolvimento destes artefatos, por sua vez, não é fei-
to no vácuo nem apenas com base em uma racionalidade etérea ou em um critério de
eficiência universal. Eles respondem a, fundamentalmente, demandas políticas e insti-
tucionais de seu tempo e, neste sentido, possuem uma política54. Esta, me parece, é a
força principal do conceito de mediação técnica pela TAR, que implica uma compreensão
não apenas técnica mas sociotécnica dos artefatos. Só assim seria possível articular mo-
dos de agir distintos, irredutíveis a categorias generalistas ou a equivalências simplistas.
Sob a perspectiva da TAR torna-se mais compreensível, também, a sugestão de uma dis-
pensa da categoria técnica diante do desafio colocado pelo digital. A elaboração em certa
medida paradoxal que emerge no texto de Dubois (2017) é sintomática do processo de
obscurecimento (blackboxing). Este, como apresentei, levaria à invisibilização do traba-
53 Parece-me importante destacar que esta observação não equivale a uma objeção à proposição de estéticas rea-
listas, seja na fotografia ou no cinema, já que muitas delas não se baseiam em premissas acerca do aparato
técnico, simplesmente, mas sim de efeitos estilísticos e de linguagem. Jean-Louis Commoli (2008), por exem-
plo, possui uma proposição influente em que o realismo se caracteriza por uma abertura às incertezas do
momento da filmagem, mais do que um princípio essencialista do registro em si.
54 Uma boa referência a esse respeito, que não chegarei a desenvolver aqui, é o artigo Artefatos têm política?, de
Langdon Winner ([1980], 2017). Sua aproximação à TAR demandaria alguns cuidados dado a discordâncias ma-
nifestas por Winner em relação a autores desta perspectiva. Mas trata-se, ainda assim, de texto fundamental
para a discussão da política tecnológica.
72
lho técnico e científico na medida proporcional do seu sucesso. Dubois sugere, afinal,
como indiquei mais acima (veja citação na p.54), que a tecnologia de imagem, no con-
texto digital, se complexificaria e se adensaria mas, simultaneamente, se
desestruturaria e indiferenciaria. Ora, este aparente paradoxo parece ser justamente o
obscurecimento em ação. Não é bem que a tecnologia se tornaria menos estruturada,
mas apenas que esta estruturação pareceria menos relevante sob o ponto de vista de
usuários finais, justamente pelo sucesso da operação. Além disso, a tecnologia digital se
invisibiliza de uma forma bastante literal com a microeletrônica e com as camadas de
processamento lógico que são inacessíveis ao usuário comum. Isto não significa que haja
menos estrutura, nem que ela seja menos relevante, mas o desafio se amplia.
Antes de passar ao ponto seguinte, gostaria de mencionar brevemente um último aspec-
to pertinente à discussão das mediações técnicas. Trata-se das possíveis relações entre
estas formulações que elaborei aqui e a noção, mencionada anteriormente, do dispositivo.
Evidentemente, essa breve menção não tem como dar conta da complexidade desta tarefa
de articulação, que segue como um desafio. Apenas parece ser relevante ensaiar algumas
indicações dada a importância do dispositivo para os esforços teóricos precedentes. Cen-
tro-me, para tanto na menção ao dispositivo que Latour (2001) faz de passagem (mais
breve do que eu). Em sua explanação acerca da mediação técnica, em certo momento ele
responde a um questionamento hipotético que lhe indagaria acerca da intencionalidade
dos objetos técnicos. Ele responde:
A ação intencional e a intencionalidade talvez não sejam propriedades de ob-
jetos; contudo, também não são propriedades de humanos. São propriedades
de instituições, de aparatos, daquilo que Foucault chama de dispositifs. So-
mente pessoas jurídicas estão aptas a absorver a proliferação de mediadores,
a regular sua expressão, a redistribuir habilidades, a forçar caixas a obscure-
cer-se e fechar-se. […] Os artefatos reais são sempre partes de instituições,
hesitantes em sua condição mista de mediadores, a mobilizar terras e povos
remotos, prontos a transformar-se em pessoas ou coisas, sem saber se são
compostos de um ou de muitos […] (LATOUR, 2001, p. 221).
Neste sentido, os dispositivos podem ser compreendidos como uma espécie de individu-
ação de coletivos de atores que realiza uma orquestração das diferentes agências,
transladando seus programas de ação em um direcionamento comum. Seria igualmente
sugestivo desta compreensão a indicação feita por John Law (2009) de uma analogia en-
tre o conceito de episteme e a noção ator-rede. Segundo elaboram Alzamora, Ziller e
d’Andréa (2018) o conceito foucaultiano de episteme seria uma formulação predecessora
da noção de dispositivo, porém com uma conformação mais estritamente linguístico-
73
discursiva. O ator-rede compreende justamente o agregado que pode ser, às vezes, visto
como unidade, em uma oscilação irresoluta. Latour sugere que alguma forma de ‘regula-
gem’, ‘absorção’ ou ‘redistribuição’ das agências seria necessária para a constituição de
um dispositivo. A leitura que Agamben (2009a) faz do conceito – tomando liberdade,
explicitamente, para além da acepção de Foucault – esboça linha de raciocínio similar
sob a ideia de uma economia ou de governo do ser, como traço característico do dispositi-
vo – “operação por meio da qual se realiza uma pura atividade de governo sem nenhum
fundamento no ser” (AGAMBEN, 2009a, p. 38). Talvez então, nesse sentido, um disposi-
tivo fotográfico poderia ser concebido segundo um programa comum resultante do
agenciamento coletivo das múltiplas instâncias que o compõem. Algo que não se resume
à emulsão fotográfica ou à câmera, mas que pressupõe uma articulação mais ampla: ins-
tituições. Considere-se, quanto a este ponto, o papel dos fabricantes de emulsões
fotográficas na constituição de padrões como os materializados nos cartões Shirley, por
exemplo. Seria uma instanciação condicionada, portanto, pela força de translação destas
múltiplas agências, ocasionando a composição do que os proponentes da TAR outrora se
referiram (em denominação logo abandonada) como um ator-mundo (CALLON; LAW;
RIP, 1986a).
2.2.2 Inscrição: perspectiva e consistência óptica
Uma segunda noção formulada no âmbito da TAR, que gostaria de desenvolver, é a de
inscrição. Haveria ao menos duas perspectivas articuladas pelas quais compreendê-la,
ambas pertinentes a esta discussão. Primeiro, em um sentido aparentemente mais trivial
(mas logo complexificado), uma inscrição é um modo pelo qual uma entidade se traduz,
materialmente, em um signo, tipicamente no âmbito das práticas científicas (LATOUR,
2001). Ou seja, como um território se torna um mapa; como um objeto se torna um dese-
nho; ou como as qualidades de uma pessoa tornam-se um conjunto de dados. Apenas
aparentemente trivial, esta questão se complexifica quando consideramos os tipos de
operações proporcionadas pelas inscrições enquanto o que Latour denomina como “mó-
veis imutáveis” (LATOUR, 1986, 2001; LATOUR; HERMANDT, 2004). Segundo sugere,
não seria apenas uma questão de significação, de signo a signo, mas fundamentalmente,
de transformação da realidade, de mundo a inscrição (LATOUR; HERMANDT, 2004).
Um outro sentido, bastante articulado a este, relaciona-se ao que Madeleine Akrich
(1992) identifica como um script (algo como um ‘roteiro’ ou ‘programa’) dos objetos téc-
74
nicos. Diferentes das inscrições, os scripts ofereceriam, contudo, chaves para sua leitura.
Os objetos técnicos, elabora a autora, prescrevem papéis e ações para seus usuários, os
quais são sempre sujeitos a dinâmicas de reapropriação. Contudo, como um de seus pro-
dutos, os objetos técnicos elaboram inscrições da realidade que são tanto parte de seu
modo de funcionamento quanto formas de conhecimento sobre as realidades decorren-
tes de sua operação, reapropriados por analistas e por formas de exercício do poder. Esta
compreensão será importante para considerarmos algumas implicações da mediação
técnica da fotografia como ponto de partida para análises de base computacional, como
as que realizo adiante nesta tese.
Acerca da primeira acepção, como comecei a indicar, o conceito de inscrição indica um
modo peculiar de tratamento do que a semiótica denomina como signos, porém com um
interesse particular na configuração da realidade pelas práticas científicas. A diferença é
tênue. Em uma de suas discussões do termo, Latour (2001) contextualiza sua pertinência
em um esforço para superar o que descreve como um “antigo acordo” modernista, que
supôs uma cisão fundamental entre realidade (“fora”) e a sua percepção e representa-
ções humanas (“dentro”). A solução desta cisão pela modernidade teria se dado,
precariamente, pelo que Latour (2001, p. 39) descreve como uma “estreita pinguela”:
um vínculo epistemológico que forçaria a correspondência entre linguagem e natureza. Ele
sugere, alternativamente, uma atenção à materialidade das inscrições como outro modo
de conceber esta relação, compreendendo o modo como articulam “cadeias de transla-
ções” entre a realidade e suas representações. Seriam estas cadeias, localizadas em
práticas, instrumentos e materiais – mais do que em uma epistemologia etérea – que
garantiriam a manutenção de certa continuidade entre mundo e suas representações,
como condição dos esforços de conhecimento e atuação sobre a realidade.
Uma das primeiras elaborações adensadas sobre esta questão aparece em texto que La-
tour (1986) dedica a um conjunto de desenvolvimentos da modernidade que ele
considera como fatores fundamentais à constituição da ciência moderna, entre os quais
o desenho em perspectiva, a escrita tipográfica, a moeda e o desenho de mapas (carto-
grafia). Estes desenvolvimentos, sugere ele, oferecem elementos descritivos mais
consistentes para compreendermos a emergência da ciência moderna do que a suposição
de uma racionalidade etérea – que Latour vincula a explicações ‘mentalistas’. Práticas
representacionais que emergem da modernidade, materializadas em textos e imagens,
sugere Latour, seriam distintivas na medida em que proporcionariam às inscrições a
75
condição de “móveis imutáveis”. Isto é: ao mesmo tempo em que desenvolvem modos
de garantir consistência às representações, transladando de forma sistemática aspectos
do mundo às representações e entre suas múltiplas cópias e instanciações, estas inscri-
ções são também recombináveis e mutuamente legíveis (comparáveis), mesmo em
contextos distintos daqueles em que foram elaboradas e para os quais se dirigem (LA-
TOUR, 1986).
Estas qualidades não são triviais e, ao final, são fatores fundamentais para se compreen-
der o poder da ciência e também de muitos outros “centros de cálculo” (LATOUR;
HERMANDT, 2004) da modernidade e da contemporaneidade, como laboratórios, bibli-
otecas e coleções e também mercados, escritórios e órgãos do Estado, poderíamos
acrescentar. No caso específico desta tese, considerarei também sob esta chave os mo-
delos de rede neural para o reconhecimento de imagens, em especial por sua tendência
contemporânea de infraestruturalização (veja 3.3 Visualidade e infraestrutura ). Estes são
todos lugares cuja qualidade fundamental é a reunião de múltiplas inscrições que os co-
nectam a realidades distantes, as quais, são, naquele local, analisadas, permutadas e
combinadas. Neste sentido, as descrições dos modos de conhecimento e ação sobre o
mundo na modernidade deveriam se atentar aos vários aspectos no entorno destes obje-
tos peculiares: o modo de elaboração destas imagens e textos, em uma translação do
mundo às inscrições; o modo de sua circulação, de sua mobilidade; e as práticas de sua
coleção, análise e replicação.
Estas considerações ganham corpo em uma situação anedótica narrada por Latour
(2001) durante estudo em que acompanhou o trabalho de cientistas que investigavam a
floresta amazônica. O estudo que desenvolviam buscava compreender se evidências do
solo e da vegetação indicavam tendências de avanço ou de retraimento da floresta sobre
a savana. Em meio aos trabalhos, Latour descreve uma situação curiosa em que quatro
cientistas, dois franceses e duas brasileiras, reuniam-se em torno de um mapa disposto
improvisadamente sobre a mesa de um restaurante em Boa Vista, Rondônia. Aquela ins-
crição, descreve, era o que permitia que observassem juntos as evidências e que
mobilizassem, naquela situação precária, uma ampla rede de atores que incluíam satéli-
tes e instituições científicas, além da própria floresta. Escreve:
Removam-se os mapas, confundam-se as convenções cartográficas, elimi-
nem-se as dezenas de milhares de horas investidas no atlas Radambrasil,
interfira-se com o radar dos aeroplanos e nossos quatro cientistas ficarão
perdidos na paisagem, obrigados a reiniciar todo o trabalho de exploração,
76
referenciação, triangulação e quadriculação feito por centenas de predeces-
sores. Sim, os cientistas dominam o mundo – mas desde que o mundo venha
até eles sob a forma de inscrições bidimensionais, superpostas e combinadas.
É sempre a mesma história, desde que Tales se postou ao pé das Pirâmides
(LATOUR, 2001, p. 44).
O estudo que Latour abre com esta anedota se desenvolve, então, com um amplo conjun-
to de observações situadas das práticas científicas a qual é repleta de situações similares
a esta. Cientistas vão a campo, colhem materiais, mensuram, analisam, observam e, em
algum momento, reúnem-se em uma sala em que as múltiplas inscrições decorrentes
destas atividades são dispostas em uma tela, um quadro ou uma mesa. Tabuladas e pro-
cessadas, podem ser agregadas em um gráfico. Sistematizadas e simplificadas,
apresentadas em um diagrama. Em todo caso, a reunião dos cientistas em torno de um
mapa é representativa do adensamento das práticas na medida em que a inscrição assu-
me, ali, o lugar da realidade observada55. As noções de significação ou de representação
são indicativas do processo, mas insuficientes e, por isso, Latour busca na noção de
“móveis imutáveis” um modo de distinguir o sentido que atribui às inscrições de seu
tratamento semiótico clássico. Ele enfatiza sobretudo a condição material das inscrições
e as práticas que permitem seu acúmulo e alinhamento, ampliando seu poder de con-
vencimento e de translação dos atores.
Segundo esta conceituação, compreender as imagens como inscrições sociotécnicas de-
manda que voltemos nossa atenção ao modo com que elas seriam articuladas em uma
cadeia de translações, segundo demandas específicas de produção de conhecimento,
mas também como elas poderiam alcançar um plano comum, permitindo que transitas-
sem entre circuitos distintos. Em todos estes movimentos, a condição de translação do
mundo à imagem seria fundamental, assim como os aspectos que as constituiriam como
móveis imutáveis – isto é, como manteriam a consistência de sua representação mesmo
em trânsito e permitindo práticas de recombinação, comparação e observação sinóptica.
Um dos princípios que permitem às imagens serem trabalhadas desta forma já se encon-
tra na proposição conceitual de Latour (1986), em sua consideração do desenho em
perspectiva em um contexto de emergência da ciência moderna. Em um sentido geral, a
55 Tecendo considerações acerca da fotografia da mão de um cientista apontando, com o dedo indicador, um as -
pecto de um diagrama, Latour (2001, p. 82) escreve: “A menos que seja o prelúdio rancoroso de um soco, a
extensão do indicador revela sempre um acesso à realidade, até quando tem por alvo um simples pedaço de pa-
pel – acesso que, neste caso, engloba a totalidade do sítio, o qual paradoxalmente desapareceu por completo,
embora estejamos suando no meio dele. Temos aí a inversão de espaço e tempo a que já assistimos inúmeras ve -
zes: graças às inscrições, podemos superintender e controlar uma situação na qual estamos mergulhados,
tornamo-nos superiores àquilo que é maior que nós e conseguimos reunir sinoticamente todas as ações em-
preendidas no curso de vários dias, desde então esquecidas”.
77
perspectiva linear, desenvolvida no Renascimento, integra um percurso histórico mais
extenso de racionalização da visão. Conforme desenvolvido por William Ivins (1975) e de-
pois retomado por Latour (1986) a formalização do desenho em perspectiva é uma
construção com implicações profundas para as práticas de produção do conhecimento.
Trata-se de desenvolvimento vinculado principalmente a demandas da arquitetura, cuja
principal qualidade era a redução de dimensionalidade da representação espacial. A for-
malização da perspectiva em princípios geométricos permitia a transposição de um
espaço tridimensional a uma figuração plana, na tela ou no papel. De modo crucial, con-
tudo, o desenho em perspectiva abria a possibilidade de recomposição do espaço
representado, pois o caráter formal do procedimento adotado permitia extrapolar o es-
paço tridimensional a partir do plano, em uma correspondência ponto a ponto. Desse
modo, a imagem consistia um móvel imutável, considerando que a imutabilidade diria
respeito não apenas a uma estabilidade da própria inscrição em circulação mas, princi-
palmente, a uma consistência de seus vínculos com a realidade inscrita. Por meio do
desenho em perspectiva o espaço poderia, ele próprio, circular.
Com um desenvolvimento concomitante a dispositivos ópticos como a câmara escura, a
formalização da perspectiva também viria a ser transladada à operação óptica da câmera
fotográfica. As dívidas da câmera fotográfica à câmera escura são bastante conhecidas
pois, efetivamente, ambas se aproximam em seu princípio de projeção geométrica do
mundo sobre um anteparo56. A câmera escura, grosso modo, é uma técnica em que a pro-
jeção geométrica fundante do desenho em perspectiva é realizada por uma máquina
óptica. Com a câmera fotográfica, o registro desta projeção é, por sua vez, também auto-
matizado, como vimos, por meio da emulsão fotossensível do filme ou pelo sensor
eletrônico – além, claro, da operação de outros componentes como obturadores e dia-
fragmas. Nesse sentido, a mediação da projeção óptico-geométrica da câmera seria um
plano de continuidade a conectar desde as imagens em perspectiva da Renascença até as
imagens fotográficas analógicas e, então, as digitais. O modo de translação do espaço à
representação plana é, afinal, um outro eixo de continuidade a conectar o fotográfico ao
digital, já que não configura uma diferença ontológica de princípio entre cada ‘regime’57.
56 Jonathan Crary (1992) contesta, em certa medida, a relação direta entre a câmera escura e as imagens fotográfi-
cas, não por recusar por completo esta relação, mas por reivindicar um entrelaçamento mais complexo de
linhas temporais e desenvolvimentos concomitantes. Esta questão não tem, contudo, implicações diretas para a
relação traçada aqui, cujas motivações são mais restritas.
57 Este ponto contraria o que Ingrid Hoelzl e Rémi Marie (2015, p. 63) sugerem, em certa passagem, ao sobrevalo-
rar a dimensão algorítmica da imagem digital. Voltarei a sua reivindicação da natureza algorítmica das imagens
adiante, em uma consideração ponderada de seus argumentos (cf. 2.2.3 Multiplicidade ontológica: declinações
materiais da imagem).
78
Esta constituição sociotécnica das imagens de base fotográfica (analógicas ou digitais)
lhes confere, portanto, um modo de existência bastante peculiar, em que elas não se re-
sumem a práticas culturais e afetivas. A câmera fotográfica configura, afinal, uma
máquina de inscrições. As imagens que produz se encontram na interseção de múltiplas
cadeias de translação, informada por séculos de desenvolvimentos de óptica, mecânica,
química e, então, eletrônica e computação. Enquanto condensação destas redes, as câ-
meras produzem, desse modo, “automaticamente”, móveis imutáveis. As imagens não
seriam, portanto, emanações do real, mas materializações de uma complexa translação
da realidade a inscrições planas. Os próprios princípios que regem o funcionamento das
câmeras, por sua vez, oferecem chaves interpretativas pelas quais a realidade poderia
ser recomposta, ainda que parcialmente, a partir da imagem. Diante da estabilidade da
cadeia de translações que constituem esse registro, teríamos na imagem fotográfica uma
inscrição cujo contexto de aplicação não se resume apenas a este. Na sequência, busco
em Madeleine Akrich (1992) dois outros aspectos das inscrições: seu potencial de “expor-
tação” para além de uma cadeia de translações específica; e seu papel em articulações da
produção do conhecimento com o exercício do poder.
No tratamento que Akrich (1992) confere ao tema das inscrições, elas não constituem
somente uma forma de mediação entre linguagem e natureza, ou entre mundo e cogni-
ção, mas, também, entre formas de conhecimento e formas de poder. Seu interesse
específico é pelas dinâmicas de negociação entre os usos presumidos de objetos técnicos
em seu processo de desenvolvimento e os casos reais de sua apropriação pelos usuários.
Nesse sentido, para Akrich (1992), o trabalho da análise dos objetos técnicos deve buscar
interpretar os scripts dos objetos técnicos (em alusão ao roteiro de um filme ou peça tea-
tral) e, ao mesmo passo, observar situacionalmente como este roteiro ou programa é
deslocado e reapropriado pelos usuários finais e outros atores implicados. O vocabulário
mobilizado pela autora desdobra-se, assim, em um amplo leque de termos que visam
descrever as dinâmicas de conformação que operam entre: o objeto e o programa assu-
mido pelos engenheiros; a realidade e o programa de ação assumido pelo objeto; e entre
o objeto e o programa de ação assumido pelos usuários.
Efetivamente, em Akrich, a noção de inscrição é mais abrangente do que aquela mobili-
zada por Latour. Por vezes ela equivale à noção de script, como ‘conteúdo’ de um objeto
técnico. Em outros momentos, ela sugere diferentes formas de instanciação de um me-
diador. Em um dos estudos de caso que aborda em seu texto, ela analisa como esta
79
dinâmica opera na implantação de redes de distribuição elétrica na Costa do Marfim. So-
bre este caso, por exemplo, Akrich (1992) se refere aos medidores individuais de
consumo de energia como inscrição material do contrato de serviços. Permanece nesta
acepção de inscrição a ideia de uma translação consistente entre instâncias ontologica-
mente distintas (do contrato ao medidor), mas esta translação não visa necessariamente
a uma mobilidade, como sugere Latour, nem tem em vista a produção de conhecimento.
O medidor é, antes de tudo, um mediador político. Porém, Akrich também articula esta
mediação a uma forma de produção de conhecimento que dela seria indissociável. Pois,
escreve a autora, a pessoa que projeta um arranjo tecnológico “não apenas fixa a distri-
buição dos atores, mas ele ou ela também provê uma ‘chave’ que pode ser usada para
interpretar todos eventos subsequentes”58 (AKRICH, 1992, p. 216). Os mediadores indi-
viduais de consumo, nesse sentido, não apenas permitem a cobrança pelo serviço como
também fornecem subsídios a outras inferências por parte da companhia elétrica, tais
como o cálculo de padrões coletivos de consumo e a identificação de possíveis ligações
clandestinas, denunciadas por padrões individuais anormais. Desse modo, Akrich des-
creve uma articulação, com os medidores ao centro, entre formas de conhecimento e
formas de poder.
Esta articulação se aprofunda se consideramos que, além da própria empresa, que toma
as inscrições como instrumento regulador de seus processos técnicos, haveria também
possibilidades de “exportação” das inscrições, como observa Akrich (1992). Pois as ins-
crições também podem ser reapropriadas por agentes que são, em princípio, externos à
distribuição de energia (para seguir no exemplo da autora). Os dados de consumo de
energia interessam, assim, a sociólogos e economistas que podem reapropriar estas ins-
crições como forma de conhecer aquela realidade (AKRICH, 1992, p. 221). Inscrições
sociotécnicas seriam pontos de articulação não apenas entre mundo e cognição mas,
também, entre a técnica, a política e o saber. Como se sabe, e como Akrich brevemente
menciona, estes termos são notoriamente articulados por Michel Foucault. Em sua
análise das sociedades disciplinares, Foucault (1997) demonstra esta relação em opera-
ções distribuídas observadas em hospitais, prisões e escolas que vão deste a construção
arquitetônica às práticas de monitoramento e mensuração comportamental dos indiví-
duos. Na análise de Akrich, tais dinâmicas são descritas em uma observação empírica
situada.
58 No original: “… not only fixes the distribution of actors, he or she also provides a ‘key’ that can be used to interpret all
subsequent events”. Tradução minha.
80
Indo além do que compreendemos logo acima com Latour, portanto, Akrich indica uma
transversalidade das inscrições para além de contextos específicos da produção do co-
nhecimento em que, de certo modo, a “cadeia de translações” é regida por uma
motivação científica comum. Desse modo, as inscrições possuem um sentido específico
no arranjo técnico em que se inserem, mas também encontram sentido em um plano ge-
ral, no qual circulam amplamente, em atendimento a demandas imprevistas pelo
sistema de inscrição inicial. Uma condição para esta circulação ampla, contudo, como
salienta Akrich, é que sejam mobilizados termos em comum. Isto é, que alguma chave de
transposição seja mobilizada em cada contexto, permitindo o compartilhamento de ins-
crições. Para o caso abordado pela autora, estas poderiam ser classes ou categorias
econômicas ou sociológicas que permitiriam que os dados gerados pela companhia
elétrica fossem apropriados por cientistas sociais.
A dinâmica de datificação, que conforma o contexto de comunicação plataformizada
abordado por esta tese, tende a multiplicar estas possibilidades. Com efeito, este é o sen-
tido principal da perspectiva de reapropriação (repurposing) sugerida pelos Métodos
Digitais (ROGERS, 2013). Também é este o fator que atrai as ciências sociais aos “rastros
digitais” do ambiente midiático contemporâneo (BRUNO, 2012; VENTURINI; LATOUR,
2010). Para o caso específico das imagens, uma primeira aproximação possível deriva do
que indiquei anteriormente acerca da projeção geométrica, ou seja, da representação vi-
sual perspectivada, como fator de consistência óptica da imagem como inscrição. Este
aspecto não garante apenas a “imutabilidade” das inscrições, no sentido latouriano,
mas também parece constituir um fator da sua “exportabilidade” para além do contexto
específico do fotográfico. Isto é, permite que o registro fotográfico seja integrado em ou-
tras cadeias de translação.
Parece-me ilustrativo desta “exportabilidade” do registro fotográfico o estudo realizado
pelo filósofo e fotógrafo Alan Sekula (1986) acerca dos usos repressivos da fotografia.
Percorrendo aplicações do registro fotográfico na criminalística e na criminologia do sé-
culo XIX, Sekula descreve sistemas de identificação policial e de investigações
eugenistas sobre tipos criminosos em que o registro fotográfico desempenha um tal pa-
pel mediador. Os sistemas em questão se formalizam em operações que aprofundam o
fator de consistência dos registros fotográficos, com padronizações dos parâmetros de
tomada das imagens dos retratos policiais. Muito além do registro fotográfico, contudo,
eles também se materializam em fichas arquivísticas, técnicas de sobreimpressão foto-
81
gráfica, medidas biométricas e estatística descritiva59. O registro fotográfico, neste sen-
tido, seria exportado da cadeia de translações específica da câmera. Isto apenas seria
possível, contudo, porque a câmera se tornou um objeto estável – um requisito, segundo
elabora Akrich (1992, p. 221), para que o objeto técnico se obscureça e, assim, que “fatos
sociotécnicos” sejam tomados como “fatos”, simplesmente. Acerca deste arranjo de ob-
jetos e técnicas, escreve Sekula (1986, p. 16), em certa passagem: “A câmera é integrada
em um arranjo maior: um sistema burocrático-administrativo-estatístico de ‘inteligên-
cia’. Este sistema pode ser descrito como uma forma sofisticada do arquivo. O artefato
central deste sistema não é a câmera, mas o armário de arquivo”60. Segundo os termos
que venho discutindo acerca da TAR, teríamos o arquivo como “centro de cálculo” ao
qual convergiriam as cadeias de translação integradas por múltiplas mediações, entre as
quais a câmera fotográfica. Teríamos, as imagens como inscrições, como móveis imutá-
veis rearranjados e combinados nestes arquivos.
Os casos investigados por Sekula são importantes antecedentes para os contextos con-
temporâneos de vigilância e monitoramento. Eles são casos de aplicação em que se
observa uma mobilização instrumental da imagem de base fotográfica que viria a se am-
pliar sobremaneira com o barateamento e consequente multiplicação dos dispositivos
produtores de imagens. O cineasta Harun Farocki (2004) refere-se por “imagens opera-
tivas”, ou “operacionais”, às imagens produzidas com esta finalidade, distantes
daquelas tipicamente encontradas nas teorias humanísticas sobre as imagens61. O que
definiria, para Farocki, o caráter operativo ou não de uma imagem seria sua destinação,
ou sua finalidade. Imagens operativas não são feitas “nem para entreter nem para infor-
mar”, “não representam um objeto mas, sim, compõem parte de uma operação”62
(FAROCKI, 2004, p. 17).
Levando adiante a proposição de Farocki, o artista estadunidense Trevor Paglen diz,
hoje, de “imagens invisíveis” que, já além de seu objetivo estritamente operacional, se
59 Segundo desenvolve o autor, a criminalística tem um objetivo mais diretamente operacional, como sistematiza-
ção do trabalho desempenhado por forças policiais. Sekula analisa, a esse respeito, o sistema de identificação
desenvolvido pelo chefe de política de Paris Alphonse Bertillon. A criminologia, em contraste, visa produzir co -
nhecimento científico sobre a prática criminosa, abordagem examinada por Sekula no abjeto trabalho do
estatístico e eugenista britânico Francis Galton.
60 No original: “The camera is integrated into a larger ensemble: a bureaucratic-clerical-statistical system of ‘intelli-
gence’. This system can be described as a sophisticated form of the archive. The central artifact of this system is not the
camera but the filing cabinet”. Tradução minha.
61 Para artigos que elaboram leituras desta noção, cf. FLORES, 2016; PAGLEN, 2014; VIDAL JUNIOR, 2016.
62 No original: “neither to entertain nor to inform”; “do not represent an object, but rather are part of an operation”.
Tradução minha.
82
encontrariam inclusive restritas a circuitos computacionais de uma visão não-humana
(PAGLEN, 2016)63. Gostaria de indicar, porém, um aspecto complementar ao sugerido
por Paglen. Pois se, por um lado, o caráter operativo das imagens possa ser definido se-
gundo os arranjos sociotécnicos em que se encontram integradas, estes limites nem
sempre são tão claros e esta situação se complexifica em um contexto de digitalização.
De modo mais crucial, considerando que a constituição sociotécnica da câmera leva a fo-
tografia a inevitavelmente se constituir como uma inscrição sociotécnica, em maior ou
menor grau, gostaria de sugerir que elas poderiam ser consideradas como imagens ope-
racionais flutuantes.
Meu argumento central, a esse respeito, é de que justamente pela “exportabilidade” das
imagens enquanto inscrições sociotécnicas, não caberia considerar as imagens operativas
segundo sua destinação mas, sim, segundo seus usos, decorrentes das dinâmicas de cir-
culação a que são submetidas. A representação perspectivada constitui, nesse sentido,
apenas um dos fatores que articulam a imagem a esse plano de transversalidade que
permite o reaproveitamento das inscrições. Outro fator que também contribui contem-
poraneamente a este processo é a digitalização, ao potencializar a circulação e a
reapropriação das imagens mas, principalmente, ao tornar a imagem disponível à inter-
pretabilidade computacional. Nesse contexto, teríamos, portanto, que mesmo imagens
de cunho afetivo ou feitas para “entreter e informar” poderiam ser tomadas como ope-
rativas no sentido sugerido por Farocki. Isto é, mesmo elas podem compor, hoje, “parte
de uma operação”. Um exemplo são as imagens utilizadas em bases de treinamento de
redes neurais de reconhecimento de imagens e de rostos que, embora não produzidas
para este fim, são coletadas em sua circulação online e apropriadas para este treinamen-
to (cf. CRAWFORD; PAGLEN, 2019; HARVEY, 2019). Diria serem imagens operacionais
flutuantes, portanto, porque a finalidade operacional das imagens não precisa estar defi-
nida de antemão. Parafraseando Agamben em sua famosa asserção sobre o Estado
securitário contemporâneo64: nada se assemelha melhor a uma imagem operacional do
que uma fotografia de família. Voltarei a este ponto no capítulo seguinte (3 Visualidades
computacionais).
63 Em texto escrito durante o doutorado elaborei algumas discussões acerca do trabalho recente de Paglen
(MINTZ, 2018d).
64 “Aos olhos da autoridade – e, talvez, esta tenha razão – nada se assemelha melhor ao terrorista do que o ho -
mem comum” (AGAMBEN, 2009a, p. 50).
83
Quero destacar, contudo, que mesmo antes das imagens digitais, justamente pela pers-
pectiva e pela câmera fotográfica como fatores de consistência da inscrição, as
fotografias já se disponibilizavam a uma visada operativa. Um caso certamente curioso
que ilustra esta possibilidade é o exercício de uma espécie de “historiografia forense”
pelo engenheiro e artista Billy Kluver (2003) diante de um conjunto de fotografias toma-
das por Jean Cocteau em um passeio por Paris com Pablo Picasso. As imagens são
registros afetivos de um grupo de amigos boêmios caminhando pela cidade e seus cafés.
Porém, interessado no estudo da história daquele momento cultural de Paris, Kluver co-
leciona aquelas imagens e as aborda de um modo peculiar, em um trabalho de
investigação que visa não apenas identificar os personagens e recompor a sequência ori-
ginal das fotografias mas, também, situá-las precisamente no tempo e no espaço. Para
isto, ele faz uma análise detida de cada imagem, atenta-se aos marcadores geográficos e
até mesmo à projeção das sombras dos prédios. Este olhar minucioso, amparado pela
consistência óptica do registro, permite a Kluver recompor detalhes de cada imagem e,
desse modo, adensar a narrativa que reconstrói daquele dia.
Trago o exemplo de Kluver para ilustrar minha sugestão de uma imagem operativa flutu-
ante por um possível antecedente. Esta sugestão irá se complexificar no capítulo
seguinte. Mas parece-me relevante destacar outro aspecto deste exemplo que é como as
fotografias, neste caso, prestam-se a múltiplos olhares e desse modo, parecem se decli-
nar em múltiplas manifestações. Com Akrich (1992), vimos como uma inscrição pode
prestar-se a múltiplas apropriações, por diferentes atores. Porém, não se indicava, ali,
uma multiplicidade própria às inscrições. O dado de um medidor de consumo de energia
segue sendo apenas ele próprio. As fotografias de Jean Cocteau, contudo, não são apenas
inscrições que se prestam a múltiplas aplicações, mas objetos múltiplos, que podem se
declinar em inscrições para um olhar forense, mas que têm, ao que parece, outra desti-
nação. Na próxima subseção, desdobro esta questão.
2.2.3 Multiplicidade ontológica: declinações materiais da imagem
Um terceiro e último aspecto que gostaria de desenvolver em uma aproximação à TAR
diz respeito mais a uma consequência de suas operações conceituais do que uma formu-
lação intrínseca a seu delineamento “clássico”, propriamente. O conceito de mediação,
como vimos, envolve uma sensibilidade ao caráter distribuído da agência que lança a
uma condição de incerteza os contornos precisos dos atores. O conceito de inscrição, por
84
sua vez, nomeia instâncias materiais desta distribuição. Porém, mais do que uma distri-
buição da ação, as inscrições apontam para uma distribuição dos próprios objetos.
Afinal, uma inscrição não é apenas um signo que se vincula a um referente previamente
conhecido mas, de outro modo, ele constitui um vetor de expansão material daquele re-
ferente ou, de modo ainda mais transformador, pode se tratar da única manifestação
cognoscível daquele referente – como no caso do mapa de um território, por exemplo.
Neste sentido, Latour (2001) sugere que não seria propriamente um referente “exter-
no”, mas um “referente circulante” que seria conhecido por meio das inscrições. As
inscrições servem como um modo de conhecer a realidade mas também, de modo im-
portante, como um modo de agir sobre esta realidade.
Esta condição levaria, como observa Annemarie Mol (1999), a uma multiplicidade ontoló-
gica que abre possibilidades de ação política sobre a realidade. Não se trata de uma
proposição metafórica ou especulativa. Tampouco se trata de elaboração relacionada ao
tema do perspectivismo ou do construtivismo social, como reivindica a autora. Ao dizer
de uma ontologia múltipla, Mol sustenta que as inscrições seriam efetivamente (pois
pragmaticamente) um fator de variabilidade dos entes. Esta variabilidade não levaria a
uma situação de pluralidade ontológica, como sugerem, por diferentes caminhos, o pers-
pectivismo e o construtivismo, pois não se trata de realidades distintas, incomunicáveis
ou em disputa. De outro modo, sob a chave da multiplicidade, teríamos linhas de coexis-
tência ou mesmo de inter-relação e dependência entre diferentes constituições dos
entes.
Um exemplo desenvolvido por Mol (1999), cujas investigações voltam-se às ciências da
saúde, é o da anemia. A autora apresenta que haveria (àquele momento) ao menos três
diferentes definições para a anemia, a depender do tipo de exame utilizado no diagnósti-
co e das chaves interpretativas às inscrições. Uma seria a clínica, em que anemia seria
constituída segundo um conjunto de sintomas e queixas dos pacientes. Outra seria a la-
boratorial, em que a anemia seria constituída segundo a medida do nível de hemoglobina
no sangue do paciente em comparação a uma medida estatística do nível considerado
normal para uma população. A terceira seria a patofisiológica, em que a anemia seria
constituída segundo o nível de hemoglobina de um paciente comparado ao seu próprio
nível quando saudável. Todas estas definições configurariam, conforme elabora, a mul-
tiplicidade ontológica da anemia e reforça: “Estas não são perspectivas vistas por
85
pessoas diferentes […]. Nem são construções antigas, alternativas, das quais apenas uma
emergiu do passado […]. Então elas são diferentes versões, diferentes performances, di-
ferentes realidades que coexistem no presente”65 (MOL, 1999, p. 79).
A autora sugere, portanto, uma compreensão performativa da realidade. Este é um as-
pecto subtendido da TAR, ressaltado principalmente em exercícios de sistematização
posterior, como os de John Law (1999, 2009, 2017). Em certo sentido, esta proposição se
encontra já contida na primazia das práticas e das observações situadas como foco privi-
legiado da TAR. Formulada conceitualmente, contudo, a ideia de uma performatividade
sugere uma incerteza fundamental às descrições e às análises: “entidades alcançam suas
formas como consequência das relações em que elas estão localizadas […]. Uma conse-
quência é que tudo é incerto e reversível, ao menos em princípio”66 (LAW, 1999). Em um
aprofundamento da ideia de que verdades ou afirmações seriam dependentes de um
contexto, sugere-se assim que mesmo a realidade alcançaria este status por meio de
práticas situadas.
A anemia, no exemplo de Mol (1999), é muitas e nenhuma delas, em isolamento. Inclu-
sive porque, como a autora observa, elas dependem umas das outras. Por exemplo, a
medida de hemoglobina estatisticamente normal, presumida pela anemia laboratorial,
depende de um exame clínico para distinguir pacientes saudáveis dos anêmicos antes da
tomada das medidas. Além disso, ela elabora, a construção da norma laboratorial tam-
bém necessita que sejam consideradas diferenças nos valores entre populações de
homens e de mulheres, uma distinção que não é relevante para as anemias clínica e pa-
tofisiológica. Por relações de inclusão e interferência, portanto, a autora descreve uma
compreensão da realidade em que diferentes constituições ontológicas da anemia arti-
culam-se umas às outras e mobilizam, ainda, outras categorizações não
necessariamente vinculadas ao objeto em questão. Esta complexidade de relações expli-
ca, em larga medida, porque, embora seja múltipla, a realidade não é flexível. Há escolhas
que podemos tomar na configuração desta realidade e, desse modo, podemos falar,
como sugere Mol (1999) de uma política ontológica. Para o exemplo dela, haveria uma
escolha acerca de qual ontologia da anemia seria a mais adequada e a mais viável por se
adotar em um programa de saúde pública, por exemplo. Contudo, estas escolhas não se
65 No original: “These are not perspectives seen by different people […]. Neither are they alternative, bygone constructi-
ons of which only one has emerged from the past […]. So they are different versions, different performances, different
realities, that co-exist in the present”. Tradução minha.
66 No original: “entities achive their form as a consequence of the relations in which they are located. […] A consequence
is that everything is uncertain and reversible, at least in principle”. Tradução minha.
86
fazem no vácuo e relações já fortemente estabelecidas em práticas reiteradas não são fá-
ceis de se desfazer. Como elabora Law (2017, p. 44): “Performar objetos é difícil, mesmo
nesse mundo relacional. É algo difícil e custoso (pense nos departamentos hospitalares
d[o trabalho de] Mol). Nós não podemos simplesmente sonhar novas realidades”67.
Podemos compreender esta elaboração teórica de maneira articulada com os aspectos
priorizados nas subseções anteriores. A multiplicidade ontológica da anemia, no exem-
plo de Mol, deriva das performances que elaboram suas diferentes inscrições, cada qual
com sua chave interpretativa particular. Estas, por sua vez, não podem ser compreendi-
das fora das mediações que as conformam, inclusive as técnicas: os instrumentos
laboratoriais, as ferramentas de cálculo estatístico, os instrumentos da anamnese e dos
exames clínicos. Imaginar “outra” anemia demandaria, portanto, reconfigurar boa parte
destas relações, em uma extensa redistribuição dos papéis atoriais e translação de seus
programas de ação. De certo modo, grandes transições tecnológicas, como a experienci-
ada a partir da introdução das tecnologias digitais, podem ser fatores de alguma
transformação desse tipo.
Ingrid Hoelzl e René Marie (2015), em sua proposição teórica acerca da imagem digital,
sugerem uma reorganização profunda deste tipo. Provocativamente, eles sugerem que a
categoria do fotográfico, outrora vinculada a um dispositivo sintetizado, metonimica-
mente, pela câmera fotográfica, deveria ser redefinido no contexto digital pela categoria
presumida pelo algoritmo de compressão e descompressão (codec) conhecido pela sigla
JPEG (Joint Photographic Experts Group, “Grupo Conjunto de Especialistas em Fotogra-
fia”). Considerando a instituição normativa deste algoritmo como formato padrão
assumido pelas imagens digitais, eles sugerem que o traço definidor da categoria do fo-
tográfico não seria, hoje, vinculada a um aspecto de sua gênese, como pretendiam os
teóricos dos anos 1980. Em contrapartida, sugerem que a imagem fotográfica seria defi-
nida pelos atributos visuais do tipo de imagens para as quais o codec JPEG foi elaborado.
Gostaria de retomar a proposição destes autores em uma aproximação livre com a ideia
de multiplicidade ontológica em um último gesto de revisão do posicionamento do digi-
tal no domínio das teorias da imagem.
Deve-se compreender, a esse respeito, que uma estratégia algorítmica de compressão da
informação não serve igualmente a todos e quaisquer tipos de dados. Determinadas ca-
67 No original: “Performing objects is tough, even in this relational world. It is difficult and costly (think of Mol’s hospital
departments). We can’t just dream up new realities”. Tradução minha.
87
racterísticas informacionais precisam ser priorizadas para que se possa obter uma me-
lhor razão entre a eficiência da compressão e as perdas de qualidade. Isto também se
aplica para o caso das imagens, em que diferentes distribuições cromáticas dos pixels di-
recionam estratégias de compressão distintas. O JPEG não é a melhor opção, por
exemplo, para uma imagem contendo caracteres tipográficos ou um logotipo, especial-
mente quando a imagem apresenta limites com transições tonais abruptas. Para estas
imagens, esse codec costuma gerar imagens com aspecto ruidoso próximo às bordas das
letras ou das formas gráficas. Isto porque o JPEG funciona melhor quando as variações
de cor são graduais ao longo da superfície da imagem, como tipicamente ocorre em uma
fotografia. Seu algoritmo trabalha com blocos de 8 por 8 pixels de forma conjunta, par-
tindo do pressuposto de que a variação cromática entre eles não deve ser muito aguda.
Trata-se, nesse caso, de uma imagem de ‘tom contínuo’, em contraposição a imagens de
‘tom discreto’. Para estas últimas, o padrão PNG (Gráfico de Rede Portátil, na sigla em
inglês) seria mais adequado, pois este se baseia no tratamento agregado de áreas que
possuem o mesmo valor de cor ‘chapada’, sem perdas. Seu uso em fotografias, contudo,
tende a compressões menos eficientes, gerando arquivos maiores.
Com base nesta especificidade e considerando a forte padronização no entorno do codec
JPEG, Hoelzl e Marie sugerem que haveria uma redefinição da categoria de fotográfico:
Para o grupo JPEG, o ‘fotográfico’ não é mais vinculado a uma tecnologia es-
pecífica de registro e impressão; de outro modo, o termo designa um
conjunto de imagens digitais que podem ser comprimidas da mesma manei-
ra. Posto de outra forma, ‘fotográfico’ designa uma distribuição estética
particular (tom contínuo) de pixels que podem ser correlacionados uns aos
outros durante o processo de compressão (HOELZL; MARIE, 2015, p. 69)68.
Importante notar que se tal proposição fosse levada ao pé da letra, estaríamos supondo a
substituição de uma definição ontológica essencialista por outra. Do fotográfico como in-
dicialidade do registro fotoquímico ao fotográfico como distribuição de pixels em tom
contínuo, teríamos duas formulações radicalmente distintas, porém igualmente reduto-
ras. Não é este meu argumento – nem me parece ser o sentido pretendido por Hoelzl e
Marie, embora eles sugiram outras distinções fortes como essa (cf. nota 57). Compreen-
68 No original: “For the JPEG group, the ‘photographic’ is no longer tied to a specific recording and printing technology;
instead, the term designates an array of digital images that can be compressed in the same manner. Put differently,
‘photographic’ designates a particular aesthetic distribution (continuous-tone) of pixels that can be correlated with
each other during the compression process”. Tradução minha.
88
do, de outro modo, que a provocação dos autores pode ser assumida transitoriamente
como um passo intermédio para reorientar o olhar teórico que, ao final, pretendo dedi-
car às imagens.
Minha intenção principal, com o argumento do fotográfico como JPEG, é contestar a
compreensão que supõe ao digital a absoluta maleabilidade de um registro “menos cla-
ro, menos definido, menos estruturado” (DUBOIS, 2017, p. 41). Neste sentido, a
proeminência desse codec não é sem razão. Trata-se do padrão que hoje modela a cons-
tituição informacional de uma parcela majoritária das imagens digitais. Por sua vez, essa
força parece se dever, em grande medida, à formação institucional que lhe deu origem:
um comitê formado por membros da Organização Internacional para Padronização (ISO,
na sigla em inglês), da Comissão Eletrotécnica Internacional (IEC, na sigla em inglês) e
da União Internacional de Telecomunicações (ITU, na sigla em inglês) – este último,
uma agência da Organização das Nações Unidas (ONU) (Cf. JPEG, [s.d.]). Como apontam
Hoelzl e Marie (2015, p. 69), apenas o fato de que este grupo tenha sido formado já é uma
evidência da importância da imagem fotográfica no âmbito das tecnologias de informa-
ção e comunicação (TICs). A necessidade de padronização da forma de sua representação
informacional faz contraponto, também, à ideia de que o digital anularia as distinções
entre tipos de mídia e tipos de informação. Por sua vez, a mobilização de tamanho esfor-
ço institucional para fazê-lo é indicativo do equívoco que fundamenta a suposição de
que com o digital se tornaria obsoleta a questão da materialidade tecnológica das ima-
gens. O codec JPEG e o arranjo institucional que permite sua elaboração e manutenção
devem ser reconhecidos como componentes fundamentais da imagem fotográfica digi-
tal, embora não signifique que sejam traços essenciais de sua ontologia.
Na linha do que discuti a partir de Mol (1999), o codec JPEG constituiria uma das instân-
cias performativas contemporâneas das imagens fotográficas. Contudo, seria apenas
uma dentre muitas outras ontologias possíveis. Há pouco, mencionei a compressão PNG,
mas teríamos também, para ficar apenas em alguns: o GIF (Formato de Intercâmbio de
Gráficos, na sigla em inglês) ou os diferentes formatos do tipo Raw, sem compressão e
sem predefinição de um espaço de cor, por exemplo. Cada uma destas versões deste ob-
jeto incerto que é a imagem digital implica prescrições específicas segundo a mediação
dos codecs e protocolos envolvidos, e seus programas de ação subtendidos. A força do
JPEG, nesse sentido, está na eficiência da compressão, com um nível de perdas conside-
89
rado aceitável, mas também está na amplitude da articulação institucional que lhe con-
formou. Mas uma imagem digital poderia (como muitas vezes acontece) apresentar-se
em muitas outras versões, sem se reduzir a nenhuma delas, individualmente.
Não se trata de uma filigrana técnica. Essas diferentes ontologias são condicionantes de
um modo de existência contemporâneo das imagens. Cada uma revela uma concepção
particular de como tratar o visual: quais aspectos priorizar, quais podem ter mais per-
das, quão circulável deve ser a imagem etc. Não são por acaso as siglas PNG ou GIF, que
indicam formatos portáteis ou intercambiáveis de imagem. São compressões que priori-
zam a circulação das imagens e que efetivamente proporcionam esta possibilidade para
imagens gráficas. O JPEG, com sua prescrição peculiar, busca atender a uma compreen-
são específica da imagem fotográfica. Ao favorecerem certos usos e registros, estes
formatos excluem outros e são, em última medida, condicionantes do modo de existên-
cia contemporâneo das imagens. Arlindo Machado (2007) ressalta, neste sentido, como a
produção artística contemporânea frequentemente se debate com estas limitações,
como condicionantes de determinadas estéticas visuais. Menotti (2019) descreve, tam-
bém, um filme de sua autoria que se debate com as características dos codecs. No
contexto desta investigação, é importante compreender como estes modos de estrutura-
ção da existência informacional das imagens respondem a demandas pragmáticas e
institucionais diversas e não são, de modo algum, flexíveis ou desestruturadas como a
categoria essencializada do digital em algum momento supôs.
Em ainda outra articulação, quero indicar que seriam estes modos de estruturação que
permitem às imagens digitais operar como móveis imutáveis do campo visual contempo-
râneo. Isto é, como inscrições que permitem a circulação e o agenciamento de múltiplas
realidades sobre um plano sinótico (LATOUR, 1986, 2001). Atendendo não só ao roteiro
ou aos programas de ação “originais” pelos quais foram concebidas mas, também, po-
dendo ser “exportadas” (AKRICH, 1992), justamente por sua relativa estabilidade, que
leva a obscurecer sua estruturação interna. Exportadas, desse modo, as inscrições tor-
nam-se mais amplamente articuláveis em grandes “centros de cálculo” como
laboratórios e coleções (LATOUR; HERMANDT, 2004) nos quais a realidade é performa-
da com um alcance ainda maior. Para o caso das imagens digitais, bancos de dados, bases
de treinamento de sistemas de aprendizado de máquina e plataformas online seriam al-
guns hoje destes grandes centros de cálculo do visível.
90
Como discuti a partir de Akrich, esta exportabilidade das inscrições deve-se também a
seu alcance de um plano de sentido geral. Isto é, quando sua chave de interpretação não
seria mais específica a este ou aquele sistema de inscrições e seria, de outro modo,
transversal a múltiplos domínios. Conforme indiquei na subseção anterior (veja 2.2.2
Inscrição: perspectiva e consistência óptica), a automatização da inscrição em perspec-
tiva da câmera fotográfica faria este trabalho para as imagens feitas sob este registro.
Toda fotografia seria, nesse sentido, uma inscrição sociotécnica disponível a olhares fo-
renses que nela buscassem reconstituir o espaço retratado. Por esse motivo sugeri que
toda imagem fotográfica, mesmo as feitas “para entreter e informar” poderiam ser con-
sideradas, em uma releitura de Farocki (2004), como imagens operativas flutuantes. Esta
condição que já era própria às imagens fotográficas se aprofundaria em uma perspectiva
de digitalização, na medida em que não apenas sua mobilidade se dinamiza e se amplia,
como também sua acessibilidade a outros olhares e possibilidades interpretativas, pro-
porcionadas por sua computacionalidade. Como indiquei à Introdução, estas são as
condições fundamentais que permitem a integração das imagens a dinâmicas de datifi-
cação do visível. São também estas as condições que possibilitam o tratamento
metodológico que dedicarei às imagens, por meio das técnicas de aprendizado de
máquina. Voltarei a me aprofundar nesta questão no capítulo seguinte (veja 3 Visualida-
des computacionais).
Em vista da discussão elaborada por Annemarie Mol (1999), é possível, então, sugerir
uma revisão mais profunda da teorização das imagens digitais anteriormente discutida.
De modo fundamental, a noção de multiplicidade desfaz tanto a suposição de uma estabi-
lidade ontológica que seria conferida às imagens por um dispositivo técnico
individualizado, quanto a ideia de que a mediação técnica seria fator desimportante em
sua consideração. A tecnologia digital é, como comecei a elaborar, um fator de variabili-
dade que contribui à multiplicidade ontológica das manifestações das imagens. A
essencialização do código informacional como traço definidor de uma imagem digital
puramente de síntese ou algorítmica não seria, por isso, adequada à sua descrição. Em
um contato mais próximo com a experiência contemporânea das imagens, é necessário
considerar que a imagem digital é código e também é visível. É fotográfica e também é di-
gital. Isto sem entrar no detalhamento das múltiplas versões das imagens subsumidas
pelas categorias do código, da informação ou do algoritmo. Esta multiplicidade, longe de
dispensar a questão ontológica dirigida às imagens, a complexifica e, como sugere Mol
91
(1999), também a politiza pois admite alguma margem de escolha por priorizar alguma
versão específica dentre as muitas em que as imagens se materializam – aspecto que
será tensionado adiante.
Embora esta condição sugira uma revisão do vínculo ontológico ou essencial da imagem
com uma realidade empírica, este vínculo é apenas reconfigurado mas não totalmente
rompido. Como discuti a partir de Sean Cubitt (2014), do filme ao sensor, temos apenas
dois modos distintos de translação em que a mesma projeção luminosa é convertida ora
em informação química, ora em informação digital. Em ambos os casos temos inscrições
derivadas de uma realidade empírica mas, nem por isso, idênticas a ela. Com a disponi-
bilidade das inscrições digitais a procedimentos computacionais, teríamos, de outro
modo, a potencialização do estatuto da imagem como referência circulante e, como suge-
ri, imagem operativa flutuante. Assim, teríamos uma ampliação das consequências
pragmáticas deste vínculo e, portanto, das imagens.
Evidentemente, esta elaboração teórica não “resolve”, por assim dizer, a questão acerca
do que seriam as imagens digitais mas, de outro modo, a reenquadra. Pois se o que se
observa é uma maior variabilidade das inscrições, levando a um quadro de multiplicidade
ontológica, parece que não haveria uma resposta única possível. De outro modo, trata-se
de questão que apenas pode ser respondida de maneira circunstancial e transitória em
um momento específico das cadeias de translação. Entretanto, este parece ser justamen-
te o desafio colocado para esta pesquisa em seu problema metodológico. Proponho que
os procedimentos de análise a que me volto adiante sejam compreendidos como estas
cadeias de translação em que o visível se declina em múltiplas inscrições, as quais são
então justapostas, combinadas e analisadas. Porém, buscando um caminho de retorno
ou uma reversibilidade dos processos, como sugeri à introdução, o desafio é constituir
um protocolo de pesquisa em que esta multiplicidade ontológica seja abraçada pela in-
vestigação, em vez de tomar descrições computacionais como o ponto de chegada da
investigação.
Como sugeri algumas vezes neste capítulo, quero argumentar que embora a tecnologia
digital venha colocar em crise as elaborações essencialistas que visaram em algum mo-
mento fixar o estatuto ontológico da imagem segundo seu dispositivo, ao demonstrar a
inadequação desse enquadramento teórico a um novo paradigma tecnológico, trata-se
de crise que não afetaria apenas o presente das imagens mas que, de outro modo, deveria
92
incidir também, retrospectivamente, em imagens anteriores ao digital. Na subseção an-
terior, ao retomar o ensaio de Alan Sekula (1986) acerca dos usos repressivos da
fotografia, indiquei como sua discussão já apontava para uma reconfiguração da noção
de dispositivo fotográfico ao colocar no centro não tanto o aparato da câmera e sim o ar-
mário de arquivo. Na seção seguinte, junto à formulação da hipótese conceitual da
imagem-rede, volto-me a um outro percurso analítico, anterior ao digital, desenvolvido
pelo historiador da arte alemão Aby Warburg, no início do século XX, para sugerir ainda
outras articulações para a abordagem teórica proposta.
2.3 A imagem e a rede
Visando constituir um modo de lidar com a instabilidade ontológica que descrevi para a
imagem, no nível de sua materialidade, quero nesta seção sugerir uma hipótese concei-
tual que, acredito, conseguiria nomear de forma conjunta alguns dos aspectos descritos.
Proporei, portanto, a noção de imagem-rede para me referir a uma acepção que levaria
em conta as relações de dependência material das imagens, considerando não apenas
seu modo concreto de inscrição como, também, suas condições de circulação e, por con-
seguinte, de formação. Conceber a imagem como rede permitiria, conforme
argumentarei, compreender sua multiplicidade ontológica. Permitiria também com-
preendê-la como inscrição que ganha corpo e sentido no âmbito de agenciamentos
sociotécnicos mais amplos. Vários destes aspectos já estariam sugeridos pela evidente
citação que faço à TAR da proposição da noção de imagem-rede. No entanto, gostaria de
acrescentar uma outra perspectiva à discussão, que pode ajudar a melhor articular esta
vertente teórica com uma consideração específica à dimensão cultural das imagens, em
um outro registro. Volto-me, para isso, a aspectos da obra de Aby Warburg.
2.3.1 O Atlas Mnemosyne e os veículos de imagem de Aby Warburg
A leitura que proponho possui um recorte decididamente interessado. Não busco realizar
uma recuperação detalhada seja da história de sua obra, seja de seus conceitos mais re-
conhecidos, como o Pathosformel (“fórmula de páthos”) ou o Nachleben (“vida
póstuma”). Esforços neste sentido têm sido empreendidos por outros autores que, in-
clusive, me amparam nesta reapropriação (cf. ABREU, 2015; AGAMBEN, 2009b; DIDI-
HUBERMAN, 2013b; LISSOVSKY, 2014; MACIEL, 2018; MICHAUD, 2013). Warburg incide
93
neste trabalho como um motor de invenção e inspiração metodológica, sem um compro-
misso específico de sustentar uma articulação metodológica ou teórica mais profunda.
Apoio-me, em todo caso, em autores recentes que argumentam que haveria certo grau
de pertinência na mobilização do “método warburguiano” no âmbito das imagens digi-
tais e em rede (LISSOVSKY, 2014; MACIEL, 2018). Minha motivação para esta retomada
considera reverberações entre a elaboração teórica que venho apresentando, que orienta
minha investigação, e as práticas em que se basearam a investigação warburguiana so-
bre as imagens. Nesse sentido, interessa-me especificamente o modo com que Warburg
observou as condições materiais de circulação das imagens como um componente de sua
investigação e, também, como esta materialidade incide sobre sua concepção de “espa-
ços de pensamento” no âmbito de sua biblioteca e, em especial, do seu projeto inacabado
do Atlas Mnemosyne (Figura 3).
Figura 3: Reconstrução de pranchas do Atlas Mnemosyne de Aby Warburg.
Registro de exposição realizada em 2016 no Zentrum für Kunst und Medien (ZKM) em Karlsruhe, Alemanha.
Fonte: ZKM, 2016. Fotografia de Tobias Wootton.
Embora tenha sido personagem central no desenvolvimento de linhagens canônicas da
história da arte do século XX, tendo como seus “seguidores” dois dos principais nomes
da vertente germânica da disciplina – como Ernst Gombrich e Erwin Panofsky – a obra
de Warburg assumiu um lugar secundário na literatura, por boa parte do século. Este re-
lativo “esquecimento” motivou, contudo, diferentes esforços de recuperação. Ainda na
década de 1960, o historiador italiano Carlo Ginzburg (1999) revisou aspectos de sua
obra em um ensaio. Nos anos 1970, foi a vez de Giorgio Agamben (2009b), em ensaio que
revisaria posteriormente nos anos 1980 (cf. LISSOVSKY, 2014). Nos anos 2000, teríamos
ainda outro momento desse ciclo, com sua retomada no centro do cânone francófono da
94
história da arte, com obras dedicadas a ele por Georges Didi-Huberman (2013b, 2015) e
Philippe-Alain Michaud (2013), entre outros autores. No contexto brasileiro, uma expo-
sição realizada no Museu de Arte do Rio em 2013, com curadoria de Didi-Huberman, foi
importante na divulgação local da obra de Warburg, inclusive com a tradução e publica-
ção no país de alguns de seus principais textos (WARBURG, 2013, 2015).
Escrevendo nesse contexto, Maurício Lissovsky (2014), sugere compreender Warburg
nos próprios termos de sua teoria das imagens: como uma “imagem sobrevivente” que
encontraria hoje uma “vida póstuma”. Em particular, porque a retomada contemporâ-
nea atém-se justamente a aspectos de uma sugerida atualidade de seu pensamento. Esta
atualidade contrasta, contudo, com o lugar hoje reservado a seus principais herdeiros,
Gombrich e Panofsky que, segundo elabora Lissovsky (2014, p. 311): “parecem estar do
lado ‘conservador’, ‘erudito’ da história da arte, imune às necessidades e urgências da
atualidade”. Em sentido similar, Hortência Abreu (2015, p. 14–15) indica como a reto-
mada contemporânea de Warburg tem algum nível de ambiguidade, vinculando-se ora a
uma atenção à tradição, ora a um interesse pela sensação de frescor de alguns de seus
gestos inaugurais que, ainda hoje, “chega[m] até nós com um sabor de coisa nova”. Efe-
tivamente, há em sua perspectiva sobre as imagens um alto grau de liberdade no
tratamento histórico e crítico. Tanto que, em geral, seus leitores são francamente relu-
tantes a sugerir algo como uma “teoria” ou um “método” warburguiano ou, quando o
fazem, se abstêm de defini-lo com precisão – até porque o próprio Warburg deixou pou-
cos subsídios para que o fizéssemos.
A respeito de sua atualidade, Lissovsky (2014, p. 306) identifica no primeiro ciclo de re-
tomada, de Carlo Ginzburg, três aspectos que seriam pertinentes à recepção
contemporânea de Warburg: a preocupação com “os limites epistemológicos das disci-
plinas historiográficas, o problema da semelhança na história e o da ‘atemporalidade’ ou
‘anacronicidade’ das imagens”. Com efeito, estes são alguns dos traços da leitura que
dele faz Didi-Huberman, no entorno do problema do anacronismo (DIDI-HUBERMAN,
2015) e dos limites da história da arte em sua pretensão quase positivista de certeza
(DIDI-HUBERMAN, 2013a). Lissovsky descreve em Warburg uma “concepção impura da
imagem”, como um dos desafios que teria colocado ao cânone da história da arte, mas
que hoje ganham relevância no contexto de uma “nova era global de migração das ima-
gens”. As tecnologias digitais, após o ciclo da fotografia, sugere Lissovsky (2014, p. 321)
“propiciaram uma expansão exponencial dos recursos de manipulação, processamento e
95
distribuição”, bem como de “apropriação, hibridação e transformação das imagens pro-
duzidas hoje e, junto com elas, de todas aquelas produzidas outrora”. Percebe-se, assim,
a estranha circularidade pela qual a compreensão warburguiana da imagem, fundada há
um século, com um olhar voltado para outros séculos antes dela, retorna ao presente
com uma assustadora pertinência. Também hoje – ou sobretudo hoje – nos parece ser
demandado olhar para a imagem como entidade impura e em constante migração. É jus-
tamente este um dos aspectos inspiradores que busco na remissão a Warburg.
Entre os desafios que levaram a uma retomada algo tardia da produção warburguiana,
Lissovsky (2014) ressalta o caráter marcadamente enigmático do autor, que é exacerba-
do por episódios de sua biografia, como o período de sua internação psiquiátrica, ou pela
apenas aparente desarticulação de seu percurso intelectual, que vai de estudos do Re-
nascimento europeu a um interesse pontual e aparentemente circunstancial pelos rituais
de povos indígenas do Novo México69. Em larga medida, seguindo com Lissovsky (2014),
alguns dos aspectos mais ousados do trabalho de Warburg teriam sido domesticados ou
esvaziados na disciplina da história da arte, caminho contra o qual Georges Didi-Huber-
man visa fazer frente. Mais além dos conceitos, o próprio modo de fazer do “método
warburguiano”, fundado em operações de montagem, teria se perdido pelos riscos meto-
dológicos que assume:
Para que este conhecimento-montagem fosse possível, era preciso rejeitar as
matrizes da inteligibilidade causal e criar a possibilidade de uma vertigem.
Aceitar que a imagem não é um campo de conhecimento fechado, mas é cen-
trífuga, vertiginosa. Vertigem a que Warburg nos convida, não apenas por
meio de seus escritos, mas, sobretudo, por meio de seus silêncios (LIS-
SOVSKY, 2014, p. 315).
Em especial no derradeiro projeto do Atlas Mnemosyne, Warburg propõe realizar a histó-
ria da arte em uma “forma não discursiva”, como uma história sem texto (MICHAUD,
2013, p. 237). Seria justamente esse projeto que mais insuflaria ânimo ao olhar contem-
porâneo às imagens, concedendo uma maior liberdade à história e à crítica.
O Atlas é uma espécie de culminância da trajetória intelectual de Warburg, devendo ser
lida, como sugere Michaud (2013), à luz de sua obra precedente. Trata-se de um arquivo
de reproduções imagéticas pelo qual Warburg propunha um estudo visual da história das
imagens. Em seu Atlas, ele dispunha, em uma sequência de pranchas, diversas reprodu-
69 Philippe-Alain Michaud (2013) indica, a esse respeito, como leituras da trajetória intelectual de Warburg tende-
ram a situar suas expedições ao oeste norte-americano como uma espécie de interrupção momentânea, um
parêntese. Ele busca contestar, em seu livro, esta compreensão.
96
ções em papel (fotografias, desenhos e gravuras) de um amplo conjunto heterogêneo de
imagens, originalmente disperso, espacial e temporalmente. Por meio desse dispositivo,
articulava relações de semelhança e reverberações de formas visuais que atravessavam
estes múltiplos objetos. Sobre a maior parte destas articulações, Warburg não deixou re-
gistros escritos, fiando-se no potencial das próprias imagens e das associações
manifestas na superfície das pranchas de falarem por si próprias. Especificamente, as
montagens seriam modos de dar visibilidade à emergência daquilo que o autor anterior-
mente se referira por Pathosformeln (“fórmulas de páthos”). Segundo elabora Hortência
Abreu (2015, p. 35), o Pathosformel seria algo como a “cristalização de um movimento
afetado por uma emoção, um corpo afetado”. Na leitura de Agamben (2009b, p. 132), te-
ríamos uma espécie de unidade analítica que “designa o indissolúvel entrelaçamento de
uma carga emotiva e de uma fórmula iconográfica”. Por isso, Agamben sugere que os
Pathosformeln cristalizariam, de forma indissociável, forma e conteúdo. Embora trate-se
de conceito que Warburg elabora ao longo de seus escritos, no Atlas o Pathosformel se
materializaria na forma de percepções tornadas possíveis a partir dos gestos de justapo-
sição, comparação e tensionamento realizados sobre a superfície sinóptica das pranchas.
Michaud relaciona esse procedimento com a montagem cinematográfica, remetendo a
teoria do cineasta soviético Sergei Eiseinstein. Por este caminho, ele elabora que a ope-
ração não visaria a articulação de significações, mas sim a produção de efeitos
(MICHAUD, 2013, p. 322). Ele então sugere que, como na montagem de Eisenstein, seria
possível compreender a montagem warburguiana como uma sintaxe ideogramática que
repousaria sobre o intervalo como espaço de potência – isto é, como um afastamento do
conteúdo da imagem para aquilo que se manifesta entre as imagens (MICHAUD, 2013, p.
326). Nesse sentido, o autor sugere uma circularidade pela qual a temática do movimen-
to que teria inspirado os primeiros trabalhos de Warburg, voltados à representação do
movimento das vestes nas pinturas renascentistas, retornaria, enfim, ao projeto do
Atlas: “O movimento não mais se manifesta […] pelo tratamento dos atributos externos,
dobras da roupa, cabelos, mas pela aproximação entre dois elementos visuais heterogê-
neos e pela utilização da montagem no plano” (MICHAUD, 2013, p. 240). Lissovsky
(2014, p. 319), a partir de Agamben, indica, porém, que não se trata apenas de algo como
a recomposição de uma trajetória histórica linear. De modo fundamental, sua leitura
aproxima Warburg de Foucault em uma compreensão não-linear da história, trasladada
a uma dimensão espacial. Referindo-se ao painel 46 do Atlas (Figura 4), dedicado às nin-
97
fas, Lissovsky (2014, p. 319) retoma a leitura que lhe dedica Agamben e destaca que, na
superfície da prancha, “nenhuma imagem precede às demais”, sendo “impossível dis-
tinguir ali entre criação e performance, entre original e cópia”. O princípio seria o do
paradigma, segundo aquilo que Agamben (2002) elabora, a partir de Foucault: um gesto
metodológico que opera pela singularidade como forma de oferecer inteligibilidade ao
conjunto. As ninfas seriam expressas, nesse sentido, pelo conjunto de imagens e por
cada uma delas, de modo indissociável, “em um misto de primariedade e repetição e não
simplesmente cópias umas das outras”, como elabora Abreu (2015, p. 53).
98
Figura 4: Prancha 46 do Atlas Mnemosyne de Aby Warburg.
Registro da montagem da prancha original em versão de outubro de 1929, na Biblioteca Warburg.
Fonte: Instituto Aby Warburg.
99
No projeto warburguiano de uma história das imagens, seu interesse não recai sobre a
imagem como objeto único de elevação estética mas sim, como sugere Lissovsky (2014,
p. 317) – a partir de Agamben, Didi-Huberman e Ginzburg – como “marca” ou “vestí-
gio”, isto é, como processo que incorpora, inclusive, uma temporalidade complexa no
interior de si própria. O potencial de vertigem que Lissovsky aponta para o método war-
burguiano residiria, então, na operação da montagem e nesta acepção complexificada da
ontologia das imagens. Por sua lente, a imagem não se fixa nem se localiza. O método,
pelo contrário, tende a desestabilizá-la e a colocá-la em movimento. Em um plano te-
órico, isto se manifesta no distanciamento que Warburg assume em relação à tradição
estetizante da história da arte que concebia a imagem em seu aspecto plástico-formal ou
segundo sua vinculação à psicologia ou ao gênio criativo do artista. De outro modo, como
salienta Agamben (2009b), Warburg localiza a imagem como localizada em algum ponto
entre a arte e a religião, em relação estreita com a memória em sua dimensão coletiva.
Evidentemente, a aproximação entre esta vertente do estudo das imagens e a investiga-
ção proposta por esta tese não é automática. Meu gesto de aproximação, aqui, talvez
deva ser compreendido de modo similar ao próprio método warburguiano: “não é ape-
nas o deslocamento de um ponto a outro, mas salto, montagem, repetição e diferença”
(LISSOVSKY, 2014, p. 315). Como alertei ao início desta seção, não viso sugerir aqui uma
herança warburguiana à Teoria Ator-Rede, nem postular uma leitura de Warburg à luz
da TAR70. A montagem teórica que realizo visa encontrar um caminho entre estas pers-
pectivas que as complexifique mutuamente. Isto é, enfatizando aspectos em Warburg
que em alguma medida remeteriam (anacronicamente) à TAR, e inflexionando os aspec-
tos da TAR, que desenvolvi, com uma compreensão adensada da imagem.
Um aspecto seria a possível aproximação da compreensão warburguiana da imagem de
uma multiplicidade ontológica, embora de forma distinta da elaborada por Mol (1999). A
imagem seria em Warburg um “processo” e não “resultado de processos” (LISSOVSKY,
2014, p. 317). Seria um efeito decorrente da montagem e não uma simples associação de
sentidos (MICHAUD, 2013, p. 322). A imagem da ninfa (para além da imagem-coisa)
emerge no Atlas como o efeito da justaposição e do tensionamento entre suas múltiplas e
70 Um aspecto curioso, em todo caso, é o recurso a montagens de estilo warburguiano como dispositivo expográfi-
co da exposição Reset Modernity!, com curadoria liderada por Bruno Latour, realizada no ZKM em 2016
(LATOUR, 2016). A pertinência desta aproximação não seria, ao que parece, tão improvável.
100
singulares manifestações, o que não significa que sejam manifestações em competição
nem perspectivas plurais sobre uma imagem (MOL, 1999). A ninfa seria múltipla e a
montagem da prancha teria a potência de colocá-la em evidência (Figura 4).
Um segundo aspecto poderia ser sugerido no tratamento da imagem (imagem-coisa)
como inscrição. A montagem, em si mesma, é possibilitada pela mobilização de reprodu-
ções em papel (fotografias, desenhos, gravuras) de pinturas, esculturas, selos, moedas e
outros objetos. Estas reproduções têm sentido bem próximo daquilo que Latour (1986,
2001) descreveu como “móveis imutáveis”. Guardando uma relação material com as coi-
sas do mundo que representam, as inscrições em papel possibilitam o acúmulo, a
justaposição, a sobreposição e a comparação entre si, reunidas e dispostas sobre um
mesmo plano comum. A projeção plana das reproduções – seja pelo registro em pers-
pectiva do objeto tridimensional, seja pela natureza bidimensional do ‘original’ – as
colocam em um local que permite a comparação (AKRICH, 1992), embora tenham sido
produzidas em contextos e técnicas diversas. Auxilia-nos nesta aproximação a descrição
de elaborada Michaud (2013, p. 321):
Em Mnemosyne, a reprodução fotográfica não é mais um suplemento, e sim
um equivalente plástico geral a que são remetidas todas as figuras, antes de
serem dispostas no espaço da prancha. Assistimos a três operações sucessivas
de transformação do material de origem: os objetos de diversas naturezas
(pinturas, relevos, desenhos, impressos etc.) são unificados pela fotografia,
antes de serem reunidos nas pranchas, as quais, por sua vez, são refotografa-
das para criar uma imagem única.
Temos, então, a fotografia como chave que traduz as diferentes imagens a um “equiva-
lente plástico geral”. Nos termos de Madeleine Akrich (1992), diríamos da fotografia
como chave comum que condiciona a exportabilidade destas inscrições e sua compara-
ção em um mesmo plano. Reunidas na Biblioteca Warburg e dispostas sobre a superfície
das pranchas, as imagens encontram ali um “centro de cálculo” (LATOUR; HERMANDT,
2004), capaz de produzir, a partir delas, outras ontologias.
Seria importante observar, a esse respeito, como as dependências materiais da investi-
gação foram conscientemente articuladas por Warburg em seu pensamento acerca da
biblioteca como um espaço de pensamento constituinte de seu método. Como sugere
Philippe-Alain Michaud, a Biblioteca Warburg – ele lhe deu seu próprio nome – era
como uma objetivação de seu pensamento. A disposição e a disponibilidade dos livros,
documentos e imagens eram consideradas condições fundamentais do trabalho. Em ci-
101
tação de Warburg por Michaud (2013, p. 233), a partir de Stockhausen (1992, p. 51, citado
em MICHAUD, 2013), temos uma descrição da articulação entre o método e a disposição
espacial da biblioteca:
A novidade do meu método prende-se a que, para explicar a psicologia da
criação artística, reúno documentos provenientes do campo da linguagem,
bem como das artes plásticas ou do mundo do drama religioso. Para conse-
gui-lo, eu e meus companheiros de pesquisa precisamos ter diante de nós os
documentos, isto é, livros e imagens, dispostos em grandes mesas, a fim de
podermos compará-los, e esses livros e imagens devem estar ao alcance da
mão, sem dificuldade e instantaneamente. Por isso necessito de uma verda-
deira arena com mesas, para ter à mão os livros comuns e o material
iconográfico.
O pensamento warburguiano era, assim, debitário de sua biblioteca. À configuração des-
ta, Warburg creditava a inovação de seu método. Latour (1986) elabora argumento
similar em sua abordagem das inovações técnicas que teriam possibilitado a conforma-
ção da ciência moderna. Diante da descrição feita por Warburg das grandes mesas nas
quais dispor dos livros e imagens, nos retorna a situação, narrada por Latour (2001), dos
cientistas que analisavam um mapa da região amazônica sobre a mesa de um restauran-
te em Boa Vista. Embora os objetos estudados e as condições espaciais e institucionais
sejam marcadamente distintas entre um caso e outro, há uma analogia possível entre a
“arena” de mesas de Hamburgo e a mesa de Boa Vista. A operação é bastante similar: o
momento da produção de conhecimento e do diálogo entre pesquisadores é constituído
em uma relação direta com inscrições coletivamente manipuladas. Ainda a respeito da
Biblioteca Warburg e de suas inquietas sessões de trabalho, escreve Michaud (2013, p.
233–234):
A coleção inteira de livros era, ao mesmo tempo, a objetivação de seu pensa-
mento e uma alegoria do mundo e dos corpos que nele se movem. A
classificação das fichas e o deslocamento ao longo das estantes eram um rito
de orientação, cujo modelo Warburg tinha concebido no correr de sua viagem
e que reproduzia de maneira incansável na cosmologia confinada da bibliote-
ca.
Michaud sugere que a constante reorganização dos livros, documentos e imagens seriam
como um “rito de orientação”, o que sugere que a própria biblioteca poderia ser com-
preendida como dispositivo de navegação. Michaud (2013, p. 237–238) articula, em
outra passagem, uma continuidade entre o projeto da biblioteca e o Atlas71, que, assim,
poderia cumprir função similar. Jane Maciel (2018, p. 198), interessada na força da “for-
71 “Tal como fazia com os textos no espaço de sua biblioteca, ele atualizou, dessa vez com imagens, os conflitos
sem resolução dos quais extraíra o sentido da história das formas, bem como o sentido de seu próprio pensa-
mento” (MICHAUD, 2013, p. 237–238).
102
ma Atlas” para estudar as imagens no contexto das redes digitais, enfatiza nas pranchas
do Atlas a configuração de constelações de imagens, paralisadas no transcurso de seu
movimento e servindo, elas próprias, para operações de navegação e orientação “entre
as imagens do mundo e o mundo das imagens”. O saber das imagens, em Warburg, rea-
liza-se, assim, por meio de inscrições materiais catalisadas com sua disposição sobre o
plano.
A partir de Didi-Huberman (2013c, p. 21) e Philippe-Alain Michaud (2013, p. 9), parece-
me também relevante considerar como a materialidade dos processos fotográficos de
reprodução e circulação das imagens impactou não apenas o projeto warburguiano, mas
também o ensino acadêmico de arte na virada do século XIX ao XX. A respeito de War-
burg, Lissovsky (2014) salienta como a fotografia teria sido central ao projeto do Atlas,
como vimos também, acima, na citação a Michaud. A descrição de Trevor Fawcett (1983,
p. 450) permite, contudo, que ampliemos a consideração sobre o impacto da fotografia
para os estudos da imagem em uma perspectiva mais ampla:
As obras de arte discutidas em uma palestra normalmente não estavam dis-
poníveis em toda sua imediatez; os originais eram inacessíveis, espalhados
por muitos países, frequentemente conhecidos apenas de segunda ou terceira
mão. Asserções verbais, se sequer fossem ser checadas, tinham que ser verifi-
cadas a partir de transcrições não confiáveis, provavelmente em escala
reduzida e realizadas em um outro meio, produzidas por intermediários hu-
manos que inevitavelmente reinterpretavam os originais. A ilustração das
palestras era menos um fac-símile que um diagrama, que era o que alguns
palestrantes do século XIX o chamavam; útil o suficiente para explicar pon-
tos gerais do estilo, iconografia e composição, mas não para análises mais
sutis e comparações detalhadas de um trabalho com o outro72.
As reproduções fotográficas, tornadas progressivamente disponíveis a partir de meados
daquele século, apareceram enquanto alternativas promissoras a tais inscrições que
eram, ao mesmo tempo, dispendiosas e insatisfatórias. Elas substituíam gravuras reali-
zadas como versões de circulação de grandes pinturas, por exemplo, que eram a única
inscrição colecionável por grandes bibliotecas73. Contudo, enquanto na forma de diaposi-
72 No original: “The works of art discussed in a lecture were usually not available in all their immediacy; the originals
were inaccessible, scattered through many countries, often known only at second or third remove. Verbal assertions, if
they were to be checked at all, had to be measured against unreliable transcripts, probably on reduced scale and exe-
cuted in an alien medium, produced by human intermediaries who inevitably reinterpreted the originals. The lecture
illustration was less a facsimile than a diagram, which is what some nineteenth-century lecturers called it; useful
enough for explaining general points of style, iconography and composition but not for subtler analysis and detailed
comparison of one work with another”. Tradução minha.
73 Um exemplo desta prática é a coleção de gravuras da abadia de Göttweig, na Áustria, que foi, em seu tempo,
uma das maiores coleções particulares de gravuras da Europa com a finalidade de subsidiar a formação artística
na instituição. Hoje, o monastério abriga o departamento de Image Science da Universidade do Danúbio em
Krems, inclusive com projetos de digitalização desse acervo . Cf. http://www.stiftgoettweig.at/.
103
tivos ou grandes reproduções permitia-se reconstituir aspectos da uma experiência úni-
ca da obra analisada, Warburg levou a um extremo as possibilidades de recombinação
destes registros:
Por intermédio dela, Warburg criava à sua volta um universo cósmico onde
todas as imagens-astros se equivaliam, independente de seu tamanho, dis-
tância e natureza, agrupando-se contra o fundo escuro do céu zodiacal como
constelações cintilantes em torno destes estranhos atratores, que denomina-
va fórmulas do patético (LISSOVSKY, 2014, p. 320–321).
Avançando em outro aspecto, em uma dobra da materialidade do método sobre seu pró-
prio objeto, encontramos mais uma circularidade do percurso warburguiano. Pois a
importância das dependências materiais não são observadas apenas como condicionan-
tes dos dispositivos epistêmicos da biblioteca ou do Atlas, mas também são parte
importante da própria concepção teórica que Warburg dedica às imagens. Notadamente,
Warburg observara a relevância da tapeçaria, com sua mobilidade e reprodutibilidade
características, para a constituição do estilo do período renascentista ao longo do conti-
nente europeu. Ou seja, não só no âmbito da investigação, mas da própria realidade
investigada, Warburg dedicava atenção às condições materiais de sua efetuação. Nos
fragmentos que compõem sua introdução ao projeto do Atlas, Warburg (2015, p. 372, ên-
fase minha) escreveu:
O tempo entre Piero della Francesca e a escola de Rafael é uma época na qual
começa a perambulação internacional intensiva das imagens entre norte e sul,
cuja veemência elementar envolve tanto o ímpeto do impacto como a abran-
gência do domínio por onde perambula — algo que se furtou ao historiador
europeu dos estilos sob a “vitória” oficial do alto Renascimento romano. A
tapeçaria de Flandres é o primeiro tipo, ainda colossal, de veículo automotivo para
o transporte de imagens, que, desprendido da parede — e não só pela mobilidade,
mas também pela técnica, voltada à reprodução multiplicadora do conteúdo da
imagem —, foi um precursor da folha de papel impressa com imagens, isto é, das
gravuras em cobre e xilogravuras, que mormente tornariam o intercâmbio de va-
lores expressivos entre norte e sul uma ocorrência vital no processo de circulação
da formação do estilo na Europa.
Nesta passagem, o estudioso faz menção ao que Heil e Ohrt (2016) indicam como um dos
conceitos-chave do pensamento warburguiano: os veículos de imagem (Bilderfahrzeuge).
A tapeçaria, ele observa, permitiu que as imagens então realizadas sobre mídias fixas,
pintadas diretamente sobre a superfície das paredes, destas se desprendessem e circu-
lassem. O estilo artístico do período, como formação transversal à Europa renascentista,
demandaria que considerássemos este substrato como um dos condicionantes de sua
emergência. Isto é, indo além das questões tipicamente colocadas à história dos estilos,
Warburg estabelece uma relação fundamental entre uma economia material da circula-
104
ção das imagens e o seu processo de constituição. Seria justamente esta economia mate-
rial, que permitiria, séculos depois, a deriva das imagens em que se fundamenta seu
método.
Lissovsky (2014) articula sua discussão da obra de Warburg com uma indagação quanto
aos motivos pelos quais o seu pensamento seduz os pensadores contemporâneos da
imagem. Posso responder por mim. A aproximação que faço tem por objetivo inspirar o
gesto metodológico e uma concepção das imagens contemporâneas que, como já indi-
quei à introdução, compreendo em um processo articulado entre: o volume e a ampla
circulação das imagens, no âmbito da chamada “virada visual” ou “virada pictórica” das
plataformas de mídia social; as mediações técnicas que modulam as dinâmicas de circu-
lação das imagens nesse contexto; e as mediações técnicas que possibilitam seu estudo.
A respeito destas últimas, volto-me em particular às técnicas de aprendizado de máqui-
na por redes neurais, aplicadas às imagens, como forma de lidar com a proliferação
contemporânea do visível. À luz de Warburg e do modo como ele mobilizou os “veículos
de imagem” de seu tempo e do passado em sua investigação, diria, então, que um dos
objetos de minha pesquisa seria, também, a operação dos veículos de imagem contem-
porâneos e os desafios que colocam a um tal estudo.
Hortência Abreu (2015, p. 15) indica como a aproximação do trabalho de Warburg e a no-
ção mais recente do hipertexto não são raras nos esforços de atualização de sua obra.
Martin Warnke, um dos principais especialistas na obra de Warburg, professor da Uni-
versidade de Leuphana, nos arredores de Hamburgo, desenvolveu um projeto
denominado HyperImage74, em que busca transpor a um software computacional as ope-
rações de montagem do método warburguiano, potencializado pelas possibilidades de
linkar conteúdos a partir da superfície da tela. Contudo, minha apropriação de Warburg
não se resume à sua operação de montagem cristalizada no Atlas. Interesso-me, sobre-
tudo, na mobilização consciente de inscrições, de veículos de imagem contemporâneos
tempo, para investigar as formações imagéticas produzidas, elas próprias, em sua circu-
lação. Isto é, volto-me a Warburg como inspiração não apenas metodológica, mas
também teórica, em seu modo de compreensão da imagem como efeito dessa migração
ou perambulação das imagens, e como unidade paradigmática, formada em um processo
que talvez possamos descrever como uma emergência a partir de singularidades irredutí-
74 Cf. http://www.uni-lueneburg.de/hyperimage/hyperimage/ebsKart.htm.
105
veis. Junto ao que vim elaborando acerca de inspirações da TAR a este trabalho, a obra de
Warburg sugere, assim, ainda outros aspectos para o que proponho denominar como
imagem-rede.
2.3.2 Imagem-rede: uma hipótese conceitual
Pelo modo como enuncio o conceito – imagem-rede – trata-se, obviamente, de uma
apropriação direta da formulação proposta inicialmente por Michel Callon (1986) e que
veio a nomear a vertente teórica que ele ajudou a fundar: a Teoria Ator-Rede (TAR) 75. Ao
assumir basicamente a mesma forma em minha proposição, busco incorporar uma re-
versibilidade similar à subsumida pela conjunção entre ator e rede, sugerindo algo como
uma dupla concepção para a imagem ou, ainda, uma tensão irresoluta. Por um lado, a
imagem é rede, pois constitui-se de forma relacional, como vim salientando. Trata-se de
um objeto ontologicamente fraturado, múltiplo e amplamente dependente, não apenas
de agenciamentos sociotécnicos como, também, de modos de inscrição, veículos de ima-
gens e de outras imagens junto às quais produz efeitos duradouros na memória coletiva.
Por outro lado, a rede é também imagem, pois é apenas enquanto imagem que ela pode
ser apreendida, adquirindo uma forma minimamente reconhecível. Isto não equivale,
como alertam Tommaso Venturini, Anders Munk e Mathieu Jacomy (2018), a dizer que a
rede seria sua visualização – estas são instâncias distintas de sua manifestação. A ima-
gem da rede, nesse sentido, tampouco deveria ser compreendida em sua forma gráfica. A
rede é imagem porque ela não é um dado empírico imediato. Como ressalta Latour
(2005, p. 131): “[A] rede é um conceito, não algo no mundo. Ela é uma ferramenta para
descrever algo, não o que é descrito”76. Nesse sentido que afirmo, portanto, que a rede é
apenas concebível quando imaginada, ou projetada.
75 Para além desta inspiração, a conjunção vocabular hifenizada faz também ressoar outras elaborações canônicas
dos estudos da imagem. Provavelmente o primeiro a fazê-lo, Deleuze sugeriu que a passagem do cinema clássi-
co ao cinema moderno poderia ser compreendida pela passagem da imagem-movimento à imagem-tempo
(DELEUZE, 1985, 1990). A primeira noção advém, em particular, da leitura que ele faz de Henri Bergson, a partir
do qual concebe uma relação de identidade entre imagem e movimento. Como no caso do ator-rede, portanto,
também para a imagem-movimento o hífen poderia ser compreendido como sinal de igualdade, como Deleuze
efetivamente faz em uma passagem: “IMAGEM = MOVIMENTO” (DELEUZE, 1985, p. 78). Sugestivamente, o fi-
lósofo (DELEUZE, 1985, p. 81) também descreve uma analogia pela qual a identidade entre imagem e
movimento poderia ser compreendida como a identidade entre matéria e luz, logo antes de indicar algumas das
implicações da teoria da relatividade geral de Einstein para a filosofia de Bergson. Em uma coincidência que re-
força a topologia enredada da própria formulação da imagem-rede, esta é justamente a analogia mobilizada por
Latour em ao menos dois momentos (1999, p. 18–19, 2011, p. 800) ao discutir a proposição ator-rede: “Tentar
seguir um ator-rede é um pouco como definir uma onda-corpúsculo nos anos 1930: qualquer entidade pode ser
tomada ou como um ator (um corpúsculo) ou como uma rede (uma onda)” (LATOUR, 2011, p. 800). Temos em
ambos os casos, nesse sentido, proposições conceituais fundadas não na certeza, mas na oscilação.
76 No original: “Network is a concept, not a thing out there. It is a tool to help describe something, not what is being des -
cribed”. Tradução minha.
106
Efetivamente, bem antes da TAR, a rede é uma imagem filosófica recorrente, que nos
permite conceber relações e sistemas complexos. Como sugere o filósofo Pierre Musso
(2004, p. 17), a rede é antes de tudo um “receptor epistêmico”. Uma de suas primeiras
formulações, elabora Musso, seria, em uma aproximação da renda para compreensão do
corpo – para dizer da pele e, já mesmo em Descartes, para descrever a estrutura do cére-
bro. Do século XVIII ao XIX, segundo Musso (2004, p. 20), haveria uma passagem
fundamental, que chega ao nosso presente, em que a rede deixa de dizer de um elemento
interno ao corpo para se exteriorizar como forma construída – “como artefato técnico
sobre o território”. Porém, elabora: “Para sair de sua relação com o corpo físico, a rede
devia, primeiramente, ser pensada como conceito para se tornar operacional como arte-
fato” (MUSSO, 2004, p. 20). Enquanto conceito, falaríamos menos da rede como coisa,
mas como um “efeito de rede”, que emerge na interseção entre domínios díspares como
a medicina, a economia política da circulação e as engenharias. Segundo desdobra Mus-
so, haveria nesse processo uma dinâmica que vai da imaginação conceitual da rede ao
artefato-rede em um processo de contaminação mútua. Enquanto figuração imaginada,
a rede sugere utopias de associação universal, que projetos como a internet almejaram
em alguma medida concretizar. Enquanto formação técnica e tecnológica, contudo, te-
mos materializações singulares que não se igualam à proposição conceitual mas que
incorporam, imaginariamente, alguns de seus aspectos.
Em outra fase de sua obra, posterior a seu engajamento com a TAR, Bruno Latour (2013)
retoma a figura da rede sob outro registro que me parece interessante para adensar esta
consideração da relação entre imagem e rede. Latour identifica a rede, nesse contexto,
como o primeiro de quinze modos de existência que compõem seu ambicioso ensaio
acerca da antropologia dos modernos. Nesse trabalho, Latour propõe voltar-se ao que
denomina “erros de categoria” que teriam fundado a visão de mundo moderna. Sua
abordagem busca a multiplicidade dos modos de existência que compõem o mundo mo-
derno, ou seja, a diversidade de categorias de seres que o habitam – tais como seres de
religião [REL], lei [LAW], metamorfose [MET], tecnologia [TEC] e ficção [FIC]77. Nessa pro-
posição, os seres da rede [NET] compreendem um primeiro modo de existência, que
institui uma maneira para a pessoa investigadora percorrer os demais modos de exis-
tência em seus processos de translação. A rede seria pois, também nesse sentido, uma
ferramenta ou um ente operador da análise (LATOUR, 2013, p. 33). Escreve:
77 A fim de traçar uma distinção entre o uso comum das palavras e a denominação conceitual dos modos de exis -
tência, Latour vale-se destas abreviações de três letras entre colchetes.
107
A ESSÊNCIA de uma situação, por assim dizer, será, para um [NET], a lista de
outros seres pelos quais faz-se necessário passar para que tal situação possa
perdurar, ser prolongada, mantida, ou estendida. Traçar uma rede é, então,
sempre reconstituir por uma PROVAÇÃO (uma investigação é uma provação,
mas também o é uma inovação, como também uma crise) os antecedentes e
as consequências, os precursores e seus herdeiros, as entradas e as saídas,
por assim dizer, de um ser. Ou, para colocá-lo em termos mais filosóficos, os
outros pelos quais um ente deve passar de modo a tornar-se ou permanecer o
mesmo – o que pressupõe, como logo mais veremos, que ninguém pode sim-
plesmente “permanecer o mesmo”, por assim dizer, “sem fazer nada”. Para
permanecer, um ente deve passar – ou, em todos os casos, “passar por” –
algo que chamaremos TRANSLAÇÃO (LATOUR, 2013, p. 41, ênfases no origi-
nal)78.
Em um tom mais claramente filosófico, interessado na ontologia dos seres modernos,
Latour retoma noções centrais à TAR – além da rede, há as noções de translação e de pro-
vação79. Porém, indo além da rede como ferramenta conceitual para a descrição de um
arranjo atorial específico, a rede, na forma [NET], aponta também para um modo de exis-
tência que funda a possibilidade de uma identidade estável (metaestável, talvez) por
meio de um trabalho de constante translação. Isto é, sob a noção da [NET], o ser apenas
teria algo a que pudéssemos chamar de uma essência através de instâncias efetivamente
inessenciais, que o ultrapassam. Trata-se, me parece, de uma forma mais condensada e
articulada de conceber aquilo que indiquei, ao longo do capítulo, acerca das categorias da
mediação, inscrição e multiplicidade ontológica. O modo de existência [NET], ao perpassar
os demais, seria uma qualidade dos seres e não uma categoria analítica como sugere-se,
inicialmente, com a proposição ator-rede.
Conceber a imagem como [NET] ou como imagem-rede, portanto, implica compreender a
instabilidade constitutiva de sua ontologia, como um ente inessencial. Ou, de outro
modo, compreendendo sua essência a partir dos “outros seres pelos quais faz-se neces-
sário passar para que tal situação possa perdurar”. A imagem enquanto rede, nesse
sentido, poderia nos remeter à sua constituição como inscrição, como móvel imutável,
que ganha sentido e agência por dinâmicas de circulação e associação. Poderia, também,
assumir a figura do Pathosformel warburguiano, como “formação” – e não tanto como
“forma” – que emerge como efeito das relações e tensões estabelecidas nas pranchas do
78 No original: “The essence of a situation, as it were, will be, for a [NET], the list of the other beings through which it is
necessary to pass so that this situation can endure, can be prolonged, maintained, or extended. To trace a network is
thus always to reconstitute by a TRIAL (an investigation is a trial, but so is an innovation, and so is a crisis) the an-
tecedents and the consequences, the precursors and the heirs, the ins and outs, as it were, of a being. Or, to put it more
philosophically, the others through which one has to pass in order to become of remain the same – which presupposes,
as we shal see later on, that no one can simply ‘remain the same,’ as it were, ‘without doing anything.’ To remain, one
needs to pass – or at all events to ‘pass through’ – something we shall call a TRANSLATION”. Tradução minha.
79 Tiago Salgado (2019) localiza a noção de provação (no francês, épreuve) como um dos eixos pertinentes às socio-
logias pragmáticas francesas, ramo integrado pela TAR.
108
Atlas. Nesse sentido, a rede ativa um movimento centrífugo em relação às imagens. Mas
ela também incide sobre elas em sentido centrípeto, em um jogo de tensões que as ima-
gens internalizam em seu processo de formação. A rede enquanto imagem, por sua vez,
remete à sua condição de “receptor epistêmico”, nos termos de Musso (2004), organi-
zando uma percepção das relações entre elementos heterogêneos. A rede seria uma
instância imaginada, pela qual as relações entre os entes é traçada. Outra caraterística da
rede como imagem pode ser sugerida por uma consideração de Philippe-Alain Michaud
(2013, p. 240) acerca do Atlas:
Os painéis cobertos de tecido preto […] não eram feitos para ser expostos
como tais, e sim para serem fotografados, a fim de formarem uma nova enti-
dade complexa. Portanto, não devem ser apenas apreendidos em seu
conteúdo […]. Também é preciso vê-los em sua configuração material […].
Warburg constantemente alterava as pranchas, ao que autores como Michaud sugerem
se tratar de uma metamorfose constante do arquivo, mas que Heil e Ohrt (2016, p. 26)
contestam ao dizer que, embora o tenha deixado inacabado, Warburg buscava alcançar
em seu Atlas configurações precisas. Em todo caso, independente da pretensão ou não de
acabamento, as formações seriam decorrentes de processos transitórios. A rede como
imagem, nesse sentido, seria como a rede que é mediada por registros fotográficos to-
mados como estâncias transitórias de um devir, que não se encerra no momento da
observação.
Esta concepção implica, então, um enquadramento específico para o problema ontológi-
co que venho trazendo desde o início deste capítulo. Pela formulação imagem-rede,
busco abraçar a instabilidade que, em outra perspectiva, poderíamos ser levados a fixar.
Como argumentei ao início, esta compreensão não se volta apenas a um sentido feno-
menológico, semiótico ou psicanalítico da imagem, pois incide sobre sua própria
materialidade. Mesmo o ser da imagem enquanto coisa, portanto, não é facilmente re-
solvido. Dois aspectos fundamentais, a esse respeito, como vim desenvolvendo, são a sua
condição como inscrição sociotécnica, pela qual a imagem deve ser compreendida em ca-
deias de translação mais extensas; e a multiplicidade ontológica pela qual o ser da imagem
seria um efeito de suas múltiplas manifestações. A inflexão trazida a esta compreensão
pela perspectiva warburguiana, para além desta cadeia de dependências materiais, su-
gere uma complexidade temporal que, aparentemente, escapa à TAR. Segundo
desenvolve Agamben (2009b, p. 136), para Warburg a imagem seria como uma “herança
transmitida pela memória social”, na qualidade de uma carga energética cristalizada.
109
Pela mediação da imagem, portanto, talvez possamos compreender como as cadeias de
ação e translação podem se estender por temporalidades diversas que não se resumem
ao presente.
Uma consequência deste enquadramento à questão ontológica é que a indagação quanto
ao que são as imagens que vemos e que investigamos não pode ser respondida de forma
unitária e, nem mesmo, de forma definitiva. Parece-me sugestiva, nesse sentido, a pro-
posição feita por Gabriel Menotti (2019, p. 25), acerca do cinema, de compreender suas
imagens não como “formas que circulam, mas [como] formas que resultam da circula-
ção”80. Circulação esta, salienta, que não se resume aos espaços canônicos do dispositivo
cinematográfico, mas que inclui também seus “espaços negativos” – redes ilegais de
cópia e distribuição, mídias de armazenamento, instâncias logísticas da exibição em ci-
nemas e festivais. Ou seja, o ser da imagem não pode ser localizado. Ele precisa, de outro
modo, ser mapeado, performativamente, na análise. Menotti (2019, p. 28), a esse respei-
to, nomeia seu esforço metodológico de investigação como uma ontografia, concebendo
seu estudo do cinema como “uma entidade em contínua transformação”, em que a pró-
pria investigação encontra-se implicada. No seu estudo, as “ferramentas ontográficas”
que mobiliza são oriundas da prática curatorial, concebendo a exposição e a exibição ci-
nematográficas como laboratórios de investigação em que os objetos expostos
performam um vir-a-ser (MENOTTI, 2019, p. 100). Há, nesta operação, algo próximo
daquilo que descrevi em Warburg, em que a montagem produz efeitos de emergência dos
objetos visuais. Indo de um enquadramento ontológico a um enquadramento ontográfico,
a questão torna-se menos aquilo que a imagem é, portanto, do que aquilo que ela se tor-
na. A investigação se voltaria, desse modo, ao mapeamento situado destes processos de
translação, criando dispositivos capazes de ativá-los e registrá-los.
Michael Lynch (2013), no âmbito dos STS, sugere a ontografia como uma estratégia para
desinflar a questão ontológica. Sua proposição se situa em um momento em que a que a
ontologia se tornou um foco das atenções de estudiosos dos STS. Em síntese, Lynch
propõe o termo ontografia para nomear esforços de investigação que se voltam a práticas
pertinentes a uma compreensão ontológica do mundo – práticas de ‘produção do mun-
do’ (‘world-making’) e ‘sustentação do mundo’ (‘world-sustaining’) – que assumem
uma perspectiva simétrica, sem definir de antemão, o que contaria como identidade e
como diferença. Ele propõe, portanto, um outro sentido ao princípio da simetria, que in-
80 No original: “forms that circulate, but rather forms resulting from circulation”. Tradução minha.
110
diquei anteriormente. O que faz do ser igual a ele mesmo, desse modo, não poderia ser
definido de antemão e, sim, investigado em um esforço situado. Em linha com o trabalho
teórico de Mol (1999), Lynch sugere uma compreensão performativa da ontologia, que,
inclusive, torna difusas as fronteiras entre a questão epistemológica e a questão ontoló-
gica, pois, em última medida, o processo de produção do saber seria também um
processo de produção de seus objetos. A ontografia seria uma investigação que leva em
conta a proeminência da questão ontológica para determinado estudo de caso e busca
compreender as diferentes maneiras pelas quais a ciência e a tecnologia buscam estabi-
lizar esta questão.
Como buscarei explicitar nas páginas a seguir, um dos grandes desafios ao estudo das
imagens em plataformas online pode ser localizado justamente neste ponto: o que vale
como uma imagem em diferentes abordagens. Não é uma questão facilmente respondida
pois, mesmo em cada caso específico, a imagem, mesmo em seu nível material, declina-
se em múltiplas instâncias e demanda que articulemos várias entidades para que possa
ser recomposta. Em especial quando recorremos a técnicas computacionais para dar
conta de grandes corpora visuais, o estudo multiplica as formas de inscrição das ima-
gens, que não são as mesmas em cada etapa do processo. Esforços como os de Warburg,
no entorno de uma montagem sinóptica destas variações, são inspiradores, me parece,
da tarefa ontográfica demandada. O problema do método pode ser então caracterizado
como o de constituir “centros de cálculo” em que estas múltiplas inscrições podem ser
justapostas, comparadas e tensionadas a fim de compor imagens-redes, em suas múlti-
plas dependências e declinações.
3 Visualidades computacionais
No capítulo anterior, o argumento que persegui foi o de que não seria possível postular
uma ontologia estável para as imagens, especialmente com base em seus processos de
gênese. Trata-se de algo que tem particular pertinência para as imagens digitais, mas
que também se aplica para imagens anteriores a esse registro. Distanciando-me de um
olhar que visa a essência ou a unicidade das imagens, busquei, em uma aproximação a
aspectos da TAR e, em menor medida, do pensamento warburguiano sobre as imagens,
uma compreensão que as considere em sua multiplicidade. Isto é, como efeito de uma
rede de mediações técnicas e de diferentes formas de inscrição que operam em conjunto.
Nesse sentido, propus a noção de imagem-rede, que precisaria ser mapeada no exercício
situado de uma ontografia. Neste capítulo, avanço sobre aspectos teóricos e metodológi-
cos pertinentes às imagens digitais sob esta compreensão. Em particular, busco observar
as mediações computacionais que pelo menos desde a última década vêm sendo mobili-
zadas em esforços de pesquisa dedicados a estes objetos. Estas mediações também vêm
sendo implementadas em plataformas digitais como forma de integrar a dimensão visí-
vel das interações online aos processos de datificação e mediação algorítmica que lhe são
constitutivos.
Situo esta etapa da investigação no entorno da noção de visualidade. Indiquei, à Introdu-
ção, uma definição para este termo a partir de Hal Foster (1999), para quem se trata da
nomeação de uma diferença interna ao visual, que enfatizaria sua constituição social e
histórica, contra uma tendência de essencialização presumida pelo termo visão. Este su-
geriria uma ênfase mais física ou fisiológica que, por sua vez, tenderia a um ‘universal’.
A reivindicação de Foster pelo termo visualidade, portanto, é também a demarcação de
um programa de investigação que compreende modos de ver – talvez seja possível dizer,
também, visões de mundo – social e historicamente situados. A esse respeito, Foster su-
gere que a tarefa dos estudos da imagem e da arte é buscar, a todo tempo, desfazer essa
superposição que tenderia à naturalização dos processos históricos do campo visual. Es-
creve ele:
Com sua própria retórica e representações, cada regime escópico busca des-
fazer essas diferenças: fazer de suas muitas visualidades sociais uma visão
essencial, ou ordená-las numa hierarquia natural da visão. É importante, en-
111
112
tão, deslocar estas superposições para fora de foco, perturbar o arranjo dado
de fatos visuais (talvez seja, absolutamente, a única forma de vê-los)…81
(FOSTER, 1999, p. ix).
Nesse sentido, a dinâmica entre visão e visualidade não é bem uma de complementarie-
dade, como se uma visão ‘natural’ fosse em dado momento ‘socializada’. Em sentido
oposto, a visão seria decorrente de um movimento de cristalização e estabilização do
campo visual que subsumiria os atritos entre diferentes modos de ver, a cada momento.
O engajamento com as mediações técnicas que permitem a integração de imagens às
plataformas digitais seria, portanto, uma questão pertinente aos muitos modos de ver
dirigidos, hoje, às imagens. Ao sugerir a ideia de visualidades computacionais, quero ob-
servar a incidência de tecnologias computacionais de mediação do visível na constituição
do campo visual, tomando estas como elementos que seriam pertinentes a uma discus-
são sobre as imagens e as visualidades contemporâneas.
Em minha dissertação de mestrado (MINTZ, 2015) desenvolvi aspectos desta hipótese de
uma vinculação entre aparatos técnicos à constituição de visualidades. Voltei-me, em
especial, ao trabalho de Jonathan Crary (1992), em sua revisão histórica da figura do ob-
servador. Sua abordagem é informada pela compreensão foucaultiana da técnica como
instância de subjetivação. Por esse ponto de vista, Crary articula transformações teóricas
e práticas estéticas, que emergiram a partir da primeira metade do século XIX, em rela-
ção com alguns brinquedos ópticos que eram populares naquele período, como o
praxinoscópio, o zootrópio e o estereoscópio. Um aspecto característico destes objetos
era sua vinculação a processos subjetivos e fisiológicos de formação da imagem. O praxi-
noscópio e o zootrópio são pequenas máquinas que, por seu movimento, levam a que
percebamos curtas sequências de imagens estáticas como se estivessem se movendo. Seu
funcionamento depende, portanto, de um processo fisiológico e cognitivo de síntese do
movimento – o mesmo princípio em que se baseia o cinema. O estereoscópio, por sua
vez, apresenta uma cena por dois pontos de vista distintos, cada qual oferecido a um
olho do observador. Estas duas imagens, fundidas no ato da percepção, permitem a
apreensão de um espaço tridimensional – o mesmo princípio em que se baseia o cinema
3D. São casos, portanto, que põem em relevo aspectos subjetivos da visão, em que ela
não opera apenas como uma sensação de um mundo externo – objetivo – mas, sim,
produz, ela própria, informações sobre o mundo. Crary indica como foram desenvolvidas
81 No original: “With its own rhetoric and representations, each scopic regime seeks to close out these differences: to
make of its many social visualities one essential vision, or to order them in a natural hierarchy of sight. It is important,
then, to slip these superpositions out of focus, to disturb the given array of visual facts (it may be the only way to see
them at all)…”. Tradução minha.
113
no mesmo período, por Schopenhauer e Goethe, entre outros autores, elaborações acer-
ca da percepção visual que sublinhavam estes aspectos. Indica, também, como estas
qualidades da percepção seriam posteriormente elaboradas em práticas estéticas do im-
pressionismo e como, antes dele, já incidiam nas pinturas de William Turner.
Esta compreensão da visão fundada no corpo contrasta, portanto, com a ideia de objeti-
vidade do processo de formação da imagem que era sugerida pela câmara escura e nas
reflexões de Descartes sobre a visão (CRARY, 1992). A aposta metodológica de Crary é a
de que seria possível inferir a constituição de sujeitos observadores no cruzamento entre
estes elementos – técnicos, discursivos e estéticos – que constituiriam um campo de
possibilidades para o que significaria, àquele momento, ver. Em um trecho bastante ci-
tado, Crary (1992, p. 6) propõe aquilo que entende por observador da seguinte forma:
Embora obviamente alguém que vê, um observador é, de modo mais impor-
tante, alguém que vê em um arranjo prescrito de possibilidades, alguém que
está inserido em um sistema de convenções e limitações. E por ‘convenções’
eu quero sugerir bem mais do que práticas representacionais. Se pode ser dito
que há um observador específico para o século XIX, ou para qualquer período,
é apenas como um efeito de um sistema heterogêneo irredutível de relações
discursivas, sociais, tecnológicas e institucionais. Não há sujeito observador
anterior a este campo continuamente em transformação82.
Ou seja, a partir de Crary, a visualidade deve ser compreendida como uma instância his-
toricamente situada, na qual tomam parte elementos diversos como formações
discursivas, práticas de produção e fruição das imagens, e também técnicas de produção
e mediação do visível. Em certa medida – deve-se reconhecer – o percurso elaborado
por Crary se aproxima de aspectos daquilo que critiquei no capítulo anterior, de uma
tendência de essencialização da operação dos dispositivos, que o leva a traçar periodiza-
ções muito estritas e, de modo importante, distanciadas de descrições mais situadas de
práticas observacionais empiricamente manifestas. Efetivamente, algumas das críticas
dirigidas a ele ressaltam estes aspectos83. Contudo, acredito que as considerações ma-
cro-históricas que propõe oferecem intuições produtivas para pensar como estas
articulações podem operar em contextos específicos.
82 No original: “Though obviously one who sees, an observer is, more importantly, one who sees within a prescribed set
of possibilities, one who is embedded in a system of conventions and limitations. And by ‘conventions’ I mean to sug-
gest far more than representational practices. If it can be said there is a specific observer for the nineteenth century it is
only as an effect of an irreducibly heterogeneous system of discursive, social, technological and institutional relations.
There is no observing subject prior to this continually shifting field”. Tradução minha.
83 Cf. BATCHEN, 1993; HUHTAMO, 2013; MITCHELL, 1995.
114
Quando pensamos acerca das imagens digitais, é preciso levar em consideração como
esta rede de mediações encontra-se configurada em cada caso. Meu argumento, neste
capítulo, desdobra-se a partir da observação dos diferentes modos de inscrição da ima-
gem em sistemas computacionais contemporâneos, em uma consideração acerca de
como estas inscrições modulam os modos de ver encampados por tais sistemas. Isto tem
relevância não apenas para compreender a constituição das visualidades no modo de sua
expressão no mundo mas, também, para compreender os modos de ver adotados –
conscientemente ou não – pelas investigações que mobilizam sistemas similares. Desse
modo, a questão que lanço aqui vincula-se aos processos de translação a que as imagens
são submetidas nesses contextos. Embora seja tentador sugerir que, em alguma medida,
o modo de constituição das inscrições seria definidor de uma visão ‘essencial’ relaciona-
da a tais sistemas, argumento, na sequência do que discuti no capítulo anterior, que
devemos compreender tais inscrições no sentido de uma multiplicidade ontológica das
imagens. Ou seja, que o objeto da investigação deve incluir, reflexivamente, as diferentes
formas de ver mobilizadas em cada prática observacional, em sua multiplicidade irredu-
tível.
O foco principal de minha abordagem (veja 3.2 Aprendizado de máquina ) serão os pro-
gramas de Visão Computacional desenvolvidos a partir de técnicas de aprendizado de
máquina por redes neurais artificiais. Geralmente definido como um subdomínio ou
como um domínio relacionado à inteligência artificial (IA), uma acepção corrente destes
sistemas – que eu mesmo cheguei a sugerir em outros trabalhos – é de serem um domí-
nio não-humano da visão, assumindo uma contraposição entre máquinas e humanos
como esferas ontologicamente distintas. Contudo, também na minha dissertação de
mestrado (MINTZ, 2015), discuti a partir de autoras como Lucy Suchman (2007) e Donna
Haraway (2013) como esta oposição seria uma forma de essencializar os termos que, de
outro modo, podem ser compreendidos como mutuamente constituídos. Na perspectiva
de Suchman (2007), as definições de humano e máquina são tomadas como efeitos per-
formativos instáveis e que são reiterados frequentemente – em particular, nos casos de
interação humano-máquina. As visualidades computacionais, nesse sentido, não seriam
pertinentes a um domínio exclusivo da máquina mas, sim, a modos de ver situados no
entorno das máquinas computacionais mas que são afetados pelo olhar humano. Este
também, por sua vez, seria afetado pelo modo de ver da máquina, em processos nos
quais o que pertence a cada uma dessas categorias é constantemente reconfigurado.
115
Esta proposição contrasta, em alguma medida, com asserções elaboradas pelo artista
estadunidense Trevor Paglen (2016). Em um texto dedicado ao que chamou de “imagens
invisíveis”, Paglen articula ideias que perpassam alguns de seus trabalhos recentes, nos
quais propõe um engajamento com tecnologias de visão computacional. Seu interesse
recai, segundo elabora, sobre um domínio da cultura visual que teria se constituído à
parte de um circuito humano-humano de produção e apreensão do visível. Ele sugere,
neste sentido, que com a ação de máquinas capazes de ver e com a produção de imagens
voltadas especificamente a seu ‘olhar’, hoje se constituiria uma visualidade cindida em
duas. Efetivamente, muitos de seus trabalhos, inclusive o mais recente, realizado em
parceria com Kate Crawford (CRAWFORD; PAGLEN, 2019), volta-se a imagens situadas
fora de um circuito comum de apreensão do visível. No projeto recente, Paglen e Craw-
ford voltam-se às bases de treinamento que são usadas para gerar os algoritmos de
classificação de imagens. Uma massa visual que não encontra, nessa forma, o olhar hu-
mano. Em projeto anterior, Paglen (2016) volta-se às representações internas que estes
programas constituem a partir do treinamento. O gesto de expor estas imagens como
parte de projetos artísticos tem, para Paglen (2014), um sentido similar à operação reali-
zada pelo cineasta alemão Harun Farocki, de trazer à luz imagens que integram aparatos
de vigilância e operações securitárias. Nesse sentido, a ideia de uma cisão entre campos
visuais distintos talvez se sustente, em alguma medida.
Porém, meu argumento será de que mesmo estes sistemas supostamente fechados, ao
agirem sobre o mundo, não podem ser isolados de dinâmicas que lhes seriam “exter-
nas”. O ponto de vista do vigilante do panóptico de Bentham, analisado por Foucault
(1997), encontra-se, evidentemente, inacessível para o prisioneiro. No entanto, esse
olhar ainda assim é internalizado na subjetivação desse prisioneiro, que passa a agir sob
a presunção desse olhar externo. De forma similar, quero argumentar que visualidades
computacionais não têm relevância apenas a um domínio supostamente alheio ao olhar
humano. Na medida em que os modos de ver, que abordo aqui, mediam aquilo que ve-
mos, seja como usuários de plataformas online, seja como pesquisadores destas mesmas
plataformas e suas imagens, a visualidade que eles elaboram é compartilhada conosco.
O presente capítulo desdobra-se, portanto, em três seções. Primeiro, volto-me às fric-
ções entre as categorias do visual e do computacional. O eixo central da discussão será
uma consideração crítica da Analítica Cultural e sua compreensão da imagem como dado
cultural em uma abordagem marcadamente quantitativa. Na segunda seção, abordo as-
116
pectos do aprendizado de máquina por redes neurais, em especial em suas aplicações
para as imagens. A seu respeito, indico como operam por múltiplos processos de trans-
lação das imagens, que tendem à condensação de visualidades difusas em imagens
singulares. O problema da computacionalidade das imagens assume, então, a forma do
padrão. Por fim, remeto a um processo contemporâneo de infraestruturalização dos siste-
mas de aprendizado de máquina, que tende a consolidar percursos relativamente
estáveis de aplicação destas técnicas, formando espécies de “pontos de passagem obri-
gatórios” (CALLON; LAW; RIP, 1986a) para o processamento computacional das
imagens em larga escala.
3.1 O visual e o computacional
Como indiquei à introdução, o tratamento computacional do visível enfrenta como desa-
fio aquilo que Golan Levin (2006) descreveu, em dado momento, como a opacidade
computacional da imagem. Este problema, que se manifesta de modo característico nas
Ciências da Computação, voltadas aos computadores modernos, se aplica, também, em
um sentido mais amplo, às resistências da imagem ao cálculo ou ao pensamento lógico-
matemático. Isto porque as imagens são, mesmo antes do digital, tomadas por uma in-
certeza epistemológica. Afirmar, com precisão, o que uma imagem nos dá a conhecer,
sob a demanda de um sistema de tomada de decisões, ou de cálculo, não é uma tarefa
trivial. No capítulo anterior, a partir de Sekula (1986), discuti como, na criminalística, a
integração da fotografia à tarefa de reconhecimento de pessoas demandou que o dispo-
sitivo fotográfico fosse suplementado, a fim de padronizar a tomada da imagem e,
também, de permitir sua recuperação posterior. Estas são medidas que visam reduzir a
margem de incerteza, mas que não são totalmente confiáveis – algo que se torna mais
grave e urgente, como discutirei adiante (veja 3.3 Visualidade e infraestrutura ), no con-
texto do reconhecimento de rostos computacional.
A fotografia, embora automatize, em um processo relativamente padronizado, um modo
de registro de imagens do mundo, não é uma máquina de certezas. Um primeiro desafio
é, a partir da imagem, inferir características do espaço representado, reconstituir sua
tridimensionalidade a partir da representação plana. Outro desafio diz respeito à inter-
pretação, propriamente, da situação retratada – considerando, inclusive, as escolhas
feitas no âmbito de seu registro. Técnicas de fotogrametria e de análise da representação
117
em perspectiva podem auxiliar no enfrentamento do primeiro desafio, embora não o re-
solvam, mas dificilmente conseguem ir muito longe no enfrentamento do segundo. Pois
este demanda um esforço interpretativo que não se resume a manipulação de registros
simbólicos, como a que realiza a computação. A interpretação será, afinal, sempre situa-
da, em corpos e olhares específicos.
Evidentemente, muitas destas características não são exclusivas às imagens e também
seriam extensíveis, por exemplo, aos sons ou à escrita. No entanto, comparada a estes
(especialmente à escrita), a imagem pareceria ser muito mais resistente a esforços de
estruturação e padronização. Ela frequentemente escapa a esquemas formais muito rígi-
dos, apesar de muitas iniciativas que tentaram encontrar algo como uma “linguagem
visual” em sentido estrito. No entanto, qualquer tentativa de integração da imagem a
um processo computacional demandará enquadrar o visível em algum esquema, do qual
a imagem tenderá a sempre escapar. No caso específico da computação moderna, o texto
verbal é mais passível de tratamento computacional porque ele é formado por cadeias de
caracteres permutáveis, organizados em unidades semânticas discretas e em uma estru-
tura sintática minimamente regular. Isto facilita que ele seja traduzido à linguagem
estruturada da máquina e que sua estrutura seja analisada computacionalmente. Uma
imagem, de outro modo, apresenta-se, em nível informacional, como um conjunto de
dados de cor. O desafio de tratar esses dados, somado à dificuldade que descrevi acima –
estendida às imagens não digitais e a um sentido ampliado de computacionalidade –
descreve o tamanho do problema.
Esta incerteza como aspecto definidor das imagens seria o que, nas Ciências da Compu-
tação, qualifica a visão computacional como um “problema malposto”. Tratando de um
subdomínio específico, da Recuperação de Imagens Baseada em Conteúdo (CBIR, na si-
gla em inglês), Smeulders et al. (2000) tratam a questão por um conjunto de “hiatos”
(gaps), que separam a eficiência real e possível dos algoritmos de sua eficiência desejável
ou ideal. Eles indicam, por exemplo, um “hiato sensorial” (sensory gap) que se refere à
capacidade apenas parcial de reconstrução computacional do objeto e do espaço que a
imagem representa. Um dos fatores que constituem esse hiato se relaciona à insuficiên-
cia de um ponto de vista único sobre o espaço para reconstruir o ambiente retratado. A
perspectiva, como conhecidamente demonstram as gravuras de M. C. Escher, permite
realizar truques: projetar espaços em si mesmos incoerentes, ou enganar nosso olhar
quanto à sua disposição. A correspondência entre o espaço que é o referente da imagem e
118
aquele que pensamos apreender a partir delas não é garantida. Também, um objeto pode
esconder-se atrás de outro e um único ponto de vista não teria como incluí-lo nas repre-
sentações. Outro problema seria o “hiato semântico” (semantic gap), que se refere a um
desacordo entre a interpretação algoritmicamente produzida, que tenderá a uma inter-
pretação universalizante ou, em algum nível, genérica; e a interpretação elaborada por
um sujeito particular. Este hiato, em especial, seria ainda mais profundo pois simples-
mente não há como estabelecer um significado geral para qualquer imagem que seja.
Embora seja em alguma medida possível indicar aspectos denotativos, como categorias
dos objetos representados, como discutirei adiante (veja 3.3 Visualidade e infraestrutu -
ra), tampouco se trata de algo trivial ou imune aos riscos de uma ambição
universalizante.
Com esta breve revisão, busco situar melhor os desafios colocados ao tratamento com-
putacional das imagens. Compreendo ser este um primeiro aspecto a introduzir nesta
seção pois ele permite compreender as diferentes camadas implicadas quando digo da
possibilidade de tratar a imagem como dado. Um enquadramento didático desta questão
é a noção de níveis de abstração que é comumente mobilizada no âmbito da computação.
Uma representação de baixo nível seria, nesse sentido, aquela que mais se aproxima da
linguagem da máquina – estejamos falando de comandos ao processador ou da estrutura
de armazenamento de dados na memória. Uma representação de alto nível, de outro
modo, seria uma representação mais abstrata, decorrente do processamento ou trata-
mento das representações de baixo nível. Entre estes níveis, temos sempre camadas em
que interpretadores computacionais traduzem as informações de um nível a outro.
Quando dizemos da “opacidade computacional” das imagens, portanto, estamos tratan-
do da dificuldade de se traduzir as representações de baixo nível das imagens digitais a
outras representações de alto nível. Asserções semânticas sobre as imagens ou a recons-
tituição dos espaços retratados, embora façam parte do modo como nós tipicamente
olhamos uma fotografia, por exemplo, estão muito distantes da representação de baixo
nível desta mesma fotografia, em um computador. Esta distância, atravessada pelos hia-
tos sensorial e semântico, é o que torna a imagem, nesse sentido, opaca.
Um desafio suplementar a estes envolve o relativo alto custo computacional de algumas
das técnicas que visam uma superação parcial desta distância. Como discutirei nas se-
ções seguintes, foram desenvolvidas algumas alternativas, nos últimos anos – seja na
forma de ferramentas comerciais, seja na forma de recursos de programação em código
119
aberto – que facilitam a aplicação destas técnicas. Importante dizer, contudo, que esta
facilitação não vem sem custos e voltarei a alguns dos revezes desse processo adiante. De
todo modo, falo aqui de desenvolvimentos bastante recentes, de três ou quatro anos
atrás, cuja incidência nas pesquisas apenas agora começa a aparecer. Antes deles, pesso-
as interessadas em aplicar sistemas de análise de grandes quantidades de imagens
precisariam ou desenvolver seus próprios sistemas de visão computacional, ou recorrer
a abordagens mais diretamente acessíveis ao tratamento das imagens.
Os formatos de imagem tipicamente dividem-se em dois: imagens de tipo vetor e ima-
gens de tipo bitmap. As primeiras são geralmente utilizadas para formas gráficas. As
segundas são as mais comuns para fotografias e relacionam-se ao que quero me referir.
Como o nome sugere, bitmaps funcionam como mapas de bits, ou mapas de informação
digital. Para cada pixel, que seria o menor componente desta imagem, é atribuído um va-
lor de cor. A variabilidade permitida aos valores de cor em um formato de imagem
incidirá diretamente sobre a quantidade de informação necessária para representar
aquela imagem. A isto se chama profundidade de cor. Uma profundidade de 24 bits, por
exemplo, indica a quantidade de informação que será utilizada para cada pixel. Para
compreendermos quantas cores são possíveis, basta pensar de forma combinatória.
Considerando que cada bit permite duas possibilidades (desligado ou ligado, 0 ou 1). 24
bits permitem, portanto, 2^24 possibilidades, o que significa que em uma imagem com
esta profundidade de cor, a cada pixel pode-se atribuir um valor dentre 16,7 milhões de
cores possíveis. Esse valor assume uma forma numérica, geralmente segmentado em
canais de cores primárias, embora outras decomposições sejam possíveis. O ponto im-
portante é que, para cada pixel temos um valor numérico que pode ser utilizado em
cálculos aritméticos e, portanto, em medidas estatísticas e outros processos lógico-
computacionais. Esta seria, grosso modo, a forma mais simples de tratamento computa-
cional das imagens.
Um dos primeiros e mais conhecidos esforços de aplicação de métodos computacionais
para o estudo de imagens no contexto das humanidades volta-se justamente a esta es-
tratégia. A chamada Analítica Cultural (Cutural Analytics) baseia-se na disponibilidade
destes valores na inscrição das imagens como bitmaps. Deve-se reconhecer que, em
perspectiva ampliada, a Analítica Cultural não se limita ao baixo nível das representa-
ções das imagens. Algumas das pesquisas vinculadas a esta perspectiva mobilizam
processos mistos que incluem categorias extraídas por programas de aprendizado de
120
máquina e, também, codificação manual das imagens por meio de serviços como o Me-
chanical Turk84 (TIFENTALE; MANOVICH, 2015). Contudo, sua vertente de trabalho mais
consolidada se fundamenta nos dados de baixo nível, que inclusive é o foco dos software
de análise desenvolvidos pelo grupo, como o ImagePlot (MANOVICH et al., 2014). Em
todo caso, tipicamente, a proposição da Analítica Cultural articula análises computacio-
nais de larga escala com uma ênfase marcadamente quantitativa – mesmo quando
mobilizam representações de nível mais alto. Em diversas ocasiões, Manovich sugere se
tratar de uma “análise quantitativa de dados culturais” (MANOVICH, 2009, 2016). Com
efeito, os esforços parecem se voltar sempre a quantidades expressivas de conteúdos e,
principalmente, a uma análise enfocada em métricas extraídas dos atributos visuais
destes conjuntos.
O método característico consiste em processar conjuntos de imagens com técnicas de
estatística descritiva, por meio das quais definem-se parâmetros como cor dominante,
variância cromática, saturação média e entropia. Estes valores são então utilizados para
dispor as imagens que compõem o corpus analisado em um gráfico de dispersão. Neste
tipo de visualização, cada item dos dados é representado por um ponto disposto em um
plano cartesiano, com as coordenadas X e Y definidas segundo os valores de duas variá-
veis consideradas para a análise. Nas visualizações da Analítica Cultural, em
procedimento proporcionado pelo software ImagePlot, (MANOVICH et al., 2014), os pon-
tos são substituídos pelas próprias imagens, que são posicionadas segundo estas
coordenadas.
Em um esforço despudoradamente ambicioso, Manovich (2012) sugere, em um estudo,
que esse protocolo de pesquisa seria uma resposta à sua pergunta sobre “como comparar
um milhão de imagens”. No caso, a análise volta-se a páginas de mangá, que são anali -
sadas segundo duas variáveis: desvio padrão e entropia dos valores de brilho. Embora
trate-se de um esforço valioso em seu potencial inovador, parece-me discutível em que
medida sua abordagem alcançou um estágio verdadeiramente produtivo na investigação
sobre o objeto abordado. Parece-me bastante problemático, em especial, a proposição
feita por Manovich, nesse estudo, de definir uma categoria de estilo a partir da combina-
ção destas variáveis. Trata-se, acredito, de manifestação sintomática de um dos
84 O Mechanical Turk é uma plataforma da empresa de tecnologia Amazon, por meio da qual pode-se terceirizar a
realização de pequenas tarefas de forma difusa, por muitos trabalhadores que recebem uma pequena quantia
por tarefa realizada. Trata-se de plataforma bastante utilizada para fins de codificação de bases de treinamento
de sistemas de aprendizado de máquina – como discutirei adiante.
121
problemas que esta pesquisa visa enfrentar. Pois ao passar diretamente destas variáveis
de baixo nível a uma categoria de alto nível, sem atentar-se às translações necessárias
entre dois enquadramentos bastante distintos, Manovich realiza um salto mais amplo do
que lhe permite seu referencial teórico. Seria como se os atributos analisados fossem
forçados a se enquadrar em uma categoria culturalmente pertinente levando, desse
modo, a uma redução, com perdas significativas, de um conceito complexo como estilo.
Em volume panorâmico dedicado a metodologias de pesquisa com materiais visuais,
Gillian Rose (2016) situa a Analítica Cultural como uma vertente derivada de métodos de
Análise de Conteúdo, cuja abordagem se caracteriza pela quantificação da ocorrência de
determinadas categorias em meio ao corpus analisado. Para o caso da Analítica Cultural,
esta análise geralmente é realizada de forma multivariada, considerando diversas
métricas como características descritivas das imagens. Por exemplo, para o estudo Selfi-
ecity (TIFENTALE; MANOVICH, 2015), que buscou analisar os selfies postados no
Instagram por usuários de diferentes metrópoles globais, as métricas consideradas in-
cluíam: idade presumida, gênero, inclinação lateral da cabeça, inclinação da câmera em
relação ao rosto e expressão facial. Como na Análise de Conteúdo, efetivamente, estas
métricas são abordadas de forma quantitativa, buscando interpretar as imagens – e, es-
pecialmente, seu contexto cultural – segundo medidas de estatística descritiva que
foram calculadas a partir das métricas. De modo distinto da Análise de Conteúdo, contu-
do, Rose indica as visualizações produzidas pela análise. Estas se apresentam na forma
de uma colagem das imagens em grade ou por meio de gráficos de dispersão nos quais as
próprias imagens servem como marcadores dos dados – como indiquei, acima, sobre o
software ImagePlot. Estas visualizações teriam a vantagem, sugere a autora (ROSE, 2016,
p. 103), de evitar a “fragmentação” das imagens após sua análise por procedimentos
típicos da Análise de Conteúdo, em que as imagens uma vez codificadas, seriam total-
mente abandonadas, voltando-se apenas às métricas derivadas. As visualizações da
Analítica Cultural, de modo distinto, retêm a imagem original que seguiria, portanto,
disponível ao olhar do analista, para outros tipos de observações, sem se dispersar com-
pletamente em dados quantificáveis. Trata-se de um esforço na elaboração dos produtos
da pesquisa que seria coerente com um aspecto rotineiramente salientado por Manovich
e seu grupo como um dos aspectos distintos da Analítica Cultural: o centramento da
análise em aspectos visuais, em oposição ao privilégio de aspectos verbais que seria típi-
co nas humanidades digitais.
122
Entretanto, embora também considere acertada a manutenção da imagem como ele-
mento observável nestas visualizações, eu diria que esta disponibilidade das imagens
individuais não rende, nas análises realizadas, um olhar específico a elas, após a visada
de conjunto. Ainda que sobrevivam às análises e à visualização quantitativa, o olhar de-
dicado às imagens não parece alternar, efetivamente, entre os diferentes registros
incrustados nas visualizações – isto é, entre a estatística descritiva geral e as imagens
individuais. Tipicamente, as conclusões das análises enfocam tendências gerais e se fur-
tam a considerar aspectos da constituição das imagens que não são compreendidos por
tais métricas. Nos termos do que venho discutindo até agora, na tese, trata-se de um
gesto que parece buscar uma nova essencialização ao dar prioridade a uma manifestação
específica da multiplicidade ontológica das imagens, em detrimento de outras. A inscri-
ção digital das imagens enquanto valores de cor, ou a quantificação de atributos de
maior nível de abstração, são compreendidos, desse modo, como os próprios objetos sob
análise e não como apenas uma de suas manifestações.
Sean Cubitt (2013), embora não cite nominalmente Manovich ou a Analítica Cultural,
parece endereçar a ele algumas de suas críticas a uma ênfase quantitativa e estatística
nas humanidades digitais. Como contraponto a estas abordagens, Cubitt elabora o elogio
a uma metodologia anedotal. Embora o uso de anedotas sejam objeto de forte crítica me-
todológica dada a possibilidade de que venha a distorcer possíveis conclusões por meio
de escolhas localizadas de objetos que favoreçam determinada preconcepção, Cubitt re-
toma, em outro enquadramento, a importância da consideração crítica de objetos
específicos nos estudos em artes e humanidades. A força da anedota, elabora o autor, re-
side no “princípio de que a instância única [unique] pode ensinar pesquisadores tanto
quanto amostragens estatísticas ou aquelas abstrações que nos chegam seja como axio-
mas […] seja como hipóteses, mapas e diagramas” (CUBITT, 2013, p. 5). Ele continua: “o
núcleo da anedota não é sua tipicidade, mas sua especificidade”85 (2013, p. 5). Trata-se
de uma defesa que tem especial pertinência para o estudo da arte, que é um dos focos da
argumentação do autor. Com frequência, nesse domínio, um objeto tem relevância não
por ser típico, igual aos demais, mas por ser específico, único, “fora da curva”. Esta dis-
85 No original: “… principle is that the unique instance can teach researcher as much as statistical samples or those ab-
stractions that arrive either as axioms […] or hypotheses, maps or diagrams. […] The core of the anecdote is not its
typicality but its specificity”. Tradução minha.
123
tinção teria, por exemplo, um potencial de não apenas de expressar qualidades inexis-
tentes no conjunto mas, também, de permitir, em negativo, compreender melhor os
aspectos dos outros objetos, dos quais se distingue.
De modo ainda mais importante, a anedota, para Cubitt, não significa o abandono de ou-
tros métodos ou mesmo dos esforços de elaborar asserções gerais. Ela seria uma
abordagem complementar por meio dos quais testar, no caso individual, hipóteses pro-
jetadas sobre ele por um olhar generalista. Escreve: “A altíssima resolução do método
anedotal provê de profundidade e cor as descobertas generalistas de métodos que lidam
com múltiplas instâncias e tendências de larga escala”86 (CUBITT, 2013, p. 6). Seria, nes-
se sentido, um apelo para recuperar olhares mais detidos e próximos aos objetos como
parte das análises, compreendendo a experiência como uma instância tão pertinente
quanto as visadas generalistas oferecidas pela estatística descritiva e outras técnicas re-
lacionadas. No encaminhamento de seu argumento, Cubitt retoma o problema da
imagem como um caso central a esta discussão, em particular indicando como no livro A
câmara clara, de Roland Barthes (1984), parte substancial do argumento sustenta-se em
uma única foto e na relação afetiva que a ele lhe dedica o autor.
O percurso argumentativo de Cubitt vai mais longe, mas podemos nos bastar com isto:
reconhecer o valor da anedota não equivale a desacreditar asserções gerais, mas, sim, a
reconhecer a existência de singularidades que resistem a tais abstrações. O risco da evi-
dência anedotal, em um plano metodológico estrito, remete a práticas de “cherry
picking” – isto é, de seleção interessada dos dados para sustentar uma visão falaciosa da
realidade. Não é, evidentemente, a estas práticas que se alude aqui. De outro modo, Cu-
bitt (2013, p. 8) argumenta que o valor de uma anedota, para uma investigação, deve ser
avaliado a partir de dois fatores principais: a profundidade daquilo que consegue revelar
e a amplitude das ‘causas’ – Cubitt (2013, p. 8) diz de “Goods”, isto é, das causas moral-
mente boas – que ela coloca em jogo. “Furar as estatísticas” seria, em um sentido
comum, uma das potências das anedotas. Um movimento que, evidentemente, não con-
seguiria reverter situações dadas mas que permitiria vislumbrar matizes em meio às
certezas e horizontes de uma transformação possível.
Que a imagem surja como um caso privilegiado para a consideração das anedotas por
Cubitt não é uma discussão inaudita. Historiadores da ciência como Peter Galison e Lor-
86 No original: “The extremely high resolution of the anecdotal method provides depth and colour to the generalist find-
ings of methods that deal with multiple instances and large-scale tendencies”. Tradução minha.
124
raine Daston notoriamente enveredaram-se pela relação fricativa desenvolvida, ao lon-
go dos anos, entre as imagens e as práticas científicas. Em obra conjunta (DASTON;
GALISON, 2010), os autores percorrem atlas científicos buscando compreender como as
imagens da ciência, em particular com o advento da fotografia e, depois, de visualiza-
ções computacionais, foram articuladas com a noção de objetividade. Galison voltou-se
a, também, considerações sobre os atritos entre imagem e lógica no âmbito dos estudos
da física. Em texto incluído no catálogo de exposição centrada sobre a noção de icono-
clash, proposta por Latour, Galison (2002) sugere, na esteira da linha curatorial da
exposição, que a relação das ciências com as imagens teria uma configuração similar. A
noção de iconoclash é sugerida por Latour (2008; 2002) para lidar com conflitos centra-
dos nas imagens e geralmente abordados de forma dicotômica, como entre uma
iconofilia e uma iconoclastia. Um iconoclash, de outro modo, salientaria que mesmo o ges-
to iconoclasta pode ser um modo de produzir uma outra imagem ou que, tipicamente,
seria sucedido pela geração de outros ícones em substituição aos destruídos. Nesta linha,
Galison sugere uma relação similar, nas ciências, acerca do conflito entre dados e ima-
gens.
Galison (2002) recupera desenvolvimentos em diferentes campos científicos – mate-
mática, física, medicina, geologia – indicando como em cada um destes, o valor
epistemológico da imagem é constantemente recolocado em debate. Por um lado, as
imagens são vistas positivamente por seu potencial didático e intuitivo, oferecendo uma
especificidade e uma materialidade sobre a qual repousar o pensamento. Por outro, as
imagens são limitadas justamente por sua materialidade e especificidade, que impedem
a abstração que, em certa acepção da ciência, configuraria a única “estrada nobre para o
conhecimento”, pavimentada pela razão ‘pura’, lógica e não-intuitiva (GALISON, 2002,
p. 300). No entanto, o autor aponta como, em diversos momentos, a prática científica
vê-se às voltas com as imagens, seja como parte de um instrumento de medição e inves-
tigação dos fenômenos, seja como representação das conclusões elaboradas a partir da
análise. Hoje, com a já bastante consolidada digitalização das práticas de análise compu-
tacional de dados, este debate pareceria ter, em princípio, esfriado. Por meio de técnicas
de visualização, temos, afinal, representações visuais derivadas dos dados por processos
lógicos definidos, de modo que podemos ter dados, lógica e, também, imagens em um
125
mesmo esforço investigativo e de modo, aparentemente, não contraditório. Galison
(2002) sugere, neste sentido, um movimento pendular: “imagens dispersam-se em da-
dos; dados agregam-se em imagens”.
O autor sugere, em conclusão, que o ponto principal para se aprender destes debates tal-
vez seja questionar justamente a purificação destes dois domínios – da imagem, de um
lado, dos dados e da lógica, de outro – como profundamente cindidos. Escreve:
Nós nunca podemos falar (ou pintar ou calcular) sem abstração metafórica.
Ao mesmo tempo, o abstrato nunca o é, completamente; mesmo nos confins
mais frios da física matemática sempre (tomando de Lutero) encontraremos
a imagem de nosso rosto em águas calmas. Em vez de abstrato contra o con-
creto, realizações históricas mutáveis da abstração-concreta e concretude-
abstrata87 (GALISON, 2002, p. 323).
Este, me parece, é o cerne da questão. Não se trata de escolher, necessariamente, uma
posição em meio a este debate, mas de questionar, justamente, a oposição. Ao menos,
diria, de um ponto de vista epistemológico ou ontológico. Quero dizer que, na linha de
Galison, seria fútil debatermo-nos se a realidade é melhor expressa em imagens (con-
cretude) ou dados (abstração). A realidade conjuga ambos. Podemos, claro, discutir em
casos específicos a adequação, ou não, de tender a um lado ou outro desse espectro, mas
devemos sempre compreender que se trata de um espectro e que os termos não são, em
si, contraditórios ou oponentes; eles podem ser conciliados. Nesse sentido, o problema
do tratamento da imagem como dado, em particular pela Analítica Cultural, seria perder
de vista a concretude da imagem e de sua experiência como um dos elementos pertinen-
tes à análise. A ênfase em uma “análise quantitativa de dados culturais” postularia, a seu
modo, uma proeminência da abstração dos dados em detrimento da concretude da expe-
riência das imagens.
A promessa de conciliação entre visadas quantitativas e qualitativas, embora constitua
parte do discurso de Manovich, parece obstruída por um deslumbramento com o big data
que chega a parecer merecedor da denominação crítica do “dataísmo” proposta pela
pesquisadora José Van Dijck (2014). A autora se vale desta denominação para o que iden-
tifica como uma “ideologia” que marca premissas ontológicas e epistemológicas
problemáticas das aplicações contemporâneas do big data:
87 No original: “We cannot ever speak (or paint or calculate) without metaphoric abstraction. At the same time the ab-
stract is never completely so; even in the coldest reaches of mathematical physics we will always (borrowing from
Luther), find the image of our face in still water. Not abstract against the concrete, but rather shifting historical real -
izations of concrete-abstraction or abstract-concreteness”. Tradução minha.
126
a ideologia do dataísmo mostra características de uma crença amplamente di-
fundida na quantificação objetiva e no potencial rastreamento de toda forma
de comportamento humano e sociabilidade através de tecnologias midiáticas
online. Além disso, o dataísmo implica confiança nos agentes (institucionais)
que coletam, interpretam e compartilham (meta)dados colhidos das mídias
sociais, plataformas de internet e outras tecnologias de comunicação88 (VAN
DIJCK, 2014, p. 198).
O discurso que acompanha as inovações técnicas e metodológicas propostas por Mano-
vich se aproximam muito do alvo das críticas de Van Dijck uma vez que suas análises
raramente vêm acompanhadas de um esforço reflexivo acerca dos vieses epistemológi-
cos introduzidos pelas técnicas analíticas empregadas. Além disso, suas análises tendem
a propor saltos demasiadamente largos entre os “dados culturais” e suas consequências
teórico-conceituais.
Gillian Rose (2016, p. 104) critica a pretensão de objetividade presente na proposição da
Analítica Cultural que, segundo a autora: “remove toda necessidade de uma postura re-
flexiva por parte dos pesquisadores, para além de reportar seu método em detalhe;
qualquer outra forma de reflexividade não é parte destes métodos porque eles se supõem
objetivos”89. Outras críticas feitas por Rose direcionam-se: a seu marcado positivismo,
dada sua insensibilidade ao que está ausente da imagem e às diferentes qualidades que
podem compor uma ocorrência quantificável; e, também, à insensibilidade do método ao
contexto e a outros fatores externos à superfície visível das imagens.
Podemos aproximar aspectos da crítica de Rose à ácida crítica elaborada por Alexander
Galloway (2014) acerca do crescente uso de métodos quantitativos nas humanidades, o
qual atribui ao que chama de um “ecumenismo metodológico” (GALLOWAY, 2014, p.
108) de cunho liberal, segundo o qual a escolha do método aplicado seria apenas uma
questão de preferência do pesquisador, definida por um senso do que é ou não apropria-
do, apenas. Isto é, sem uma consideração reflexiva sobre a historicidade dos métodos
empregados ou a que finalidades cumprem, agindo apenas segundo aquilo que parece
funcionar para o propósito pretendido. De modo frequente, sugere, estes estudos reali-
zam apenas uma reprodução daquilo que fazem, hoje, grandes corporações empresariais
– “os titãs corporativos de hoje consistem pouco mais do que modos altamente desen-
88 No original: “the ideology of dataism shows characteristics of a widespread belief in the objective quantification and
potential tracking of all kinds of human behavior and sociality through online media technologies. Besides, dataism
also involves trust in the (institutional) agents that collect, interpret, and share (meta)data culled from social media,
internet platforms, and other communication technologies”. Tradução minha.
89 No original: “…removes any need on the part of the researchers to be reflexive in any way other than by reporting
their method in detail; any other form of reflexivity is not part of these methods because they assume they are objec -
tive”. Tradução minha.
127
volvidos de pesquisa quantitativa”90 (GALLOWAY, 2014, p. 109). Voltarei adiante a as-
pectos de sua crítica, inclusive discutindo pontos divergentes. Em todo caso, o cerne da
questão é que não basta a justificativa de aparente adequação dos métodos – a resposta
ao como – sem que efetivamente compreendamos o que estamos fazendo.
Encontrar alguma possibilidade de equilíbrio entre o computacional e o visual no trata-
mento conferido às imagens constitui, efetivamente, um arco mais abrangente do
desafio colocado para esta pesquisa, que não chegarei a enfrentar nesse momento. Es-
pera-se que os esforços empreendidos ao final do percurso, a partir do estudo de caso,
apontem para caminhos possíveis, nesse sentido. O aspecto importante por ressaltar na
discussão desta seção e da Analítica Cultural, em particular, é a tensão inevitavelmente
colocada quando as imagens são tratadas em grandes conjuntos e quando a experiência
visual é transladada por sua datificação. Sugiro tomarmos estes casos como exemplares
da complexidade da tarefa e de como a sedução de uma perspectiva dataísta pode levar a
possíveis equívocos de categoria no tratamento analítico das imagens. Não é, portanto,
que tratar as imagens como dados seria sempre, necessariamente, um problema. Porém,
haveria que se considerar cuidadosamente o que esta translação implica para os objetos
e para a questão de pesquisa. Ter clareza, enfim, quanto ao que se perde e o que se ganha
em tal movimento e quanto ao que significa tomar as imagens analisadas, especifica-
mente, sob tal visualidade.
3.2 Aprendizado de máquina
Dando sequência à discussão, volto-me agora às técnicas de aprendizado de máquina,
que compreendem processos mais complexos de tratamento computacional das ima-
gens. Estes buscam aceder a representações com nível de abstração mais alto, que vão
além dos dados cromáticos que compõem o nível mais bruto da representação computa-
cional para encontrar categorias ou padrões nas imagens. Estas técnicas possuem
especial proeminência no modo como se busca, hoje, superar a “opacidade computacio-
nal” das imagens. O campo da visão computacional constitui uma das vitrines deste
paradigma contemporâneo da computação, por ser um dos domínios em que teria con-
seguido aportar maiores avanços. Técnicas compreendidas pelo amplo espectro do
aprendizado de máquina, em particular as chamadas Redes Neurais Profundas (DNN, na
90 No original: “today’s corporate titans consist of little more than highly evolved modes of quantitative research”. Tra-
dução minha.
128
sigla em inglês), obtêm altos índices de eficácia, segundo parâmetros adotados na in-
dústria e parte da academia, em tarefas como a classificação de imagens ou o
reconhecimento óptico de caracteres, para ficar em dois exemplos. Trata-se, neste sen-
tido, de uma perspectiva tecnológica sedutora para esforços metodológicos como o
empreendido nesta tese.
Como discutirei ao longo desta seção e da seguinte, contudo, os resultados apresentados
pelas técnicas de aprendizado de máquina devem ser observados criticamente. Um dos
principais reveses já identificados diz respeito ao modo com que sistemas de aprendiza-
do de máquina reificam discriminações por meio de seu tratamento estatístico do
mundo. Especificamente, estudos contemporâneos têm identificado e discutido como
estes sistemas tendem a reproduzir vieses de raça, gênero e cultura manifestos nos da-
dos utilizados como base de treinamento e, também, no contexto social de seu
desenvolvimento (cf. BROUSSARD, 2018; BUOLAMWINI; GEBRU, 2018; SILVA, 2019).
Outro problema tipicamente apontado com relação ao aprendizado de máquina diz res-
peito ao modo de estruturação da arquitetura destes sistemas, que leva a um
obscurecimento de sua representações e operações internas, dificultando esforços de
auditoria e desafiando que resultados eventualmente acertados possam ser sustentados
em um plano teórico. Apesar destas questões, estes sistemas têm assumido papeis im-
portantes como mediadores algorítmicos difusos de múltiplas instâncias da vida
contemporânea. Em particular, para o caso desta investigação, técnicas de aprendizado
de máquina têm sido aplicadas ao tratamento computacional conferido às imagens nas
plataformas online e, segundo quero argumentar, informam aspectos das visualidades
contemporâneas. Em vista desta difusão argumentarei, portanto, acerca do valor de es-
forços de reapropriação destas tecnologias como metodologia de análise de imagens em
aplicações críticas, conscientes do papel mediador destas técnicas e de seus riscos.
Em continuidade mais próxima da discussão que realizei na seção anterior, outro ponto
importante por destacar é que o refinamento técnico do aprendizado de máquina, em
comparação ao tratamento da imagem por dados de cor, não aporta nenhum avanço, por
si só, sobre a questão do dataísmo, que discuti acerca de vertentes dos estudos computa-
cionais da imagem. Efetivamente, não se trata de um problema para o qual a solução
seria apenas técnica. Como indiquei, alguns dos estudos da Analítica Cultural (TIFENTA-
LE; MANOVICH, 2015), inclusive, vão além dos dados cromáticos e aplicam sistemas
baseados em aprendizado de máquina. Mas nem por isto se distanciam de uma visada
129
estritamente quantitativa de análise de grandes tendências. Os dados gerados por
aprendizado de máquina podem ser, nesse sentido, facilmente integrados a proposições
investigativas similarmente ‘dataístas’. Isto, sem entrar a fundo na própria fundamen-
tação quantitativa e estatística inerente ao aprendizado de máquina. Logo, na linha do
que discuti anteriormente, a consideração das inscrições geradas por técnicas de apren-
dizado de máquina no âmbito desta pesquisa deverá abraçar a multiplicidade ontológica
que emerge neste processo, em vez de substituir uma manifestação do objeto investiga-
do por outra.
Efetivamente, o caráter sedutor destas tecnologias e sua promessa de eficácia tendem a
complexificar a reflexão metodológica proposta. Complementando as críticas de Van
Dijck, Galloway e Cubitt, podemos ainda indicar o que Meredith Broussard (2018) chama
de tecnochauvinismo. Segundo sugere a autora, trata-se de um regime de crença de que
“mais tecnologia” seria sempre parte da solução. De modo similar ao dataísmo descrito
por Van Dijck (2014), o tecnochauvinismo teria fortes contornos ideológicos, sugerindo
uma postura socialmente irresponsável no desenvolvimento e na aplicação tecnológica
fundados na inovação como valor absoluto. A aceitação de ‘danos colaterais’ como parte
imprescindível do desenvolvimento tecnológico é, efetivamente, aspecto corrente de
discursos da indústria tecnológica. Como elabora a autora, esta aceitação seria também
sintomática da falta de diversidade desse setor, composto majoritariamente por homens
brancos – um segmento, evidentemente, menos vulnerável aos “danos colaterais” desse
desenvolvimento. Esta situação tende a se complexificar com técnicas de aprendizado de
máquina que não oferecem um caminho fácil para explicação de seu modo de funciona-
mento e tendem a ser justificadas por resultados considerados aceitáveis, por critérios –
eles próprios – enviesados. Com isto, sua aplicação em pesquisas e mesmo na indústria
frequentemente se deve, como elabora Adrian Mackenzie, em referência a Matthew
Jockers91 (2013, citado por MACKENZIE, 2017, p. 11–12), apenas à “beleza dos resulta-
dos”. O aprendizado de máquina demanda, portanto, uma atitude atenta não apenas a
certo pendor positivista dos dados computacionais mas, também, à crescente demanda
por métodos computacionais como se fossem sempre soluções para os problemas. Assu-
mo nesta pesquisa que os métodos computacionais seriam parte do problema
investigado.
91 JOCKERS, Matthew L. Macroanalysis: digital methods and literary history. Urbana: University of Illinois Press,
2013.
130
Em linhas gerais, o aprendizado de máquina pode ser definido como um paradigma de
desenvolvimento computacional, composto por diversas técnicas (cf. ALPAYDIN, 2016;
MACKENZIE, 2017) que, em comum, elaboram programas que se adaptam, dinamica-
mente, de modo a otimizar a realização de determinada tarefa. Diferentemente do
desenvolvimento de software tradicional, a pessoa que desenvolve um sistema de apren-
dizado de máquina não se ocupa em projetar algoritmos em seu sentido típico, isto é,
como uma sequência finita de procedimentos para realizar uma tarefa. De outro modo,
seu papel é constituir uma arquitetura computacional adaptativa, coletar e tratar um
conjunto de dados de treinamento, e ajustar o modelo gerado a partir do processamento
destes dados. Esta diferenciação é elaborada por Cardon, Cointet e Mazières (2018) a
partir das categorias de máquinas dedutivas, que correspondem ao desenvolvimento de
software tradicional; e máquinas indutivas, que seriam características do aprendizado de
máquina (Figura 5). No paradigma dedutivo, a máquina recebe um programa, na forma
de um conjunto de regras finitas (um algoritmo); e recebe, também, um conjunto de da-
dos de entrada (input). Sua operação produz, como resultado, um conjunto de dados de
saída (output). Para que a máquina cumpra adequadamente determinada tarefa, portan-
to, é preciso que a pessoa desenvolvedora do programa o elabore segundo uma
compreensão teórica prévia sobre como proceder. Esta compreensão teórica é que lhe
permite determinar a sequência de procedimentos, visando tanto a eficácia quanto a efi-
ciência da operação.
Nas máquinas indutivas, de outro modo, o programa, no sentido utilizado na descrição
das máquinas dedutivas, é um resultado da operação da máquina. Dois conjuntos de da-
dos são introduzidos no sistema. Estes seriam, para o paradigma dedutivo, os dados de
131
entrada e os dados de saída. Pareceria, em princípio, paradoxal que dados de saída sejam
introduzidos no sistema, mas efetivamente, estes correspondem a exemplos de resulta-
dos esperados do programa que cabe à máquina elaborar. O conjunto destes “dados de
entrada” e “dados de saída” alimentado às máquinas indutivas é o que se considera,
para o aprendizado de máquina, dados de treinamento, com base nos quais a máquina de-
verá aprender92. Para um programa de classificação de imagens, por exemplo, estes
dados poderiam ser um conjunto de imagens (dados de entrada) e classes que devem ser
atribuídas a estas imagens (dados de saída). Isto é, um conjunto de imagens e indicações
quanto a quais delas contêm cachorros e quais não contêm, por exemplo. A partir das
possíveis correlações que poderiam ser identificadas nos dados de treinamento, a
máquina elabora, então, um programa que permitiria realizar a mesma operação para
outros conjuntos de dados. Fundamentalmente, portanto, para as máquinas dedutivas,
não há a elaboração de regras explícitas a partir de um conhecimento prévio sobre a ta-
refa a se realizar. Estas regras são indutivamente derivadas a partir de exemplos,
tomados como dados de treinamento para estas máquinas.
Em última medida, as máquinas indutivas são construídas para produzir previsões. Efeti-
vamente, a última camada de uma rede neural empregada nesta pesquisa (veja 4.2.4
VGG19) e que oferece classificações para uma imagem, é denominada predictions
(veja Anexo A). Os resultados produzidos por um programa classificador seriam, desse
modo, previsões das classes que seriam atribuídas a determinada imagem pelo agente
que produziu os dados de treinamento. Adrian Mackenzie (2015), portanto, situa o
aprendizado de máquinas no contexto de uma “generalização da previsão”, observando
suas aplicações para prever a possibilidade de retorno de um investimento, prever o de-
senvolvimento de um tumor, prever os conteúdos que reterão a atenção de usuários etc.
Mais do que a produção de interpretações “novas” sobre o mundo as máquinas indutivas
visam prever como um dado seria enquadrado em um modelo implícito nos dados de
treinamento.
Muito da literatura que se volta recentemente às técnicas de aprendizado de máquina
tem ressaltado a importância de evitar perspectivas mitificadoras de sua operação
(BROUSSARD, 2018; MACKENZIE, 2015, 2017; RIEDER, 2018). A ideia de um aprendizado
92 Há uma categoria específica de programas de aprendizado de máquina em que o modelo é elaborado apenas a
partir dos ‘dados de entrada’, sem oferecer resultados específicos esperados. Chama-se a este tipo de desenvol-
vimento aprendizado não-supervisionado. Nesse caso, a máquina apenas identifica características recorrentes
nos dados, sem partir de categorias predefinidas.
132
de máquina, bem como a vinculação do campo à inteligência artificial – ainda que confli-
tuosa (cf. CARDON; COINTET; MAZIÈRES, 2018) – sugerem, afinal, um ponto de virada
para narrativas futuristas ficcionais. Especialmente em vista de resultados impressio-
nantes obtidos por tais sistemas, em diversas áreas de aplicação, não é raro encontrar no
debate público discursos que descrevem – em posturas ora eufóricas, ora alarmistas –
cenários em que as máquinas se tornariam sencientes e tão ou mais inteligentes que se-
res humanos. Broussard (2018) ressalta, a este respeito, uma diferença didática
importante entre uma inteligência artificial geral (general artificial intelligence) e uma in-
teligência artificial restrita (narrow artificial intelligence). A primeira seria do tipo que
nutre a imaginação da singularidade ou da máquina como ser em “equivalência” com o
humano. Contudo, como elabora a autora, nunca se chegou nem perto de se realizar esta
ideia e, além disso, trata-se de um paradigma de desenvolvimento abandonado, ao me-
nos por ora, desde os anos 1990. A IA restrita, por outro lado, seria aquela a que se
voltam as técnicas de aprendizado de máquina. São programas que visam atender a tare-
fas específicas. Embora as técnicas, em si, sejam aplicáveis em muitos campos e tarefas
distintos, cada aplicação demanda um tipo de arquitetura e uma base de treinamento.
Compreender esta diferença e a realidade dos desenvolvimentos em jogo é fundamental
para que consigamos nos ater aos problemas e riscos reais destas tecnologias, bem como
aos seus reais potenciais.
Outra definição importante, a fim de evitar linhas mitificadoras, é definir exatamente o
que se compreende por aprendizado no âmbito do aprendizado de máquina. Não se trata
de conceito equivalente ao que compreenderíamos como aprendizado em termos peda-
gógicos, por exemplo. Tecnicamente (cf. MACKENZIE, 2017), considera-se que um
programa de computador aprende quando seu desempenho na realização de determina-
da tarefa torna-se mais eficiente à medida em que aumenta sua experiência. Porém, nem
o conceito de experiência poderia ser tomado de forma ingênua. Trata-se, neste contexto
específico, de uma medida da quantidade de dados de treinamento que teria sido proces-
sada por aquele programa. Posto de outra forma, portanto, aprendizado, para o
aprendizado de máquina define-se por uma taxa de otimização algorítmica (MACKENZIE,
2017, p. 92). Um programa de aprendizado de máquina não realiza outra coisa que deri-
var uma função com base em sua adequação a um conjunto de dados. Não se trata do
aprendizado como a produção de algo novo, mas apenas à reprodução de padrões im-
plícitos na estrutura dos dados.
133
Nesta pesquisa, o aprendizado de máquina é abordado com um interesse específico em
sua incidência no campo da Visão Computacional – isto é: por suas aplicações às ima-
gens. Neste domínio, as técnicas de aprendizado de máquina têm tido, ao menos desde
201293, um impacto bastante significativo. Aplicações baseadas em aprendizado de
máquina são hoje utilizadas para o reconhecimento e classificação de imagens (objetos,
locais, temas etc.); reconhecimento óptico de caracteres; reconhecimento facial; reco-
nhecimento de expressões faciais; recuperação da informação baseada em conteúdo;
entre outras tarefas. De modo importante, como indiquei à introdução, o enfrentamento
do problema da computacionalidade das imagens por meio do aprendizado de máquina
implica em uma dupla articulação com a cultura visual contemporânea. Por um lado, a
demanda por tais sistemas deve-se a um aumento significativo da quantidade de ima-
gens produzidas e postas em circulação contemporaneamente – ao que Daniel
Rubinstein e Katrina Sluis (2008) se referiram por uma “amadorização em massa” da
fotografia digital. Uma produção que, por sua vez, cada vez mais toma forma em plata-
formas online, para as quais procedimentos de datificação e mediação algorítmica são
fundamentais. Por outro, pela forte dependência de dados de treinamento por parte dos
sistemas de aprendizado de máquina, é esta mesma produção massiva de imagens que
alimenta a constituição destes programas. A base Imagenet (2009) é emblemática, entre
outras bases abertas de dados de treinamento, em sua coleção de milhões de imagens
colhidas da internet. Outras bases públicas poderiam ser igualmente consideradas (cf.
HARVEY, 2019), mas talvez sejam ainda mais relevantes as bases privadas, mantidas por
grandes corporações de tecnologia para o desenvolvimento de seus próprios sistemas de
aprendizado de máquina (Google, Amazon, IBM, Microsoft, Apple etc.).
A esta dupla articulação, soma-se a disponibilidade recente destas técnicas em modelos
abertos e serviços comerciais, impactando em uma maior pervasividade da interpretação
de imagens por aprendizado de máquina, inclusive em pesquisas acadêmicas, como re-
curso analítico para o estudo de imagens em contextos online. Experimentos situados no
abrangente domínio das humanidades digitais incluem, por exemplo, o uso de técnicas
de aprendizado de máquina como recurso de navegação fortuita por arquivos fotográfi-
cos históricos (cf. YALE DIGITAL HUMANITIES LAB, 2017) ou em acervos museológicos
93 Neste ano, relatam Cardon, Cointet e Mazières (2018), equipe liderada por Geoffrey Hinton, pesquisador reno-
mado na área de redes neurais ganhou o concurso anual Imagenet Large Scale Visual Recognition Challenge
(ILSVRC) utilizando a técnica de DNN. O fator mais surpreendente era que nem Hinton nem o pesquisador mais
diretamente envolvido no projeto, Alex Krizhevsky, possuíam um conhecimento sólido em Visão Computacio-
nal. Sua especialidade era redes neurais.
134
(cf. DIAGNE; BARRADEAU; DOURY, 2018). Em ainda outro eixo de aplicação, técnicas de
aprendizado de máquina têm sido utilizadas por artistas como objeto de experimentação
e investigação estética94. Por este crescente entranhamento do aprendizado de máquina
em diferentes instâncias de mediação e produção contemporânea de imagens, portanto,
situo estas técnicas como objetos pertinentes ao tema das visualidades contemporâneas.
O objetivo desta seção é situar as técnicas de aprendizado de máquina considerando
como elas poderiam compor abordagens reflexivas sobre a imagem. O desafio principal é
articular estas técnicas a uma visada não-reducionista do visual que, como discuti na
seção anterior, deveria evitar subsumi-lo ao seu tratamento computacional datificado.
Distribuo esta linha argumentativa geral em três subseções. Primeiro, volto-me a uma
discussão focada especificamente, a uma consideração de como o aprendizado de
máquina por redes neurais aprendem a ver. Nessa primeira seção, interessa-me consti-
tuir uma descrição geral, diagramática (MACKENZIE, 2017), de seu modo de operação,
em especial considerando suas implicações epistêmicas. Na segunda seção, volto-me a
uma consideração sobre as inscrições sociotécnicas em que se baseiam estas técnicas em
seu modo de operação. Tipicamente (cf. CARDON; COINTET; MAZIÈRES, 2018;
MACKENZIE, 2017), são vetores de coordenadas, que descrevem os dados segundo sua
disposição em um espaço vetorial multidimensional. Em linha com as discussões do ca-
pítulo precedente, interessa compreender o que este modo de inscrição proporciona à
operação do aprendizado de máquina e, também, as dependências destas técnicas ao
acúmulo e manipulação destes registros. Por fim, discuto como o aprendizado de máqui-
na pode ser compreendido sob a dinâmica de reconfigurações humano-máquina
(SUCHMAN, 2007), considerando a inflexão particular a que submete o domínio amplia-
do da IA. Na seção que conclui este capítulo (3.3 Visualidade e infraestrutura ) desdobro
ainda outros aspectos desta discussão, considerando o empacotamento de modelos de
aprendizado de máquina em serviços comerciais e formatos de aplicação generalista.
3.2.1 Aprender a ver
Um desafio inerente à questão colocada para esta subseção diz respeito à ininteligibili-
dade das redes neurais diante de esforços de descrição pormenorizada de seu modo de
funcionamento. As técnicas de aprendizado de máquina e as redes neurais, em particu-
94 Uma listagem não-exaustiva de artistas que lidam contemporaneamente com o aprendizado de máquina inclui:
Trevor Paglen, Kate Crawford, Adam Harvey, Forensic Architecture, Caroline Sinders, Mario Klingemann, Refik
Anadol, Memo Akten, Helena Sarin, Mimi Onuoha, Scott Eaton e Tom White.
135
lar, colocam-se como objetos críticos que escapam a vertentes de estudo como o softwa-
re studies (FULLER, 2008). Como elabora Mackenzie (2017, p. 22) o modo de operação de
programas de aprendizado de máquina não pode ser lido na forma de código. Isto não
significa que o código, em si, seja opaco, mas apenas que seu modo de operação não as-
sume a forma procedural típica de um programa de computador e articula, de outro
modo, relações intrincadas com efeitos emergentes. Mackenzie (2017, p. 23) sugere, a
esse respeito, que a transição poderia ser expressa pela passagem de diagramas lógico-
simbólicos a diagramas estatístico-algorítmicos95 – uma formulação análoga àquela entre
máquinas dedutivas e máquinas indutivas de Cardon, Cointet e Mazières (2018). En-
quanto um algoritmo tradicional pode ser descrito por sequências causais simples,
programas de aprendizado de máquina articulam-se aos dados e assumem uma arquite-
tura distribuída. Nesta, a lógica booleana do tipo se… então… se dilui em pesos (weights)
que definem os processos de transformação dos dados em uma rede distribuída de pe-
quenas agências algorítmicas (“neurônios”) de operação probabilística. Por esse motivo,
uma rede neural não pode ser compreendida ou descrita da mesma forma que um fluxo-
grama descreve o modo de operação de um algoritmo tradicional. Seus efeitos são
emergentes.
Segundo relatam Cardon, Cointet e Mazières (2018), esta característica dos sistemas de
aprendizado de máquina, em especial do subdomínio das redes neurais, constitui um dos
pontos centrais da controvérsia estabelecida entre dois paradigmas conflitantes do de-
senvolvimento da IA ao longo dos últimos 80 anos. O aprendizado de máquina
constituiria, segundo descrevem, a corrente conexionista, cujo lastreamento teórico re-
monta a aspectos da cibernética de primeira ordem, de Norbert Wiener ([1948] 2007).
Ainda com relação à corrente conexionista, outro antecedente fundamental seria a pro-
posição do Perceptron, por Frank Rosenblatt (1958), uma formulação – ainda
rudimentar, para os parâmetros contemporâneos – de uma rede neural artificial como
modelo de desenvolvimento da IA. A outra vertente seria a corrente simbólica, que ganha
tração a partir da década de 1960 colocando o paradigma conexionista em segundo plano
até meados da década de 1990. Um caso exemplar de tecnologia sob o paradigma sim-
bólico são os chamados sistemas especialistas, em que o conhecimento e o processo
decisório de áreas específicas do conhecimento eram codificados em lógica booleana
95 Mackenzie adota em seu estudo o conceito de diagrama sugerido por Deleuze (2006) em sua leitura de Foucault.
136
(ALPAYDIN, 2016, p. 50) como forma de automação. Diferentemente do aprendizado de
máquina e das redes neurais, portanto, são sistemas em que a lógica do programa en-
contra-se explicitamente descrita em código.
O principal ponto de divergência entre estes dois paradigmas diz respeito ao modo de
compreensão da inteligência e de sua modelagem computacional. Enquanto o paradigma
simbólico apoia-se em uma compreensão dedutiva, o paradigma conexionista apoia-se
em uma compreensão indutiva. Pelo paradigma simbólico, desse modo, a inteligibilidade
do sistema, ou seja, a possibilidade de descrever explicitamente o processo decisório, é
uma qualidade a priori, já que é por meio desta elaboração que a máquina é programada.
Além disso, a base dedutiva sugere que um horizonte de máxima eficácia e eficiência do
sistema, que seria capaz de chegar sempre ao custo mínimo dos processos (ao que se
chama, no jargão da área, de convexidade). Para o paradigma conexionista, de outro
modo, não apenas a cadeia de decisões é definida a posteriori pela operação do sistema,
como, também, não se apresenta nenhuma garantia de que este processo possa ser ex-
plicitamente explicado. Além disso, tampouco há garantia de convexidade a um ponto
ótimo de eficiência ou eficácia, já que as máquinas indutivas operam por uma aproxima-
ção probabilística dos resultados. Seguindo o tortuoso debate recuperado por Cardon,
Cointet e Mazières, o presente momento representa o auge do soerguimento do paradig-
ma conexionista.
Como descrevem os autores (CARDON; COINTET; MAZIÈRES, 2018), a controvérsia entre
os dois paradigmas envolve muitas camadas além de argumentos estritamente técnicos
– incluindo políticas de financiamento de pesquisas e sucessos e fracassos circunstanci-
ais de expoentes de uma ou outra vertente. Porém, os temas da inteligibilidade dos
sistemas conexionistas e a não-garantia de uma otimização convexa, segundo descre-
vem, foram alguns dos principais focos do debate. A relativa vitória do paradigma
conexionista, observada pelos autores desde pelo menos 15 anos não se deve, contudo, à
definitiva superação destes problemas mas, de outro modo, a um argumento pragmático
que considera que as limitações do paradigma conexionista seriam compensadas por
outros benefícios, em particular devido a demandas circunstanciais do presente. Especi-
ficamente, as máquinas de base indutiva teriam prevalecido neste período recente por ao
menos dois motivos: seu relativo sucesso em tarefas não superadas pelo paradigma sim-
bólico; e a sua capacidade de operar em escala, atendendo às demandas emergentes das
mídias digitais e da comunicação em rede.
137
Cardon, Cointet e Mazières (2018, p. 22) identificam um contraste discursivo operado
pelos defensores do conexionismo entre a largura da arquitetura rasa de modelos prece-
dentes, e a profundidade das arquiteturas baseadas em redes neurais – implicada,
inclusive, na denominação das redes neurais profundas (DNN). Segundo o vocabulário da
TAR (não adotado pelos autores) poderíamos dizer que os defensores do conexionismo
conseguiram, por esta estratégia discursiva transladar os demais pesquisadores e fazer
prevalecer seu enquadramento do problema. Em última medida, o debate passou a ser
articulado nos termos de uma preferência por um ou outro atributo: largura ou profundi-
dade. Escrevem:
Os cruzados do conexionismo conseguiram assim convencer as pessoas que
era preferível sacrificar a inteligibilidade da calculadora e a otimização rigo-
rosamente controlada por uma melhor percepção da complexidade de
dimensões presentes nesta nova forma de dados. Quando o volume de dados
de treinamento aumenta consideravelmente, muitos mínimos locais existem,
mas há redundâncias e simetrias suficientes para que as representações
aprendidas pela rede sejam robustas e tolerantes a erros nos dados de apren-
dizado. No centro do debate da comunidade de aprendizado de máquina, uma
coisa era compreendida sem precisar ser dita: apenas laboratórios usavam
modelos lineares; o mundo, o ‘mundo real’ onde os dados são produzidos
pela digitalização de imagens, sons, fala, e texto, é não-linear. Ele é ruidoso;
a informação nele contida é redundante; os fluxos de dados não são categori-
zados de acordo com atributos de variáveis homogêneas, claras e construídas
de forma inteligível; exemplos às vezes são falsos96 (CARDON; COINTET;
MAZIÈRES, 2018, p. 22).
Esta citação contém muitos aspectos para desempacotar. Primeiro, sustentando o que eu
indiquei logo acima, observa-se a construção do argumento pragmático de uma com-
pensação: maior complexidade em detrimento da inteligibilidade e de uma eficiência e
eficácia ótimas. Segundo, a indicação de uma ambivalência com respeito às consequên-
cias do treinamento extensivo de máquinas dedutivas em grandes quantidades de dados.
A referência a “muitos mínimos locais” remete ao tema da otimização97: mais dados
tornam mais difícil aferir com exatidão o processo mais eficaz e eficiente, demandando o
recurso a métodos probabilísticos que indicariam apenas aproximações do ponto ótimo.
Porém, com mais dados, acredita-se que eventuais erros decorrentes desta limitação se-
96 No original: “The crusaders of connectionism thus managed to convince people that it was preferable to sacrifice the
intelligibility of the calculator and rigorously controlled optimization for better perception of the complexity of dimen -
sions present in this new form of data. When the volume of training data increases considerably, many local minimums
exist, but there are enough redundancies and symmetries for the representations learned by the network to be robust
and tolerant to errors in learning data. At the heart of the debate with the machine learning community, one thing
went without saying: only laboratories used linear models; the world, the ‘real world’ where data are produced by the
digitization of images, sounds, speech, and text, is non-linear. It is noisy; the information contained in it is redundant;
data flows are not categorized according to the attributes of homogeneous, clear, and intelligibly constructed vari -
ables; examples are sometimes false”. Tradução minha.
97 Em uma topografia de dados ampla, um mínimo local seria um ponto que, por métodos probabilísticos de otimi-
zação, poderia ser equivocadamente identificado como o mais eficiente, ignorando o mínimo global.
138
riam minimizados por redundâncias e simetrias. Este ponto, em especial, abre uma am-
pla frente de discussão acerca da reprodução de vieses e discriminações sociais por tais
sistemas: mais dados apenas tenderiam a nivelar assimetrias se estas não se manifesta-
rem de forma sistêmica como, efetivamente, é o caso do racismo, do machismo e das
assimetrias culturais. Longe de se anularem quando acumula-se mais dados, tais vieses
tornam-se, nestes casos, ainda mais evidentes, pelo acúmulo reiterado de assimetrias
difusas. Por fim, a citação discute o objetivo manifesto, por desenvolvedores de tais sis-
temas, de trabalhar dados reais, em um contraste entre a abstração lógico-matemática
da computação aos aspectos concretos e ambivalentes do mundo real. Este ponto elabora,
enfim, acerca da qualidade complexa dos dados que se busca abordar por meio das téc-
nicas de aprendizado de máquina. Estes pontos sumarizam boa parte das questões que
gostaria de lançar para as técnicas de aprendizado de máquina em seu modo de apreen-
são das imagens.
A relação entre o paradigma conexionista e o problema da computacionalidade das ima-
gens é profunda. O Perceptron de Rosenblatt (1958) visava enfrentar justamente o
problema da percepção visual, que se colocava como um dos desafios para a hipótese da
IA, dado o grau de complexidade do tratamento da informação visual. Contudo, uma das
narrativas acerca do desenvolvimento da Visão Computacional tende a situá-la como
herdeira apenas de procedimentos lógico-dedutivos da racionalização da visão. Como in-
diquei anteriormente (veja 2.2.2 Inscrição: perspectiva e consistência óptica ) este é o
termo utilizado por Ivins (1975) para descrever o advento da perspectiva, no Renasci-
mento, e seu modo de representação analítica do espaço. Depois dele, Latour (1986)
mobiliza esta noção para dar conta de propriedades das imagens em perspectiva como
inscrições científicas, conferindo às representações uma consistência óptica. Lev Mano-
vich (1993) apoia-se, então, em ambos autores para descrever o advento da Visão
Computacional como uma derivação da perspectiva tomada como instrumento analítico
a ser codificado computacionalmente como forma de descrever corpos no espaço. Mano-
vich recorre à noção de nominalismo visual, proposta por Alan Sekula (1986), para
caracterizar este modo de ‘ver’ que teria sido precedido pela perspectiva geométrica e
sistematizado pela visão computacional. O desenvolvimento fundador da versão algorít-
mica do nominalismo visual, segundo Manovich, teria sido a tese de doutorado de
Lawrence G. Roberts (1963), desenvolvida na década de 1960 no MIT. Seu trabalho codi-
ficou, na máquina, um protocolo lógico-dedutivo de percepção de imagens
139
perspectivadas por um esforço de engenharia reversa, recompondo a tridimensionalida-
de do espaço e das formas a partir de aspectos de sua representação plana. Em minha
dissertação de mestrado (MINTZ, 2015) também me apoiei nesta narrativa para caracte-
rizar o desenvolvimento histórico da Visão Computacional. Mas, efetivamente, trata-se
de apenas uma parte da história.
O percurso traçado por Manovich, situando a Visão Computacional em uma trajetória
mais extensa do nominalismo visual, apoia-se, afinal, em uma compreensão dedutiva da
percepção visual que pouco diz respeito às técnicas contemporâneas de aprendizado de
máquina. Já no âmbito de minha dissertação, indiquei, em vista destas técnicas, que
além de uma operação nominalista, haveria também operações que se aproximariam de
um idealismo visual. Estas não seriam vinculadas a uma reconstrução espacial precisa,
mas ao reconhecimento de padrões e à classificação de imagens – tarefas tipicamente
realizadas por técnicas de aprendizado de máquina baseadas em redes neurais. Às tare-
fas nominalistas, indicava em meu texto um modo de operação descrito pelo par
localização-acionamento. Às idealistas, descrevia por reconhecimento-conexão98. Efetiva-
mente, contudo, se consideramos a extensa controvérsia dos paradigmas simbólico e
conexionista descrita por Cardon, Cointet e Mazières (2018), esta não seria uma bifurca-
ção recente da Visão Computacional, mas pareceria ser uma ambivalência própria do
campo, acompanhando o desenvolvimento destas correntes no campo ampliado da IA.
Deste modo, um possível marco inicial da questão não seria Lawrence G. Roberts, mas a
proposição do Perceptron por Rosenblatt.
Recompor a narrativa histórica a partir destes desenvolvimentos vai além dos objetivos
desta tese99, mas gostaria de reter, acerca deste ponto, o vínculo profundo entre o para-
digma conexionista e o problema da Visão Computacional, embora esta vertente de
enfrentamento do problema tenha sido esquecida, em parte, pela prevalência do para-
digma simbólico na segunda metade do século passado. Também, quero ressaltar a
dupla tarefa empreendida no tratamento computacional das imagens e como cada para-
digma proporcionou ênfases em operações diferentes. Sob o paradigma simbólico, a
‘interpretação’ computacional das imagens demanda compreensão sobre os modos de
formação e constituição da imagem que devem ser, então, codificados na máquina. De-
manda um modelo explícito da câmera, por exemplo, como fator de tradução do mundo
98 Agradeço a meu orientador de mestrado, André Brasil, por me ajudar a chegar nestas indicações.
99 Matteo Pasquinelli, professor da HfG Karlsruhe, tem desenvolvido um percurso histórico dos desenvolvimentos
tecnológicos e teóricos da Visão Computacional por redes neurais (PASQUINELLI, 2017)
140
em imagem, para que se possa realizar o movimento inverso, da imagem ao mundo. Ma-
novich (1993) destaca, inclusive, como Roberts (1963) teria voltado a formalizações da
perspectiva geométrica elaboradas em tratados renascentistas, como o de Leon Battista
Alberti, para desenvolver seu protótipo de uma percepção maquínica. Já para o paradig-
ma conexionista, o modelo deriva de uma população de exemplos, a partir dos quais um
modo de percepção é constituído por princípios estatísticos e probabilísticos. Trata-se
de uma abordagem que tende a ser melhor sucedida para modelar categorias de entida-
des representadas nas imagens mas, talvez, não tanto a recompor, com precisão,
aspectos geométricos do espaço retratado.
Portanto, a incidência de técnicas de aprendizado de máquina sobre a Visão Computaci-
onal impacta tanto os modos com que o problema foi enfrentado ao longo das décadas
precedentes quanto aspectos da visualidade informada por tais sistemas. De uma visua-
lidade analítica exemplificada pela identificação de objetos a partir de seus detalhados
contornos (Figura 6), passa-se a uma visualidade sintética em que contornos dizem me-
nos do que uma miríade de texturas superpostas, no entrecruzamento das quais os
objetos emergem como padrões (Figura 7). Em um caso, busca-se deduzir, a partir da
imagem, aspectos do espaço e dos objetos retratados, concretamente – nominalismo vi-
sual. Em outro, a imagem é vista como instanciação concreta de uma categoria abstrata,
com a qual se relaciona por uma relação de tipicidade – idealismo visual100. Embora pro-
blemas pertinentes ao nominalismo seguem centrais em diversas áreas de
desenvolvimento contemporâneo da Visão Computacional – em especial na robótica, vi-
gilância e ciências forenses; seriam operações vinculadas à vertente idealista, de base
indutiva, que teriam maior proeminência em campos difusos como a mediação algorít-
mica do visível em plataformas digitais e mesmo em tecnologias de reconhecimento de
rostos, por exemplo. Para estas, o valor operativo de uma imagem101 não é tanto como
inscrição que permite atuar sobre um espaço concreto mas, sim, como inscrição que
permite atuar sobre um campo semântico relacional, por seus vínculos a categorias e
identidades. As categorias constituídas pelo aprendizado de máquina, contudo, não são
formulações abstratas, em si mesmas, mas operam como condensações de instâncias
concretas e individuais colhidas a partir de dados do ‘mundo real’. Este movimento
100 Em minha dissertação de mestrado e em outras oportunidades (MINTZ, 2015, 2016, 2018d) indiquei as relações
destas operações com os casos exemplares, abordados por Alan Sekula (1986), no contexto da criminalística e
da criminologia do século XIX. Não aprofundarei esta discussão aqui.
101 Veja que, como indiquei antes, vale qualquer imagem, não apenas aquelas destinadas, em sua origem, a uma fi-
nalidade operativa, segundo a formulação das imagens operativas de Harun Farocki (2004).
141
emergente de constituição das categorias, junto à ininteligibilidade deste processo, fa-
zem do aprendizado de máquina por redes neurais um objeto crítico para investigações
contemporâneas dos STS.
Figura 6: Ilustração do programa desenvolvido por Lawrence G. Roberts.
Exemplo de implementação do modelo nominalista de base simbólica de Visão Computacional.
Fonte: ROBERTS, 1963.
142
Cardon, Cointet e Mazières (2018) sugerem um conjunto de categorias analíticas que po-
dem auxiliar a compreender tal reconfiguração. Eles indicam que os diferentes estágios
das máquinas preditivas compreendidas pelo amplo campo da IA poderiam ser compa-
rados segundo as posições relativas que atribuem ao que chamam de mundo, calculadora
e alvo. O mundo seria aquilo sobre o qual as máquinas operam – sua exterioridade, por
assim dizer, que adentra a máquina na forma de dados de entrada (inputs) representando
um ambiente, uma realidade específica ou de uma base de conhecimento, por exemplo, a
depender do caso abordado. A calculadora, por sua vez, seria o programa, aquilo que irá
operar com o mundo para chegar a determinado alvo. Didaticamente, os autores sugerem
que o paradigma conexionista realizaria uma inversão:
enquanto os desenvolvedores de de máquinas simbólicas buscaram inserir na
calculadora tanto o mundo quanto o alvo, o sucesso atual das máquinas co-
nexionistas relaciona-se ao fato de que, quase em contraste, seus criadores
esvaziam a calculadora para que o mundo possa adotar o seu próprio alvo102
(CARDON; COINTET; MAZIÈRES, 2018, p. 6).
Mais adiante em seu texto (CARDON; COINTET; MAZIÈRES, 2018, p. 27), os autores de-
talham melhor a efetiva disposição destas categorias no aprendizado de máquina,
indicando que as DNNs operariam como a calculadora e que o mundo seriam representa-
ções datificadas do mundo na forma de vetores de big data. Também, que o alvo seria a
minimização dos erros segundo os objetivos traçados pela tarefa. Ou seja, não é que a
calculadora seja de fato esvaziada ou que o alvo derive diretamente do mundo. Mas a for-
102 No original: “while the designers of symbolic machines sought to insert in the calculator both the world and the tar-
get, the current success of connectionist machines is related to the fact that, almost in contrast, their creators empty the
calculator so that the world can adopt its own target”. Tradução minha.
143
mulação anterior dos autores tem um valor didático ao capturar um aspecto central à
sustentação discursiva do aprendizado de máquina. A justificativa do paradigma conexi-
onista, especialmente considerando seu valor epistêmico, seria fundado na ideia de que
seus modelos de operação seriam derivados do próprio mundo.
Para o caso das técnicas de aprendizado de máquina aplicadas às imagens, seria como
dizer, por tal asserção, que as máquinas aprendem a ver por meio das próprias imagens
que compõem o seu mundo. Que estas imagens definiriam, portanto, a visualidade do
aprendizado de máquina. Esta afirmação tem validade relativa, desde que se compreen-
da a abrangência apenas parcial deste conjunto de imagens utilizados para o
treinamento, bem como sua pre-estruturação. Por mais amplo que seja, nenhuma base
de dados pode se equivaler à totalidade dos dados existentes, evidentemente, e, mesmo
que pudesse, nem mesmo a totalidade dos dados poderia ser tomada como uma repre-
sentação objetiva ou imparcial do mundo. Nem todo o mundo se representa em dados –
contra as premissas do dataísmo (cf. VAN DIJCK, 2014). Os dados tampouco seriam meras
impressões do mundo em si mesmo, como discuti, anteriormente, na recuperação teóri-
ca do conceito de mediação. Neste sentido, portanto, modelos de reconhecimento de
imagens baseados em aprendizado de máquina oferecem-se como instanciações de vi-
sualidades particulares, longe de qualquer suposição de uma visão universal.
Visualidades computacionais, contra o subtendido universalismo de de uma visão com-
putacional. Uma compreensão não positivista do aprendizado de máquina seria possível,
portanto, compreendendo-o não como um instrumento neutro de conhecimento do
mundo, mas como instância que também expressa aspectos do mundo sobre o qual ope-
ra. Este é, para esta pesquisa, o valor metodológico atribuído ao aprendizado de
máquina.
Contra a ideia de que o alvo derivaria do próprio mundo por uma simples intermediação
(em contraste com uma mediação plena) de uma calculadora, portanto, seria preciso ob-
servar criticamente como estas três instâncias estruturam a operação das máquinas
indutivas. O caráter estruturante do mundo poderia ser descrito em uma investigação dos
dados de treinamento, como nos esforços de auditoria realizados por Joy Buolamwini,
Timnit Gebru (2018), que observaram vieses discriminatórios, de gênero e raça, em sis-
temas comerciais de análise facial em uma perspectiva interseccional. Também
poderíamos citar os trabalhos de ativismo artístico de Adam Harvey (2019) e de Kate
Crawford e Trevor Paglen (2019), que se voltam à proveniência e à constituição de bases
144
de treinamento massivas de ampa disponibilidade – como a Imagenet (DENG et al.,
2009). O caráter estruturante do alvo pode ser observado em esforços de mapeamento
dos espaços semânticos das APIs e dos vieses expressos em seus resultados, seja pelas
categorias atribuídas às imagens, seja pelos índices de probabilidade que as acompa-
nham. Um esforço deste tipo foi empreendido em estudo do qual participei,
compartilhando a coordenação com Tarcízio Silva (MINTZ; SILVA et al., 2019), no qual
realizamos uma investigação comparativa de três APIs comerciais de reconhecimento de
imagens – Google, IBM e Microsoft.
Observar o caráter estruturante da calculadora, contudo, tende a ser mais desafiador,
dada a ininteligibilidade que é característica das redes neurais. Um caminho possível é
sugerido, quero argumentar, pela sugestão de Bernhard Rieder (2018) da noção de “téc-
nica algorítmica”, em substituição tanto a remissões genéricas e, em alguma medida,
essencialistas a um “algoritmo” indiferenciado; quanto a esforços de investigação de
implementações concretas de um algoritmo específico. Escreve Rieder (2018, p. 126–
127):
Cada técnica gira em torno de uma ideia central, um núcleo conceitual que
normalmente é estabelecido através da combinação de linguagem natural e
notação matemática. A técnica fornece uma lógica geral e especificações de
cálculo formal, mas para que a implementação efetiva desses elementos em
um sistema funcione efetivamente, requer que muitas decisões sejam toma-
das […]. Codificar [Programar], então, é uma forma de expressar essas
técnicas em termos que um computador possa entender, e os algoritmos
concretos são resultado de encontros situados entre ambientes de computa-
ção, técnicas algorítmicas e requisitos locais.
Sua elaboração não se endereça diretamente ao problema da inteligibilidade de redes
neurais, mas parece-me que ela também pode auxiliar a compreender este contexto.
Embora tenham implicações distintas, o tema da ininteligibilidade da operação das re-
des neurais e a generalização de implementações concretas de técnicas algorítmicas
compartilham desafios metodológicos. Afinal, um dos sentidos da proposição da técnica
algorítmica como objeto de análise por Rieder é justamente a inacessibilidade de imple-
mentações concretas em códigos proprietários. Os algoritmos “que importam” são
tipicamente tratados como segredos industriais. Isto não impede, porém, que sejam es-
tudadas as técnicas sobre as quais tais algoritmos, muito provavelmente, são baseados.
Estas podem ser estudadas por sua fundamentação teórica e podem, também, render
descrições diagramáticas que, como elabora Mackenzie (2017, p. 17) – a partir da leitura
deleuziana de Foucault (DELEUZE, 2006) – seriam uma forma de de desenho que suavi-
145
za variações em favor da descrição de relações de força que constituem uma máquina, ou
agenciamento. Ainda que não consigamos apreender detalhes da operação de uma rede
neural, portanto, podemos ainda abordá-la de forma similar.
Para tratar de um exemplo, um dos modelos de rede neural que serão empregados no es-
tudo de caso desta tese, denominado VGG19 (a sigla indica Visual Geometry Group, da
Universidade de Oxford), é composto por 19 camadas com pesos103 para transformação
dos dados (SIMONYAN; ZISSERMAN, 2014) (veja Anexo A). Estas camadas distribuem-se
em milhares de ‘neurônios’, cada qual com um peso específico – um fator numérico de
transformação dos dados – definido a partir das rodadas de treinamento, com base em
imagens e classes da base Imagenet (DENG et al., 2009). Considerando a atuação conjun-
ta das camadas e neurônios, o modelo VGG19 tem 144 milhões de parâmetros para a
realização da tarefa de classificação. A ininteligibilidade do modelo decorre, portanto, da
impossibilidade de estabelecer vínculos precisos entre cada um destes parâmetros e as
classes atribuídas ao final. Não há como descrever uma cadeia causal simples que conec-
ta determinada imagem a sua classe e não há como intervir cirurgicamente na rede
neural de modo a modificar um padrão de classificação observado (Figura 8).
103 Nem todas as camadas de uma rede neural realizam transformações efetivamente derivadas dos dados de trei-
namento. Algumas delas realizam transformações de redução de dimensionalidade, por exemplo, que
independem do treinamento. As camadas “com pesos” (weighted) seriam as treinadas.
146
Uma abordagem possível do problema, contudo, é utilizar os modelos de rede neural
para gerar imagens e não apenas para interpretá-las. No exemplo da Figura 7, os pesqui-
sadores (LE et al., 2012) o fizeram a fim de obter uma representação visual do estímulo
ótimo vinculado a duas classes da rede neural que construíram em sua investigação. Si-
milarmente, pode-se gerar estes estímulos ótimos para etapas intermédias da rede
neural, que precedem à classificação. Apresento nas Figuras 9 e 10 visualizações dos es-
tímulos ótimos para doze dos ‘neurônios’ de duas camadas distintas do modelo VGG19.
As visualizações foram geradas a partir de código e tutorial elaborado por François Chol-
let (2016). Especificamente, são apresentados estímulos ótimos para doze neurônios
pertencentes a duas camadas do modelo VGG19104. Estes dois extratos da rede neural
permitem visualizar, portanto, o crescente nível de complexidade das formas que ativam
neurônios específicos da rede e que compõem, ao final, os atributos que fundamentam
tarefas de classificação. Os aspectos formais iniciais indicam apenas texturas, relativa-
mente uniformes Figura 9. Em um nível mais profundo de processamento, estas texturas
se complexificam em formas mais elaboradas mas que, ainda assim, não são facilmente
reconhecíveis como pertencentes a classes específicas Figura 10. Uma classe ou categoria
reconhecida pelo modelo deriva, efetivamente, de uma combinação específica de atribu-
tos identificados por filtros como estes. Elas são efeitos emergentes de atributos difusos,
distribuídos entre os nós da rede neural. Embora a atribuição de classes aconteça apenas
na última camada do modelo, predictions (veja Figura 8 e Anexo A), as camadas ante-
riores incorporam aspectos das classes durante o processo de treinamento, cujo objetivo
é otimizar o funcionamento da rede neural de modo obter uma melhor convergência en-
tre as previsões e as classes conhecidas.
104 block1_conv2, a segunda camada convoluta utilizada no processamento das imagens; e block5_conv1, a pri-
meira do tipo do último bloco de processamento, que antecede a redução da dimensionalidade para a tarefa de
classificação
147
Figura 9: Estímulos ótimos para 12 filtros da camada block1_conv2, modelo VGG19.
Seleção de 12 dos 64 neurônios da camada.
Fonte: Elaboração própria a partir do modelo VGG19 (SIMONYAN; ZISSERMAN, 2014) e tutorial de Chollet (2016).
148
Figura 10: Estímulos ótimos para 12 filtros da camada block5_conv1, modelo VGG19.
Seleção de 12 dos 512 neurônios da camada.
Fonte: Elaboração própria a partir do modelo VGG19 (SIMONYAN; ZISSERMAN, 2014) e tutorial de Chollet (2016).
Experimentos como este, de geração de imagens a partir de redes neurais, populariza-
ram-se em 2015 a partir de técnicas desenvolvidas por engenheiros da Google e
divulgadas sob os nomes sugestivos de DeepDream (“sonho profundo”) e Inceptionism105
(MORDVINTSEV; OLAH; TYKA, 2015a, 2015b). De modo similar às visualizações apresen-
tadas, estes experimentos exploram o potencial generativo das redes neurais. Porém, ao
invés de amplificar os estímulos ótimos de neurônios específicos a partir de padrões ale-
atórios, a técnica desenvolvida pelos autores parte de imagens específicas e amplifica os
padrões que, nelas, ativam tais neurônios. Deste modo, os aspectos destas imagens que
as relacionam com os padrões visados pela rede neural são explicitados. Por exemplo,
características apenas sugeridas em uma imagem, que pudessem ativar a categoria de
105 A tradução não seria simples neste caso, pois trata-se de uma remissão ao filme Inception (2010), dirigido por
Christopher Nolan, cujo título adotado no Brasil foi A Origem. Um dos elementos principais da narrativa do filme
é uma técnica utilizada por ladrões para invadir os sonhos das vítimas. Inceptionism para redes neurais, portan-
to, seria um modo de invadir os “sonhos” das redes neurais.
149
um templo de arquitetura asiática (pagode), são desse modo amplificados em uma foto-
grafia de paisagem em que, efetivamente, tais construções não se encontram (Figura 11).
Boa parte das apropriações artísticas de redes neurais se realizam, hoje, em versões so-
fisticadas destes mecanismos. Especificamente, pelo que Ian Goodfellow e colaboradores
(GOODFELLOW et al., 2014) propuseram como Redes Adversárias Generativas (GAN, na si-
gla em inglês). Um exemplo perturbador deste tipo de aplicação é a página Web This
Person Does Not Exist106 (“Esta pessoa não existe”), que utiliza destas técnicas para gerar
imagens de rostos humanos derivadas de modelos de reconhecimento de imagens107.
Figura 11: Exemplo de imagem gerada pelo programa DeepDream.
Fonte: MORDVINTSEV; OLAH; TYKA, 2015b.
A principal questão que gostaria de reter da discussão desta subseção refere-se ao modo
de constituição dos modelos de redes neurais que, embora escapem descrições simplis-
106 Cf. https://thispersondoesnotexist.com
107 Embora seja um tema hoje fundamental, a discussão das implicações deste tipo de desenvolvimento vai além
dos objetivos desta pesquisa.
150
tas, podem ser compreendidos como condensações de amplos conjuntos de imagens.
Aprender a ver, para estas máquinas, significa encontrar um ponto de otimização de pro-
cessos de classificação em que uma arquitetura difusa progressivamente se adéqua às
relações entre imagens e categorias. Na linha do que discuti no capítulo anterior (veja 2
Imagem-rede), gostaria de argumentar, portanto, que as redes neurais poderiam ser
compreendidas como “centros de cálculo” (LATOUR; HERMANDT, 2004), constituídos a
partir da coleção e recombinação de múltiplas inscrições colhidas do “mundo”. Neste
caso, de milhares ou milhões de imagens capturadas em sua circulação online. Os mode-
los são, então, derivados de processos de condensação e destilação destas inscrições em
descritores específicos. Não seria exagero dizer que cada operação de classificação reali-
zada por uma máquina destas deriva, indiretamente, do extenso acervo de imagens
utilizadas em seu treinamento. Deste modo, cada imagem individual que compõe estas
bases de treinamento teria seu papel na constituição do modelo e, ao final, na interpre-
tação que este modelo produz de uma imagem.
Figuras produzidas pela técnica do DeepDream (Figura 11), embora sejam decorrentes de
uma reapropriação de modelos de reconhecimento, são ilustrativas de como estes múlti-
plos registros incidem sobre uma imagem submetida à interpretação da máquina.
Sugerem algo como uma memória de padrões que se oferece como sintoma de uma visu-
alidade computacional particular, inscrita naquele modelo de reconhecimento de
imagens. Trata-se de um modo de tornar visível uma dimensão latente das relações tra-
çadas entre as imagens por um “olhar” computacional específico. Uma brecha para
compreendermos como aquele modelo aprendeu a ver. Esta seria, quero sugerir, uma das
possíveis materializações contemporâneas da hipótese conceitual que sugeri, no capítu-
lo anterior, por imagem-rede. Modelos de reconhecimento de imagens baseados em
redes neurais são pontos de articulação entre imagens que, sob seu domínio, declinam-
se em múltiplas inscrições que são progressivamente “comparadas”, “superpostas”,
“recombinadas”. As imagens são decompostas e reconstituídas, neste processo, como
efeitos emergentes das práticas de reconhecimento. Categorias são elaboradas como re-
ferências circulantes derivadas destas práticas.
Estes processos tornam-se tão mais relevantes quanto se difundem como principal
modo de mediação algorítmica das imagens, em plataformas online, aplicativos de re-
gistro e organização de coleções fotográficas, em arquivos, em museus, em bibliotecas.
Por meio destas aplicações, esta visualidade computacional particular incide diretamen-
151
te sobre a constituição de visualidades contemporâneas que extravasam a suposição de
um domínio específico da máquina. Este enredamento, por sua vez, pode proporcionar
uma operação metodológica para percorrer outros enredamentos. Os modelos de reco-
nhecimento inscritos em redes neurais funcionam como expressões e como
instrumentos de uma visualidade difusa das imagens em circulação. São objetos passí-
veis de reapropriação. É preciso uma rede para compreender uma rede: este é, em outros
termos, a aposta metodológica desta tese.
3.2.2 Vetorização
Como discuti na seção anterior, uma das características mais proeminentes das técnicas
de aprendizado de máquina é sua dependência de grandes bases de dados de treinamen-
to. Simetricamente, por assim dizer, a demanda por tais sistemas é também decorrente
da explosão exponencial dos volumes de dados por se analisar, nas mais diversas áreas
do conhecimento e aplicações comerciais. Uma compreensão do aprendizado de máqui-
na e das redes neurais deve também considerar, portanto, o modo como tais dados são
incorporados a estas máquinas: as inscrições por meio das quais realizam suas operações.
Tipicamente, os dados processados pelo aprendizado de máquinas assumem a forma de
vetores e, em vista do percurso teórico elaborado a partir do capítulo anterior, trata-se
de um tema fundamental para que possamos compreender as declinações ontológicas da
imagem digital em seu processamento por redes neurais, em um dos caminhos por se
perseguir em sua ontografia.
Adrian Mackenzie (2017, p. 51) indica que a vetorização seria uma operação fundamental
que, inclusive, condicionaria a possibilidade de o aprendizado de máquina se situar em
um “espaço epistêmico em expansão”. A centralidade da operação de vetorização seria
tamanha, para o autor, que ele elabora que “aprendizes maquínicos” – como ele se refe-
re às máquinas, junto a seus desenvolvedores e operadores – “habitam um espaço
vetorizado”. Cardon, Cointet e Mazières (2018), embora expressem-se em outros ter-
mos, não divergem desta compreensão e descrevem o vetor como a forma assumida pelo
mundo em seu contato com a calculadora. Citando indiretamente Yann LeCun, um cien-
tista da computação de destaque no desenvolvimento contemporâneo do aprendizado de
máquina, os autores dizem que “o objetivo dos desenvolvedores de máquinas conexio-
nistas é colocar o mundo em um vetor”108 (CARDON; COINTET; MAZIÈRES, 2018, p. 24).
108 No original: “the goal of the designers of connectionist machines is to put the world in a vector”. Tradução minha.
152
Para recuperar termos utilizados no capítulo anterior, tomados de Madeleine Akrich
(1992), o aprendizado de máquina teria como prescrição que um conjunto de dados, para
que seja processado ou tomado como base de treinamento, precisaria antes ser transfor-
mado na forma vetor. Escrevem Cardon, Cointet e Mazières (2018, p. 23): “o mundo deve
ser codificado de antemão na forma de uma representação digital vetorial pura”109.
Compreender tais asserções demanda considerar as diferenças internas aos modos de
representação da informação digital, aspecto que – como discuti no capítulo anterior – é
frequentemente relevado em abordagens teóricas das mídias digitais que resumem a
inscrição digital a uma simples “numerização”, em que tudo assumiria as formas de ze-
ros e uns. Efetivamente, como já exemplifiquei com o caso do codec JPEG (veja 2.2.3
Multiplicidade ontológica: declinações materiais da imagem), há muitas formas pelas
quais uma informação pode ser representada digitalmente. Embora todas elas, no nível
mais baixo de abstração, sejam codificadas na forma de bits – os tais zeros e uns – em
níveis mais elevados os dados podem assumir formas distintas que, por sua vez, favore-
cem determinadas operações em detrimento de outras. Um vetor é uma destas formas de
nível intermediário, e sua estruturação dos dados é relativamente simples: trata-se de
uma sequência linear de dados numéricos, de comprimento variável.
Para o aprendizado de máquina, os vetores funcionam como coordenadas em um espaço
multidimensional. Efetivamente, cada número da sequência corresponde à coordenada
de uma dimensão específica. Um vetor de 4.096 dimensões, por exemplo, descreveria a
posição de um ponto em um espaço de 4.096 dimensões. Uma das consequências desta
compreensão dos vetores no aprendizado de máquina é abordada por Mackenzie (2017)
em contraste com outra estruturação de dados paradigmática: a tabela. O principal as-
pecto que gostaria de desenvolver, a respeito desta comparação, diz respeito ao que
Mackenzie (2017, p. 56) sugere como um “colapso ou liquidação de bases de dados tabu-
lares”110 pela vetorização.
A partir de Foucault111, Mackenzie descreve como as tabelas foram formações de dados
especialmente afeitas a certas operações da ciência e da política modernas, como a taxo-
nomias. As tabelas favorecem uma redução de objetos complexos, realizando sua
109 No original: “the world must be coded in advance in the form of a purely digital vectorial representation”. Tradução
minha.
110 No original: “collapse or liquidation of tabular datasets”. Tradução minha.
111 O autor se refere a diferentes obras do filósofo, mas especialmente à Arqueologia do conhecimento e As palavras e
as coisas.
153
distribuição em planos regulares, divididos em linhas e colunas. Escreve Mackenzie
(2017, p. 56–57): “De modo importante, a tabela como espaço de ordem era um espaço
de imaginação, no qual uma pessoa poderia começar a ver continuidades e diferenças
entre coisas (organismos, palavras, nações) por meio do ordenamento e do exame cui-
dadoso da tabela”112. A estruturação do mundo na forma da tabela tende, afinal, a um
ordenamento espacial cartesiano, em que identidades e diferenças operam de modo pre-
ciso. A cada ser, sua linha. A cada qualidade, sua coluna. As operações biopolíticas
proporcionadas pela tabela também tendem a seguir estes eixos. Seguindo as linhas,
adentramos no nível do indivíduo. Seguindo as colunas, acercamo-nos das populações e
suas distribuições estatísticas. Mackenzie (2017) sugere que a vetorização, de outro
modo, proporcionaria movimentos diagonais.
Um modo de compreender esta diagonalização, sugere Mackenzie, seriam estruturas de
tabelas associadas, que compõem, por exemplo, mecanismos de bancos de dados. Como
os vetores, também elas comportam uma complexidade maior do que as proporcionadas
pelas tabelas – itens podem se distribuir em muitos espaços tabulares e, assim, ser sub-
metidos a diferentes escalas e bases de comparação. Porém, seria importante observar
como a expansão dimensional operada pelos vetores sugere um colapso estrutural mais
profundo do tipo de ordem constituída pelas tabelas. À medida que todas as qualidades
de um item individual são codificadas numericamente e condensadas na forma vetorial,
todas elas contribuem ao posicionamento daquele item em um espaço multidimensional
que, ao menos em princípio, aproxima-se de uma espacialidade lisa.
Um programa de aprendizado de máquina opera, então, pela navegação deste espaço. As
diferenças, que proporcionam operações de classificação são identificadas pelos progra-
mas à medida que, por diversas operações, eles conseguem perseguir estrias no espaço
vetorial – como Mackenzie formula a partir de Alfred North Whitehead113 (1960, citado
por MACKENZIE, 2017). Elabora o autor:
Uma vez que esta distribuição de elementos no espaço existe – oculta, ex-
pansível e transformável (por rotação, deslocamento, ou mudanças de escala)
– esforços vigorosos serão feitos para trazer loci [locais] à luz. Aprendizes
maquínicos buscam estes loci ou tateiam estrias nos dados, para usar o termo
de Whitehead, ao longo de diferentes linhas114 (MACKENZIE, 2017, p. 63).
112 No original: “Importantly, the table as a space of order was a space of imagination, in that one could begin to see con-
tinuities and differences between things (organisms, words, nations) by carefully ordering and scanning the table ”.
Tradução minha.
113 WHITEHEAD, Alfred North. Process and reality, an essay in cosmology. New York: Macmillan, 1960.
154
Tipicamente, as operações do aprendizado de máquina seriam descritas pela demarca-
ção de porções do espaço vetorial que pudessem descrever classes ou categorias em meio
aos dados. Isto porque a vetorização performa identidades e diferenças como proximi-
dades relativas entre os entes no espaço vetorial. “No espaço vetorial, identidades e
diferenças mudam de natureza. Similaridade e pertencimento não se fiam mais na pare-
cença ou em uma gênese comum, mas em medidas de proximidade ou distância”115
(MACKENZIE, 2017, p. 73). Estas operações seriam proporcionadas pelos vetores em sua
qualidade de expansão dimensional do espaço das representações, e também, pela dia-
gonalização dos movimentos possíveis por este espaço, transpondo os limites estritos
das linhas e colunas da tabela.
A vetorização também possui consequências pragmáticas para o processamento compu-
tacional e as práticas de programação sobre estes dados. Como elabora Mackenzie (2017,
p. 67–68), a vetorização dos dados é acompanhada de transformações das linguagens de
programação e da própria infraestrutura de processamento. Estruturas de dados lineares
ou de poucas dimensões são tipicamente processadas por códigos recursivos, organiza-
dos em loops, que realizam operações individualmente sobre cada célula de uma tabela
ou item de uma lista, por exemplo. Linguagens de programação que operam sobre veto-
res, de outro modo, recebem comandos que se endereçam simultaneamente a todos os
elementos da estrutura de dados. Este é o caso da linguagem R e, também, do módulo
Pandas da linguagem Python. Escreve Mackenzie (2017, p. 69): “O ponto verdadeiramen-
te crucial na vetorização de dados não é a velocidade, mas a transformação da prática de
dados. Ela torna o trabalho com dados menos parecida com a iteração por estruturas de
dados [...] e mais parecida com a dobra de um material flexível”116. A indicação de que
esta mudança não aumenta necessariamente a rapidez dos processos é importante. A
execução dos comandos não é necessariamente mais veloz, mas a forma de pensar sobre
os dados na prática de programação e processamento transforma-se substancialmente.
As consequências pragmáticas também incidem em um nível infraestrutural. Pois a ob-
tenção de maior eficiência nestas operações vetoriais demanda arquiteturas de
processamento específicas, que favoreçam o processamento paralelo e o trabalho simul-
114 No original: “Once this hidden, expandable, and transformable (by rotation, displacement, or scaling) distribution of
elements in space exists, strenuous efforts will be made to bring loci to light. Machine learners search for these loci or
feel for data strains, to use Whitehead’s term, along different lines”. Tradução minha.
115 No original: “In vector space, identities and differences change in nature. Similarity and belonging no longer rely on
resemblance or a common genesis but on measures of proximity or distance”. Tradução minha.
116 No original: “The real stake in vectorizing data is not speed but a transformation in data practice. It makes working
with data less like iteration through data structures […] and more like folding a pliable material”. Tradução minha.
155
tâneo em múltiplas dimensões (MACKENZIE, 2017, p. 70). O processamento computaci-
onal demandado pelo aprendizado de máquina em redes neurais é, por isso, comumente
realizado em Unidades de Processamento Gráfico (GPUs, na sigla em inglês), em uma es-
pécie de reapropriação tecnológica no nível do hardware. Pois a finalidade que
inicialmente motivou o desenvolvimento das GPUs foi o processamento de dados para
computação gráfica, calculando a exibição de gráficos 3D de jogos digitais, por exemplo.
Hoje, a demanda por tais unidades de processamento é também fortemente vinculada ao
desenvolvimento de sistemas de aprendizado de máquina, em mais um exemplo das re-
lações constitutivas entre este domínio e o problema da computacionalidade das
imagens.
Na esteira da discussão do capítulo anterior (veja 2 Imagem-rede ), estas considerações
evidenciam a intrincada relação entre agenciamentos sociotécnicos e suas inscrições. A
descrição da vetorização como processo de produção de inscrições e, de modo mais es-
pecífico a esta discussão, de multiplicação ontológica das imagens traz, de arrasto, uma
ampla rede de elementos que não podem ser considerados em isolamento. O vetor, en-
quanto forma de estruturação de dados prescrita pelo aprendizado de máquina indica
como o processamento realizado por estas técnicas indutivas não ocorre sobre um do-
mínio indiferenciado, como sugerem acepções essencialistas do digital. Os vetores
proporcionam práticas de processamento e gestos de conhecimento específicos que, se
não são exatamente impossíveis, tampouco são facilitadas por outras formas de estrutu-
ração. Como descreve Mackenzie (2017, p. 73), a vetorização “produz um espaço comum
que justapõe e mistura realidades localizadas complexas”117. Vetores, ao definirem posi-
ções relativas em uma espacialidade multidimensional, favorecem um movimento
diagonal pelos dados, em contraste com estruturas tabulares ou lineares típicas.
A compreensão destas possibilidades, porém, apenas ganha tração quando os vetores
são considerados como parte do agenciamento constituído pelas técnicas de aprendiza-
do de máquina e segundo as demandas que este agenciamento, por sua vez, visa atender.
Segundo Mackenzie (2015), estas seriam demandas de previsão sobre realidades datifica-
das complexas. Para o caso específico das imagens, o aprendizado de máquina realiza
tarefas de reconhecimento e classificação, ambas intimamente relacionadas, que aten-
dem ao desafio de datificação do visível, tomando as imagens como instâncias
operacionais de conhecimento e de ação sobre o mundo. As mediações implicadas por
117 No original: “produces a common space that juxtaposes and mixes complex localized realities”. Tradução minha.
156
tais operações distribuem-se entre a arquitetura destes sistemas, a estruturação de suas
inscrições e os dados fornecidos como bases de treinamento. Por sua vez, as demandas
geradas por tais mediações ampliam-se para além de qualquer possibilidade de circuns-
crição das máquinas indutivas, em direção às infraestruturas de processamento e
práticas de programação e trabalho com dados.
Como consequência deste modo de operar sobre o mundo, haveria, no caso específico
das imagens, um modo bastante peculiar de produção de inscrições sobre o visível. Uma
rede neural como a esquematicamente descrita na Figura 8 compreende uma máquina
de transformação de vetores, que progressivamente desloca a imagem por um espaço
vetorial até que, ao final, delimita regiões ou locais deste espaço que corresponderiam
àquelas pertinentes às classes utilizadas no treinamento. Este deslocamento é orientado
pelos filtros e pesos definidos para as camadas durante o período de “aprendizado”. En-
tre uma ponta e outra do processo, portanto, não se tem uma imagem visível. Estes
vetores e os filtros que condicionam a ativação de determinados “neurônios” da rede
podem ser visualizados de forma similar à produção de um gráfico mas eles não são, em
si, visíveis. Talvez possamos compreendê-los a partir da noção que Paul Virilio (1993)
propôs, certa vez, de “imagem virtual instrumental”, em uma analogia com as “ima-
gens mentais”. Estaríamos no plano de representações internas ao processo de
percepção maquínica do mundo que, para o caso do aprendizado de máquina por redes
neurais, apresenta-se na forma destes vetores118.
Este complexo arranjo, por sua vez, produziria, como parte de sua operação, um “modo
de ver” particular. Ao mesmo passo em que estas inscrições descrevem uma posição re-
lativa para as imagens em um espaço vetorial multidimensional, a operação destas
máquinas também constitui uma espacialidade específica segundo os dados de treina-
mento mobilizados. O escopo das imagens utilizadas para o treinamento configuram,
afinal, um horizonte de possibilidades para o campo visual elaborado por estas máqui-
nas. As estrias percorridas pelos sistemas de aprendizado em meio a este espaço podem
ser descritas como variações de densidade. Cada base de treinamento e cada arquitetura
de rede neural tenderia a produzir algumas regiões mais povoadas de imagens, em que
características ou temas recorrentes formariam polos de atração para grandes agrupa-
mentos; mas produziria também amplos desertos, em que características menos
118 Adiante, no estudo de caso apresentado no capítulo 4, voltarei a uma abordagem mais direta destas inscrições
em uma operação de “extração de características”.
157
recorrentes se distribuem em uma espacialidade gasosa, esparsa. As características desta
distribuição e, também, o perímetro descrito por seus limites seriam, quero sugerir, in-
dicativos da visualidade computacional constituída por cada rede neural em sua operação.
Cabe lembrar, aqui, o sentido específico do aprendizado das máquinas, que longe da
apreensão do novo, tenderia sempre à reprodução de padrões implícitos na estrutura dos
dados de treinamento. Justamente por esse motivo, o olhar que se volta às bases de trei-
namento como instâncias analíticas centrais dos modelos indutivos tem hoje imensa
relevância (cf. BUOLAMWINI; GEBRU, 2018; CRAWFORD; PAGLEN, 2019; HARVEY,
2019).
3.2.3 Aprendizes maquínicos
Traduzo por “aprendizes maquínicos” a formulação adotada por Adrian Mackenzie
(2017, p. 6) logo no título de seu volume dedicado a uma abordagem arqueológica do
aprendizado de máquina – Machine Learners. Esta formulação visa se referir indistinta-
mente a humanos e máquinas – ou a relações humano-máquina – como partes
implicadas pelas técnicas de aprendizado de máquina. O sentido não é o de uma equiva-
lência – como se a técnica produzisse máquinas plenamente inteligentes – mas sim de
uma mútua afetação. Nesse sentido, a adjetivação da palavra máquina no português
como “maquínico”, embora se afaste da formulação original de Mackenzie (que não fala,
afinal de machinic learners), abre uma possibilidade de aproximação que, a meu ver, po-
tencializa sua força conceitual se considerarmos o significado do termo maquínico na
visada filosófica de Deleuze e Guattari. Pois, para estes autores, a noção de máquina não
corresponde apenas às máquinas tecnológicas, mas a um problema que as antecede –
algo que Guattari (2003) enuncia em um texto de revisão. De outro modo, para ele, a téc-
nica seria um subdomínio da problemática maquínica que seria uma “categoria que
engloba tudo o que se desenvolve como máquinas nos diferentes registros e suportes
ontológicos” (GUATTARI, 2003, p. 42). Esta acepção possibilita, então, a descrição de di-
ferentes fenômenos como maquínicos: desde a cidade até processos psíquicos, como o
desejo.
Em comum, estes agenciamentos maquínicos articulariam movimentos complementares
de autopoiese e alopoiese, isto é, um modo de funcionamento que produz e articula uma
dimensão interior a uma dimensão exterior. De modo importante para o que gostaria de
desenvolver aqui, as máquinas são compreendidas por Guattari (a partir de Leibniz)
158
como articuladas em um desenho fractal: “aquém e além da máquina, o ambiente da
máquina faz parte de agenciamentos maquínicos” (GUATTARI, 2003, p. 41). Em suma,
quero com esta aproximação sugerir que a noção de aprendizes maquínicos – esta cor-
ruptela que proponho, a pretexto de uma tradução – permite compreender o
aprendizado de máquina como agenciamento maquínico que se articula, para além de
todo isolamento, como um processo pertinente tanto às máquinas tecnológicas quanto
aos humanos que desenvolvem tais máquinas e que elas, por sua vez, alcançam.
Um dos primeiros modos de compreender esta relação deriva do deslocamento que o pa-
radigma do aprendizado de máquina provoca para o papel da pessoa desenvolvedora dos
sistemas. Cardon, Cointet e Mazières (2018, p. 3) sintetizam: “O que era previamente
concebido como o componente ‘humano’ na criação de calculadoras, o programa, as re-
gras ou o modelo, não era mais um elemento inserido no sistema mas, sim, o seu
resultado”119. Adrian Mackenzie (2017, p. 21) retoma de Pedro Domingos (2012) a metá-
fora que concebe o desenvolvimento de sistemas de aprendizado de máquina como
“agricultura” (farming)120. Isto é, enquanto a programação tradicional demanda a cons-
trução dos programas, o aprendizado de máquina permite que eles sejam “cultivados”.
Como discuti, este deslocamento se encontra já presumido pela transição de um para-
digma dedutivo, ou simbólico, a um paradigma indutivo, ou conexionista. Pois a função
da programação, de uma abordagem à outra, deixa de assumir um papel tão claro quanto
é a definição das operações que serão realizadas pela máquina em sua tarefa de produzir
classificações e previsões. Ou seja, a pessoa programadora não sabe, de antemão, como o
programa gerado por meio do aprendizado de máquina irá se comportar e nem precisa
conhecer exatamente as características dos dados para que este processo gere algum re-
sultado. Neste sentido, não é apenas a máquina que aprende, mas também a pessoa
desenvolvedora. O modelo produzido pela máquina seria tão útil para produzir asserções
sobre outros dados, além da base de treinamento, quanto para melhor compreender a
constituição dos dados de treinamento.
Um dos efeitos desta mudança são as concepções equivocadas de que tais processos po-
deriam conferir uma objetividade aos programas, como se os dados “falassem por si
119 No original: “What was previously though of as the ‘human’ component in the creation of calculators, program, the
rules, or the model was no longer input into the system but rather its result”. Tradução minha.
120 Ironicamente, esta acepção reverbera com o fato de que boa parte do processamento realizado para o desenvol-
vimento destes programas ocorre em “fazendas de servidores” (server farms): grandes conjuntos de
computadores, geralmente localizados em zonas remotas, que constituem um dos elementos fundamentais da
infraestrutura da computação “em nuvem”.
159
próprios”. Efetivamente, como discuti, o paradigma do aprendizado de máquina opera
por meio da condensação de enormes quantidades de exemplos em modelos progressi-
vamente otimizados de modo a se adequar a estes dados. Mas, partir desta observação
para supor tal objetividade é tomar um atalho argumentativo facilmente contestável.
Pois conceber tais programas como objetivos ou neutros pressupõe que tais qualidades se
estenderiam tanto para a constituição da máquina quanto aos dados e classificações
prévias utilizadas para o treinamento. No entanto, deve-se reconhecer como o desloca-
mento da posição da pessoa desenvolvedora complexifica qualquer presunção de
controle que essa pessoa poderia ter sobre o programa resultante. Contestar a objetivi-
dade ou neutralidade do programa não deve se equivaler a supor que o programa fosse
um produto da subjetividade de quem o programou. Mesmo atribuir um vínculo muito
estreito entre a operação do programa e uma intencionalidade institucional que o en-
gendrou seria um movimento arriscado, dado o caráter emergente dos processos
indutivos implicados. Há, evidentemente, uma margem de agência sobre o desenvolvi-
mento dos programas, no desenho da arquitetura, na preparação dos dados de
treinamento e em outras etapas do processo. Mas este controle não é completo e deve-se
reconhecer o caráter mediador da técnica, que não se dobra, como discuti (veja 2.2.1 Me -
diação técnica: da luz à imagem), a partir de Latour (2001), como uma simples
ferramenta sob o comando de um super-ator. Contra a tentação de atribuir uma agência
prioritária a um ou outro ator, humano ou máquina, é preciso enquadrar a questão sob a
perspectiva de uma associação, em um construto sociotécnico. Este seria o primeiro sen-
tido da ideia de aprendizes maquínicos.
Um segundo sentido poderia ser articulado considerando a partir do quê ou de quem a
máquina aprenderia – se há máquinas que “aprendem”, haveria “educadores” de
máquina? Se consideramos os dados de treinamento como uma construção realizada por
(geralmente) muitos atores, sim, poderíamos encontrar múltiplas instanciações destes
“educadores”. O “ensino”, tipicamente, ocorreria de forma distribuída e, muitas vezes,
sem que os “educadores” tenham consciência de sua atividade. No contexto das plata-
formas online, trata-se de atividade tanto inconsciente quanto involuntária. Os limites
da datificação nestes contextos nunca é claro mas, potencialmente, toda atividade reali-
zada sob seu domínio seria passível de integração a um sistema de aprendizado de
máquina – se já não como treinamento, certamente como um dado utilizado para gerar
uma previsão a partir de um modelo pré-construído.
160
Em uma situação já mais consciente, mas nem por isso opcional, há o curioso caso do
projeto ReCAPTCHA, hoje de propriedade da Google, que articula de maneira intrincada
duas tarefas aparentemente paradoxais. Por um lado, identificar se a navegação em uma
página da Web está sendo realizada por um humano ou por um “robô”, por meio de uma
tarefa – tipicamente de Visão Computacional – que uma máquina geralmente teria difi-
culdade em realizar. Por outro, produzir dados de treinamento para aprendizado de
máquina exatamente para que uma máquina seja capaz de realizar aquela tarefa. A sigla
CAPTCHA significa Completely Automated Public Turing Test to Tell Computers and Humans
Apart (algo como “Teste de Turing público completamente automatizado para diferenci-
ar humanos de computadores”). O nome faz menção à famosa proposição do cientista da
computação britânico Alan Turing ([1950] 2003), que sugeriu um teste como forma de
declarar uma máquina como inteligente. Os detalhes de seu teste não vêm ao caso aqui,
mas importa compreender que Turing o propôs como um parâmetro de referência para a
inteligência, enquanto, de outro modo, os CAPTCHAs são testes de valor pragmático que
visam distinguir e não equivaler humanos e máquinas. A forma prototípica do CAPTCHA
envolvia a exibição de uma imagem ruidosa de letras e números para que o agente que
buscava acessar uma página Web reconhecesse os caracteres. Os ReCAPTCHAs, por sua
vez, utilizam a informação produzida nesse reconhecimento, pelos agentes humanos,
para gerar bases de treinamento para o aprendizado de máquina. A Google inicialmente
utilizou deste dispositivo para aperfeiçoar o reconhecimento de caracteres utilizado em
sua base de livros. Hoje, o treinamento parece se dirigir especialmente ao reconheci-
mento de imagens do produto Google Street View, que registra imagens ao nível da rua
de cidades de várias partes do mundo.
O caso do ReCAPTCHA é interessante por não se tratar apenas de um modo de produção
de dados de treinamento mas também, simultaneamente, de um dispositivo que realiza
uma distinção performativa entre as categorias de humano e de máquina. Por um lado, a
dependência do aprendizado de máquina do olhar humano para produzir os dados utili-
zados em seu treinamento sugere um movimento com tendência de equiparação em que
a visualidade constituída por meio da máquina tomaria o olhar humano como parâme-
tro. Por outro, ao também realizar uma distinção entre estas categorias, o ReCAPTCHA
seguiria apostando na impossibilidade desta equivalência. Em todo caso, contudo, é pre-
ciso observar como o modo com que a distinção opera assume um parâmetro
161
performativo, em que as categorias de humano e máquina não são presumidas de ante-
mão e sim constantemente reconfiguradas segundo aspectos dos comportamentos dos
agentes, que são mutuamente constituídos.
Este argumento é elaborado pela antropóloga Lucy Suchman (2007) em sua discussão do
desenvolvimento da IA e de suas figurações antropomórficas. Sua elaboração articula as-
pectos do ciberfeminismo de Donna Haraway e, também, a teoria performativa de
gênero de Judith Butler, para compreender que humano e máquina não seriam categori-
as essenciais ou naturais, mas sim em constante mutação, sendo reiteradamente
materializadas em práticas e comportamentos. De modo importante, enquanto catego-
rias tipicamente consideradas em oposição, Suchman sugere a necessidade de
considerá-las de maneira relacional, como mutuamente constituídas. Para esta investi-
gação121, tal compreensão deve nos levar a reconhecer a impossibilidade da consideração
de visualidades “humanas” ou “da máquina” em isolamento. Em larga medida, ao ensi-
narmos as máquinas a ver, estamos também nos ensinando a ver de determinada
maneira. Isto não ocorre apenas quando estamos diante dos resultados da operação de
um programa de aprendizado de máquina, como quando analisamos os dados categóri-
cos produzidos por uma rede neural a partir de uma imagem. Isto também ocorre
quando, diante do ReCAPTCHA, por exemplo, nos é solicitado olhar uma imagem como
uma máquina o faria – demarcando a área ocupada por um hidrante ou um semáforo;
identificando quais imagens contêm pontes ou quais contêm cachorros. Reconhecer e
classificar é, enfim, a operação característica desta visualidade que nos interpela.
Aprendermos a ver com e como as máquinas não implica, evidentemente, que assumirí-
amos integralmente tal modo de ver. Mas, sim, que aprenderíamos a reconhecê-lo e, em
alguma medida, a ver com ele. O reconhecimento se torna inclusive uma necessidade im-
perativa diante das imagens geradas por tais máquinas, pela técnica das GANs, e seu uso
potencial em fake news, por exemplo: reconhecer na imagem aquilo que os modelos
compreendem mal e que, por isso, também gerariam mal (cf. MCDONALD, 2018). Em
outros momentos, este aprendizado maquínico se reflete em experiências estéticas rea-
lizadas diretamente com as máquinas, com o desenvolvimento de sistema de
121 Trata-se de argumento que também desenvolvi em minha dissertação de mestrado (MINTZ, 2015).
162
aprendizado de máquina para fins artísticos (veja nota 94); ou apenas pela sugestão do
olhar da máquina, em uma reapropriação de seu modo de ver, como no trabalho I’m Go-
ogle da artista estadunidense Dina Kelberman122.
Em ainda outra sugestão da noção de aprendizes maquínicos, teríamos as implicações do
uso destes sistemas em contextos de produção e organização do conhecimento. Indo
além da constituição das redes neurais como “centros de cálculo”, como sugeri, tería-
mos nestes casos a integração das redes neurais a centros de cálculo mais abrangentes,
como em laboratórios, museus, arquivos e bibliotecas. Neste sentido, aprenderíamos
junto a máquinas modos de navegar por documentos, imagens, inscrições. Um exemplo
deste tipo de operação pode ser encontrado no experimento Curator Table (DIAGNE;
BARRADEAU; DOURY, 2018), desenvolvido por artistas residentes da Google a partir da
base de dados de obras de arte que a empresa mantém em parceria com museus de várias
partes do mundo (Figura 12). Trata-se de um dispositivo de navegação pelas milhares de
obras que compõem esse acervo, que utiliza dos dados gerados por um modelo de reco-
nhecimento de imagens para dispor as imagens em uma representação plana do espaço
vetorial produzido pela rede neural. A planificação do espaço multidimensional utiliza o
algoritmo t-SNE (MAATEN; HINTON, 2008), que realiza uma redução de dimensionali-
dade buscando preservar as relações de proximidades estabelecidas no espaço vetorial
122 Cf. https://dinakelberman.tumblr.com/
163
em sua projeção para espaços de duas ou três dimensões. Em um âmbito mais restrito, o
projeto Neural Neighbors, do Digital Humanities Lab, da Universidade de Yale (Figura 13),
utiliza metodologia similar para construir um dispositivo de navegação heurística pela
coleção de fotografias Meserve-Kunhardt (YALE DIGITAL HUMANITIES LAB, 2017). A
visualização de cada imagem vem acompanhada de seus ‘vizinhos neurais’ mais próxi-
mos, segundo 2.048 dimensões dos atributos visuais computados por meio de uma rede
neural. Estes são exemplos, portanto, em que o aprendizado de máquina opera não como
uma instância final de datificação das imagens que, a partir de então seriam tratadas ex-
clusivamente como dados. De outro modo, as técnicas de aprendizado de máquina
operam como uma interface ativa para orientar um observador em meio a milhares de
imagens.
A estratégia adotada no estudo de caso desta tese (veja 4 Estudo de caso: imagens de
uma prisão) baseia-se, em larga medida, nos procedimentos adotados nestes casos. Efe-
tivamente, visualizações como essas têm se tornado parte de um modo cada vez mais
consolidado de lidar com a operação de modelos de reconhecimento de imagens. Já na
minha dissertação de mestrado (MINTZ, 2015), que propunha uma abordagem teórica
164
para a Visão Computacional pelo ponto de vista da imagem, expus na capa uma visuali-
zação bastante similar, produzida pelo então doutorando em Ciências da Computação,
por Stanford, Andrej Karpathy (2012). Os procedimentos adotados por Karpathy são bas-
tante similares aos que desenvolvo aqui e, também, aos adotados pelos casos citados. Os
modelos de aprendizado de máquina são utilizados a fim de dispor as imagens em um
espaço vetorial que, posteriormente, tem suas dimensões reduzidas por meio do algorit-
mo t-SNE. As imagens utilizadas por Karpathy eram, então, 50 mil figuras retiradas da
base de dados Imagenet (DENG et al., 2009). Os procedimentos que adoto aqui, baseados
no tutorial ML4A (REFSGAARD; TSENG; KOGAN, 2019), baseiam-se nas mesmas opera-
ções e permitem, como nestes outros casos, apreender um conjunto de imagens por
relações de similaridade constituídas a partir da visualidade inscrita nos modelos de re-
conhecimento aplicados.
Como discuti na subseção anterior (veja 3.2.2 Vetorização ), a distribuição dos dados ana-
lisados em um espaço vetorial constitui uma das operações fundamentais realizadas por
sistemas de aprendizado de máquina. Porém, a derradeira operação, tendo em vista o
uso típico destes sistemas para tarefas de classificação, seria a demarcação de regiões ou
locais em meio a esse espaço, seguindo, como sugere Mackenzie (2017, p. 63), as estrias
nos dados. Algumas visualizações realizadas por meio do algoritmo t-SNE, por outro
lado, detêm-se em um estágio ainda anterior, apresentando uma representação plana do
espaço vetorial antes de que se definam as regiões específicas às classes utilizadas no
treinamento. Trata-se, portanto, de operação que interrompe, em certa medida, a ope-
ração típica realizada por esses modelos. Este gesto, quero sugerir, abriria uma margem
para sua reapropriação crítica, uma brecha para lançar sobre a operação da máquina um
olhar autorreflexivo.
Entre as técnicas pertencentes ao domínio do aprendizado de máquina, chama-se
“aprendizado por transferência” (transfer learning) (REFSGAARD; TSENG; KOGAN,
2019) a apropriação de um modelo pré-treinado para a realização de uma tarefa espe-
cífica não prevista por esse modelo. A apropriação é realizada por um novo processo de
treinamento das camadas posteriores do modelo com base em uma nova base de treina-
mento. A vantagem desta técnica é que não seria preciso passar pelo complexo e custoso
procedimento de construir um modelo “do zero”. Os recursos de processamento e a
quantidade de imagens necessária para este novo treinamento seria bastante inferior.
Por exemplo, seria possível tomar um modelo de classificação de imagens treinado a
165
partir dos dados do projeto Imagenet (DENG et al., 2009) para que ele seja capaz de iden-
tificar um objeto específico não previsto na taxonomia do modelo original. Digamos:
para reconhecer fotografias do prédio da Faculdade de Filosofia e Ciências Humanas
(Fafich) da UFMG. Pela técnica do aprendizado por transferência, utilizaríamos um seg-
mento das camadas anteriores da rede neural, com seus pesos definidos pelo
treinamento na base Imagenet, e o acoplaríamos a novas camadas, ainda sem pesos defi-
nidos, que seriam treinadas com imagens selecionadas especificamente para esta tarefa.
Deste modo, são aproveitadas algumas das características “aprendidas” pelo modelo
original na construção de um novo modelo, cujo objetivo será, grosso modo, desenhar
outras linhas de demarcação no espaço vetorial anteriormente produzido, a fim de de-
marcar as porções pertencentes a essa classe específica – o prédio da Fafich.
Retomo essa descrição técnica para sugerir algo como uma metáfora, mas que talvez
possa ser tomada de forma mais literal. As visualizações que indiquei acima, geradas a
partir do algoritmo t-SNE, oferecem um ponto de vista para representações intermédias
de um modelo de reconhecimento de imagens. Elas exibem, afinal, o espaço vetorial
constituído pelo modelo, com as imagens distribuídas segundo suas posições relativas.
Estas visualizações seriam, nesse sentido, provenientes de um segmento das camadas
anteriores do modelo de reconhecimento, antes da definição de classes específicas para
cada imagem. Trata-se, nesse sentido, de uma representação interna do modelo que se
assemelha àquela que seria reapropriada na aplicação da técnica de aprendizado por
transferência que descrevi no logo acima. A diferença deste caso, contudo, é que em vez
que apresentar esta representação interna a um outro sistema de aprendizado de máqui-
na, ela é apresentada a observadores humanos que podem então, eles mesmos, percorrer
as estrias dos dados, representados no espaço vetorial. Quero sugerir este como mais um
dos sentidos possíveis da noção de aprendizes maquínicos, compreendendo as múltiplas
possibilidades de reconfiguração das posições e das definições de observadores humanos
e não-humanos em um mesmo circuito. Voltarei a abordar este tipo de operação no es-
tudo de caso apresentado adiante.
3.3 Visualidade e infraestrutura
Mackenzie (2017, p. 3) propõe compreender o aprendizado de máquina na interseção de
três grandes acúmulos. Primeiro, relativo a campos ou domínios de aplicação desta téc-
166
nica. Pois, efetivamente, não são apenas os dados que precisam ser constantemente des-
locados e acumulados, mas também as técnicas algorítmicas do aprendizado de máquina
constituem-se em um contexto de ampla mobilidade, sendo aplicada às mais diversas
disciplinas científicas e, também, a inúmeros contextos cotidianos – do microdireciona-
mento de anúncios em plataformas digitais ao diagnóstico médico, passando pela
vigilância distribuída e a elaboração de perfis de crédito, entre outros. Este intenso trân-
sito seria um fator importante de sua consolidação e desenvolvimento, conferindo-lhe
uma relevância difusa e, com isto, um ecossistema de maturação e concretização técnica.
Um segundo acúmulo seria relativo aos dados. Este aspecto seria mais evidente, diante
da dependência destas técnicas de amplas bases de treinamento e, também, uma vez que
seu desenvolvimento volta-se exatamente às demandas de processamento decorrentes
do crescimento exponencial do chamado big data. Por fim, um terceiro acúmulo seria re-
lativo às diferentes técnicas de aprendizado de máquina e aos aparatos – isto é, o
hardware – demandados para seu funcionamento. O aprendizado de máquina cria uma
alta demanda de capacidade de processamento e, como indiquei na seção anterior, estas
demandas se voltam especialmente a GPUs. Boa parte do suprimento desta necessidade
articula, hoje, amplas cadeias de “computação em nuvem”, com recursos de processa-
mento vendidos como um serviço online por grandes corporações da área de tecnologia
– notavelmente Amazon e Google.
Kate Crawford e Vladan Joler (2017) realizaram uma cartografia da ampla rede mobiliza-
da por sistemas de IA baseados em aprendizado de máquina, percorrendo os meandros
da ativação de um aparentemente banal assistente doméstico responsivo à voz – as
“caixas de som inteligentes”, prototípicas de investimentos recentes na chamada Inter-
net das Coisas. A partir do levantamento destes autores, poderíamos acrescentar ainda
outros acúmulos que seriam conformadores do aprendizado de máquina, indo da infra-
estrutura de comunicação global em rede, às cadeias de extração mineral e de descarte
que circundam a indústria tecnológica. Outro aspecto destacado por eles e que não chega
a constar da descrição de Mackenzie é o trabalho humano de classificação prévia dos da-
dos utilizados para o treinamento destes sistemas – aspecto que indiquei na seção
anterior (veja 3.2.3 Aprendizes maquínicos ), embora sem uma ênfase na condição de
trabalho destas relações. Estratégias utilizadas na codificação de dados de treinamento
167
para as máquinas indutivas envolvem desde plataformas de crowdsourcing, como a Me-
chanical Turk, de propriedade da Amazon; até o trabalho não remunerado de usuários,
por meio de sua própria atividade em plataformas de mídia social, por exemplo.
Deve-se observar, portanto, que os sistemas de aprendizado de máquina são construídos
sobre uma ampla camada infraestrutural, em um agenciamento que é tanto complexo
quanto caro. Boa parte desta camada, inclusive, antecede ao aprendizado de máquina e
empresas desenvolvedoras destes sistemas frequentemente contam com a vantagem
competitiva de acesso a estas estruturas, ou ao capital para custeá-las. Pois o desenvol-
vimento contemporâneo desta tecnologia também constitui um motor de ampliação e
complexificação infraestrutural, em especial pela integração destes sistemas à hetero-
gênea ecologia das plataformas online.
Ao ressaltar a dinâmica de acúmulos que teriam conformado o aprendizado de máquina,
Mackenzie (2017) – como também Cardon, Cointet e Mazières (2018) – visa, especifica-
mente, ir contra a ideia de que estas técnicas representariam uma transformação radical
em um plano epistemológico. Isto é, seu argumento arqueológico (no sentido foucaulti-
ano do termo) reconstitui as relações desta técnica “nova” com práticas e tecnologias
que lhe antecedem. Para o caso de Cardon, Cointet e Mazières (2018), o interesse são de-
senvolvimentos anteriores do paradigma conexionista, que remontam à cibernética dos
anos 1940 e 1950, bem como a controvérsia com o paradigma simbólico da IA. O ponto
que quero salientar nesta seção, contudo, volta-se menos a estas raízes epistemológicas
e pragmáticas do que aos acúmulos materiais e às assimetrias geradas pelo alto custo de
arregimentação das amplas dependências dos sistemas de aprendizado de máquina. Esta
questão, quero argumentar, tem fundamental importância para a discussão proposta
para esta tese quanto às visualidades computacionais engendradas por estes sistemas.
O tema da infraestrutura adentra os estudos de mídia contemporâneos por diferentes
caminhos. Estudos críticos da internet e certas perspectivas da arte mídia voltam-se ao
tema da infraestrutura como forma de se contrapor às narrativas que postularam o cará-
ter imaterial ou etéreo do ciberespaço ou da nuvem (cf. DRAGONA, 2016; VELDEN; KRUK;
METAHAVEN, 2015). Nestes casos, a ideia de infraestrutura assume com frequência o
sentido de hardware, em estudos interessados na geopolítica dos cabos submarinos ou
dos satélites, por exemplo123. Embora de forma não-exclusiva, outra vertente de consi-
123 Estudo ainda não publicado de Judith Keilbach sobre a infraestrutura de transmissão “ao vivo” do julgamento
de Adolf Eichmann descreveria outra vertente deste tipo de investigação.
168
deração sobre a infraestrutura relaciona-se a desenvolvimentos recentes dos chamados
estudos de plataforma. Traçando uma perspectiva crítica à denominação autoindulgente
de plataforma, sugerida pela própria indústria para o modelo de negócios assumido por
sites da internet a partir da chamada Web 2.0 (O’REILLY, 2005), os estudos de platafor-
ma visam descrever as mediações ativas das plataformas, contra a ideia de que seriam
meros sustentáculos neutros para as ações de seus usuários (GILLESPIE, 2010). Fazendo
um uso crítico da noção de plataforma, portanto, autores dedicados a esta perspectiva
consideram dinâmicas de plataformização em que uma miríade de práticas sociais passa-
riam a ser mediadas e, efetivamente, transformadas pelas plataformas online (cf.
BUCHER; HELMOND, 2018; D’ANDRÉA, 2018; HELMOND, 2015; NIEBORG; POELL,
2018). O tema da infraestrutura adentra esta discussão em particular pelo que veio a ser
descrito como uma infraestruturalização das plataformas (cf. DIJCK; POELL; WAAL, 2018;
HELMOND; NIEBORG; VLIST, 2019; PLANTIN et al., 2016). Neste caso, a noção de infra-
estrutura não tem um sentido tão literalmente material, mas volta-se, em especial, à
transição pela qual as plataformas online passariam prover serviços essenciais.
Segundo elaboram Plantin e colaboradores (2016), infraestruturas possuem uma série de
características que as distinguiriam de plataformas. A partir do referencial teórico dos
estudos de infraestrutura, um subdomínio dos STS, os autores (PLANTIN et al., 2016, p.
294) indicam entre as características centrais destas formações sociotécnicas: “ubiqui-
dade, confiabilidade [e] invisibilidade”124. A ubiquidade sugere o caráter efetivamente
distribuído e fundante das infraestruturas enquanto condições de existência de um cole-
tivo social. Também, a configuração das infraestruturas como agenciamentos
sociotécnicos amplos que conjugam elementos heterogêneos e difusos. A confiabilidade
seria, por sua vez, um atributo necessário para que infraestruturas sejam vistas como
tais, uma vez que assumem papeis fundantes na organização coletiva em uma relação de
dependência. Por fim, a invisibilidade sugere um processo próximo à noção de obscure-
cimento, decorrente do funcionamento eficaz das infraestruturas, que passam a ser
largamente ignoradas – a não ser quando falham. Os autores sugerem um movimento de
aproximação entre plataformas e infraestruturas – plataformização das infraestruturas e
infraestruturalização das plataformas – à medida que as plataformas passam a ser prove-
doras de serviços essenciais. Isto, embora não estarem submetidas ao escrutínio público,
como costuma ser o caso das infraestruturas tradicionais.
124 No original: “ubiquity, reliability, invisibility ...”. Tradução minha.
169
Exemplos voltados a domínios infraestruturais tradicionais são mais facilmente apreen-
didos, como a plataformização do transporte (Uber e afins); da habitação (AirBNB e
afins); ou da educação (Coursera e afins). Haveria, contudo, outros movimentos de in-
fraestruturalização menos evidentes, quando a plataforma constitui-se enquanto uma
infraestrutura em um novo ramo de atividades. Helmond, Nieborg e van der Vlist (2019),
por exemplo, sugerem que o desenvolvimento histórico do Facebook poderia ser com-
preendido como uma transição a uma “plataforma como infraestrutura”. Isto teria
ocorrido à medida que, por diversas estratégias, ele teria conseguido se estabelecer como
mediador fundamental de diferentes mercados, tais como o publicitário e o de vendas
online por exemplo, além de se constituir como meio de identificação principal para mi-
lhões de usuários em diferentes serviços da Web que, a princípio, não seriam
relacionados com o Facebook. Acerca deste último caso, trata-se do uso do Facebook
como mediador do registro e do acesso (log in) dos usuários. Neste sentido, o Facebook
teria assumido uma posição infraestrutural na internet, sobrepondo suas lógicas de go-
vernança interna, inclusive, às políticas públicas, em nível global.
A aproximação que quero propor entre o tema das infraestruturas e a discussão das visu-
alidades computacionais e do aprendizado de máquina seria um destes casos a princípio
menos evidentes. Quero sugerir que o reconhecimento de imagens operado por um pe-
queno conjunto de atores tenderia a assumir uma posição quase infraestrutural como
forma de mediação algorítmica do visível. Esta tendência decorreria da relativa escassez
e concentração dos modelos de reconhecimento de imagens disponíveis para pronta
aplicação – um efeito das assimetrias infraestruturais sobre as quais o aprendizado de
máquina é constituído. Para desenvolver um classificador de imagens equiparável em
eficácia aos hoje disponíveis – porém “do zero” – a obtenção de dados de treinamento
talvez constituiria um dos maiores custos iniciais. Seria preciso realizar a coleta, seleção
e categorização (esta, manual) de centenas de milhares ou milhões de imagens. O pro-
cesso de treinamento, por sua vez, pode demandar dias de processamento em um
arranjo de GPUs com custo elevado, além de um alto consumo de eletricidade. A alterna-
tiva mais viável, portanto, seria apenas aplicar algum dos modelos disponíveis ou, em
alguns casos, utilizar a técnica de “aprendizado por transferência” (transfer learning)
para tornar o modelo mais especializado para um tipo de aplicação específica. Neste últi-
170
mo caso, contudo, as características inscritas nas camadas anteriores da rede neural
permaneceriam atuando como parte de seu funcionamento incutindo ao modelo aspec-
tos do treinamento geral.
Dentre as opções de modelos prontamente aplicáveis hoje disponíveis, as mais robustas
talvez sejam as APIs comerciais, que oferecem o processamento sob demanda de ima-
gens em diferentes modelos de aprendizado de máquina aplicados à Visão
Computacional. Há APIs oferecidas por algumas das grandes corporações tecnológicas
contemporâneas: Google, IBM, Amazon, Microsoft. Além de outras iniciativas relativa-
mente menores, como a da empresa Clarifai. Os custos de utilização são relativamente
baixos, em torno entre 1 e 2 dólares estadunidenses para cada mil imagens. Em todos os
casos, tratam-se de modelos proprietários que não divulgam detalhes acerca da arquite-
tura das redes neurais; das bases de treinamento utilizadas; ou sobre as categorias
atribuídas nos processos de classificação. No entanto, sua pronta disponibilidade e baixo
custo tornam estas opções alternativas viáveis para o desenvolvedor de um aplicativo ou
mantenedor de um serviço online para, por exemplo, moderar conteúdos postados pelos
usuários ou organizar um arquivo fotográfico institucional, entre outras aplicações pos-
síveis. Por tais caminhos, estes modelos tenderiam a difundir modos particulares de ver
a diferentes contextos e a se tornarem “pontos de passagem obrigatórios”125 para a me-
diação algorítmica do visível.
Em estudo de que participei, dividindo a coordenação com Tarcízio Silva (MINTZ; SILVA
et al., 2019), comparamos os resultados obtidos por três destas APIs – da Google,
Microsoft e IBM. A comparação foi realizada segundo o processamento de alguns con-
juntos de imagens colhidos de dois bancos de imagens comerciais, Adobe Stock e
ShutterStock. Em cada um destes sites, coletamos 2 mil imagens obtidas a partir da busca
por adjetivos pátrios de quatro países: Brasil, Portugal, Áustria e Nigéria. Por meio de di-
ferentes esforços metodológicos, investigamos algumas das diferenças entre os
resultados obtidos e, também, o potencial de aplicação destas APIs como ferramentas
analíticas para estudos voltados a representações nacionais nesses contextos. Um dos
resultados encontrados, dos que mais importam a esta discussão, é a variação entre os
125 Esta expressão (obligatory point of passage) remonta a textos fundadores da TAR e descreve um ator com tal for-
ça de translação que se se torna um mediador central da rede, um ponto de passagem obrigatório para se
realizar determinada ação, por exemplo.
171
“espaços semânticos” das APIs, que indicam aspectos gerais da dinâmica de classifica-
ção das imagens. Observamos estes espaços por meio de visualizações de dados
relacionais, em redes bimodais imagem-etiqueta126 (Gráfico 1).
Busco simplificar as análises e conclusões desse estudo, apenas segundo o interesse es-
pecífico de meu argumento, aqui. O aspecto que gostaria de salientar destas
visualizações é como a distribuição de densidades das redes constituídas a partir de cada
API varia consideravelmente quando comparadas em relação a um mesmo conjunto de
imagens. Enquanto aquela elaborada a partir da API Cloud Vision da Google (GVAPI)
apresenta densidades mais localizadas em agrupamentos específicos, as demais APIs são
mais densamente conectadas, inclusive entre porções extremas da rede. Estas caracte-
rísticas sugerem que a GVAPI possuiria um maior grau de especialização, ou
granularidade, das categorias. A baixa densidade da rede ao centro indica haver poucas
126 Redes bimodais são aquelas em que os nós representam entidades de duas naturezas. Nesse caso, parte dos nós
da rede representa imagens e parte representa as etiquetas categorias atribuídas às imagens.
172
categorias gerais o suficiente para conectar partes extremas – isto é, imagens conside-
radas muito díspares. Por outro lado, ela apresenta uma densidade maior no interior dos
agrupamentos, sugerindo a existência de categorias mais específicas. As redes construí-
das a partir da API da Microsoft são bem contrastantes, apresentando uma alta
densidade das conexões, mesmo entre porções extremas. As visualizações produzidas a
partir de dados da API da IBM apresentam um aspecto intermediário, mas ainda densa-
mente conectada ao centro.
Em uma outra perspectiva metodológica, também realizamos descrições densas a partir
de casos específicos, em que foi possível observar como a maior granularidade da API da
Google reflete-se em uma maior sensibilidade à representação de objetos (tipos de co-
mida e instrumentos musicais, por exemplo) culturalmente específicos. Em contraste, a
API da Microsoft apresentou categorias não apenas mais genéricas como também, em
alguns casos, tendenciosos para representações da cultura estadunidense. Um caso es-
pecífico em que isto foi observado foi nas categorias indicadas para o doce português
pastel de nata, que a API da Microsoft classificou como donut. Porém, mesmo para a API
da Google, as descrições densas indicaram situações em que as categorias reproduziam
estereótipos racistas. Especificamente, imagens de mulheres negras com cabelos cres-
pos, provenientes dos dados do Brasil e da Nigéria, foram lidas pela GVAPI,
reiteradamente, com a categoria “peruca”. Este conjunto de observações indica portan-
to, como APIs comerciais constituem visualidades específicas em decorrência, inclusive,
de assimetrias geopolíticas, raciais e de gênero das instâncias infraestruturais sobre as
quais tais sistemas são construídos127.
Em outra vertente, opções de modelos gratuitos e provenientes de um contexto de pes-
quisa acadêmica, como as disponíveis na biblioteca de programação em Python Keras
(CHOLLET et al., 2018), embora mais numerosas, são todas treinadas a partir de uma
mesma base de treinamento, a Imagenet (DENG et al., 2009). Trata-se de projeto manti-
do por grupo da Universidade de Stanford e composta por milhões de imagens de
treinamento classificadas segundo mil categorias. Seu uso difundido entre modelos de
reconhecimento gratuito deve-se, em larga medida, ao concurso ILSVRC, realizado pela
comunidade científica de Visão Computacional e que toma a base Imagenet como parâ-
metro de comparação da eficácia de diferentes modelos de reconhecimento. Apesar de
127 Agradeço aos coautores do estudo, em especial a Helen Takamitsu e Taís Oliveira, que realizaram as análises in-
dicadas.
173
constituírem recursos valiosos, a base Imagenet e, consequentemente, os modelos nela
treinados possuem diversos problemas tanto relativos à baixa diversidade racial e cultu-
ral – similarmente aos casos descritos acima – quanto à inclusão de subcategorias
claramente ofensivas como parte de seus dados (cf. CRAWFORD; PAGLEN, 2019). O im-
pacto destes problemas pode ser maior ou menor a depender do contexto de aplicação
dos modelos. O problema das subcategorias ofensivas abordado por Crawford e Paglen,
particularmente, não incide diretamente sobre os modelos indicados128. Em todo caso,
tais problemas são indicativos da já esperada parcialidade dos modelos.
Além da base Imagenet, cujo foco é o reconhecimento de imagens, uma abordagem com-
preensiva da questão também deve observar bases voltadas a outras tarefas de Visão
Computacional por aprendizado de máquina, como a análise de rostos, que deriva em
programas de reconhecimento facial. Neste domínio, uma referência fundamental é o
estudo de Joy Buolamwini e Timnit Gebru (2018) realizou uma investigação dos vieses
raciais e de gênero de duas bases de referência para a tarefa de análise facial – IJB-A e
Adience. As pesquisadoras analisaram a composição fenotípica destas bases de imagens
considerando um sistema de classificação dermatológica de tons de pele e observaram
enormes disparidades na distribuição dessas características para as bases analisadas.
Para ambos os casos, cerca de 80% das imagens eram de pessoas de pele clara. As auto-
ras também comparam a eficácia de sistemas de classificação de gênero e indicam como
a disparidade observada nas bases de referência repercute nas margens de erro encon-
tradas em tais sistemas. Mulheres de pele mais escura obtêm índices de erro muito mais
altos do que homens de pele mais clara – 34,7% contra 0,8%129.
Segundo o que discuti acerca da noção de visualidade, a partir de Hal Foster (1999), todo
“modo de ver” seria circunscrito a uma historicidade e à particularidade de uma “visão
de mundo”. Seria bastante ingênuo esperar, portanto, que um programa de computador
pudesse materializar a hipótese de uma visão universal, fora de uma realidade histórica e
social. As limitações das APIs de Visão Computacional, da base Imagenet e de seus mode-
los derivados, ou de bases e programas de análise facial seriam, portanto, bastante
previsíveis. Para além do caráter marcadamente injusto destas assimetrias, contudo,
128 Especificamente, um dos trabalhos realizados por Crawford e Paglen (2019) a partir da base Imagenet explora
subcategorias da classe “pessoa” (person). Estas não fazem parte das mil categorias utilizadas por padrão para
os principais modelos derivados, uma vez que elas não integram o concurso ILSVRC. Exemplos são os modelos
disponíveis para pronta implementação na biblioteca Keras (CHOLLET et al., 2018). Tais subcategorias são, ain-
da assim, disponibilizadas pela base Imagenet como possíveis recursos de treinamento.
129 Estudo posterior de Buolamwini e Inioluwa Deborah Raji (2019) identificou que o estudo de Buolamwini e Gebru
(2018) resultou em atualizações mudanças significativas de alguns dos casos analisados.
174
outro ponto que gostaria de indicar é, além da pouca diversidade interna aos modelos, a
pouca diversidade entre os modelos, que é constrangida pelas demandas infraestruturais
do desenvolvimento de modelos alternativos que constituam outras visadas sobre as
imagens. Para além da classificação, do reconhecimento de caracteres, da análise facial,
ou da detecção de conteúdo adulto – algumas das funções mais proeminentes de APIs
comerciais – haveria ainda muitas outras perspectivas possíveis para uma análise com-
putacional das imagens. Para estudos de comunicação e mídia, por exemplo, outras
formas de codificação podem ser relevantes, como uma que se ocupe de certas estraté-
gias formais persuasivas, ou de tipos de enquadramento das imagens130. Esta limitação
leva, evidentemente, a uma baixa diversidade das visualidades computacionais constituí-
das por tais sistemas. Estas tendem a ser, pelos motivos apresentados, bastante
homogêneas. À medida que constituem as poucas opções disponíveis para o desenvolvi-
mento de aplicações derivadas ou para esforços de pesquisa, esta visualidade tende, por
sua vez, a se replicar e disseminar em contextos diversos.
À pervasividade de modelos como estes soma-se a tendência de sua essencialização sob
uma suposta objetividade da máquina e, em especial, do aprendizado de máquinas – essa
técnica “intermediária” por meio da qual o próprio mundo, supõe-se, poderia declinar-
se a suas próprias categorias. Quero argumentar, portanto, que tal contexto coloca um
problema crítico para o estudo das visualidades contemporâneas. Para Hal Foster (1999,
p. ix), a tarefa dos estudos de visualidades seria fazer um movimento contrário a este
que observo com relação ao aprendizado de máquina e que compreendo, nos termos do
autor, como a constituição contemporânea de um regime escópico. Em citação que trago
mais acima neste capítulo (veja p. 111), Foster (1999, p. ix) argumenta em favor da ne-
cessidade de “deslocar as superposições” construídas pelos regimes escópicos, a fim de
desfazer seu movimento de naturalização de muitas visualidades em torno de uma “vi-
são essencial”. A caracterização desta suposta “visão essencial” deve observar, como
propõe Tarcízio Silva (2019), seu claro viés racial que se manifesta pela reprodução ma-
quínica do ponto de vista da branquitude. Esta seria, conforme elabora Silva, uma
instância contemporânea do racismo online, que vai além de “casos aberracionais de in-
júrias isoladas” (SILVA, 2019, p. 3) e deve ser observado em perspectiva sistêmica. De
modo fundamental, seguindo Silva, faz-se importante considerar que: “Comumente
aplicativos que buscam alcance global projetam consumidores apenas como brancos”
130 Joo et al. (2014) elaboraram abordagens neste sentido. Algumas destas ideias vêm de uma conversa com Ber -
nhard Rieder, a quem agradeço pela interlocução.
175
(SILVA, 2019, p. 10). Seria também necessário observar como, por um lado, limitações
infraestruturais dificultam a diversificação deste olhar na forma da pluralização dos
modelos de visão para diferentes públicos e culturas visuais. Por outro, uma abordagem
criticamente informada destas tecnologias poderia assumir a tarefa de deslocar o campo
da visão computacional ao domínio das visualidades. Por isto dizer de visualidades compu-
tacionais. Este é, me parece, um ponto crítico de uma investigação voltada às imagens
contemporâneas.
Um modo de conduzir um tal esforço de aplicação crítica destas tecnologias é sugerido
pela proposta dos Métodos Digitais, elaborada inicialmente por Richard Rogers (2013).
Como indiquei em outro momento, ela se baseia em um gesto de reapropriação crítica de
“métodos nativos do digital”, assumindo um alto grau de reflexividade acerca de suas
implicações epistêmicas. De modo similar, o que proponho aqui é uma reapropriação
crítica do aprendizado de máquina para o estudo de imagens. Trata-se de um modo de
voltar nosso olhar simultaneamente às técnicas de análise e àquilo que elas nos permi-
tem conhecer do mundo. A mediação algorítmica do visível imprime, segundo quero
argumentar, uma dinâmica particular à circulação das imagens. Por isso, sua aplicação
metodológica permite compreender aspectos emergentes de grandes conjuntos de ima-
gens em modos que se aproximam do modo de operação destas mediações. Esta
tentativa de investigar “objetos nativos do digital” in situ, por meio das mesmas media-
ções com que eles se constituem no âmbito da Web e das plataformas, é o principal
aspecto que busco tomar dos Métodos Digitais para esta tese.
Em sua crítica à adoção de métodos quantitativos nas ciências humanas e sociais, Ale-
xander Galloway (2014) indica que, para boa parte dos casos, trata-se apenas de
tentativas fracassadas de pesquisadores de se equipararem às grandes corporações de
tecnologia. Estas, ele sugere, possuiriam amplo domínio sobre os meios de produção de
um conhecimento que se ancora em uma perspectiva quantitativa. Além disso, ele ques-
tiona as implicações políticas dos esforços que apenas buscassem se equiparar a tais
iniciativas, indagando-se se as ferramentas produzidas por tais corporações seriam re-
cursos epistemologicamente válidos ou se, de outro modo, apenas reproduziriam os
interesses daquelas corporações. Uma das alternativas, sugere Galloway (2014, p. 128),
seria desenhada pela proposta dos Métodos Digitais, entre outras que, segundo elabora:
“apresentam o tipo de criatividade e cuidado necessário para compreender e responder à
176
crescente industrialização da mente e do corpo”131. Contra a suposição de que a tarefa das
humanidades, pela via das humanidades digitais, seria “desafiar os mineradores de da-
dos em seu próprio campo”, Galloway argumenta que as humanidades deveriam
recorrer à sua “força fraca”, termo que toma do filósofo francês François Laruelle. Es-
creve: “O ponto é sair do jogo totalmente e continuar a perseguir aquelas mesmas
questões com as quais a tecnociência sempre lidou mal, deslumbrada como é com man-
damentos ideológicos e industriais específicos”132 (GALLOWAY, 2014, p. 128). Este “sair
do jogo”, contudo, mesmo para Galloway, não significa abandonar a questão da tecnici-
dade ou o fazer técnico como parte dessa reflexão. A questão é como articular a reflexão
teórica, em nível estético, histórico, político e cultural, com as práticas e dispositivos
tecnológicos que habitam nosso tempo.
Um par de textos de Bernhard Rieder e Theo Röhle (2012, 2017) apontam para alguns ca-
minhos do enfrentamento deste desafio. Interessados em aprofundar a discussão das
chamadas humanidades digitais, sob a perspectiva dos Métodos Digitais, os autores
elencam um conjunto de desafios metodológicos colocados para as humanidades se elas
querem se engajar criticamente com os métodos computacionais e suas implicações
epistêmicas. Em linhas gerais, a discussão elaborada neste capítulo, embora não tomas-
se os autores como referência direta, acompanha as questões que eles colocam sobre: a
suposição de objetividade das máquinas e dos dados; o poder retórico das visualizações
de dados; a tendência de obscurecimento (ou “encaixapretamento”) das ferramentas e
processos; os desafios transdisciplinares colocados ao se mobilizar conhecimento técni-
co da computação junto a questões provenientes das ciências humanas e sociais; e a
busca problemática por um universalismo que estaria subtendida em muitos dos desen-
volvimentos quantitativos e computacionais (RIEDER; RÖHLE, 2012).
Em um segundo momento, Rieder e Röhle (2017) buscam passar, como descrevem, dos
desafios à “formação” ou à “construção”133 de uma abordagem, isto é, constituir um
campo de reflexão coletiva em constante revisão. Para isto, eles sugerem a necessidade
de que os Métodos Digitais encarem as formas de conhecimento encapsuladas pelos mé-
todos computacionais que empregam, tais como a estatística e a análise de redes. Posto
131 No original: “exhibit the kind of creativity and care necessary for understanding and responding to the growing in -
dustrialization of mind and body”. Tradução minha.
132 No original: “The point is to withdraw from the game altogether and continue to pursue the very questions that
technoscience has always bungled, beholden as it is to specific ideological and industrial mandates”. Tradução minha.
133 Mesmo no texto em inglês, os autores utilizam uma palavra do alemão Bildung, traduzida, aqui, livremente. Eles
tomam o termo de David Berry.
177
simplesmente, o argumento dos autores é quanto à necessidade de “encontrar a tecno-
logia como tecnologia, ao menos por um momento” (RIEDER; RÖHLE, 2017, p. 122).
Segundo escrevem:
Embora nossa evidência seja apenas anedotal, nós notamos que em muito das
humanidades há um desejo de explicar tecnologia o mais rápido possível
através de outra coisa. Racionalidade instrumental, utopias cibernéticas, ne-
oliberalismo, fantasias de controle perfeito, positivismo, maximização de
receita, e assim por diante. Estas considerações podem ser iluminadoras ao
final e significativas em um nível bem amplo de análise. Mas se quisermos
estar à altura dos desafios dos métodos computacionais, temos que encontrar
a tecnologia como tecnologia ao menos por um momento. […] O problema do
obscurecimento [blackboxing] não começa com a opacidade do código com-
putacional, mas com o desejo de banir a tecnologia do ‘mundo da
significação’134 (RIEDER; RÖHLE, 2017, p. 122).
Os autores argumentam, portanto, no sentido de uma desessencialização da discussão
teórica sobre a técnica por meio de um “corpo a corpo” com estas mediações e com as
formações de conhecimento nelas inscritas. Portanto, as prováveis elucubrações sobre as
técnicas em um nível macro, nas formas enumeradas pelos autores, apenas teriam con-
sistência se articuladas por descrições que se atêm aos modos de operação da técnica e
sua fundamentação.
Quero compreender sob esta chave a prática de reapropriação que é tão central à proposta
dos Métodos Digitais. Reapropriar criticamente os modelos de reconhecimento de ima-
gens seria um modo de investigá-los sob uma cláusula de não-competição, para
encararmos a provocação de Galloway. Despossuídos que somos da infraestrutura ne-
cessária para desenvolver alternativas, nos restaria a possibilidade de aplicar tais
modelos porém sem tomar seus resultados como válidos em si mesmos e, sim, como ex-
pressões políticas e culturais de nosso tempo. Contudo, para fazê-lo, não há atalhos
simples nem suposição de uma sobredeterminação da técnica por fatores externos, nem
pela suposição de uma sobredeterminação do mundo pela técnica. Seria preciso experi-
enciar a técnica e as ontologias que produzem em abordagens situadas. “Encarar a
tecnologia enquanto tecnologia”, como sugerem Rieder e Röhle (2017) significa ir ao ní-
vel de sua constituição e de sua formas de conhecimento. Este é o olhar que busco
constituir, aqui, sobre o aprendizado de máquina enquanto um motor contemporâneo
das articulações entre o visual e o computacional e da consolidação de visualidades com-
putacionais particulares. Enquanto tais, estes mecanismos podem servir como
elementos constituintes de um dispositivo de orientação ou de navegação pelas imagens
contemporâneas. Este é o esforço que busco realizar na parte seguinte desta tese.
4 Estudo de caso: imagens de uma prisão
Neste capítulo, a discussão se concretiza em um estudo de caso, com o objetivo de tensi-
onar as elaborações dos capítulos precedentes. O caso em questão é o evento da prisão do
ex-presidente Luís Inácio Lula da Silva, ocorrido em abril de 2018, com forte repercus-
são na mídia e em plataformas online. Porém, o objetivo deste estudo não é, nesse
momento, elaborar asserções analíticas sobre o caso em si. Principalmente, este estudo
busca explorar as implicações metodológicas da discussão empreendida nesta tese, veri-
ficando o rendimento da reapropriação de técnicas de aprendizado de máquina para o
estudo de imagens e, também, da hipótese conceitual da imagem-rede. Este esforço cul-
mina, ao final, na proposição de um dispositivo navegação pelas imagens que busca
proporcionar um percurso analítico que reconheça as diferentes visualidades mobiliza-
das e, também, a multiplicidade ontológica das imagens. Chamo a este dispositivo
analítico de Atlas para imagens-redes (veja 4.3 Compondo imagens-redes ) e ele é anexa-
do a esta tese na forma de um documento de hipertexto navegável (veja instruções de
acesso e navegação no Apêndice B ). As imagens do caso indicadas neste capítulo vêm
acompanhadas de coordenadas para sua localização em duas visualizações (mapas) que
constituem o Atlas.
Ao longo deste capítulo, descrevo as etapas adotadas no estudo de caso, em uma série de
operações de coleta e processamento de dados que, na linha do que desenvolvi até agora,
devem ser compreendidas como práticas por meio das quais as imagens do aconteci-
mento em questão puderam existir e se fazer visíveis, efetivamente, no âmbito da análise.
Busco evidenciar as inscrições mobilizadas em cada etapa bem como as mediações técnicas
que as conformam e transformam ao longo do processo, elevando, na maior parte das
vezes, as incertezas do método. Considerando-as parte integrante da discussão metodo-
lógica, volto-me frequentemente tanto aos potenciais analíticos das técnicas
empregadas quanto às falhas e sombras que projetam sobre os objetos. Tanto àquilo que
positivamente dão a conhecer do caso, quanto às negatividades que apenas podemos,
quando muito, intuir. Gostaria, assim, de dar concretude às discussões empreendidas
nos capítulos precedentes, considerando como elas podem sustentar uma perspectiva
metodológica de pesquisa e análise das imagens em plataformas online.
178
179
O caso abordado neste capítulo tem como período mais intenso três dias de abril de 2018,
logo após a expedição do mandado de prisão contra Lula, ex-presidente do Brasil por
dois mandatos (2003-2008 e 2009-2012). A ordem foi assinada pelo então juiz federal
Sérgio Moro, da 13ª Vara Criminal Federal de Curitiba, às 18 horas do dia 5 de abril, em
cumprimento da pena de doze anos e um mês de prisão, decorrente da condenação do
ex-presidente em processo por corrupção e lavagem de dinheiro, no que ficou conhecido
como o caso do triplex do Guarujá, incluído como parte da força-tarefa da Lava Jato. Na
noite do dia anterior, 4 de abril, o Supremo Tribunal Federal (STF) havia indeferido o pe-
dido de habeas corpus preventivo impetrado pela defesa de Lula, abrindo caminho para
sua prisão. A decisão de Moro oferecia pouco menos de 24 horas para o ex-presidente se
entregar voluntariamente à Polícia Federal (PF). Imediatamente, Lula deslocou-se de
São Paulo, capital, à sede do Sindicato dos Metalúrgicos do ABC (SMABC), em São Ber-
nardo do Campo, onde, havia mais de 40 anos, iniciara sua carreira política como
presidente sindical e liderança das grandes greves de 1980 e 1981. Por conta de seu papel
nestas greves, Lula havia sido preso uma primeira vez, em 1980, pelo Departamento de
Ordem Política e Social (DOPS), órgão de repressão da ditadura militar. Ele permaneceu
confinado por 31 dias, enquadrado na Lei de Segurança Nacional, instituída pelo regime
(SCHWARCZ; STARLING, 2015). Pelo prazo concedido no mandado de prisão, em 2018,
Lula teria até as 17 horas de sexta-feira, dia 6 de abril, para se entregar. Contudo, ele
apenas iria fazê-lo mais de 24 horas depois, no dia 7 de abril. Nas pouco mais de 48 ho-
ras que se estenderam entre a expedição do mandado e a realização da prisão, a vigília
realizada por Lula e seus apoiadores no SMAB tornou-se um evento midiático, atraindo
atenção constante da imprensa e do público – com forte repercussão nas plataformas
online.
Antes mesmo da expedição do mandado de prisão, havia grande expectativa sobre o de-
senrolar destes acontecimentos que os tornavam históricos mesmo antes de
acontecerem. Esta previsibilidade se devia a uma conjunção de fatores. Embora não fosse
a primeira vez que se ordenava a prisão de um ex-presidente no Brasil134, trata-se de
caso sempre grave para a vida política do país. Em particular, como no caso, por se tratar
de político que ainda gozava de enorme popularidade, apesar das denúncias e condena-
ções que pesavam contra si e outros membros do Partido dos Trabalhadores (PT), do
134 Antes de Lula, outros quatro presidentes também foram presos sendo que um deles, Washington Luís (1926-
1930), foi deposto e detido durante o exercício do cargo (Cf. https://web.archive.org/web/20190215011200/
https://acervo.oglobo.globo.com/em-destaque/ex-presidentes-presos-de-hermes-da-fonseca-washington-
luis-jk-lula-21582019).
180
qual foi um dos fundadores. O acontecimento também era a culminância de um período
de instabilidade política que se estendia desde pelo menos 2013, com os grandes protes-
tos que tomaram as ruas do país; que atravessou a conturbada eleição de 2014, que
reconduziu ao cargo a então presidenta Dilma Rousseff, sucessora de Lula, com uma vo-
tação pouco superior ao segundo colocado; e também o controverso processo de
impeachment de Rousseff em 2016, cuja legitimidade é fortemente contestada por críti-
cos que qualificam o processo como golpe parlamentar135. A esta complexa conjuntura,
somava-se o fato de que a legitimidade da investigação e do julgamento eram fortemen-
te contestadas por Lula e por observadores internacionais, que viam no processo um
caso de perseguição política136 que visava tornar o ex-presidente inelegível e, com isto,
impedir que pudesse se candidatar à presidência nas eleições de 2018137. Todos estes fa-
tores tornavam o acontecimento, além de histórico, controverso.
Não é meu objetivo, aqui, explorar ou ponderar argumentos contrários ou favoráveis à
condenação e à prisão, pois nem teria competência para tanto. Menciono alguns aspec-
tos desta disputa por se tratarem de elementos contextuais que fundamentam a
relevância do caso escolhido e, em particular, a relevância de dedicar a ele um esforço de
análise focado nas suas imagens. Sua escolha deve-se a alguns fatores circunstanciais
mas a, também, algumas de suas características específicas, que tornam o caso bastante
adequado a uma investigação voltada às imagens.
Os fatores circunstanciais estão relacionados à disponibilidade dos dados a esta investi-
gação. Como parte dos meus estudos no doutorado, desde meados de 2017 vinha
realizando coletas experimentais de dados do Twitter como forma de desenvolver habi-
lidades de trabalho com a ferramenta de coleta empregada, o DMI-TCAT (RIEDER;
BORRA, 2014), e também de manutenção de um servidor de coleta. Tais exercícios volta-
135 Em entrevista próxima ao momento de escrita da tese, o processo de impeachment foi criticado até mesmo por
Aloysio Nunes, ex-senador pelo Partido da Social Democracia Brasileira (PSDB). Durante o processo, opositor de
Rousseff, Nunes foi um forte apoiador da remoção da presidenta (Cf. https://web.archive.org/web/
20190927215228/https:// www1.folha.uol.com.br/poder/2019/09/lava-jato-manipulou-impeachment-de-
dilma-diz-aloysio-nunes-do-psdb.shtml)
136 No momento de escrita da tese, a questão da validade do julgamento ainda é alvo de intenso debate, em particu-
lar após junho de 2019, quanto teve início de uma série de reportagens, denominada Vaza Jato, capitaneada pelo
site jornalístico The Intercept Brasil, com o qual colaboram outros grandes veículos nacionais, como o jornal Fo-
lha de São Paulo e a revista Veja. As reportagens baseiam-se no vazamento de mensagens trocadas no aplicativo
Telegram entre procuradores federais envolvidos no caso e também o então juiz Sergio Moro. Entre outros pon -
tos, as reportagens indicaram, nas mensagens, indícios de colaboração do juiz com o MPF e de quebra das
normas do processo legal. Procuradores e juiz declaram não reconhecer a veracidade das mensagens.
137 De fato, mesmo após a prisão, a candidatura de Lula à presidência foi registrada pelo PT e sustentada até o mo -
mento em que o Tribunal Superior Eleitoral indeferiu o pedido de registro, em 31 de agosto de 2019 (Cf. https://
web.archive.org/web/20190826020711/http://www.tse.jus.br/imprensa/noticias-tse/2018/Setembro/tse-inde-
fere-pedido-de-registro-de-candidatura-de-lula-a-presidencia-da-republica).
181
ram-se a diferentes acontecimentos que propiciaram amplas discussões na plataforma
no período, muitos dos quais vinculados ao momento político vivido pelo país – que
constituíram alguns dos temas mais acalorados das discussões nas plataformas. Ao lon-
go destes anos realizei coletas que combinavam a vontade de exercício técnico e
metodológico e, também, um interesse de registro histórico e memorialístico – ou seja,
nem sempre com um objetivo claro e predefinido de análise. A coleta de dados sobre este
caso seguiu o mesmo caminho, começando como um experimento de coleta e culminan-
do, já no âmbito desta tese, em um estudo de caso.
Quanto às características que tornam esse acontecimento particularmente adequado a
uma investigação sobre as imagens e, também, realizada a partir de dados coletados em
plataformas online, um primeiro aspecto diz respeito a sua previsibilidade. Embora a
prisão viesse a ocorrer apenas no mês de abril de 2018, vinha coletando tuítes com ter-
mos relacionados ao caso desde 18 de janeiro, quando o recurso da defesa de Lula ao
tribunal de segunda instância (TRF-4) fora julgado. Esta previsibilidade é importante
para coletas realizadas em plataformas online porque, tipicamente, as modalidades de
acesso aos dados limitam o acesso retrospectivo a postagens. No caso do Twitter, em
particular, a melhor porta de entrada aos dados da plataforma, a API Streaming (de que
depende a ferramenta DMI-TCAT) permite apenas a coleta em “tempo real”, o que de-
manda que os termos utilizados na busca do tuítes sejam, de algum modo, conhecidos de
antemão. A previsibilidade é fundamental, portanto, para a consistência e amplitude da
coleta.
Outro aspecto, decorrente da previsibilidade, diz respeito à performance dos atores na
constituição do acontecimento, já que eles têm a condição de se antecipar e agir, em al -
guma medida, estrategicamente. Para o caso da prisão de Lula, em particular, o
acontecimento de sua prisão já vinha sendo premediado (GRUSIN, 2010) há meses, pelo
menos. Quando da expedição do mandado de prisão, em 5 de abril, embora os aconteci-
mentos subsequentes ainda tenham sido marcados por um alto nível de improviso, já
havia a clareza de uma disputa pela narrativa. Uma disputa que não visava apenas efeitos
mais imediatos – como de fato visava, no entorno das eleições nacionais daquele ano –
mas também efeitos históricos. Tratava-se desde o início de um acontecimento chave
para uma temporalidade mais profunda da história nacional e, por esse motivo, para
além do desenrolar do acontecimento em si, as imagens que dele se produziriam teriam
um enorme valor, no longo prazo. Ou seja, como aspecto de adequação do caso a um es-
182
tudo voltado especificamente às imagens, como argumentarei mais adiante, trata-se de
um acontecimento que poderíamos compreender de maneira próxima ao que Latour
(2008; 2002) – em um raro texto dedicado às imagens, não apenas da ciência – descre-
veu como um iconoclash.
Indiquei brevemente esta noção na contextualização de algumas ideias de Peter Galison
(veja 3.1 O visual e o computacional ). Um iconoclash, segundo elabora Latour, seria uma
situação de embate em que a dicotomia entre gestos de iconoclastia e iconofilia138 seria di-
luída. Sua tese é a de que, frequentemente, gestos de destruição de imagens são
acompanhados por uma substituição, isto é, pela constituição de outra imagem de “de-
voção”. Um olhar inicial às imagens deste acontecimento permite que observemos uma
tal situação na medida em que boa parte do conflito manifesto no entorno da prisão do
Lula pode ser descrito segundo as imagens estrategicamente produzidas ou interditadas,
por diferentes partes envolvidas no caso. Embora seja demasiado simplista traçar uma
dicotomia ou polarização simples, talvez seja possível arriscar um esquema com valor
didático. De um lado ‘lulista’, teríamos esforços de recuperação ou reforço da imagem do
Lula sindicalista e líder popular, inclusive com a justaposição entre o Lula daquele pre-
sente com imagens das greves que liderara em 1980. Haveria, desse modo, um culto à
imagem do Lula popular e ‘revolucionário’. De um lado ‘lavajatista’, por sua vez, tería-
mos esforços de desconstrução desta imagem do ex-presidente, que era também
acompanhada da produção de outros ícones: imagens premediadas da prisão, como o
boneco do Lula presidiário (chamado de pixuleco); imagens de juízes e procuradores res-
ponsáveis por seu caso; etc.
Compreender o acontecimento da prisão sob a chave do iconoclash proporciona, portan-
to, um movimento analítico acerca do papel das imagens como atores políticos do
acontecimento que devem ser tomados, fundamentalmente, pelas tensões que introdu-
zem e pelas relações que estabelecem entre si. Segundo elabora Latour (2008; 2002), a
noção de iconoclash visa suspender o gesto iconoclasta como um recurso da crítica, com-
preendida como o esforço de expor aquilo que constitui as imagens contra as suposições
de que seriam feitas pela ‘mão divina’. Contra os ícones religiosos, expor a fabricação
humana de suas imagens. Escreve o autor (LATOUR, 2008, p. 116): “a mente crítica é a
que mostra as mãos dos humanos agindo em todos os lugares, a fim de trucidar a santi-
138 A iconoclastia seria um movimento de destruição de imagens e símbolos, tipicamente de cunho religioso, mas
podem ser também de valor político ou estético. A iconofilia, em contraste, seria o culto destas imagens e símbo-
los.
183
dade da religião, a crença nos fetiches, o culto ao transcendente, os ícones mandados do
céu, a força das ideologias”. Ele sugere que isto também valeria para a ciência e o discur-
so de transcendência das verdades objetivas: contra as inscrições científicas, expor as
práticas de sua construção. Ao que o discurso defensor diria que: “A única maneira de
defender a ciência das acusações de falsificação […] é, aparentemente, insistir em que
mão alguma jamais tocou na imagem que produziu” (LATOUR, 2008, p. 117). Ao não in-
sistir na iconoclastia como recurso, o autor propõe tomá-la como um tópico da
investigação. Ou seja, se afastando do olhar que busca revelar uma verdade por trás da
imagem, volta seu interesse ao trabalho que produz tanto a iconoclastia como a iconofi-
lia, em seus movimentos no entorno das imagens:
Poderíamos dizer, contra o ímpeto crítico, que quanto mais humanos há,
mais o trabalho humano se mostra, melhor a apreensão da realidade, da san-
tidade, da devoção. Que quanto mais imagens, mediadores, intermediários e
ícones se multiplicam e são abertamente fabricados, quanto mais eles são ex-
plícita e publicamente construídos, mais respeito temos por sua capacidade
de acolher, reunir, recolher a verdade e a santidade (LATOUR, 2008, p. 117).
As imagens são, então, dispostas em um campo de tensões em que agem umas sobre e
com as outras, modulando o acontecimento midiático e político, inclusive em sua cons-
tituição histórica. Latour (2008, p. 117) sugere que um iconoclash seria: “aquilo que
ocorre quando há incerteza a respeito do papel exato da mão que trabalha na produção
de um mediador”. Quando não se sabe, em suma, se mão visa destruir a imagem e expor
sua fabricação ou se, de outro modo, ela visa justamente produzir uma imagem, como
forma de revelação da “verdade”.
Volto-me ao caso da prisão de Lula com um olhar informado por estas proposições, ao
mesmo passo em que me interesso por explorar a força das questões que desenvolvi nos
capítulos anteriores. Realizo, deste modo, um enquadramento específico às questões ge-
rais da tese, de cunho metodológico, segundo aquilo que observo como uma demanda do
próprio acontecimento. Um aspecto da pertinência da articulação entre as questões me-
todológicas gerais e as especificidades do caso emerge, contudo, na medida em que a
noção de iconoclash situa a imagem como mediador ativo daquilo que representa e que
precisa ser considerada no vínculo com outros mediadores e outras imagens. Os aponta-
mentos teóricos e metodológicos realizados nos capítulos precedentes voltam a incidir
aqui, portanto, em uma tentativa de mapear o iconoclash da prisão por uma descrição dos
fluxos imagéticos que operam como constituintes do acontecimento. O desafio desta
descrição, por sua vez, busco enfrentar considerando a multiplicidade ontológica das
184
imagens tomadas como referências circulantes do acontecimento. Esta descrição so-
mente seria possível pela mobilização das cadeias de translação que compõem as
visualidades computacionais contemporâneas, com os dispositivos analíticos disponí-
veis.
Um elemento que explicita bem a tensão colocada sobre as imagens do acontecimento
apareceu figurado na cobertura jornalística e nos registros difusos produzidos durante o
desenrolar da vigília em São Bernardo. Como forma de controlar parte dos registros
imagéticos produzidos sobre o acontecimento, foi instalado no SMABC um dispositivo
improvisado de interdição às imagens. Um tecido amarelo foi estendido cobrindo a en-
trada da garagem do sindicato, como forma de impedir que se avistasse, do exterior, as
movimentações internas – como, supõe-se, do próprio ex-presidente. Isto apareceu na
cobertura da imprensa, chamando minha atenção ainda durante o desenrolar da vigília.
A Figura 14 exibe uma montagem com algumas das fotografias que foi possível encon-
trar entre as imagens selecionadas para a análise – em processo que discutirei adiante.
Este pano pode ser compreendido como uma materialização da disputa então em jogo,
interditando a produção de certas imagens para que outras pudessem ser produzidas e
prevalecessem como figurações do acontecimento. Não se trata de um gesto iconoclasta
clássico, como o do martelo que destrói uma imagem pagã. Objetivou-se, de outro modo,
frustrar a imagem em sua gênese – interditá-la – em estratégia que produziu, por si
própria, uma imagem e que, além disso, compôs um esforço em larga medida bem-
sucedido de controlar as imagens produzidas e postas em circulação a partir da vigília
em São Bernardo. Na linha do que discuti acerca de uma abordagem relacional para as
imagens e, em particular, da configuração deste caso como um iconoclash, esta circuns-
tância exemplifica meus argumentos e também apresenta-se, introdutoriamente, como
um ponto tensionador das relações entre as imagens produzidas no decurso da vigília e
após a prisão.
185
Figura 14: Montagem justapondo fotografias do tecido estendido no SMABC.
As quatro fotografias foram publicadas no Twitter por contas vinculadas a veículos jornalísticos brasileiros e
estrangeiros, entre o momento em que Lula discursou em frente ao SMABC e sua prisão, no dia 7 de abril.
Fonte: Montagem de elaboração própria a partir de fotografias obtidas por meio da API Streaming do Twitter. Em
sentido horário, a partir do canto esquerdo superior, o quadrante das imagens na visualização de referência e as
fontes encontradas para as imagens são: VGG19 □ VGG19 O:7 | GVAPI M□ VGG19 :6, conta da revista brasileira Carta Capital
(@cartacapital) em tuíte publicado 7 de abril às 18h40 UTC; VGG19 □ VGG19 O:10 | GVAPI M□ VGG19 :6, conta do jornal
brasileiro O Tempo (@otempo) em tuíte publicado 7 de abril às 16h26 UTC; VGG19 □ VGG19 M:13 | GVAPI G□ VGG19 :5, conta
do jornal venezuelano A Todo Momento (@AtodoMomento) em tuíte publicado 7 de abril às 19h22 UTC, sendo
que a mesma imagem foi publicada às 20h55 UTC por conta do jornal argentino El Tribuno (@eltribuno); □ VGG19
VGG19 L:8 | GVAPI E:4□ VGG19 , conta do canal de televisão uruguaio El Subrayado (@Subrayado) em tuíte publicado
7 de abril às 18h46 UTC. Nenhum dos tuítes indicavam fonte primária ou autoria para as fotografias publicadas.
Chegar até as imagens do acontecimento, contudo, constitui um dos primeiros desafios
metodológicos desta investigação. Em mais uma consequência do desafio do tratamento
computacional das imagens, as possibilidades proporcionadas pelas plataformas para
acessar dados em uma pesquisa como esta são, tipicamente, centradas em elementos
verbais de seus conteúdos. Deste modo, orientar a investigação por um viés imagético
constitui uma primeira torção que precisa ser aplicada aos métodos de coleta e proces-
samento. Os procedimentos adotados neste esforço serão, portanto, abordados na
186
primeira seção do capítulo. A segunda seção indicará, por sua vez, as técnicas de proces-
samento empregadas uma vez que se conseguiu chegar a arquivos de imagens relativos
ao acontecimento. Desafios específicos desta fase incluem o agrupamento de arquivos
segundo relações construídas de identidade e diferença e, também, o esforço de traduzi-
los em informações computáveis acerca de seu conteúdo, como auxílios ao desafio de
navegar em meio ao conjunto. Por fim, a terceira seção apresenta o Atlas para imagens-
redes, o dispositivo analítico constituído a partir destas etapas, indicando algumas pos-
sibilidades de ativação de seus potenciais.
4.1 Coleta e extração de dados
Por vezes relevada em descrições metodológicas, em particular quando subtende-se
certo grau de objetividade para os dados coletados, considero, de outro modo, funda-
mental que a coleta seja descrita em detalhes. Mais do que isso, considero importante
que seja abordada reflexivamente em termos daquilo que consegue revelar e daquilo que
pode ter permanecido nas sombras ou nas brechas do dispositivo de captura constituído
para a pesquisa. Nesse intuito, apresento nesta seção não apenas uma descrição do passo
a passo que levou à constituição da base de dados em que se fundamenta a análise mas,
também, uma análise em retrospectiva desse mesmo procedimento.
Assumo, nesse movimento, a proposição feita por Richard Rogers (2013, 2016) acerca
das condições de “fundamentação” (grounding) da pesquisa em mídias digitais. Ele sus-
tenta que uma pesquisa pode fundamentar-se em dados online à medida que o online se
torna referência sobre a questão que se busca investigar. Se, no entanto, as mediações
envolvidas no acesso a esses dados necessariamente transformam as observações possí-
veis, tais transformações não se aplicam somente à pesquisa, mas também ao modo com
que a realidade observada é constituída no âmbito da Internet. Escreve o autor (ROGERS,
2017, p. 75–76):
Os métodos digitais desse modo reelaboram as condições de atestação, pri-
meiro por considerar o online como base de fundamentação, mas também em
um segundo sentido. Um pesquisador realiza descobertas online e, ao invés de
deixar esse meio de lado para conferir maior consistência às descobertas, in-
vestiga, mais, em que medida o meio está afetando as descobertas. A pesquisa
sobre o meio, então, serve a um propósito que é distinto do estudo apenas da
cultura online139.
139 No original: “Digital methods thereby rething conditions of proof, first by considering the online as a site of ground -
ing, but also in a second sense. One makes social research findings online, and, rather than leaving the medium to
187
Ou seja, é justamente pelo aprofundamento das questões acerca do método e suas medi-
ações técnicas que se alcança, não uma positividade do conhecimento sobre o caso, mas,
sim, uma compreensão mais ampla acerca das próprias condições de conhecimento.
Aqui, proponho ir além das mediações técnicas, apenas, e considerar, reflexivamente, os
limites inerentes aos métodos de coleta empregados e em que medida eles condicionam
os dados disponíveis para análise.
Um primeiro aspecto por se considerar, portanto, é que mesmo o mais computacional
dos métodos, ao se voltar para uma realidade social, demanda engajamento com o tema
em questão, inclusive com certo caráter etnográfico. Afinal, antes de ter dados para pes-
quisar, uma pessoa interessada em determinado tema precisará constituir uma primeira
compreensão a seu respeito, nem que seja apenas para selecionar um conjunto de ter-
mos de busca e critérios a partir dos quais constituir sua primeira base de dados. Isto
apenas pode ser constituído em um contato direto com o tema, a partir da experiência do
mundo. Para este caso específico, a elaboração do dispositivo de captura foi fundamen-
talmente informado pelo contato que tinha com o caso em meu envolvimento pessoal no
acompanhamento do noticiário e das discussões em plataformas online, como Twitter e
Facebook. Este primeiro contato, em larga medida assistemático, adensou-se com o
‘aquecimento’ da discussão, quando todas as possibilidades de recurso jurídico à prisão
se esgotaram e, portanto, quando a prisão de Lula tornava-se iminente.
harden them, one subsequently inquires ito the extent to which the medium is affecting the findings. Medium research
thus serves a purpose that is distinct from the study of online culture alone”. Tradução minha.
188
189
Na Figura 15 apresento um diagrama que representa esquematicamente os procedimen-
tos de coleta e as tarefas de processamento que abordarei nesta seção do capítulo. Esta
primeira fase compreende, portanto, desde o design de busca, com a escolha dos termos
adotados para coletar dados do Twitter; até a extração e carregamento local das imagens
a serem trabalhadas nas etapas subsequentes.
4.1.1 Construindo um dispositivo de captura
Como indiquei na introdução deste capítulo, os dados utilizados para analisar o caso fo-
ram inicialmente coletados sem que se visasse um objetivo de análise previamente
estabelecido. Em todo caso, as coletas feitas desse modo voltavam-se ao Twitter como
fonte prioritária dos dados, como acontece para muitas das pesquisas hoje realizadas em
mídias sociais por métodos digitais. Este ponto merece consideração pois, como se sabe,
o Twitter não está entre as plataformas mais utilizadas no Brasil140. O critério de escolha
desta mídia social não foi, efetivamente, a popularidade ou relevância específica para o
caso em questão. Um fator crucial que justifica a coleta de dados do Twitter neste estudo,
como também em outros casos, deve-se a se tratar de uma das plataformas mais per-
missivas quanto à possibilidade de acesso aos dados de publicações por meio de suas
Interfaces de Programação de Aplicações (APIs), aspecto que elaboro a seguir. Um se-
gundo ponto, talvez mais específico a este estudo, deve-se a que o objetivo perseguido
não se volta tanto à plataforma de mídia social em si, às particularidades de sua consti-
tuição ou da conversação realizada por meio dela. De outro modo, interessam-me as
imagens relacionadas ao acontecimento da prisão e o Twitter oferece-se como um meio
privilegiado, dada a permissividade de sua API, para obter estas imagens e dados relaci-
onados à sua circulação. Abordagem similar poderia ser realizada, por técnicas de
raspagem, em outras plataformas como o Instagram ou mesmo – em outros protocolos
de pesquisa e com outras implicações – em grupos de Whatsapp.
O Twitter, em particular, como elabora van Dijck (2014, p. 199–200), é frequentemente
tomado por pesquisadores como um “termômetro” datificado das multidões. Como uma
plataforma que reuniria as reações espontâneas de usuários em traços coletáveis e anali-
sáveis em massa. Ou, ainda, como uma “ferramenta gigante de sondagem em tempo
real”. Estas compreensões, sugere a autora, seriam sintomáticas do dataísmo – que dis-
140 Embora tenha ganhado relevância recente, em especial pelo uso frequente desta plataforma por membros do
atual governo federal – uma tendência também observada no contexto estadunidense.
190
cuti anteriormente – à medida em que não consideram a mediação da plataforma e os
vieses que introduz nos dados e, portanto, nas análises. Em larga medida, a abordagem
que faço do Twitter tampouco se aprofunda na investigação destes aspectos da platafor-
ma, que é utilizada como uma porta de entrada para imagens em circulação. Contudo,
gostaria de ressaltar a crítica de van Dijck e salientar que se problematizo este aspecto
em profundidade não é por uma abordagem ingênua dos dados coletados mas, sim, pela
escolha de um enfoque analítico. Justamente pelo não aprofundamento nestes aspectos,
contudo, não chego nesta tese a elaborar asserções precisas sobre a realidade do caso
abordado – não busco, por exemplo, definir qual instância do iconoclash teria saído “vi-
toriosa”. Estas questões fogem ao escopo deste estudo. Ao menos no âmbito dos
procedimentos de coleta empregados, contudo, busco evidenciar as mediações em jogo,
a começar pela porta de entrada oferecida pela plataforma, sua API.
Uma API, segundo o jargão da computação, é um tipo de estruturação de um programa
de computador que permite algum grau de interoperabilidade com outros programas.
Por meio de uma API, por exemplo, a pessoa que desenvolve um software pode habilitar
que programas de terceiros façam uso de certas funcionalidades ou obtenham dados ge-
ridos pelo seu programa. No âmbito das pesquisas de internet e dos métodos digitais, as
pesquisas frequentemente operam por meio das APIs constituídas pelas plataformas que
permitem, entre outras funcionalidades, a extração de certos tipos de dados das publica-
ções e atividades de usuários para fins diversos como pesquisas acadêmicas e comerciais.
Esta ‘porta de entrada’ constitui, em larga medida, uma primeira forma de mediação
que dispõe algumas das possibilidades analíticas de uma investigação. Taina Bucher
(2013a), discutindo o caso específico das APIs do Twitter, salienta como estas não são
objetos neutros, mas, sim, instâncias mediadoras que transformam os dados e cuja
constituição não é nunca estável pois, embora participem das transações efetuadas por
seus usuários, elas tanto constituem a relação quanto são por ela constituídas. Isto é:
uma API define certas possibilidades, mas é, também, definida por seus usos. Transpon-
do esta indicação às APIs do Facebook, por exemplo, podemos compreender como elas
permitiram uma realização como a da empresa Cambridge Analytica, que construiu per-
fis psicológicos de milhões de pessoas com base em dados obtidos da plataforma141.
Compreendemos, também, como justamente esse caso pôde catalisar o progressivo fe-
141 Em artigo escrito com Olga Lukyanova em que apresentamos obra de arte que realizamos por meio da API do
Facebook, desenvolvemos alguns aspectos relacionados (LUKYANOVA; MINTZ, 2018).
191
chamento das APIs como fonte de dados para a pesquisa em métodos digitais, criando
uma crise atualmente vivida no campo, que diz-se entrar em um momento “pós-API”
(cf. VENTURINI; ROGERS, 2019).
A Streaming API do Twitter, que utilizo para a coleta neste caso, permite a obter dados
da plataforma “em tempo real” (item 2 da Figura 15). Isto é, os tuítes são coletados, mi-
nuto a minuto, assim que são publicados. Porém, ela não permite a coleta retroativa.
Apesar desta limitação, os resultados oferecidos pela API são bastante robustos e permi-
tem a coleta de volumes substanciais de dados. Até o momento da escrita, os critérios de
requisição oferecidos pela Streaming API permanecem os mesmos (TWITTER, 2019a)
daqueles disponíveis no período da coleta deste estudo e também conforme referenciado
na bibliografia a seu respeito (PUSCHMANN; GAFFNEY, 2013). Os modos permitidos de
coleta são:
• track (Rastrear): busca por tuítes contendo até 400 palavras-chave;
• follow (Seguir): tuítes postados por até 5.000 contas de usuário identifica-
das por seus números identificadores;
• location (Localização): busca por tuítes segundo sua geolocalização, com
escopos definidos por até 25 quadrantes de coordenadas geográficas.
Historicamente, a API Streaming oferece a usuários comuns acesso limitado a até 1% do
tráfego momentâneo da plataforma (PUSCHMANN; GAFFNEY, 2013; RIEDER; BORRA,
2014). Embora a documentação atual da API não apresente esta indicação específica, o
desempenho da ferramenta não sugere grandes mudanças em relação a esta limitação.
Evidentemente, contudo, a ausência de dados quanto ao volume total do tráfego na pla-
taforma dificulta avaliar o limite com precisão.
Como indica a sigla API, trata-se de uma interface de programação de aplicações, o que
significa que não é possível acessar diretamente os dados por meio de uma interface
gráfica de usuário (GUI, na sigla em inglês). O acesso se dá por meio de comandos, tipi-
camente automatizados por meio de um programa. Para obter os dados da API
Streaming, portanto, utilizei o Kit de Ferramentas para Captura e Análise do Twitter (Twit-
ter Capture and Analysis Toolset – DMI-TCAT). Este é um conjunto de ferramentas
computacionais desenvolvido no âmbito da Digital Methods Initiative (DMI), da Universi-
192
dade de Amsterdam (RIEDER; BORRA, 2014). A escolha desta ferramenta e API142, se deu
principalmente em função da robustez da API Streaming e da fundamentação metodoló-
gica do DMI-TCAT, segundo elaboram seus desenvolvedores (RIEDER; BORRA, 2014).
Considerando a ferramenta um “método programado”, Rieder e Borra argumentam que
a constituição do DMI-TCAT não pode ser resumida a um conjunto de proposições técni-
cas e que, de outro modo, é preciso considerá-la segundo suas orientações epistêmicas e
as repercussões, destas, na pesquisa acadêmica derivada (RIEDER; BORRA, 2014, p. 263).
Nesse sentido, os autores propõem uma série de diretrizes para a ferramenta que vão
desde a gratuidade do programa e a abertura do código, até a opção por armazenar os
dados da forma mais próxima possível da estruturação oferecida pela API do Twitter. Ao
tornar o software gratuito e de código aberto, seu acesso é facilitado, além de se permitir
sua expansão e escrutínio por parte de pessoas que venham a empregá-la em suas pes-
quisas. Por sua vez, a priorização do modo de estruturação de dados da própria API do
Twitter torna a mediação analítica da ferramenta sempre reversível e aberta a múltiplas
abordagens – salvaguardando, como afirmam os autores, a pluralidade epistêmica (RI-
EDER; BORRA, 2014, p. 266).
A coleta de termos relacionados ao Lula teve início, experimentalmente, no dia 18 de ja-
neiro de 2018, às vésperas do julgamento de seu caso em segunda instância, no TRF-4.
Contudo, o recorte escolhido para a análise compreende o período entre 4 e 16 de abril de
2018, quando se desenrolou a prisão do ex-presidente e em que a coleta foi acompanha-
da de modo mais próximo. Especificamente, foram extraídos, do conjunto mais amplo de
dados, todos os tuítes obtidos desde as 3h00 do dia 4 até as 3h00 do dia 17 de abril de
2018, no horário UTC (Tempo Universal Coordenado, na sigla em inglês), segundo o fuso
horário padrão utilizado pela API do Twitter143. Deste modo, cobre-se desde a véspera da
expedição do mandado de prisão até o 10º dia da prisão do Lula.
Nesse período específico, sem prejuízo para os termos de coleta cadastrados ainda em
janeiro, os filtros da coleta foram revisados e atualizados diariamente, de modo a acom-
panhar os termos e hashtags cuja utilização era percebida em meio à conversação sobre o
142 A coleta de dados do Twitter pode ser realizada também via a API Search e ferramentas que a ela se vinculam,
com acesso possível a tuítes postados no passado a partir de termos de busca. Contudo, trata-se de interface que
tipicamente oferece bem menos resultados do que a API Streaming, além de não haver indicação tão clara acerca
de quais os limites e a forma de mediação dos resultados.
143 À época, o UTC diferia em +3 horas do horário de Brasília. Portanto, o período estipulado equivale, para o fuso
horário brasileiro, à faixa entre as 0h00 do dia 4 e 0h00 do dia 17 (ou 24h00 do dia 16), respectivamente. Entre-
tanto, o escopo efetivo para o início da coleta foi prejudicado por uma falha temporária da coleta, de modo que o
primeiro tuíte efetivamente coletado no dia 4 foi publicado às 12h20 UTC (09h20 em Brasília).
193
acontecimento. Chama-se a esta técnica de snowballing (bola de neve): a partir dos re-
sultados obtidos pela coleta, observar possíveis termos que permitiriam sua ampliação
para além dos limites inicialmente definidos (item 1 da Figura 15). Para além dos resul-
tados da coleta, contudo, busquei também observar, nas notícias divulgadas por portais
noticiosos e no próprio Twitter, os termos utilizados por diferentes atores. Este acompa-
nhamento se deu por meio da interface Tweetdeck, do próprio Twitter, que permite
várias visualizações alternativas ao feed tradicional, como o acompanhamento da men-
ção de termos em tuítes em tempo real ou o acompanhamento simultâneo de múltiplas
listas de contas de usuário de interesse, por exemplo. Para este fim, procurei estabelecer
listas de atores ‘lulistas’, ‘lavajatistas’ e de veículos de notícias, além de acompanhar
ocorrências do termo [lula], em especial de tuítes com imagens.
Richard Rogers (2017) denomina design de busca (query design) esta tarefa de escolha e
refinamento das palavras-chave e filtros utilizados nas coletas de dados. O autor salien-
ta, por exemplo, como a escolha deve buscar refletir o vocabulário utilizado por
diferentes perspectivas sobre o tema estudado. Sugere, também, que a seleção dos ter-
mos deve se dar por um processo de revisão em que os resultados da busca são
analisados a fim de aprimorar a qualidade da coleta, em um ciclo de retroalimentação.
Assim se deu o processo de coleta do caso em questão, embora nem sempre da forma
mais racional e dedutiva. Como já indiquei, devido à temporalidade peculiar das APIs do
Twitter, dados de melhor qualidade – em maior quantidade, com mais metadados e com
maior precisão sobre o escopo de coleta – são obtidos em “tempo real”. Por isso, é ne-
cessário que os termos de busca pertinentes sejam cadastrados na busca antes de os
tuítes contendo estes termos sejam publicados. Procurei, nesse sentido, antecipar alguns
tópicos de conversação como parte do esforço de coleta.
Em certo sentido, trata-se de processo análogo ao de se construir uma armadilha – tal
como um dos sentidos primeiros da palavra rede (MUSSO, 2004, p. 18)144. Deve-se ante-
ver aspectos da conversação, prever possíveis formulações verbais e acompanhar
atentamente a evolução dos vernaculares. Por isso, a escolha e refinamento dos termos
envolve planejamento e improvisação em igual medida, em tentativas de coletar verten-
tes imprevistas do acontecimento em curso, quando já se observa a repercussão de
certos termos. Em especial ao longo dos dias entre 5 de abril, quando houve a expedição
144 Segundo descreve o autor, a palavra francesa réseau (rede) apenas surge no século XI designando “redes de caça
ou pesca e tecidos, uma malhagem têxtil que envolve o corpo” (MUSSO, 2004, p. 18).
194
do mandado de prisão, e 7 de abril, quando a prisão se concretizou, acompanhei cons-
tantemente a conversação no entorno de palavras-chave já antevistas para a coleta. Esta
observação permitiu compreender aspectos da conversação em tempo real e intuir ou-
tros termos relevantes que talvez representassem lacunas da coleta, os quais foram
acrescentados durante esse período (veja Gráfico 2).
Justamente pelo improviso, nem sempre as adições de termos consideraram a possível
redundância com outros já cadastrados, além de, por vezes, visarem vertentes pouco ex-
pressivas em meio ao conjunto. Entre os termos acrescentados apenas durante o
desenrolar dos acontecimentos está o mais óbvio: [lula]. Em experimentos de coleta an-
teriores, havia-se verificado que o termo era demasiado inespecífico e tendia a coletar
tuítes não-relacionados ao tema visado – tanto pelo animal de mesmo nome quanto
pelo uso do termo como apelido, inclusive em outros idiomas. Por isso, a coleta inicial-
mente incluiu o termo apenas em junto a outros, de modo a restringir o escopo de
menções, como [lula prisão]. Nesses casos, apenas quando ambos os termos fossem
mencionados o tuíte seria coletado. Contudo, à medida que o fluxo da coleta se intensifi-
cou, experimentos de busca pelo termo na interface Tweetdeck, do Twitter, indicaram
que a inespecificidade já não constituía problema e o ‘ruído’ poderia ser desprezado. O
termo [lula] passou a ser coletado às 14:42 do dia 5 de abril, sem que os termos anterio-
res, a ele redundantes, fossem excluídos. Um ruído gerado por esta inclusão, que foi
notado apenas posteriormente à coleta, deve-se a que, além de outros contextos de uso
195
para o termo Lula, também foram coletados tuítes em que o termo aparecia como parte
de uma palavra (como ‘celular’). Entretanto, como se verá, isto não chegou a compro-
meter a análise, já que o volume destas ocorrências foi muito inferior àquele
efetivamente pertinentes ao caso145.
No total, a coleta se baseou em 109 termos de busca cadastrados no DMI-TCAT. Contu-
do, considerando o desempenho real da coleta, é possível restringir este número a 68
termos relevantes, considerando apenas aqueles que, para ao menos um tuíte coletado,
não foram redundantes com nenhum outro. Quero dizer de termos que tenham sido de-
terminantes para coletar ao menos um tuíte em meio ao montante efetivamente
coletado. Para isto, basta considerar se o termo foi encontrado em um tuíte no qual ne-
nhum outro termo foi encontrado. Esta análise é possível tomando por base a tabela
tcat_captured_phrases, que o DMI-TCAT cria no banco de dados da ferramenta. Esta
tabela armazena, para cada tuíte coletado, qual ou quais dos termos cadastrados foram
encontrados. Desconsidera-se, desse modo, termos que foram sempre encontrados em
conjunto com outros termos e que, por isso, são apenas redundantes. Entretanto, como a
lista de termos utilizados na coleta foi dinamicamente alterada ao longo do período con-
siderado, os termos relevantes não excluem toda forma de redundância. As análises
subsequentes desta seção considerarão apenas esse subconjunto de 68 termos relevan-
tes. O objetivo desta filtragem é apenas reduzir o escopo considerado neste olhar
retrospectivo ao esforço de coleta. Apresento no Apêndice A tabela contendo todos os
termos utilizados na coleta, inclusive os depois considerados irrelevantes, junto à indi-
cação do momento de início da coleta, bem como dos índices ocorrência total e em
isolamento.
O Gráfico 3 apresenta os termos de busca utilizados na coleta na forma de um grafo,
construído segundo as coocorrências verificadas entre eles nos tuítes coletados. Ele ser-
ve como um instrumento para compreender o desempenho das estratégias de coleta
diante do caso observado. Embora se trate de um grafo denso e muito conectado – a que
se costuma referir por “bola de cabelo” – é possível descrever alguns aspectos da cor-
respondência entre os termos segundo a espacialização obtida na visualização.
145 Exemplo deste tipo de ruído pode ser encontrado em VGG19 □ VGG19 N:8 | GVAPI P:1-2□ VGG19 . Nesses quadrantes, encon-
tram-se algumas imagens do carro em que a vereadora Marielle Franco foi assassinada em março de 2018. Os
tuítes coletados para esta figura, como pode ser observado na página de detalhamento para o agrupamento, não
têm relação com o caso Lula, nem contêm o termo como uma palavra. A coleta se deu, contudo, por causa da pa -
lavra ‘celular’. No dia 6 de abril, foi noticiado que a polícia havia descoberto celular usado pelo motorista do
carro usado no assassinato.
196
Tipicamente, os algoritmos de espacialização dirigidos por força, como o ForceAtlas2
(JACOMY et al., 2014), utilizado nesta visualização, tendem a aproximar nós conectados
e distanciar nós desconectados, gerando uma forma que pode ser analisada visualmente
(VENTURINI; JACOMY; JENSEN, 2019). Trata-se de uma abordagem distinta, mas nem
por isso incompatível, da análise computacional de grafos (cf. GRANDJEAN; JACOMY,
2019). Para este caso, o grafo oferece um modo de compreender como a lista de termos
selecionados ao longo do processo de coleta relacionam-se entre si, de modo a compor a
teia para a captura das conversações em curso na plataforma. Áreas mais densas da rede
sugerem campos semânticos mais amplamente cobertos, inclusive com redundâncias, e
que tendem a possuir um melhor desempenho de captura. Áreas menos densas, mais à
margem da rede, sugerem campos semânticos menos cobertos que podem possuir “bu-
racos” e que, por isso, podem ter deixado passar tuítes marginalmente relevantes pelo
não cadastramento de termos específicos correspondentes.
197
Em torno do nó central [lula], ao qual se atribui a maior parte dos tuítes coletados, en-
contramos termos que ocorreram com ele com maior frequência: [lula preso], [lula
prisão], [lula president], [lulalivre], e [lula silva]. Efetivamente, pelo modo de funciona-
mento da coleta de dados no Twitter, todos estes termos sempre coocorrerão com o
termo [lula] e, nesse sentido, são redundantes146. Contudo, eles abrem diferentes setores
146 O início da coleta de cada um dos termos ocorreu em momentos distintos do desenrolar do caso, contudo, como
pode-se observar no Gráfico 2 e segundo o caso já relatado do termo [lula], ver acima.
198
na rede, em que podemos observar expressões distintas sobre o acontecimento. Em dire-
ção à parte inferior do grafo, encontramos termos tipicamente relacionados a
perspectivas celebratórias da prisão, com referências pejorativas ao ex-presidente –
como as variantes do termo ‘molusco’ – e com diferentes verbalizações da prisão, como
[lulaprajaula], [lula cadeia] e [lulanapapuda]. Em direção à margem direita superior, en-
contramos termos relacionados à campanha pela liberdade do ex-presidente, como
[lulavalealuta], [jamaisaprisionarãonossossonhos] e [lulainocente]; à sua candidatura
às eleições presidenciais naquele ano, [lula2018]; e a chamadas pela ocupação de locais
em que se desenrolavam o acontecimento, como [ocupasaobernardo], [ocupacuritiba] e
[ocupaportoalegre]. Em direção à borda superior, encontramos termos mais relaciona-
dos ao julgamento e a condenação em si do ex-presidente, com menções ao apartamento
triplex que foi objeto da denúncia, ao nome do advogado de defesa, Cristiano Zanin, e ao
delator Léo Pinheiro, da construtura OAS. Também nesse campo encontra-se um termo
específico tipicamente usado na campanha pela liberdade de Lula, mas que se direciona
ao questionamento da legitimidade da condenação: [cadeaprova]. Em direção ao lado
esquerdo, há termos relacionados ao juiz e desembargadores que julgaram o caso bem
como a instâncias jurídicas que se envolveram no processo, como [trf 4], [lula stf] e [lula
stj].
Podemos descrever esses diferentes campos semânticos segundo a conceituação de pro-
gramas e antiprogramas proposta por Rogers (2017) na sistematização de metodologias
de coleta. Rogers se baseia, nessa proposição, no trabalho de Madeleine Akrich e Bruno
Latour (AKRICH, 1992; AKRICH; LATOUR, 1992; LATOUR, 1992) – outros aspectos des-
tes textos foram já discutidos no capítulo 2, Imagem-rede. Os setores inferior e direito
superior seriam, nesse sentido, correspondentes ao par programa e antiprograma do
acontecimento. Se tomamos por referência a consumação da prisão durante aqueles
dias, a parte inferior poderia ser considerada como termos relacionados ao programa, em
perspectivas marcadamente concordantes e mesmo celebratórias da prisão. O setor di-
reito superior já apontaria para um antiprograma, com a defesa da liberdade de Lula e o
questionamento da legitimidade da condenação. Os setores esquerdo e superior, por sua
vez, apontam, em parte, para o que Rogers descreve como “esforços de neutralidade”,
pois são termos que, em si mesmos, não são necessariamente partidários e que, de outro
modo, tendem a um esforço de descrição factual do acontecimento.
199
Um aspecto por se salientar sobre o processo de coleta, a partir destas análises, é que por
mais que estejam contidas diferentes perspectivas do caso e por mais que o volume de
tuítes pareça bastante grande, não se pode sugerir, de modo algum, que os dados dizem
de uma totalidade da conversação. A única totalidade que se delimita, aqui, é a dos pró-
prios dados coletados, os quais apenas podem representar o caso abordado por uma
amostragem incerta. Por entre as teias do dispositivo de captura construído pelo design
de busca certamente escoaram diversas formas de enunciação sobre o acontecimento
que não foram antecipadas pelo dispositivo.
Esse escape pode se dever a diversos motivos como: a necessária insuficiência dos ter-
mos de busca; a impossibilidade de prever palavras-chave emergentes; os limites e
mediações opacas da API do Twitter; ou, ainda, a contingências e falhas das múltiplas
camadas técnicas mobilizadas para a coleta. Mais ainda, haveria um hiato semântico, pelo
qual não há nem mesmo a possibilidade de um léxico finito por meio do qual detectar
menções ao caso. Certamente, múltiplas postagens relacionadas se deram sem menção a
qualquer dos termos mapeados ou mesmo a qualquer termo mapeável. Ainda mais tendo
em vista a abrangência do caso em análise, há certamente tuítes cuja relação com a pri-
são do Lula apenas poderia ser compreendida contextualmente. Isto é, há toda uma
dimensão insondável do acontecimento que deve ser reconhecida.
De modo importante para o tema desta tese, há que se considerar, ainda, como a coleta
se limita a busca por termos, isto é, por chaves de busca verbais (cf. D’ANDREA; MINTZ,
2019). Não há a possibilidade de coletar tuítes segundo a imagem que contêm, aspecto
que apenas pode ser considerado uma vez constituído o conjunto dos dados para análise.
Esta seria uma questão para a qual da hipótese conceitual da imagem-rede viria ao auxí-
lio da discussão. Para o estudo deste caso com um enfoque nas imagens, estas seriam
profundamente dependentes de sua vinculação a palavras. Não há acesso direto à di-
mensão visual do acontecimento que não passe por sua dimensão verbal, portanto. A
conexão entre as imagens e os termos de busca seria uma daquelas por perseguir na
constituição dos objetos analíticos do estudo que, por isso, podem ser compreendidos
como imagens-redes. A inclusão de uma imagem no escopo da pesquisa somente seria
autorizada por meio da ocorrência de termos verbais e, com isso, certamente, muitas
imagens escapam. Ainda que não tenhamos como precisar as dimensões e as caracte-
200
rísticas daquilo que se ausenta dos dados coletados, compreender a existência desta ne-
gatividade do método é fundamental para resistir à presunção positivista que
metodologias baseadas em dados computacionais tendem a inspirar (cf. GALLOWAY,
2014).
Todos estes aspectos constituem, entretanto, ainda apenas uma dimensão da negativi-
dade do método, que chamaria de uma negatividade positivável. Afinal, tratam-se de
lacunas da coleta que podemos, ainda assim, identificar e reconhecer enquanto um limi-
te conhecido do método adotado, muito embora sua extensão e impacto sobre a pesquisa
não pode ser de todo precisado, mas apenas estimado. Uma negatividade não positivá-
vel, contudo, diria respeito ainda às sombras projetadas pelo método e que não podem
ser identificadas com igual precisão, que derivam da episteme que ele constitui e que
apenas poderíamos reconhecer por outra matriz metodológica. Ou, ainda, como sugere
Sean Cubitt (2013), por evidências anedóticas que teriam precisamente a capacidade de
furar o encapsulamento epistêmico dos métodos de observação e análise empregados
computacionalmente e em larga escala. Quero, portanto, salientar que o cuidado com
que busco evidenciar as lacunas e incompletudes do método não tem o objetivo de conter
ou neutralizar a negatividade que viria a corroer os dados e números trazidos à análise.
Gostaria, de outro modo, de salientar a circunstancialidade que ainda constitui esse pro-
cesso, contra premissas de objetividade que ele tende a inspirar.
4.1.2 Tuítes
Os dados obtidos por meio dos procedimentos de coleta descritos acima têm como prin-
cipal unidade de análise os tuítes – as publicações feitas na plataforma. Destes será
possível extrair, na sequência, metadados e as imagens consideradas na análise. A base
constituída pela coleta é composta por 7,3 milhões de tuítes (Tabela 1), dos quais uma
ampla maioria (5,4 milhões, ou 75%) são retuítes. Este dado sugere inicialmente que a
conversação teria uma dinâmica relativamente concentrada, com poucos atores postan-
do conteúdos originais e um grupo mais extenso apenas replicando esses conteúdos.
Entretanto, como também indica a Tabela 1, do total de 1,16 milhão de contas que publi-
caram conteúdos, cerca de 77% publicou ao menos um tuíte ‘original’, ou seja, que não
era uma republicação direta do tuíte de outra conta. Portanto, embora a ampla maioria
dos tuítes coletados sejam republicações, a também ampla maioria das contas de usuá-
rios postou ao menos um tuíte original no período observado.
201
Tabela 1: Descrição geral dos tuítes do caso Lula.
Fonte dos dados: API Streaming do Twitter e DMI-TCAT.
total de tuítes 7.265.147 100,00%
retuítes 5.401.941 74,35%
tuítes ‘originais’ 1.863.206 25,65%
contas de usuário 1.159.747 100,00%
contas com tuítes ‘originais’ 896.260 77,28%
contas sem tuítes ‘originais’ 263.487 22,72%
Outro aspecto destacado em uma visão geral dos dados é a já esperada concentração
temporal da atividade em torno dos dias da vigília de Lula no SMABC. A maior parte dos
7,3 milhões de tuítes coletados foram publicados nos primeiros quatro dias do período,
entre 4 e 8 de abril (Gráfico 4). Nos dias seguintes, a atividade foi progressivamente de-
caindo. Os períodos com mais publicações relacionam-se a momentos-chave para o
acontecimento. Primeiro, quando da rejeição do habeas corpus preventivo solicitado pela
defesa do ex-presidente (4 de abril, próximo da meia-noite no horário local). No dia se-
guinte, quando houve a expedição do mandado de prisão (5 de abril, próximo das 18h00
no horário local). No dia 6 de abril, quando expira o período concedido à entrega volun-
tária de Lula. E, enfim, no dia 7 de abril, observa-se o ponto mais alto da taxa de
publicações, próximo às 19h00 no horário local, logo após a realização da prisão, com
128,7 mil tuítes ao longo daquela hora.
Reforçando observações feitas na seção anterior a respeito da negatividade positivável do
processo de coleta, o Gráfico 4 exibe na parte inferior uma visualização dos períodos em
que a coleta foi restringida pela API Streaming do Twitter por exceder o volume de cap-
tura permitido. Sem entrarmos no nível das estimativas numéricas absolutas147,
calculadas pelo DMI-TCAT, os períodos e a magnitude relativa dessas limitações indi-
cam as janelas de fragilidade do processo de coleta. Estas coincidem justamente com os
momentos em que os acontecimentos e a dinâmica de publicações são mais intensos.
147 Evito entrar nesse ponto, especialmente, em função do dado não ser exclusivo a esta coleta específica realizada
no DMI-TCAT, mas ao conjunto delas. O servidor que utilizei nesta coleta possuía cadastrados outros termos
além dos relativos ao caso do Lula.
202
Considerando o interesse específico desta investigação pelas imagens do acontecimento,
um dos primeiros desafios colocados ao processamento dos dados diz respeito à extra-
ção das imagens por se analisar. Mesmo a definição de quantos ou quais destes tuítes
foram apresentados com imagens não é algo que seja possível determinar com exatidão.
Pelo modo com que o Twitter exibe as publicações, há ao menos dois modos pelos quais
um tuíte é apresentado com imagem. Primeiro, quando a publicação incluiu uma ima-
gem como seu conteúdo, isto é, quando quem publica faz upload de um arquivo de
imagem como parte de sua publicação (Figura 16). Nesse caso, o Twitter armazena o ar-
quivo e gera uma URL única para seu acesso.
203
Uma outra possibilidade é a exibição de imagens de pré-visualização de links contidos
nos tuítes (Figura 17). Nesses casos, quem publica o tuíte apenas indica a URL. A plata-
forma, por sua vez, busca na página referenciada a indicação do metadado indicando a
URL de uma imagem de pré-visualização, que é, então, exibida na interface do próprio
Twitter. Questões sobre o uso desse metadado como recurso para a pesquisa serão discu-
tidos adiante. O que é importante compreender, nesse momento, é a necessidade de
desdobrar a busca por imagens para a investigação em duas frentes complementares,
uma voltada aos ‘objetos de mídia’ (imagens estáticas ou em movimento) carregadas di-
retamente na plataforma. Chamarei a este caso de URLs de media, já que, efetivamente,
esta é a materialidade da inscrição com a qual é preciso lidar durante o processamento. A
outra frente se volta às imagens possivelmente exibidas como pré-visualização. Para
este caso, estamos falando de URLs inseridas nas publicações na forma de links vincu-
lando a publicação a outro endereço na web – chamo a estas de URLs de links.
204
4.1.3 URLs de media
Quando a postagem vem acompanhada de uma imagem ou de um vídeo, o arquivo é car-
regado no Twitter e a plataforma gera uma URL para seu acesso, que é utilizada para
exibição junto à postagem. Cada tuíte, por limitações colocadas pela própria plataforma,
pode conter até quatro arquivos de media, categoria que abarca três tipos de arquivo,
segundo distinções estabelecidas pelo Twitter:
• photo: qualquer imagem estática, não necessariamente fotográfica, apesar do
nome da categoria. Seu armazenamento se dá pelo formato de uso difundido JPEG
(veja discussão iniciada na p. 86).
• animated_gif: vídeo em loop de breve duração. Embora seja referido como um
GIF, um formato de imagem que permite armazenar múltiplos quadros exibidos
como animação, o Twitter na realidade converte este formato a um arquivo de ví-
deo no formato MP4.
205
• video: vídeos com duração de até 2 minutos e 20 segundos, segundo especifica-
ções da plataforma (TWITTER, 2019b). Esta limitação não se aplica a contas
selecionadas pela plataforma, que podem postar vídeos mais longos.
Um aspecto por se observar acerca desta tipologia, reproduzida nos dados obtidos via
API, são desacordos entre as categorias e os tipos de arquivo e de mídia a que se referem.
A categoria animated_gif faz menção a um formato de arquivo (GIF) quando não se
trata, efetivamente, do tipo de arquivo utilizado para o objeto de media, que é carregado
como um arquivo de vídeo no formato MP4148. Desse modo, a menção ao GIF tem menos
um sentido estritamente técnico do que sugere algo como um ‘gênero’ de imagens em
movimento, caracterizadas pela curta duração e exibição em loop. Contudo, em especial,
interessa a esta pesquisa a peculiaridade daquilo que é considerado photo. A categoria
indica, afinal, não uma foto, necessariamente, mas qualquer imagem estática, apresen-
tada no formato JPEG. Esta subsunção de toda imagem estática a um tipo chamado de
photo parece apontar, em um primeiro momento, pra uma expectativa da plataforma
quanto ao tipo de imagem estática mais comum. Para além de uma questão de expectati-
va, contudo, esta indicação parece reforçar a compreensão sugerida por Ingrid Hoelzl e
Rémi Marie (2015) de que no âmbito das imagens digitais a ontologia da imagem foto-
gráfica seria reconfigurada: “não mais denotando imagens produzidas de uma
determinada maneira, mas uma categoria de imagens que exibem uma distribuição es-
tética específica (tom contínuo) com a qual o algoritmo JPEG funciona melhor”
(HOELZL; MARIE, 2015, p. 3)149. De certa maneira, portanto, não se trata necessariamen-
te de uma questão de expectativa, apenas, mas de uma efetiva reconfiguração da
categoria, por meio da qual tudo o que é JPEG seria, em certos contextos, uma foto.
Outro aspecto importante sobre os arquivos de media diz respeito ao modo de vincula-
ção das URLs às imagens. De modo importante, não existe garantia de que para uma
imagem haverá apenas uma URL. Pelo contrário, tipicamente, haverá várias. Isto porque
as URLs são geradas a cada novo carregamento de um arquivo para publicação, mesmo
que se trate exatamente do mesmo conteúdo de outra publicação já realizada. Há casos,
entretanto, em que uma mesma URL de media é referida por diferentes tuítes. Para o
caso de imagens estáticas, isto ocorre quando se trata de um retuíte ou, de modo mais
148 Provavelmente, a conversão ao formato de vídeo visa melhor comprimir os arquivos, já que o algoritmo de
compressão MP4 não salva os frames inteiros, diferentemente do formato GIF.
149 No original: “no longer denotes images produced in a certain way, but a category of images that display a specific
aesthetic distribution (continuous-tone) with which the JPEG algorithm works best”. Tradução minha.
206
improvável, quando um tuíte insere, de forma literal, uma URL da imagem que tivesse
sido publicada por um outro tuíte. No caso de imagens em movimento, além do retuíte,
há casos em que o arquivo é apenas publicado novamente sem vir acompanhado do tuíte
original, possibilidade permitida para arquivos do tipo video, em particular. Uma con-
sequência disto para a análise será abordada adiante (veja 4.2 Processamento das
imagens): para falarmos de uma imagem, será preciso encontrar um modo de agrupar, a
partir de seu conteúdo, os diferentes arquivos que seriam pertinentes a uma mesma
imagem. Não se trata de problema que possa ser resolvido de forma definitiva.
Dos 7,3 milhões de tuítes que compõem a base deste estudo, 1,2 milhão (16%) contêm
algum tipo de media. Esta indicação é oferecida pela própria API Streaming do Twitter,
nos dados recuperados pelo DMI-TCAT (item 3 da Figura 15). Os tuítes são representa-
dos, nos dados obtidos da API, como um objeto, que nada mais é do que uma coleção
estruturada de dados referentes ao tuíte. Estes dados são armazenados em um arquivo
JSON (Notação de Objeto Javascript, na sigla em inglês), interpretados pelo DMI-TCAT e
armazenados em seu banco de dados. Os itens de media são identificados como parte dos
tuítes coletados (TWITTER, 2019c). Estes dados, armazenados pelo DMI-TCAT na tabela
de terminação _media150 embasam as análises realizadas nesta subseção.
Tabela 2: Dados dos tuítes com media e URLs de media.
Fonte dos dados: API Streaming do Twitter.
total de tuítes 7.265.147 100,00%
1.182.077 16,27% 100,00%
photo 843.063 11,60% 71,32%
animated_gif 105.395 1,45% 8,92%
video 233.623 3,22% 19,76%
184.252 100,00%
photo 160.302 87,00%
animated_gif 13.721 7,45%
video 10.229 5,55%
tuítes com media
tuítes por
tipo de
media
urls de media únicas
urls por
tipo de
media
* A soma dos tuítes por tipo de media é superior ao número de tuítes com media, pois
um tuíte pode conter mais de um tipo de media.
150 Esta tabela é específica para cada coleta realizada no DMI-TCAT, de modo que a terminação é adicionada ao
nome dado pelo usuário da ferramenta à coleta cadastrada. No caso, como dei à coleta o nome
julgamento_lula, a tabela recebeu o nome julgamento_lula_media.
207
Estes 1,2 milhão de tuítes que contêm algum tipo de media compartilharam 184 mil
URLs de media únicas. Ou seja, cada URL de media foi publicada, em média, 6,4 vezes
por meio de retuítes ou compartilhamentos de um mesmo carregamento. Destas URLs
de media, a ampla maioria, composta por cerca de 160 mil (87%), referencia arquivos do
tipo photo. Estas URLs foram publicadas por cerca de 843 mil tuítes, com uma média de
5,3 tuítes por URL do tipo photo. Estes tuítes representam cerca de 12% de todos os tuí-
tes coletados e cerca de 71% dos tuítes com media (Tabela 2).
Nesta pesquisa, o recorte da análise buscou excluir imagens em movimento
(animated_gif e video) para enfocar apenas as imagens estáticas subsumidas pela ca-
tegoria photo. O motivo principal para este recorte se devia a limitações do método
empregado para lidar com imagens em movimento. Abarcá-las demandaria procedi-
mentos mais complexos, além de muito mais recursos de armazenamento e
processamento. Entretanto, devido a um aspecto que será discutido em maiores detalhes
na subseção seguinte (4.1.4 URLs de links ), uma imprecisão do procolo de processamen-
to fez com que ao menos uma parte dos conteúdos de imagem em movimento fosse
inadvertidamente incluída no escopo da análise. Nesses casos, contudo, as imagens pro-
cessadas não foram os vídeos em si e, sim, um quadro estático, extraído do vídeo, o qual
é utilizado pela plataforma como forma de pré-visualização do conteúdo, antes do vídeo
ser executado. Ou seja, parte dos objetos do tipo video e animated_gif foram incluídos
na forma de imagens estáticas.
Considerando os dados obtidos pela tabela de terminação _media do DMI-TCAT, o últi-
mo passo pertinente a esse tópico foi o carregamento local (download) das imagens
indicadas pelas URLs de media (item 7 da Figura 15). Este carregamento foi realizado por
meio de script na linguagem Python elaborado especificamente para este fim, que recur-
sivamente percorreu a lista de URLs e armazenava as imagens em uma pasta local, em
formato JPEG. Trata-se de processo relativamente simples, mas que tem um ponto im-
portante para as tarefas subsequentes, relativo ao modo de nomeação dos arquivos. A
relevância deste aspecto deve-se ao estabelecimento de um primeiro princípio de identi-
dade para as imagens analisadas. Neste caso, uma imagem é compreendida como um
arquivo de imagem. Como é a URL que identifica a individualidade destes arquivos até
esta etapa, os arquivos foram nomeados de acordo com esta URL. Para este fim, o script
208
que utilizei para o carregamento aplicava o mesmo método utilizado por Bernhard Rie-
der no script Memespector (RIEDER; DEN TEX; MINTZ, 2018), baseado no algoritmo de
criptografia SHA-1.
O algoritmo de criptografia SHA-1 é implementado como parte da biblioteca padrão do
Python para funções de dispersão (hash). Usar as próprias URLs como nomes para os ar-
quivos seria inviável, já que são tipicamente extensas, de comprimento variável e porque
possuem caracteres especiais que não são permitidos em nomes de arquivos. Por meio
deste algoritmo, porém, as URLs são codificadas como uma sequência finita de 40 carac-
teres alfanuméricos. Esta sequência comporta 2^160 possibilidades e, portanto, tem
baixíssima probabilidade de colisão (isto é, de que duas URLs distintas produzam a mes-
ma sequência alfanumérica). Por exemplo:
http://www.ppgcom.fafich.ufmg.br/ → 3f0faece295839635b0b7c1a110288f6f30223ce
Deste modo, atribui-se um identificador único para o endereço e, portanto, para os ar-
quivos de imagem. Isto permite garantir um bom nível de consistência durante o
processamento dos dados, evitando a duplicação do carregamento da imagem e, ao mes-
mo tempo, distinguindo com alto grau de precisão as diferentes URLs de origem.
Diante do que foi apresentado e discutido nos capítulos precedentes, estas sequências de
caracteres podem ser compreendidas como inscrições na medida em que, para diversas
instâncias das tarefas de processamento, são elas que contam como as imagens. O iden-
tificador único opera como um elemento que garante que a vinculação da imagem à URL
de origem seja sempre recuperável, uma vez que uma tabela vinculando cada ID às URLs
é mantida como parte da base de dados. De fato, é por meio desta inscrição que os arqui-
vos JPEG armazenados em um diretório único – isolados e autossuficientes enquanto
tais – podem ser articulados aos dados armazenados nas tabelas de tuítes, por exemplo,
com indicações quanto ao momento em que foram publicados e dados das contas que os
compartilharam. Indicarei em seção adiante (veja 4.2 Processamento das imagens ) como
esta inscrição será recuperada para identificar matrizes de conjuntos de imagens identi-
ficadas como referentes a um mesmo registro, embora sejam provenientes de diferentes
URLs e, portanto, possuem diferentes sequências identificadoras.
209
4.1.4 URLs de links
Chamo URLs de links os endereços incluídos nos tuítes que não são pertinentes a arqui-
vos de imagem estática ou em movimento (media) e que, de outro modo, remetem a
outros conteúdos disponíveis na Web. A inclusão destas URLs na análise, como indiquei
em subseção anterior, visa dar conta de um segundo modo pelo qual as imagens podem
aparecer no Twitter (veja Figura 17). Quando um tuíte inclui uma URL, o Twitter busca
no endereço a indicação de uma imagem de pré-visualização para incluir na exibição do
tuíte. Para extrair estas imagens e considerá-las na análise, portanto, é preciso que o
protocolo metodológico inclua uma etapa em que as URLs são acessadas e o dado indica-
tivo da imagem de pré-visualização é extraído e a imagem é carregada localmente.
Efetivamente, automatizei este processo por meio de um script em Python mas, ainda
assim, trata-se de processo lento que não é viável realizar para a totalidade das URLs
compartilhadas nos tuítes coletados. Nesta subseção, busco explicar, portanto, o proces-
so de extração das URLs, a seleção daquelas que seriam efetivamente processadas e,
enfim, o processo de carregamento das imagens. Indicarei como estes procedimentos
são permeados de incertezas, muitas das quais fogem ao escopo desta pesquisa investi-
gar a fundo, em especial porque não afetam substancialmente os objetivos perseguidos.
Um primeiro ponto por se abordar é a identificação das URLs nos tuítes. Esta tarefa foi
realizada por dois procedimentos complementares. O primeiro procedimento é o método
já integrado à própria API Streaming do Twitter. As URLs incluídas nos tuítes são discri-
minadas nos dados fornecidos, por meio da entidade url, compreendida como parte do
objeto tweet (TWITTER, 2019c). O DMI-TCAT armazena estas URLs em tabela específi-
ca, identificada pela terminação _urls, que vincula cada tuíte à(s) URL(s)
compartilhadas (item 3 da Figura 15). Como as URLs são retornadas em forma encurtada
– isto é, indicando um endereço intermediário mais curto, para otimizar o uso de carac-
teres – a identificação do endereço final do link demanda que a URL encurtada seja
seguida para obter o endereço completo. O DMI-TCAT também possui função para auto-
maticamente expandir as URLs, armazenando já a versão completa delas. O segundo
procedimento envolveu o processamento do conteúdo textual dos tuítes em busca de
segmentos iniciados por ‘http’ e que, portanto poderiam indicar uma URL (item 4 da Fi-
gura 15). A adoção desse método se deveu a observações preliminares que sugeriam que
nem todas as URLs incluídas nos tuítes eram efetivamente indicadas nos dados que o
210
DMI-TCAT obtém da API Streaming. Este processamento se deu por meio de script em
Python, que também recuperava as URLs completas no caso de terem sido compartilha-
das em forma encurtada.
A combinação dos métodos, embora tenha ampliado o escopo das URLs consideradas,
também gerou alguns problemas para a pesquisa. Um primeiro problema foi a inclusão,
como URL de link, de URLs internas ao Twitter que remetem, por exemplo, a publicações
retuitadas com comentário. Estas URLs não são incluídas nos dados de URLs fornecidos
pela API Streaming, mas o método de processamento do conteúdo textual, acaba por in-
cluí-las, uma vez que não há como resolver, de antemão, o tipo de URL que foi
encontrada. Este problema pode causar a duplicação da inclusão de uma imagem nos da-
dos, embora, pelos procedimentos adotados em etapas posteriores, esta possível
duplicação não gerar distorções na análise. A principal consequência deste problema foi,
como antecipei na subseção anterior, a inclusão das imagens estáticas utilizadas como
pré-visualização para imagens em movimento (animated_gif e video). Em alguns ti-
pos de republicação permitidas pelo Twitter, as URLs destas imagens são inseridas como
metadados das imagens de pré-visualização da página e, por isso, algumas URLs de me-
dia que inicialmente foram excluídas acabaram sendo incluídas nos dados.
Outro problema diz respeito aos momentos em que os processamentos foram realizados.
O DMI-TCAT obtém as URLs encurtadas informadas pelo Twitter e logo as processa de
modo a obter as URLs extensas. O processamento que realizei, contudo, dividiu-se em
dois momentos. Um a poucas semanas do período de coleta e outro bem posterior (pouco
mais de um ano após), de modo que houve uma maior incidência de erros causados por
indisponibilidade dos endereços referenciados, já que algumas páginas poderiam já ter
sido tiradas do ar. Há casos, também, em que a imagem de pré-visualização de uma
página Web foi alterada em momento posterior a um tuíte que a compartilhou. Por esse
motivo, por exemplo, o dispositivo analítico apresentado adiante (veja 4.3 Compondo
imagens-redes) indica ocorrências de uma imagem no Twitter que são, efetivamente,
anteriores à tomada da fotografia. Isto ocorre para a fotografia de Francisco Proner Ra-
mos, que tornou-se icônica do evento ( VGG19 P-Q:15-16 | GVAPI A-B:1-2□ VGG19 □ VGG19 ). Tuítes
que foram publicados antes do acontecimento que propiciou o registro foram indicados
como se contivessem a fotografia, mas efetivamente foi a página referenciada no tuíte
211
que, posteriormente, alterou a imagem de pré-visualização. As páginas da Web não são,
efetivamente, documentos estáveis e podem mudar com o tempo, um aspecto que a pes-
quisa não tem como contornar.
Apesar destes problemas, a combinação de procedimentos permitiu uma substancial
ampliação do número de URLs encontradas. A despeito da suspeita inicial de que o trata-
mento das URLs sem o “filtro” da API Streaming do Twitter poderia levar a uma
supernotificação de URLs internas do Twitter que cumprem funções operacionais sem
impacto no conteúdo, os dados obtidos pelo reprocessamento, quando comparados aos
dados obtidos da API, sugerem cenário inverso. Em ambos os métodos empregados, o
domínio do Twitter (twitter.com) é o que possui maior ocorrência entre as URLs. Nos
dados obtidos pelo DMI-TCAT, via API Streaming, 73,7% das URLs estão nesse domínio.
Nos obtidos por reprocessamento, são 63,6%. Quando consideramos apenas as URLs en-
contradas exclusivamente por um ou outro método, a diferença se explicita. Para o caso
das URLs obtidas exclusivamente via API Streaming, 99,3% delas são do domínio do
Twitter. Para aquelas obtidas via reprocessamento, são 85,9%. Por um lado, isto indica
que as contribuições específicas do reprocessamento do conteúdo textual tinham mais
URLs externas ao Twitter do que os dados obtidos via API. Isto, por si só, torna os resul-
tados importantes no sentido de ampliação da abrangência da coleta. Por outro, ainda é
possível que as URLs trazidas pelo método de reprocessamento tenham contribuído de
forma substancial à supernotificação das URLs internas. Sem uma investigação mais
aprofundada para verificar possíveis diferenças entre as URLs do Twitter notificadas por
um e outro método, não é possível afirmar ao certo151. Trata-se, contudo, de questão que
ultrapassa os objetivos desta pesquisa e que, portanto, optei por não perseguir. A combi-
nação entre os métodos foi mantida, em todo caso, em função de um número substancial
de URLs externas ao Twitter que foi possível obter apenas por meio do processamento do
conteúdo textual dos tuítes.
Tanto a extração de URLs pela API, realizada pelo DMI-TCAT, quanto a realizada a partir
do conteúdo verbal dos tuítes tiveram desempenho similar ao se considerar a compara-
ção entre os números de URLs identificadas por cada um deles e o número total, obtido
pela união entre os conjuntos. Cada um deles encontrou em torno de 70% do montante
151 Um indício de problema, em todo caso, é que a proporção de URLs relativas ao domínio do Twitter cresce quan -
do vamos da interseção ou da união entre os métodos para a diferença entre eles. Isto sugere que cada método
traz URLs internas à plataforma qualitativamente distintas, já que poucas destas são trazidas por ambos, em
sua interseção.
212
total. Combinados, os métodos produziram um número total de cerca de 1,45 milhão de
URLs encurtadas distintas. Destas, foi possível obter a forma completa de cerca de
93,14% (~1,35 milhão), obtendo, para as demais, falhas na requisição152. Considerando
que mais de uma URL encurtada poderia se referir a uma mesma URL em formato com-
pleto, o número de URLs expandidas únicas é um pouco menor que o número de URLs
encurtadas. Das cerca de 1,35 milhão que foi possível obter o formato expandido, che-
gou-se a cerca de 988 mil URLs expandidas únicas.
Tabela 3: Dados das URLs de links.
Fonte dos dados: API Streaming do Twitter, DMI-TCAT e processamento próprio.
total de urls encurtadas 1.452.021
total de urls expandidas 988.448 100,00%
segundo API Streaming 726.112 73,46%
apenas segundo API Streaming 342.192 34,62%
segundo o reprocessamento 661.569 66,93%
apenas segundo o reprocessamento 262.336 26,54%
interseção 383.920 38,84%
Para os objetivos desta pesquisa, estas URLs servem como formas de acessar imagens
que podem ter sido exibidas no Twitter, em tuítes que as compartilharam. Este acesso é
possibilitado por protocolos estabelecidos pelo Twitter e pelo Facebook, adotados por
desenvolvedores de páginas na Web. A imagem que é exibida depende da inserção de
metadado pelo desenvolvedor da página referenciada. O Twitter reconhece padrões de
marcação de metadados definidos por ele próprio (Twitter Cards Markup) e pelo Facebook
(Open Graph Markup) (TWITTER, 2019d). Estas marcações definem o modo de inclusão
de metadados por meio dos quais os conteúdos de páginas da Web tornam-se interpre-
táveis pelas plataformas de mídia social. O objetivo é melhorar o modo de exibição de
links, quando compartilhados nas mídias sociais. Para tanto, desenvolvedores das pági-
nas devem inserir no cabeçalho do documento tags HTML do tipo meta com informações
como título da página, autor, data, brevíssimo resumo e URL da imagem que deve ser
exibida como pré-visualização do conteúdo. Os padrões definidos pelo Twitter e pelo Fa-
152 A maior parte dos casos parecem se dever às páginas encontrarem-se indisponíveis. Mas uma parte também de-
correu de má estruturação do endereço no conteúdo da mensagem. A expansão das URLs foi feita por meio de
script em Python utilizando o módulo urllib para fazer requisições à Web pelas URLs encurtadas e então recupe-
rando a URL final ao seguir o percurso até o ponto final. Outra parte majoritária das URLs foi expandida no
processamento automático integrado ao DMI-TCAT.
213
cebook indicam como estas tags meta devem ser identificadas para que consigam ser in-
terpretadas pelas plataformas. Que o Twitter também reconheça o padrão definido pelo
Facebook sugere certa hierarquia, ainda que transitória, entre as plataformas. Efetiva-
mente, observando os dados obtidos, é bem mais frequente que páginas insiram
metadados direcionados ao Facebook do que ao Twitter, sugerindo uma maior capacida-
de daquela empresa, em comparação a essa última, em conseguir transladar os esforços
de desenvolvimento de páginas a seus objetivos.
Nesta forma de padronização, encontramos um aspecto do que Anne Helmond (2015)
descreve como o processo de “plataformização da web”: um processo de difusão das
plataformas enquanto modo de organização do conteúdo, incidindo inclusive sobre o
modo de organização dos dados em páginas da web externas às plataformas. Para tor-
nar-se mais visível no Twitter ou no Facebook, produtores de conteúdo e
desenvolvedores precisam estruturar os dados de forma que as plataformas consigam
interpretá-los adequadamente e exibi-los de acordo com os requisitos de suas interfa-
ces. Do mesmo modo, esta incidência externa que orienta a organização das páginas da
web acaba por padronizar a massa difusa desses conteúdos, criando marcadores possí-
veis de acesso e mapeamento por parte de pesquisadores. As escolhas feitas quanto ao
que exibir das páginas em plataformas online são relevantes para a pesquisa em métodos
digitais compreender o modo de exibição e circulação desses conteúdos. Para os fins do
presente estudo, esses metadados são utilizados como referência para se definir as ima-
gens por analisar em relação à publicação de URLs externas.
Para extrair as imagens das páginas referenciadas pelas URLs, é necessário, portanto,
acessar o conteúdo destas páginas e encontrar no seu código indicações feitas nas tags
meta segundo os padrões estabelecidos pelo Twitter e pelo Facebook. Uma vez que isto
demanda acessar e carregar o conteúdo de cada uma das páginas processadas, trata-se
de processo muito dispendioso que, mesmo automatizado por um script em Python,
como fiz, não poderia ser feito para a totalidade das URLs encontradas. Além do tempo
que seria gasto neste acesso e carregamento de informações, o volume de dados seria
excessivo. Por isso, métricas relativas ao número de referências a cada URL bem como ao
número de seguidores das contas que compartilharam as URLs foram utilizadas para de-
limitar um escopo menor para a investigação.
214
A seleção das URLs observou, portanto, a distribuição de algumas das métricas relativas
a cada endereço segundo os dados relativos aos tuítes que o compartilharam, fornecidos
pela API Streaming. A Tabela 4 apresenta uma síntese da distribuição de cinco medidas
realizadas a partir desses dados: o número de tuítes que compartilharam a URL; o nú-
mero que contas de usuário que a compartilharam em seus tuítes; a soma dos seguidores
destas contas; a média dos seguidores destas contas; e o número de “contas verificadas”
pelo Twitter que compartilharam a URL. Contas verificadas são geralmente vinculadas a
instituições ou pessoas públicas cuja autenticidade é verificada pela plataforma segundo
sua identificação de que seria de “interesse público”153 (TWITTER, 2019e). Uma parte
significativa das URLs encontradas, segundo pode-se observar na tabela, possuem al-
cance extremamente reduzido e, por isso, poderiam ser desconsideradas sem prejuízo à
abrangência dos dados em relação ao caso. Encontramos, por exemplo: que pelo menos
75% das URLs foram publicadas apenas uma vez e por apenas uma conta de usuário;
para 50% delas o público potencial era de menos de mil seguidores; e para menos de 10%
delas houve compartilhamento por “contas verificadas” pelo Twitter.
Tabela 4: Estatísticas descritivas das publicações de URLs de links.
Fonte dos dados: API Streaming do Twitter.
média 5,32 5,22 68.830,32 25.577,65 0,06
desvio 70,80 70,50 539.857,13 274.890,57 0,29
mín 1 1 0 0,00 0
p
er
ce
nt
is
10% 1 1 30 30,00 0
25% 1 1 168 164,00 0
50% 1 1 924 778,00 0
75% 1 1 5.920 2.964,00 0
90% 4 4 38.499 12.917,00 0
máx 16.505 16.477 53.073.328 41.683.637,00 53
núm
tuítes
núm
contas
soma
seguidores
contas
média
seguidores
contas
núm
‘contas
verif.’
Com o objetivo principal de viabilizar a análise, portanto, as URLs foram selecionadas
por um conjunto de critérios (item 5 da Figura 15). Especificamente, segundo o atendi-
mento de ao menos uma das três primeiras condições abaixo e, necessariamente, a quarta
condição:
1. que a URL tivesse sido publicada por ao menos 3 contas – 16,20% das URLs;
153 O Twitter (2019e) explica-se assim: “Normalmente, verificamos contas de usuários nas áreas de música, teatro/
cinema/TV, moda, governo, política, religião, jornalismo, mídia, esportes e negócios, entre outras.”.
215
2. ou que a soma de seguidores das contas que a publicaram fosse igual ou su-
perior a 20.000 – 14,94% das URLs;
3. ou que tivesse sido publicada por ao menos 1 ‘conta verificada’ – 3,31% das
URLs;
4. e, satisfeita ao menos uma das anteriores, que, necessariamente, a soma de
seguidores das contas que publicaram fosse igual ou superior a 100 – 79,81%
das URLs e 99,65% do grupo das condições anteriores.
A seleção pela soma de seguidores das contas se justifica pela consideração do alcance
potencial da publicação. Mesmo que apenas uma conta tivesse feito a publicação, se ela
possuísse muitos seguidores, seria um fator que confere relevância à publicação. Simi-
larmente, uma URL publicada por muitas contas com poucos seguidores, cada uma,
porém alcançando um grande público potencial, também teria relevância154. A seleção
com base na URL ter sido publicada por uma ‘conta verificada’ justifica-se pelo reco-
nhecimento institucional por parte da plataforma de que aquela conta é, ao menos
segundo esse critério, relevante, mesmo que não tenha muitos seguidores. A seleção pelo
número de contas que publicaram a URL se justifica por ser um indicador da relevância
geral da URL para o universo estudado, independentemente do nível de visibilidade da
conta que a publicou. Por fim, a condição eliminatória, considerando a soma de seguido-
res mínima de 100, visa evitar considerar, na análise, URLs com visibilidade mínima ou
mesmo nula que poderiam ter sido incluídas, excepcionalmente, apesar dos demais cri-
térios.
A combinação destes fatores visou alcançar um recorte que atendesse aos diferentes cri-
térios estipulados para a análise e que, ao mesmo tempo, tornasse a análise
minimamente viável. Os limites para cada fator foram atribuídos experimentalmente a
partir da observação da distribuição destes atributos ao longo dos dados, visando deli-
mitar uma amostra de em torno de 20% da lista completa de URLs encontradas nos
dados. Chegou-se, assim, ao número de 234.184 URLs, representando 23,69% da lista
completa de URLs. A distribuição das mesmas métricas, agora para o subconjunto seleci-
onado, é apresentada na Tabela 5.
154 Esta estratégia não chega a excluir URLs compartilhadas com contas com atividade automatizada (chamadas de
‘robôs’ ou bots), mas este tampouco é o objetivo. Em certo sentido, se as publicações impulsionadas por esse
tipo de recurso alcançaram um grande público potencial, elas passam a ter relevância em uma compreensão da
configuração midiática do evento. Não faria sentido purificar os dados por esse critério se não é meu objetivo
elaborar asserções, por exemplo, quanto à opinião pública manifesta no Twitter.
216
Tabela 5: Estatísticas descritivas das publicações com URLs de link selecionadas.
Fonte dos dados: Twitter Streaming API.
média 20,64 20,28 312.915,31 112.854,76 0,26
desvio 151,51 150,89 1.129.662,88 583.807,01 0,59
mín 1 1 101 17,50 0
p
er
ce
nt
is
10% 1 1 3.904 883,69 0
25% 2 1 11.357 1.862,00 0
50% 4 4 33.280 5.034,40 0
75% 10 9 129.255 38.416,00 0
90% 30 29 590.681 175.075,70 1
máx 16.505 16.477 53.073.328 41.683.637,00 53
núm
tuítes
núm
contas
soma
seguidores
contas
média
seguidores
contas
núm
‘contas
verif.’
O passo seguinte consistiu, então, em acessar cada uma destas URLs selecionadas a fim
de extrair as imagens que elas indicavam, por meio da tag meta e dos padrões aceitos
pelo Twitter, como pré-visualização de seu conteúdo (item 6 da Figura 15). Como indi-
quei anteriormente, o Twitter reconhece dois padrões para esse metadado, um que ele
mesmo estabelece (Twitter Card Markup) e outro estabelecido pelo Facebook (Open Graph
Markup). Para o primeiro caso, a tag meta deve ter um formato similar ao indicado abai-
xo, retirado do site da UFMG:
O atributo name indica como o metadado deve ser interpretado – como imagem de pré-
visualização no Twitter. O atributo content indica a URL da imagem que deve ser exibi-
da. Para o caso do Open Graph Markup, o atributo que indica a interpretação é o property
e sua forma seria similar à seguinte:
Elaborei um script em Python para esta finalidade específica, portanto: recuperar o códi-
go HTML de cada uma das páginas referenciadas pelas URLs e nele buscar tags como
estas. A esta técnica de extrair informações do documento de uma página Web, gerando
dados estruturados (como na forma de tabela), dá-se o nome de ‘raspagem’ (scraping).
As URLs indicadas como conteúdo nas tags identificadas foram, então, utilizadas para
217
carregar as imagens pertinentes a cada página. Evidentemente, contudo, nem todas as
234 mil URLs estavam acessíveis durante este processo e, das que estavam acessíveis,
nem todas tinham imagens indicadas para pré-visualização. Especificamente, 3.662
URLs não puderam ser acessadas – cerca de 1,6%. Das que puderam ser acessadas,
28.016 (cerca de 12%) não possuíam imagem de pré-visualização configurada ou ela não
pôde ser carregada. De 234 mil URLs, portanto, apenas cerca de 202,5 mil serviram como
fontes para as imagens.
Em mais uma redução, contudo, as imagens usadas como pré-visualização destas 202,5
mil páginas da Web por vezes se repetiam em múltiplas páginas. Posto de outro modo,
na configuração da tag meta, múltiplas páginas indicavam uma mesma URL para o ar-
quivo de imagem de pré-visualização. Considerando apenas as URLs únicas encontradas
para estas imagens, portanto, chega-se ao número exato de 129.278 URLs de arquivos de
imagens extraídos das URLs referenciadas nos tuítes e selecionados para esse processa-
mento. Assim como o que foi indicado na subseção anterior (veja descrição na p. 208),
acerca das URLs de media, as URLs dos arquivos de imagem que foram obtidas por meio
deste processo foram também a base para gerar identificadores das imagens obtidas, por
meio do algoritmo de criptografia SHA1 (item 7 da Figura 15).
4.2 Processamento das imagens
A seção anterior voltou-se à descrição dos procedimentos que foram adotados para
constituir a base de imagens a que se volta a análise. Como representado no procolo da-
quela primeira fase (Figura 15), o resultado obtido é um conjunto de arquivos de
imagem, identificados por sequências alfanuméricas únicas segundo suas URLs de ori-
gem. Também foi gerada, no mesmo processo, uma tabela, isto é, um conjunto de dados
estruturados em que estas imagens são relacionadas aos tuítes que as publicaram e seus
respectivos metadados. Efetivamente, embora se trate de processo complexo e já perme-
ado de incertezas, trata-se apenas de uma etapa preliminar ao estudo de caso
pretendido. Chegamos, enfim, a um primeiro conjunto de arquivos de imagens – ou da-
dos visuais, se assim se preferir – com os quais nos haver.
Na seção anterior, alguns esforços específicos de um estudo voltado às imagens já foram
realizados quando, por exemplo, expandi o escopo da coleta para além dos dados dire-
tamente fornecidos pelo Twitter para ir também às páginas referenciadas nos tuítes para
218
delas extrair as imagens de pré-visualização. Porém, é nesta etapa do processo que pas-
so a me engajar com questões mais diretamente específicas às imagens e os desafios que
colocam à investigação em métodos digitais. Gabriele Colombo (2019) situa na “pasta de
imagens” a primeira instância desse desafio. Sua proposta, vinculada ao grupo Visual
Methodologies, de Sabine Niederer, volta-se à demanda de estudar imagens em grupos e
não apenas individualmente. Trata-se, claro, de um dos objetivos também compartilha-
do por esta investigação. Ao se referir à “pasta de imagens” Colombo parece aludir a
uma entidade mais ou menos conhecida de pesquisadores de métodos digitais. Por um
lado, APIs e técnicas de raspagem oferecem saídas estruturadas e “prontas para usar” de
dados extraídos de plataformas online. Pelas tabelas, pode-se filtrar os dados, calcular
estatísticas descritivas e observar aspectos pertinentes a cada publicação. A “pasta de
imagens”, por outro lado, pode se apresentar como um estorvo.
Neste estudo de caso, tratou-se inicialmente de uma pasta com 279.490 imagens. Este é
o conjunto de união das imagens obtidas por cada um dos dois procedimentos descritos
na seção anterior – provenientes, portanto, das URLs de media do tipo photo (160.302)
e das imagens de pré-visualização das URLs de links (129.278)155. Alguma redução, em
relação ao escopo completo dos dados coletados, já foi realizada quando, na fase anteri-
or, as URLs de link foram selecionadas segundo as métricas relativas às contas que as
publicaram. Nesta fase, contudo, novas reduções buscarão protocolos que, em alguma
medida, não ignorem o “conteúdo” dos arquivos de imagem. Quero dizer que na seção
anterior, as imagens foram tratadas, efetivamente, como URLs. Não falava de imagens
únicas mas de arquivos de imagens únicos, pois provenientes de endereços específicos na
Web. Nesta fase, um primeiro objetivo será encontrar, entre estes múltiplos arquivos,
imagens “únicas” que neles se repetem. Esta tarefa demandará, então, um primeiro mo-
vimento de produzir inscrições computacionalmente comparáveis acerca destas imagens
– um modo particular de realizar, para as imagens digitais, as operações de recombina-
ção e sobreposição que Latour (1986, 2001) sugere para as inscrições científicas. Este é o
primeiro desafio. A partir da identificação destas imagens “únicas” será possível, então,
efetuar uma redução não mais do número de arquivos de imagens considerado mas, sim,
155 Descartaram-se alguns arquivos no processo devido à sua indisponibilidade online ou ao corrompimento dos
arquivos que foi possível carregar. Sobre este último caso, cerca de 5 mil arquivos carregados estavam corrom -
pidos.
219
do número de agrupamentos de imagens considerado – estes concernindo grandes con-
juntos de arquivos que provavelmente se vinculam a um mesmo registro. Implicações e
limitações deste processo serão elaborados adiante.
Em um segundo momento, volto-me à aplicação de dois modelos distintos de reconhe-
cimento de imagens por redes neurais a fim de organizar estes agrupamentos de
imagens. Um dos objetivos é conseguir traçar observações gerais acerca das imagens
postas em circulação no contexto da prisão do Lula – isto é, elaborar descrições distan-
tes das imagens, tomando-as como um “todo”. Outro objetivo é oferecer condições para
nos orientarmos em meio a estas imagens em um esforço de observá-las em conjunto
sem reduzi-las a métricas ou a “dados visuais”. Observá-los, portanto, como algo
próximo de uma materialidade relacional destas figurações, considerando como os re-
gistros fazem reverberar uns aos outros e produzem, deste modo, uma visualidade para
o acontecimento, que não pode se reduzir a nenhuma imagem individualmente, nem se
diluir em métricas agregadas do “todo”. Avançarei nos modos de análise proporcionados
por este esforço na seção posterior (4.3 Compondo imagens-redes ).
Retomando questões discutidas nos capítulos anteriores, esta seção se volta, em outros
termos, a um esforço de performar ontologias múltiplas para as imagens coletadas, ao
produzir inscrições com propriedades distintas e que permitem, assim, operações de
agrupamento, comparação e disposição em um “espaço de pensamento” como os que
buscava constituir, em outro contexto, Warburg. As etapas descritas a seguir operam,
portanto, como etapas de uma cadeia de translações heterogêneas a que as imagens são
submetidas e que busco, ao final, situar em um plano comum, em um esforço ontográfi-
co de composição.
4.2.1 Identificando imagens “únicas”
Como descrito anteriormente, a identidade dos arquivos de imagens coletados foi esta-
belecida, inicialmente, com base nas URLs utilizadas para realizar seu carregamento
(download). Que dois arquivos sejam provenientes de URLs diferentes não implica, con-
tudo, que as imagens sejam, necessariamente, diferentes. A única afirmativa possível é a
de que se tratam apenas arquivos diferentes, mas que podem ser instanciações de uma
mesma fotografia, por exemplo, seja em arquivos informacionalmente idênticos (embo-
ra carregados em endereços diferentes), seja em arquivos similares em que a imagem
220
pode ter sido submetida a pequenas alterações (corte, ajuste de cores, sobreposição de
texto etc.). Contudo, como esta explanação já começa a sugerir, mesmo considerando o
‘conteúdo’ dos arquivos, não é simples estabelecer uma definição inequívoca do que
contaria como identidade ou diferença entre dois arquivos.
Evidentemente, seria possível adotar um critério estrito e elevar o nível de exigência a
uma identidade absoluta entre os arquivos – bit a bit. Este provavelmente seria o único
modo de estabelecer esta identidade de modo definitivo, porém ele pouco contribui a um
olhar que não se prenda ao arquivo de imagem apenas como dado. A identidade informa-
cional absoluta, quero dizer, não possui lastro na nossa experiência das imagens – em
como nós as vemos – e, se quero constituir uma abordagem do tema por uma perspectiva
dos estudos de comunicação e mídia, o critério da identidade absoluta não apresenta
grandes contribuições. Mesmo em uma perspectiva informacional ou computacional, a
identidade absoluta seria algo raro já que na maior parte dos contextos reais de publica-
ção e circulação das imagens, os arquivos de imagem raramente são apenas copiados, tal
e qual. Qualquer forma de compressão informacional ou redução no tamanho da imagem
(em pixels) levaria a uma transformação dos dados que impediria a correspondência ab-
soluta entre as cópias.
Para além desta abordagem informacional, contudo, os limites daquilo que conta como
uma mesma imagem não são facilmente definidos quando se considera, por exemplo,
que versões de um mesmo registro fotográfico – grosso modo, de um mesmo clique –
tendem a se multiplicar, contemporaneamente. Não apenas pela produção de memes,
estas formações culturais contemporâneas que se definem, justamente, como variações
em torno de um mesmo tema (SHIFMAN, 2013) ou, especificamente, de uma mesma fo-
tografia (SHIFMAN, 2014). As variações também se multiplicam pela adição de filtros,
por diferentes recortes efetuados sobre a mesma imagem, ou por compartilhamentos
indiretos que, por exemplo, republicam uma impressão de tela da imagem e não o arqui-
vo de imagem em si. Para um estudo interessado no impacto de uma fotografia
específica, ainda que as peculiaridades das variações devam ser consideradas, a relação
entre estas muitas variações também deve ser, de algum modo, mantida. Entre identida-
de e diferença, portanto, identifica-se mais um contínuo do que uma fronteira. Trata-se
de caso em que o princípio de simetria entre identidade e diferença, sugerido por Michael
Lynch (2013), torna-se fundamental. Indo além da proveniência dos arquivos de ima-
gem, das URLs que foram codificadas em sequências de 40 caracteres alfanuméricos
221
pelo algoritmo SHA1, faz-se necessário buscar um outro referencial para agrupar os re-
gistros, em que a identidade seria estabelecida por uma margem de similaridade e que,
portanto, não seria absoluta mas probabilística.
Para este fim, utilizei uma técnica de identificação de imagens baseada em técnica cha-
mada de Hash Perceptivo (Perceptual Hashing, ou pHash)156. Como no caso do algoritmo
SHA1, utilizado para gerar os identificadores dos arquivos de imagem com base nas suas
URLs, trata-se de uma função hash, que visa codificar dados a um formato de compri-
mento predefinido (a que se chama hash). Porém, a técnica de pHash (KLINGER;
STARKWEATHER, 2010) realiza esta codificação de tal forma que dados visualmente si-
milares produzam hashes também similares, de modo que as informações que deram
origem aos hashes possam ser comparadas por meio destes. Obtém-se, assim, um méto-
do que é computacionalmente bem mais eficiente para tarefas de comparação de
grandes conjuntos de dados. Funções hash típicas, devido a seu objetivo de produzir
identificadores únicos e com baixa probabilidade de colisão, costumam produzir um
efeito de cadeia para um único bit diferente, que faz com que hashes produzidos a partir
dos dados de duas imagens similares acabem sendo muito distintos. O Hash Perceptivo,
de outro modo, evita estes efeitos e busca produzir identificadores que guardem algum
grau de correspondência com as qualidades aparentes dos dados.
156 Seria possível utilizar os próprios modelos de reconhecimento de imagem por redes neurais para realizar esta
identificação. Mas, tipicamente, trata-se de processo computacionalmente mais pesado. A técnica do pHash, via
o módulo Image-Match é bastante eficiente na realização destas operações.
222
223
Especificamente, o procedimento adotado neste estudo utilizou a biblioteca de progra-
mação para a linguagem Python chamada Image-Match (EDJO LABS et al., 2018). Trata-
se de uma implementação que se assemelha à técnica pHash e que, além de gerar estas
“assinaturas” ou “impressões digitais” das imagens processadas, também possui fun-
ções de integração com sistemas de bancos de dados para permitir realizar CBIR com
alta eficiência. Gerar o hash para as imagens seria, afinal, apenas a primeira operação à
qual devem seguir esforços de comparação entre as imagens a fim de estabelecer agru-
pamentos de imagens provavelmente idênticas.
A Figura 18 apresenta uma representação esquemática dos procedimentos adotados nes-
ta etapa. Um script em Python elaborado especificamente para este protocolo
automatizou o conjunto de processos descritos. Partindo da pasta de imagens obtida pe-
los procedimentos de coleta e processamento descritos na seção anterior, as etapas
foram as seguintes. Primeiro, recursivamente, cada um dos 279,5 mil arquivos de ima-
gem da pasta foi submetido à função de hashing perceptivo implementada pelo Image-
Match (item 1 da Figura 18). Por este processamento, os dados que compõem cada ima-
gem são codificados de modo a produzir uma inscrição resumida de seu conteúdo, que
pode ser comparada a outras inscrições similares. Cada uma destas inscrições foi, então,
armazenada em um banco de dados no mecanismo ElasticSearch (ELASTICSEARCH B.V.,
2019) (item 2 da Figura 18), utilizando funções de integração do próprio Image-Match.
Esse mecanismo de banco de dados permite maior eficiência na tarefa de comparação
entre as inscrições.
O próximo passo envolveu a comparação de cada inscrição, isto é, de cada hash percepti-
vo das imagens coletadas, às de todas as demais (item 3 da Figura 18). Efetivamente, esta
comparação se deu por um procedimento de busca em que, para cada inscrição, buscou-
se outras inscrições similares. A similaridade é estabelecida, nesse caso, por uma mar-
gem de tolerância para diferenças. A diferença, indicada como distance, é computada
pelo Image-Match como um índice normalizado entre 0 e 1. Após testar diferentes limi-
tes, optei por manter aquele indicado como referência pelos desenvolvedores: 0,4. Isto
significa que quando a comparação entre os hashes de dois arquivos de imagem gera um
valor de distance menor do que 0,4 , estes dois arquivos de imagem são considerados,
para todos os efeitos, instâncias da “mesma” imagem.
224
Gostaria de salientar este ponto pois, na sequência do que elaborei nos capítulos anteri-
ores, ele estabelece um momento claro, no protocolo metodológico adotado neste
estudo, em que a identidade de uma imagem é performada pelas práticas adotadas em
seu processamento. Como abordei há pouco, a questão da identidade e diferença de uma
imagem não tem como ser resolvida de forma definitiva. Isto significa que a definição do
que conta como uma mesma imagem não tem como ser estabelecida a priori, sem aten-
tarmo-nos às práticas que produzem esta identidade como um efeito. Se esta discussão,
elaborada no capítulo 2 (Imagem-rede) possa ter soado como um exercício teórico abs-
trato, aqui ela ganha concretude. Pois, como discutirei adiante, esta definição do que
conta como uma mesma imagem não resolve completamente o problema quando passa-
mos destas inscrições informacionais à aparência destas imagens. Se nos fosse solicitado
encontrar tais correspondências, certamente chegaríamos a agrupamentos diferentes.
Mas, diante desta escala de centenas de milhares de arquivos em uma pasta de imagens,
esta não é uma alternativa viável.
É importante observar, a esse respeito, que o uso destinado a esta técnica se volta espe-
cialmente ao monitoramento de violação de direitos autorais (EDJO LABS et al., 2018)157.
Ao aplicar esta técnica para agrupar instanciações que podem ser tomadas como uma
mesma imagem, realizo uma reapropriação que, efetivamente, desvia a finalidade da
técnica com objetivos analíticos. Não é necessário que nos satisfaçamos plenamente com
os agrupamentos feitos mas, diante do volume de imagens abarcado, alguma medida si-
milar se faz necessária para ir dos arquivos de imagem a agrupamentos possíveis que
conectem estas diferentes instâncias e reduza a redundância entre os arquivos. Entre-
tanto, quero constituir uma abordagem que não toma os resultados desta operação como
uma realidade objetiva dos objetos analisados mas, sim, de outro modo, como uma cons-
trução performativa instável, porém valiosa por nos permitir avançar na observação do
caso sob estudo. Por mais esse motivo, portanto, os objetos (as imagens) não podem ter
uma ontologia estável como poderíamos desejar. Ao definir sua identidade por um crité-
rio computacional e probabilístico, há agrupamentos que contêm arquivos de imagem
que claramente, sob outro critério, não estariam ali. Também, os diferentes registros
que talvez contássemos como uma imagem poderão ser encontrados de forma dispersa.
157 Técnicas similares são também utilizadas para rastrear a circulação de imagens específicas em demandas como
o combate à pedofilia e outras práticas criminosas associadas a imagens. Pouco antes da escrita desta tese, o Fa -
cebook divulgou que colocaria sob código aberto a tecnologia utilizada pela empresa neste tipo de tarefa (DAVIS;
ROSEN, 2019). Para estas aplicações, evidentemente, as correspondências calculadas computacionalmente não
podem ser tomadas de forma definitiva, sendo passíveis de revisão caso a caso, embora provavelmente sejam
fator determinante em medidas automáticas como a retirada de conteúdo do ar.
225
Em subseção adiante (veja 4.3 Compondo imagens-redes ) indicarei alguns exemplos e
discutirei implicações deste modo de constituição da identidade das imagens para a
análise.
Dos 279,5 mil arquivos de imagem coletados, chegou-se, inicialmente, a 99,7 mil agru-
pamentos. Para cada grupo, o arquivo de imagem com maior tamanho (em número de
pixels) foi selecionado como matriz – como o arquivo de imagem que seria utilizado para
representar as múltiplas instâncias que compõem o agrupamento (item 4 da Figura 18). A
escolha da maior imagem visa, por um lado, um arquivo que potencialmente possui me-
lhor qualidade e que, portanto, poderia servir melhor à exibição em detalhe. Por outro,
embora o critério seja impreciso, supõe-se a possibilidade de chegar à versão mais
próxima de um registro “original” – já que o tamanho da imagem pode ser sempre re-
duzido, mas uma vez que é isto é feito há perdas definitivas de informação que não
podem ser recuperadas. Desse modo, quando disser da matriz de um agrupamento, re-
firo-me ao arquivo de maiores dimensões que o compõe. Todos os arquivos serão
chamados de instâncias. O código de identificação da imagem matriz foi utilizado, por sua
vez, como código de identificação do grupo que ela representa.
4.2.2 Medidas de privacidade
O grupo funciona como uma forma de tratamento agregado dos dados, já que diferentes
arquivos de imagem passam a ser tratados em conjunto, representados por uma matriz.
Neste processo, instâncias individuais de compartilhamento são subsumidas. Esta ope-
ração já contribui, portanto, a uma anonimização destas instâncias e, portanto, à
proteção da privacidade dos usuários que compartilharam a imagem. Embora todos os
tuítes coletados sejam provenientes de contas de usuário que mantêm suas publicações
publicamente acessíveis, pois apenas estas são retornadas pela API Streaming do Twit-
ter, é razoável compreender que nem todos usuários têm clareza do amplo acesso de
suas publicações ou da possibilidade de que sejam posteriormente recuperadas em um
esforço de pesquisa como este. Portanto, medidas que protejam a identidade destes
usuários são consideradas como uma preocupação ética desta pesquisa.
Se, por um lado, o agrupamento já favoreceria esta anonimização, alguns cuidados espe-
cíficos com o agrupamento foram também adotados, de modo a minimizar a
possibilidade de exposição inadvertida de publicações que pudessem ter a intenção de
226
ser privadas. Este risco existe em, pelo menos, duas hipóteses, considerando os procedi-
mentos descritos na subseção anterior. A primeira hipótese é a de que grupos inteiros,
que tenham sido formados de forma eficaz, pudessem ser constituídos por imagens de
cunho privado. Nesse caso, o grupo como um todo deveria ser excluído do processo de
análise. A segunda hipótese é a de que, dado o caráter probabilístico com que a técnica de
hashing perceptivo define relações de identidade e diferença, imagens bastante díspares
fossem integradas em um mesmo agrupamento e, com isto, uma imagem de cunho pri-
vado fosse incluída como instância em um agrupamento de imagens de caráter público.
Sobre esta hipótese, a inclusão dos dados desta imagem em representações agregadas do
grupo introduz uma possível imprecisão aos dados, mas não fere, por si só, a privacidade
de quem publicou. Pois a publicação em si ou a conta de usuário apenas incidiriam quan-
titativamente sobre os dados finais, sem serem necessariamente identificadas ou
exibidas individualmente. Haveria problema, contudo, se esta imagem ou o tuíte que a
compartilhou fossem exibidos em alguma etapa ou resultado da análise, seja como ma-
triz do grupo, seja como uma de suas instâncias.
Como forma de evitar os casos supostos pela primeira hipótese, uma primeira medida
adotada foi filtrar os dados de modo a excluir os arquivos de imagem que eram identifi-
cadas, por sua URL, como imagens de perfil de contas de usuário do Twitter. De fato, foi
verificado que uma boa parte das URLs de imagens assumiam a estrutura típica destes
arquivos, iniciadas com:
https://pbs.twimg.com/profile_images/...
Com base nesta estrutura padrão, foram excluídas todas as instâncias de grupos cuja
URL de origem assumia este formato. A exclusão destes arquivos ocasionou, também, a
exclusão de 24 mil grupos de ‘imagens únicas’, reduzindo o número final a 77,3 mil.
Uma segunda medida buscou estabelecer quais seriam os critérios razoáveis para que um
tuíte e, portanto, a imagem que ele contém, fossem considerados passíveis de inclusão
na análise. Ou seja, a questão era dos critérios para supor uma expectativa de publicidade
de um tuíte por parte de seu autor. Dois critérios foram adotados, a esse respeito. Pri-
meiro, se a conta de usuário responsável pela publicação fosse uma ‘conta verificada’
pelo Twitter (TWITTER, 2019e). Nestes casos, parece bastante claro que o autor tem ple-
na consciência da publicidade de seus tuítes, até porque ter sua conta verificada depende
227
de uma demanda ativa do proprietário da conta. Segundo, se a conta de usuário possuía
mais de 5 mil seguidores – 4,4% das contas que publicaram as imagens consideradas.
Nestes casos seria também razoável supor que a pessoa responsável pela conta também
possuiria consciência da publicidade de seus tuítes.
A aplicação desta medida se deu, então, pela filtragem dos tuítes e arquivos de imagem
segundo estes critérios. Grupos de imagens únicas apenas poderiam ser considerados
para a análise se ao menos uma de suas instâncias atendesse aos critérios estabelecidos.
Também, instâncias que não atendessem aos critérios não poderiam servir como matriz
do grupo, nem poderiam ser incluídas em formas individualizadas de exibição – seja a
imagem, seja o texto do tuíte ou os dados sobre a publicação e sobre a conta que publi-
cou. Tuítes de contas que não se enquadravam em nenhum dos dois critérios integram os
dados apenas em forma agregada, isto é: na produção de métricas e representações dos
dados em que nenhum elemento identificador da publicação ou da conta são exibidos –
tais como nome de usuário, conteúdo verbal do tuíte e o arquivo de imagem (se este fos-
se publicado exclusivamente por contas que não atenderam aos critérios estabelecidos).
A aplicação destes critérios foi realizada após o processo de seleção de quais agrupa-
mentos, dentre os 77,3 mil obtidos, seriam efetivamente considerados na análise. Esta
inversão ocorreu, na prática da pesquisa, de forma contingente. Pois os riscos à privaci-
dade de usuários apenas foi identificado após tal seleção. Contudo, esta ordem de
operações foi mantida ao se perceber que foram pouquíssimos grupos de imagens únicas
os que seriam inteiramente comprometidos pelos critérios adotados. Isto é: os critérios
de seleção das imagens únicas – descrito na próxima subseção (4.2.3 Seleção das ‘ima -
gens únicas’) – possuíam um alto grau de correlação com os critérios de privacidade
estabelecidos. Dos 18,5 mil agrupamentos selecionados, segundo critérios que apresento
adiante, apenas três eram compostos inteiramente por publicações que não atendiam a
nenhum dos dois critérios elaborados acima. Diante do número reduzido de casos, foi
possível considerar as imagens e publicações individualmente a fim de analisar, contex-
tualmente, se sua inclusão das suas imagens poderia configurar uma exposição indevida.
Para dois dos casos, as imagens exibiam políticos, portanto pessoas públicas para as
quais as preocupações relatadas aqui não se aplicariam. O terceiro caso, por sua vez, tra-
zia uma fotografia que não retratava nenhuma pessoa ou ambiente sensível,
considerando implicações de privacidade, assemelhando-se a uma figura extraída de
228
banco de imagens. Portanto, optou-se por não excluir nenhuma destas três imagens.
Contudo, os tuítes que as publicaram, bem como os dados passíveis de sua identificação,
foram preservados de toda situação de exibição individualizada.
Além destes casos, houve outros em que as matrizes dos grupos de imagens únicas fo-
ram substituídas a fim de não exibir arquivos de imagem provenientes de tuítes que não
atendem aos critérios estabelecidos. Dos 18,5 mil grupos de imagens selecionados, 2,1
mil tiveram suas matrizes substituídas por arquivos de imagem integrantes dos mesmos
grupos, mas cujas publicações adequavam-se aos critérios estabelecidos. Segundo veri-
ficação manual em uma amostra de 10% destas substituições, observou-se que, quase
sempre, a troca se deu entre arquivos aparentemente idênticos. Entretanto, consideran-
do o caráter probabilístico da técnica de hashing perceptivo adotado, nem sempre foi este
o caso. Nestes casos, o próprio grupo era heterogêneo.
4.2.3 Seleção das ‘imagens únicas’
Um passo posterior envolveu a seleção de um subconjunto destes agrupamentos para
considerar na análise. De modo similar à seleção das URLs de links que seriam submeti-
das ao processo de raspagem para extração das imagens de pré-visualização, a seleção
dos agrupamentos de imagem baseou-se na distribuição das métricas relativas aos tuí-
tes que continham instâncias do agrupamento. Efetuar um novo recorte mostrava-se
necessário para chegar a um número viável para proceder à análise e, também, evitar
trabalhar com imagens de circulação minoritária. Diferentemente do recorte efetuado
pelas URLs, contudo, nesta etapa a seleção tomava como unidade da análise os grupos de
arquivos de imagens que foram considerados, nesta etapa, como imagens únicas. A Tabe-
la 6 apresenta a síntese destes dados.
229
Tabela 6: Estatísticas descritivas de publicação das ‘imagens únicas’.
Fonte: API Streaming do Twitter.
média 41,75 38,26 468.713,72 25.716,26 0,42
desvio 405,46 309,21 2.607.918,55 125.621,24 2,25
mín 1 1 0 0,00 0
p
er
ce
n
ti
s
10% 1 1 118 104,00 0
25% 1 1 845 545,50 0
50% 3 3 10.929 2.192,48 0
75% 13 12 103.933 7.153,80 0
90% 56 53 664.379 44.754,54 1
máx 56.274 38.446 159.161.499 10.088.317,00 289
núm
tuítes
núm
contas
soma
seguidores
contas
média
seguidores
contas
núm
‘contas
verif.’
Com base nestas distribuições, os critérios do corte foram escolhidos tentativamente,
visando chegar a um número total de agrupamentos entre 15 e 20 mil. Os critérios foram
os seguintes:
• que o número de tuítes que continham uma instância do grupo fosse igual ou su-
perior a 56 – 7,7 mil agrupamentos (10%);
• ou que a soma de seguidores das contas que a publicaram fosse igual ou superior
a 664.379 – 7,7 mil agrupamentos (10%)
• ou que houvesse sido publicada por ao menos 1 conta verificada – 15,6 mil agru-
pamentos (20%)
A união dos grupos filtrados com base nestes critérios levou à seleção de 18.475 para
conduzir as análises subsequentes. A Tabela 7 apresenta a distribuição das métricas para
os grupos selecionados.
230
Tabela 7: Estatísticas descritivas de publicação das ‘imagens únicas’ selecionadas.
Fonte: API Streaming do Twitter.
média 156,44 143,13 1.876.768,30 85.040,07 1,74
desvio 819,10 621,06 5.085.639,07 243.111,25 4,35
mín 1 1 322 172,91 0
p
er
ce
n
ti
s
10% 2 2 60.061 2.151,79 0
25% 7 7 167.509 3.685,87 1
50% 34 32 481.605 12.705,50 1
75% 108 103 1.495.500 70.249,98 2
90% 292 275 4.918.656 210.304,51 3
máx 56.274 38.446 159.161.499 10.088.317,00 289
núm
tuítes
núm
contas
soma
seguidores
contas
média
seguidores
contas
núm
‘contas
verif.’
Neste ponto, o estudo bifurca-se em duas abordagens distintas, mas que quero conside-
rar como complementares em um esforço reflexivo acerca dos problemas metodológicos
para o estudo de imagens por métodos digitais. Em um primeiro momento, volto-me à
análise das imagens por meio do modelo VGG19 (SIMONYAN; ZISSERMAN, 2014), uma
rede neural para classificação de imagens disponibilizada como parte da biblioteca de
programação em Python Keras (CHOLLET et al., 2018). Em um segundo movimento,
abordo o estudo das imagens por meio de uma API comercial de reconhecimento de ima-
gens: a API Cloud Vision, da Google (GVAPI) (GOOGLE, 2017). Abordarei os
procedimentos adotados em cada caso, bem como suas oportunidades analíticas, antes
de me voltar à constituição de um dispositivo de análise na forma de um Atlas para ima-
gens-redes, discutido em seção posterior (4.3 Compondo imagens-redes ).
4.2.4 VGG19
O modelo VGG19 (SIMONYAN; ZISSERMAN, 2014) é desenvolvido pelo Visual Geometry
Group da Universidade de Oxford e disponibilizado gratuitamente. Trata-se de uma das
gerações de um modelo de classificação de imagens desenvolvido pelo grupo, treinado a
partir da base de treinamento do projeto Imagenet (DENG et al., 2009). Trata-se, tam-
bém, de um entre diferentes modelos integrados à biblioteca de programação Keras
(CHOLLET et al., 2018), um dos principais recursos para a aplicação de técnicas de
aprendizado de máquina na linguagem Python hoje disponíveis. Diferentemente da
GVAPI – um projeto comercial de código fechado, que abordo na seção seguinte – o
231
VGG19 é um modelo aberto, permitindo o acesso às camadas que compõem a rede neural
e, com isso, não apenas um melhor conhecimento sobre sua arquitetura, mas, também,
diferentes formas de aplicação em projetos específicos. Evidentemente, como discuti em
capítulo anterior (veja 3.2 Aprendizado de máquina ), uma das características das redes
neurais é a sua ‘inescrutabilidade’, significando a impossibilidade de precisar, a partir
do código, o percurso classificatório assumido pelo programa. No entanto, como discuti-
rei nesta seção, a relativa abertura do modelo VGG19 permitiu um modo de aplicação
particular que não é possível em modelos fechados como o GVAPI.
A aplicação do modelo VGG19 neste projeto baseou-se em tutorial que integra o projeto
Machine Learning for Artists (ML4A) (REFSGAARD; TSENG; KOGAN, 2019). Composto
por vários tutoriais e textos introdutórios, este projeto – ainda inconcluso – oferece
uma entrada simplificada a aplicações de aprendizado de máquina que possam ter inte-
resse em projetos estéticos experimentais. Alguns dos autores do projeto são também
membros ativos de outros projetos de programação criativa como o OpenFrameworks
(LIEBERMAN et al., 2019), que integra um conjunto já razoavelmente estabelecido de
projetos do tipo na comunidade de arte e tecnologia. Entre os autores, há também artis-
tas em residência na Google, aplicando algumas das técnicas apresentadas no ML4A,
especialmente, ao programa Google Arts and Culture. Estas relações auxiliam a com-
preender as mediações em jogo na transposição destas técnicas ao estudo. Também
ajuda a compreender que a relativa abertura dos procedimentos adotados nesse caso não
se realiza em uma completa oposição a iniciativas comerciais como as encampadas pela
Google – de modo mais frequente, estas iniciativas tendem a ser absorvidas por empre-
sas como ela158. Especificamente, os tutoriais em que se baseiam os procedimentos
adotados nesta etapa são os “Feature extraction and reverse image search” (KOGAN;
MATHEWSON, 2018); e “Image t-SNE” (KOGAN; OLDFIELD, 2018).
158 Outro aspecto relevante, a esse respeito, é que François Chollet, propositor inicial da biblioteca Keras, também
encontra-se, hoje, vinculado à Google.
232
233
Os procedimentos adotados nesta etapa são esquematizados no diagrama da Figura 19.
Um aspecto importante para se compreender do processo como um todo é que os dados
gerados pelo modelo VGG19 não são tomados por seu valor intrínseco mas, sim, como
elementos de articulação relacional entre as imagens. Os dados gerados pelo modelo,
como discutirei nesta subseção, operam como inscrições que permitem apreender rela-
ções de similaridade entre as imagens segundo suas características visuais. No entanto,
embora o VGG19 seja um modelo de classificação de imagens, a sua aplicação neste estu-
do faz uso apenas de uma parte da rede neural que o constitui, algo que é proporcionado
pela disponibilidade do modelo em código aberto. Em vez de se valer das classes atribuí-
das pelo VGG19, portanto, o protocolo adotado aqui utiliza as representações internas
que o modelo produz para as imagens, extraindo os dados do processamento de uma ca-
mada que antecede ao final da rede neural. A última camada (veja Anexo A) corresponde
à camada de previsões (predictions), que mapeia as características extraídas da ima-
gem, por meio das camadas antecedentes, às 1.000 classes utilizadas, por padrão, para a
base Imagenet. Os dados considerados para a análise das imagens nesta etapa são extraí-
dos da penúltima camada de processamento do modelo VGG19, denominada fc2
(Figura 20).
234
235
Como descrito anteriormente (veja 3.2 Aprendizado de máquina ), as redes neurais ope-
ram por uma sequência de transformações que visam, em última instância, produzir
uma convergência aos dados de saída estipulados para aquela tarefa. Para o caso do mo-
delo VGG19, quaisquer imagens alimentadas à rede neural devem, ao final do
processamento, expressar-se na forma de índices probabilísticos de seu pertencimento
a determinadas classes. Embora se trate de tarefa distribuída ao longo das muitas cama-
das que compõem a rede VGG19, a última camada cumpre um papel decisivo ao reduzir
as 4.096 dimensões da camada precedente para 1.000, correspondentes às classes. Esta
redução constitui, portanto, uma perda informacional, já que as classes semânticas po-
dem reunir imagens com características distintas, desde que sejam pertinentes a uma
mesma classe. Uma vez o que interessa a esta análise é produzir, por meio desse modelo,
inscrições alternativas, que proporcionem um modo de orientação em meio aos diferen-
tes registros do acontecimento estudado, a última camada e as classes atribuídas
tornam-se prescindíveis. Este procedimento corresponde ao que no jargão do aprendi-
zado de máquina chama-se de ‘extração de características’ (feature extraction). Como
escrevem Kyle Mathewson e Gene Kogan (2018), trata-se de uma reapropriação do mo-
delo de classificação, aproveitando a relativa consistência da representação da imagem
construída pelas anteriores para uma tarefa distinta da classificação.
Para uma comparação, o modelo comercial proprietário da GVAPI, abordado na subseção
seguinte, não nos permite acessar esta instância do modelo e oferece apenas as classes –
“etiquetas” (labels) – atribuídas ao final do processo. Por esse motivo, as relações de si-
milaridade entre as imagens estabelecidas por meio desse outro modelo nem sempre
correspondem a similaridades formais e, com frequência, remetem a relações semânti-
cas – voltarei a esse ponto adiante. Embora o número de classes da GVAPI seja – dentro
dos limites conhecidos (veja 3.3 Visualidade e infraestrutura ) – bastante superior às
1.000 do VGG19, elas são, ainda assim, fruto de uma convergência de características for-
mais das imagens segundo classes semânticas predefinidas. A extração de características
realizada a partir do modelo VGG19, por sua vez, permite observar não apenas uma si-
milaridade semântica entre as imagens mas, sim, entre algumas características
aparentes das imagens.
Considerando a arquitetura do modelo VGG19 (veja Anexo A), um primeiro aspecto por
observar é prescrição da primeira camada da rede (input_1), que especifica o formato a
que as imagens precisam ser adequadas para serem submetidas ao modelo. Akrich e La-
236
tour (AKRICH, 1992; AKRICH; LATOUR, 1992) indicam, como discuti, esta primeira ins-
tância de conformação da relação entre um objeto técnico e o mundo. Evidentemente,
qualquer programa de Visão Computacional demandaria uma inscrição digital das ima-
gens que constitui uma prescrição para a análise visual. O modelo VGG19, em particular,
especifica um tamanho para as imagens, que precisam ser ajustadas segundo sua pres-
crição: 224 por 224 pixels, em três canais de cor. Frequentemente, portanto, será preciso
reduzir a imagem, já que estas dimensões são menores do que as imagens que tipica-
mente encontramos em circulação. Esta primeira inscrição será, então,
progressivamente transformada pelas camadas posteriores, segundo os pesos (weights)
definidos a partir do treinamento com a base Imagenet. Ao chegar na camada fc2, da
qual extraí as características das imagens, a inscrição inicial já assumiu a forma de uma
sequência de 4.096 valores numéricos (item 1 da Figura 19).
Embora as classes que seriam obtidas pela camada final não estejam explicitamente ex-
pressas nesta representação, é importante lembrar que, pelo próprio caráter difuso das
redes neurais, elas tampouco foram excluídas do processo. O treinamento da rede neu-
ral, como discutido anteriormente (veja 3.2 Aprendizado de máquina ), ocorre por uma
otimização de toda a rede de acordo com o alvo estabelecido para a tarefa. Embora o pro-
cesso de convergência a esse alvo apenas se completaria com a camada final, a
penúltima camada da rede já cumpriu uma boa parte deste objetivo e, desse modo, as-
pectos destas classes estariam implícitas nas relações que podemos estabelecer entre as
imagens com base nestes 4.096 valores. Deste modo, tampouco são excluídos os vieses
inscritos na base de treinamento ou nas classes estabelecidas como objetivo. Segundo o
processo de vetorização empreendido pelo aprendizado de máquina (veja 3.2.2 Vetoriza -
ção), estes parâmetros são compreendidos como coordenadas espaciais para a
localização desta imagem em um espaço vetorial de 4.096 dimensões. Tarefas de classifi-
cação compreenderiam, grosso modo, a demarcação de limites em meio a este espaço,
que seriam pertinentes a cada classe.
Seguindo os procedimentos propostos pelos tutoriais do ML4A (REFSGAARD; TSENG;
KOGAN, 2019), os próximos passos adotados visam reduzir as dimensões da inscrição
obtida por meio do modelo VGG19, a fim de tornar visualizáveis as relações entre as
imagens nesse espaço multidimensional. Três algoritmos são aplicados para este fim.
Primeiro, a Análise de Componente Principal (PCA) considera o conjunto das inscrições
obtidas para o conjunto completo das 18,5 mil imagens para identificar características
237
redundantes dentre as 4.096 extraídas a partir do modelo. Este processamento, confor-
me elaboram Kogan e Mathewson (2018) visa não apenas diminuir as demandas de
memória e processamento das etapas subsequentes como, também, evitar sobrerrepre-
sentar certas características do grupo, em função de sua redundância nos dados. No caso
desta pesquisa, as 4.096 dimensões originais foram reduzidas a 500 (item 2 da Figura
19).
Em seguida, o algoritmo t-SNE (MAATEN; HINTON, 2008) foi aplicado a fim de realizar
mais uma redução da dimensionalidade dos dados (item 3 da Figura 19). Tipicamente o
t-SNE é utilizado para traduzir coordenadas de espaços vetoriais de muitas dimensões a
coordenadas em três ou duas dimensões que podem ser, assim, visualizadas grafica-
mente. Pois um espaço de 4 mil ou 500 dimensões vai além de nossa capacidade de
imaginação e, claro, dos dispositivos de representação de que dispomos. Uma analogia
possível, me parece, são as projeções cartográficas, que visam transpor uma espaciali-
dade esférica ao plano. Neste caso, a proximidade relativa entre dois pontos em uma
visualização t-SNE sugere uma relação de similaridade entre estes pontos, simplificando
o que se expressaria, na etapa anterior, em 500 dimensões. Como nas projeções carto-
gráficas, contudo, esta transformação não se realiza sem distorções e a interpretação
destas visualizações deve levar em conta esta complexidade. Martin Wattenberg, Fer-
nanda Viegas e Ian Johnson (2016) destacam que visualizações t-SNE possuem várias
‘armadilhas’ que demandam uma análise cuidadosa antes de fazer asserções específicas
acerca dos dados representados. Aspectos como clusters, tipicamente observados em
análise visual de redes, por exemplo (GRANDJEAN; JACOMY, 2019; VENTURINI; JA-
COMY; JENSEN, 2019), não têm significado expressivo neste caso. Pequenas variações
nos parâmetros adotados também podem gerar resultados bastante diversos. Para o caso
desta investigação, contudo, estes riscos são menos graves já que não se busca fazer as-
serções sobre o conjunto de imagens mas, sim, encontrar um auxílio ao esforço de
navegação pelos dados. Basta, para isto, a disposição espacial por similaridade relativa,
que pôde ser experimentada tentativamente de acordo com os objetivos da pesquisa.
Por fim, um último algoritmo aplicado aos dados foi o Rasterfairy, criado pelo artista
Mario Klingemann (2019), que transforma as coordenadas espaciais obtidas por meio do
algoritmo t-SNE para ajustar as posições dos pontos em uma grade regular (item 4 da
Figura 19). Embora também esta etapa esteja sujeita a distorções, este processo cumpre
pelo menos três objetivos. Primeiro, evita a sobreposição entre as imagens, que dificul-
238
taria a visualização sinótica do conjunto. Segundo, otimiza a utilização do espaço para
representar o conjunto das imagens, eliminando espaços vazios. Embora estes espaços
tenham valor interpretativo nas análises que se voltam a identificação de agrupamentos
(clusters), como na análise visual de redes – operando como “buracos estruturais” – eles
não têm tanto valor quando o objetivo não é obter descrições gerais. Terceiro, esta dis-
posição tende a uniformizar a representação das imagens, dando-lhes igual valor na
espacialização e, também, favorecendo a localização de imagens específicas, uma vez
dispostas em um plano cartesiano. A visualização obtida ao final deste processo é apre-
sentada pelo Gráfico 5.
239
Gráfico 5: Visualização de grade das imagens com similaridade estimada pelo VGG19.
A composição apresenta 18.475 matrizes das ‘imagens únicas’ identificadas em processamento anterior. A
similaridade entre as matrizes foi computada segundo modelo VGG19 (SIMONYAN; ZISSERMAN, 2014),
com pesos atribuídos com treinamento na base Imagenet (DENG et al., 2009). O VGG19 foi utilizado por
meio de sua implementação na biblioteca de programação Keras (CHOLLET et al., 2018). O modelo foi
ativado até a penúltima camada, com 4.096 dimensões posteriormente reduzidos por Análise de
Componente Principal (PCA) e pelo algoritmo t-SNE (MAATEN; HINTON, 2008). Posicionamento em
grade pelo algoritmo RasterFairy (KLINGEMANN, 2019). Método baseado no tutorial Machine Learning
for Artists (ML4A) (REFSGAARD; TSENG; KOGAN, 2019).
Fonte: Visualização de elaboração própria.
Fonte dos dados:
Imagens – API Streaming do Twitter e Web.
Descrições – VGG19 (SIMONYAN; ZISSERMAN, 2014).
240
Por meio desta disposição das imagens a visualização permite observar formas visuais
recorrentes. Esta seria a principal oportunidade analítica proporcionada por esse proce-
dimento. A aproximação de imagens visualmente similares, como discuti no capítulo
anterior (veja 3 Visualidades computacionais ), deriva do próprio modo de funcionamen-
to do aprendizado de máquina, que opera pela atribuição de posições relativas para os
dados analisados em um espaço vetorial multidimensional. Dois fatores contribuem a
esta espacialização. Por um lado, padrões inscritos nos modelos por sua arquitetura
computacional e pelos dados de treinamento. Por outro, aspectos dos próprios dados
analisados. Pois apenas quando há um volume substancial de imagens relacionadas
àquele padrão poderemos apreendê-lo na visualização. A incidência específica destes
padrões no caso sob análise, por sua vez, abre possibilidades interpretativas acerca dos
sentidos daquelas imagens e padrões naquele contexto.
Por exemplo, a Figura 21 apresenta uma seção do Gráfico 5 que reúne um conjunto hete-
rogêneo de imagens que, em comum, enquadram rostos e mãos em primeiro plano. As
características extraídas do modelo VGG19 reúnem nesta seção do gráfico, portanto,
imagens formalmente similares, embora retratem situações diversas. A predominância
de retratos do Lula é esperada tendo em vista o acontecimento investigado, mas além
dele encontramos: ministros do STF; o ex-chanceler Celso Amorim (canto direito supe-
rior); o senador Cristovam Buarque; o então presidente Michel Temer (canto direito
inferior); a ex-presidenta Dilma Rousseff (canto esquerdo superior); o ex-deputado Ro-
berto Jefferson (próximo ao centro; e o hoje presidente Jair Bolsonaro (canto direito
inferior), entre outras pessoas. Uma área mais ampla da visualização apresenta figura-
ções similares, mas esse pequeno segmento já permite apreender a variedade dos
sentidos produzidos por um padrão de construção formal das imagens. Em muitos casos,
as expressões sugerem vergonha e tristeza, com a mão cobrindo os olhos, a boca, ou
toda a face. Em outros, sugere apreensão, com as mãos apoiando o queixo em pose in-
trospectiva. As imagens de ministros do STF, no canto direito inferior, em particular,
sugere segredo e conspiração, com a mão cobrindo uma boca que fala.
Um caso interessante do exemplo da Figura 21 é constituído por um par de imagens em
preto e branco, posicionadas na margem direita, próximo ao centro vertical da figura.
Uma é a capa de um álbum da banda britânica Artic Monkeys; outra é uma fotografia do
Lula em pose similar ao do homem retratado na capa do álbum, segurando um cigarro na
boca. O nome da banda foi sobreposto à fotografia do Lula, vinculando-a à foto do ál-
241
bum. Os dados relativos a cada imagem, exibidos na página de detalhamento, indicam
que sua inclusão na coleta ocorreu por meio de tuítes publicados por atores distintos, in-
clusive separados no tempo. A imagem da capa original teria sido majoritariamente
publicada a partir do dia 9 de abril, enquanto a montagem teria sido publicada principal-
mente no dia 7 de abril. É exclusivamente por meio de sua similaridade formal que estas
duas figurações são justapostas na visualização que indica, assim, seu potencial para
identificar memes visuais em meio aos dados. A mão sobre o rosto, nesse caso, sugere
uma expressão contrastante com a maior parte do conjunto, uma vez que não expressa
vergonha ou apreensão e, sim altivez.
Segundo o referencial teórico constituído para esta pesquisa, esta visualização pode ser
considerada na mesma na mesma linhagem de outras que indiquei anteriormente (veja
3.2.3 Aprendizes maquínicos ) e que caracterizei como interfaces que nos dão a ver as-
pectos de uma visualidade computacional elaborada a partir das redes neurais. Porém,
242
por meio de visualizações como esta, esta visualidade computacional extravasa qualquer
possibilidade de autocontenção e passa a operar, também, sobre nosso modo de ver
aquelas imagens. Efetivamente, como também discuti, esta mediação não é exclusiva de
contextos de pesquisa, quando ela é deliberadamente reapropriada como forma de nave-
gação ou orientação por grandes quantidades de imagens. Trata-se de instância
integrada a plataformas digitais e, portanto, às dinâmicas de circulação e manifestação
contemporânea das imagens, como dispositivos que informam nosso olhar. Sugeri em
capítulo anterior (veja 3.2.3 Aprendizes maquínicos ) considerar este movimento em uma
analogia com a técnica de “aprendizado por transferência” (transfer learning).
Seria este, quero sugerir, o gesto epistêmico realizado, que também pode ser compreen-
dido como uma materialização específica do que discuti, a partir de Mackenzie (2017) e
Suchman (2007) como aprendizes maquínicos. Pois visualizações como a exibida no
Gráfico 5 não são resultado da simples automatização de uma tarefa de classificação, por
exemplo – embora fosse possível aplicar o modelo de classificação para tal fim. De outro
modo, a rede neural de classificação é inserida como um mediador algorítmico para au-
xiliar a apreensão destas imagens, constituindo um dispositivo de orientação entre
muitos outros possíveis. Trata-se, desse modo, de um exercício de cooperação, mais do
que de automatização. Haveria um “aprendizado por transferência” na medida em que
um certo modo de olhar para estas imagens nos é apresentado para que, então, possa-
mos aprender tanto sobre este olhar quanto sobre as imagens às quais olhamos,
conjuntamente. Trata-se, desse modo, de mais um sentido para a noção de imagem-
rede, se consideramos a imagem em um sentido fenomenológico – não apenas a ima-
gem-coisa, mas a imagem que formamos de tal coisa. Esta não se constitui por um olhar
único, individual, mas sim pela conjugação de diferentes olhares, como a ideia “visão
socializada” que é por vezes mobilizada para definir a visualidade (cf. ABRIL, 2012;
MENDONÇA; LEAL, 2018). De modo mais importante, quero ressaltar a constituição do
olhar como um ato efetivamente distribuído. Como discutirei adiante, potencializar este
sentido da visualização demandará ainda outros esforços. Em particular, segundo a
compreensão da multiplicidade ontológica da imagem que é constituída nestes proces-
sos. Antes de chegar a tal consolidação, volto a expandir o espectro das inscrições
produzidas sobre estas imagens.
243
4.2.5 API Cloud Vision da Google
Nesta seção, volto-me à descrição dos procedimentos adotados para a análise das ima-
gens por meio da API Cloud Vision da Google (GVAPI). Especificamente, a aplicação da
GVAPI recorre ao seu módulo Label Detection, que extrai, das imagens, “etiquetas” (la-
bels) correspondentes a categorias semânticas. Embora os dados relativos às etiquetas
permitam um amplo leque de possibilidades de análise, inclusive por abordagens quan-
titativas acerca da incidência de determinados termos e categorias, elas são tomadas
aqui, como para o caso da reapropriação do modelo VGG19, como mais um tipo de inscri-
ções produzidas sobre as imagens como forma de possibilitar outras formas de
comparação, justaposição e sobreposição.
O protocolo desta etapa do processamento das imagens encontra-se descrito na Figura
22. Partindo da pasta de imagens e da lista das matrizes dos agrupamentos, foi utilizado
um script em Python para submeter as imagens à API Cloud Vision (item 1 da Figura 22).
Especificamente, o script foi o Memespector Python, de minha autoria (MINTZ, 2018b),
mas que é uma transposição a essa linguagem de programação do script Memespector,
desenvolvido inicialmente por Bernhard Rieder para a linguagem PHP (RIEDER; DEN
TEX; MINTZ, 2018). O Memespector realiza submissões sucessivas de uma lista ou tabela
contendo nomes de arquivo ou URLs de imagens à GVAPI. Para cada submissão, o pro-
grama recebe a resposta da API no formato JSON, interpreta esta resposta e a organiza
em diferentes arquivos de saída. Para o caso deste estudo, das 18.475 matrizes ‘imagens
únicas’ identificadas, 149 não foram adequadamente processadas pela GVAPI, retornan-
do mensagens de erro. Estas foram descartadas desta fase do processamento, que
considera, portanto, 18.326 matrizes.
244
A resposta da GVAPI é transposta pelo script Memespector em dois formatos, um já in-
cluído na versão originalmente elaborada por Bernhard Rieder e outra que incluí em
minha versão expandida. O formato principal é uma tabela no formato CSV (Valores Se-
parados por Vírgula, na sigla em inglês), que reúne boa parte dos dados do arquivo JSON
dispostos como colunas adicionais à lista ou tabela de imagens utilizada como arquivo de
entrada (item 2 da Figura 22). Esta forma tabular seria especialmente adequada a análi-
ses que visam, por exemplo, quantificar a ocorrência das etiquetas, ou localizar imagens
segundo a atribuição de etiquetas específicas. O outro arquivo que adicionei ao script é
245
um grafo bimodal imagem-etiqueta no formato GEXF (Formato XML de Intercâmbio de
Grafos, na sigla em inglês) (item 3 da Figura 22). Um grafo bimodal é uma estrutura de
dados relacionais que possui dois tipos de nós. Neste caso, um tipo de nó representa as
imagens e o outro representa as etiquetas que foram atribuídas às imagens. Quando uma
etiqueta é atribuída a uma imagem, estabelece-se entre elas uma conexão, ou uma ares-
ta. Deste modo, a atribuição de etiquetas, realizada individualmente a cada imagem,
opera como um elemento de articulação entre as imagens. À medida que diferentes ima-
gens são conectadas a um mesmo conjunto de etiquetas, pode-se depreender que elas
também teriam algum grau de proximidade semântica segundo o modelo de reconheci-
mento de imagens que as analisou.
O grafo assim gerado foi, então, processado por meio do Gephi (GEPHI CONSORTIUM,
2017), um software livre de análise de redes (item 4 da Figura 22). No Gephi, aplicou-se à
rede um algoritmo de layout dirigido por força, o ForceAtlas2 (JACOMY et al., 2014), que
faz com que as relações estabelecidas entre imagens e etiquetas sejam traduzidas a rela-
ções espaciais com propriedades particulares. Grosso modo, o ForceAtlas2 usa as relações
de conexão entre os nós para calcular forças, tratando o grafo como um sistema físico.
Conexões operam como forças de atração, de modo que nós conectados entre si tendem a
aproximar-se uns dos outros. A ausência de conexão, por sua vez, opera como força de
repulsão, que leva a afastar os nós daqueles com os quais não compartilha conexões.
Aplicando esse algoritmo de layout à rede bimodal construída a partir dos dados da API
Cloud Vision, as imagens que compartilham etiquetas, e que, presumivelmente, seriam
similares “aos olhos” da API, têm os nós que as representam posicionados próximos uns
dos outros. Imagens que não compartilham etiquetas, por outro lado, que presumivel-
mente seriam dissimilares, têm seus nós posicionados afastados entre si. Por esta
complexa dinâmica de forças, portanto, a disposição da rede descreve, ao final, algo a
que podemos nos referir por um espaço semântico destas imagens, orientado por especi-
ficidades do programa de classificação de imagens empregado.
246
Gráfico 6: Visualização de rede bimodal imagem-etiqueta com dados da GVAPI.
Rede composta por 21.092 nós, sendo que 18.326 (86,9%) representam imagens (cor verde) e 2.766 (13,1%)
representam labels atribuídos pela GVAPI (cor marrom). Os labels são exibidos como etiquetas destes nós. Os
tamanhos dos nós e das etiquetas são proporcionais ao grau de cada nó, em escala logarítmica. Nós com grau
inferior a 50 tiveram suas etiquetas ocultadas, bem como componentes menores e desconectados do
componente principal da rede (148 imagens e 5 labels). A rede é estruturada por 169.624 arestas não-
direcionais que representam a atribuição de uma etiqueta a uma imagem. As arestas possuem peso equivalente
à nota de probabilidade da atribuição da etiqueta, segundo definida pela API.
Rede espacializada pelo algoritmo ForceAtlas2 (JACOMY et al., 2014), com pequenos ajustes manuais para
restringir tamanho da figura.
Fonte: Visualização de elaboração própria produzida no software Gephi (GEPHI CONSORTIUM, 2017).
Fonte dos dados:
Imagens – API Streaming do Twitter e Web. Descrições – GVAPI (GOOGLE, 2017).
O Gráfico 6 é a visualização gerada por este protocolo para as imagens coletadas sobre a
prisão do Lula. Em uma leitura visual (GRANDJEAN; JACOMY, 2019; VENTURINI; JA-
247
COMY; JENSEN, 2019), pode-se identificar aglomerações temáticas que oferecem des-
crições gerais sobre as imagens segundo as etiquetas atribuídas. Uma vez que o tamanho
das etiquetas é proporcional, em escala logarítmica, ao seu número de conexões, as eti-
quetas mais atribuídas são facilmente identificáveis. No lado esquerdo inferior da rede,
vemos uma aglomeração relativamente densa de imagens às quais foram atribuídas eti-
quetas como: event (evento), crowd (multidão), people (pessoas) e protest (protesto).
Evidentemente, presume-se que esse conjunto contenha imagens em que aparecem
muitas pessoas o que, no contexto do caso em análise, se deve à multidão que acompa-
nhou a vigília de Lula em São Bernardo; ou à que aguardava a chegada o ex-presidente
na sede da PF em Curitiba (entre ‘lulistas’ e ‘lavajatistas’).
Na parte superior, à esquerda, encontramos outra aglomeração, menos densa, em que
dominam termos como: business person (pessoa de negócios, ou executivo/a), spokesper-
son (porta-voz), speech (discurso) e public speaking (fala em público). Para compreender
estes termos, não basta que os tomemos de forma literal. Enquanto ‘porta-voz’, ‘discur-
so’ e ‘fala em público’ correspondem a, efetivamente, situações ocorridas durante o caso
e que possivelmente repercutiram nas imagens no Twitter, ‘pessoa de negócios’ não in-
dica uma categoria que efetivamente se aplicaria às imagens. No entanto, se
consideramos que a atribuição de categorias responde a um processo de “aprendizado”,
é possível imaginar as pessoas que tipicamente figuravam na base de treinamento para a
categoria ‘pessoas de negócios’. Tipicamente, imagens de políticos seriam bastante si-
milares às destas ‘pessoas de negócios’, inclusive considerando marcadores de raça e
gênero. Esta suposição pode ser verificada nas visualizações geradas nos passos seguin-
tes.
Ainda acima, à direita, uma terceira aglomeração, densa, é permeada por múltiplas eti-
quetas relativas a partes do corpo e, especialmente, do rosto, como forehead (testa),
head (cabeça), mouth (boca), nose (nariz) e cheek (bochecha). Destacam-se, contudo,
com maiores ocorrências, os termos facial hair (pêlos faciais), beard (barba) e moustache
(bigode). Os termos de partes do rosto sugerem, a princípio, imagens em plano de deta-
lhe, que dão prominência a estas partes a ponto de elas surgirem como categorias. A alta
ocorrência de termos relativos à barba e pêlos faciais, por sua vez, sugere que muitas
destas imagens de detalhe sejam do próprio ex-presidente Lula, já que a barba é um dos
traços mais característicos de sua fisionomia. Embora uma predominância masculina,
independente de se tratar ou não do ex-presidente, pudesse gerar um efeito similar.
248
Um estudo que antecede a pesquisa empreendida nesta tese e que faz uso de visualização
similar a esta foi elaborado por Rykov et al. (2016). O estudo volta-se a imagens publica-
das no Instagram na cidade de São Petersburgo, Rússia, e realizou um cruzamento entre
os dados semânticos das imagens, obtidos via a GVAPI, e os dados de geolocalização das
publicações. O objetivo da análise, portanto, era verificar a existência de correlação entre
o conteúdo semântico das imagens (inferido a partir das etiquetas atribuídas pela API) e
as regiões da cidade às quais eram vinculadas nas publicações. De certo modo, o estudo
realiza, assim, um mapeamento da visualidade de regiões específicas da cidade segundo
sua representação no Instagram. Evidentemente, os dados obtidos pelo protocolo que
acabo de descrever poderiam subsidiar análises similares. Os metadados de geolocaliza-
ção não são tão abundantes para os tuítes, mas seria possível perseguir, por exemplo,
correlações temporais entre os dias e horários das publicações e as etiquetas mais fre-
quentemente atribuídas às imagens daquele período.
Sem descartar o potencial desta abordagem, o interesse desta investigação é outro e se
volta às etiquetas da GVAPI como apenas mais um tipo de inscrição possível para operar
sobre as imagens colhidas para a análise. De modo importante, adota-se como princípio
a complexidade das manifestações ontológicas das imagens, que não poderiam ser redu-
zidas a esta inscrição, isoladamente, como se o dado categórico valesse pela própria
imagem. O objetivo, portanto, é mobilizar este dado como um operador para compreen-
der as imagens, sem perder de vista outras formas de sua manifestação, em especial sua
dimensão visual, que tem fundamental relevância se queremos compreender seu papel
em dinâmicas comunicativas e midiáticas. Em que pesem suas muitas declinações, as
imagens precisariam ainda ser vistas se queremos e reconhecer a necessária fragilidade
que esforços que venham supor sua omnitraduzibilidade (DIDI-HUBERMAN, 2013a).
A estruturação dos dados em rede já favorece, em larga medida, a possibilidade de atingir
estes objetivos. Trata-se de forma de representação dos dados que não desfaz as indivi-
dualidades em massas agregadas de dados. Cada imagem segue, ali, como ponto na rede,
oferecendo a possibilidade de retorno ao individual. Esta possibilidade proporcionada
pela análise de redes foi observada por Latour et al. (2012) com muito otimismo quanto
ao potencial de que este procedimento metodológico, da análise de redes, pudesse tornar
mais difusa a distinção historicamente constituída, nas ciências sociais, entre níveis es-
249
truturais macro e micro, ou entre o individual e o agregado159. Embora David Moats e Erik
Borra (2018) tenham, posteriormente, reivindicado a possibilidade de articular estes ní-
veis sem recorrer apenas à visualização em rede, trata-se de uma abordagem hoje
bastante consolidada.
Como discuti em capítulo anterior, a oscilação entre estes níveis – que também guarda-
riam analogia com as noções de agência e estrutura – encontra-se também entre os
objetivos da TAR. O par ator-rede propõe, afinal, justamente uma vinculação ambígua
entre o individual e o coletivo, como mutuamente constitutivos. Embora nem toda
análise de redes e nem toda forma de visualização seja coerente com a TAR – como nos
alertam Venturini, Jacomy e Munk (2018) – deve-se também reconhecer como esforços
iniciais da TAR tomaram redes bastante similares a esta sobre a qual se debruça esta
parte do estudo. Em volume que contém texto fundador da noção de ator-rede (CALLON,
1986), um dos eixos estruturantes das contribuições feitas ao livro é justamente a análi-
se de redes co-palavra como instrumento metodológico para compreender os esforços
de translação performados pelos diferentes atores no entorno de uma controvérsia soci-
otécnica (CALLON; LAW; RIP, 1986a). As redes co-palavra estruturam conteúdos verbais
utilizando palavras como nós e desenhando conexões entre elas (arestas) a partir de suas
relações de coocorrência em um mesmo corpo textual. Nos termos adotados pelos auto-
res, àquele momento, eles visavam, por meio dos dados relacionais e destas
visualizações – ainda rudimentares – elaborar uma cientometria qualitativa (CALLON;
LAW; RIP, 1986b). Escrevem:
a abordagem ‘co-palavra’ não se satisfaz com a contagem como finalidade
em si mesma. Nosso problema, de traçar as dinâmicas da ciência e da tecno-
logia, demanda o uso de métodos quantitativos, mas estes são melhor
compreendidos como a busca do qualitativo por outros meios160 (CALLON;
LAW; RIP, 1986b, p. 107–108).
Esta formulação se aplica bem, me parece, aos desafios enfrentados por esta investiga-
ção. O objetivo de estudar imagens digitais online no contexto de um grande
acontecimento midiático – poderia também ser um grande tema ou uma controvérsia
sociotécnica – demanda que trabalhemos com métodos de base computacional que, em
159 O olhar dos autores é particularmente informado pela teoria social de Gabriel Tarde, que Latour recupera, junto
a outros autores, como uma perspectiva até então esquecida nas ciências sociais. Um de seus traços distintivos,
em contraste com a linhagem sociológica fundada por Émile Durkheim, deve-se à não distinção entre dinâmicas
sociais de menor e maior escala.
160 No original: “… the co-word approach does not indulge in counting for counting’s sake. Our problem, that of tracing
the dynamics of science and technology, demands the use of quantitative methods, but these are best seen as the pur -
suit of the qualitative by other means”. Tradução minha.
250
alguma medida, serão sempre, também, quantitativos. Como discuti, esta demanda ten-
de a se colocar mesmo que nos interessemos por uma imagem específica como foco da
análise. Porém, na medida em que também compreendemos que as imagens não podem
ser simplesmente traduzidas ou reduzidas a uma categoria ou a um índice estatístico,
por exemplo, alguma possibilidade de retorno a sua apreensão visual precisaria ser res-
guardada. Como na formulação de Callon, Law e Rip, portanto, não se trata de uma
investigação quantitativa em sentido estrito mas, sim, da busca pelo qualitativo por ou-
tros meios.
251
Gráfico 7: Visualização de rede imagem-etiqueta com imagens plotadas.
Trata-se da mesma rede apresentada no Gráfico 6, porém com as imagens correspondentes aos nós de imagem
plotadas em sua posição relativa no grafo.
Fonte: Visualização de elaboração própria produzida por meio dos softwares Gephi (GEPHI CONSORTIUM, 2017),
Image Network Plotter (MINTZ, 2018c) e Inkscape (ALBERT et al., 2018).
Fonte dos dados:
Imagens – API Streaming do Twitter e Web.
Descrições – GVAPI (GOOGLE, 2017).
252
Avançando em relação à visualização da rede imagem-etiqueta, portanto, uma primeira
estratégia para assegurar aos dados um retorno-imagem161 envolve procedimento simi-
lar ao adotado pelo grupo de Lev Manovich e a Analítica Cultural: plotar os arquivos de
imagem no lugar de suas representações gráficas. No caso da Analítica Cultural, tipica-
mente, isto é feito em gráficos de dispersão. Neste caso, as imagens deverão substituir os
nós que, na rede, as representam. Esta abordagem, especificamente no âmbito de redes
imagem-etiqueta, foi adotada por Donato Ricci et al. (2017) em estudo voltado a figura-
ções da natureza urbana na cidade de Paris. Baseio-me, aqui, na visualização produzida
pelos autores. A posição relativa dos nós foi utilizada para plotar as imagens, mas os nós
relativos às etiquetas foram excluídos da representação final (Gráfico 7). Gabriele Co-
lombo (2019), aluno de Ricci, sugere este como um dos tipos de ‘imagens compostas’,
como estratégia metodológica para estudar imagens “em grupos”. Por meio desta re-
presentação, os pesquisadores (RICCI et al., 2017) voltaram-se a esforços de
categorização com um distanciamento das categorias efetivamente atribuídas pela GVA-
PI. O método que adotaram envolveu uma categorização colaborativa a partir de mapa
similar que, assim, adotou categorias mais diretamente pertinentes ao caso em análise,
segundo a perspectiva de olhares histórica e socialmente situados naquele contexto. A
análise ganha, assim, uma autonomia relativa em relação ao vocabulário adotado pela
Google na formulação de suas etiquetas.
De modo a sistematizar o método de plotagem das imagens na rede, desenvolvi um
script, denominado Image Network Plotter (MINTZ, 2018c) baseado no procedimento
adotado por Ricci et al. (2017). Essa ferramenta recebe como entrada o arquivo de rede
(GEXF), espacializado no Gephi, e gera um arquivo de imagem em vetor (SVG) com a po-
sição relativa das imagens definida segundo o layout da rede produzido pelo Gephi (item
5 da Figura 22). O script consegue ser mais eficaz do que o procedimento utilizado por
Ricci et al. que era limitado a cerca de duas mil imagens162. Além disto, incluí a possibili-
dade de estabelecer, para cada imagem, uma URL para funcionar como hiperlink,
permitindo, a partir da visualização, acessar algum conteúdo online relativo à imagem
161 Faço, aqui, menção a uma formulação de Paul Virilio, quando discorre sobre o que chama de ‘imagens virtuais
instrumentais’, ou seja, as representações internas à máquina, acerca das imagens: “Não esqueçamos, contudo,
que a ‘imagem’ é aqui nada mais do que uma palavra vã, uma vez que a interpretação da máquina nada tem a
ver (é o caso de o dizer!) com a visão habitual. A imagem eletróptica é, para o computador, nada mais do que
uma série de impulsos codificados dos quais não podemos nem mesmo imaginar a configuração, uma vez que
nesta ‘automação da percepção’, o retorno-imagem não é mais assegurado” (VIRILIO, 1994, p. 103)
162 Durante participação na Summer School da DMI em Amsterdã, em 2017, tive contato com a técnica utilizada por
Ricci e Colombo para a produção destas visualizações. Ela, àquele momento, não era ainda computacionalmente
automatizada e tinha limitações para trabalhar com quantidades na ordem dos milhares de imagens.
253
em questão – como, por exemplo, a publicação que é seu contexto original de circulação.
Inicialmente desenvolvido em 2017, o script teve algumas revisões até o momento de es-
crita desta tese e foi utilizado em diversos estudos da imagem por meio de dados da
GVAPI de que participei, nesse período (CICALI et al., 2018; MINTZ; SILVA et al., 2019;
OMENA; RABELLO; MINTZ, 2017).
Neste estudo, porém, optei por ir além desta possibilidade experimentada em outros
momentos da pesquisa e transpor a estes dados alguns dos procedimentos adotados para
o modelo VGG19 (veja 4.2.4 VGG19 ), com base no tutorial do projeto ML4A (REFSGAARD;
TSENG; KOGAN, 2019). Especificamente, o objetivo era alcançar uma visualização de
grade como a obtida ao final daquele processo em uma combinação dos algoritmos t-
SNE (MAATEN; HINTON, 2008) e Rasterfairy (KLINGEMANN, 2019). Esta visualização de
grade, embora se afaste das possibilidades derivadas da análise visual de redes (GRAND-
JEAN; JACOMY, 2019; VENTURINI; JACOMY; JENSEN, 2019) possui algumas vantagens.
Como indiquei na subseção anterior, estas incluem a otimização do uso do espaço, a
não-sobreposição de imagens e a possibilidade de localizar imagens com maior preci-
são, inclusive entre diferentes manifestações do mapa (em tela, impresso etc.). Além
disso, a visualização em uma grade regular evita destaques a imagens específicas e per-
mite igualá-las, em certa medida, em níveis de relevância.
254
255
Para os dados da GVAPI, portanto, dois procedimentos distintos foram adotados após a
obtenção das etiquetas descritivas das imagens, como indicado na Figura 22. O caminho
se bifurca a partir do item 3. Os itens 4 e 5 foram descritos logo acima, para a elaboração
do Gráfico 7. A parte que descrevo agora compreende os itens 6 a 9. Nesta linha de abor-
dagem, as etiquetas descritivas atribuídas pela GVAPI para as imagens foram tomadas
como análogas aos vetores de 4.096 dimensões obtidos do modelo VGG19 pelo procedi-
mento de extração de características. Para fazê-lo, contudo, foi preciso converter o modo
de estruturação dos dados gerados pela GVAPI para a forma de vetores (item 6 da Figura
22). Isto foi feito considerando cada uma das 2.766 etiquetas atribuídas pela API às ima-
gens como uma dimensão e tomando o índice de probabilidade vinculado às atribuições
como valor para cada uma destas dimensões. Desse modo, as atribuições das etiquetas
foram convertidas em um vetor, que passava a operar como inscrição computacional
para cada imagem. Uma vez gerados estes vetores, o protocolo adotado foi o mesmo uti-
lizado para o modelo VGG19 nos itens 2 a 4 da Figura 19: Análise de Componente
Principal, reduzindo os vetores a 500 componentes (item 7 da Figura 22); redução de di-
mensionalidade do espaço vetorial para uma visualização plana pelo algoritmo t-SNE
(MAATEN; HINTON, 2008) (item 8); ajuste das coordenadas a uma grade regular pelo
algoritmo Rasterfairy (KLINGEMANN, 2019) (item 9). Como resultado, este processo ge-
rou uma segunda visualização em grade, desta vez baseada na leitura das imagens pela
GVAPI (Gráfico 8).
Como para a abordagem do modelo VGG19, gostaria de sugerir nesse procedimento um
aprendizado por transferência em uma reconfiguração humano-máquina. Uma diferença,
contudo, é o estágio do processamento das imagens em que as características foram ex-
traídas do modelo. Enquanto a rede neural do modelo VGG19 é aberta e permite extrair
inscrições em uma fase intermédia do processo, o modelo da GVAPI não permite adotar
estratégia similar. A utilização das etiquetas atribuídas pelo modelo é uma alternativa
possível e que se adéqua ao objetivo final de obter a visualização por grade. Contudo,
trata-se de uma classificação que já ocorre em um estágio final de convergência e que,
como observado para o modelo VGG19, supõe não apenas uma redução do nível de deta-
lhe das inscrições antecedentes como, também, já se aproxima mais de classes
semânticas do que de atributos visuais das imagens.
256
A Figura 23 apresenta segmento da visualização que exemplifica bem os efeitos das eti-
quetas semânticas na disposição das imagens. Enquanto a visualização gerada por meio
da extração de características de uma camada intermédia do modelo VGG19 tende a
aproximar imagens visualmente similares, o posicionamento obtido a partir dos dados
categóricos gerados pela GVAPI aproxima imagens com relações semânticas, mesmo que
sejam visualmente distintas. No segmento apresentado, ao menos três categorias se-
mânticas podem ser sugeridas a partir de imagens formalmente heterogêneas. Na parte
superior da figura, várias imagens são relativas ao que poderíamos indicar como a cate-
goria comida, indo desde planos de detalhe de pratos contendo receitas à base de lula (o
molusco) até, por exemplo, um registro da ex-presidenta Dilma Rousseff em um restau-
rante popular, aparentemente. Logo abaixo, há uma faixa de imagens relativas a uma
categoria que poderíamos identificar como futebol, porém formalmente diversas. Nem
todas as fotografias enquadram o gramado, por exemplo. Nesta faixa também se encon-
tram algumas imagens relativas ao que poderíamos indicar pela categoria mais ampla
esporte. Na faixa inferior, encontramos vários registros de temas bastante distintos mas
unidos por uma categoria formal, tornada semântica, que poderia ser descrita como fo-
tografia em preto e branco. Em contraste, estes agrupamentos não são encontrados de
257
forma tão definida na visualização produzida a partir dos dados do modelo VGG19. Como
o processamento foi interrompido antes de chegar à fase das categorias, a proximidade
entre as imagens se deve mais a relações formais do que semânticas – embora o proces-
so de otimização da rede neural tenda a dispersar as categorias semânticas por todo o
modelo. Este exemplo demonstra, portanto, diferentes movimentos de leitura proporci-
onados por estes dois protocolos de processamento das imagens.
4.3 Compondo imagens-redes
Como ponto de chegada do percurso teórico e metodológico empreendido por esta tese,
esta seção apresenta e discute um dispositivo metodológico constituído com o objetivo
de apoiar o estudo das imagens baseado no que propus pela noção de imagem-rede. Um
dos pontos principais desta hipótese conceitual é a compreensão da imagem como enti-
dade ontologicamente instável, não apenas no sentido de sua ambiguidade
interpretativa mas também – e fundamentalmente, neste caso – pela multiplicidade das
inscrições e das práticas que performam estas imagens como objetos da investigação.
Cada etapa adotada na coleta e no processamento dos dados e das imagens assume,
como elaborei, diferentes olhares sobre as imagens e aquilo que as define. Cada operação
produz uma nova inscrição ou transforma uma inscrição existente, tomando estes ele-
mentos como mediadores das operações realizadas sobre as imagens. Cada uma destas
instâncias, que são transitoriamente tomadas como as imagens em cada etapa, contudo,
não são inscrições neutras que poderíamos tomar como meras intermediárias. Elas são
necessariamente informadas pelo tipo de operação a que se destinam. Deste modo, os
esforços de análise, longe de estabilizarem o objeto analisado, acabam por multiplicá-lo,
por decliná-lo em diferentes versões de si mesmo.
Esta condição não é exclusiva das imagens digitais, porém tende a se manifestar de for-
ma mais intensa nesse contexto. Isto porque, se podemos afirmar uma especificidade das
tecnologias digitais, temos que sua fundamentação em operações lógico-simbólicas e
dinâmica de conectividade favorece à multiplicação das inscrições. Em certa medida,
toda imagem digital atravessa estas múltiplas instanciações nas dinâmicas de circulação
em rede, por exemplo, à medida em que é codificada, decodificada e transcodificada
múltiplas vezes. Estas transformações são relegadas a um espaço negativo de nossa ex-
periência cotidiana. São obscurecidas ou “encaixapretadas” pela eficácia dos sistemas
258
computacionais – exceto, claro, quando eles falham (Figura 1). Em contextos de pesqui-
sa, estas transformações também tendem a ser relevadas. Seja por um distanciamento
da materialidade das imagens digitais (não eram elas imateriais?), seja por uma confi-
ança de que os dados que podemos extrair de sua superfície visível possam nos bastar
como forma de conhecê-las. Ao propor a hipótese conceitual da imagem-rede, procuro,
nesta tese, argumentar em favor de uma compreensão das imagens sem negar a instabi-
lidade oriunda de sua multiplicidade ontológica. Em certo sentido, ao tomar esta
hipótese conceitual como eixo da reflexão metodológica empreendida, busco elaborar
um modo pelo qual esta multiplicidade pode ser acolhida e não mais purificada na inves-
tigação.
Na seção anterior, apresentei um conjunto de visualizações em que procuro exibir as
matrizes dos agrupamentos de imagens atribuindo-lhes posições relativas de acordo
com a leitura que delas provêm programas de classificação de imagens por redes neurais.
Gabriele Colombo (2018) chama a este tipo de estratégia, de combinação e justaposição
das imagens, de imagens compostas. A definição é simples: “a combinação de múltiplas
imagens em um artefato singular”163 (COLOMBO, 2018, p. 24). Uma ponderação que po-
demos fazer, contudo, é a relativa estabilidade conferida às imagens nesse processo,
tomadas como unidades autossuficientes e não, como quero propor, como entidades
materialmente relacionais, ontologicamente múltiplas. Se compreendemos a imagem
desse modo, haveria um desafio anterior ao de combinar múltiplas imagens em um úni-
co artefato. Primeiro, seria necessário compor a imagem a partir de suas múltiplas
instanciações e suas múltiplas inscrições. Este é, em suma, o desafio que coloco para esta
seção, na qual busco me haver com o desenvolvimento de um dispositivo metodológico
que poderia apoiar esse esforço de composição ontográfica.
Ao sugerir a ideia de uma composição, faço uma aproximação da defesa que Bruno Latour
(2010) elabora de uma abordagem “composicionista”, que buscaria construir um plano
comum para elementos heterogêneos e dispersos sem que, com isto, sejam homogeniza-
dos164. Situando-se entre um universalismo e um relativismo, o que ele ironicamente
propõe como composicionismo sugere a amplitude de um olhar geral, porém ciente das
partes heterogêneas que inevitavelmente o compõem:
163 No original: “the combination of multiple images into a single artifact”. Tradução minha.
164 De modo mais estruturante do que nesta tese, voltei-me também proposição da composição por Bruno Latour
em minha dissertação de mestrado (MINTZ, 2015).
259
Do universalismo, ele toma a tarefa de se construir um mundo comum; do re-
lativismo, a certeza de que esse mundo comum deve ser construído com
partes completamente heterogêneas que nunca comporão um todo, mas , no
melhor dos casos, um material composto frágil, revisável e diverso165 (LA-
TOUR, 2010, p. 474).
Esta elaboração precisaria ser compreendida em um contexto mais amplo da obra do au-
tor que, já àquele momento, voltava-se a um esforço de revisão do projeto moderno em
resposta às demandas do que veio chamar de regime climático (LATOUR, 2018). Nesse
contexto, a composição é pensada por Latour como um gesto político-epistêmico que
visa agregar modos de existência heterogêneos segundo suas relações de interdepen-
dência166. Evidentemente, minha aproximação à noção de composição tem sentido bem
mais circunscrito e talvez fosse melhor compreendida como uma transposição conceitu-
al.
A metáfora sugerida na descrição de Latour parece-me particularmente adequada para o
esforço visado aqui, em sua sugestão de “um composto frágil, revisável e diverso”. Ima-
gino uma criança coletando pedras, galhos, um punhado de areia e um punhado de lama;
apertando essa mistura sobre o chão e vendo, nela, um ‘bolo’. Mas, tão logo retira sua
mão, sua forma já começa a se desfazer, o galho tomba, a pedra rola. Sustentar a forma
do ‘bolo’ demandará um trabalho constante de manutenção e recomposição mas, em
todo caso, sempre será possível identificar ali as partes coletadas e forçosamente combi-
nadas em um agregado. O esforço de conhecimento lançado, aqui, às imagens-redes,
parece em larga medida assemelhar-se ao gesto da criança. Como se a tarefa metodoló-
gica fosse coletar arquivos de imagens distintos, hashes perceptivos, etiquetas, vetores de
características formais. Tuítes, URLs, métricas. Juntar tudo entre as mãos e produzir,
como “mágica”, um ‘bolo’. Grosso modo, estudos de métodos digitais assemelham-se,
em maior ou menor grau, com mais ou menos rigor e sistematização, a gestos desse tipo.
A questão é em que medida este gesto é consciente e, principalmente, em que medida a
heterogeneidade é reconhecida na própria análise.
O objetivo desta seção é, enfim, constituir um instrumento analítico que proporcione
uma experiência de exploração das imagens circuladas no entorno do acontecimento
midiático da prisão. Este instrumento deveria auxiliar a compreensão tanto do conjunto
165 No original: “From universalism it takes up the task of building a common world; from relativism, the certainty that
this common world has to be built from utterly heterogeneous parts that will never make a whole, but at best a fragile,
revisable, and diverse composite material”. Tradução minha.
166 Em momento recente, tal compreensão é articulada em seu pensamento pela figura de Gaia (ARÈNES; LATOUR;
GAILLARDET, 2018; LATOUR; LENTON, 2019).
260
das imagens quanto de sua individualidade, permitindo, portanto, oscilar entre leituras
distantes e em profundidade. Ele deveria, ainda, oferecer uma entrada às múltiplas ins-
tâncias e inscrições que operam sobre aquelas imagens: os agrupamentos realizados
segundo uma noção probabilística de identidade; as descrições elaboradas por classifi-
cadores de imagens; e aspectos dos tuítes e do contexto de publicação. Descrevo, a
seguir, a constituição desse dispositivo de orientação, a que chamo de Atlas.
Como lembram Daston e Galison (2010, p. 23) e Amir Brito Cadôr (2016, p. 133), o nome
do titã grego Atlas foi primeiro atribuído uma coleção de mapas em um volume que foi
publicado por Gérard Mercator em 1585. Sua capa trazia a imagem do ser mitológico que
carregava o mundo nas costas. Posteriormente, elabora Cadôr (2016, p. 133), no século
XIX, o nome passou a designar “qualquer dispositivo tabular de conhecimento sistema-
tizado: atlas de astronomia, anatomia, geografia, etnografia”. Gostaria de salientar,
nesta proposição, a polivalência do termo e, também, dos próprios objetos que ele no-
meia. Sem buscar vinculação estrita a nenhum atlas específico, gostaria de potencializar
as remissões possíveis a estes muitos atlas e a suas diferentes implicações às práticas de
conhecimento do mundo.
Em vista do percurso elaborado por esta tese, uma remissão evidente da denominação
Atlas é o projeto inacabado de Aby Warburg (veja 2.3.1 O Atlas Mnemosyne e os veículos
de imagem de Aby Warburg). Escrevendo sobre o Atlas Mnemosyne, Warburg (2015) su-
gere ideias como uma “cosmologia das imagens”, ou como um “inventário das pré-
formações” que diriam de uma “massa de impressões”, que constrangeria os artistas
em seu trabalho de criação (WARBURG, 2015, p. 370). Cadôr (2016) ressalta a importân-
cia do Atlas Mnemosyne no contexto do ensino e pesquisa em história da arte. Ressalta, a
esse respeito, o caráter eminentemente visual do projeto warburguiano e a possibilidade
de constante revisão e reorganização dos registros167. Interessado especificamente na
reincidência da forma Atlas em uma investigação panorâmica sobre livros de artista168,
Cadôr indica ressonâncias do Mnemosyne em projetos desenvolvidos por diferentes ar-
tistas a partir dos anos 1960, como o alemão Gehrard Richter, que elaborou seu próprio
Atlas, composto por cerca de 5.000 imagens. Citando Richter169, escreve Cadôr (2016, p.
136): “A estrutura torna ‘tudo igualmente importante e igualmente desimportante’, de
167 Como consequência disto, inclusive, praticamente todas as pranchas originais e reproduções nelas utilizadas se
perderam na mudança do Instituto Warburg de Hamburgo a Londres, no período de ascensão do nazismo.
168 Em resumo, livros de artista são obras em que o artista explora a forma livro como meio expressivo.
169 RICHTER, Gehrard. Notes. In: FERREIRA, Glória; MELLO, Cecilia Cotrim de. Escritos de artistas: Anos 60/70. Rio
de Janeiro: Jorge Zahar, 2006. p. 113-119.
261
modo que ‘todas as partes se interpenetrem’”. Este ponto, quando trazido de volta a
Warburg, me parece importante. Atlas de imagens como estes operam por meio de jus-
taposições que permitem colocar objetos heterogêneos sobre um mesmo plano e, assim,
compará-los. O Atlas de Richter, em particular, segue um rigor que tende à indiferencia-
ção entre as imagens e seus formatos, todas dispostas em uma mesma grade
homogênea. Certo modo, também o Atlas que proponho segue esta lógica de uniformi-
zação. O de Warburg, de outra maneira, parecia trabalhar conscientemente as distâncias,
os tamanhos e as disposições espaciais. Em todo caso, ambos os Atlas, de Warburg e Ri-
chter, operam por tensões e choques entre as imagens como produtoras de um sentido
relacional. Este é o aspecto que gostaria de trazer dos atlas de imagens.
Um outro sentido de atlas a que somos remetidos são justamente aqueles iniciados por
Mercator: volumes encadernados que portam coleções de mapas. Estes podem ser refe-
rentes a diferentes regiões e territórios, mas nem sempre, pois atlas podem também
dedicar-se a um território específico, trazendo múltiplas representações de uma mesma
região. Mapas podem ser políticos, hidrográficos, demográficos, geomorfológicos etc.
Este seria outro modo de materializar a proposição de Annemarie Mol (1999) de uma
multiplicidade ontológica decorrente das diferentes práticas epistêmicas que, cada qual
a seu modo, performam seus objetos e – de forma literal, neste caso – seus próprios
mundos. Na linha do que discuti acerca das inscrições sociotécnicas, os atlas podem ser
compreendidos como coleções de inscrições que operam, elas próprias, como seus veí-
culos. Assemelham-se aos “centros de cálculo”, sugeridos por Latour (LATOUR;
HERMANDT, 2004) para bibliotecas e coleções, mas condensados em volumes que fun-
cionam como centros de cálculo móveis. Desse modo, atlas seriam artefatos que não
garantiriam consistência a apenas uma inscrição, mas a um conjunto delas, comportan-
do, desse modo, a multiplicidade ontológica de um território em uma rede de referências
circulantes. Quero reter este ponto acerca deste outro sentido, cartográfico, dos atlas.
Haveria, ainda, um terceiro sentido, pelo qual podemos ser remetidos aos atlas científi-
cos. Tipicamente, estes são grandes volumes que portam imagens dos objetos de
determinadas disciplinas científicas para, entre outras finalidades, “treinar o olho” dos
cientistas. Escrevem Daston e Galison (2010, p. 22):
Atlas são compilações sistemáticas de objetos de trabalho. Eles são os dicio-
nários da ciência do olho. Tanto para iniciados quanto para neófitos, o atlas
treina o olho para selecionar certos objetos como exemplares (por exemplo,
262
este fígado saudável “típico” em vez daquele com cirrose) e para observá-los
de um modo específico […]. Os atlas exercitam o olho do iniciante e refrescam
o olho do experiente170.
Sob este sentido, os atlas não são somente coleções de inscrições, até porque não são,
necessariamente, os objetos estudados. Nos sentidos do que discuti acerca do aprendiza-
do de máquina, eles seriam como “bases de treinamento” para observadores humanos.
Suficientemente expostos às diferentes espécies de aves do cerrado, o ornitólogo torna-
se mais apto a identificá-las in loco. Neste caso, portanto, os atlas científicos seriam ma-
terializações da constituição performativa das classes e categorias analíticas. Este é o
ponto que quero reter deste terceiro sentido dos atlas.
O desafio de constituir um atlas para subsidiar uma esforço metodológico como o pro-
posto por esta tese encontra-se, principalmente, no modo de articulação das múltiplas
inscrições produzidas a partir dos dados coletados. Estas deveriam ser combinadas em
um “espaço de pensamento” que consiga, no sentido da composição que tomo de Latour
(2010), articular a percepção de um espaço comum, mas sem homogenizar suas partes.
Especificamente neste estudo de caso, um atlas ideal deveria reunir em um plano co-
mum:
a) Os agrupamentos de imagens tidas como provisoriamente idênticas umas às ou-
tras, “imagens únicas”, representadas por matrizes selecionadas (veja 4.2.1
Identificando imagens “únicas”).
b) Os tuítes que publicaram imagens destes agrupamentos, e seus metadados (veja
4.1.2 Tuítes ).
c) Etiquetas atribuídas pela GVAPI para cada matriz dos agrupamentos de imagens
(veja 4.2.5 API Cloud Vision da Google ).
d) Características extraídas por meio do modelo VGG19 (veja 4.2.4 VGG19 ).
e) Os arquivos de imagem originalmente coletados, individualizados pelas URLs de
sua proveniência, tidos como instâncias dos agrupamentos (veja 4.2.1 Identifican -
do imagens “únicas”).
170 No original: “Atlases are systematic compilations of working objects. They are the dictionaries of the sciences of the
eye. For initiates and neophytes alike, the atlas trains the eye to pick out certain kinds of objects as exemplary (for ex-
ample, this ‘typical’ healthy liver rather than that one with cirrhosis) and to regard them in a certain way […]. The
atlases drill the eye of the beginner and refresh the eye of the old hand”. Tradução minha.
263
Evidentemente, seria possível ampliar esta lista a partir de outros esforços analíticos.
Por exemplo, em artigo publicado durante o doutorado, elaborei com Carlos d’Andréa
um procedimento metodológico voltado para o estudo diacrônico da circulação entre
plataformas de certas imagens, aplicando o módulo Web Detection da GVAPI (D’ANDREA;
MINTZ, 2019). Abordagem similar é aplicada em corte sincrônico por Tarcízio Silva, Pe-
dro Barciela e Pedro Meirelles (2018) com interesse específico em redes de
desinformação eleitoral. Dados como estes podem ser, potencialmente, integrados em
iterações futuras deste atlas171.
Contemplar com igual prioridade estes diferentes aspectos, contudo, constitui uma situ-
ação ideal. Hipoteticamente, um esforço mais extenso e aprofundado permitiria
constituir múltiplos pontos de entrada à navegação que contemplariam de modo mais
adequado as diferentes instanciações das imagens, a fim de proporcionar uma pluralida-
de epistêmica – como sugerem Rieder e Borra (2014) para o DMI-TCAT. Contudo, deixo
esta possibilidade em um horizonte futuro e apresento aqui a constituição prototípica de
um atlas que busca contemplar os itens indicados porém, em alguns casos, parcialmen-
te. Dado o percurso teórico e os interesses iniciais da pesquisa, esta elaboração assume a
opção de tomar os agrupamentos de imagens tidas como imagens únicas como ponto de
entrada da exploração. Estas são inicialmente apresentadas segundo as imagens compos-
tas que foram elaboradas pela planificação dos espaços vetoriais gerados a partir das
classes semânticas e características extraídas das imagens. Considerando, portanto, os
dois modelos de classificação de imagens aplicados nesta investigação – VGG19 e GVAPI
(Figura 24). O Apêndice B apresenta instruções para acesso e navegação do Atlas, anexa-
do à cópia física desta tese.
Tecnicamente, o Atlas é constituído por um conjunto de documentos de hipertexto sim-
ples, em linguagem HTML/CSS e JavaScript. Cada página do Atlas é, assim, um
documento HTML individual e estático, gerado por um script escrito especificamente
para este fim. Embora esta implementação seja menos eficiente sob a perspectiva do ar-
mazenamento, gerando um conjunto volumoso de arquivos (3,1 GB), optou-se por evitar
páginas geradas dinamicamente, por linguagens de execução em servidor, para tornar
mais simples o acesso e armazenamento do conteúdo, inclusive em modo offline. O Atlas
pode ser aberto em qualquer navegador de internet contemporâneo. As linguagens utili-
171 Efetivamente, possuo dados desta circulação para algumas das imagens consideradas neste estudo, mas optei
por não explorar esta frente na tese.
264
zadas são, também, bastante consolidadas, de uso difundido e fácil interpretação huma-
na, o que tende a facilitar esforços de preservação digital e eventuais traduções a outros
sistemas e linguagens.
Esta visualização proporciona a possibilidade de uma navegação espacial e visual pelas
imagens. Evidentemente, a noção de visual, neste caso, encapsula uma visualidade com-
plexa que conjuga nosso olhar a uma visualidade maquínica, constituída pelas redes
neurais e aquilo que identificam como similares. Este “modo de ver”, como discuti (veja
3.2 Aprendizado de máquina ), depende tanto da arquitetura de redes neurais quanto das
imagens e das categorias utilizadas para o treinamento desses modelos. Ou seja, as
máquinas de visão tampouco poderiam ser concebidas como ‘puramente máquinas’,
distanciadas de qualquer olhar humano. Trata-se, de outro modo, de uma visualidade
computacional constituída de forma híbrida e que, nesta interface, oferece-se, nova-
mente, a um atrito com os olhos de um sujeito histórica e socialmente localizado. Caberá
ainda a uma pessoa navegar por tal disposição e encontrar padrões emergentes inter-
pretáveis à luz do caso específico a que as imagens se vinculam. Alguns dos aspectos
pertinentes a cada uma destas visualizações são indicados em subseções precedentes
(veja 4.2 Processamento das imagens ).
265
Como um complemento a esta visualização, um botão no canto direito superior da janela
possibilita sobrepor às imagens uma visualização do tipo “mapa de calor” (heat map)
(Figura 25). Tipicamente, trata-se de um tipo de visualização de dados que indica valo-
res quantitativos como variações cromáticas de células de dados tabulares. Neste caso, o
mapa de calor incide no valor de opacidade de retângulos pretos sobrepostos a cada ima-
gem. O retângulo preto tem sua opacidade definida por um valor entre 0 e 0.5,
inversamente proporcional, em escala logarítmica, à soma dos seguidores das contas
que publicaram instâncias da imagem. Posto de outro modo, o retângulo torna-se tão
mais transparente quanto maior for o público potencial daquela imagem. De modo que,
com a sobreposição destes retângulos, as imagens que tiveram maior público potencial
tornam-se mais visíveis, enquanto as demais tornam-se mas ‘apagadas’. Por meio deste
elemento, pode-se compreender, já na navegação por esta visualização, imagens que
possivelmente seriam mais relevantes a um olhar interessado em medidas quantitativas
de sua circulação.
266
Como um último acréscimo a esta visualização, um segundo botão no canto direito su-
perior (“Linhas de grade”) permite sobrepor ao mapa das imagens uma grade contendo
coordenadas alfanuméricas (Figura 26). Esta camada tem por objetivo facilitar o registro
da localização de imagens ou grupos de imagens específicos, bem como reencontrar
imagens localizadas em outros momentos de navegação. A grade divide o mapa em 17 li-
nhas e 17 colunas de tamanhos iguais, totalizando 289 quadrantes. Cada quadrante
contém 8 linhas e 8 colunas de imagens, totalizando 64 imagens. Outro uso para esta
grade é padronizar coordenadas a fim de permitir a transposição entre diferentes mate-
rializações do próprio mapa, já que ele também pode, potencialmente, ser observado em
forma impressa. As coordenadas estabelecem um plano de consistência que habilita al-
ternar entre diferentes instanciações do mapa.
267
A partir desta visualização, também é possível clicar em uma imagem para navegar à sua
página de detalhamento (Figura 27). Um dos objetivos destas páginas é desempacotar a
identidade presumida de cada imagem entre as diferentes instâncias que a compõem. O
canto esquerdo superior exibe o arquivo matriz que, como detalhado antes (4.2.1 Identi -
ficando imagens “únicas”), é a imagem de maiores dimensões em meio às instâncias
que compõem o agrupamento. Imediatamente à direita, são apresentadas cinco métricas
relativas ao agrupamento: (1) o número de arquivos de imagens (instâncias) agrupados;
(2) o número de tuítes coletados contendo referência a alguma instância deste agrupa-
mento; (3) o número de contas de usuário identificadas como autoras dos tuítes
coletados com referência a instâncias do agrupamento; (4) o número de ‘contas verifica-
das’ pelo Twitter (cf. TWITTER, 2019e) dentre as que publicaram tuítes com referência a
instâncias do agrupamento; (5) a soma absoluta do número de seguidores das contas que
publicaram tuítes com referência a instâncias do agrupamento. À direita destas métri-
268
cas, apresenta-se um gráfico de dispersão em que cada tuíte coletado com referência a
instâncias do agrupamento é representado por um ponto. A posição no eixo X indica data
e hora da publicação do tuíte. Auxiliando a interpretação desta posição, linhas verticais
indicam alguns acontecimentos-chave do período (cf. Gráfico 4). A posição no eixo Y in-
dica o número de seguidores da conta que publicou aquele tuíte, em escala logarítmica.
Em faixa estreita imediatamente inferior a esta seção, sob a matriz do grupo, são indica-
das as coordenadas desta imagem nos dois mapas constituintes do atlas (VGG19 e
GVAPI). À direita, nesta mesma faixa, são indicadas cinco das etiquetas atribuídas à ima-
gem pela GVAPI, junto ao índice de probabilidade, segundo dados da API. Na porção
inferior da página, o lado esquerdo apresenta uma amostra de até dez instâncias consi-
deradas como parte do grupo, limitadas a arquivos de imagem publicados por contas
verificadas ou com mais de 5 mil seguidores. Por fim, o lado direito da porção inferior
apresenta uma amostra de até 100 tuítes coletados contendo referências a instâncias do
agrupamento. Esta amostra é selecionada aleatoriamente, mas apenas tuítes publicados
por contas verificadas e/ou com mais de 5 mil seguidores são apresentadas. As restrições
colocadas aos arquivos de imagem e aos tuítes exibidos individualmente visam atender
aos critérios estipulados como medidas de privacidade dos dados coletados (veja 4.2.2
Medidas de privacidade).
269
Ao reunir, de forma articulada, as múltiplas inscrições geradas a partir dos dados coleta-
dos para este caso, uma das primeiras oportunidades analíticas proporcionadas pelo
Atlas é a possibilidade de compreender aspectos dos métodos de processamento empre-
gados. Um primeiro aspecto, especialmente relevante, diz respeito a algumas
inconsistências eventuais do método de agrupamento das imagens. A Figura 28 exibe um
caso que ilustra o caráter complexo das relações de identidade e diferença performadas
pela técnica empregada no agrupamento (veja 4.2.1 Identificando imagens “únicas” ). O
grupo, em sua maioria, apresenta diferentes instâncias de uma mesma fotografia: o re-
trato de identificação produzido quando da prisão de Lula em 1980. Na amostra das
instâncias exibida na tela, as quatro primeiras imagens são claras variações do mesmo
retrato, variando levemente tonalidades e enquadramentos. Já as duas instâncias locali-
zadas na última linha não são correspondências diretas. A imagem da esquerda, a logo
da TV Record, é um caso claro de agrupamento impertinente, equivocado. Já a imagem à
direita é uma versão bastante modificada das demais imagens, mas que ainda é uma va-
270
riação sobre o retrato. Trata-se de uma ilustração entre várias que foram produzidas no
entorno da prisão e que clamavam “Lula livre” em diferentes idiomas. Neste caso, reco-
nhecemos que seria uma versão já bastante distinta, mas haveria certo sentido em
agrupá-la, a depender do critério que quisermos adotar.
Deve-se compreender, em todo caso, que a inconsistência deriva da natureza probabi-
lística do método de identificação via hashing perceptivo. Dois fatores devem ser levados
em consideração, neste caso. Primeiro, que a técnica se baseia em uma amostragem dos
pixels como forma de otimização do processo de codificação e comparação das imagens.
Segundo, que o objetivo desta técnica não é encontrar arquivos absolutamente idênticos,
mas garantir certo grau de variação para identificar variações de “uma mesma” imagem.
Em função do primeiro fator, a técnica possui uma fragilidade específica que é o trata-
mento de imagens com grandes áreas sem variação cromática – com cor chapada –
como é o caso da logo da TV Record, incluída no exemplo. O fundo branco, sem variação,
aumenta a possibilidade de a imagem ser tida como muito próxima de outra imagem
com esta característica. Possivelmente, sua inclusão no grupo se deveu à recorrência
desta característica na ilustração derivada do retrato.
Como na discussão realizada no capítulo 2 (veja 2.2.3 Multiplicidade ontológica: declina -
ções materiais da imagem), percebe-se com este caso, mais uma vez, como a suposta
indiferenciação do código digital, que se aplicaria a todo tipo de conteúdos e de imagens
de forma indistinta, não se verifica. De modo similar à especialização do algoritmo de
compressão JPEG a certos tipos de imagem, a técnica do hashing perceptivo também
manifesta seu grau de especialização e viés no tratamento das imagens e, portanto, da
elaboração performativa daquilo que compreende como identidade ou como diferença.
Este tipo de problema é particularmente perceptível em alguns grupos de imagens pro-
venientes de impressões de tela ou de desenhos gráficos. Especialmente nesses casos, a
pertinência dos agrupamentos deve ser criticamente considerada para evitar sua consi-
deração inadvertida como imagens únicas (veja Figura 29).
271
A tolerância do método a variações, como indiquei para a Figura 28, contribui, por outro
lado, a uma compreensão flexível da identidade das imagens. Esta flexibilidade permite
considerar como uma imagem as variações produzidas a partir de uma fotografia, bem
como montagens que depositam outras camadas de sentido a estas variações. O agrupa-
mento exibido na Figura 27 também ilustra este aspecto, uma vez que são consideradas
parte do mesmo grupo instâncias com variações pequenas, como variações de tratamen-
to de cor, sobreposição de logo do veículo (BBC Brasil) ou, como na matriz do grupo, com
pequenas montagens fotográficas. Embora se trate, claramente, de outra imagem, con-
siderar tais instâncias conjuntamente permite que elas sejam tomadas como parte de um
mesmo contexto, em que a imagem é colocada no centro de um embate discursivo.
Em outros casos também há imagens que, embora pudessem ser consideradas as mes-
mas, para fins analíticos, acabam por aparecer dispersas em agrupamentos distintos
(Figura 30). Esta dispersão revela outro aspecto das identidades e diferenças performa-
272
das pela técnica do hashing perceptivo, por uma alta sensibilidade a pequenos cortes e
reenquadramentos das figuras, que afetam a consistência da amostragem dos pixels en-
tre as diferentes versões. Isto é: os cortes parecem fazer com que as amostras extraídas
para a identificação ocorram em porções distintas da imagem. Esta dispersão é, em larga
medida, compensada pela disposição das imagens a partir das características extraídas
pelo modelo VGG19 – efetivamente, elas se encontram lado a lado no mapa produzido
por esse método.
Ainda na página de detalhamento, podemos observar as etiquetas atribuídas à imagem
pela GVAPI. Nos exemplos das Figuras 27 e 28, observa-se, por exemplo, uma classifica-
ção que, consistentemente, atém-se à descrição generalista de partes do rosto exibidas
nas imagens – hair (cabelo), facial hair (pelo facial), forehead (testa), person (pessoa). Em
um outro exemplo, trazido na Figura 31, temos uma imagem extraída da série animada
Bob Esponja, com o personagem “Lula Molusco”. Imagens deste programa de televisão
foram consistentemente utilizadas como parte do meme “Lula preso amanhã”, em ante-
cipação da prisão do ex-presidente. O ponto que quero destacar nesse exemplo é a
imprecisão das etiquetas atribuídas pela GVAPI, que não chegam a descrever o que o de-
senho representa, mas apenas: cartoon (cartum ou desenho animado), fictional character
(personagem fictício), illustration (ilustração) e fiction (ficção). Apenas a etiqueta orga-
273
nism (organismo) chega mais próximo de uma descrição do “conteúdo” do desenho,
mas mesmo ela é demasiado genérica. Este caso salienta, portanto, como a classificação
das imagens pelo GVAPI volta-se principalmente a certos tipos de imagem em detri-
mento de outros – fotografias, não desenhos. Este é outro contraexemplo à consideração
por Philippe Dubois (2017), que discuti anteriormente (veja 2.1 A imagem e o digital ), de
que o digital trataria de forma indistinta todo tipo de imagem. Em todo caso, evidente-
mente, estas descrições, por si só, dizem pouco sobre as imagens. Mas a utilização dos
dados da GVAPI como elementos que estabelecem relações entre elas permite um olhar
para o conjunto das imagens, como indicado na seção anterior (veja 4.2 Processamento
das imagens).
O gráfico de dispersão apresentado na página de detalhamento, por sua vez, oferece in-
dícios que permitem compreender a dinâmica de circulação da imagem, complementada
pelo contexto dos tuítes originais, inseridos logo abaixo. A Figura 32 apresenta um caso
em que estes dados são fundamentais para compreender a imagem em análise. A foto-
grafia que deriva no grupo de arquivos considerados é, certamente, o registro mais
conhecido dos acontecimentos que antecederam a prisão e, como divulgado à época (cf.
QUEIROGA, 2018), foi produzida por Francisco Proner Ramos, fotógrafo com então 18
anos, que encontrava-se no prédio do SMABC em função da proximidade entre sua mãe,
Carol Proner, que é professora de direito da UFRJ, e o ex-presidente. A imagem, como
indica o gráfico de dispersão da página de detalhamento (Figura 32) foi publicada inten-
samente no Twitter momentos após o registro, que foi feito ao final do discurso de Lula à
frente do SMABC. A distribuição das publicações ao longo do tempo sugere, também,
“ondas” de republicação ao longo do período coberto pelos dados, com muita intensida-
de nos dois primeiros dias, inclusive entre contas verificadas pelo Twitter. O número de
publicações decai progressivamente ao longo da semana mas tem uma retomada por
volta do dia 16 de abril. A amostra dos tuítes exibe seu compartilhamento em diferentes
idiomas – português, inglês, espanhol, francês e italiano – um aspecto que também se
manifestou em mídias tradicionais. A fotografia ilustrou matérias jornalísticas sobre a
prisão em jornais como o francês Le Monde e o estadunidense The New York Times (cf.
FERNANDES, 2018; QUEIROGA, 2018).
274
Deve-se notar que o agrupamento detalhado na página considerada aqui não é o único
relativo à fotografia, que aparece em diversos outros grupos situados em seu entorno
nos mapas produzidos tanto pelo modelo VGG19 quanto pela GVAPI. A imagem também
foi apropriada em formações meméticas que podem ser encontradas em outras partes
dos mapas. A Figura 33 apresenta dois memes derivados desse registro. À esquerda, a fo-
tografia de Lula carregado pela multidão é aproximada de um plano da série televisiva de
ficção Guerra dos Tronos (Game of Thrones) do canal estadunidense HBO, em que a perso-
nagem Daenerys Targaryen é ovacionada por uma população escravizada que ela havia
recém-libertado. À direita, realizou-se uma montagem que relaciona a fotografia à
apresentação que o procurador responsável pela acusação que levou à condenação de
Lula, Deltan Dallagnol, fez à imprensa. Especificamente, o diagrama sobreposto à ima-
gem é extraído de um que foi utilizado por Dallagnol em coletiva à imprensa sobre a
acusação imputada a Lula e que sofreu críticas por voltar-se mais um efeito retórico do
que à apresentação de evidências.
275
Efetivamente, dada sua ampla circulação, a imagem de Francisco Proner Ramos tornou-
se um registro emblemático do acontecimento a que se volta esse estudo de caso. Uma
análise que se voltasse a questões empíricas específicas do caso deveria, desse modo, lhe
dedicar uma boa parte do esforço de investigação. O interesse de minha discussão, con-
tudo, é mais metodológico e, por isso, não vou me aprofundar muito nas especificidades
do caso. O argumento que quero desenvolver, nesse sentido, é o de que uma breve incur-
são pelas imagens desse acontecimento, em especial esta fotografia, apontam para a
necessidade de desenvolvermos habilidades de navegação pelas imagens e pelos dados
que vão além tanto da consideração detida de uma imagem em isolamento quanto de seu
tratamento agregado em índices estatísticos. De modo importante, o tratamento teórico
que concederíamos à fotografia não poderia se bastar na consideração do instante crítico
de seu registro e parece demandar, de outro modo, que percorramos os meandros de seu
processo de circulação e as relações que vão sendo estabelecidas no caminho. A imagem
é um ator importante desse processo, certamente, mas é importante observar que o per-
curso que a leva do momento do registro até sua impressão em meia página do The New
York Times (cf. QUEIROGA, 2018) passa por uma série de outras mediações – inclusive
por declinações da própria imagem em outras versões, como nos memes apresentados.
Quero sugerir, portanto, que a fotografia precisaria ser compreendida segundo suas de-
276
pendências e segundo a multiplicidade de suas instanciações. Como uma imagem-rede,
portanto, cujo mapeamento ontográfico é apoiado, neste exercício, pela reapropriação
crítica de técnicas de aprendizado de máquina.
Um efeito do aprendizado de máquina que é possivelmente produtivo a um esforço ana-
lítico como o esboçado para este caso são as associações heurísticas que emergem na
superfície do Atlas e que favorecem uma abordagem relacional das imagens. Desdobrar
estas possibilidades em uma análise empírica vai além dos objetivos deste estudo de
caso, em vista das questões perseguidas pela tese. Em todo caso, as Figuras 34 a 39 apre-
sentam detalhes extraídos dos mapas do Atlas que ilustram alguns destes potenciais
caminhos da análise que não chegarei a desenvolver textualmente aqui, mas que acredi-
to serem elucidativos das dinâmicas que sugeri para este caso, ao início do capítulo,
como um iconoclash. Como discuti mais acima, um iconoclash, segundo sugere Latour
(2008), seria uma situação em que o ímpeto de destruir uma imagem de devoção se rea-
liza pela a produção de outra imagem. Trata-se de uma tensão manifesta no caso da
prisão do ex-presidente Lula em que, dada a antecipação do caráter histórico do aconte-
cimento, travou-se uma disputa pelo controle da produção de seus registros. As imagens
que compõem o Atlas oferecem, em alguma medida, testemunhos desse processo. Em
particular, as associações construídas pela disposição das imagens e sua superfície, que-
ro sugerir, auxiliam esforços de descrição das estratégias empregadas durante a
produção e circulação das imagens, por temas reiterados e remissões formais a registros
históricos.
277
278
Evidentemente, esta proposição metodológica não “resolve” as incertezas do estudo de
imagens por métodos computacionais, nem poderia pretender fazê-lo. Sugiro, de outro
279
modo, que ela seria um exercício para compreender de que forma os métodos computa-
cionais e mediações algorítmicas poderiam ser trazidas a contextos de pesquisa em
comunicação e mídia em um plano de convivência com essas incertezas e com as especi-
ficidades desse campo – isto é, sem subsumi-lo a perspectivas quantitativas ou
positivistas. A partir deste ponto, a reapropriação crítica do aprendizado de máquina po-
deria proporcionar outros caminhos de reflexão que não se encontram necessariamente
prescritos pelo tema da computacionalidade mas que, acredito, com ele se relacionam.
Gostaria de salientar dois pontos que emergem a partir dos esforços empreendidos nas
últimas páginas e que, ao que me parece, poderiam orientar análises realizadas por meio
do Atlas.
Primeiro, indico as questões relativas ao tema da circulação, que constitui hoje, muito em
função das plataformas online, um tópico de intensa discussão nos estudos de comuni-
cação. Antônio Fausto Neto (2010, 2018) tem, no contexto brasileiro, dedicado esforços
de sistematização teórica e conceitual sobre esse tema, inclusive destacando como as
mídias digitais ofereceriam um contexto de possível mapeamento empírico da circula-
ção. Laura Guimarães Corrêa (2017) também reflete sobre estas dinâmicas em um estudo
empírico que se aproxima de algumas questões indicadas pelo estudo de caso apresenta-
do neste capítulo, ao se voltar para imagens circuladas na mídia durante o processo de
impeachment da ex-presidenta Dilma Rousseff. Em particular, ela analisa como elas
conformaram figurações misóginas emblemáticas daquele acontecimento. Hito Steyerl
(2009, 2013), em perspectiva bastante distinta, também afirmou em certo momento, a
circulação como um dos aspectos mais salientes do modo de existência das imagens
contemporâneas. Diria que estes diferentes enfrentamentos do tema da circulação pode-
riam ser elaborados empiricamente a partir do Atlas e de protocolos metodológicos
similares.
Segundo, destaco a temática dos memes, que constitui outro tema bastante relevante
para os estudos contemporâneos em comunicação e mídia (cf. CHAGAS et al., 2017;
SHIFMAN, 2013; WIGGINS; BOWERS, 2015). Embora um meme não implique, necessari-
amente, conteúdo visual, já que eles podem ser verbais, por exemplo (SHIFMAN, 2013),
é principalmente nessa forma que eles colocam os maiores desafios metodológicos às
pesquisas. As discussões realizadas por esta investigação contribuem ao enfrentamento
de alguns destes desafios, mas não chega a avançar muito em um nível técnico, acredito,
dada a especialização de modelos de reconhecimento de imagens, como indiquei, para o
280
processamento de imagens fotográficas. Memes visuais são comumente formados pela
justaposição de mais de uma fotografia e por montagens que incluem textos verbais, por
exemplo. Contudo, uma relação importante entre a discussão que elaborei aqui e o tema
dos memes diz respeito ao modo com que eles são também objetos ontologicamente ins-
táveis, melhor descritos como efeitos de dinâmicas associativas complexas. Uma de suas
consequências para a teoria da fotografia, segundo sugere Limor Shifman (2014) em
uma discussão sobre memes fotográficos, seria a relativização de seu vínculo primordial
com um referente, no passado, e a ênfase em sua capacidade de recombinação, no futu-
ro. Este é outro caminho investigativo que seria sugerido a partir do Atlas e das
discussões desta tese, mas que precisaria ser objeto de estudos futuros. Assim como o
Atlas se constitui em um gesto de reapropriação, portanto, também ele poderia ser rea-
propriado em percursos derivados.
5 Considerações finais
Esta investigação assume, de início, uma orientação metodológica. Fundamentalmente,
ela busca articular elementos para o início da constituição de um referencial teórico para
o estudo de imagens por meio de sistemas de aprendizado de máquina por redes neurais.
Em um diálogo contrastante com vertentes que tendem a essencializar os métodos e os
dados computacionais, a perspectiva adotada nesta tese buscou enfatizar o caráter me-
diador dos métodos empregados e as instabilidades e incertezas dos dados que
produzem. Justamente por isso, mais do que questões a serem definitivamente respon-
didas neste momento, quero compreender as perguntas geradoras da investigação como
indagações a serem reiteradas em investigações baseadas nesses métodos. Considero
que elas devem ser parte de uma abordagem autorreflexiva que é, ao final, aquela a que
esta tese visa contribuir.
Enunciado à Introdução, o problema proposto para esta pesquisa interroga-se quanto:
ao que fazemos quando estudamos imagens por métodos computacionais, em especial
pelo aprendizado de máquina; ao modo com que estes métodos transformam e produ-
zem suas imagens; e ao que podemos conhecer das imagens por meio deles.
Evidentemente, qualquer resposta a estas questões deve reconhecer a circunstancialida-
de inerente a cada investigação. Logo, não quero sugerir, aqui, respostas definitivas.
Porém, o percurso elaborado nestas páginas sugere a possibilidade de respostas em al-
guma medida perenes sobre aspectos particulares do aprendizado de máquina em sua
constituição de visualidades computacionais. A este respeito, um ponto salientado na re-
flexão e que gostaria de destacar nestas considerações finais, diz respeito ao modo com
que a operação do aprendizado de máquina transforma ativamente as imagens, em uma
complexificação da multiplicidade ontológica desses objetos. Esta compreensão atraves-
sa o arco argumentativo deste trabalho e ganha corpo, especificamente, com a hipótese
da imagem-rede, uma formulação conceitual que, segundo quero argumentar, ganha
força à medida que incide sobre o tratamento teórico das imagens em diferentes contex-
tos.
Em uma primeira estância dessa elaboração, propus no capítulo 2 (Imagem-rede) uma
revisão do tema da tecnicidade e da materialidade das imagens. O enfoque específico da
281
282
investigação são as imagens digitais, mas procurei também demonstrar como a aparente
“crise” que a digitalidade provocaria sobre a questão talvez devesse ser encarada como o
sintoma de um problema mais arraigado nas teorias das imagens. A noção de imagem-
rede, nesse contexto, sugere uma compreensão mais complexa das mediações técnicas
que participam da produção das imagens, sem subsumi-las por uma individualidade es-
sencializada. A rede, nessa acepção, apoia-se em formulações da Teoria Ator-Rede (TAR),
compreendendo o caráter distribuído da ação e incluindo os objetos técnicos no rol dos
atores considerados (CALLON, 1986; LATOUR, 2001, 2005; LAW, 1999, 2009). A imagem,
sob tal perspectiva, deveria ser compreendida enquanto inscrição sociotécnica, guardando
uma vinculação com os objetos técnicos e os arranjos institucionais que a produzem
(AKRICH, 1992; AKRICH; LATOUR, 1992; LATOUR, 1986, 2001). Mas, enquanto inscrição,
a imagem também pode ser exportada para outros contextos, inclusive por meio de sua
declinação em outras inscrições que, segundo suas características, proporcionariam di-
ferentes gestos de conhecimento, segundo outras chaves interpretativas e outras
operações de justaposição e recombinação de suas manifestações materiais. Em vista
destas diferentes declinações, a imagem seria compreendida, portanto, por uma multi-
plicidade ontológica, o que implica tomá-la não por uma ontologia determinada mas,
sim, como efeito emergente de múltiplos modos de existência (MOL, 1999). A imagem-
rede, neste sentido, busca ressituar o objeto da investigação, que não seria um ponto de-
terminado, mas um ente distribuído que precisaria ser mapeado em um exercício
ontográfico (LYNCH, 2013; MENOTTI, 2019).
Em meio a esta revisão teórica, fundada em uma problemática mais voltada aos Estudos
de Ciência e Tecnologia (STS), uma breve retomada de aspectos do trabalho de Aby War-
burg buscou evidenciar as articulações desta discussão com temas mais diretamente
relacionados às disciplinas que se voltam ao estudo das imagens (LISSOVSKY, 2014; MI-
CHAUD, 2013; WARBURG, 2015). A proposta, nesse sentido, foi realizar uma leitura
interessada do trabalho de Warburg em uma aproximação livre com noções advindas da
TAR e dos STS. Gostaria de destacar três aspectos por reter desta aproximação. Primeiro,
a concepção da imagem como um objeto relacional que emerge nos escritos e nos esfor-
ços metodológicos warburguianos, em especial no seu projeto do Atlas Mnemosyne e na
noção, que discuti apenas tangencialmente, da fórmula de páthos (Pathosformel). Se-
gundo, como seu olhar para a história das imagens enfatizou aspectos de sua
constituição material, tratados como veículos de imagem (Bilderfahrzeuge), que com-
283
preende como fatores condicionantes da constituição de estilos de época e da formação
de temas visuais recorrentes. Terceiro, como o próprio método warburguiano era deve-
dor dos veículos de imagem de seu tempo, uma vez que o projeto inacabado do Atlas
Mnemosyne constituía-se por meio de reproduções fotográficas de imagens que o estu-
dioso e seus colaboradores acumulavam e manipulavam. A retomada do método
warburguiano constitui, assim, uma segunda estância de desenvolvimento conceitual,
em que a noção de imagem-rede vem incidir sobre práticas situadas de investigação que,
a seu próprio modo, produzem, por um lado, outras declinações materiais da imagem; e,
por outro, composições situadas particulares que sugeri abordar pela noção de ontogra-
fia.
No capítulo 3 (Visualidades computacionais), as questões pertinentes a um arco concei-
tual abrangente da imagem-rede voltam a se particularizar. Desta vez, segundo os modos
de processamento computacional da imagem. Assumindo a multiplicidade ontológica
como um princípio metodológico, um primeiro movimento deste capítulo propõe uma
revisão crítica da Analítica Cultural (MANOVICH, 2009, 2012; TIFENTALE; MANOVICH,
2015), indicando como seu tratamento da imagem tende a essencializar uma de suas de-
clinações específicas: como dado computacional. Então, em uma terceira estância de
desenvolvimento do conceito, a noção de imagem-rede sugere dinâmicas relacionais de
constituição das imagens pela operação das técnicas de aprendizado de máquina por re-
des neurais. O processo de treinamento destas máquinas indutivas opera pela
condensação de um grande volume de dados a fim de extrair um modelo que seria capaz
de descrevê-los (BROUSSARD, 2018; CARDON; COINTET; MAZIÈRES, 2018; MACKENZIE,
2017). As imagens são tratadas, em seu domínio, como inscrições sociotécnicas particu-
lares: como vetores que definem as coordenadas de posições relativas em um espaço
vetorial multidimensional. O modelo, portanto, constitui-se por meio de procedimentos
complexos de manipulação destas inscrições, produzidas a partir de milhares ou milhões
de imagens. Tais procedimentos constroem uma espacialidade complexa em que atuam
tanto as características destas imagens quanto aspectos da arquitetura das redes neurais
empregadas. As classes constituídas por esse processo são, deste modo, condensações de
múltiplas instâncias individuais – efeitos emergentes, poderíamos dizer, de uma rede de
imagens. Ao longo das várias camadas e “neurônios” da rede neural, aspectos destas
imagens e das classes a que são vinculadas, também se inscrevem, de forma distribuída,
em características visuais abstratas. Por sua vez, o processo de reconhecimento de uma
284
imagem por meio de um tal modelo articula um novo dado visual às representações con-
densadas das imagens utilizadas no treinamento. A noção de imagem-rede, nesse
contexto, aportaria um tratamento conceitual para a inscrição difusa das imagens ao
longo das redes. Sugeriria uma compreensão complexa, também, para as classes atribuí-
das por um modelo a uma imagem específica, as quais derivam da atribuição, àquela
imagem, de uma posição relativa no espaço vetorial “habitado” pelas máquinas induti-
vas.
Em outro eixo conceitual da tese, a discussão do tratamento computacional das imagens
e das técnicas de aprendizado de máquina, em especial, é articulada à problemática das
visualidades (FOSTER, 1999). A esse respeito, argumentei que o aprendizado de máquina
poderia ser compreendido como instância concreta de operação de uma visualidade com-
putacional contemporânea, na medida em que modelos de reconhecimento de imagens
operariam, simultaneamente, como expressões condensadas da cultura visual online,
considerando sua dependência das bases imagens utilizadas em sua base de treinamen-
to; e, também, sua integração como instâncias de mediação algorítmica da datificação e
da circulação das imagens. Esta implicação se adensa quando considerado o processo de
infraestruturalização (DIJCK; POELL; WAAL, 2018; HELMOND; NIEBORG; VLIST, 2019;
PLANTIN et al., 2016) desses modelos e das bases de treinamento utilizadas para cons-
truí-los. Neste processo, mais do que visualidades particulares, os modelos constituídos
por técnicas de aprendizado de máquina operariam como reiterações de assimetrias so-
ciais (BROUSSARD, 2018; BUOLAMWINI; GEBRU, 2018; SILVA, 2019), materializadas em
uma concentração de recursos técnicos infraestruturais. Este aspecto é salientado como
uma implicação política e epistêmica da utilização de modelos de reconhecimento de
imagem, em um tensionamento da prática de sua reapropriação metodológica.
Esse percurso já permitiria algumas respostas às perguntas geradoras desta investiga-
ção. Ao estudarmos imagens por métodos computacionais, multiplicamos suas
declinações materiais, em inscrições computacionais que atendem a demandas específi-
cas e que, por vezes, se distanciam de nossa experiência das imagens em seus contextos
de produção, circulação e observação. Contudo, estas transformações não são, necessa-
riamente, exógenas a tais contextos. Em muitos casos, em especial no âmbito das
plataformas online, afinal, elas são parte integrante, embora oculta, dos mesmos con-
textos de produção, circulação e observação. É importante se atentar, contudo, a como as
imagens não atravessam incólumes a tais processos, que operam sobre elas por um mo-
285
vimento de translação, deslocando-as a programas de ação particulares, inscritos em sua
forma de mediação. Mais do que uma simples aplicação metodológica, portanto, seria
preciso assumir uma postura reflexiva em um gesto de reapropriação. Por meio dela, as
ambivalências e contradições das mediações técnicas empregadas são tomadas como
parte integrante da investigação. Por fim, ainda em uma remissão às perguntas gerado-
ras da pesquisa, a reapropriação metodológica do aprendizado de máquina nos
permitiria observar as imagens segundo uma visualidade maquínica, articulando, de
forma híbrida, diferentes “modos de ver” que habitam, contemporaneamente, o campo
visual. Desde que, evidentemente, os dados do aprendizado de máquina não sejam to-
mados, em um gesto redutor, como representantes plenos das imagens estudadas mas,
sim, como inscrições que compõem a multiplicidade ontológica de uma imagem-rede.
Como indiquei ao início destas considerações finais, estas respostas não se pretendem
definitivas e, na verdade, elas descrevem mais desafios do que respostas. Em vista deles, o
capítulo 4 (Estudo de caso: imagens de uma prisão) propõe dar maior concretude às dis-
cussões que lhe antecedem, em um exercício metodológico situado. Nesse esforço,
alguns aspectos que não chegaram a ser antecipados pelas discussões precedentes ga-
nham proeminência. Destaco, primeiramente, a complexidade das operações
demandadas como passos preliminares para que fosse possível conceder às imagens
uma primeira condição de existência em meio aos dados coletados do Twitter. Pois, em
larga medida, os procedimentos de coleta e processamento podem ser lidos como esfor-
ços para contornar a constituição verbocêntrica da plataforma e dos métodos de coleta e
análise disponíveis – um sintoma, por assim dizer, da constituição sociotécnica das mí-
dias digitais. Em um segundo aspecto, o estudo também precisou se haver com o
problema da identidade das imagens, dando concretude ao argumento sustentado por
Lynch (2013) acerca de uma simetria entre identidade e diferença. Em um terceiro aspec-
to, o estudo de caso ofereceu uma situação específica para se observar os potenciais da
mobilização de modelos de reconhecimento de imagem baseados em aprendizado de
máquina como recursos metodológicos. Mesmo sem chegar a desenvolver uma análise
aprofundada, o estudo permitiu observar o rendimento desta reapropriação metodológi-
ca como uma mediação que proporciona uma possibilidade de orientação em meio a uma
grande quantidade de imagens. Especificamente, ao agrupar imagens semanticamente
ou formalmente relacionadas, segundo as classes e características inscritas nos modelos
utilizados.
286
De modo a aprofundar tal exercício metodológico, ainda no capítulo 4, a tese se voltou a
uma proposição metodológica específica, denominada Atlas para imagens-redes (veja 4.3
Compondo imagens-redes e Apêndice B ). Confluência das discussões elaboradas ao lon-
go do texto, o Atlas é concebido como uma construção tentativa que busca se haver com
os desafios colocados, pela pesquisa, ao estudo das imagens. O objetivo principal é cons-
tituir uma mediação capaz de proporcionar uma experiência de navegação heurística,
porém evitando operar reduções abruptas dos objetos analisados. Nesse sentido, quero
salientar a compreensão do Atlas como confluência dos diferentes meandros da discussão
desta tese, mas não como um sorvedouro, que viria a forçar a submersão e, portanto, o
obscurecimento, das incertezas do método – deixando apenas objetos definidos, e bem
formados, à superfície. Este é o sentido que busco ao descrevê-lo como um gesto de
composição (LATOUR, 2010). O Atlas viria ao auxílio de um olhar que busca recompor
imagens-redes sem, porém, essencializá-las em individualizações bem definidas.
Trata-se, nesse sentido, do exercício de um abordagem ontográfica, que poderia inspirar
procedimentos metodológicos similares mas que não se encerra como um método fe-
chado e infinitamente replicável – como uma “receita de bolo”.
Embora, por sua denominação, o campo dos Métodos Digitais pareça se endereçar a um
esforço de sistematização de métodos de pesquisa, relativamente estruturados e trans-
poníveis a diferentes contextos de investigação, o modo com que esta proposta se
desenvolve, desde sua formulação por Richard Rogers (2013), apresenta outros contor-
nos. Como discuti ao longo da tese, os Métodos Digitais se caracterizam por uma
abordagem metodológica reflexiva, que se volta simultaneamente ao “mundo” e às me-
diações digitais por meio das quais esse mundo toma forma e se permite conhecer. Devo
admitir, permitindo certo grau de contradição ao argumento que construo neste mo-
mento, que boa parte da pesquisa desenvolvida pelo DMI, e iniciativas associadas, são
conhecidas justamente pela elaboração programática de “receitas de bolo”. Refiro-me,
especialmente, a protocolos de pesquisa replicáveis e ferramentas metodológicas como o
DMI-TCAT (RIEDER; BORRA, 2014), ou o já inoperante Netvizz (RIEDER, 2013), que
apresentam conjuntos “pré-fabricados” de operações de coleta e análise de dados. Po-
rém, quero sustentar que talvez devamos considerar a aplicação meramente operacional
destas ferramentas mais como uma distorção do que uma característica própria ao do-
mínio dos Métodos Digitais. Uma leitura mais detida das investigações realizadas sob o
arco desta denominação, inclusive dos artigos que acompanham algumas destas ferra-
287
mentas, permite ressituá-las como instâncias de materialização de uma reflexão crítica
sobre as técnicas e os métodos empregados (cf. JACOMY et al., 2014; RIEDER et al., 2015;
RIEDER; RÖHLE, 2012, 2017; VAN ES; WIERINGA; SCHÄFER, 2018; VENTURINI; RO-
GERS, 2019). Quero dizer que as ferramentas, bem além de simples operacionalizações
técnicas, são construções intelectuais que condensam esforços reflexivos em um con-
junto de provisões teóricas e metodológicas materializadas como ferramentas.
Inspiro-me nesta compreensão para sugerir, portanto, que embora boa parte dos proto-
colos sistematizados no capítulo 4 possam vir a subsidiar muitas válidas transposições a
outras investigações, não é esse o sentido principal de seu desenvolvimento no âmbito
desta tese. Eles não visam resolver os problemas ou as incertezas que permeiam o estudo
das imagens no contexto das plataformas online. Quero situá-los, principalmente, como
um movimento complementar de reflexão teórica e metodológica, com vistas deslocar as
discussões entre diferentes ordens de concretude. Indiquei ao final do último capítulo
como o Atlas poderia subsidiar estudos derivados. Em particular, segundo os temas da
circulação e da memetização, que colocam questões hoje centrais aos estudos em comu-
nicação e das imagens. Porém, estas articulações não supõem o Atlas como um
instrumento metodológico neutro e, sim, como um operador teórico-metodológico que
se vincularia a tais abordagens em um nível além do operacional. Espero que, desse
modo, este trabalho possa auxiliar a elaboração de novos caminhos para nos havermos
com os desafios colocados, hoje, ao estudo das imagens.
Referências
ABREU, Hortencia Nunes. Estâncias de uma vida póstuma: função memorativa das imagens
na arte contemporânea depois de Aby Warburg. 177 f. Dissertação (Mestrado) - Escola de
Belas Artes, Universidade Federal de Minas Gerais, Belo Horizonte, 2015. Disponível em:
. Acesso em: 29 set. 2019.
ABRIL, Gonzalo. Tres dimensiones del texto y de la cultura visual. IC Revista Científica de
Información y Comunicación, Sevilha, n. 9, 2012.
AGAMBEN, Giorgio. What is a paradigm? 2002. Disponível em:
. Acesso
em: 2 nov. 2013.
AGAMBEN, Giorgio. O que é um dispositivo? In: O que é o contemporâneo? e outros ensaios.
Chapeco: ARGOS, 2009. a. p. 25–51.
AGAMBEN, Giorgio. Aby Warburg e a ciência sem nome. Arte & ensaios, Rio de Janeiro, v.
16, n. 19, p. 132–143, 2009. b.
AKRICH, Madeleine. The de-scription of technical objects. In: BIJKER, Wiebe E.; LAW,
John (Eds.). Shaping technology/building society: studies in sociotechnical change.
Cambridge: MIT Press, 1992. p. 205–224.
AKRICH, Madeleine; LATOUR, Bruno. A summary of a convenient vocabulary for the
semiotics of human and nonhuman assemblies. In: BIJKER, Wiebe E.; LAW, John (Eds.).
Shaping technology/building society: studies in sociotechnical change. Cambridge: MIT
Press, 1992. p. 259–264.
ALBERT, Maximilian et al. Inkscape. v. 0.9.2, 2018.
ALLOA, Emmanuel (Org.). Pensar a Imagem. Trad. Marianna Poyares et al. Belo
Horizonte: Autêntica, 2015.
ALPAYDIN, Ethem. Machine learning: the new AI. Cambridge: MIT Press, 2016.
ALZAMORA, Geane; ZILLER, Joana; D’ANDRÉA, Carlos. Mídia e dispositivo: uma
aproximação. In: LEAL, Bruno; CARVALHO, Carlos Alberto; ALZAMORA, Geane (Orgs.).
Textualidades midiáticas. Belo Horizonte: PPGCOM/UFMG, 2018.
ARÈNES, Alexandra; LATOUR, Bruno; GAILLARDET, Jérôme. Giving depth to the surface:
An exercise in the Gaia-graphy of critical zones. The Anthropocene Review, Thousand
Oaks, v. 5, n. 2, p. 120–135, 2018.
AUMONT, Jacques. A imagem. 7. ed. Campinas: Papirus, 2002.
BARTHES, Roland. A câmara clara: nota sobre a fotografia. Trad. Júlio Castañon
Guimarâes. Rio de Janeiro: Nova Fronteira, 1984.
288
289
BATCHEN, Geoffrey. Enslaved sovereign, observed spectator: On Jonathan Crary,
techniques of the observer. Continuum: journal of media & cultural studies, adington, v. 6,
n. 2, p. 80–94, 1993.
BAUDRY, Jean-Louis. Cinema: efeitos ideológicos produzidos pelo aparelho de base. In:
XAVIER, Ismail (Org.). A experiência do cinema: antologia. São Paulo: Graal, 1983.
BAZIN, André. Ontologia da imagem fotográfica. In: O que é o cinema? Trad. Hugo Mader.
São Paulo: Cosac Naify, 2014. p. 27–34.
BERRY, David M. (Org.). Understanding digital humanities. London: Palgrave Macmillan
UK, 2012.
BIJKER, Wiebe E.; LAW, John (Eds.). Shaping technology/building society: studies in
sociotechnical change. Cambridge: MIT Press, 1992.
BISHOP, Ryan; GANSING, Kristoffer; PARIKKA, Jussi. Across and beyond: post-digital
practices, concepts, and institutions. In: BISHOP, Ryan et al. (Eds.). Across & beyond: a
transmediale reader on post-digital practices, concepts, and institutions. Berlin: Sternberg
Press, 2016. p. 11–23.
BROUSSARD, Meredith. Artificial Unintelligence: How Computers Misunderstand the World.
Cambridge: MIT Press, 2018.
BRUNO, Fernanda. Controle, flagrante e prazer: regimes escópicos e atencionais da
vigilância nas cidades. Revista FAMECOS: mídia, cultura e tecnologia, Porto Alegre, n. 37,
2008. Disponível em:
.
Acesso em: 16 maio. 2018.
BRUNO, Fernanda. Rastros digitais sob a perspectiva da teoria ator-rede. Revista
FAMECOS, Porto Alegre, v. 19, n. 3, p. 681–704, 2012.
BRUNO, Fernanda. Máquinas de ver, modos de ser: vigilância, tecnologia e subjetividade.
Porto Alegre: Sulina, 2013.
BRYANT, Levi; SRNICEK, Nick; HARMAN, Graham (Eds.). The speculative turn: continental
materialism and realism. Melbourne: Re.Press, 2011.
BUCHER, Taina. Objects of intense feeling: the case of the twitter api. Computational
Culture, [s.l.], n. 3, 2013. a. Disponível em: . Acesso em: 13 ago. 2018.
BUCHER, Taina. The friendship assemblage: investigating programmed sociality on
Facebook. Television & New Media, Thousand Oaks, v. 14, n. 6, p. 479–493, 2013. b.
BUCHER, Taina; HELMOND, Anne. The affordances of social media platforms. In:
BURGESS, Jean; MARWICK, Alice; POELL, Thomas (Eds.). The SAGE handbook of social
media. Thousand Oaks: SAGE Publications, 2018. p. 233–253.
BUOLAMWINI, Joy; GEBRU, Timnit. Gender shades: intersectional accuracy disparities
in commercial gender classification. In: CONFERENCE ON FAIRNESS, ACCOUNTABILITY
290
AND TRANSPARENCY. Proceedings of Machine Learning Research 2018. New York:
Association for Computing Machinery, 2018. Disponível em:
. Acesso em: 15 jun. 2019.
CADÔR, Amir Brito. O livro de artista e a enciclopédia visual. Belo Horizonte: Ed. UFMG,
2016.
CALDWELL, Ben et al. Web content accessibility guidelines (WCAG) 2.0. WWW Consortium
(W3C), 00290, 2008. Disponível em: . Acesso em: 4 jul. 2019.
CALLON, Michel. Struggles and negotiations to define what is problematic and what is
not. In: KNORR, Karin D.; KROHN, Roger; WHITLEY, Richard (Eds.). The Social Process of
Scientific Investigation. Dordrecht: Springer Netherlands, 1980. p. 197–219.
CALLON, Michel. Some elements of a sociology of translation: domestication of the
scallops and the fishermen of st brieuc bay. The Sociological Review, Thousand Oaks, v.
32, n. 1 (suppl.), p. 196–233, 1984.
CALLON, Michel. The sociology of an actor-network: the case of the electric vehicle. In:
CALLON, Michel; LAW, John; RIP, Arie (Eds.). Mapping the Dynamics of Science and
Technology: Sociology of Science in the Real World. New York: Palgrave Macmillan, 1986. p.
19–34.
CALLON, Michel; LAW, John; RIP, Arie (Eds.). Mapping the dynamics of science and
technology: sociology of science in the real world. New York: Palgrave Macmillan, 1986. a.
Disponível em: . Acesso em: 20 mar. 2019.
CALLON, Michel; LAW, John; RIP, Arie. Qualitative scientometrics. In: CALLON, Michel;
LAW, John; RIP, Arie (Eds.). Mapping the dynamics of science and technology: sociology of
science in the real world. New York: Palgrave Macmillan, 1986. b. p. 103–123.
CARDON, Dominique; COINTET, Jean-Philippe; MAZIÈRES, Antoine. Neurons spike
back. The invention of inductive machines and the artificial intelligence controversy.
Réseaux, Paris, v. 211, n. 5, p. 173–220, 2018.
CHAGAS, Viktor et al. A política dos memes e os memes da política: proposta
metodológica de análise de conteúdo de memes dos debates eleitorais de 2014. Intexto, v.
0, n. 38, p. 173–196, 2017.
CHOLLET, François. How convolutional neural networks see the world. 2016. Disponível
em: .
Acesso em: 5 set. 2019.
CHOLLET, François et al. Keras. v. 2.2.4, 2018.
CHUN, Wendy Hui Kyong. Control and freedom: power and paranoia in the age of fiber
optics. Cambridge: MIT Press, 2006.
CICALI, Alessandra et al. Femminicidio in Italian media and public debate. Lisboa:
Universidade Nova de Lisboa, 2018. Disponível em:
291
. Acesso em: 8
out. 2019.
COLOMBO, Gabriele. The design of composite images: displaying digital visual content for
social research. 200 f. Tese (doutorado) - Politecnico di Milano, Milão, 2018.
COLOMBO, Gabriele. Studying digital images in groups: the folder of images. In:
RAMPINO, Lucia; MARIANI, Ilaria (Eds.). Advancements in design research: 11 PhD theses
on design as we do in POLIMI. Milão: FrancoAngeli, 2019. p. 185–195.
COMOLLI, Jean-Louis. Sob o risco do real. In: Ver e poder: a inocência perdida: cinema,
televisão, ficção. Belo Horizonte: Ed. UFMG, 2008. p. 169–178.
CORRÊA, Laura Guimarães. O impeachment tem gênero? Circulação de imagens e textos
sobre Dilma Rousseff na imprensa brasileira e britânica. In: CASTRO, Paulo César (Org.).
A circulação discursiva entre produção e reconhecimento. Maceió: Edufal, 2017. p. 279–292.
COUCHOT, Edmond. A tecnologia na arte: da fotografia à realidade virtual. Porto Alegre: Ed.
UFRGS, 2003.
CRAMER, Florian. What is “Post-digital”? In: BERRY, David M.; DIETER, Michael (Eds.).
Postdigital aesthetics. London: Palgrave Macmillan UK, 2015. p. 12–26.
CRARY, Jonathan. Techniques of the observer: on vision and modernity in the nineteenth
century. Cambridge: MIT Press, 1992.
CRAWFORD, Kate; JOLER, Vladan. Anatomy of an AI system. 2017. Disponível em: . Acesso em: 28 set. 2019.
CRAWFORD, Kate; PAGLEN, Trevor. Excavating AI. 2019. Disponível em:
. Acesso em: 30 set. 2019.
CUBITT, Sean. Anecdotal evidence. NECSUS. European Journal of Media Studies,
Amsterdam, v. 2, n. 1, p. 5–18, 2013.
CUBITT, Sean. The practice of light: a genealogy of visual technologies from prints to pixels.
Cambridge: MIT Press, 2014.
CUBITT, Sean. Finite media: environmental implications of digital technologies. Reprint ed.
Durham: Duke University Press, 2017.
D’ANDRÉA, Carlos Frederico de Brito. Cartografando controvérsias com as plataformas
digitais: apontamentos teórico-metodológicos. Galáxia, São Paulo, n. 38, p. 28–39, 2018.
D’ANDREA, Carlos; MINTZ, André. Studying the live cross-platform circulation of
images with computer vision api: an experiment based on a sports media event.
International Journal of Communication, Los Angeles, v. 13, n. 0, p. 21, 2019.
DASTON, Lorraine; GALISON, Peter. Objectivity. Paperback ed. New York: Zone Books,
2010.
292
DAVIS, Antigone; ROSEN, Guy. Open-sourcing photo- and video-matching technology
to make the internet safer. Facebook Newsroom, 2019. Disponível em:
.
Acesso em: 4 ago. 2019.
DELEUZE, Gilles. A imagem-movimento. Trad. Stella Senra. São Paulo: Brasiliense, 1985.
DELEUZE, Gilles. A imagem-tempo. Trad. Eloisa de Araujo Ribeiro. São Paulo: Brasiliense,
1990.
DELEUZE, Gilles. ¿Qué es un dispositivo? In: BARBIER, Tienne et al. (Eds.). Foucalt,
filósofo. Barcelona: Gedisa, 1999. p. 155–163.
DELEUZE, Gilles. Foucault. Trad. Claudia Sant’Anna Martins. Sao Paulo: Brasiliense,
2006.
DENG, Jia et al. Imagenet: A large-scale hierarchical image database. In: IEEE
CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. Proceedings... 2009.
Miami: IEEE, 2009.
DIAGNE, Cyril; BARRADEAU, Nicolas; DOURY, Simon. Curator Table / t-SNE Map. 2018.
Disponível em: . Acesso em: 14 out.
2019.
DIDI-HUBERMAN, Georges. Diante da imagem: questão colocada aos fins de uma história
da arte. Trad. Paulo Neves. São Paulo: Ed. 34, 2013. a.
DIDI-HUBERMAN, Georges. A imagem sobrevivente: história da arte e tempo dos fantasmas
segundo Aby Warburg. Trad. Vera Ribeiro. Rio de Janeiro: Contraponto, 2013. b.
DIDI-HUBERMAN, Georges. Prefácio. In: MICHAUD, Philippe-Alain. Aby Warburg e a
imagem em movimento. Trad. Vera Ribeiro. Rio de Janeiro: Contraponto, 2013. c. p. 17–28.
DIDI-HUBERMAN, Georges. Diante do tempo: história da arte e anacronismo das imagens.
Trad. Vera Casa Nova; Marcia Arbex. Belo Horizonte: Ed. UFMG, 2015.
DIJCK, José Van; POELL, Thomas; WAAL, Martijn De. The platform society: public values in
a connective world. New York: Oxford University Press, 2018.
DOMINGOS, Pedro. A few useful things to know about machine learning.
Communications of the ACM, New York, v. 55, n. 10, p. 78, 2012.
DRAGONA, Daphne. What is left to subvert? Artistic methodologies for a post-digital
world. In: BISHOP, Ryan et al. (Eds.). Across & beyond: a transmediale reader on post-
digital practices, concepts, and institutions. Berlin: Sternberg Press, 2016. p. 184–196.
DRAINVILLE, Raymond A. Algorithmic iconography: Intersections between iconography and
social media image research. 481 f. Tese (doutorado) - Manchester Institute for Research
and Innovation in Art and Design (MIRIAD), Manchester Metropolitan University,
Manchester, 2018. Disponível em: . Acesso em: 7
mar. 2019.
293
DUBOIS, Philippe. Máquinas de imagens: uma questão de linha geral. In: Cinema, vídeo,
Godard. Trad. Mateus Araújo Silva. São Paulo: Cosac Naify, 2004. p. 31–67.
DUBOIS, Philippe. O ato fotográfico e outros ensaios. Trad. Marina Appenzeller. 14. ed.
Campinas, SP: Papirus, 2012.
DUBOIS, Philippe. Da imagem-traço à imagem-ficção: o movimento das teorias da
fotografia de 1980 aos nossos dias. Discursos Fotográficos, Londrina, v. 13, n. 22, p. 31–51,
2017.
EDJO LABS et al. Image-Match. v. 1.1.2, 2018. Disponível em:
. Acesso em: 7 out. 2019.
ELASTICSEARCH B.V. Elasticsearch. v. 2.2.1, 2016. Disponível em:
. Acesso em: 7 out. 2019.
FACEBOOK. Earlier today, some people and businesses experienced trouble uploading or
sending images, videos and other files on our apps and platforms. The issue has since been
resolved and we should be back at 100% for everyone. We’re sorry for any
inconvenience.@facebook, 2019. Disponível em:
. Acesso em: 4 jul. 2019.
FAROCKI, Harun. Phantom images. Public, Toronto, n. 29, 2004. Disponível em:
. Acesso em: 3
jun. 2018.
FAULKNER, Simon; VIS, Farida; D’ORAZIO, Francesco. Analysing social media images.
In: BURGESS, Jean; MARWICK, Alice; POELL, Thomas (Eds.). The SAGE Handbook of Social
Media. Thousand Oaks: SAGE Publications, 2018. p. 160–178.
FAUSTO NETO, Antônio. As bordas da circulação. Alceu. Rio de Janeiro, v. 10, n. 20, p. 55–
69, 2010.
FAUSTO NETO, Antônio. Circulação: trajetos conceituais. Rizoma, v. 6, n. 2, p. 08–40,
2018.
FAWCETT, Trevor. Visual facts and the nineteenth-century art lecture. Art History,
Hoboken, v. 6, n. 4, p. 442–460, 1983.
FERNANDES, Marcos Lúcio. Le Monde critica ausência de “foto emblemática” de Lula
em jornais brasileiros. RFI, [s. l.], 2018. Disponível em: . Acesso em: 14 abr. 2018.
FERREIRA, Pedro P. Reticulações: ação-rede em Latour e Simondon. Revista ECO-Pós, Rio
de Janeiro, v. 20, n. 1, p. 104–135, 2017.
FLORES, Luís Felipe Duarte. Reconhecer a imagem, perseguir a história: crítica da
visibilidade técnica no cinema de Harun Farocki. In: XXV ENCONTRO ANUAL DA
COMPÓS. Anais... 2016. Goiânia: Compós, 2016.
FLUSSER, Vilém. Filosofia da caixa preta: Ensaios para uma futura filosofia da fotografia. Rio
de Janeiro: Relume Dumara, 2002.
294
FOSTER, Hal (Ed.). Vision and Visuality. Seattle: Bay Press, 1999.
FOUCAULT, Michel. Microfísica do poder. Rio de Janeiro: Graal, 1979.
FOUCAULT, Michel. Vigiar e punir. Petrópolis, RJ, Brazil: Vozes, 1997.
FROSH, Paul. Inside the image factory: stock photography and cultural production.
Media, Culture & Society, Thousand Oaks, v. 23, n. 5, p. 625–646, 2001.
FULLER, Matthew (Ed.). Software studies: a lexicon. Cambridge: MIT Press, 2008.
GALISON, Peter. Images scatter into data, data gather into images. In: LATOUR, Bruno;
WEIBEL, Peter (Eds.). Iconoclash: Beyond the Image Wars in Science, Religion and Art.
Cambridge: MIT Press, 2002. p. 300–323.
GALLOWAY, Alexander R. The cybernetic hypothesis. differences, durham, v. 25, n. 1, p.
107–131, 2014.
GEPHI CONSORTIUM. Gephi. v. 0.9.2, 2017. Disponível em:
GIBBS, Martin et al. #Funeral and Instagram: death, social media, and platform
vernacular. Information, Communication & Society, Abingdon, v. 18, n. 3, p. 255–268, 2015.
GILLESPIE, Tarleton. The politics of ‘platforms’. New Media & Society, Thousand Oaks, v.
12, n. 3, p. 347–364, 2010.
GINZBURG, Carlo. De A. Warburg a E. H. Gombrich: notas sobre um problema de método.
In: Mitos, emblemas, sinais: morfologia e história. Trad. Federico Carotti. São Paulo:
Companhia das Letras, 1999. p. 41–94.
GOODFELLOW, Ian et al. Generative adversarial nets. In: ADVANCES IN NEURAL
INFORMATION PROCESSING SYSTEMS. Proceedings... 2014. Montreal: NIPS, 2014.
GOOGLE. Google Cloud Vision API. Mountain View: Google, 2017.
GRAF, Alexander et al. Instaloader. v. 4.2.7, 2018. Disponível em:
GRANDJEAN, Martin; JACOMY, Mathieu. Translating networks: assessing
correspondence between network visualisation and analytics. In: DIGITAL HUMANITIES
CONFERENCE. Proceedings... 2019. Utrecht: Alliance of Digital Humanities Organizations,
2019. Disponível em:
GROHMANN, Rafael. A noção de engajamento: sentidos e armadilhas para a pesquisa em
comunicação. Revista FAMECOS, Porto Alegre, v. 25, n. 3, 2018. Disponível em:
.
Acesso em: 5 set. 2018.
GRUSIN, Richard. Premediation: affect and mediality after 9/11. London: Palgrave
Macmillan UK, 2010.
GRUSIN, Richard (Ed.). The nonhuman turn. Minneapolis: Univ Of Minnesota Press, 2015.
295
GUATTARI, Félix. A paixão das máquinas. Cadernos de Subjetividade, São Paulo, v. 1, n. 1,
p. 39–52, 2003.
GUIMARÃES, César. O novo regime do visível e as imagens digitais. In: VAZ, Paulo
Bernardo; CASA NOVA, Vera (Eds.). Estação imagem: desafios. Belo Horizonte: Ed. UFMG,
2002. p. 147–161.
HARAWAY, Donna J. Manifesto ciborgue: ciência, tecnologia e feminismo-socialista no
final do século XX. In: TADEU, Tomaz (Org.). Antropologia do ciborgue: as vertigens do
pós-humano. 2. ed. Belo Horizonte: Autentica, 2013. p. 35–118.
HARVEY, Adam. MegaPixels. 2019. Disponível em: . Acesso em:
13 jul. 2019.
HEIL, Axel; OHRT, Roberto (Eds.). Aby Warburg Mnemosyne Bilderatlas: reconstruction -
comentary - revision. Karlsruhe: ZKM, 2016.
HELMOND, Anne. The platformization of the web: making web data platform ready.
Social Media + Society, Thousand Oaks, v. 1, n. 2, 2015. Disponível em:
. Acesso em: 23 abr. 2017.
HELMOND, Anne; NIEBORG, David B.; VLIST, Fernando N. Van der. Facebook’s
evolution: development of a platform-as-infrastructure. Internet Histories, v. 3, n. 2, p.
123–146, 2019.
HIGHFIELD, Tim; LEAVER, Tama. Instagrammatics and digital methods: studying visual
social media, from selfies and GIFs to memes and emoji. Communication Research and
Practice, Abingdon, v. 2, n. 1, p. 47–62, 2016.
HOELZL, Ingrid; MARIE, Rémi. Softimage: towards a new theory of the digital image.
Bristol: Intellect, 2015.
HONORATO, Johanna et al. The color of the street: color as images visualization
parameters of twitter pictures from Brazilians Manifestations of 2013. 00002, 2014.
Disponível em:
HONORATO, Johanna Inácia; CARREIRA, Lia Scarton; GOVEIA, Fábio Gomes. Análise de
Big Data pelos Parâmetros de Características Visuais. In: XIX CONGRESSO DE CIÊNCIAS
DA COMUNICAÇÃO NA REGIÃO SUDESTE. Anais... 2014. Vila Velha: INTERCOM, 2014.
Disponível em:
HUHTAMO, Erkki. Illusions in motion: media archaeology of the moving panorama and
related spectacles. Cambridge: MIT Press, 2013.
HUSSAIN, Zaeem et al. Automatic understanding of image and video advertisements. In:
IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. Proceedings...
2017. Honolulu: IEEE, 2017. Disponível em:
. Acesso em: 19 ago. 2019.
296
IVINS, William M. On the rationalization of sight: with the examination of three Renaissance
texts on perspective. New York: Da Capo Press, 1975.
JACOMY, Mathieu et al. Forceatlas2, a continuous graph layout algorithm for handy
network visualization designed for the gephi software. PLoS ONE, San Francisco, v. 9, n.
6, 2014. Disponível em: . Acesso em:
4 out. 2017.
JOO, Jungseock et al. Visual persuasion: inferring communicative intents of images. In:
IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR).
Proceedings... 2014. Columbus: IEEE, 2014. Disponível em:
. Acesso
em: 7 dez. 2018.
JPEG. About JPEG. [s.d.]. Disponível em: . Acesso em: 11 out.
2019.
KARPATHY, Andrej. t-SNE visualization of CNN codes. 2012. Disponível em:
. Acesso em: 14 out. 2019.
KLINGEMANN, Mario. Rasterfairy. [s.l: s.n.]. Disponível em:
. Acesso em: 5 out. 2019.
KLINGER, Evan; STARKWEATHER, David. phash. 2010. Disponível em:
. Acesso em: 11 set. 2019.
KLUVER, Billy. Um dia com Picasso: 29 fotografias de Jean Cocteau. Rio de Janeiro: José
Olympio, 2003.
KOGAN, Gene; MATHEWSON, Kyle. Feature extraction and reverse image search. 2018.
Disponível em:
.
Acesso em: 14 out. 2019.
KOGAN, Gene; OLDFIELD, James. Image t-SNE. 2018. Disponível em:
.
Acesso em: 14 out. 2019.
KRAUSS, Rosalind E. O fotográfico. Barcelona: Gustavo Gili, 2002.
LATOUR, Bruno. Visualization and cognition. Knowledge and society, Greenwich, CT, v. 6,
n. 1, p. 1–40, 1986.
LATOUR, Bruno. Where are the missing masses? The sociology of a few mundane
artifacts. In: BIJKER, Wiebe E.; LAW, John (Eds.). Shaping technology/building society:
studies in sociotechnical change. Cambridge: MIT Press, 1992. p. 225–258.
LATOUR, Bruno. Jamais fomos modernos: ensaio de antropologia simétrica. Trad. Carlos
Irineu Da Costa. Rio de Janeiro: Ed. 34, 1994.
LATOUR, Bruno. On Recalling Ant. The Sociological Review, v. 47, n. 1, p. 15–25, 1999.
297
LATOUR, Bruno. A esperança de pandora: ensaios sobre a realidade dos estudos científicos.
Trad. Gilson César Cardoso De Sousa. Bauru: EDUSC, 2001.
LATOUR, Bruno. Reassembling the social: an introduction to actor-network-theory. Oxford:
Oxford University Press, 2005.
LATOUR, Bruno. O que é iconoclash? Ou, há um mundo além das guerras de imagem?
Horizontes Antropológicos, v. 14, n. 29, p. 111–150, 2008.
LATOUR, Bruno. An attempt at a “compositionist manifesto”. New Literary History, v. 41,
n. 3, p. 471–490, 2010.
LATOUR, Bruno. Networks, societies, spheres: reflections of an actor-network theorist.
International Journal of Communication, Los Angeles, v. 5, n. 0, p. 15, 2011.
LATOUR, Bruno et al. ‘The whole is always smaller than its parts’ – a digital test of
Gabriel Tardes’ monads. The British Journal of Sociology, London, v. 63, n. 4, p. 590–615,
2012.
LATOUR, Bruno. An inquiry into modes of existence: an anthropology of the moderns.
Cambridge: Harvard University Press, 2013.
LATOUR, Bruno (Ed.). Reset modernity! Cambridge: MIT Press, 2016.
LATOUR, Bruno. Facing gaia: eight lectures on the new climatic regime. Trad. Catherine
Porter. Cambridge: Polity, 2017.
LATOUR, Bruno. Down to earth: politics in the new climatic regime. Cambridge: Polity,
2018.
LATOUR, Bruno; HERMANDT, Emille. Redes que a razão desconhece: laboratórios,
bibliotecas, coleções. In: PARENTE, André (Org.). Tramas da rede: novas dimensões
filosóficas, estéticas e políticas da comunicação. Porto Alegre: Sulina, 2004. p. 39–63.
LATOUR, Bruno; LENTON, Timothy M. Extending the domain of freedom, or why gaia is
so hard to understand. Critical Inquiry, Chicago, v. 45, n. 3, p. 659–680, 2019.
LATOUR, Bruno; WEIBEL, Peter (Eds.). Iconoclash: beyond the image wars in science,
religion and art. Cambridge: MIT Press, 2002.
LAUTENSCHLAEGER, Graziele. Entre sensores e sentidos: sobre a materialidade da
comunicação na artemídia. In: MENOTTI, Gabriel; BASTOS, Marcus; MORAN, Patrícia
(Eds.). Cinema Apesar da Imagem. São Paulo: Intermeios, 2016. p. 179–200.
LAVAUD, Laurent. L’image. Paris: Flammarion, 1999.
LAW, John. After ant: complexity, naming and topology: the sociological review, thousand
oaks, 1999. Disponível em: . Acesso em: 7 maio. 2019.
LAW, John. After method: mess in social science research. Abingdon: Routledge, 2004.
298
LAW, John. Actor network theory and material semiotics. In: TURNER, Bryan S. (Ed.).
The new Blackwell companion to social theory. Hoboken: Wiley-Blackwell, 2009. p. 141–
158.
LAW, John. STS as method. In: FELT, Ulrike et al. (Eds.). The handbook of science and
technology studies. 4. ed. Cambridge: MIT Press, 2017. p. 31–57.
LE, Quoc V. et al. Building high-level features using large scale unsupervised learning.
arXiv:1112.6209 [cs], arXiv: 1112.6209, 2012. Disponível em:
. Acesso em: 8 jan. 2015.
LEVIN, Golan. Computer vision for artists and designers: pedagogic tools and techniques
for novice programmers. AI & Society, Pittsburgh, v. 20, n. 4, p. 462–482, 2006.
LEWIS, Sarah. The racial bias built into photography. The New York Times, New York,
2019. Disponível em: . Acesso em: 4 out. 2019.
LIEBERMAN, Zach et al. OpenFrameworks. v. 0.10.1, 2018. Disponível em:
LISSOVSKY, Mauricio. A vida póstuma de Aby Warburg: por que seu pensamento seduz
os pesquisadores contemporâneos da imagem. Boletim do Museu Paraense Emílio Goeldi.
Ciências Humanas, v. 9, n. 2, p. 305–322, 2014.
LOVINK, Geert. Dynamics of critical internet culture: (1994-2001). Amsterdam: Institute of
Network Cultures, 2009.
LUKYANOVA, Olga; MINTZ, André. Deadartist.me: an experiment with networks and
traps. Transfers, New York, v. 8, n. 2, p. 122–128, 2018.
LYNCH, Michael. Ontography: Investigating the production of things, deflating
ontology. Social Studies of Science, Thousand Oaks, v. 43, n. 3, p. 444–462, 2013.
MAATEN, Laurens Van der; HINTON, Geoffrey. Visualizing Data using t-SNE. Journal of
Machine Learning Research, Brookline, v. 9, n. Nov, p. 2579–2605, 2008.
MACHADO, Arlindo. Anamorfoses cronotópicas ou a quarta dimensão da imagem. In:
PARENTE, André (Org.). Imagem-máquina: a era das tecnologias do virtual. 3. ed. Rio de
Janeiro: Ed. 34, 1993. p. 100–116.
MACHADO, Arlindo. Arte e mídia. Rio de Janeiro: Jorge Zahar, 2007.
MACIEL, Jane Cleide de Sousa. Atlas Mnemosyne e saber visual: atualidade de Aby
Warburg diante das imagens, mídias e redes. Ícone, Recife, v. 16, n. 2, p. 191–209, 2018.
MACKENZIE, Adrian. The production of prediction: what does machine learning want?
European Journal of Cultural Studies, Thousand Oaks, v. 18, n. 4–5, p. 429–445, 2015.
MACKENZIE, Adrian. Machine learners: archaeology of a data practice. Cambridge: MIT
Press, 2017.
299
MALINI, Fábio et al. A viralização da revolta em redes sociais: genealogias de
#vemprarua. In: MENDONÇA, Ricardo Fabrino; PEREIRA, Marcus Abílio; FILGUEIRAS,
Fernando (Orgs.). Democracia digital: publicidade, instituições e confronto político. Belo
Horizonte: Ed. UFMG, 2016.
MANOVICH, Lev. The engineering of vision from constructivism to computers. 211 f. Tese
(doutorado) - University of Rochester, [s. l.], 1993. Disponível em:
. Acesso em: 12 set. 2013.
MANOVICH, Lev. Cultural analytics: visualising cultural patterns in the era of “more media”.
2009. Disponível em:
. Acesso em:
30 set. 2017.
MANOVICH, Lev. How to compare one million images? In: BERRY, David M. (Ed.).
Understanding digital humanities. London: Palgrave Macmillan UK, 2012. p. 249–278.
MANOVICH, Lev et al. ImagePlot. v.1.1, 2017. Disponível em:
MANOVICH, Lev. The science of culture? Social computing, digital humanities and
Cultural Analytics. Journal of Cultural Analytics, [s.l.], 2016. Disponível em:
. Acesso em: 18 abr. 2018.
MARRES, Noortje; MOATS, David. Mapping controversies with social media: the case for
symmetry. Social Media + Society, Thousand Oaks, v. 1, n. 2, 2015. Disponível em: . Acesso em: 13 ago. 2018.
MAURI, Michele et al. RAWGraphs: A visualisation platform to create open outputs. In:
12TH BIANNUAL CONFERENCE ON ITALIAN SIGCHI CHAPTER. Proceedings... 2017.
Cagliari, Italy: ACM Press, 2017. Disponível em: . Acesso em: 13 ago. 2018.
MCDONALD, Kyle. How to recognize fake AI-generated images. 2018. Disponível em:
. Acesso em: 19 out. 2019.
MENDONÇA, Carlos Camargos; LEAL, Bruno. Ver a elas: mulheres trans e as dimensões
políticas da cultura visual. In: LEAL, Bruno; CARVALHO, Carlos Alberto; ALZAMORA,
Geane (Orgs.). Textualidades midiáticas. Belo Horizonte: PPGCOM/UFMG, 2018. p. 103–
112.
MENOTTI, Gabriel. Movie circuits: curatorial approaches to cinema technology. Amsterdam:
Amsterdam University Press, 2019.
MICHAUD, Philippe-Alain. Aby Warburg e a imagem em movimento. Trad. Vera Ribeiro.
Rio de Janeiro: Contraponto, 2013.
MINTZ, André. Visão computacional e visualidades contemporâneas: composições do ver e do
visível entre a técnica, a ciência e a arte. 215 f. Dissertação (Mestrado) - Faculdade de
300
Filosofia e Ciências Humanas, Universidade Federal de Minas Gerais, Belo Horizonte,
2015.
MINTZ, André. Máquinas que veem: visão computacional e agenciamentos do visível. In:
MENOTTI, Gabriel; BASTOS, Marcus; MORAN, Patrícia (Orgs.). Cinema Apesar da
Imagem. São Paulo: Intermeios, 2016. p. 157–175.
MINTZ, André. Internet landscapes: infraestrutura e espacialidade da imagem em rede.
In: MENOTTI, Gabriel (Org.). Curadoria, cinema e outros modos de dar a ver. Vitória:
EDUFES, 2018. a. p. 15–30.
MINTZ, André. Memespector Python. [s. v], 2019. Disponível em:
MINTZ, André. Image Network Plotter. [s. v], 2019. Disponível em:
MINTZ, André; SILVA, Tarcízio et al. Interrogating vision APIs. Lisboa: Universidade Nova
de Lisboa, 2019. Disponível em: .
MINTZ, André Goes. Visualidade computacional e fissuras do pós-digital: uma
aproximação às imagens invisíveis de Trevor Paglen. Texto digital, Florianópolis, v. 14, n.
1, p. 75–92, 2018. d.
MITCHELL, W. J. T. Picture theory: essays on verbal and visual representation. Chicago:
University Of Chicago Press, 1995.
MOATS, David; BORRA, Erik. Quali-quantitative methods beyond networks: Studying
information diffusion on Twitter with the Modulation Sequencer. Big Data & Society,
Thousand Oaks, v. 5, n. 1, 2018. Disponível em:
. Acesso em: 21 nov. 2018.
MOL, Annemarie. Ontological politics. A word and some questions. The Sociological
Review, Thousand Oaks, 1999. Disponível em:
. Acesso
em: 7 maio. 2019.
MONDZAIN, Marie-José. A imagem entre proveniência e destinação. In: ALLOA,
Emmanuel (Org.). Pensar a Imagem. Trad. Marianna Poyares et al. Belo Horizonte:
Autêntica, 2015. p. 39–53.
MORDVINTSEV, Alexander; OLAH, Christopher; TYKA, Mike. Inceptionism: Going Deeper
into Neural NetworksGoogle Research Blog, 2015. a. Disponível em:
. Acesso em: 16 out. 2019.
MORDVINTSEV, Alexander; OLAH, Christopher; TYKA, Mike. DeepDream - a code
example for visualizing Neural NetworksGoogle Research Blog, 2015. b. Disponível em:
. Acesso em: 16 out. 2019.
301
MUSSO, Pierre. A filosofia da rede. In: PARENTE, André (Org.). Tramas da rede: novas
dimensões filosóficas, estéticas e políticas da comunicação. Porto Alegre: Sulina, 2004.
NASA. Revealing mars true colors. 2004. Disponível em:
. Acesso em: 8 set.
2019.
NIEBORG, David B.; POELL, Thomas. The platformization of cultural production:
Theorizing the contingent cultural commodity. New Media & Society, Thousand Oaks,
2018. Disponível em: .
Acesso em: 13 ago. 2018.
NIEDERER, Sabine. Networked images: visual methodologies for the digital age.
Amsterdam: Amsterdam University of Applied Sciences, 2018.
NIEDERER, Sabine; COLOMBO, Gabriele. Visual methodologies for networked images:
designing visualizations for collaborative research, cross-platform analysis, and public
participation. Diseña, Santiago, n. 14, p. 40–67, 2019.
OMENA, Janna Joceli; RABELLO, Elaine; MINTZ, André. Visualising hashtag engagement:
imagery of political polarization on Instagram. Amsterdam: Universiteit van Amsterdam,
2017. Disponível em:
.
OMENA, Janna Joceli; RABELLO, Elaine Teixeira; MINTZ, André Goes. Digital methods
for hashtag engagement research. Social Media + Society, Thousand Oaks, no prelo.
O’REILLY, Tim. What Is Web 2.0. 2005. Disponível em:
. Acesso em: 7
abr. 2017.
PAGLEN, Trevor. Operational Images. e-flux Journal, New York, v. 59, 2014. Disponível
em: . Acesso em: 2
jun. 2018.
PAGLEN, Trevor. Invisible images (your pictures are looking at you). The New Inquiry,
2016. Disponível em: . Acesso em: 30 maio. 2018.
PARIKKA, Jussi. A geology of media. Minneapolis: University of Minnesota Press, 2015.
PASQUINELLI, Matteo. The thinking eye (draft). Karlsruhe, , 2017. Disponível em:
. Acesso em: 15 jun.
2019.
PAUL, Christianne. The myth of immateriality: presenting and preserving new media.
In: GRAU, Oliver (Ed.). MediaArtHistories. Cambridge: MIT Press, 2007. p. 251–274.
PAUL, Christianne. Genealogies of the digital: a post-critique. In: ERTAN, Ekmel (Ed.).
Dijital Sonrasi Tarihçeler = Histories of the post-digital. Istambul: Amber platform, 2015. p.
121–130.
302
PEARCE, Warren et al. Visual cross-platform analysis: digital methods to research social
media images. Information, Communication & Society, Abingdon, p. 1–20, 2018.
PLANTIN, Jean-Christophe et al. Infrastructure studies meet platform studies in the age
of Google and Facebook. New Media & Society, Thousand Oaks, 2016. Disponível em:
. Acesso em: 23 abr. 2017.
PUSCHMANN, Cornelius; GAFFNEY, Devin. Data collection on Twitter. In: WELLER,
Katrin et al. (Eds.). Twitter and society. New York: Peter Lang, 2013. p. 55–67.
QUÉAU, Philippe. O tempo do virtual. In: PARENTE, André (Org.). Imagem-máquina: a
era das tecnologias do virtual. 3. ed. Rio de Janeiro: Ed. 34, 1993. p. 91–99.
QUEIROGA, Louise. Jovem se surpreende com repercussão de foto que fez de Lula. O
Globo, Rio de Janeiro, 2018. Disponível em: . Acesso em: 9 abr.
2018.
RAJI, Inioluwa Deborah; BUOLAMWINI, Joy. Actionable auditing: investigating the
impact of publicly naming biased performance results of commercial ai products. In:
CONFERENCE ON ARTIFICIAL INTELLIGENCE, ETHICS AND SOCIETY. Proceedings..
2019. Honolulu: AAAI, 2019.
REFSGAARD, Andreas; TSENG, Francis; KOGAN, Gene. Machine learning for artists (ml4a).
2019. Disponível em: . Acesso em: 29 set. 2019.
RENAUD-ALAIN, Alain. L’image sans gravité: la forme image aux risques de
l’information. La revue d’esthetique, Paris, v. 25, p. 11–22, 1994.
RICCI, Donato et al. Designing Digital Methods to monitor and inform Urban Policy. The
case of Paris and its Urban Nature initiative. In: 3RD INTERNATIONAL CONFERENCE ON
PUBLIC POLICY (ICPP3). Proceedings... 2017. Cingapura: International Public Policy
Association, 2017.
RIEDER, B. What is in PageRank? A historical and conceptual investigation of a recursive
status index. Computational Culture, 00064, v. 2, 2012. Disponível em:
.
Acesso em: 10 jul. 2019.
RIEDER, Bernhard. Studying Facebook via data extraction: the Netvizz application. In:
5TH ANNUAL ACM WEB SCIENCE CONFERENCE. Proceedings... 2013. Paris: ACM, 2013.
Disponível em: . Acesso em: 8 ago. 2017.
RIEDER, Bernhard et al. Data critique and analytical opportunities for very large
Facebook Pages: Lessons learned from exploring “We are all Khaled Said”. Big Data &
Society, v. 2, n. 2, 2015. Disponível em:
. Acesso em: 20 nov. 2018.
RIEDER, Bernhard. Examinando uma técnica algorítmica: o classificador de bayes como
uma leitura interessada da realidade. Parágrafo: Revista Científica de Comunicação Social
da FIAM-FAAM, v. 6, n. 1, p. 123–142, 2018.
303
RIEDER, Bernhard; BORRA, Erik. Programmed method: developing a toolset for
capturing and analyzing tweets. Aslib Journal of Information Management, v. 66, n. 3, p.
262–278, 2014.
RIEDER, Bernhard; DEN TEX, Emille; MINTZ, André. Memespector. [s.l: s.n.]. Disponível
em:
RIEDER, Bernhard; RÖHLE, Theo. Digital methods: five challenges. In: BERRY, David M.
(Ed.). Understanding Digital Humanities. Londres: Palgrave Macmillan UK, 2012. p. 67–84.
RIEDER, Bernhard; RÖHLE, Theo. Digital methods: from challenges to bildung. In:
SCHÄFER, Mirko Tobias; VAN ES, Karin (Eds.). The datafied society: studying culture
through data. Amsterdam: Amsterdam University Press, 2017. p. 109–124.
RIEDER, Bernhard; SIRE, Guillaume. Conflicts of interest and incentives to bias: A
microeconomic critique of Google’s tangled position on the Web. New Media & Society,
Thousand Oaks, v. 16, n. 2, p. 195–211, 2013.
ROBERTS, Lawrence G. Machine perception of three-dimensional solids, 1963. Disponível
em: . Acesso em: 8 jul. 2014.
ROGERS, Richard. Digital methods. Cambridge: MIT Press, 2013.
ROGERS, Richard. O fim do virtual: os métodos digitais. Lumina, Juiz de Fora, v. 10, n. 3,
2016. Disponível em: .
Acesso em: 20 jul. 2019.
ROGERS, Richard. Foundations of digital methods: query design. In: SCHÄFER, Mirko
Tobias; VAN ES, Karin (Eds.). The datafied society: studying culture through data.
Amsterdam: Amsterdam University Press, 2017. p. 75–94.
ROGERS, Richard. Digital methods for cross-platform analysis. In: BURGESS, Jean;
MARWICK, Alice; POELL, Thomas (Eds.). The SAGE handbook of social media. Thousand
Oaks: SAGE Publications, 2018. a. p. 233–253.
ROGERS, Richard. Otherwise engaged: social media from vanity metrics to critical
analytics. International Journal of Communication, Los Angeles, v. 12, p. 23, 2018. b.
ROSE, Gillian. Visual methodologies: an introduction to researching with visual materials. 4.
Kindle ed. Thousand Oaks: SAGE Publications, 2016.
ROSENBLATT, F. The perceptron: A probabilistic model for information storage and
organization in the brain. Psychological Review, Washington, v. 65, n. 6, p. 386–408,
1958.
ROTH, Lorna. Looking at Shirley, the ultimate norm: colour balance, image
technologies, and cognitive equity. Canadian Journal of Communication, Vancouver, v. 34,
n. 1, 2009. Disponível em:
. Acesso em: 7 set.
2019.
304
RUBINSTEIN, Daniel; SLUIS, Katrina. A life more photographic. Photographies,
Abingdon, v. 1, n. 1, p. 9–28, 2008.
RYKOV, Yuri et al. Semantic and geospatial ,mapping of Instagram Images in Saint-
Petersburg. In: AINL FRUCT 2016 CONFERENCE. Proceedings... 2016. Saint Petersburg:
IEEE, 2016. Disponível em: . Acesso em: 14 jan. 2018.
SALGADO, Tiago Barcelos Pereira. A virada não humana na comunicação: contribuições
da teoria ator-rede e da ontologia orientada aos objetos. Revista ECO-Pós, Rio de Janeiro,
v. 21, n. 2, p. 171–191, 2018.
SALGADO, Tiago Barcelos Pereira. Surpreendidos pela ação – mediação pelas Sociologias
Pragmáticas Francesas. Ação Midiática – Estudos em Comunicação, Sociedade e Cultura.,
Curitiba, v. 18, p. 94–115, 2019.
SANTAELLA, Lucia. Do signo. In: A teoria geral dos signos. 3. ed. São Paulo: Iluminuras,
2001. p. 159–186.
SANTAELLA, Lucia; NÖTH, Winfried. Os três paradigmas da imagem. In: Imagem:
cognição, semiótica, mídia. 3. ed. São Paulo: Iluminuras, 2001. p. 159–186.
SCHAEFFER, Jean-Marie. A imagem precária: sobre o dispositivo fotográfico. Campinas:
Papirus, 1996.
SCHWARCZ, Lilia Moritz; STARLING, Heloisa Murgel. Brasil: uma biografia. São Paulo:
Companhia das Letras, 2015.
SEKULA, Allan. The body and the archive. October, Cambridge, v. 39, p. 3–64, 1986.
SHAPIN, Steven; SCHAFFER, Simon. Leviathan and the air-pump: Hobbes, Boyle, and the
experimental life. Reprint ed. Princeton: Princeton University Press, 2011.
SHIFMAN, Limor. Memes in digital culture. Cambridge: MIT Press, 2013.
SHIFMAN, Limor. The cultural logic of photo-based meme genres. Journal of Visual
Culture, Thousand Oaks, v. 13, n. 3, p. 340–358, 2014.
SILVA, Tarcizio. Visão computacional e vieses racializados: branquitude como padrão no
aprendizado de máquina. In: II COPENE - CONGRESSO DE PESQUISADORES/AS
NEGROS/AS DO NORDESTE. Anais... 2019. João Pessoa: COPENE, 2019. Disponível em:
SILVA, Tarcízio; BARCIELA, Pedro; MEIRELLES, Pedro. Mapeando imagens de
desinformação e fake news político-eleitorais com inteligência artificial. In: 3o CONEC:
CONGRESSO NACIONAL DE ESTUDOS COMUNICACIONAIS DA PUC MINAS POÇOS DE
CALDAS - CONVERGÊNCIA E MONITORAMENTO. Anais... 2018. Poços de Caldas: PUC
Minas, 2018. Disponível em:
. Acesso em:
2 jul. 2019.
305
SILVA, Tarcizio; ZANOTTI, Mariana. Evocando cartões postais no Instagram: estudo
automatizado de imagens. In: 41o CONGRESSO BRASILEIRO DE CIÊNCIAS DA
COMUNICAÇÃO. Anais... 2018. Joinville: INTERCOM, 2018.
SIMONDON, Gilbert. El modo de existencia de los objetos técnicos. 2. ed. Buenos Aires:
Prometeo Libros, 2007.
SIMONYAN, Karen; ZISSERMAN, Andrew. Very deep convolutional networks for large-
scale image recognition. arxiv:1409.1556 [cs], 25384 arxiv: 1409.1556, 2014. Disponível
em: . Acesso em: 10 ago. 2019.
SMEULDERS, A. W. M. et al. Content-based image retrieval at the end of the early years.
IEEE Transactions on Pattern Analysis and Machine Intelligence, Piscataway, v. 22, n. 12, p.
1349–1380, 2000.
SONTAG, Susan. Sobre fotografia. Trad. Rubens Figueiredo. São Paulo: Companhia das
Letras, 2004.
STEYERL, Hito. In Defense of the Poor Image. e-flux Journal, New York, v. 10, 2009.
Disponível em: . Acesso em: 24 mar. 2018.
STEYERL, Hito. Too much world: is the internet dead? e-flux Journal, New York, n. 49,
2013. Disponível em: . Acesso em: 16 fev. 2017.
STOCKHAUSEN, T. Von. Die Kulturwissenschaftliche Bibliothek Warburg – Architektur,
Einrichtung und Organisation. Hamburgo: Dölling un Gallitz Verlag, 1992.
SUCHMAN, Lucy. Human-machine reconfigurations: plans and situated actions. Kindle
edition ed. Cambridge ; New York: Cambridge University Press, 2007.
SUWAJANAKORN, Supasorn; SEITZ, Steven M.; KEMELMACHER-SHLIZERMAN, Ira.
Synthesizing Obama: learning lip sync from audio. ACM Transactions on Graphics, New
York, v. 36, n. 4, p. 1–13, 2017.
TELLES, Marcio. Das materialidades às matérias-primas da comunicação: notas para
uma perspectiva teórica geológica. In: XXV ENCONTRO ANUAL DA COMPÓS. Anais...
2016. Goiânia: Compós, 2016.
THE GUARDIAN. Facebook, Instagram and WhatsApp hit by media messaging outage.
The Guardian, London, 2019. Disponível em:
. Acesso em: 4 jul. 2019.
TIFENTALE, Alise. Art of the Masses: From Kodak Brownie to Instagram. Networking
Knowledge: Journal of the MeCCSA Postgraduate Network, [s.l.], v. 8, n. 6, 2015. Disponível
em: . Acesso em: 31
jul. 2019.
306
TIFENTALE, Alise; MANOVICH, Lev. Selfiecity: Exploring photography and self-
fashioning in social media. In: BERRY, David M.; DIETER, Michael (Eds.). Postdigital
Aesthetics. London: Palgrave Macmillan UK, 2015. p. 109–122.
TURING, Alan. Computing machinery and intelligence. In: WARDRIP-FRUIN, Noah;
MONTFORT, Nick (Eds.). The new media reader. Cambridge: MIT Press, 2003. p. 50–64.
TWITTER. POST statuses/filter. 2019a. Disponível em: . Acesso em: 19
jul. 2019.
TWITTER. Como compartilhar e assistir a vídeos no Twitter. 2019b. Disponível em:
. Acesso em: 5 out. 2019.
TWITTER. Tweet objects. 2019c. Disponível em:
. Acesso em: 6 out. 2019.
TWITTER. Getting started with cards. 2019d. Disponível em:
. Acesso em: 24 jul. 2019.
TWITTER. Sobre contas verificadas. 2019e. Disponível em:
. Acesso em: 6 out. 2019.
URICCHIO, William. The algorithmic turn: photosynth, augmented reality and the
changing implications of the image. Visual Studies, Abingdon, v. 26, n. 1, p. 25–35, 2011.
VAN DIJCK, José. The culture of connectivity: a critical history of social media. Oxford:
Oxford University Press, 2013.
VAN DIJCK, Jose. Datafication, dataism and dataveillance: Big Data between scientific
paradigm and ideology. Surveillance & Society, Kingston, v. 12, n. 2, p. 197–208, 2014.
VAN DIJCK, José. In data we trust? The implications of datafication for social monitoring.
MATRIZes, São Paulo, v. 11, n. 1, p. 39, 2017.
VAN ES, Karin; WIERINGA, Maranke; SCHÄFER, Mirko Tobias. Tool Criticism: From
Digital Methods to Digital Methodology. In: 2ND INTERNATIONAL CONFERENCE ON
WEB STUDIES. Proceedings... 2018. New York: ACM, 2018. Disponível em:
. Acesso em: 23 ago. 2019.
VELDEN, Daniel Van der; KRUK, Vinca; METAHAVEN (Eds.). Black transparency: the right
to know in the age of mass surveillance. Berlin: Sternberg Press, 2015.
VENTURINI, Tommaso. Diving in magma: how to explore controversies with actor-
network theory. Public Understanding of Science, Thousand Oaks, v. 19, n. 3, p. 258–273,
2010.
VENTURINI, Tommaso; JACOMY, Mathieu; JENSEN, Pablo. What do we see when we look
at networks. An introduction to visual network analysis and force-directed layouts. SSRN
307
Scholarly Paper. 2019. Disponível em: .
Acesso em: 20 jul. 2019.
VENTURINI, Tommaso; LATOUR, Bruno. The social fabric: Digital traces and quali-
quantitative methods. In: FUTURE EN SEINE 2009. Proceedings... 2010. [s.l: s.n.]
Disponível em: . Acesso em: 31 jul. 2017.
VENTURINI, Tommaso; MUNK, Anders; JACOMY, Mathieu. Ator-rede versus Análise de
Redes versus Redes Digitais: falamos das mesmas redes? Galáxia, n. 38, p. 5–27, 2018.
VENTURINI, Tommaso; ROGERS, Richard. “API-based research” or how can digital
sociology and journalism studies learn from the Facebook and Cambridge Analytica data
breach. Digital Journalism, v. 7, n. 4, p. 532–540, 2019.
VIDAL JUNIOR, Ícaro Ferraz. Invisibilidade, superficialidade e plasticidade: três
hipóteses sobre as câmeras inteligentes. Galáxia, n. 31, p. 156–167, 2016.
VIMIEIRO, Ana Carolina; BARGAS, Janine de Kássia Rocha. A virada computacional nas
pesquisas em comunicação. In: XXVII ENCONTRO ANUAL DA COMPÓS. Anais... 2018. Belo
Horizonte: Compós, 2018. Disponível em:
. Acesso em: 26 ago. 2019.
VINCENT, James. Facebook’s image outage reveals how the company’s AI tags your photos.
2019. Disponível em: . Acesso em: 4 jul. 2019.
VIRILIO, Paul. A imagem virtual mental e instrumental. In: PARENTE, André (Org.).
Imagem-máquina: a era das tecnologias do virtual. Rio de Janeiro: Ed. 34, 1993. p. 127–132.
VIRILIO, Paul. A máquina de visão. Rio de Janeiro: José Olympio, 1994.
VIS, Farida; GORIUNOVA, Olga (Orgs.). The iconic image on social media: a rapid research
response to the death of Aylan Kurdi. Sheffield; Manchester; Londres: Visual Social Media
Lab, 2015. Disponível em: . Acesso em: 24 maio. 2018.
WARBURG, Aby. A renovação da antiguidade pagã: contribuições científico-culturais para a
história do renascimento europeu. Trad. Markus Hediger. Rio de Janeiro: Contraponto,
2013.
WARBURG, Aby. Histórias de fantasma para gente grande: escritos, esboços e conferências.
Trad. Bárbara Lenin Bicudo. São Paulo: Companhia das Letras, 2015.
WATTENBERG, Martin; VIÉGAS, Fernanda; JOHNSON, Ian. How to Use t-SNE
Effectively. Distill, 00149, v. 1, n. 10, 2016. Disponível em:
. Acesso em: 14 out. 2019.
WIENER, Norbert. Cybernetics or control and communication in the animal and the machine.
Kindle ed. Cambridge: MIT Press, 2007.
308
WIGGINS, Bradley E.; BOWERS, G. Bret. Memes as genre: A structurational analysis of
the memescape. New Media & Society, v. 17, n. 11, p. 1886–1906, 2015.
WINNER, Langdon. Artefatos têm política? Analytica. Revista de Filosofia, Rio de Janeiro,
v. 21, n. 2, p. 195–218, 2017.
WU, Shaomei. How blind people interact with visual content on social networking
sitesFacebook Research, 2016. Disponível em: . Acesso em: 8 jul.
2019.
YALE DIGITAL HUMANITIES LAB. Neural neighbors: capturing image similarity. 2017.
Disponível em: . Acesso em: 14 out.
2019.
ZKM. The Mnemosyne Atlas. 2016. Disponível em:
. Acesso em: 29 set. 2019.
APÊNDICES
Apêndice A Termos de busca utilizados na coleta
Tabela 8: Termos de busca e métricas de desempenho de coleta no caso Lula.
Linhas em negrito indicam os 68 termos não redundantes na coleta.
termo inicio da coleta
1 apoiotrf4 2018-01-19 18:51:00 0 0
2 cadeaprova 2018-01-19 18:51:00 86 31
3 cadeiaprolula 2018-01-20 20:06:00 17 0
4 cadeiasemlulaefraude 2018-01-20 20:06:00 724 0
5 carlos eduardo lenz 2018-01-18 22:29:00 29 0
6 carlos eduardo thompson 2018-01-18 22:29:00 46 2
7 carnalula 2018-01-23 10:19:00 958 4
8 clube bahamas 2018-04-07 20:25:00 29 27
9 comlulaempoa 2018-01-19 18:51:00 327 3
10 comlulaemportoalegre 2018-01-20 20:06:00 0 0
11 condenatrf4 2018-01-23 10:19:00 49 0
12 cristiano zanin 2018-01-19 00:53:00 5.022 787
13 dia24comlula 2018-01-21 21:23:00 0 0
14 dilma 2018-04-06 13:54:00 260.337 125.328
15 dona marisa 2018-04-07 00:10:00 13.352 5.620
16 eleiçãosemlulaéfraude 2018-01-19 18:51:00 118 0
17 estamosdeolhotrf4 2018-01-23 10:19:00 0 0
18 eusoulula 2018-04-07 16:09:00 146.005 0
19 francisco proner 2018-04-10 12:25:00 1.254 313
20 gebran neto 2018-01-18 22:29:00 105 24
21 iamlula 2018-04-07 16:09:00 140 0
22 instituto lula 2018-01-18 22:29:00 42.187 83
23 jamaisaprisionarãonossossonhos 2018-04-07 16:11:00 24.168 5.214
24 juiciodelula 2018-01-21 21:23:00 1 0
25 juiz moro 2018-01-24 10:26:00 103.621 38.254
26 julgamento lula 2018-01-18 22:29:00 65.214 16.515
27 julgamentolula 2018-01-23 10:19:00 1.028 6
28 justicaparalula 2018-01-23 10:19:00 0 0
29 justiceforlula 2018-01-23 10:19:00 14 0
30 justiciaporlula 2018-01-23 10:19:00 32 6
31 leandro paulsen 2018-01-18 22:29:00 873 12
32 leo pinheiro oas 2018-01-18 22:32:00 65 35
33 lula 2018-04-05 14:42:00 6.373.472 2.939.256
34 lula cadeia 2018-01-20 20:06:00 239.278 0
35 lula corrupção 2018-04-05 14:39:00 38.496 8
36 lula corrupto 2018-04-05 14:39:00 92.968 6
núm
ocorrências
núm
ocorrências
isoladas
310
311
termo inicio da coleta
37 lula felix fischer 2018-03-06 20:04:00 1.650 0
38 lula habeas corpus 2018-03-01 00:21:00 118.353 21.458
39 lula hc 2018-04-04 21:45:00 99.565 14.013
40 lula jugement 2018-01-21 21:29:00 117 51
41 lula juicio 2018-01-21 21:29:00 22.511 2.491
42 lula ladrão 2018-04-05 14:39:00 46.264 0
43 lula oas 2018-01-24 10:26:00 76.051 1.122
44 lula president 2018-01-24 10:26:00 482.991 5.135
45 lula presidente 2018-01-24 10:26:00 417.758 0
46 lula preso 2018-01-24 10:26:00 966.790 70.320
47 lula prisão 2018-01-24 10:26:00 605.673 23.075
48 lula silva 2018-01-24 10:43:00 339.374 28.848
49 lula stf 2018-03-01 00:21:00 197.949 24.273
50 lula stj 2018-03-06 20:04:00 22.470 609
51 lula trial 2018-01-21 21:29:00 1.374 77
52 lula triplex 2018-01-18 22:29:00 75.136 0
53 lula versuch 2018-01-21 21:29:00 8 2
54 lula2018 2018-01-20 20:06:00 5.491 305
55 lulaadore 2018-04-05 14:26:00 93 10
56 lulacondenado 2018-01-23 10:19:00 887 38
57 lulaforagido 2018-04-06 20:32:00 10.738 0
58 lulainocente 2018-01-21 21:23:00 9.196 384
59 lulalivre 2018-04-04 13:16:00 431.799 61.826
60 lulalivrejá 2018-04-16 12:29:00 156 0
61 lulamandela 2018-01-21 21:23:00 11 1
62 lulanacadeia 2018-01-19 18:41:00 126.985 189
63 lulanacadeiadia24 2018-01-19 18:51:00 5 0
64 lulanacadeiaem2018 2018-01-21 21:22:00 4.019 0
65 lulanacadeiasim 2018-01-21 21:29:00 76 0
66 lulanapapuda 2018-01-23 10:19:00 277 35
67 lulanaprisao 2018-01-23 10:19:00 48.497 1
68 lulanoprimeiroturno 2018-01-23 10:19:00 0 0
69 lulanotrf4 2018-01-23 10:19:00 0 0
70 lulanuncamais 2018-01-19 18:51:00 250 11
71 lulapajaula 2018-01-19 18:41:00 1.935 50
72 lulapelobrasil 2018-04-05 14:42:00 576.295 0
73 lulaprajaula 2018-01-19 18:41:00 71 2
74 lulapreso 2018-01-23 10:19:00 232.200 205
75 lulapresoamanhã 2018-03-21 17:09:00 58.979 0
76 lulapresohoje 2018-04-05 14:07:00 53.829 0
núm
ocorrências
núm
ocorrências
isoladas
312
termo inicio da coleta
77 lulapresopolítico 2018-04-09 12:37:00 2.495 0
78 lulavalealuta 2018-01-23 10:19:00 160.856 15.281
79 marchadosbandidosemportoalegre 2018-01-23 10:19:00 0 0
80 marisa letícia 2018-04-07 00:10:00 15.583 4.796
81 molusco cadeia 2018-01-24 19:50:00 2.300 523
82 molusco julgamento 2018-01-24 19:50:00 126 85
83 molusco preso 2018-01-24 19:50:00 2.650 1.047
84 molusconacadeia 2018-01-24 19:50:00 720 1
85 moluscopresoamanhã 2018-03-21 17:09:00 1 0
86 ocupacuritiba 2018-04-07 16:12:00 31.345 5.699
87 ocupapoa 2018-01-20 20:06:00 20 12
88 ocupaportoalegre 2018-01-20 20:06:00 505 2
89 ocupasaobernardo 2018-04-06 12:01:00 92.792 33.328
90 ocupatrf4 2018-01-19 18:51:00 42 0
91 ocupecuritiba 2018-04-07 16:12:00 4 2
92 pixulecosday 2018-01-20 20:06:00 2 2
93 porto alegre lula 2018-01-18 22:29:00 8.351 80
94 primeiramentelulanacadeia 2018-01-21 21:23:00 0 0
95 prisao lula 2018-01-20 20:06:00 60.156 568
96 prisãodelula 2018-04-06 21:13:00 259 0
97 recurso lula 2018-03-21 17:09:00 40.741 5.701
98 sergio moro 2018-01-24 10:26:00 80.870 27.819
99 somoslula 2018-04-07 16:09:00 1.894 0
100 somoslulas 2018-04-07 16:09:00 19 0
101 somosmilhoesdelulas 2018-01-23 10:19:00 574 0
102 thompson flores lenz 2018-01-18 22:29:00 29 0
103 trf 4 2018-01-18 22:29:00 49.649 1.845
104 trf-4 2018-01-18 22:29:00 22.331 185
105 trf4 2018-01-19 18:44:00 25.280 195
106 trf4cadeaprova 2018-01-19 18:51:00 0 0
107 triplex guaruja 2018-01-18 22:29:00 929 394
108 triplexdoguaruja 2018-01-19 18:51:00 1 0
109 victor laus 2018-01-18 22:29:00 159 6
núm
ocorrências
núm
ocorrências
isoladas
Apêndice B Atlas para Imagens-Redes
O Atlas encontra-se anexado à cópia física desta tese em um DVD. Para iniciar a navega-
ção, basta acessar abrir o arquivo index.html, localizado na raiz do DVD. O arquivo pode
ser aberto em qualquer navegador, mas os testes foram realizados no Mozilla Firefox. O
carregamento do arquivo é lento, pois ele é composto de mais de 18 mil imagens. Por
isto, recomendo que, antes de abrir a página, encerre programas e processos que podem ocu-
par a memória RAM do computador. Uma vez carregada a página, é possível navegar por
meio do rolamento vertical e horizontal.
Utilizando o botão de rolamento vertical de um mouse ou o rolamento vertical com os
dedos em um trackpad, é também possível realizar rolamento horizontal, alternando a
este modo pelo pressionamento da tecla Shift de modo concomitante ao rolamento verti-
cal. Em muitos navegadores, também é possível aumentar ou diminuir a exibição da
página utilizando as teclas Ctrl + (para aproximar) e Ctrl - (para afastar).
Os botões situados no canto direito superior da tela permitem acionar camadas suple-
mentares à visualização. O botão Mapa de calor aciona uma transformação aplicada às
imagens em que elas são escurecidas de forma inversamente proporcional ao público
potencial de sua circulação, estimado pela soma dos números de seguidores das contas
que publicaram estas imagens. O botão Linhas de grade aciona a exibição de uma grade
de coordenadas sobre o mapa, que tem o objetivo de facilitar a localização de imagens ou
conjuntos de imagens entre diferentes representações desta visualização. Quando a op-
ção Linhas de grade estiver acionada, não será possível clicar nas imagens na visualização.
Cada imagem disposta na visualização pode ser clicada. Ao fazê-lo, abre-se uma página
de informações específicas sobre o grupo de imagens que aquela matriz representa. São
indicadas métricas pertinentes àquele conjunto de imagens; as coordenadas daquela
imagem em cada mapa (VGG19 e GVAPI); as etiquetas atribuídas à imagem pelo GVAPI;
uma amostra das instâncias que compõem aquele conjunto; uma amostra de tuítes que
compartilharam alguma das instâncias do conjunto; e um gráfico de dispersão que exibe
a distribuição dos tuítes que compartilharam instâncias do conjunto segundo o tempo e
o número de seguidores da conta que publicou.
313
ANEXO
Anexo A Estrutura do modelo VGG19
Tabela 9: Sumário de camadas da rede neural do modelo VGG19.
Fonte: CHOLLET et al., 2018; SIMONYAN; ZISSERMAN, 2014.
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) (None, 224, 224, 3) 0
_________________________________________________________________
block1_conv1 (Conv2D) (None, 224, 224, 64) 1792
_________________________________________________________________
block1_conv2 (Conv2D) (None, 224, 224, 64) 36928
_________________________________________________________________
block1_pool (MaxPooling2D) (None, 112, 112, 64) 0
_________________________________________________________________
block2_conv1 (Conv2D) (None, 112, 112, 128) 73856
_________________________________________________________________
block2_conv2 (Conv2D) (None, 112, 112, 128) 147584
_________________________________________________________________
block2_pool (MaxPooling2D) (None, 56, 56, 128) 0
_________________________________________________________________
block3_conv1 (Conv2D) (None, 56, 56, 256) 295168
_________________________________________________________________
block3_conv2 (Conv2D) (None, 56, 56, 256) 590080
_________________________________________________________________
block3_conv3 (Conv2D) (None, 56, 56, 256) 590080
_________________________________________________________________
block3_conv4 (Conv2D) (None, 56, 56, 256) 590080
_________________________________________________________________
block3_pool (MaxPooling2D) (None, 28, 28, 256) 0
_________________________________________________________________
block4_conv1 (Conv2D) (None, 28, 28, 512) 1180160
_________________________________________________________________
block4_conv2 (Conv2D) (None, 28, 28, 512) 2359808
_________________________________________________________________
block4_conv3 (Conv2D) (None, 28, 28, 512) 2359808
_________________________________________________________________
block4_conv4 (Conv2D) (None, 28, 28, 512) 2359808
_________________________________________________________________
block4_pool (MaxPooling2D) (None, 14, 14, 512) 0
_________________________________________________________________
block5_conv1 (Conv2D) (None, 14, 14, 512) 2359808
_________________________________________________________________
block5_conv2 (Conv2D) (None, 14, 14, 512) 2359808
_________________________________________________________________
block5_conv3 (Conv2D) (None, 14, 14, 512) 2359808
_________________________________________________________________
315
316
_________________________________________________________________
block5_conv4 (Conv2D) (None, 14, 14, 512) 2359808
_________________________________________________________________
block5_pool (MaxPooling2D) (None, 7, 7, 512) 0
_________________________________________________________________
flatten (Flatten) (None, 25088) 0
_________________________________________________________________
fc1 (Dense) (None, 4096) 102764544
_________________________________________________________________
fc2 (Dense) (None, 4096) 16781312
_________________________________________________________________
predictions (Dense) (None, 1000) 4097000
=================================================================
Total params: 143,667,240
Trainable params: 143,667,240
Non-trainable params: 0