Os cookies de terceiros (“third-party cookie”) estão a morrer e a Google está a tentar criar um substituto.

Ninguém deve lamentar a morte dos cookies como os conhecemos. Durante mais de duas décadas, os cookies de terceiros têm sido o alicerce de uma indústria de vigilância publicitária sombria, decadente e multibilionária na Web; a eliminação gradual dos cookies de rastreamento e outros persistentes identificadores de terceiros está muito atrasada. No entanto, à medida que as fundações sob a indústria da publicidade mudam, os seus maiores jogadores estão determinados a cair de pé.

A Google está a liderar a tarefa de substituir os cookies de terceiros por um novo conjunto de tecnologias para direccionar anúncios na Web. E algumas das suas propostas mostram que não aprendeu as lições certas com a reacção em curso ao modelo de negócio da vigilância. Este texto concentra-se numa dessas propostas, a Federated Learning of Cohorts (FLoC), que é talvez a mais ambiciosa – e potencialmente a mais prejudicial.

A FLoC pretende ser uma nova maneira de conseguir que o browser faça o perfil que os rastreadores de terceiros costumavam fazer: neste caso, resumir a sua actividade recente de navegação num rótulo comportamental e, em seguida, partilhá-lo com sites e anunciantes. A tecnologia evitará os riscos de privacidade dos cookies de terceiros, mas criará novos no processo. Também pode exacerbar muitos dos piores problemas da não-privacidade com anúncios comportamentais, incluindo discriminação e segmentação predatória.

O argumento da Google para os defensores da privacidade é que um mundo com FLoC (e outros elementos da “privacy sandbox“) será melhor do que o mundo que temos hoje, onde corretores de dados e gigantes da tecnologia de anúncios rastreiam e criam perfis com impunidade. Mas esse enquadramento é baseado numa falsa premissa de que temos que escolher entre “antigo rastreamento” e “novo rastreamento”. Não é um ou outro. Em vez de re-inventar a roda do rastreamento, devemos imaginar um mundo melhor sem a miríade de problemas dos anúncios direccionados.

Estamos numa bifurcação na estrada. Atrás de nós está a era dos cookies de terceiros, talvez o maior erro da Web. À nossa frente estão dois futuros possíveis.

Num, os utilizadores decidem quais as informações a compartilhar com cada site com o qual desejam interagir. Ninguém precisa de se preocupar se a sua navegação anterior será prejudicada – ou aproveitada para manipular – da próxima vez que abrirem o browser.

No outro, o comportamento de cada utilizador segue-o de site para site como um rótulo, inescrutável à primeira vista, mas rico em significado para aqueles que sabem. A sua história recente, destilada em poucos bits, é “democratizada” e partilhada com dezenas de actores anónimos que participam no serviço de cada página Web. Os utilizadores começam cada interacção com uma confissão: aqui está o que fiz esta semana, por favor trate-me do mesmo modo.

Os utilizadores e defensores devem rejeitar a FLoC e outras tentativas equivocadas de re-inventar a segmentação comportamental. Imploramos que a Google abandone a FLoC e redireccione os seus esforços para o desenvolvimento de uma Web realmente amigável.

O que é a FLoC?
Em 2019, a Google apresentou a Privacy Sandbox, a sua visão para o futuro da privacidade na Web. No centro do projecto está um conjunto de protocolos sem cookies para satisfazer a miríade de casos de uso que os cookies de terceiros fornecem actualmente aos anunciantes. A Google levou as suas propostas ao W3C, o órgão de criação de normas para a Web, onde foram discutidas principalmente no Web Advertising Business Group, um órgão formado principalmente por fornecedores de tecnologia de publicidade. Nos meses que se seguiram, a Google e outros anunciantes propuseram dezenas de normas técnicas sob o tema pássaros: PIGIN, TURTLEDOVE, SPARROW, SWAN, SPURFOWL, PELICAN, PARROT… a lista continua. A sério. Cada uma das propostas de “pássaro” é concebida para desempenhar uma das funções no ecossistema da publicidade direccionada que actualmente é feito pelos cookies.

https://user-images.githubusercontent.com/64090118/79886212-b29d4200-83f8-11ea-8421-a4ca329d54cf.png

A FLoC foi concebida para ajudar os anunciantes a realizar a segmentação comportamental sem cookies de terceiros. Um navegador com FLoC recolheria informações sobre os hábitos de navegação do seu utilizador e, depois, usaria essas informações para ligar o seu utilizador a um “bando” ou grupo. Os utilizadores com hábitos de navegação semelhantes – para alguma definição de “semelhante” – seriam agrupados no mesmo grupo. O browser de cada utilizador partilhará um ID do bando, indicando a qual grupo pertencem, com sites e anunciantes. De acordo com a proposta, pelo menos alguns milhares de utilizadores devem pertencer a cada bando (embora isso não seja uma garantia).

Se parece denso, pense nisto da seguinte maneira: o seu FLoC ID será como um resumo sucinto da sua actividade recente na Web.

A prova de conceito da Google usou os domínios dos sites que cada utilizador visitou como base para agrupar as pessoas. Depois, usou um algoritmo chamado SimHash para criar os grupos. O SimHash pode ser calculado localmente na máquina de cada utilizador, portanto, não há necessidade de um servidor central para recolher dados comportamentais. No entanto, um administrador central pode desempenhar um papel na aplicação das garantias de privacidade. Para evitar que qualquer bando seja muito pequeno (ou seja, muito identificador), a Google propõe que um actor central possa contar o número de utilizadores atribuídos a cada grupo. Se algum for muito pequeno, eles podem ser combinados com outros semelhantes até que utilizadores suficientes sejam representados em cada um.

Para que a FLoC seja útil aos anunciantes, um grupo do utilizador revelará necessariamente informações sobre o seu comportamento.

De acordo com a proposta, a maioria dos detalhes ainda está por definir. O rascunho da especificação afirma que o ID do grupo de um utilizador estará disponível via Javascript, mas não é claro se haverá alguma restrição sobre quem lhe pode aceder ou se o ID será partilhado de qualquer outra forma. A FLoC pode executar “clustering” com base em URLs ou conteúdos de página em vez de domínios; também pode usar um sistema baseado em aprendizagem federado (como a sigla FLoC indica) para gerar os grupos em vez do SimHash. Também não é claro exactamente quantos possíveis grupos haverá. A experiência da Google usou identificadores de bandos de 8 bits, o que significa que havia apenas 256 grupos possíveis. Na prática, esse número pode ser muito maior; a documentação sugere um ID de bando de 16 bits com 4 caracteres hexadecimais. Quanto mais bandos houver, mais específicos serão; IDs de bando mais longos significam que os anunciantes aprendem mais sobre os interesses de cada utilizador e é mais fácil identificá-los.

Uma coisa que é especificada é a duração. Os bandos FLoC serão recalculados semanalmente, sempre usando dados da navegação da semana anterior. Isso torna as FLoC menos úteis como identificadores de longo prazo, mas também as torna em medidas mais potentes de como os utilizadores se comportam ao longo do tempo.

Novos problemas de privacidade
A FLoC é parte de um pacote destinado a ter anúncios direccionados para um futuro que preserva a privacidade. Mas o design principal envolve a partilha de novas informações com os anunciantes. Sem surpresa, isto também cria novos riscos à privacidade.

Impressão digital
O primeiro problema é a impressão digital (“fingerprinting”). A impressão digital do browser é a prática de reunir muitas informações distintas do browser de um utilizador para criar um identificador único e estável para esse browser. O projecto Cover Your Tracks da EFF demonstra como o processo funciona: em poucas palavras, quanto mais maneiras o seu browser parece ou age de maneira diferente dos outros, mais fácil é essa impressão digital.

Cover Your Tracks

A Google prometeu que a grande maioria dos bandos de FLoC compreenderá milhares de utilizadores cada e, assim, o ID num grupo por si só não o deve diferenciar de alguns milhares de outras pessoas como você. No entanto, isso ainda dá aos impressores digitais uma grande vantagem. Se um rastreador começar com o seu grupo FLoC, ele só precisa de distinguir o seu browser de alguns milhares de outros (em vez de algumas centenas de milhões). Em termos da teoria da informação, os bandos FLoC conterão vários bits de entropia – até 8 bits, no ensaio da prova de conceito da Google. Essas informações são ainda mais potentes, visto que é improvável que sejam correlacionadas com outras informações que o browser expõe. Isso tornará muito mais fácil aos rastreadores criarem uma impressão digital exclusiva para os utilizadores da FLoC.

A Google reconheceu isso como um desafio, mas comprometeu-se a resolvê-lo como parte de um plano mais amplo de “Privacy Budget” para lidar com a impressão digital a longo prazo. Resolver as impressões digitais é um objectivo admirável e a sua proposta é um caminho promissor a ser seguido. Mas, de acordo com a FAQ, esse plano é “uma proposta em estágio inicial e ainda não tem uma implementação de browser”. Entretanto, a Google deve começar a testar a FLoC já este mês. [act.: a empresa confirmou estar a iniciar testes com programadores, a partir de 30 de Março.]

O “fingerprinting” é notoriamente difícil de parar. Browsers como o Safari e o Tor envolveram-se em guerras de anos contra os rastreadores, sacrificando grandes partes dos seus próprios conjuntos de recursos para reduzir as possibilidades de ataques pelas impressões digitais. A mitigação do “fingerprinting” envolve geralmente cortar ou restringir fontes desnecessárias de entropia – que é o que é a FLoC. A Google não deveria criar novos riscos de impressão digital até descobrir como lidar com os existentes.

Exposição de contexto cruzado
O segundo problema é menos facilmente explicável: a tecnologia partilhará novos dados pessoais com rastreadores que já podem identificar os utilizadores. Para que a FLoC seja útil aos anunciantes, o bando de um utilizador necessariamente revelará informações sobre o seu comportamento.

A página Github do projecto aborda isso desde o início:
“Esta API democratiza o acesso a algumas informações sobre o histórico geral de navegação de um indivíduo (e, portanto, interesses gerais) para qualquer site que opte por ela. … Sites que conhecem as PII de uma pessoa (por exemplo, quando as pessoas se ligam usando o seu endereço de e-mail) podem registar e revelar o seu grupo. Isso significa que as informações sobre os interesses de um indivíduo podem eventualmente serem públicas”.

Conforme descrito, os grupos FLoC não devem funcionar como identificadores por si mesmos. No entanto, qualquer empresa capaz de identificar um utilizador de outras maneiras – digamos, oferecendo serviços de “login com o Google” para sites na Internet – será capaz de vincular as informações que obtém da FLoC ao perfil do utilizador.

Duas categorias de informações podem ser expostas desta forma:
1. Informações específicas sobre o histórico de navegação. Os rastreadores podem fazer a engenharia reversa do algoritmo de atribuição de grupo para determinar que qualquer utilizador que pertença a um dado grupo provavelmente ou definitivamente visitou sites específicos.
2. Informações gerais sobre dados demográficos ou interesses. Os observadores podem aprender que, em geral, os membros de um grupo específico provavelmente são um tipo específico de pessoa. Por exemplo, um determinado bando pode representar excessivamente utilizadores jovens, do sexo feminino e negros; outro, eleitores republicanos de meia-idade; um terceiro, jovens LGBTQ+.

Isso significa que cada site que se visita terá uma boa ideia sobre o tipo de pessoa que se é no primeiro contacto, sem ter que fazer o trabalho de o rastrear pela Web. Além disso, como seu grupo FLoC será actualizado com o tempo, os sites que podem identificá-lo de outras maneiras também serão capazes de rastrear como muda a sua navegação. Lembre-se de que um bando FLoC nada mais é, e nada menos, do que um resumo da sua actividade de navegação recente.

Você deve ter o direito de apresentar diferentes aspectos da sua identidade em diferentes contextos. Se visita um site para obter informações médicas, pode confiar nele informações sobre a sua saúde, mas não há razão para que ele precise de saber quais são as suas políticas. Da mesma forma, se visitar um site de retalho, não será necessário saber se leu recentemente sobre o tratamento para a depressão. A FLoC corrói essa separação de contextos e, em vez disso, apresenta o mesmo resumo comportamental para todos com quem se interage.

Além da privacidade
A FLoC foi concebida para evitar uma ameaça muito específica: o tipo de perfil individualizado que é permitido actualmente por identificadores de contexto cruzado. O objectivo da FLoC e de outras propostas é evitar que os rastreadores acedam a informações específicas que eles podem vincular a pessoas específicas. Como mostrámos, a FLoC pode realmente ajudar os rastreadores em muitos contextos. Mas mesmo que a Google seja capaz de iterar no seu design e evitar esses riscos, os danos da publicidade direccionada não se limitam a violações de privacidade. O objectivo central da FLoC está em conflito com outras liberdades civis.

O poder de direccionar é o poder de discriminar. Por definição, os anúncios direccionados permitem que os anunciantes alcancem alguns tipos de pessoas enquanto excluem outros. Um sistema de segmentação pode ser usado para decidir quem pode ver as ofertas de emprego ou empréstimo tão facilmente quanto para anunciar sapatos.

Ao longo dos anos, a máquina da publicidade direccionada tem sido frequentemente usada para fins de exploração, discriminação e dano. A capacidade de segmentar pessoas com base em etnia, religião, sexo, idade ou capacidades permite anúncios discriminatórios de empregos, casas e crédito. A segmentação com base no histórico de crédito – ou características sistematicamente associadas a ele – permite anúncios predatórios para empréstimos com juros altos. A segmentação com base em dados demográficos, localização e filiação política ajuda os fornecedores de desinformação por motivação política e supressão de eleitores. Todos os tipos de direccionamento comportamental aumentam o risco de esquemas convincentes.

Em vez de re-inventar a roda do rastreamento, deve-se imaginar um mundo melhor sem a miríade de problemas dos anúncios direccionados.

Google, Facebook e muitas outras plataformas de anúncios já tentam controlar certos usos das suas plataformas de segmentação. A Google, por exemplo, limita a capacidade dos anunciantes para segmentar pessoas em “categorias de interesses sensíveis“. No entanto, esses esforços são frequentemente insuficientes; determinados actores podem geralmente encontrar soluções alternativas para as restrições de toda a plataforma em certos tipos de segmentação ou em certos tipos de anúncios.

Mesmo com um poder absoluto sobre quais as informações que podem ser usadas para atingir quem, as plataformas muitas vezes são incapazes de evitar o abuso da sua tecnologia. Mas a FLoC usará um algoritmo não supervisionado para criar os seus “clusters”. Isso significa que ninguém terá controlo directo sobre como as pessoas são agrupadas. Idealmente (para anunciantes), a FLoC criará grupos que têm comportamentos significativos e interesses em comum. Mas o comportamento online está vinculado a todos os tipos de características sensíveis – dados demográficos como género, etnia, idade e rendimentos; os “big 5” traços de personalidade; até mesmo a saúde mental. É altamente provável que a FLoC também agrupe utilizadores ao longo de alguns desses eixos. Os agrupamentos FLoC também podem reflectir directamente as visitas a sites relacionados com o abuso de substâncias, dificuldades financeiras ou suporte para sobreviventes de traumas.

A Google propôs que pode monitorizar os resultados do sistema para verificar se há correlações com as suas categorias sensíveis. Se descobrir que um determinado bando está muito relacionado com um determinado grupo protegido, o servidor administrativo pode escolher novos parâmetros para o algoritmo e dizer aos navegadores dos utilizadores para se agruparem novamente.

Esta solução soa tanto a orwelliana quanto sisifeana. Para monitorizar como os grupos FLoC se correlacionam com categorias sensíveis, a Google precisará de realizar auditorias massivas usando dados sobre raça, sexo, religião, idade, saúde e situação financeira dos utilizadores. Sempre que encontrar um bando que se correlaciona muito fortemente ao longo de qualquer um desses eixos, ela terá que reconfigurar todo o algoritmo e tentar novamente, esperando que nenhuma outra “categoria sensível” esteja implicada na nova versão. Esta é uma versão muito mais difícil do problema que já está a tentar resolver e, frequentemente, a falhar.

Num mundo com uma FLoC, pode ser mais difícil direccionar os utilizadores directamente com base na idade, sexo ou rendimento. Mas não será impossível. Rastreadores com acesso a informações auxiliares sobre os utilizadores serão capazes de aprender o que os agrupamentos FLoC “significam” – que tipo de pessoa eles contêm – por meio de observação e experimentação. Aqueles que estão determinados a fazer isso ainda serão capazes de discriminar. Além disso, esse tipo de comportamento será mais difícil para as plataformas policiarem do que já é. Anunciantes com más intenções terão uma negação plausível – afinal, não estão a procurar atingir directamente categorias protegidas, estão apenas a alcançar as pessoas com base em comportamentos. E todo o sistema será mais opaco para utilizadores e reguladores.

Google, por favor, não faça isso
Escrevemos sobre a FLoC e o outro lote inicial de propostas quando foi apresentado pela primeira vez, chamando a FLoC de “o oposto da tecnologia de preservação da privacidade”. Esperávamos que o processo de normas esclarecesse as falhas fundamentais da FLoC, fazendo com que a Google reconsiderasse em avançar com ela. Na verdade, vários problemas na página oficial do Github levantam exactamente as mesmas preocupações que aqui destacamos. No entanto, a Google continuou a desenvolver o sistema, deixando o fundamental quase inalterado. Ela começou a apresentar a FLoC aos anunciantes, elogiando-se de que a FLoC é um substituto “95% eficaz” para a segmentação baseada em cookies. E a partir do Chrome 89, lançado a 2 de Março, ela está a usar a tecnologia para um período de teste. Uma pequena parte dos utilizadores do Chrome – provavelmente milhões de pessoas – será (ou foi) designada para testar a nova tecnologia.

Não se iluda. Se a Google cumprir o seu plano de implementar a FLoC no Chrome, provavelmente dará “opções” a todos os envolvidos. O sistema provavelmente será “opt-in” para os anunciantes que vão beneficiar dele e “opt-out” para os utilizadores que podem ser prejudicados. A Google certamente irá apresentar isso como um passo em frente para a “transparência e controlo do utilizador”, sabendo muito bem que a grande maioria dos seus utilizadores não entenderá como a FLoC funciona e poucos farão o possível para a desligar. Ela irá auto-congratular-se por inaugurar uma era nova, privada, na Web, livre do maléfico cookie de terceiros – a tecnologia que a Google ajudou a disseminar bem para lá da sua vida útil, ganhando milhões de dólares no processo.

Não tem que ser assim. As partes mais importantes da “sandbox” de privacidade, como descartar identificadores de terceiros e lutar contra o “fingerprinting”, mudarão genuinamente a Web para melhor. A Google pode optar por desmontar o antigo andaime para a vigilância sem o substituir por algo novo e exclusivamente prejudicial.

Rejeitamos enfaticamente o futuro da FLoC. Esse não é o mundo que queremos, nem o que os utilizadores merecem. A Google precisa de aprender as lições correctas da era do rastreamento terceirizado e conceber o seu browser para funcionar para os utilizadores, não para os anunciantes.

Nota: contactámos a Google para verificar alguns factos apresentados neste texto, bem como para solicitar mais informações sobre o próximo Origin Trial. Não recebemos uma resposta até ao momento de publicação.

[Act.: segundo o Wall Street Journal, “a Google planeia parar de vender anúncios com base na navegação de indivíduos em vários sites, uma mudança que pode acelerar uma revolução na indústria de publicidade digital. [A empresa] planeia no próximo ano parar de usar ou investir em tecnologias de rastreamento que identificam exclusivamente os utilizadores da Web conforme eles passam de um site para outro”.

act.1: How to fight back against Google FLoC]

* Texto de Bennett Cyphers, publicado pela Electronic Frontier Foundation. Imagens: EFF. Reprodução sob licença CC. Foto: Markus Spiske/Unsplash