Quando o anónimo não é realmente anónimo?

Enquanto o COVID-19 se espalha pelos EUA, o governo está a conversar com as empresas de tecnologia, incluindo a Google e o Facebook, sobre a possibilidade de usar dados de localização dos telemóveis dos americanos para rastrear a propagação do coronavírus, revelou o Washington Post.

As autoridades de saúde pública estão a investigar se os dados podem ajudá-los a entender como o vírus está a espalhar-se, quais os hospitais sobrecarregados e se os americanos estão a praticar um distanciamento social apropriado, segundo a notícia.

Se o plano entrar em vigor, disseram as autoridades, o conjunto de dados seria anonimizado com a remoção de informações de identificação pessoal, como nomes e localizações individuais. Protecções semelhantes protegem outros conjuntos de dados, como resultados dos censos e registos médicos e escolares. Eles são também usados para proteger as informações recolhidas pelas empresas, como históricos de navegação ou preferências de filmes.

Conjuntos de dados anonimizados podem ter importantes aplicações. Os bancos podem usar “Big Data” para treinar algoritmos a identificar actividades fraudulentas, por exemplo, ou cientistas sociais podem usar dados dos censos para medirem resultados de saúde em áreas geográficas específicas ou entre grupos sócio-económicos.

Mas o anonimato não é suficiente para garantir a privacidade. Décadas de investigação mostram que grandes conjuntos de dados geralmente podem ser desanonimizados e usados para revelar informações confidenciais sobre pessoas individuais.

O que mostram as investigações?
Em 1996, William Weld, então governador de Massachusetts, entrou em colapso ao receber um diploma honorário na Bentley University, perto de Boston. Weld foi levado para o hospital, onde, como qualquer outro paciente, a equipa do hospital criou registos médicos que detalhavam o tipo de atendimento que ele recebeu, quais os exames realizados, o seu diagnóstico e prescrição. Esses registos eram particulares – pelo menos deviam ser.

Na altura, funcionários do estado em Massachusetts, incluindo Weld, obtiveram um seguro de saúde através do Group Insurance Commission (GIC), que decidiu vender esses registos a investigadores. O GIC removeu identificadores como nomes de pacientes e números de Segurança Social para permitir que os investigadores pudessem beneficiar desses dados.

Mas Latanya Sweeney, então estudante de pós-graduação em ciência da computação no MIT, descobriu que os dados não eram realmente tão privados. Sweeney comprou registos de eleitores, que incluem nomes, sexo, data de nascimento e código postal, por 20 dólares. Quando comparou os registos de eleitor com os de saúde, encontrou seis possíveis registos de pacientes que poderiam ser de Weld.

Sweeney expôs uma falha fundamental nos dados anónimos: não se é realmente anónimo. Mesmo quando se removem identificadores directos como nome, endereço ou número da Segurança Social de alguém, quando se combinam as informações de um conjunto de dados com as de outro, podem-se encontrar pessoas e aprender muito sobre elas.

Sweeney descobriu que 87% da população dos EUA poderia ser identificada por apenas três dados: código postal, data de nascimento e sexo.

As fragilidades da anonimização foram evidenciadas repetidamente. Em 2006, investigadores da Universidade do Texas foram capazes de re-identificar os críticos a partir de um conjunto de dados divulgado pela Netflix com 500 mil classificações anónimas de filmes usando informações da IMDb.com.

Em 2013, investigadores na Europa estudaram os dados de localização de 1,5 milhões de pessoas e descobriram que os dados eram tão específicos dos hábitos individuais que podiam identificar 95% das pessoas com apenas quatro dados de localização.

Mas, apesar dos avisos dos académicos, pouco foi feito para garantir a privacidade dos dados ou proteger contra a desanonimização. De qualquer forma, o problema só piorou desde a primeira experimentação de Sweeney em 1996.

Como os dados são desanonimizados?
A desanonimização acontece quando uma pessoa reúne vários conjuntos de dados e começa a juntar informações. Como uma pista de migalhas de pão, cada nova informação faz o investigador avançar no caminho até que o utilizador anónimo seja identificado.

A descoberta de William Weld por Sweeney usou tecnologia pouco sofisticada. Ela juntou dois conjuntos de dados com colunas semelhantes, da mesma forma que se pode fazer no Excel. Não há muita computação sofisticada necessária para fazer isso, mas os resultados podem ser surpreendentes. Em 2013, Sweeney gastou 50 dólares na compra de dados de saúde de pacientes do estado de Washington e comparou esses registos com notícias que incluíam a palavra “hospitalizado”. Esses dois conjuntos de dados permitiram identificar 43% dos pacientes.

Outros tipos de esforços de re-identificação são mais complicados. No exemplo da Netflix, os investigadores criaram pontuações de similaridade para cada dado. Se os pontos em dois conjuntos de dados tivessem uma pontuação alta o suficiente, os investigadores considerariam ser uma correspondência. Esse sistema identificou 80% dos utilizadores do Netflix no conjunto de dados. Quanto mais conjuntos de dados se tiver, mais se poderá refinar essa pontuação até ter quase a certeza de que se identificou uma pessoa específica, diz Nitin Kohli, estudante de graduação da UC Berkeley, que estuda privacidade e segurança de dados. Kohli descreve isso como um “efeito de bola de neve”. Quanto mais conjuntos de dados se puder acumular, mais se poderá aprender sobre alguém.

Quais os danos?
Os dados de saúde desanonimizados podem ser usados ​​pelas seguradoras para discriminar os pacientes. Os dados anónimos de navegação na Web foram combinados com informações publicamente disponíveis no Twitter para identificar quem fez que pesquisas. Os dados de localização podem ser usados ​​para rastrear os movimentos das pessoas, monitorizar onde eles oram, quem vêem ou se estão envolvidos em grupos políticos.

No seu artigo sobre desanonimização, “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization“, escreve Paul Ohm: “os dados podem ser úteis ou perfeitamente anónimos, mas nunca os dois”. Ohm, que também é membro do conselho de directores da The Markup, salienta que identificar utilizadores da Netflix pode não ser intrinsecamente perigoso, mas todos os dados identificados são algo mais perigoso: “os nossos inimigos acharão mais fácil ligar-nos a factos que eles podem usar para chantagear, assediar, difamar, enquadrar ou discriminar contra nós”.

O que podemos fazer sobre isso?
A desanonimização é possível devido a como todos os nossos dados estão ligados. Quando uma família instala uma campainha com uma câmara, ela permite que os dados sejam recolhidos pelos seus vizinhos e amigos. Se coloca o DNA numa base de dados genéticos, isso terá implicações para toda a família. Mesmo que os pais ou irmãos nunca tenham optado por essa base de dados, as informações deles ainda estarão expostas.

Mas o problema é muito maior do que qualquer escolha individual que os utilizadores possam fazer. Não é razoável esperar que as pessoas parem de usar mecanismos de pesquisas, cartões de crédito ou telemóveis.

Os investigadores de privacidade argumentam que precisamos de protecções estruturais.

Uma opção que está a ser actualmente testada pelo Census Bureau é a chamada privacidade diferencial. Há sempre aleatoriedade numa amostragem estatística. Os investigadores, por exemplo, não podem entrevistar todos os eleitores. Em vez disso, eles escolhem uma amostra representativa do eleitorado e extrapolam das suas respostas o que as pessoas do resto do país pensam. Eles controlam essa aleatoriedade incluindo uma taxa de erro padrão nos seus cálculos.

A privacidade diferencial protege os indivíduos no conjunto de dados, introduzindo intencionalmente aleatoriedade matemática, também chamada de ruído, no conjunto de dados. A quantidade de ruído pode ser partilhada publicamente, como uma taxa de erro, mas ninguém pode saber quais estatísticas são ruído e quais são de pessoas reais. Essa solução dá aos investigadores acesso à base de dados, mas também protege a privacidade dos indivíduos no seu conjunto.

Os dados podem não ser tão puros quanto teriam sido, mas nenhum conjunto de dados é absolutamente perfeito. Há um enviesamento na maneira como os dados são recolhidos: quais as informações valiosas, quem é representado e que tipos de perguntas são feitas. Adicionar um viés para a privacidade, especialmente quando a privacidade é tão facilmente corroída, pode não ser a pior solução.

* Texto original publicado em The Markup (CC BY-NC-ND 4.0). Foto: future.agenda (CC BY-NC-SA 2.0).

 

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão /  Alterar )

Google photo

Está a comentar usando a sua conta Google Terminar Sessão /  Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão /  Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão /  Alterar )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.