Proteção de dados à deriva: o difícil equilíbrio entre controle e privacidade

By Walter Gaspar

Levantamento recente identificou novas medidas de rastreamento digital em 20 países após o início da pandemia de covid-19. A implementação de soluções tecnológicas para o combate ao seu avanço tem colocado em evidência uma controvérsia aguda envolvendo controle estatal, privacidade e proteção de dados. Não que o assunto não fosse discutido antes. Mas, com o emprego de tecnologias de monitoramento via geolocalização e reconhecimento facial em larga escala em lugares como China, Rússia, Coreia do Sul, Itália, Bélgica, dentre outros, o tema aflorou com imediata importância.

In March, we documented 21 new digital tracking measures implemented around the world in response to COVID-19. These varied from targeted contact tracing apps, to the large-scale acquisition of aggregated and anonymised location data.
COVID-19 Digital Rights Tracker

Do ponto de vista jurídico, há muitas perspectivas possíveis sobre a questão. À primeira vista, trata-se, muito claramente, da ameaça de vigilantismo estatal frente a liberdades fundamentais da população. No entanto, especialmente diante da situação que o mundo vive atualmente, a consideração do problema não pode se resumir de forma dicotômica.

Se, por um lado, há uma série de direitos e garantias individuais que precisam ser resguardados diante do poder de vigilância do Estado, o desenvolvimento de políticas públicas e estratégias de ação — ou seja, não apenas mecanismos de controle, mas também de planejamento inteligente — podem se beneficiar de grandes volumes de dados, inclusive no emprego de inteligência artificial.

Em resumo, tratando-se de dados de celular, podemos considerar sua contribuição ao combate à pandemia em quatro eixos: análise da situação (p. ex., quais os trajetos mais frequentes em vias públicas? Quais os principais pontos de entrada de estrangeiros?); testes de causa e efeito (p. ex., que setores econômicos observam melhor as restrições de mobilidade? Que ramos de atuação se adaptam melhor ao home office?); análises preditivas (p. ex., quais os padrões prováveis de difusão do vírus com base nos dados de mobilidade?); e análises de impacto (p. ex., qual o impacto das medidas de distanciamento social?).

Promising approaches are emerging: the EU Commission has called upon European mobile network operators to hand over anonymized and aggregated data to the Commission to track virus spread and determine priority areas for medical supplies, while other coordination initiatives are emerging in Africa, Latin America and the Mena-Region. It will be important for such initiatives to link up, share knowledge and collaborate.
Mobile phone data and COVID-19: Missing an opportunity?

Mais uma consideração importante a se fazer é o meio pelo qual esses mecanismos são operacionalizados e quais os atores envolvidos. Na China, o célebre aplicativo de classificação de risco de contágio Alipay Health Code é baseado em parceria com a empresa Alipay, subsidiária do grupo Alibaba. No Recife, a implementação de rastreamento via geolocalização em resposta ao covid-19 se deu em parceria com a InLoco, startup que trabalha nos ramos de publicidade direcionada e protocolos de autenticação anônimos para Internet das Coisas.

Em outras regiões do Brasil e em muitos países, governos têm feito parcerias com companhias de telecomunicações para realizar o monitoramento via geolocalização, aproveitando-se de dados que essas empresas já coletavam normalmente. Todos esses atores devem ser levados em consideração ao se pensar os desdobramentos jurídicos do emprego dessas tecnologias: não é apenas o Estado controlando o movimento dos cidadãos, mas também empresas privadas, que terão acesso a grandes bases de dados com informações cruciais.

Recentemente, o Ministro Marcos Pontes, do Ministério da Ciência, Tecnologia, Inovações e Comunicações (MCTIC), anunciou em seu Twitter que o governo federal realizaria parceria para a implementação de controle, via geolocalização, de aglomerações, dentre outras funcionalidades não reveladas, com as operadoras de telefonia Algar, Claro, Oi, Tim e Vivo. Na prática, isso estende a 222 milhões de linhas móveis o monitoramento de sua localização via smartphone, expandindo as iniciativas já em curso em São Paulo e no Rio de Janeiro. O anúncio foi logo apagado, mas ainda pode ser visto aqui:

Por favor, qual a razão o @mctic excluiu o tweet com o anúncio do "monitoramento em massa"? pic.twitter.com/MWX5MdwAco
— Claudio Porto (@claudioportoo) March 29, 2020

No vídeo, o Ministro diz que a iniciativa é uma parceria com o Ministério da Saúde e realizada por meio da “Rede Conectada MCTIC — Telecom”, uma espécie de comitê de crise para lidar com os desafios de manutenção das comunicações em escala nacional durante o enfrentamento do covid-19. Em seguida, afirma que:

Nós fizemos um acordo com as operadoras, e através desse acordo, o Ministério da Saúde vai ter uma ferramenta e vai poder acompanhar a aglomeração de pessoas, o movimento dessas aglomerações […] É importante ressaltar que não existe nenhum problema com privacidade.
Marcos Pontes, Ministro de Ciência, Tecnologia, Inovações e Comunicações

O anúncio de uma iniciativa desse tipo pelo governo federal e, especialmente, a preocupação do Ministro em ressalvar que não há problemas de privacidade em sua implementação criam uma boa oportunidade para discutir em minúcias o conflito apontado acima. Ainda que não haja muitos detalhes sobre a iniciativa do MCTIC e Ministério da Saúde, podemos partir a uma análise, em linhas gerais, da ideia de implementação de sistemas de controle de movimentação, de “aglomerações” e contact-tracing apps sob a perspectiva da proteção de dados no Brasil.

O país encontra-se em um momento de particular efervescência em relação ao tema, já que a entrada em vigor da nossa Lei Geral de Proteção de Dados (LGPD), que estava prevista para agosto deste ano, poderá ser adiada para Janeiro de 2021 — conforme o projeto de lei do Senado nº 1.179/2020. Ainda assim, uma análise à luz da LGPD pode ser muito didática: afinal, é o regime jurídico que reflete a vontade soberana da população traduzida pelos seus representantes eleitos, é uma lei que representa a culminação de um processo de anos de debate com a sociedade civil e carrega disposições específicas que permitem uma reflexão mais profunda sobre o tema.

O Senado aprovou nesta sexta-feira (3) o adiamento da entrada em vigor da LGPD (Lei Geral de Proteção de Dados), que era previsto para agosto deste ano. O tema foi incluído no PL 1179/2020, que flexibiliza algumas leis do direito privado para o enfrentamento da pandemia do novo coronavírus.
Senado adia lei de proteção de dados por causa do coronavírus

A ilusão da anonimização

Segundo o Sinditelebrasil, a iniciativa do MCTIC não violaria o Marco Civil da Internet ou a LGPD, por empregar a anonimização dos dados e usar dados agregados. A anonimização, segundo a LGPD, é o processo pelo qual um dado perde completamente o potencial de se referir a uma pessoa natural específica (art. 5º). Nos termos da lei, os dados anonimizados não devem ser considerados dados pessoais e, portanto, não estão sujeitos ao regime legal da LGPD (art. 12).

É importante ter em conta que a anonimização é considerada por alguns especialistas uma ilusão em tempos de Big Data*. Volumes maiores de dados permitem a identificação de pessoas por meio de técnicas específicas de tratamento, ainda que informações evidentemente pessoais sejam removidas. Igualmente, em grupos pequenos o suficiente é fácil que uma suposta anonimização seja revertida em virtude de elementos contextuais.

Não é difícil imaginar um cenário em que isso ocorra. Por exemplo, um app de contact-tracing em que uma pessoa infectada com o covid-19 se registra anonimamente e permite o rastreio de seus movimentos, e outras pessoas igualmente registradas recebem notificações caso o app identifique que tenham estado próximas do infectado (já há apps assim em desenvolvimento). Ou um app que monitora constantemente os movimentos de seus usuários e cria um mapa dessas movimentações, avisando por sms aqueles que estiveram no mesmo local que alguém que se descobriu estar infectado (assim funcionam os contact-tracing apps sul-coreanos, chegando a impactar não apenas a privacidade dos usuários, mas a viabilidade de comércios locais onde estiveram pessoas infectadas).

S. Korea tracking coronavirus spread using detailed ‘contact tracing’ map

Dependendo do nível de precisão das informações, não é difícil descobrir a identidade do sujeito supostamente anônimo. Se um app acusa um infectado de uma certa idade em uma específica loja pequena em um endereço de uma cidade, expondo ainda a hora em que o sujeito esteve por lá, qualquer um nas imediações pode ter uma ideia razoável de quem seja, especialmente se o lugar não estava muito cheio ou se aquela pessoa era a única da sua faixa etária ali no momento. Seria possível, por exemplo, recorrer a câmeras de segurança para obter imagens do rosto da pessoa. Informações de crédito para conhecer o seu nome, buscá-la nas redes sociais, iniciar uma campanha de perseguição online.

Pode parecer uma preocupação exagerada, mas o estigma em torno de uma crise de saúde pode chegar a extremos, como a história pregressa de epidemias e a experiência atual demonstram. Numa situação como essas, o infectado proveu os dados sob a premissa de anonimidade — e, de fato, os operadores do aplicativo talvez não tenham como saber quem é -, mas, na prática, um terceiro consegue ligar a informação à pessoa, ou seja, constrói-se contextualmente um dado pessoal.

A respeito do uso de Big Data para identificar dados supostamente anônimos, há casos notórios. Para citar apenas um, mais célebre, apontamos o caso do Netflix Prize Dataset, em que uma base de dados da Netflix, com dados supostamente anonimizados sobre avaliações de filmes feitas pelos usuários, foi cruzada com a base de dados públicos sobre avaliações de filmes na plataforma IMDb, esta contendo os nomes dos usuários.

A partir da aplicação de um algoritmo, pesquisadores da Universidade do Texas foram capazes de ligar uma base à outra, ou seja, dar identidade às avaliações supostamente anônimas da base de dados da Netflix. FIzeram isso com uma probabilidade de erro tão baixa que, em suas palavras, “o segundo melhor cruzamento dos dados [de uma base com a outra] se encontrava a 28 desvios-padrão [do primeiro melhor cruzamento dos dados]. É extremamente improvável que tal cruzamento seja falso”.

A quebra da expectativa legítima de um titular de dados de que o seu tratamento se daria sob estrita anonimização é uma violação grave de direitos de privacidade e autodeterminação informativa.

Mais que um problema individual

Uma segunda consideração necessária é que a proteção de dados visa defender o titular em situações que vão além do alcance da privacidade, sob uma perspectiva não apenas individual, mas também coletiva**. O processamento automatizado de grandes volumes de dados influencia, por exemplo, a formação, por inferência, de perfis individuais para a tomada de certas decisões.

No caso do atual coronavírus, podemos pensar em um cenário hipotético em que, após o período mais grave da curva de infecções, um governo pretenda implementar um regime controlado de circulação em cidades para promover a infecção paulatina e, consequentemente, a imunização controlada da população sem sobrecarregar o sistema de saúde. Para tanto, utilizam-se dados epidemiológicos e populacionais dos bairros, dados de movimentação obtidos de companhias telefônicas e apps de transporte de passageiros, além de dados coletados a partir de programas de desconto de medicamentos em uma parceria com farmácias locais.

Assim, monta-se um perfil médio do habitante de cada setor e, considerando-se os fatores de risco, comorbidades e os trajetos predominantes, implementa-se uma cota de livre-circulação para cada cidadão. Essa cota é implementada pelo uso de códigos QR que serão escaneados por agentes de segurança pública a partir de um app instalado no smartphone. Uma pessoa que viva em um bairro em que o perfil inferido do habitante indique a necessidade de uma cota mais restrita devido a fatores de risco, mas que, em verdade, fuja completamente a esse perfil, será, ainda assim, diretamente impactada por esses mecanismos de tomada de decisão automatizados.

Na prática, essa pessoa terá tido sua liberdade de circulação restringida em consequência de um perfil de informações inferidas que lhe atribui características que não correspondem à realidade. Isso é vedado pela LGPD, que tem como um de seus princípios a qualidade do dado pessoal (art. 6º, V), que expressamente determina que dados de perfis comportamentais devem ser considerados dados pessoais quando potencialmente conectados a um indivíduo (art. 12, § 2º), que estabelece o direito de revisão de decisões tomadas mediante processos automatizados baseados nesses dados (art. 20), e que estabelece o direito do titular dos dados de requerer a sua correção (art. 18, III).

O exemplo pode parecer ousado, mas já há estudos de modelagem de estratégias de fast-switching — a alternância entre um período de isolamento social e outro período de circulação normal — para o controle de epidemias, não apenas do atual coronavírus, e é preciso levar em conta que o retorno das atividades após o período mais crítico de difusão do vírus deverá ser cuidadoso para evitar uma segunda onda. Além disso, uma tal iniciativa não seria muito diferente do Alipay Health Code, já implementado na China. Essas novas estratégias precisarão, para funcionar, do input de dados provenientes de diversas fontes, e deverão ser pareadas com outros mecanismos de controle e prevenção para funcionarem.

A new system uses software to dictate quarantines — and appears to send personal data to police, in a troubling precedent for automated social control.
In Coronavirus Fight, China Gives Citizens a Color Code, With Red Flags

Da forma à substância

Além do problema da anonimização e das consequências não esperadas do tratamento de grandes volumes de dados, a forma como o governo operacionaliza esses programas de controle tem consequências jurídicas reais. Como já vimos, os dados anônimos não são regidos pela LGPD, e têm maior liberdade de utilização. Por outro lado, os dados pessoais tratados pelo Poder Público devem obedecer a requisitos legais específicos. Como falta transparência a respeito do modelo pretendido pelo MCTIC, convém também refletir a respeito deste cenário.

Um ponto preliminar é identificarmos a hipótese legal de coleta e tratamento dos dados dentre aquelas enunciadas pela LGPD. Dados de geolocalização — ligados a pessoa natural identificada ou identificável, logo, dados pessoais — não são sensíveis, portanto, miramos os incisos do art. 7º da lei. A hipótese em que o uso governamental desses dados se encaixaria, segundo a LGPD, seria a do inciso III: “pela administração pública, para o tratamento e uso compartilhado de dados necessários à execução de políticas públicas.

Ao menos duas considerações são cruciais neste ponto. Primeiro, é importante notar que a lei veda o compartilhamento de dados pessoais entre o Poder Público e o setor privado, mas estabelece hipóteses excepcionais taxativas em que é ele autorizado. Assim, as parcerias em curso — em São Paulo, Rio de Janeiro e Recife e, em breve, caso confirmada, a do Governo Federal — , aos olhos da LGPD, precisariam seguir as regras impostas no Capítulo IV da lei. Dentre essas obrigações está a indicação de um encarregado (art. 23, § 2º) e, mais importante e em observância também dos princípios da administração pública com assento constitucional, que haja previsão e atribuição legal para o tratamento pretendido (art. 23, caput).

Em segundo lugar, é importante considerar a situação particular desses parceiros privados. As companhias que empregarem métodos de rastreio com a específica finalidade de combate ao covid-19, em observância ao regime imposto pela LGPD e seus princípios, deveriam restringir a coleta ao mínimo necessário para a consecução do objetivo (princípios da adequação e da necessidade); informar ao titular sobre o uso desses dados, a hipótese legal que o fundamenta, os atores envolvidos no tratamento e o período pelo qual os dados estarão sob tratamento (princípios da finalidade, transparência e prestação de contas), garantindo a eliminação dos dados após cumprida a finalidade (art. 16); e comunicar todos os direitos do titular como tal (art. 9º e art. 18).

Em outras palavras, é importante considerar os dados usados no combate ao covid-19 não como ativos estratégicos da atividade comercial regular da empresa, mas como subsídios necessários ao cumprimento de uma finalidade específica. Além disso, é crucial considerar a legalidade e a publicidade dos atos administrativos.

Desafios à proteção de dados no enfrentamento ao COVID-19

Mesmo em uma situação normal há uma série de complicações para o tratamento seguro dos dados pessoais. Diante de uma crise aguda, essas complicações são levadas às últimas consequências pela sensação de urgência e a necessidade de respostas imediatas pelos atores políticos e gestores públicos. A existência de uma lei de proteção de dados daria essas respostas.

Por tudo isso, a situação em que nos encontramos agora, de indefinição legislativa, é a pior possível. A Autoridade Nacional de Proteção de Dados, até hoje ainda não concretizada, seria a entidade melhor equipada para definir, por exemplo, os padrões técnicos de anonimização e pseudonimização de dados pessoais, além de padrões de interoperabilidade e segurança para o compartilhamento sem percalços entre Poder Público e entes privados. Ela teria, também, a capacidade de coordenar esforços com os demais órgãos e autoridades públicos para o enfrentamento do covid-19, levando com propriedade o tema da proteção de dados ao cerne das discussões.

Todos os pontos aqui levantados, e vários outros que a brevidade não nos permite explorar, acentuam a necessidade de uma legislação forte de proteção de dados pessoais.

A existência de um robusto sistema de proteção de dados fundado nos direitos do titular e em princípios e fundamentos cujas raízes últimas são os mandamentos constitucionais — de proteção à intimidade, de garantia da liberdade de informação e expressão, entre outros — demarcaria com clareza as linhas intransponíveis da arbitrariedade do Estado e da atividade das empresas. Seria o eixo em cima do qual construiríamos o difícil, porém necessário equilíbrio entre a proteção da saúde da população, a esfera íntima individual e a soberania sobre dados pessoais que, especialmente em nossa sociedade profundamente e ubiquamente conectada, compõem uma face real da própria personalidade.

Sem mecanismos imediatos de fiscalização e resposta a erros graves e abusos, a proteção de dados está à deriva.

* Sobre isto, cf. MAGRO, Américo Ribeiro. A (in)eficácia do direito à anonimização de dados pessoais em face da análise de big data dos metadados produzidos no âmbito da internet das coisas. In: TEIXEIRA, Tarcisio; MAGRO, Américo Ribeiro (coord.). Proteção de dados: Fundamentos jurídicos. Salvador: Editora JusPodivm, 2020; e MAGRANI, E. A internet das coisas. Rio de Janeiro: FGV Direito Rio, 2018. Disponível em: <http://eduardomagrani.com/trilogiaculturadigital/>.

** DONEDA, Danilo. Da privacidade à proteção de dados pessoais. 2ª edição. São Paulo: Thomson Reuters Brasil, 2019.