Como fazer anonimização de dados pessoais e dados sensíveis?

Agora que a LGPD (lei geral de proteção de dados) entrou em vigor, a pergunta que não quer calar é: como se adequar à LGPD? É seguro?

Nesse post, busco responder essas questões. Boa leitura!

lgpd-lei-geral-de-prtecao-de-dados

Alguns dos fundamentos da LGPD são a proteção e o respeito à privacidade de pessoas físicas e a proteção e defesa do consumidor. 

A partir de agora, todas as atividades que envolvam dados pessoais e sensíveis deverão passar por um processo de anonimização.

Essa anonimização deve ser feita para impossibilitar a identificação da pessoa de origem dos dados (dados pessoais). 

NÃO! Esse não é um post para falar sobre aspectos jurídicos que, definitivamente, não é meu forte.

Vou me concentrar em assuntos pertinentes à tecnologia e Data Analytics (análise de dados), segurança da informação e processamento/tratamento de dados pessoais. 

Aqui descrevo técnicas de anonimização de dados pessoais, como pseudonimização, anonimização e criptografia.

Afinal, isso sim faz parte do propósito do meu blog (e de quem eu sou profissionalmente).

O que são dados pessoais de acordo com a LGPD?

anonimizacao-de-dados

Segundo o guia da LGPD Simplificada disponível no site lgpdbrasil.com.br:

É considerado dado pessoal qualquer informação que possa permitir a identificação de uma pessoa natural. Exemplos:

  • dados cadastrais
  • data de nascimento
  • profissão
  • dados de GPS e identificadores eletrônicos (o que inclui IPs)
  • nacionalidade
  • gostos
  • interesses
  • hábitos de consumo

Já os dados de pessoas jurídicas (fiscais, contábeis e trabalhistas) aparecem logo no primeiro artigo da LGPD, porém, não como possíveis detentoras de dados pessoais, mas como sujeitas ativas de tratamentos de dado.

No meu instagram, postei sobre isso no feed e rendeu uma boa discussão sobre a relação dos dados de pessoa jurídica.

Meus agradecimentos aqui para alguns arrobas:

Se você ainda não me segue no instagram, não perca tempo! É lá que eu acabo passando boa parte do meu tempo ao produzir conteúdos.

Nova LGPD e o tratamento dos dados pessoais prevê a anonimização de dados

O conceito de tratamento de dados pessoais considera toda operação realizada, sendo: coleta, produção, recepção, classificação, utilização, acesso, reprodução, transmissão, distribuição, processamento, arquivamento, armazenamento, eliminação, avaliação ou controle da informação, modificação, comunicação, transferência, difusão ou extração. 

O uso de dados anonimizados se mostra primordial para possibilitar o desenvolvimento e aprimoramento de novas tecnologias, como a Internet das Coisas, Aprendizado de Maquina e a Inteligência Artificial.

Mas, antes, algumas definições:

Qual a diferença de dado anonimizado e anonimização?

Segundo o art. 5º, III e XI da LGPD: o dado anonimizado é relativo ao titular que não possa ser identificado, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião de seu tratamento. 

Já a anonimização é a utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo.

Técnicas de anonimização de dados pessoais para se adequar à LGPD

chave-de-criptografia-anonimizacao-de-dados

Como funciona a anonimização de dados?

Existem várias maneiras de anonimizar dados pessoais. Essas medidas servem para demonstrar que a proteção de dados pessoais confidenciais é uma preocupação séria para a empresa e que não é tomada levianamente.

O princípio básico é que devemos apenas coletar, processar e armazenar dados pessoais realmente necessários.

Qualquer abordagem em anonimização de dados deve ser automatizada e monitorada.

Deve ser criado um log de auditoria que armazene registros de todas as vezes que os dados são acessados. 

É importante que se tenha uma política de governança onde alguém seja indicado para conduzir o processo de anonimização de dados pessoais e sensíveis. 

Evitando caso de quebra de privacidade com dados insuficientemente anonimizados

As abordagens de anonimização também são ações preventivas eficientes contra um possível ataque interno. 

Essas medidas serão úteis se ocorrer um vazamento de dados e a organização precisar de evidências em sua investigação.

dado-anonimizado
Imagem: Embora uma pessoa geralmente possa ser facilmente identificada a partir de uma foto tirada diretamente dela, a tarefa de identificá-la com base em dados limitados é mais difícil.

Todos os campos de dados confidenciais são anonimizados para remover informações da pessoa e reter o que for necessário para análise ou pesquisa posterior. 

Os métodos de anonimização se aplicam a campos de dados individuais, suas partes ou grupos.

Anonimização do campo de dados individual.
Figura: Anonimização do campo de dados individual.
Anonimização do grupo de campos de dados.
Figura: Anonimização do grupo de campos de dados.

Este segundo método se aplica a pares de campos de dados que possuem vínculo claro entre eles. Por exemplo: nome e email, ou geografia e longitude.

Anonimização de parte de um campo de dados.
Figura: Anonimização de parte de um campo de dados.

A anonimização de parte de um campo de dados pode ser aplicada a endereços de e-mail e números de telefone, já que será necessário manter informações sobre esses dados por motivos de análise de dados posterior. Por exemplo: o domínio do email ou o prefixo do número de telefone.

Técnicas de anonimização de dados pessoais

Pseudonimização

Técnica de anonimização feita visando manter informações adicionais em um ambiente seguro, onde será possível que o dado volte a ser atribuído ao titular. 

Pseudonymization
Foto: Ilustração do processo de pseudonimização no trabalho.

Ao manter os dados identificados em um ambiente separado, eles só se tornam identificáveis ​​quando os dois elementos são mantidos juntos.

Vantagens: 

  • análises continuam sendo possíveis (resultado inalterado);
  • previne invasões: sem chave secreta não dá pra “adivinhar” o dado; 
  • é possível alterar o valor secreto para proteger a privacidade dos dados.

Desvantagens: 

  • requer um ambiente controlado (controle de versões e usuários) para manter uma versão original dos dados

Esse método permite que quem precise analisar os dados possa fazer isso tranquilamente, sem medo de infringir os direitos dos titulares dos dados. 

A pseudonimização traduz um campo de dados confidenciais em uma string pseudo-aleatória (daí o nome) e traz a resultante sempre a mesma para aquela mesma entrada, de modo que as correlações e análises estatísticas ainda sejam possíveis.

A pseudonimização pode ser previamente configurada por uma chave secreta para que apenas aqueles com acesso a essa chave possam pseudonimizar as entradas na mesma saída. 

Isso significa que mesmo que alguém conheça um e-mail de outra pessoa que esteja naquela base de dados inicial, não conseguirá relacionar o dado à pessoa. 

Além disso, você pode alterar periodicamente essa chave secreta para aumentar ainda mais a proteção e privacidade dos dados.

Anonimato ou anonimização

Dados convertidos em não identificáveis. Remoção irreversível das informações que podem identificar um indivíduo.

Anonymization
Foto: Ilustração do anonimato de dados pessoais

Essa definição faz com que os dados sejam despojados de qualquer identificação, tornando IMPOSSÍVEL derivar insights sobre um indivíduo (até mesmo por parte de quem fez o processo de anonimato). 

Vantagens: 

  • forma mais indicada para mitigar riscos de infração da LGPD
  • dado deixa de ser pessoal ou sensível e passa a ser anônimo

Desvantagens: 

  • impossível seguir com análises de dados (já que todos os valores nos campos são alterados)

Supressão

A supressão ou mascaramento de dados é uma forma extrema de anonimato.

Substitui as informações por algum valor fixo de texto pré-definido (ou em alguns casos, uma tarja preta). 

Suppression
Foto: Ilustração do processo de supressão de dados pessoais na prática. Note que as informações confidenciais foram substituídas por XXX.

Vantagem: 

  • simples de implementar e muito eficaz na remoção de dados

Desvantagem: 

  • qualquer valor estatístico ou analítico dos dados é perdido

Generalização

Generalization
Foto: Ilustração do processo de generalização em ação.

Substitui valores por categorias mais amplas. Nesse método, os valores dos campos são substituídos por uma categoria mais ampla.

Por exemplo, o valor 19 do campo “Idade” pode ser substituído por ‘≤ 20′, o valor ’23’ por ’20 <Idade ≤ 30 ‘, etc. 

Vantagens:

  • torna possível a análise de dados por categorias
  • dados permanecem úteis para outras finalidades

Desvantagem: 

  • dados não podem retornar à sua forma identificável original

Criptografia

Traduz os dados em formato possível de acessar com uma chave secreta (conhecida como “chave de descriptografia”)

Encryption
Foto: Ilustração do processo de criptografia em funcionamento.

Existem dois esquemas de criptografia de dados mais conhecidos: criptografia simétrica e criptografia assimétrica. Freqüentemente, esses dois esquemas são misturados e formam o que chamados de “criptografia híbrida”.

Vantagem:

  • a criptografia assimétrica usa a chave pública onde, mesmo se um invasor conseguir essa chave, ele não conseguirá descriptografar os dados (já que a chave privada é mantida separada)

Desvantagens: 

  • essa mesma criptografia assimétrica é mais lenta que a do tipo simétrica 
  • qualquer pessoa pode descobrir como roubar a chave e assim, descriptografar os dados

A criptografia simétrica tem um ponto fraco: a chave secreta de descriptografia pode ser violada e é mais difícil de proteger. 

Explico: qualquer pessoa com acesso a um sistema de produção (que tenha privilégios de administrador do sistema) pode roubar a chave secreta e usá-la para descriptografar dados. Apesar de existirem algumas soluções de hardware, esse ainda é um problema difícil de resolver.

Esquemas de criptografia assimétrica, como RSA, DSA ou ECC, usam duas chaves: pública e privada.

A criptografia de dados usa a chave pública e mesmo se um invasor conseguir essa chave pública, ele não será capaz de descriptografar os dados protegidos. 

A criptografia assimétrica, no entanto, é muito mais lenta que a criptografia simétrica e, por esse motivo, raramente é usada para criptografar os dados.

Criptografia homomórfica

Plataformas de computação em nuvem podem realizar cálculos em dados criptografados homomorficamente sem nunca ter acesso aos dados originais.

Homomorphic encryption
Foto: Ilustração da criptografia homomórfica em funcionamento.

A implantação da criptografia homomórfica tem uma série de desafios porque esse sistema de criptografia ainda está em desenvolvimento. 

As restrições são baseadas principalmente em como as funções matemáticas são suportadas em dados criptografados. Vamos torcer para que isso melhore com o tempo.

Conclusão

O que trago nesse post é importante para que o risco de vazamento de dados seja minimizado dentro de uma empresa.

É importante começar cedo e escolher os métodos corretamente para que sua implantação não afete sua empresa. Logo a ANPD também deve ditar algumas diretrizes para nos orientar como profissionais de TI e dados.

Também é importante não subestimar a implantação da técnica de anonimização, porque pode ser demorada.

Não deixe de seguir meu perfi no Instagram onde estou postando com muito mais frequência, inclusive sobre assuntos pertinentes à LGPD e segurança de informação.

Precisando de alguma força com a aplicação dessas técnicas e adequação à LGPD, estou aqui para apoiá-lo. Só enviar uma DM ou mandar e-mail! Até a próxima!