O custo de uma invasão ao Big Data

O custo de uma invasão ao Big Data

Quando me encarregaram de analisar os custos de violação dos dados, já conhecia de perto o grande debate entre Verizon DBIR vs. Ponemom: com base em dados de 2014, a Ponemon obteve um custo médio por registro de US$ 2.201, enquanto a Verizon chegou à US$ 0,58/ano. A meu ver, isso representa uma grande diferença. Mas pode ser explicada se você se aprofundar no assunto.

Depois de observar vários trabalhos de pesquisa, apresentações e posts para o blog sobre o assunto de custos de violação de dados, percebi que, uma vez que você absorve algumas ideias subjacentes, você entende sobre o que todo mundo está falando.

A média pode causar problemas sérios

A primeira questão a abordar é a média de uma amostra de dados. De fato, o estatístico favorito do blog, Kaiser Fung, nos falou sobre este ponto, há um tempo. Ao olhar para um conjunto de dados, uma média simples dos números funciona bem, desde que a distribuição do número não seja distorcida – um pico ou aglomerado no final da cauda.

Mas, como observa Fung, quando este não é o caso, a média leva a inconsistências. Para 2015, a média de US$ 1.172 está desativada por vários múltiplos para sete de dez empresas.  E se compararmos essa média com a média de 930 do ano seguinte, concluímos, erroneamente, que os custos de violação estão baixos. Por quê? Se olharmos para estas sete empresas, vemos que todas as suas contas de violação subiram.

Isso geralmente leva a uma discussão de como os números são distribuídos em um conjunto de dados e que o número médio, onde 50% ou menos dos dados podem ser encontrados, é uma representação melhor do que uma média – especialmente para conjuntos de dados distorcidos. Para dados distorcidos, é importante analisar como cada percentual contribui para a média geral.

Adivinhando quais são os custos da violação de dados

Como Ponemon determina o custo de uma violação de dados? Geralmente, esta informação não está facilmente disponível. No entanto, nos últimos anos, esses custos começaram a aparecer em relatórios anuais para empresas públicas.

Mas, para empresas privadas e para empresas públicas que não estão quebrando os custos de infração em seus relatórios financeiros públicos, você precisa fazer um cruzamento de números mais criativo.

A Ponemon examina as empresas, solicitando que elas avaliem os custos das atividades comuns pós-infração, incluindo auditoria e consultoria, serviços jurídicos e taxas de proteção de identidade. A Ponemon categoriza os custos para saber se eles são diretos – por exemplo, monitoramento de crédito – ou custos mais distorcidos ou indiretos – hora extra do empregado ou potencial de negócios perdidos.

Acontece que esses custos indiretos representam cerca de 40% do custo médio de uma infração com base em sua pesquisa de 2015. Esses custos significam algo, mas eles não são realmente custos contábeis.

Recentemente, outros pesquisadores conseguiram obter uma estimativa muito melhor dos custos diretos de violação, examinando as reivindicações reais do seguro cibernético. Empresas como Advisen e NetDiligence têm esses dados de pagamento de seguro e estão dispostos a compartilhá-los.

O mercado de seguro cibernético ainda é imaturo e os pagamentos não representam o custo real da violação de dados. Mas é, pela primeira vez, uma evidência de custos diretos.

De qualquer forma, o pessoal da RAND – a mesma empresa que fez isso acontecer – usou esses conjuntos de dados para estimar um custo médio de violação por incidente de cerca de US $ 6 milhões. Isso acompanha muito perto os 6,5 milhões de dólares da Ponemon por estimativa de incidente, aproximadamente no mesmo período.

Antes de começar a berrar pelo seu navegador, eu percebi que usei uma média acima para estimar um conjunto muito desviado (e, como veremos, pesado).

Em qualquer caso, vários estudos, incluindo o RAND, se concentraram em custos por incidente e não por custo registro. Em algum momento, a equipe do Verizon DBIR também começou a enfatizar a contagem de registros expostos, percebendo que é difícil obter números confiáveis de seus próprios dados forenses.

No relatório DBIR de 2015, aquele em que eles anunciaram seus provocativos $0.58 por reivindicações de custos de violação de registro, os pesquisadores confiaram, pela primeira vez, em um conjunto de dados de reivindicações de seguros da NetDiligence.

Permitam-me dizer que a relação de custo médio do DBIR é fortemente influenciada por algumas empresas com recorde de registros violados – provavelmente milhões – refletidos no denominador e menores pagamentos de seguros totais para o numerador. Como vimos no meu exemplo acima, a média neste caso não é muito reveladora.

Por que não usar várias médias personalizadas em diferentes intervalos de contagem de violação? Espero que você esteja começando a ver que é muito melhor segmentar os dados de custo por contagem de registros: você procura uma tabela para encontrar os custos apropriados para o seu caso. E a Verizon fez algo perto disso no DBIR 2015 para vir com uma tabela de dados que está mais perto da média de Ponemon para os níveis mais baixos.

O registro de dados de violação de contagem fornece alguma visão sobre a compreensão dos custos totais, mas existem outros fatores: o setor específico na qual a empresa está, as regulamentações em baixo, os custos de proteção de crédito para consumidores e o tamanho da empresa. Por exemplo, dê uma olhada nesta calculadora de custos de violação com base nos dados da Ponemon.

Pensamento linear e seus limites

Você pode entender por que o custo médio de violação por número de registro é tão popular: ele fornece uma resposta rápida, embora não confiável, para o custo total de uma violação específica.

Para obter o custo médio de US$ 201 por registro, a Ponemon simplesmente adicionou os custos (diretos e indiretos) de sua pesquisa dividido pelo número de registros violados conforme relatado pelas empresas.

Isso pode ser conveniente para cálculos, mas como preditor, não é muito bom. Estou caminhando suavemente sobre o tópico de regressões lineares, que é uma maneira de desenhar uma “boa” linha direta através do conjunto de dados. Quero terminar este post com esse pensamento: queremos que o mundo pareça linear, mas não é bem assim que o mundo funciona.