Como a Lei de Benford Pode Revelar Fraudes

HOKUSAI, Katsushika. A Grande Onda de Kanagawa [神奈川沖浪裏]. 1830. Xilogravura, 25,7 × 37,8 cm. Acervo do Museu Metropolitano de Arte (MET), Nova York.

Introdução

Em 2009, uma análise estatística dos votos da eleição presidencial do Irã revelou que os números oficiais fugiam de um padrão matemático conhecido como Lei de Benford: um sinal de possível manipulação. Esse mesmo padrão, que expôs fraudes em eleições, contabilidade e até dados epidemiológicos, também está por trás de algo tão cotidiano quanto a população dos municípios brasileiros.

Neste artigo, vamos aplicar a Lei de Benford aos dados do IBGE (link abaixo) e descobrir: os números são tão naturais quanto parecem?

Dados: https://www.ibge.gov.br/estatisticas/sociais/populacao/9103-estimativas-de-populacao.html

Teoria

A Lei de Benford descreve a distribuição esperada do primeiro dígito significativo (1 a 9) em conjuntos de dados não manipulados. De tal forma que:

  • O dígito 1 aparece como primeiro em ~30,1% dos casos.

  • O dígito 2 aparece ~17,6% das vezes.

  • E assim por diante, até o 9, que aparece só ~4,6% das vezes.

Equação 1: Fórmula para calcular a Lei de Benford.

Simulação

Para a simulação, destaca-se:

  • Tratamento dos dados (remoção de valores nulos).

  • Extração do primeiro dígito (com str e int).

  • Análise visual (barras vs linhas).

Figura 1. Parte 1 | Verificando a distribuição populacional dos municípios brasileiros

Figura 2. Parte 2 | Verificando a distribuição populacional dos municípios brasileiros

Figura 3. Parte 3 | Verificando a distribuição populacional dos municípios brasileiros

Resultado

O teste com Python (Figura 4) revelou que a distribuição populacional dos municípios brasileiros obedece à Lei de Benford com incrível precisão, um indício de que os dados do IBGE são organicamente gerados, sem sinais de manipulação. Pequenas variações em dígitos altos (8 e 9) são esperadas, sem comprometer a aderência geral.

Figura 4. Distribuição percentual dos dígitos vs lei de benford

Tabela 1. Distribuição percentual dos dígitos vs lei de benford.

Por que isso acontece?

A Lei de Benford funciona porque dados naturais (não manipulados) tendem a crescer exponencialmente, e números que começam com 1 aparecem ~30% das vezes porque:

  1. Escala Logarítmica: Fenômenos que abrangem múltiplas ordens de grandeza (população, preços...), tem mais espaço entre 1 e 2 do que entre 8 e 9.

  2. Crescimento Exponencial: Quando alguma coisa cresce em porcentagem (PIB, juros), passa mais tempo em números que começam com 1 ou 2.

De forma simples: Porque as coisas costumam crescer aos poucos (em porcentagem), e números que começam com 1 (10, 100, 1.000) demoram mais para virar do que um 8 para virar 9. Como uma escada onde os degraus do começo são mais largos.

Contexto Histórico

A Lei de Benford foi formalizada por Frank Benford em 1938, mas em 1881 o astrônomo Simon Newcomb já tinha percebido seus efeitos.

  • Newcomb notou que tabelas logarítmicas gastavam mais nas páginas iniciais. Na época, o trabalho não trouxe tanto impacto.

  • Anos depois, Benford testou a lei em volume muito superior, 20 mil conjuntos de dados, popularizando e formalizando a lei.

Artigos originais de Newcomb (1881) e Benford (1938) nas referências abaixo.

Conclusão

Portanto, os dados do IBGE seguem a Lei de Benford, revelando um padrão matemático natural em números reais. Um exemplo claro de como a ciência de dados pode validar informações e detectar quando algo foge à regra.

Assim como a Lei de Benford revela padrões matemáticos ocultos, a obra de Hokusai (A Grande Onda de Kanagawa) captura a força e a repetição cíclica das ondas, revelando uma ordem no caos aparente, trazendo beleza à este breve artigo.

Referências

Benford, F. (1938). "The Law of Anomalous Numbers". Proceedings of the American Philosophical Society.

Roukema, B. F. (2014). "A First-Digit Anomaly in the 2009 Iranian Presidential Election". Journal of Applied Statistics.

Newcomb, S. (1881). "Note on the Frequency of Use of the Different Digits in Natural Numbers". American Journal of Mathematics, 4(1), 39-40

0
Subscribe to my newsletter

Read articles from Bernardo Ribeiro de Moura directly inside your inbox. Subscribe to the newsletter, and don't miss out.

Written by

Bernardo Ribeiro de Moura
Bernardo Ribeiro de Moura

Analista de dados sênior na Unimed Rio Preto, explorando modelos preditivos, otimização de custos e tomadas de decisão baseadas em dados. Bacharel em Química (UNESP), em transição para Ciência de Dados (UNIVESP), combinando ciência e tecnologia para resolver problemas do mundo real. Especializações em Google Data Analytics e Data Science pela HarvardX. Escrevo sobre análises preditivas, visualização de dados e modelagem estatística. Vamos trocar ideias sobre Python, SQL e o impacto dos dados no dia a dia?