A ilusão dos pequenos números


Você confiaria numa decisão baseada em meia dúzia de casos? É exatamente isso que muitos gestores, investidores e políticos fazem todos os dias (nós fazemos também kkk).
✅ A “ilusão ou lei dos pequenos números”, descrita por Daniel Kahneman e Amos Tversky, mostra como tendemos a acreditar que amostras pequenas representam bem o todo. Mas a verdade é que amostras pequenas variam demais e podem nos enganar feio.
✅ Um exemplo real: O estudo publicado na revista JAMA (2017) analisou as taxas de câncer em todos os condados dos EUA entre 1980 e 2014. Resultado: Os condados com as maiores e menores taxas eram justamente os menos populosos. Isso porque em grupos pequenos, o acaso pesa mais, um pequeno desvio vira um grande sinal.
✅ Essa armadilha está em toda parte: no mercado, nas empresas, na saúde, na política. Agora, vamos simular isso na prática e ver como se comporta!
A Simulação
Simularemos taxas de mortalidade por câncer em condados (tipo um município) com populações pequenas (1 mil) e grandes (10 mil), todos com a mesma taxa real de mortalidade (0,5%). Vamos fazer mil simulações para cada condado.
Figura 1 - Simulação da taxa de mortalidade nos condados.
Fonte: Próprio Autor.
A Figura 1 acima mostra o código escrito para a simulação. Antes de detalhar a sintaxe do script (parte que todo mundo fecha o artigo...) vamos verificar os resultados na Figura 2 abaixo.
Figura 2 - Resultado da Simulação.
Fonte: Próprio Autor.
A distribuição laranja (condados pequenos) tem muito mais dispersão, mostrando casos com taxas extremamente baixas e extremamente altas, mesmo com a mesma taxa real (0,5%). Lembre que rodamos mil simulações para cada condado. O gráfico ilustra todas elas.
A distribuição azul (condados grandes) é muito mais concentrada em torno da média.
A linha preta tracejada marca a taxa real, reforçando como os pequenos condados variam mais.
Portanto, constatamos que amostras pequenas geram mais variabilidade e por isso são frequentemente responsáveis tanto pelos "melhores" quanto pelos "piores" resultados.
Detalhando o script
1) A princípio, importei 3 bibliotecas:
✅ numpy: para simular os dados aleatórios.
✅ matplotlib.pyplot: para construir os gráficos.
✅ seaborn: para melhorar o visual dos gráficos (parte chata).
2) Agora, começando:
✅ sns.set(style="whitegrid"): deixa o fundo do gráfico claro e com grade.
✅ np.random.seed(9): garante que os números aleatórios sejam os mesmos toda vez que rodar. Pode colocar qualquer número, sempre coloco 9 por ser minha data de aniversário, tipo uma assinatura.
✅ taxa_mortalidade_real: a chance real de uma pessoa morrer.
✅ n_simulacoes: número de condados simulados de cada tipo (mil pra cada).
✅ pop_pequena e pop_grande: populações dos condados simulados.
3) Em seguida, definimos: mortes_pequeno e mortes_grande utilizando "np.random.binomial":
✅ Usamos a distribuição binomial pra contar quantas pessoas “morrem” em cada condado. Geramos mil simulações, com mortes sorteadas aleatoriamente. Por fim, calculamos o percentual e plotamos o gráfico (praticamente sempre a mesma estrutura de código).
4) Talvez a distribuição binomial gere mais dúvidas:
✅ A distribuição binomial conta quantas vezes algo acontece em várias tentativas, quando cada uma delas tem a mesma chance de dar certo. Os resultados são independentes. Aqui, simulamos quantas pessoas morreram em uma população, com 0,5% de chance.
✅ Usamos a distribuição binomial no código porque ela é ideal para simular a contagem de eventos em um número fixo de tentativas. Cada tentativa segue uma distribuição de Bernoulli (tipo jogar uma moeda, verificando cara ou coroa).
Lei dos Grandes Números
Nesse contexto, percebemos um fenômeno muito importante, a lei dos grandes números:
"Quando o número de tentativas (n) tende ao infinito, a proporção de sucessos converge para a probabilidade teórica"
A Lei foi formalizada pelo matemático Jacob Bernoulli (1655–1705) em seu trabalho "Ars Conjectandi" (A Arte da Conjectura), publicado em 1713. Num próximo artigo, conto um pouco mais sobre a treta entre os irmãos Bernoulli.
Conclusão
A simulação evidenciou que condados com populações menores têm maior variabilidade nas taxas. Essa é a essência da ilusão dos pequenos números: tirar conclusões a partir de amostras pequenas pode nos levar a interpretações distorcidas da realidade. Assim como São Jerônimo, retratado por Caravaggio em aparente reflexão ao escrever, precisamos encarar os dados com cuidado, paciência e espírito crítico, e não nos deixar levar por conclusões apressadas.
Referências
Mokdad, A. H., Dwyer-Lindgren, L., Fitzmaurice, C., Stubbs, R. W., Bertozzi-Villa, A., Morozoff, C., ... & Murray, C. J. L. (2017). Trends and patterns of disparities in cancer mortality among US counties, 1980–2014. JAMA, 317(4), 388-406. https://doi.org/10.1001/jama.2016.20324.
Tversky, A., & Kahneman, D. (1971). Belief in the law of small numbers. Psychological Bulletin, 76(2), 105–110.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
BERNOULLI, J. Ars Conjectandi. Basileia: Thurneysen, 1713.
Subscribe to my newsletter
Read articles from Bernardo Ribeiro de Moura directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by

Bernardo Ribeiro de Moura
Bernardo Ribeiro de Moura
Senior Data Analyst at Unimed Rio Preto, working with predictive models, cost optimization, and data-driven decision-making. Bachelor’s in Chemistry (UNESP), transitioning to Data Science (UNIVESP), combining science and technology to solve real-world problems. Specialized in Google Data Analytics. I write about predictive analysis, data visualization, and statistical modeling. Let’s exchange ideas on Python, SQL, and the impact of data in our daily lives!