O Paradoxo de Simpson | Engano estatístico


O Paradoxo de Simpson é um fenômeno estatístico que pode inverter completamente o sentido de uma análise.
Edward H. Simpson descreveu o fenômeno no artigo: The Interpretation of Interaction in Contingency Tables (1951).
Vamos analisar como esse fenômeno ocorre.
Caso Real
No caso da Universidade de Berkeley (1973), dados agregados sugeriam discriminação contra mulheres (35% de admissão vs. 44% dos homens). Analisando por departamento, mulheres tinham taxas iguais ou superiores. <https://www.diariodedados.com.br/paradoxo-de-simpson-como-os-dados-podem-te-enganar/\>.
Exemplo
Imagine uma loja com duas unidades: uma no Norte e outra no Sul. Para aumentar as vendas, a loja lança duas campanhas de publicidade: uma na televisão e outra na internet. Cada anúncio traz um código promocional. Dessa forma, é possível identificar qual meio de propaganda gerou cada venda.
Abaixo, ao analisar apenas o percentual de vendas em relação às propagandas, observamos que, na região Norte, as campanhas veiculadas na TV tiveram uma taxa de conversão superior à da internet. Já na região Sul, o desempenho das duas mídias foi bastante similar.
- Como ficaria no acumulado? Sem separar por região qual é a resposta mais intuitiva?
A minha primeira impressão seria de que a TV, no resultado acumulado, apresentaria uma taxa de conversão em vendas superior à internet, já que na região Norte seu desempenho foi muito melhor e, na região Sul, as duas mídias tiveram resultados similares. No entanto, vamos analisar o resultado acumulado real a seguir:
De forma pouco intuitiva, o resultado acumulado mostra que o percentual de vendas gerado pela internet é ligeiramente superior ao da TV, contrariando minha expectativa inicial. Mas por que isso acontece?
- Para entender os resultados, vamos analisar o volume de propagandas e vendas, além de apenas os percentuais.
Acima, percebemos que a quantidade de propagandas na região Norte foi significativamente menor. Quando observamos uma taxa de conversão de 90% para as vendas pela TV nessa região, isso representa apenas 90 vendas, considerando o pequeno volume de 100 propagandas exibidas. Esse cenário pode distorcer a análise, funcionando quase como um outlier, induzindo ao erro.
A análise correta, considerando os dados agrupados, revela que, na realidade, não houve diferença significativa na taxa de conversão acumulada entre as campanhas veiculadas na TV e na internet.
Conclusão
O paradoxo de Simpson destaca como a combinação de dados de diferentes grupos pode inverter os resultados, levando a interpretações equivocadas. O Paradoxo de Simpson: Homenagem ao estatístico Edward H. Simpson, que descreveu o fenômeno em um artigo publicado em 1951. The Interpretation of Interaction in Contingency Tables" (1951).
Subscribe to my newsletter
Read articles from Bernardo Ribeiro de Moura directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by

Bernardo Ribeiro de Moura
Bernardo Ribeiro de Moura
Senior Data Analyst at Unimed Rio Preto, working with predictive models, cost optimization, and data-driven decision-making. Bachelor’s in Chemistry (UNESP), transitioning to Data Science (UNIVESP), combining science and technology to solve real-world problems. Specialized in Google Data Analytics. I write about predictive analysis, data visualization, and statistical modeling. Let’s exchange ideas on Python, SQL, and the impact of data in our daily lives!