Análise Descritiva: Encontrando os fatos


Vivemos em uma era onde dados são gerados o tempo todo — pelas redes sociais, aplicativos, sensores e até mesmo nas tarefas do dia a dia. Mas, de que adianta termos tantos dados se não conseguimos entender o que eles dizem?
É aqui que entra a análise descritiva, a primeira etapa de qualquer processo de análise de dados. Ela nos ajuda a resumir, organizar e visualizar informações de maneira clara, revelando padrões, tendências e comportamentos que muitas vezes passam despercebidos.
Neste blog, vamos explorar como a análise descritiva funciona na prática e quais ferramentas e estratégias utilizamos ao lidar com dados brutos na análise.
Seja você um estudante, profissional de dados ou apenas alguém curioso, este espaço é para ajudar a dar sentido aos números e preparar o terreno para análises mais avançadas.
Então, vamos lá!
Como funciona?
A análise descritiva é a primeira etapa que ocorre após a coleta e tratamento prévio dos dados em um projeto de análise. Ela sempre responde a pergunta ”o que aconteceu?”, procurando descrever o comportamento do conjunto de dados e entender a mensagem que tais dados nos passam. Essa análise é fundamental para entender o passado, identificar padrões e tendências, e fornecer uma base para análises mais avançadas.
Para obter resultados em uma análise descritiva, geralmente utilizamos ferramentas de estatística descritiva e visualização de gráficos para verificar padrões e tendências de forma concisa e objetiva. Ao fornecer uma perspectiva ampla dos dados, serve como base para análises futuras mais complexas. Vamos ver de perto alguns conceitos que geralmente utilizamos para esse tipo de técnica:
Estatística Descritiva: Os números que falam
Estatística descritiva é a área da estatística que se dedica a organizar, resumir e apresentar dados de forma a facilitar a compreensão e interpretação de um conjunto de informações. Ela utiliza ferramentas como tabelas, gráficos e medidas estatísticas para descrever as principais características de um conjunto de dados, sem realizar inferências sobre uma população maior.
Esse ramo da estatística possui um papel fundamental na análise de dados, pois nos fornece diferentes tipos de métricas que nos ajudam a entender como os dados tendem a se comportar representando-os por meio de um ponto central que fala por todos os elementos de uma amostra. Isso é o que chamamos de medidas de tendência central. Vamos ver eles com detalhes abaixo:
- Média: O conceito é bem simples: É basicamente um valor que representa todos os elementos de uma amostra. É calculada somando todos os valores do conjunto de dados e dividindo pelo número total de valores.
$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$
Mediana: É o valor do meio em um conjunto de dados ordenado. Se houver um número par de valores, a mediana é a média dos dois valores do meio. Ela é útil para entender a tendência central de um conjunto de dados, especialmente quando há valores muito altos ou muito baixos (outliers) que podem distorcer a média.
Moda: É o valor que aparece com mais frequência em um conjunto de dados. Ela serve para entender qual o valor mais típico em uma amostra, destacando o mesmo para futuras análises.
Visto que podemos trabalhar com métricas específicas para calcular tendências e representatividade, vamos ver também que podemos trabalhar com medidas de dispersão. Essas medidas nos dizem o quanto nossos dados estão dispersos em relação à média, permitindo ter uma visão mais ampla deles. Vamos ver algumas delas abaixo:
Amplitude: É adiferença entre o maior e o menor valor no conjunto de dados.
Variância: Média dos quadrados das diferenças entre cada valor e a média do conjunto. Essa métrica nos dá uma média da variação dos elementos do conjunto em unidades quadradas.
Desvio padrão: Raiz quadrada da variância. É uma medida mais intuitiva e fácil de interpretar, pois está na mesma unidade dos dados originais.
Gráficos e visualização dos dados:
Para conseguir interpretar bem os resultados de qualquer análise, muitas vezes se faz necessário uma representação ilustrativa que nos mostre de forma suscinta, fácil e objetiva os fatos para os quais os dados apontam. Com a análise descritiva não é diferente, pois precisamos ter uma perspectiva clara sobre o que estamos tentando analisar. Para isso, fazemos o uso de diferentes tipos de gráficos, cada um adequado a um contexto diferente.
Histograma: Utilizado para representar a distribuição de frequência de variáveis contínuas, mostrando como os dados se distribuem em intervalos.
Gráfico de Barras: Adequado para comparar quantidades entre diferentes categorias ou grupos, especialmente com variáveis discretas ou nominais.
Gráfico de Setores (Pizza): Útil para mostrar a proporção de cada categoria em relação ao todo, ideal para variáveis nominais ou ordinais.
Boxplot (Gráfico de Caixa): Exibe a distribuição de dados, incluindo média, mediana, quartis e valores atípicos (outliers).
Gráfico de Dispersão (Scatter Plot): Mostra a relação entre duas variáveis numéricas, revelando padrões de correlação.
Gráfico de Linha: Normalmente usado para exibir séries temporais, mostrando tendências e variações ao longo do tempo.
Dicas para uma boa análise descritiva
Deu para ver um pouco dos conceitos que são utilizados dentro de uma análise descritiva. Para realizar uma boa análise desse tipo, não basta apenas ter boas ferramentas, mas também adquirir boas estratégias antes de utilizá-las. Precisamos nos preocupar sempre com a qualidade dos dados analisados antes de preocupar-se em realizar a análise, de forma que vamos ver algumas dicas abaixo que podem te ajudar a fazer uma boa análise descritiva:
Limpeza de Dados: Essa é uma etapa crucial em qualquer análise de dados. Ao receber os dados, deve-se averiguar de que eles estejam bem padronizados, com valores presentes e em formatos fáceis de manipular. Envolve principalmente a busca por dados ausentes e estratégias para tratar essas ausências.
Padronização: Como já foi dito antes, manter os dados padronizados em um formato consistente é uma ótima prática para análise.
Seleção: Escolha apenas os dados relevantes para sua análise. Evite trabalhar com tabelas inteiras caso não seja necessário, isso pode dificultar as coisas.
Testes: Faça diferentes testes de hipótese e verifique se os padrões observados são consistentes em conjuntos menores de dados.
Análise crítica e limpa: Seja crítico na sua análise. Se os resultados saírem muito da expectativa, refaça e verifique os métodos aplicados para confirmar os resultados. Use-os também para melhorar sua abordagem de análise. Seja claro, objetivo e conciso ao expressar resultados do seu trabalho.
Conclusão
Neste blog, pudemos ter uma visão mais ampla de como funciona uma análise descritiva e suas técnicas. Podemos ver que, para qualquer análise, não basta apenas ter boas ferramentas, mas também saber usá-las e expressar seus resultados de forma clara e objetiva, oferecendo uma boa perspectiva sobre as informações que são expressas pelos dados tratados.
Subscribe to my newsletter
Read articles from Abdiel Souza directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by
