Fundamentos de Análise Exploratória de Dados
O que é? Onde mora? O que come essa tal de EDA?
Dados podem ser uma coleção de objetos, números, palavras, eventos, fatos, medidas ou mesmo apenas uma descrição de coisas do mundo real. Tais dados são coletados e armazenados devido a eventos ou processos que ocorrem em diversas disciplinas como biologia, economia, engenharia e marketing.
O processamento desses dados produz informação. Essa informação analisada em um determinado contexto produz conhecimento.
A maioria das empresas já "tem uma noção" da importância dos dados, mas possuem muitas dúvidas em como utilizar esses dados no seu negócio.
"Como transformar dados em informação útil e com significado para o meu negócio?"
A resposta para essa pergunta tem três letras: EDA (Exploratory Data Analisys). Em português, Análise Exploratória dos Dados, é o processo de examinar os conjuntos de dados disponíveis para descobrir padrões, anomalias, testar hipóteses e validar suposições utilizando medidas estatísticas.
A seguir, você irá aprender algumas das etapas necessárias para realizar uma análise exploratória dos dados e começar a compreender melhor os dados de uma organização.
Hoje em dia, o Cientista de Dados não é responsável somente por criar um modelo, é importante que ele consiga explicar os resultados obtidos e que o resultado possa ser utilizado para melhorar o negócio. Por isso, as pessoas costumam dizer que a ciência de dados envolve conhecimentos multi-disciplinar de Ciência da Computação, Dados, Estatística e Matemática.
"é importante que ele (cientista de dados) consiga explicar os resultados obtidos e que o resultado possa ser utilizado para melhorar o negócio."
Um cientista de dados pode estar envolvido em várias fases da análise de dados, incluindo os requisitos para os dados, coleta, processamento, limpeza, exploração, modelagem, algoritmos, implantação em produção e comunicação.
Os componentes principais da análise exploratória de dados incluem a sumarização de dados, análise estatística e visualização de dados.
O Python possui muitas ferramentas para isso: pandas para sumarização; scipy para análise estatística; matplotlib e plotly para visualizações.
Etapas na Análise Exploratória de Dados
Basicamente, existem quatro etapas diferentes; Vamos defini-las brevemente:
Definição do problema: Antes de sair por aí tentando extrair informação útil ou um insight a partir dos dados, é essencial definir o problema de negócio que precisa ser resolvido. A definição do problema funciona como a força motora para um plano de análise de dados, ter essa motivação bem clara é essencial para o sucesso. As principais tarefas dessa etapa são definir o objetivo da análise, quais os entregáveis, listar os papéis e responsabilidades dos membros, obter o status atual dos dados, definir o tempo para finalização e quando pretendem utilizar a informação e o definir também o custo benefício desse trabalho.
Com base em todas essas informações, o plano de execução pode ser criado com segurança.
Preparação dos Dados: Essa etapa envolve métodos para preparar os dados para a análise de fato. Aqui são definidas as fontes dos dados, os schemas e tabelas assim como as principais características dos dados. Também é realizada a limpeza e deleção dos dados não relevantes para o problema. Os dados são transformados e divididos em pedaços nessa etapa.
Fontes Heterogêneas: Atualmente os dados são coletados das mais diversas fontes (pesquisas, sistemas internos, internet, vendas). Tratar esses dados e uni-los em uma única plataforma vem se tornando um desafio pro setor.
Análise de Dados: Essa é efetivamente a etapa mais importante. Lida com estatística descritiva e análise dos dados. As principais tarefas são sumarização dos dados, busca de correlações "ocultas" e relacionamentos entre os dados, desenvolvimento de modelos preditivos, avaliação de modelos e cálculo de precisão. São utilizadas tabelas, grafos, estatística descritiva, inferência, busca e agrupamento, além de modelos matemáticos nessa etapa.
Desenvolvimento e Representação dos Resultados: Essa etapa envolve a apresentação dos resultados para a audiência/stakeholders através de gráficos, resumos, mapas e diagramas. É uma etapa essencial. Durante muito tempo foi desprezada pelos técnicos, mas cada vez mais as habilidades de storytelling tem sido valorizadas. Os resultados precisam ser interpretados pelas áreas de negócio e clientes, na verdade esse é o principal objetivo de toda a EDA. Entre os gráficos utilizados podemos citar o gráfico de dispersao (scattering plots), histogramas, box plots e outros. Habilidades em visualização de dados são muito exigidas também e vale a pena investir um certo tempo para aprender mais sobre isso.
Conclusão
A Análise Exploratória de Dados tem um papel muito importante no novo cenário data-driven que as organizações vem enfrentando.
O sucesso do planejamento e execução de cada uma das etapas entregará o melhor resultado para o cliente.
Quando comparamos com a análise clássica dos dados, fica fácil de enxergar que agora o foco está nos dados, sua estrutura, outliers e representação. Não no modelo de previsão.
Nos siga em @aprendadatascience para mais informações.