📊 Fase 2: Business Data Understanding (Compreensão dos Dados do Negócio)
A fase de Business Data Understanding é a segunda do framework CRISP-DM. Ela sucede a fase de Business Understanding, que foca na definição do problema e nos objetivos de negócio. Após o planejamento inicial e definição das metas, a equipe deve compreender profundamente as fontes de dados disponíveis, suas características e qualidade.
🎯 Objetivo da Fase
O objetivo principal é obter uma visão geral das fontes de dados relevantes para o projeto. Isso envolve explorar e entender os diferentes tipos de dados de negócio, suas nuances e significados dentro do contexto.
🔑 Critérios de Sucesso:
- Qualidade dos dados.
- Disponibilidade dos dados.
- Clareza sobre a capacidade dos dados responderem às perguntas do negócio.
Essa fase assegura que haja dados suficientes e adequados para sustentar a análise, sendo a base para Preparação dos Dados e Modelagem.
📝 Checklist da Fase Business Data Understanding
Baseado no livro The Modern Business Data Analyst, as tarefas essenciais são:
1. Collect initial data (Coletar Dados Iniciais)
- 📄 Relatório de Descrição dos Dados:
- Descrever estrutura, formato, volume, identidades dos campos.
- Preparar visão geral (ex: apresentação PowerPoint).
- Verificar alinhamento com os requisitos da fase anterior.
2. Describe data (Descrever os Dados)
- 📊 Estatísticas descritivas:
- Features numéricas e categóricas.
- Médias, medianas, desvio-padrão, cardinalidade.
3. Explore data (Explorar os Dados)
- 🔍 Análise Exploratória (EDA):
- Distribuição de variáveis.
- Relacionamentos entre features.
- Identificação de padrões e anomalias.
4. Verify data quality (Verificar a Qualidade dos Dados)
- 🧹 Relatório de Qualidade dos Dados:
- Detectar duplicatas, ruído, valores ausentes.
- Analisar consistência, outliers, representatividade.
- Documentar problemas e envolver engenheiros de dados, se necessário.
- Princípio GIGO: "Garbage In, Garbage Out" – dados ruins levam a análises ruins.
🖼️ Cenários Práticos
📉 1. Telecom – Churn de Clientes
Na fase de Compreensão dos Dados, para entender por que uma empresa de telecomunicações está perdendo clientes (churn), a equipe se concentraria em coletar e explorar dados sobre o churn. Isso incluiria coletar dados de diversas fontes, como demografia do cliente, padrões de uso e informações de faturamento. Em seguida, seria realizada a Análise Exploratória de Dados (EDA) para identificar tendências e relacionamentos, como a influência da duração do contrato ou dos encargos mensais nas taxas de churn. A qualidade dos dados também seria avaliada para identificar e tratar questões como valores ausentes ou inconsistências, essenciais para garantir análises confiáveis posteriormente.
- Coleta: Dados demográficos, padrões de uso, faturamento.
- Exploração: Como contratos e cobranças afetam o churn.
- Qualidade: Tratar valores ausentes, verificar consistência temporal.
🥃 2. Produção – Qualidade de Whisky
Ao trabalhar com dados de produção, como a qualidade do whisky em diferentes lotes de produção, a fase de Business Data Understanding envolveria coletar dados dos logs de produção e outras fontes relevantes. A descrição dos dados poderia incluir a análise de features numéricas (como pontuações de degustação) e categóricas (como o fabricante ou turno de produção). A exploração dos dados poderia envolver a criação de boxplots para visualizar a influência de features categóricas na qualidade ou a investigação inicial para detectar outliers. A verificação da qualidade dos dados garantiria que os logs não contêm erros de medição ou registros incompletos.
- Coleta: Logs de produção, lotes, pontuação de degustação.
- Exploração: Boxplots por fabricante, turno, tipo de barril.
- Qualidade: Corrigir erros de medição, remover registros incompletos.
🛒 3. E-commerce – Devoluções de Produtos
Ao analisar um dataset de uma loja online para entender e modelar as devoluções de clientes, a fase de Compreensão dos Dados do Negócio exigiria coletar dados sobre transações de vendas, informações de clientes e dados de armazenamento. A descrição dos dados envolveria a análise de variáveis como o tipo de item comprado, o histórico de compras do cliente e os motivos das devoluções anteriores. A exploração dos dados incluiria a criação de estatísticas descritivas e visualizações para entender a distribuição das devoluções e a relação entre diferentes fatores e a probabilidade de devolução. A verificação da qualidade dos dados seria crucial para garantir que os dados de transação estão completos e não contêm registros duplicados ou inconsistências que possam distorcer a análise.
- Coleta: Vendas, clientes, motivos de devolução.
- Exploração: Relação entre tipo de item e devolução.
- Qualidade: Validar transações, evitar duplicatas.
🚗 4. Manutenção de Veículos
Ao analisar dados de manutenção de carros para modelar a probabilidade de um cliente ter um problema sério e precisar retornar à oficina, a fase de Business Data Understanding consistiria em coletar dados de histórico de manutenção, informações do veículo e dados do cliente. A descrição dos dados focaria em entender o que cada feature representa (ex: tipo de reparo, data do serviço, quilometragem). A exploração dos dados envolveria o cálculo de estatísticas descritivas e a criação de visualizações para identificar padrões (ex: certos modelos de carros têm mais problemas, problemas recorrentes após certos tipos de reparo). A verificação da qualidade dos dados garantiria a precisão dos registros de serviço e que não faltam informações importantes sobre os reparos realizados.
- Coleta: Histórico de serviços, tipo de reparo, quilometragem.
- Exploração: Modelos de carros mais problemáticos.
- Qualidade: Garantir precisão de datas e serviços.
❓ 5. Ambiguidade de Dados
Um exemplo realça o problema quando uma equipe de ciência de dados recebe um arquivo CSV que parece promissor, mas as colunas não têm definições claras (semântica), falta contexto sobre a origem dos dados, por que foram gerados ou qual problema de negócio abordam. Isso causa ineficiência. A metodologia CLEAN e os quatro aspectos dos produtos de dados (contexto, estrutura, significado e dados) são propostos como formas de abordar esses problemas, enfatizando a necessidade de compreender os dados de forma holística, envolvendo diversos stakeholders para obter uma visão 360 graus.
- Problema: Dados recebidos sem contexto (ex: CSV sem dicionário).
- Solução: Aplicar metodologia CLEAN (Contexto, Estrutura, Significado, Dados) para envolver stakeholders e entender a origem.
⚠️ Importância da Fase
- Ignorar a qualidade dos dados pode comprometer todo o projeto.
- Resultados desta fase (relatórios, insights, problemas detectados) alimentam a Preparação dos Dados e a Modelagem.
- O processo não é linear: problemas descobertos depois podem exigir revisitar esta fase.
🧠 A Fase de Business Understanding (Compreensão do Negócio)
📊 A Fase de Business Data Understanding (Compreensão dos Dados do Negócio)
🛠️ A Fase de Preparação dos Dados do Negócio (Business Data Preparation)
📈 A Fase de Modeling (Modelagem)
🧪 A Fase de Avaliação (Evaluation)
🚀 A Fase de Implantação (Deployment)