📊 Fase 2: Business Data Understanding (Compreensão dos Dados do Negócio)

A fase de Business Data Understanding é a segunda do framework CRISP-DM. Ela sucede a fase de Business Understanding, que foca na definição do problema e nos objetivos de negócio. Após o planejamento inicial e definição das metas, a equipe deve compreender profundamente as fontes de dados disponíveis, suas características e qualidade.


Image description


🎯 Objetivo da Fase

O objetivo principal é obter uma visão geral das fontes de dados relevantes para o projeto. Isso envolve explorar e entender os diferentes tipos de dados de negócio, suas nuances e significados dentro do contexto.

🔑 Critérios de Sucesso:

  • Qualidade dos dados.
  • Disponibilidade dos dados.
  • Clareza sobre a capacidade dos dados responderem às perguntas do negócio.

Essa fase assegura que haja dados suficientes e adequados para sustentar a análise, sendo a base para Preparação dos Dados e Modelagem.


📝 Checklist da Fase Business Data Understanding

Baseado no livro The Modern Business Data Analyst, as tarefas essenciais são:

1. Collect initial data (Coletar Dados Iniciais)

  • 📄 Relatório de Descrição dos Dados:
    • Descrever estrutura, formato, volume, identidades dos campos.
    • Preparar visão geral (ex: apresentação PowerPoint).
    • Verificar alinhamento com os requisitos da fase anterior.

2. Describe data (Descrever os Dados)

  • 📊 Estatísticas descritivas:
    • Features numéricas e categóricas.
    • Médias, medianas, desvio-padrão, cardinalidade.

3. Explore data (Explorar os Dados)

  • 🔍 Análise Exploratória (EDA):
    • Distribuição de variáveis.
    • Relacionamentos entre features.
    • Identificação de padrões e anomalias.

4. Verify data quality (Verificar a Qualidade dos Dados)

  • 🧹 Relatório de Qualidade dos Dados:
    • Detectar duplicatas, ruído, valores ausentes.
    • Analisar consistência, outliers, representatividade.
    • Documentar problemas e envolver engenheiros de dados, se necessário.
    • Princípio GIGO: "Garbage In, Garbage Out" – dados ruins levam a análises ruins.

🖼️ Cenários Práticos


📉 1. Telecom – Churn de Clientes

Na fase de Compreensão dos Dados, para entender por que uma empresa de telecomunicações está perdendo clientes (churn), a equipe se concentraria em coletar e explorar dados sobre o churn. Isso incluiria coletar dados de diversas fontes, como demografia do cliente, padrões de uso e informações de faturamento. Em seguida, seria realizada a Análise Exploratória de Dados (EDA) para identificar tendências e relacionamentos, como a influência da duração do contrato ou dos encargos mensais nas taxas de churn. A qualidade dos dados também seria avaliada para identificar e tratar questões como valores ausentes ou inconsistências, essenciais para garantir análises confiáveis posteriormente.

  • Coleta: Dados demográficos, padrões de uso, faturamento.
  • Exploração: Como contratos e cobranças afetam o churn.
  • Qualidade: Tratar valores ausentes, verificar consistência temporal.

🥃 2. Produção – Qualidade de Whisky

Ao trabalhar com dados de produção, como a qualidade do whisky em diferentes lotes de produção, a fase de Business Data Understanding envolveria coletar dados dos logs de produção e outras fontes relevantes. A descrição dos dados poderia incluir a análise de features numéricas (como pontuações de degustação) e categóricas (como o fabricante ou turno de produção). A exploração dos dados poderia envolver a criação de boxplots para visualizar a influência de features categóricas na qualidade ou a investigação inicial para detectar outliers. A verificação da qualidade dos dados garantiria que os logs não contêm erros de medição ou registros incompletos.

  • Coleta: Logs de produção, lotes, pontuação de degustação.
  • Exploração: Boxplots por fabricante, turno, tipo de barril.
  • Qualidade: Corrigir erros de medição, remover registros incompletos.

🛒 3. E-commerce – Devoluções de Produtos

Ao analisar um dataset de uma loja online para entender e modelar as devoluções de clientes, a fase de Compreensão dos Dados do Negócio exigiria coletar dados sobre transações de vendas, informações de clientes e dados de armazenamento. A descrição dos dados envolveria a análise de variáveis como o tipo de item comprado, o histórico de compras do cliente e os motivos das devoluções anteriores. A exploração dos dados incluiria a criação de estatísticas descritivas e visualizações para entender a distribuição das devoluções e a relação entre diferentes fatores e a probabilidade de devolução. A verificação da qualidade dos dados seria crucial para garantir que os dados de transação estão completos e não contêm registros duplicados ou inconsistências que possam distorcer a análise.

  • Coleta: Vendas, clientes, motivos de devolução.
  • Exploração: Relação entre tipo de item e devolução.
  • Qualidade: Validar transações, evitar duplicatas.

🚗 4. Manutenção de Veículos

Ao analisar dados de manutenção de carros para modelar a probabilidade de um cliente ter um problema sério e precisar retornar à oficina, a fase de Business Data Understanding consistiria em coletar dados de histórico de manutenção, informações do veículo e dados do cliente. A descrição dos dados focaria em entender o que cada feature representa (ex: tipo de reparo, data do serviço, quilometragem). A exploração dos dados envolveria o cálculo de estatísticas descritivas e a criação de visualizações para identificar padrões (ex: certos modelos de carros têm mais problemas, problemas recorrentes após certos tipos de reparo). A verificação da qualidade dos dados garantiria a precisão dos registros de serviço e que não faltam informações importantes sobre os reparos realizados.

  • Coleta: Histórico de serviços, tipo de reparo, quilometragem.
  • Exploração: Modelos de carros mais problemáticos.
  • Qualidade: Garantir precisão de datas e serviços.

5. Ambiguidade de Dados

Um exemplo realça o problema quando uma equipe de ciência de dados recebe um arquivo CSV que parece promissor, mas as colunas não têm definições claras (semântica), falta contexto sobre a origem dos dados, por que foram gerados ou qual problema de negócio abordam. Isso causa ineficiência. A metodologia CLEAN e os quatro aspectos dos produtos de dados (contexto, estrutura, significado e dados) são propostos como formas de abordar esses problemas, enfatizando a necessidade de compreender os dados de forma holística, envolvendo diversos stakeholders para obter uma visão 360 graus.

  • Problema: Dados recebidos sem contexto (ex: CSV sem dicionário).
  • Solução: Aplicar metodologia CLEAN (Contexto, Estrutura, Significado, Dados) para envolver stakeholders e entender a origem.

⚠️ Importância da Fase

  • Ignorar a qualidade dos dados pode comprometer todo o projeto.
  • Resultados desta fase (relatórios, insights, problemas detectados) alimentam a Preparação dos Dados e a Modelagem.
  • O processo não é linear: problemas descobertos depois podem exigir revisitar esta fase.

🧠 A Fase de Business Understanding (Compreensão do Negócio)
📊 A Fase de Business Data Understanding (Compreensão dos Dados do Negócio)
🛠️ A Fase de Preparação dos Dados do Negócio (Business Data Preparation)
📈 A Fase de Modeling (Modelagem)
🧪 A Fase de Avaliação (Evaluation)
🚀 A Fase de Implantação (Deployment)


📚 Referências