O CRISP-DM, considerado o framework mais geral e amplamente utilizado, serve como base para a maioria dos projetos analíticos atuais, com suas seis fases inter-relacionadas ainda sendo adotadas por metodologias modernas; ele ajuda a organizar projetos de análise de dados, mesmo individuais, e compreender suas fases facilita a adaptação para outros frameworks.


🔄 As Seis Fases do CRISP-DM


🧠 1. Compreensão do Negócio (Business Understanding)

  • Objetivo: Entender o problema de negócio a ser resolvido.
  • Entregáveis: Objetivos de negócio, critérios de sucesso, definição clara do problema.
  • Atividades:
    • Levantamento do contexto do problema.
    • Identificação de stakeholders e suas expectativas.
    • Avaliação de restrições e riscos.
    • Formulação de perguntas analíticas chave.

📊 2. Compreensão dos Dados (Data Understanding)

  • Objetivo: Coletar, explorar e familiarizar-se com os dados disponíveis.
  • Entregáveis: Relatórios iniciais, avaliação da qualidade dos dados, insights preliminares.
  • Atividades:
    • Exploração inicial dos dados.
    • Verificação de formatos, tipos, integridade e consistência.
    • Análise descritiva (distribuições, correlações, outliers).

🛠️ 3. Preparação dos Dados (Data Preparation)

  • Objetivo: Criar o dataset limpo e estruturado para a modelagem.
  • Entregáveis: Dataset transformado, pronto para análise/modelagem.
  • Atividades:
    • Seleção de atributos relevantes.
    • Limpeza dos dados (tratamento de valores ausentes, inconsistências).
    • Transformações (normalização, encoding, agregações).
    • Integração de múltiplas fontes de dados.

📈 4. Modelagem (Modeling)

  • Objetivo: Construir modelos preditivos ou descritivos que atendam às necessidades do negócio.
  • Entregáveis: Modelos treinados, ajustados e documentados.
  • Atividades:
    • Escolha de técnicas (regressão, classificação, clustering, etc.).
  • Exemplos de técnicas:
    • Regressão Linear: Previsão de vendas futuras.
    • Classificação: Prever churn de clientes.
    • Séries Temporais: Forecasting de demanda.
    • Market Basket Analysis: Análise de cestas de mercado.
    • Treinamento e tuning de hiperparâmetros.
    • Validação cruzada e análise de métricas de desempenho.
    • Tabelas e gráficos de vendas por mês.
    • Análise de cluster (agrupamento de clientes com comportamentos semelhantes).
    • Análise de cestas de mercado (Market Basket Analysis).

🧪 5. Avaliação (Evaluation)

  • Objetivo: Verificar se os modelos realmente resolvem o problema de negócio proposto.
  • Entregáveis: Relatórios de avaliação, recomendações de ação.
  • Atividades:
    • Interpretação detalhada dos resultados dos modelos.
    • Comparação com os critérios de sucesso definidos na Fase 1.
    • Validação junto aos stakeholders e ajustes necessários.

🚀 6. Implantação (Deployment)

  • Objetivo: Implementar a solução de forma prática para uso real e contínuo.
  • Entregáveis: Sistema ou processo analítico em produção.
  • Atividades:
    • Automação de pipelines de dados e modelos.
    • Documentação técnica e treinamento de usuários finais.
    • Estabelecimento de monitoramento e rotinas de manutenção.

Image description

Business data analytics framework based on the cross-industry standard process for data-mining (CRISPDM), adapted from the CRISP-DM 1.0 Guideline (Chapman et al., 1999)


A fase de Business Understanding é o início do projeto analítico e é considerada a mais importante, pois é onde o problema a ser abordado é determinado. Nela, analistas de negócio estão envolvidos para investigar questões, entender impactos e formular a definição do problema. A definição do problema inclui contexto, uma declaração, suposições, cronograma, restrições e os resultados esperados da resolução do problema. É crucial a participação dos analistas de negócio para garantir que o problema certo está sendo abordado, evitando focar no problema errado ou propor uma solução antes que o problema real seja compreendido. Os resultados primários desta fase incluem determinar os objetivos de negócio, avaliar a situação (contexto), identificar as metas (resultados) e confirmar a abordagem e o plano do projeto.


Ao seguir o framework CRISP-DM, há diferentes passos que se baseiam uns nos outros e precisam ser estimados no plano do projeto. No entanto, isso não significa seguir os passos sem pensar, pois há muitas decisões e consequências a considerar. Métodos analíticos podem exigir um formato de dado ou plataforma específica. Uma avaliação rápida do modelo em dados de amostra pode levar de volta à etapa de transformação de dados. Fazer uma avaliação inicial das ferramentas no início do processo é importante, pois a seleção de ferramentas e técnicas pode influenciar todo o projeto.


Ao enfrentar novos tipos de problemas de análise de dados de negócio, ter um plano estruturado como o CRISP-DM é crucial para guiar a análise. O framework encapsula o conhecimento de mais de 200 membros do grupo de interesse especial CRISP-DM que construíram a diretriz (Chapman et al., 1999). Ele é projetado para ajudar quando não se está familiarizado com o problema enfrentado. Seguir o framework e as atividades nele garante que todos os aspectos necessários do problema sejam abordados sistemática e eficientemente.

O CRISP-DM ainda é considerado a principal metodologia para análise, mineração de dados ou dados.

Em suma, o CRISP-DM é um processo padronizado e estruturado que guia projetos de análise de dados através de seis fases principais, desde a compreensão inicial do problema de negócio até a implantação do resultado. É amplamente adotado na indústria e útil para abordar problemas familiares e novos.


Há checklists no final de cada capítulo de The Modern Business Data Analyst A Case Study Introduction into Business Data Analytics with CRISP-DM and R sobre as fases do CRISP-DM que servem como ferramentas para verificar a conclusão de tarefas e resultados dentro de cada fase. Esses checklists, adaptados da diretriz oficial do CRISP-DM (Chapman et al., 1999), detalham tarefas genéricas e resultados esperados para ajudar a manter a consistência com o framework.


🧠 A Fase de Business Understanding (Compreensão do Negócio)
📊 A Fase de Business Data Understanding (Compreensão dos Dados do Negócio)
🛠️ A Fase de Preparação dos Dados do Negócio (Business Data Preparation)
📈 A Fase de Modeling (Modelagem)
🧪 A Fase de Avaliação (Evaluation)
🚀 A Fase de Implantação (Deployment)


📚 Referências