O CRISP-DM, considerado o framework mais geral e amplamente utilizado, serve como base para a maioria dos projetos analíticos atuais, com suas seis fases inter-relacionadas ainda sendo adotadas por metodologias modernas; ele ajuda a organizar projetos de análise de dados, mesmo individuais, e compreender suas fases facilita a adaptação para outros frameworks.
🔄 As Seis Fases do CRISP-DM
🧠 1. Compreensão do Negócio (Business Understanding)
- Objetivo: Entender o problema de negócio a ser resolvido.
- Entregáveis: Objetivos de negócio, critérios de sucesso, definição clara do problema.
-
Atividades:
- Levantamento do contexto do problema.
- Identificação de stakeholders e suas expectativas.
- Avaliação de restrições e riscos.
- Formulação de perguntas analíticas chave.
📊 2. Compreensão dos Dados (Data Understanding)
- Objetivo: Coletar, explorar e familiarizar-se com os dados disponíveis.
- Entregáveis: Relatórios iniciais, avaliação da qualidade dos dados, insights preliminares.
-
Atividades:
- Exploração inicial dos dados.
- Verificação de formatos, tipos, integridade e consistência.
- Análise descritiva (distribuições, correlações, outliers).
🛠️ 3. Preparação dos Dados (Data Preparation)
- Objetivo: Criar o dataset limpo e estruturado para a modelagem.
- Entregáveis: Dataset transformado, pronto para análise/modelagem.
-
Atividades:
- Seleção de atributos relevantes.
- Limpeza dos dados (tratamento de valores ausentes, inconsistências).
- Transformações (normalização, encoding, agregações).
- Integração de múltiplas fontes de dados.
📈 4. Modelagem (Modeling)
- Objetivo: Construir modelos preditivos ou descritivos que atendam às necessidades do negócio.
- Entregáveis: Modelos treinados, ajustados e documentados.
-
Atividades:
- Escolha de técnicas (regressão, classificação, clustering, etc.).
- Exemplos de técnicas:
- Regressão Linear: Previsão de vendas futuras.
- Classificação: Prever churn de clientes.
- Séries Temporais: Forecasting de demanda.
- Market Basket Analysis: Análise de cestas de mercado.
- Treinamento e tuning de hiperparâmetros.
- Validação cruzada e análise de métricas de desempenho.
- Tabelas e gráficos de vendas por mês.
- Análise de cluster (agrupamento de clientes com comportamentos semelhantes).
- Análise de cestas de mercado (Market Basket Analysis).
🧪 5. Avaliação (Evaluation)
- Objetivo: Verificar se os modelos realmente resolvem o problema de negócio proposto.
- Entregáveis: Relatórios de avaliação, recomendações de ação.
-
Atividades:
- Interpretação detalhada dos resultados dos modelos.
- Comparação com os critérios de sucesso definidos na Fase 1.
- Validação junto aos stakeholders e ajustes necessários.
🚀 6. Implantação (Deployment)
- Objetivo: Implementar a solução de forma prática para uso real e contínuo.
- Entregáveis: Sistema ou processo analítico em produção.
-
Atividades:
- Automação de pipelines de dados e modelos.
- Documentação técnica e treinamento de usuários finais.
- Estabelecimento de monitoramento e rotinas de manutenção.
Business data analytics framework based on the cross-industry standard process for data-mining (CRISPDM), adapted from the CRISP-DM 1.0 Guideline (Chapman et al., 1999)
A fase de Business Understanding é o início do projeto analítico e é considerada a mais importante, pois é onde o problema a ser abordado é determinado. Nela, analistas de negócio estão envolvidos para investigar questões, entender impactos e formular a definição do problema. A definição do problema inclui contexto, uma declaração, suposições, cronograma, restrições e os resultados esperados da resolução do problema. É crucial a participação dos analistas de negócio para garantir que o problema certo está sendo abordado, evitando focar no problema errado ou propor uma solução antes que o problema real seja compreendido. Os resultados primários desta fase incluem determinar os objetivos de negócio, avaliar a situação (contexto), identificar as metas (resultados) e confirmar a abordagem e o plano do projeto.
Ao seguir o framework CRISP-DM, há diferentes passos que se baseiam uns nos outros e precisam ser estimados no plano do projeto. No entanto, isso não significa seguir os passos sem pensar, pois há muitas decisões e consequências a considerar. Métodos analíticos podem exigir um formato de dado ou plataforma específica. Uma avaliação rápida do modelo em dados de amostra pode levar de volta à etapa de transformação de dados. Fazer uma avaliação inicial das ferramentas no início do processo é importante, pois a seleção de ferramentas e técnicas pode influenciar todo o projeto.
Ao enfrentar novos tipos de problemas de análise de dados de negócio, ter um plano estruturado como o CRISP-DM é crucial para guiar a análise. O framework encapsula o conhecimento de mais de 200 membros do grupo de interesse especial CRISP-DM que construíram a diretriz (Chapman et al., 1999). Ele é projetado para ajudar quando não se está familiarizado com o problema enfrentado. Seguir o framework e as atividades nele garante que todos os aspectos necessários do problema sejam abordados sistemática e eficientemente.
O CRISP-DM ainda é considerado a principal metodologia para análise, mineração de dados ou dados.
Em suma, o CRISP-DM é um processo padronizado e estruturado que guia projetos de análise de dados através de seis fases principais, desde a compreensão inicial do problema de negócio até a implantação do resultado. É amplamente adotado na indústria e útil para abordar problemas familiares e novos.
Há checklists no final de cada capítulo de The Modern Business Data Analyst A Case Study Introduction into Business Data Analytics with CRISP-DM and R sobre as fases do CRISP-DM que servem como ferramentas para verificar a conclusão de tarefas e resultados dentro de cada fase. Esses checklists, adaptados da diretriz oficial do CRISP-DM (Chapman et al., 1999), detalham tarefas genéricas e resultados esperados para ajudar a manter a consistência com o framework.
🧠 A Fase de Business Understanding (Compreensão do Negócio)
📊 A Fase de Business Data Understanding (Compreensão dos Dados do Negócio)
🛠️ A Fase de Preparação dos Dados do Negócio (Business Data Preparation)
📈 A Fase de Modeling (Modelagem)
🧪 A Fase de Avaliação (Evaluation)
🚀 A Fase de Implantação (Deployment)