ETL

Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias fontes em um grande repositório central, chamado de data warehouse.
O processo de ETL usa um conjunto de regras de negócios para limpar e organizar dados brutos e prepará-los para armazenamento, data analytics e machine learning (ML).

Como funciona o processo de ETL?

O processo de extração, transformação e carregamento (ETL) se dá pela movimentação de dados do sistema de origem para o sistema de destino em intervalos periódicos. O processo de ETL funciona em três etapas:

  1. Extração dos dados relevantes do banco de dados de origem
  2. Transformação dos dados para que sejam mais adequados a análises
  3. Carregamento dos dados no banco de dados de destino

O que é ELT?

Extração, carregamento e transformação (ELT) é uma extensão de extração, transformação e carregamento (ETL) que inverte a ordem das operações.
Você pode fazer o carregamento de dados diretamente no sistema de destino antes de processá-los.
A área de preparação intermediária não é necessária porque o data warehouse de destino possui recursos de mapeamento de dados.

O que é Extração de Dados?

Na extração de dados, as ferramentas de ETL extraem ou copiam dados brutos de diversas fontes e os armazenam em uma área de preparação.
Uma área de preparação (ou zona de pouso) é uma área de armazenamento intermediária para armazenamento temporário dos dados extraídos.
As áreas de preparação de dados geralmente são temporárias, o que significa que seu conteúdo é apagado após a conclusão da extração de dados.
A frequência com que o sistema envia dados da fonte de dados para o armazenamento de dados de destino depende do mecanismo de captura de dados de alterações subjacente. Normalmente, a extração de dados acontece de uma das três maneiras apresentadas a seguir.

  1. Notificação de atualização: o sistema de origem notifica você quando um registro de dados é alterado.
  2. Extração gradual: Algumas fontes de dados não podem fornecer notificações de atualização, mas podem identificar e extrair dados que foram modificados em um determinado período.
  3. Extração completa: alguns sistemas não conseguem identificar alterações de dados ou fornecer notificações, portanto, realizar novamente o carregamento de todos os dados é a única opção.

O que é transformação de dados?

As ferramentas de ETL transformam e consolidam os dados brutos na área de preparação a fim de prepará-los para o data warehouse de destino. A fase de transformação de dados pode envolver os seguintes tipos de alterações de dados.

  • Transformação de dados básica: melhoram a qualidade dos dados ao remover erros, esvaziar campos de dados ou simplificar os dados. Veja exemplos dessas transformações a seguir.
  1. Limpeza de dados: A limpeza de dados remove erros e mapeia os dados de origem para o formato de dados de destino
  2. Eliminação de duplicação de dados: identifica e remove registros duplicados
  3. Revisão de formato de dados: converte dados, como conjuntos de caracteres, unidades de medida e valores de data e horário, para um formato consistente.
  • Transformação de dados avançada: utilizam regras de negócios para otimizar os dados a fim de facilitar a análise. Veja exemplos dessas transformações a seguir.
  1. Derivação: aplica regras de negócios aos seus dados para calcular novos valores com base em valores existentes.
  2. Junção: vincula dados semelhantes de diferentes fontes de dados.
  3. Separação: você pode dividir uma coluna ou um atributo de dados em diversas colunas no sistema de destino.
  4. Resumo: melhora a qualidade dos dados ao reduzir um grande número de valores de dados em um conjunto de dados menor.
  5. Encriptação: Você pode proteger dados confidenciais para cumprir as leis de dados ou a privacidade de dados adicionando encriptação antes que os dados sejam transmitidos para o banco de dados de destino.

O que é carregamento de dados?

No carregamento de dados, as ferramentas de extração, transformação e carregamento (ETL) movem os dados transformados da área de preparação para o data warehouse de destino.
Veja abaixo métodos para carregamento de dados.

  • Carregamento completo: todos os dados da origem são transformados e movidos para o data warehouse.
  • Carregamento incremental: a ferramenta de ETL realiza o carregamento do delta (ou diferença) entre os sistemas de destino e de origem em intervalos regulares.
  • Carregamento incremental por transmissão: se você tiver pequenos volumes de dados, poderá transmitir alterações de forma contínua através de pipelines de dados para o data warehouse de destino.
  • Carregamento incremental em lotes: se você tiver grandes volumes de dados, poderá coletar alterações de dados de carregamento em lotes periodicamente.

ETL e ELT

O processo de ELT funciona bem para conjuntos de dados não estruturados e de alto volume que exigem carregamento frequente. Também é ideal para big data, pois o planejamento de análises pode ser realizado após a extração e o armazenamento dos dados.
O processo de ETL requer maior definição no início. A análise precisa estar envolvida desde o início para que haja definição dos tipos de dados de destino, estruturas e relações.

Diferença entre pipeline de dados e de ETL

Um pipeline de extração, transformação e carregamento (ETL) é um tipo especial de pipeline de dados. As ferramentas ETL extraem ou copiam dados brutos de várias fontes e os armazenam em um local temporário chamado de área de preparação.
Elas transformam os dados na área de preparação e os carregam em data lakes ou armazéns.
Nem todos os pipelines de dados seguem a sequência ETL.
Alguns podem extrair os dados de uma fonte e carregá-los em outro lugar sem transformações. Outros pipelines de dados seguem uma sequência de extração, carregamento e transformação (ELT), onde extraem e carregam dados não estruturados diretamente em um data lake.
Eles realizam alterações depois de mover as informações para data warehouses na nuvem.