Formations Data ETL Formation DBT : Workflow avec Airflow

Formation dbt : Le workflow d’Airflow

Rated 4,2 out of 5
formation dbt
Prix 1790€ HT / personne
Durée 2 jours (14 heures)

Paris | Classe Virtuelle

Il ne reste que quelques places
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Depuis quelques années, dbt (data build tool) est devenu un outil incontournable dans les architectures data modernes. Gratuit, open source et pensé pour le cloud, il permet aux équipes analytiques de s’inspirer des pratiques de l’ingénierie logicielle afin de rapidement déployer des pipelines de données.

Durant ce cours, vous mettrez en place un environnement de développement spécifique à dbt, ce qui vous permettra de développer et de tester vos premiers modèles.

Vous verrez également comment dbt s’intègre dans les architectures data actuelles, et quelles sont les problématiques auxquelles cet outil peut répondre.

À la suite de cette formation, vous saurez tout des fonctionnalités principales de dbt ainsi que des différentes manières de l’utiliser en production, notamment en utilisant Airflow et Kubernetes. Comme toutes nos formations, celle-ci vous présentera la dernière version en date et ses nouveautés : dbt Core v1.7.

 

Objectifs

  • Mettre en place un projet en partant de zéro
  • Savoir utiliser et paramétrer l’IDE dbt
  • Savoir déployer une production avec dbt
  • Tester et documenter un modèle
  • Intérioriser les bonnes pratiques

 

Public visé

  • Data Scientists
  • Data Analysts
  • Chefs de projet
  • Ingénieurs de données
  • Business Analysts

 

PRÉ-REQUIS

  • Connaissance des pipelines de données
  • Savoir utiliser Docker
  • Connaissance de python

 

PRÉ-REQUIS techniques

  • Avoir un compte Gmail
  • Avoir un compte Github (lié au compte Gmail)
  • Python 3 et Git installés
  • Docker et Docker Compose installés
  • Un logiciel d’édition de code (ex : Visual Studio)
  • Omyzsh

Programme de notre formation dbt

 

Introduction

  • Qu’est-ce que dbt ?
  • ETL et ELT : les différences
  • dbt Core vs dbt Cloud
  • Le rôle de dbt au sein du Modern Data Stack
  • Qu’est-ce que n’est pas dbt ?
  • Data Warehousing: Data Lakes, Data Warehouses, Data Lakehouse

 

Mise en place de l’environnement dbt

  • Création de l’environnement virtuel Python
  • Installation de dbt Core et du plugin adéquat
  • Connexion de dbt à l’entrepôt de données
  • Fichiers de paramétrage YAML
  • Bonnes pratiques en matière de structure de projet : raw data, staging, etc.

 

Modèles : Développements et tests

  • Développement de modèles basiques
  • Organisation d’un data warehouse
  • Configuration des modèles : schéma, matérialisation, etc.
  • Introduction aux différentes commandes dbt et aux flags possibles
  • Mise en place des tests et des vérifications de résultats

 

Modèles : Configurations avancées

  • Utilisation des sources et vérification de la freshness
  • Ingestion de fichiers plats dans dbt : les seeds et leur utilité
  • Matérialisation incrémentale : en append ou en update
  • Macros, hooks
  • Snapshots

 

La documentation dans dbt

  • Présentation de la documentation au format dbt
  • La commande dbt docs et ses différentes utilisations
  • Test types: format (ex: generic, singular) + qualitative (ex: structurel, relationnel)
  • Test exemples
  • Bonnes pratiques en matière de documentation : utilisation de la syntaxe Jinja
  • DBT docs et lineage

 

Les packages

  • Le Package Hub
    • dbt_utils
    • codegen
    • re_data

 

Dbt en production

  • Intégration et développement continus (CI/CD)
  • Orchestration de dbt à l’aide d’Apache Airflow : BashOperator, KubernetesPodOperator
  • Présentation des différentes manières d’exécuter les projets
  • Jobs scheduling
    • DBT cloud
    • Airflow

Pour aller plus loin

Formation Power BI

Formation Apache Airflow

Formation Qlik Sense

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Le(s) Formateur(s)

Flavien

Flavien

Flavien est expert en modélisation et développement de pipeline de données. Il est actuellement en poste chez Ankorstore en analytics engineering. Communicateur efficace et soucieux de travailler en équipe, il anime également des formations sur divers outils de la modern data stack tels que dbt, GCP et divers outils ETL
Arnaud

Arnaud

Après quatre ans dans le conseil, je travaille aujourd’hui en tant que Data Analyst. Passionné par tout ce qui concerne la Modern Data Stack. J’utilise quotidiennement dbt.

Témoignages

Rated 4,0 out of 5
26 mai 2023

Les + : la connaissance du formateur

Les – : disposer d’un support et exercice pour avoir un script et un jeu de données pertinents à des cas à éprouver et avoir les réponses

s’appuie sur beaucoup de commandes donc pas le temps de les imprimer en mémoire

mais on a vu l’essentiel attendu en venant

En synthèse : satisfait de la formation, du formateur et de l’équipe Ambient-IT

Yannick C. de chez Positive Thinking

Afficher tous les témoignages

Rated 4,0 out of 5
26 mai 2023

Les + : la connaissance du formateur

Les – : disposer d’un support et exercice pour avoir un script et un jeu de données pertinents à des cas à éprouver et avoir les réponses

s’appuie sur beaucoup de commandes donc pas le temps de les imprimer en mémoire

mais on a vu l’essentiel attendu en venant

En synthèse : satisfait de la formation, du formateur et de l’équipe Ambient-IT

Yannick C. de chez Positive Thinking
Rated 4,0 out of 5
26 mai 2023

Je recommande la formation

Mohamed Zied H. de chez Positive Thinking
Rated 5,0 out of 5
26 mai 2023

Je recommande la formation

Tibaud A. de chez Hove
Rated 4,0 out of 5
11 mai 2023

Les + : riche en données, en cas, en expérience

Les – : malheureusement trop peu de temps pour tout dérouler, c’est la course permanente et personnellement j’ai souvent du copier les fichiers-solutions.

il faudrait soit prévoir plus de jours, soit adapter les exercices à la durée de 2 jours.

Je souhaite suivre : a voir dans le futur – python si vous le faites ?

En synthèse : très bien – peut etre vraiment revoir le nombre de modèles à la baisse pour apaiser le rythme et moins épuiser le formateur 😉

Michael S. de chez VISEO
Rated 4,0 out of 5
11 mai 2023

Les + : Compétences du formateur

Multitude de points abordés=> Conception, Documentation, Tests, Déploiement…

Les – : En pré requis il faut avoir déjà des compétences et être à peu prés à l’aise avec l’environnement. Elle a été adapté pour la plupart des apprenants, moins pour moi.

Délai trop court pour autant d’informations

Julien D. de chez VISEO
Rated 4,0 out of 5
11 mai 2023

Je recommande la formation

Sébastien T. de chez VISEO
Rated 5,0 out of 5
11 mai 2023

Les + : le formateur

Les – : un peu trop de sujet abordé pendant la formation ou il faudrait ajouter un jour de plus.

Lionel C. de chez VISEO
Rated 4,0 out of 5
11 mai 2023

Je recommande la formation

Indira H. de chez VISEO
Rated 4,0 out of 5
11 mai 2023

Je recommande la formation

Jaqcues P. de chez VISEO
Rated 4,0 out of 5
11 mai 2023

Les + : Efficace

Les – : Prévoir une configuration DBT-CORE unique : visual-studio, github, terminal, docker, docker-compose

Personnellement, impossible de faire interagir mon terminal WSL2 Ubuntu avec github.

Ce n’est pas grave en soit puisque j’ai utilisé DBT CLOUD mais la partie airflow n’a pas pu être mise en oeuvre de mon côté…

Romain S. de chez VISEO
Rated 4,0 out of 5
11 mai 2023

Je recommande la formation

Florent V. de chez VISEO

Noter la formation

Prix 1790€ HT / personne
Durée 2 jours (14 heures)

Paris | Classe Virtuelle

Il ne reste que quelques places
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp