Formation dbt : Le workflow d’Airflow
1790€ HT / personne |
2 jours (14 heures) |
Présentation
Depuis quelques années, dbt (data build tool) est devenu un outil incontournable dans les architectures data modernes. Gratuit, open source et pensé pour le cloud, il permet aux équipes analytiques de s’inspirer des pratiques de l’ingénierie logicielle afin de rapidement déployer des pipelines de données.
Durant ce cours, vous mettrez en place un environnement de développement spécifique à dbt, ce qui vous permettra de développer et de tester vos premiers modèles.
Vous verrez également comment dbt s’intègre dans les architectures data actuelles, et quelles sont les problématiques auxquelles cet outil peut répondre.
À la suite de cette formation, vous saurez tout des fonctionnalités principales de dbt ainsi que des différentes manières de l’utiliser en production, notamment en utilisant Airflow et Kubernetes. Comme toutes nos formations, celle-ci vous présentera la dernière version en date et ses nouveautés : dbt Core v1.4.
Objectifs
- Mettre en place un projet en partant de zéro
- Savoir utiliser et paramétrer l’IDE dbt
- Savoir déployer une production avec dbt
- Tester et documenter un modèle
- Intérioriser les bonnes pratiques
Public visé
- Data Scientists
- Data Analysts
- Chefs de projet
- Ingénieurs de données
- Business Analysts
PRÉ-REQUIS
- Avoir un compte Gmail
- Avoir un compte Github (lié au compte Gmail)
- Python 3 et Git installés
- Docker et Docker Compose installés
- Un logiciel d’édition de code (ex : Visual Studio)
- Omyzsh
Programme de notre formation dbt
Introduction
- Qu’est-ce que dbt ?
- ETL et ELT : les différences
- dbt Core vs dbt Cloud
- Le rôle de dbt au sein du Modern Data Stack
- Qu’est-ce que n’est pas dbt ?
- Data Warehousing: Data Lakes, Data Warehouses, Data Lakehouse
Mise en place de l’environnement dbt
- Création de l’environnement virtuel Python
- Installation de dbt Core et du plugin adéquat
- Connexion de dbt à l’entrepôt de données
- Fichiers de paramétrage YAML
- Bonnes pratiques en matière de structure de projet : raw data, staging, etc.
Modèles : Développements et tests
- Développement de modèles basiques
- Organisation d’un data warehouse
- Configuration des modèles : schéma, matérialisation, etc.
- Introduction aux différentes commandes dbt et aux flags possibles
- Mise en place des tests et des vérifications de résultats
Modèles : Configurations avancées
- Utilisation des sources et vérification de la freshness
- Ingestion de fichiers plats dans dbt : les seeds et leur utilité
- Matérialisation incrémentale : en append ou en update
- Macros, hooks
- Snapshots
La documentation dans dbt
- Présentation de la documentation au format dbt
- La commande dbt docs et ses différentes utilisations
- Test types: format (ex: generic, singular) + qualitative (ex: structurel, relationnel)
- Test exemples
- Bonnes pratiques en matière de documentation : utilisation de la syntaxe Jinja
- DBT docs et lineage
Les packages
- Le Package Hub
- dbt_utils
- codegen
- re_data
Dbt en production
- Intégration et développement continus (CI/CD)
- Orchestration de dbt à l’aide d’Apache Airflow : BashOperator, KubernetesPodOperator
- Présentation des différentes manières d’exécuter les projets
- Jobs scheduling
- DBT cloud
- Airflow
Pour aller plus loin
Formation Power BI
Formation Apache Airflow
Formation Qlik Sense
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Le(s) Formateur(s)
Flavien
Flavien est expert en modélisation et développement de pipeline de données. Il est actuellement en poste chez Ankorstore en analytics engineering. Communicateur efficace et soucieux de travailler en équipe, il anime également des formations sur divers outils de la modern data stack tels que dbt, GCP et divers outils ETL
Arnaud
Après quatre ans dans le conseil, je travaille aujourd’hui en tant que Data Analyst. Passionné par tout ce qui concerne la Modern Data Stack. J’utilise quotidiennement dbt.
Témoignages
Les + : la connaissance du formateur
Les – : disposer d’un support et exercice pour avoir un script et un jeu de données pertinents à des cas à éprouver et avoir les réponses
s’appuie sur beaucoup de commandes donc pas le temps de les imprimer en mémoire
mais on a vu l’essentiel attendu en venant
En synthèse : satisfait de la formation, du formateur et de l’équipe Ambient-IT
Afficher tous les témoignages
Les + : la connaissance du formateur
Les – : disposer d’un support et exercice pour avoir un script et un jeu de données pertinents à des cas à éprouver et avoir les réponses
s’appuie sur beaucoup de commandes donc pas le temps de les imprimer en mémoire
mais on a vu l’essentiel attendu en venant
En synthèse : satisfait de la formation, du formateur et de l’équipe Ambient-IT
Je recommande la formation
Je recommande la formation
Les + : riche en données, en cas, en expérience
Les – : malheureusement trop peu de temps pour tout dérouler, c’est la course permanente et personnellement j’ai souvent du copier les fichiers-solutions.
il faudrait soit prévoir plus de jours, soit adapter les exercices à la durée de 2 jours.
Je souhaite suivre : a voir dans le futur – python si vous le faites ?
En synthèse : très bien – peut etre vraiment revoir le nombre de modèles à la baisse pour apaiser le rythme et moins épuiser le formateur 😉
Les + : Compétences du formateur
Multitude de points abordés=> Conception, Documentation, Tests, Déploiement…
Les – : En pré requis il faut avoir déjà des compétences et être à peu prés à l’aise avec l’environnement. Elle a été adapté pour la plupart des apprenants, moins pour moi.
Délai trop court pour autant d’informations
Je recommande la formation
Les + : le formateur
Les – : un peu trop de sujet abordé pendant la formation ou il faudrait ajouter un jour de plus.
Je recommande la formation
Je recommande la formation
Les + : Efficace
Les – : Prévoir une configuration DBT-CORE unique : visual-studio, github, terminal, docker, docker-compose
Personnellement, impossible de faire interagir mon terminal WSL2 Ubuntu avec github.
Ce n’est pas grave en soit puisque j’ai utilisé DBT CLOUD mais la partie airflow n’a pas pu être mise en oeuvre de mon côté…
Je recommande la formation
Noter la formation
1790€ HT / personne |
2 jours (14 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS