Formation Apache Airflow avancé
| 1 790€ HT / personne |
| 2 jours (14 heures) |
Présentation
Notre formation Apache Airflow avancé vous permettra de maîtriser les fonctionnalités avancées d’Airflow afin de concevoir, planifier et industrialiser des workflows data et MLOps complexes.
Notre cours débutera par les modèles avancés de DAGs, les Task Groups, le mappage dynamique des tâches, les datasets et le Data-Aware Scheduling afin de mieux organiser les dépendances orientées données entre tâches et workflows.
Vous apprendrez également à exploiter les nouveautés Airflow 3, notamment l’architecture, le versioning des DAGs et l’approche orientée assets.
Nous poursuivrons avec la génération dynamique de DAGs grâce au Factory Pattern, aux configurations YAML/JSON, aux Airflow Variables ainsi qu’au templating avancé avec Jinja.
La formation abordera ensuite les problématiques d’architecture avancée avec les Task Groups, les limites des SubDAGs, les opérateurs personnalisés, les hooks et l’intégration avec des environnements externes tels que DockerOperator, PythonVirtualenvOperator ou KubernetesPodOperator.
Enfin, nous terminerons par les notions de scalabilité, les différents executors Airflow, les bonnes pratiques d’idempotence, les limites de la plateforme ainsi que les workflows modernes d’ingénierie des données et de ModelOps.
Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie Airflow Avancé (3.1.8) et ses nouveautés.
Objectifs
- Créer des DAGs dynamiques en utilisant des configurations YAML ou JSON.
- Maîtriser le Data-Aware Scheduling et les dépendances orientées données.
- Comprendre les nouveautés Airflow 3 et l’approche orientée assets.
- Structurer des workflows complexes avec Task Groups et branchements conditionnels.
- Créer des opérateurs, hooks et capteurs personnalisés.
- Intégrer des tâches avec des environnements externes comme Docker, Kubernetes ou PythonVirtualenv.
- Comprendre les mécanismes de scalabilité avec les différents executors Airflow.
- Appliquer les meilleures pratiques de ModelOps, d’idempotence et de gestion des workflows data.
Public visé
- Ingénieur Big data
- Développeur
- Tech Lead
- Architecte Technique
- Data engineer
- MLOps
- Data Scientist
Pré-requis
- Connaissance du langage Python
- 2 ans d’expérience minimum en data science ou ingénierie des données
- Compétences de base sur Apache Airflow
- Compréhension des concepts de DAG, tâches et scheduling
- De préférence, avoir suivi notre formation Airflow
Pré-requis logiciel
- La dernière version de Docker installée
- La dernière version de Docker Compose installée
- La dernière version de Python installée
- La dernière version d’Airflow installée
- Minimum 8GO de RAM et un SSD
Programme de notre formation Apache Airflow avancé
[Jour 1 – Matin]
Modèles avancés de DAG et scheduling
- Génération dynamique de DAG
- Groupes de tâches
- Déclenchement de l’exécution du DAG
- Mappage dynamique des tâches
- Opérateur différé
- Datasets et data aware scheduling
- Gestion du Backfill (UI Airflow 3 only)
- Data-Aware Scheduling : planification basée sur les assets
- Dépendances orientées données entre tâches, assets et DAGs
- Atelier pratique : Créer un DAG avancé avec Task Groups, datasets et déclenchement basé sur les assets.
Airflow 3 et génération dynamique de DAGs
- Architecture Airflow 3
- Le système de versioning des DAG
- Asset approche versus Task Approche
- Factory pattern avec configuration YAML/JSON
- Utilisation des Airflow Variables
- Enregistrement dans le namespace global
- Bonnes pratiques et impact sur le Scheduler
- Templating avancé avec Jinja
- Atelier pratique : Générer plusieurs DAGs dynamiques à partir d’une configuration YAML ou JSON.
[Jour 1 – Après-midi]
SubDAGs, Task Groups et workflows avancés
- Pourquoi éviter les SubDAGs : deadlocks, performance, visibilité, retry, couplage
- Task Groups : organisation logique sans overhead
- Patterns avancés : imbrication, génération dynamique
- Branchement conditionnel + Task Group
- Rappel sur les opérateurs Airflow disponibles
- Création d’opérateurs et de capteurs personnalisés
- Création de hooks pour des systèmes externes
- Atelier pratique : Refactorer un workflow avec Task Groups et créer un opérateur personnalisé simple.
Intégration avec des environnements externes
- ExternalPythonOperator
- PythonVirtualenvOperator
- DockerOperator
- KubernetesPodOperator
- Implémenter une tâche en utilisant le PythonVirtualenvOperator
- Créer un opérateur personnalisé pour interagir avec une API
- Créer un capteur qui attend une condition spécifique
- Atelier pratique : Exécuter une tâche isolée avec PythonVirtualenvOperator et interagir avec une API externe.
[Jour 2 – Matin]
Executors & scalabilité
- SequentialExecutor
- LocalExecutor, CeleryExecutor, KubernetesExecutor
- Schéma de parallélisme et gestion des pools
- Comprendre l’impact du choix d’executor sur l’exécution des workflows
- Optimiser la parallélisation et l’utilisation des ressources
- Atelier pratique : Configurer des pools Airflow et observer leur effet sur l’exécution parallèle des tâches.
Workflow data engineering et bonnes pratiques
- ModelOps
- Allocation dynamique des ressources
- Workflow de l’ingénierie des données
- Meilleures pratiques : idempotence
- Évitez le code de haut niveau
- Décidez où exécuter les tâches de traitement des données
- Ne pas passer de grandes quantités de données à travers XCom
- Atelier pratique : Auditer un DAG existant et identifier les améliorations liées à l’idempotence et aux XCom.
[Jour 2 – Après-midi]
Cas pratiques avancés et limitations
- Les limites d’Apache Airflow
- Identifier les cas où Airflow est adapté ou non
- Comprendre les impacts des choix d’architecture sur les performances
- Ressources pour améliorer ses connaissances
- Analyse de workflows complexes et problématiques réelles
- Atelier pratique : Analyser un workflow complexe et proposer des optimisations d’architecture et de scheduling.
Débrief technique et retour d’expérience
- Synthèse des concepts avancés étudiés
- Retour d’expérience sur les architectures Airflow modernes
- Échanges autour des problématiques des participants
- Bonnes pratiques de maintenance et d’évolution des DAGs
- Préparer l’industrialisation des workflows data et MLOps
- Atelier pratique : Présenter et commenter un workflow avancé construit durant la formation.
Pour aller plus loin
Formation Tensorflow
Formation Azure Machine Learning
Formation Vertex AI
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Nos Formateurs Référents
Témoignages
Je recommande la formation
Afficher tous les témoignages
Je recommande la formation
Les + : – bon equilibre theorie pratique.
– docker compose
– le formateur s’adapte aux besoins tout au long de la journée.
Les + : – slides très claires
– le formateur donne des explications pertinentes et précises
– le code mis à disposition autour du docker-compose + l’interface en ligne permettent d’avoir des exemples concrets et facilement testables
Les – : RAS
En synthèse : Merci beaucoup à Brendan !
Les + : Adaptée pour quelqu’un qui connait Airflow et qui souhaite approfondir ses connaissances
Permet de mieux comprendre des concepts parfois un peu flous (différents types de workers, assets etc…)
TP dispo pour chaque notion abordée
Formateur pédagogue et à l’écoute
En synthèse : Merci pour la formation, les sujets abordés étaient intéressants et en accord avec nos attentes
Noter la formation
| 1 790€ HT / personne |
| 2 jours (14 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS

