Formation Apache Airflow
| 1990€ HT / personne |
| 3 jours (21 heures) |
Présentation
Notre formation Apache Airflow vous permettra de superviser, monitorer et planifier des centaines de pipelines. Ecrit en Python, Airflow est une alternative aux outils de workflow utilisant des langages descriptif ( XML , JSON , YAML … ) difficile à lire et à écrire.
À la fin de cette formation, vous pourrez rendre vos workflows dynamiques, automatisés et scalables. Vous apprendrez également à créer vos propres plug-ins, opérateurs et exécuteurs afin de coller au mieux à votre architecture big data.
Vous découvrirez les différents concepts qui composent Airflow, qu’est-ce qu’un DAG, une tâche, un exécuteur, un opérateur, etc. Nous ferons un tour de l’interface utilisateur ainsi que de l’interface en ligne de commande afin de très rapidement développer notre premier workflow interagissant avec différents systèmes de données.
De plus, vous apprendrez également les concepts avancés. Nous verrons avec de la mise en pratique et à travers de multiples exemples : comment rendre Airflow scalable à travers l’utilisation de différents Executors. Un programme qui vous permettra d’orchestrer vos pipelines de données de manière simple et robuste.
Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie Apache Airflow (3.1.8) et ses nouveautés.
Objectifs
- Concevoir, déployer et maintenir des workflows de données robustes, observables et scalables avec Airflow 3.
- Modéliser vos traitements sous forme de DAGS clairs, maintenables et testables.
- Choisir et configurer les bons executors pour passer d’un PoC local à une plateforme de production.
- Mettre en œuvre les nouveautés d’Airflow 3: assets, data-aware & event-driven scheduling, DAG versioning, nouvelle UI.
Public visé
- Data engineers, Tech lead, Développeurs
- Architectes techniques souhaitant structurer et fiabiliser leurs pipelines.
- Équipes déjà sur Airflow 2 souhaitant préparer ou consolider leur migration vers Airflow 3
Pré-requis
- Connaissance de base en langage Python
- Tester Mes Connaissances
Pré-requis logiciel
- Installation de Docker ou Podman pour la gestion des conteneurs
- Installation Python version >= 9.3.12
- Un IDE de votre choix : VsCode, Pycharm…etc
Recommandations de lecture avant et après la formation
- Un article informatif et bien structuré sur les bonnes pratiques à utiliser sur Apache Airflow
- Un tutoriel pour automatiser vos pipelines de données, idéal pour renforcer votre productivité
- 5 minutes de lecture pour comprendre les tests sur Apache Airflow
- Un article génial pour utiliser Airflow de la bonne manière et éviter les erreurs les plus fréquentes
Programme de notre Formation Apache Airflow
Introduction & fondamentaux Airflow
- Rappels sur la data orchestration (ETL, reprise automatique, scaling).
- Présentation d’Apache Airflow: rôle, cas d’usage, avantages.
- Historique et chronologie du projet.
- Portabilité d’Airflow dans l’écosystème Big Data.
- Pourquoi Airflow? Orchestration à grande échelle, intégration avec outils tiers. Communauté & support.
Installation & prise en main
- Installation << classique » d’Airflow.
- Installation via Docker.
- Installation et utilisation de Astro CLI :
- Création de projet Airflow.
- Démarrage d’un environnement local.
- Avantages pour l’industrialisation.
- Airflow UI & Airflow CLI :
- Commandes essentielles (db init, db clean, dags backfill, tasks test). Airflow API v2 (Airflow 3): documentation, premiers appels, démonstration.
Maîtriser les DAGS
- Concepts de base : DAG, Task, Operator, dépendances.
- Créer un DAG:
- Approche << classique » (contexte with DAG). Approche décorateurs (@dag, @task).
- Focus sur les paramètres d’un DAG.
- DAG scheduling :
- start_date, schedule (cron, presets, timedelta). Data interval, état des tâches.
- Catchup & Backfill:
- Concepts, bonnes pratiques, idempotence. Backfill via CLI et via Airflow UI (Airflow 3).
- Pratique : exercices de scheduling (unpause, catchup, backfill).
Scheduling avancé & data-aware
- Data-Aware Scheduling :
- Notion d’Asset (dataset).
- Dépendances orientées données entre tâches, assets et DAGS.
- Exemples: déclenchement sur disponibilité d’un fichier / d’une table.
- Dataset scheduling mise en pratique (outlets, schedule).
- Event-Driven Scheduling (Airflow 3):
- Déclenchement de DAGS via événements externes et message queues.
- Autres modes de scheduling:
- Trigger via API (Airflow REST API).
- Scheduling par timedelta.
Partage de données & templating
- XCom: principe, stockage, limites, bonnes pratiques.
- Pratique : échange de données entre tâches via XCom. Jinja templating:
- Variables de contexte (ds, data_interval_start, etc.).
- Référentiel des templates Airflow.
Organisation du code & gestion des erreurs
- Organisation du dossier dags et Impact sur les performances du DAG Processor.
- Gestion des erreurs :
- Stratégies DAG-level et Task-level.
- Notification (on_success, on_failure) et self-healing.
- Pratique : factorisation du code, gestion d’erreurs avec handlers dédiés.
Tests & CI/CD
- Pourquoi tester les DAGS et les tasks.
- Outils et commandes
- Sanity checks: tests de base sur la validité des DAGS.
- Tests unitaires de tasks.
Concepts avancés de DAGS
- Task Groups: structuration visuelle et logique des DAGS.
- Branching/branchement conditionnel.
- Re-branchement du flux.
- Trigger Rules: règles de déclenchement avancées, cas pratiques.
Variables, configuration et environnements
- Variables Airflow:
- Définition (UI, CLI, fichier JSON).
- Utilisation dans les DAGS.
- Gestion multi-environnements (dev, staging, prod) via fichiers de configuration.
- Pratique mise à jour de DAGs producer/consumer avec variables de config.
Nouveautés Airflow 3
- Architecture Airflow 2 vs Airflow 3.
- Task SDK & Remote Execution: exécution distante, Edge Executor, isolation. Nouvelle UI : vues, performances, découplage via API REST.
- DAG Versioning:
- Limitations Airflow 2.
- Versioning automatique, changement structurel, snapshot par run.
- Task Approach vs Asset Approach:
- Concepts, différences, tableau comparatif.
- Travaux pratiques Asset Approach.
Connections, Pools & intégration
- Connections: principe, définition, utilisation depuis les DAGS.
- Pools contrôle de la concurrence par ressource.
- Pratique : DAG PostgreSQL (création de table, insertion, lecture).
- Providers externes :
- Google, Amazon, Docker, Slack, Postgres, etc.
Executors & scalabilité
- Rôle de l’Executor.
- Types d’Executors: Sequential, Local (défaut Airflow 3), Celery, Kubernetes.
- Contrôle de la concurrence
- CeleryExecutor :
- Architecture, scalabilité horizontale, tolérance aux pannes.
- Mise en pratique avec docker-compose Airflow officiel.
Sécurité, monitoring & logging
- Pilier sécurité : authentification, autorisation (RBAC), secrets, réseau, audit, logs.
- Authentification (LDAP, OAuth2, SSO, backend d’auth).
- RBAC : rôles, permissions, bonnes pratiques.
- Secrets & connexions: Secrets Backend (Vault, AWS/GCP).
- Sécurité des DAGS, réseau et audit/logs.
- Monitoring du cluster Airflow.
- Système de logs : local, S3/GCS, Elasticsearch.
- Stack ELK (Filebeat, Logstash, Elasticsearch, Kibana) pour les logs Airflow.
Limites d’Airflow & intégration écosystème
- Limites d’Airflow
- Combinaisons Airflow + Spark / Beam / Flink.
Pour aller plus loin
Formation Intelligence Artificielle
Formation TensorFlow
Formation Kafka
Autour du sujet
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Nos Formateurs Référents

Marc
Passionné et enthousiaste, j’ai à cœur de partager mes connaissances au plus grand nombre et d’échanger sur des technologies plus ou moins connues qui nous rassemblent.
Je suis très axé sur la pratique et je suis persuadé que c’est le meilleur moyen d’apprendre et d’acquérir de nouvelles connaissances.
Témoignages
Les + : Le formateur reproduisait le tp sur son poste.
Les – : Peut être manquait il du temps pour discuter de fonctionnalités avancés de Airflow
Afficher tous les témoignages
Les + : Le formateur reproduisait le tp sur son poste.
Les – : Peut être manquait il du temps pour discuter de fonctionnalités avancés de Airflow
Les + : Formateur top, contenu approprié et mise en pratique (assez simple mais pratique). Survole tout le contenu Airflow pour pouvoir commencer à implémenter en entreprise.
Je souhaite suivre : DBT, Spark
En synthèse : Merci Mehdi !
Les + : Une formation sur Airflow v3
Les + : Comprendre Airflow, savoir y naviguer et comprendre le paramétrage des DAGs
Les – : Très dense en 1 seule journée
En synthèse : Formation très intéressante
Les – : Durée inadaptée au contenu => il faut probablement 1,5 ou 2 jours pour la mettre en oeuvre correctement
Je recommande la formation
Les + : La philosophie de Airflow est comprise.
Les – : Requiert un bon niveau Python, Autrement on se retrouve à copier coller les solutions.
En synthèse : 1 heure de connexion instable au début de la formation qui m’a fait accumuler du retard dès le début… Passage à Chrome impératif et dans Paramètres avancés -> Activer le mode Efficacité impératifs.
Je recommande la formation
Les + : Pratique sur cas d’usage clair
Les + : Il y avait plus de pratiques
Les – : Trop de choses à voir pour la durée
En synthèse : Merci pour la qualité de la formation.
Les + : Découvrir le fonctionnement d’Airflow et apprendre à écrire des DAG
Les – : Le distanciel, écrire des partie de codes qui sont uniquement du python (créer une liste avec 3 produits, vérifier le stock, lire un fichier et compter les lignes) ça fait perdre du temps sur les vraies phase de pratique sur la partie Airflow, ces parties auraient pu être données d’office
Les + : la pratique
Les – : nécessite une connaissance de Python.
Je souhaite suivre : Python
En synthèse : Je pense que la formation sur 2 jours aurait été mieux adaptée (surtout pour les débutant sur Python)
Navigation Site Reviews
Noter la formation
| 1990€ HT / personne |
| 3 jours (21 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS

