Sélectionner une page
Formations Data Data Engineer Formation Apache Airflow

Formation Apache Airflow

Niveau confirmé
Catégorie Essential
Logo Apache Airflow
Prix 1990€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et encas offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

Présentation

Notre formation Apache Airflow vous permettra de superviser, monitorer et planifier des centaines de pipelines. Ecrit en Python, Airflow est une alternative aux outils de workflow utilisant des langages descriptif ( XML , JSON , YAML … ) difficile à lire et à écrire.

À la fin de cette formation, vous pourrez rendre vos workflows dynamiques, automatisés et scalables. Vous apprendrez également à créer vos propres plug-ins, opérateurs et exécuteurs afin de coller au mieux à votre architecture big data.

Vous découvrirez les différents concepts qui composent Airflow, qu’est-ce qu’un DAG, une tâche, un exécuteur, un opérateur, etc. Nous ferons un tour de l’interface utilisateur ainsi que de l’interface en ligne de commande afin de très rapidement développer notre premier workflow interagissant avec différents systèmes de données.

De plus, vous apprendrez également les concepts avancés. Nous verrons avec de la mise en pratique et à travers de multiples exemples : comment rendre Airflow scalable à travers l’utilisation de différents Executors. Un programme qui vous permettra d’orchestrer vos pipelines de données de manière simple et robuste.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie Apache Airflow (3.1.8) et ses nouveautés.

 

Objectifs

  • Concevoir, déployer et maintenir des workflows de données robustes, observables et scalables avec Airflow 3.
  • Modéliser vos traitements sous forme de DAGS clairs, maintenables et testables.
  • Choisir et configurer les bons executors pour passer d’un PoC local à une plateforme de production.
  • Mettre en œuvre les nouveautés d’Airflow 3: assets, data-aware & event-driven scheduling, DAG versioning, nouvelle UI.

 

Public visé

  • Data engineers, Tech lead, Développeurs
  • Architectes techniques souhaitant structurer et fiabiliser leurs pipelines.
  • Équipes déjà sur Airflow 2 souhaitant préparer ou consolider leur migration vers Airflow 3

 

Pré-requis

 

Pré-requis logiciel

  • Installation de Docker ou Podman pour la gestion des conteneurs
  • Installation Python version >= 9.3.12
  • Un IDE de votre choix : VsCode, Pycharm…etc

 

Recommandations de lecture avant et après la formation

Programme de notre Formation Apache Airflow

 

Introduction & fondamentaux Airflow

  • Rappels sur la data orchestration (ETL, reprise automatique, scaling).
  • Présentation d’Apache Airflow: rôle, cas d’usage, avantages.
  • Historique et chronologie du projet.
  • Portabilité d’Airflow dans l’écosystème Big Data.
  • Pourquoi Airflow? Orchestration à grande échelle, intégration avec outils tiers. Communauté & support.

 

Installation & prise en main

  • Installation << classique » d’Airflow.
  • Installation via Docker.
  • Installation et utilisation de Astro CLI :
    • Création de projet Airflow.
    • Démarrage d’un environnement local.
    • Avantages pour l’industrialisation.
  • Airflow UI & Airflow CLI :
    • Commandes essentielles (db init, db clean, dags backfill, tasks test). Airflow API v2 (Airflow 3): documentation, premiers appels, démonstration.

 

Maîtriser les DAGS

  • Concepts de base : DAG, Task, Operator, dépendances.
  • Créer un DAG:
    • Approche << classique » (contexte with DAG). Approche décorateurs (@dag, @task).
    • Focus sur les paramètres d’un DAG.
  • DAG scheduling :
    • start_date, schedule (cron, presets, timedelta). Data interval, état des tâches.
  • Catchup & Backfill:
    • Concepts, bonnes pratiques, idempotence. Backfill via CLI et via Airflow UI (Airflow 3).
  • Pratique :  exercices de scheduling (unpause, catchup, backfill).

 

Scheduling avancé & data-aware

  • Data-Aware Scheduling :
    • Notion d’Asset (dataset).
    • Dépendances orientées données entre tâches, assets et DAGS.
    • Exemples: déclenchement sur disponibilité d’un fichier / d’une table.
  • Dataset scheduling mise en pratique (outlets, schedule).
  • Event-Driven Scheduling (Airflow 3):
  • Déclenchement de DAGS via événements externes et message queues.
  • Autres modes de scheduling:
    • Trigger via API (Airflow REST API).
    • Scheduling par timedelta.

 

Partage de données & templating

  • XCom: principe, stockage, limites, bonnes pratiques.
  • Pratique : échange de données entre tâches via XCom. Jinja templating:
    • Variables de contexte (ds, data_interval_start, etc.).
    • Référentiel des templates Airflow.

 

Organisation du code & gestion des erreurs

  • Organisation du dossier dags et Impact sur les performances du DAG Processor.
  • Gestion des erreurs :
    • Stratégies DAG-level et Task-level.
    • Notification (on_success, on_failure) et self-healing.
  • Pratique : factorisation du code, gestion d’erreurs avec handlers dédiés.

 

Tests & CI/CD

  • Pourquoi tester les DAGS et les tasks.
  • Outils et commandes
  • Sanity checks: tests de base sur la validité des DAGS.
  • Tests unitaires de tasks.

 

Concepts avancés de DAGS

  • Task Groups: structuration visuelle et logique des DAGS.
  • Branching/branchement conditionnel.
  • Re-branchement du flux.
  • Trigger Rules: règles de déclenchement avancées, cas pratiques.

 

Variables, configuration et environnements

  • Variables Airflow:
    • Définition (UI, CLI, fichier JSON).
    • Utilisation dans les DAGS.
  • Gestion multi-environnements (dev, staging, prod) via fichiers de configuration.
  • Pratique mise à jour de DAGs producer/consumer avec variables de config.

 

Nouveautés Airflow 3

  • Architecture Airflow 2 vs Airflow 3.
  • Task SDK & Remote Execution: exécution distante, Edge Executor, isolation. Nouvelle UI : vues, performances, découplage via API REST.
  • DAG Versioning:
    • Limitations Airflow 2.
    • Versioning automatique, changement structurel, snapshot par run.
  • Task Approach vs Asset Approach:
    • Concepts, différences, tableau comparatif.
    • Travaux pratiques Asset Approach.

 

Connections, Pools & intégration

  • Connections: principe, définition, utilisation depuis les DAGS.
  • Pools contrôle de la concurrence par ressource.
  • Pratique : DAG PostgreSQL (création de table, insertion, lecture).
  • Providers externes :
    • Google, Amazon, Docker, Slack, Postgres, etc.

 

Executors & scalabilité

  • Rôle de l’Executor.
  • Types d’Executors: Sequential, Local (défaut Airflow 3), Celery, Kubernetes.
  • Contrôle de la concurrence
  • CeleryExecutor :
    • Architecture, scalabilité horizontale, tolérance aux pannes.
    • Mise en pratique avec docker-compose Airflow officiel.

 

Sécurité, monitoring & logging

  • Pilier sécurité : authentification, autorisation (RBAC), secrets, réseau, audit, logs.
  • Authentification (LDAP, OAuth2, SSO, backend d’auth).
  • RBAC : rôles, permissions, bonnes pratiques.
  • Secrets & connexions: Secrets Backend (Vault, AWS/GCP).
  • Sécurité des DAGS, réseau et audit/logs.
  • Monitoring du cluster Airflow.
  • Système de logs : local, S3/GCS, Elasticsearch.
  • Stack ELK (Filebeat, Logstash, Elasticsearch, Kibana) pour les logs Airflow.

 

Limites d’Airflow & intégration écosystème

  • Limites d’Airflow
  • Combinaisons Airflow + Spark / Beam / Flink.

Pour aller plus loin

Formation Intelligence Artificielle

Formation TensorFlow

Formation Kafka

Autour du sujet

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Marc

Marc

Ingénieur Big Data dans la plus grande banque en ligne en France. Depuis plus de 3 ans, j’ai créé différents ETL afin de résoudre les problèmes quotidiens d’une banque.

Passionné et enthousiaste, j’ai à cœur de partager mes connaissances au plus grand nombre et d’échanger sur des technologies plus ou moins connues qui nous rassemblent.

Je suis très axé sur la pratique et je suis persuadé que c’est le meilleur moyen d’apprendre et d’acquérir de nouvelles connaissances.

Témoignages

11 mars 2026

Les + : Le formateur reproduisait le tp sur son poste.

Les – : Peut être manquait il du temps pour discuter de fonctionnalités avancés de Airflow

Irenee W. de chez FAURECIA SYSTEMES D'ECHAPPEMENT

Afficher tous les témoignages

11 mars 2026

Les + : Le formateur reproduisait le tp sur son poste.

Les – : Peut être manquait il du temps pour discuter de fonctionnalités avancés de Airflow

Irenee W. de chez FAURECIA SYSTEMES D'ECHAPPEMENT
11 mars 2026

Les + : Formateur top, contenu approprié et mise en pratique (assez simple mais pratique). Survole tout le contenu Airflow pour pouvoir commencer à implémenter en entreprise.

Je souhaite suivre : DBT, Spark

En synthèse : Merci Mehdi !

Alexandre A. de chez LINCOLN - Service formation ingénieur
11 mars 2026

Les + : Une formation sur Airflow v3

Mohamed Mehdi A. de chez ORANGE BUSINESS SERVICES SA
9 mars 2026

Les + : Comprendre Airflow, savoir y naviguer et comprendre le paramétrage des DAGs

Les – : Très dense en 1 seule journée

En synthèse : Formation très intéressante

Eric D. de chez SFR
9 mars 2026

Les – : Durée inadaptée au contenu => il faut probablement 1,5 ou 2 jours pour la mettre en oeuvre correctement

Christian T. de chez SFR
9 mars 2026

Je recommande la formation

Slim B. de chez SFR
9 mars 2026

Les + : La philosophie de Airflow est comprise.

Les – : Requiert un bon niveau Python, Autrement on se retrouve à copier coller les solutions.

En synthèse : 1 heure de connexion instable au début de la formation qui m’a fait accumuler du retard dès le début… Passage à Chrome impératif et dans Paramètres avancés -> Activer le mode Efficacité impératifs.

Guillaume J. de chez SFR
9 mars 2026

Je recommande la formation

Lionel M. de chez SFR
9 mars 2026

Les + : Pratique sur cas d’usage clair

Nicolas R. de chez SFR
9 mars 2026

Les + : Il y avait plus de pratiques

Les – : Trop de choses à voir pour la durée

En synthèse : Merci pour la qualité de la formation.

Adama B. de chez SFR
9 mars 2026

Les + : Découvrir le fonctionnement d’Airflow et apprendre à écrire des DAG

Les – : Le distanciel, écrire des partie de codes qui sont uniquement du python (créer une liste avec 3 produits, vérifier le stock, lire un fichier et compter les lignes) ça fait perdre du temps sur les vraies phase de pratique sur la partie Airflow, ces parties auraient pu être données d’office

Morgane F. de chez SFR
9 mars 2026

Les + : la pratique

Les – : nécessite une connaissance de Python.

Je souhaite suivre : Python

En synthèse : Je pense que la formation sur 2 jours aurait été mieux adaptée (surtout pour les débutant sur Python)

Abdelkrim A. de chez SFR

Noter la formation

Prix 1990€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et encas offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp