Sélectionner une page

Formation > Blog > Data > Apache Airflow 3.2 : les 7 nouveautés majeures

Apache Airflow 3.2 répond à des problèmes très concrets que beaucoup d’équipes Data rencontrent déjà : trop d’instances Airflow à maintenir, des pipelines qui retraitent trop large, des alertes difficiles à exploiter, et une interface qui peut ralentir le diagnostic quand les DAGs se multiplient.
Cette version n’est donc pas une simple mise à jour cosmétique. Selon l’annonce officielle Apache Airflow 3.2, elle apporte des évolutions utiles pour les Data Engineers, les équipes DataOps, les Data Platform Engineers et les organisations qui veulent faire évoluer Airflow sans complexifier toute leur infrastructure.
Parmi les nouveautés importantes, on retrouve les Multi-Team Deployments, l’Asset Partitioning, les Deadline Alerts, des améliorations d’interface, ainsi qu’une séparation progressive du Task SDK. Pour les néophytes, retrouvez notre article précédent sur Apache Airflow.

Les Multi-Team Deployments limitent la manipulation des instances AIrflow

Dans beaucoup d’entreprises, Airflow s’est développé par empilement. Une instance pour la Data Engineering, une autre pour la BI, une autre pour l’IA, puis parfois une instance supplémentaire pour l’Analytics ou les équipes métier.

Au départ, cette séparation paraît logique. Cependant, elle devient vite coûteuse : plusieurs environnements à maintenir, plusieurs configurations à sécuriser, plusieurs jeux de connexions à gérer, et plusieurs montées de version à coordonner.

Avec les Multi-Team Deployments dans Airflow 3.2, plusieurs équipes peuvent partager un même déploiement tout en conservant leur propre périmètre. Chaque équipe peut disposer de ses DAGs, connexions, variables, pools, exécuteurs et règles d’accès.

En pratique, cette nouveauté sert surtout les organisations qui veulent centraliser l’administration sans supprimer l’autonomie des équipes. Le bon réflexe consiste à la tester sur deux équipes pilotes, puis à vérifier la gestion des droits, des secrets, des connexions et des ressources avant d’étendre le modèle.

Point important : cette fonctionnalité reste expérimentale dans Airflow 3.2. Elle mérite donc un pilote sérieux avant tout usage sur une plateforme critique.

L’Asset Partitioning évite de relancer des pipelines inutilement

L’Asset Partitioning est probablement l’une des nouveautés les plus utiles pour les équipes qui orchestrent de gros volumes de données.

Le problème est simple : une seule partition d’un dataset change, mais tout un pipeline aval peut se relancer comme si l’ensemble des données avait été modifié. Résultat : du calcul inutile, des coûts plus élevés, des files d’attente plus longues et davantage de bruit opérationnel.

Avec l’Asset Partitioning dans Airflow 3.2, un DAG peut réagir à une partition précise d’un asset. Cette partition peut représenter une date, une heure, une région, un client, un pays ou une autre clé métier.

Exemple concret :

  • Avant Apache Airflow 3.2 :
    – Une partition quotidienne change
    – Le pipeline aval complet se relance
  • Avec Apache Airflow 3.2 :
    – La partition 2026-04-07 change
    – Seuls les traitements liés à cette partition se déclenchent

Cette approche devient particulièrement intéressante avec des tables partitionnées, des chemins S3 datés, des partitions BigQuery, des datasets Hive ou des données segmentées par client. Au lieu d’orchestrer trop large, vous déclenchez uniquement le travail réellement nécessaire.

Le bénéfice est direct : moins de traitements inutiles, moins de backfills lourds, et une meilleure maîtrise des coûts d’exécution.

Les Deadline Alerts remplacent une partie des anciens SLA

Les SLA historiques d’Airflow ont rendu service, mais ils restent souvent trop limités pour une exploitation moderne. Savoir qu’un DAG est en retard ne suffit pas toujours. Il faut aussi déclencher la bonne action, prévenir la bonne équipe et transmettre le bon contexte.

Avec les Deadline Alerts dans Airflow 3.2, les équipes disposent d’un mécanisme plus adapté au suivi des retards. Dans Apache Airflow 3.2, elles gagnent notamment le support des callbacks synchrones, la possibilité de définir plusieurs alertes sur un même DAG, et des informations exploitables depuis l’interface ou l’API.

Cette nouveauté peut servir dans plusieurs situations concrètes :

  • un reporting de direction qui doit être prêt avant une heure précise,
  • une ingestion quotidienne qui bloque toute une chaîne aval,
  • un pipeline IA qui doit produire un résultat avant validation,
  • un backfill qui ne doit pas monopoliser les ressources toute la nuit.

L’intérêt est de passer d’une logique passive à une logique plus opérationnelle. Au lieu de constater simplement qu’un DAG est en retard, l’équipe peut définir ce qui doit se passer, à quel moment, et avec quel niveau d’urgence.

Là encore, il faut rester prudent : les Deadline Alerts sont encore expérimentales dans Airflow 3.2. Elles doivent donc être testées sur quelques DAGs critiques avant une généralisation.

L’interface devient plus utile pour diagnostiquer les incidents

Une plateforme d’orchestration ne vaut pas seulement par son moteur. Elle vaut aussi par la vitesse avec laquelle une équipe comprend ce qui se passe quand un pipeline échoue.

Les améliorations de l’interface Airflow 3.2 concernent plusieurs éléments utiles au quotidien : meilleure lisibilité des task groups, infobulles plus homogènes dans Grid et Graph, gestion plus pratique de certains XCom, affichages plus clairs, et meilleures performances sur les vues utilisées au quotidien.

Ces évolutions peuvent sembler secondaires, mais elles ont un impact réel en production. Quand un DAG critique échoue, l’équipe doit identifier rapidement la tâche concernée, consulter les logs, comprendre les dépendances, puis décider si elle relance, corrige ou bloque le traitement.

Une interface plus lisible réduit donc le temps de diagnostic, surtout quand la plateforme contient beaucoup de DAGs, beaucoup de runs, et plusieurs équipes utilisatrices.

L’équipe Ambient IT

Human-in-the-loop rapproche Apache AIrflow des workflows métier

Le Human-in-the-Loop n’arrive pas directement avec Airflow 3.2, puisqu’il a été introduit avec Airflow 3.1.

La documentation Human-in-the-Loop d’Airflow explique que cette fonctionnalité permet à un workflow de se mettre en pause pour attendre une décision humaine. Elle peut servir pour une validation de modèle IA, une approbation métier, un contrôle qualité de données ou une décision sensible avant publication.

C’est une évolution importante, car tous les pipelines ne doivent pas être automatisés de bout en bout. Par exemple, une équipe peut entraîner automatiquement un modèle, puis demander une validation humaine avant son déploiement. De la même manière, un dataset critique peut passer par des contrôles automatiques, puis attendre l’approbation d’un data steward avant diffusion.

Airflow ne sert donc plus seulement à enchaîner des tâches techniques. Il peut aussi orchestrer des processus Data gouvernés, où l’humain garde la main sur certaines décisions.

Apache Airflow CTL simplifie l’administration à distance

L’écosystème Airflow évolue aussi avec airflowctl, un outil en ligne de commande pensé pour administrer Airflow à distance.

Selon les release notes airflowctl, les versions récentes ajoutent plusieurs capacités utiles pour les équipes plateforme : calcul de la prochaine exécution d’un DAG, suppression en masse de DAG Runs, relance avec la dernière version d’un DAG, et support de charges utiles JSON pour certains backfills.

Cette nouveauté n’est pas forcément visible pour les utilisateurs métier. En revanche, elle compte pour les équipes qui exploitent Airflow à grande échelle, car elle facilite l’automatisation, les scripts internes et certaines opérations récurrentes.

En pratique, Airflow CTL peut devenir utile dès que l’administration d’Airflow dépasse les actions ponctuelles dans l’interface.

Le Task SDK prépare un Airflow plus modulaire

La séparation progressive du Task SDK est plus technique, mais elle est importante pour les organisations qui ont beaucoup de DAGs et plusieurs équipes contributrices.

Avec l’évolution du Task SDK dans Airflow 3.2, Apache continue de déplacer certains composants d’Airflow Core vers le Task SDK. L’objectif est de rendre l’écosystème plus modulaire et de permettre aux auteurs de DAGs d’évoluer plus indépendamment de l’infrastructure Airflow.

Cette évolution répond à un problème courant. Les équipes Data veulent faire évoluer rapidement leurs pipelines, tandis que les équipes plateforme doivent sécuriser les versions, les dépendances, les déploiements et la stabilité globale.

Une architecture plus modulaire ne règle pas tous les problèmes, mais elle réduit certaines frictions. Elle prépare aussi Airflow à des environnements plus distribués, où toutes les équipes n’ont pas le même rythme de livraison.

Ce qu’il faut vérifier avant de migrer vers Apache Airflow 3.2

Avant de migrer vers Apache Airflow 3.2, il vaut mieux partir de vos problèmes actuels plutôt que d’activer toutes les nouveautés par principe.

Voici une grille simple :

  • si vous maintenez plusieurs instances Airflow pour isoler les équipes, testez les Multi-Team Depoyments,
  • si vos DAGs retraitent trop de données, testez l’Asset Partitioning sur un dataset partitionné,
  • si vos SLA actuels sont trop rigides, testez les Deadline Alerts sur quelques DAGs critiques,
  • si vos incidents prennent trop de temps à diagnostiquer, évaluez les gains de la nouvelle interface,
  • si vos équipes Data et Ops se bloquent sur les versions, analysez l’intérêt du Task SDK,
  • si vous administrez Airflow à distance, regardez ce que airflowctl peut remplacer dans vos scripts.

Le point le plus important est le suivant : certaines fonctionnalités d’Apache Airflow 3.2 sont encore expérimentales. Il faut donc les tester sur un périmètre limité, mesurer les bénéfices, puis décider si elles méritent une adoption plus large.

CONCLUSION

Apache Airflow 3.2 marque une évolution nette vers une plateforme Data plus mature, plus granulaire et plus adaptée aux grandes organisations. Les deux nouveautés les plus structurantes sont les Multi-Team Deployments et l’Asset Partitioning, car elles répondent à deux problèmes fréquents : éviter la multiplication des instances et réduire les traitements inutiles.

Les Deadline Alerts, les améliorations de l’interface, airflowctl et le Task SDK renforcent aussi la dimension opérationnelle de l’écosystème. Cependant, cette version doit être abordée avec méthode, surtout lorsque les fonctionnalités sont encore expérimentales.

La bonne approche consiste à choisir un cas d’usage précis, mesurer les gains, puis élargir progressivement. Pour les Data Engineers, les Data Platform Engineers et les équipes DataOps, Apache Airflow 3.2 mérite clairement d’être étudié avant la prochaine migration Airflow.

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp