Sélectionner une page

Formation > Blog > Kubernetes > Quand Kubernetes devient intelligent : IA et devops

Nul besoin de présenter Kubernetes : la plateforme s’est imposée comme LE Standard pour l’orchestration des conteneurs applicatifs. Cependant une grande puissance implique une grande complexité. Gérer la mise à l’échelle, le placement optimal des pods, la surveillance et la sécurité exige beaucoup d’expertise. Pour des entreprises moyennes ou grandes, la gestion de Kubernetes peut rapidement devenir un vrai défi. C’est là que l’intelligence artificielle vient à la rescousse.

L’équipe Ambient IT

IA et Autoscaling

Kubernetes intègre nativement divers mécanismes d’auto-scalling :

  • Le Horizontal Pod Autoscaler (HPA) pour ajuster le nombre de pods en fonction de métriques (souvent CPU)
  • Le Vertical Pod Autoscaler (VPA) pour ajuster les ressources CPU/mémoire allouées à chaque pod
  • Le Cluster Autoscaler pour ajouter/retirer des nœuds en cas de ressources insuffisantes ou excédentaires

Ces outils automatisent une grande partie de la réaction de l’infrastructure face aux différents niveaux de charge mais ils ne sont que des outils réactifs. Un HPA classique, par exemple, se contentera de réagir aux métriques courantes : il attend qu’une surcharge CPU soit déjà là pour déclencher une montée en charge, ce qui peut être trop tardif lors d’un pic soudain.

De plus ces outils sont souvent basés sur des règles simples qui ont tendance à être un peu légères face à des situations complexes.

Cette approche réactive peut causer des scénarios douloureux.

Par exemple une application E-commerce pendant le Black Friday va connaitre un afflux massif de clients en quelques minutes. Un HPA traditionnel va d’abord constater que les pods existants saturent, puis ajouter des pods après coup, pendant que les clients subissent déjà des lenteurs.

Pire, une fois le rush passé, l’HPA risque de réduire le nombre de pod trop vite et d’ouvrir la porte à de nouvelles dégradations de service en cas de nouveaux pics.

Et c’est là que l’intelligence artificielle arrive à la rescousse

Elle permet d’anticiper la demande au lieu de simplement y réagir. En analysant des données historiques de charge, des tendances saisonnières ou quotidiennes, et même des indicateurs métiers (lancement d’une campagne marketing, heure de pointe quotidienne), un modèle d’autoscaling prédictif va prévoir les besoins en ressources à l’avance.

Outils open source d’auto-scaling intelligent

Bonne nouvelle pour tous les ingénieurs Devops en quête d’outils open source : des projets performants existent déjà :

  • Predictive Horizontal Pod Autoscaler (PHPA) propose une extension d’HPA intégrant des modèles statistiques (lissage Holt-Winters, régression linéaire…) pour prévoir la charge à venir
  • KEDA (Kubernetes Event-Driven Autoscaling) ajuste le nombre de pods en fonction d’événements externes (longueur de file Kafka, messages dans un topic, requêtes en attente, etc.) et non plus seulement des métriques bas niveau. Il ne s’agit plus simplement du cadre CPU/RAM mais bien de véritables indicateurs métier.

scheduling piloté par IA

Si le scheduler natif de Kubernetes est très efficace, il est aussi très statique : il assigne les pods aux nœuds en respectant un ensemble de règles (disponibilité de ressources, affinities/anti-affinities, taints/tolerations, etc.).

La configuration du scheduler est souvent basée sur des critères configurés sur des normes et des a priori. Les workloads modernes sont souvent trop subtiles pour avoir des règles optimisées pour chaque rouage du mécanisme. C’est un peu un “One-size” qui ira à tout le monde, mais qui ne sera sur mesure pour personne.

Dans la pratique, dans la plupart des entreprises, on constate une utilisation suboptimale des schedulers : certains nœuds surchargés pendant que d’autres sont sous-utilisés, ou des pods très bavards (microservices qui communiquent beaucoup).

Les apports de l’IA

L’IA apporte quelque chose de crucial pour l’évolution des schedulers : le machine learning.

Par exemple, un modèle pourrait apprendre des patterns de co-localisation : repérer que « quand ces deux services A et B tournent sur le même nœud, les performances globales s’améliorent de 20% car leur trafic mutuel ne sort pas du serveur », et ainsi adapter les déploiements futurs pour souvent placer A et B ensemble.

Une étude de 2025 a même implémenté un scheduler Kubernetes custom intégrant un réseau de neurones entraîné à prédire le temps d’exécution d’une application web selon le nœud choisi.

Bilan de l’opération ? Il a dépassé le scheduler natif de 1% à 18% selon les scénarios. Un gain qui augmente exponentiellement avec la complexité de la charge, soulignant que ce type d’IA brille particulièrement dans les scénarios les plus complexes par rapport aux règles statiques.

Les outils

Dans le monde de l’open source, des outils grand public commencent déjà à pointer le bout de leur nez :

  • NVIDIA KAI est un scheduler alternatif optimisé pour les workloads IA/ML gourmands en GPU : il cherche à allouer les GPU de manière plus efficiente que le scheduler par défaut, crucial pour les grosses formations de modèles.
  • Volcano, un projet CNCF, fournit un scheduler batch pensé pour le HPC et le machine learning, avec notamment du gang scheduling (lancer des lots de pods simultanément) et du fair-sharing entre jobs

Je vous vois venir : ce ne sont pas (encore) des outils IA mais ils montrent la tendance à adapter finement le placement aux besoins spécifiques. Il n’est pas dur d’imaginer qu’à terme ces outils intégreront des modules de machine learning.

Monitoring intelligent: l’IA fait le tri

Vous le savez un cluster Kubernetes génère une avalanche de données.

Pour des équipes SRE/DevOps, le traitement et l’analyse de ces données sont des tâches cruciales, mais éreintantes. Dans certaines entreprises qui disposent de centaines de microservices tournant en parallèle, c’est même une tâche presque impossible.

C’est ici que l’IA – en particulier l’apprentissage automatique et le NLP (Natural Language Processing) – entre en jeu, dans ce qu’on appelle souvent l’AIOps (Artificial Intelligence for IT Operations).

l’outil open source K8sGPT. Comme son nom le suggère, il combine Kubernetes et GPT (des modèles de langage IA) pour analyser automatiquement l’état du cluster et diagnostiquer les problèmes.

Il se connecte à votre cluster et passe en revue les ressources Kubernetes, les logs et événements, à la recherche d’anomalies ou d’erreurs de configuration.

Au-delà du diagnostic, l’IA excelle aussi en détection d’anomalies dans la surveillance. Les solutions d’observabilité modernes (Datadog, Dynatrace, New Relic…) intègrent souvent des moteurs d’IA qui apprennent le comportement normal de vos métriques et émettent des alertes intelligentes en cas de déviation.

Par exemple, Dynatrace a son moteur Davis AI qui va repérer qu’un taux d’erreur à 2% un mardi à 3h du matin, c’est anormal, alors que le même 2% un lundi en pleine journée ne l’était pas, car il a appris les saisonnalités propres à votre application.

Le futur : vers un Kubernetes autoréparant ?

Le graal du monitoring intelligent, c’est quand même d’aller jusqu’à l’autorémédiation. On voit poindre les premiers systèmes où, sur certains types de problèmes connus, l’IA peut agir directement.

Sedai mentionne par exemple, que son agent IA surveille des signaux faibles de défaillance (erreurs en hausse, latence qui se dégrade) et peut exécuter des mitigations en temps réel comme redémarrer un pod problématique ou réacheminer du trafic avant qu’une panne ne touche les utilisateurs.

Pour le moment, l’écrasante majorité des organisations privilégient une approche humaine pour les décisions critiques, mais on s’oriente de plus en plus vers un modèle mixte où l’IA prémâche le travail avant de demander l’aval d’un opérateur humain.

En combinant la robustesse de Kubernetes et l’adaptabilité de l’IA, on se dirige vers des plateformes cloud-native beaucoup plus autonomes et efficaces. Pour les moyennes et grandes entreprises, cela signifie un meilleur alignement entre l’infrastructure et les besoins métiers en temps réel.

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp