Formations › IA › Machine Learning › Formation Machine Learning distribué avec Spark ML

Formation Machine Learning distribué avec Spark ML

Niveau expert

Catégorie Essential

Prix	2 290€ ^HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

lun 6

mer 8

Juillet

lun 31

mer 2

Août

Septembre

lun 26

mer 28

Octobre

lun 21

mer 23

Décembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et encas offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 2500€ Bonus Atlas CPF

Présentation

Spark MLlib est la bibliothèque de Machine Learning distribué d’Apache Spark. Elle permet de traiter des volumes de données massifs là où les outils traditionnels saturent, en s’appuyant sur le calcul distribué pour l’entraînement et l’inférence.

Notre formation Machine Learning distribué avec Spark ML vous permettra de maîtriser l’écosystème Spark MLlib, de concevoir des pipelines ML robustes et d’optimiser vos traitements pour le passage à l’échelle.

Vous apprendrez à transformer des données brutes en caractéristiques exploitables (Feature Engineering), à entraîner des algorithmes complexes (Random Forests, Gradient Boosting, ALS) et à gérer le cycle de vie de vos modèles avec des outils comme MLflow.

À l’issue de la formation, vous serez en mesure de développer, évaluer et déployer des modèles prédictifs performants sur des clusters de production, tout en maîtrisant les problématiques de performance liées au partitionnement et au shuffling des données.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie et ses nouveautés.

Objectifs

Développer des modèles ML distribués
Optimiser les performances de calcul
Préparer et transformer des données pour ML
Évaluer et déployer les modèles

Public visé

Data engineers
Data scientists

Pré-requis

Connaissances en Python/Scala, Spark et ML

Pré-requis logiciels

8 Go de RAM au minimum, 16 Go si possible
Linux (Ubuntu, Fedora, etc.), macOS ou Windows (avec WSL2 de préférence)
Un cluster Spark local ou un environnement type Databricks Community
Un éditeur de code ou Jupyter Notebooks

Programme de notre formation Machine Learning distribué avec Spark ML

[Jour 1 – Matin]

Architecture de Spark MLlib et Pipelines

Comprendre l’architecture distribuée de MLlib
Maîtriser les DataFrames pour le ML
Concepts clés : Transformers, Estimators et Pipelines
Gestion des types de données (Vector, Dense, Sparse)
Sérialisation et persistance des workflows
Atelier pratique : Mise en place d’un pipeline complet de classification.

[Jour 1 – Après-midi]

Préparation et Feature Engineering à l’échelle

Nettoyage et imputation de données distribuées
Encodage : StringIndexer, OneHotEncoder
Assemblage de caractéristiques avec VectorAssembler
Réduction de dimensionnalité (PCA) et sélection de variables
Standardisation et mise à l’échelle (MinMaxScaler, StandardScaler)
Atelier pratique : Préparation d’un dataset massif pour l’entraînement.

Algorithmes de Régression et Classification

Régression Linéaire et Logistique distribuée
Arbres de décision et ensembles (Random Forest, GBT)
Évaluation multi-classe et gestion du déséquilibre
Interprétabilité des modèles en environnement distribué
Analyse des résidus et des erreurs de prédiction
Atelier pratique : Entraînement et comparaison de modèles de classification.

[Jour 2 – Matin]

Clustering et Systèmes de Recommandation

Apprentissage non-supervisé avec K-means
Bisecting K-means et Gaussian Mixture Models
Filtrage collaboratif avec ALS (Alternative Least Squares)
Mesures de similarité à grande échelle
Optimisation des recommandations à froid (Cold Start)
Atelier pratique : Création d’un moteur de recommandation distribué.

[Jour 2 – Après-midi]

Optimisation des performances ML

Impact du Shuffling sur les performances d’entraînement
Stratégies de Caching et de Checkpointing
Partitionnement des données et parallélisme des tâches
Monitoring via la Spark UI et détection des bottlenecks
Gestion des ressources mémoire pour les gros modèles
Atelier pratique : Audit et optimisation d’un job ML lent.

Tuning et Sélection de Modèles

Validation croisée distribuée (Cross-Validation)
Recherche par grille avec ParamGridBuilder
Optimisation des hyperparamètres et métriques de succès
BinaryClassificationEvaluator vs MulticlassClassificationEvaluator
Sauvegarde et export des meilleurs modèles
Atelier pratique : Tuning fin d’un modèle pour maximiser la précision.

[Jour 3 – Matin]

NLP et Text Mining à grande échelle

Prétraitement de texte : Tokenizer, StopWordsRemover
Représentation vectorielle : TF-IDF et Word2Vec
Analyse de sentiments et classification de texte
Utilisation des N-grams pour le contexte
Architectures NLP avec Spark
Atelier pratique : Analyse sémantique sur un flux de données textuelles.

[Jour 3 – Après-midi]

Industrialisation et MLOps

Cycle de vie du modèle avec MLflow (Tracking, Registry)
Persistance au format ML et portabilité
Inférence en mode Batch vs Inférence en mode Stream
Introduction à Spark Serving et architectures temps réel
Suivi de la dérive (drift) des modèles en production
Atelier pratique : Tracking d’expériences et déploiement d’un modèle.

Cas pratiques et Projet de synthèse

Conception d’une architecture ML de bout en bout
Choix des algorithmes selon la volumétrie et la latence
Automatisation du pipeline d’entraînement
Bonnes pratiques de production (CI/CD pour le ML)
Checklist de mise en service
Atelier pratique : Projet final – Industrialisation d’une problématique métier complexe.

Pour aller plus loin

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Kafka

Télécharger le plan du cours

Download the course outline

Langues et Lieux disponibles

 Langues

Français
Anglais / English

 Lieux

France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
Belgique
- Bruxelles
- Liège
Suisse
- Genève
- Zurich
- Lausanne
Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages