Formations › Data › Framework Big Data › Formation Apache Spark V3 et Machine Learning

Formation Spark 3 & Machine Learning

Niveau confirmé

Catégorie Essential

Prix	1980€ ^HT / personne
3 jours (21 heures)

ActionCo

Paris | Classe Virtuelle

lun 1

mer 3

Juin

lun 7

mer 9

Septembre

lun 30

mer 2

Novembre

Décembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et encas offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 2500€ Bonus Atlas CPF

Présentation

Spark est un framework pour effectuer des calculs distribués sur un cluster d’ordinateurs. Cette formation présente la toute nouvelle version 3.5.4, qui apporte un lot considérable de nouveautés ainsi qu’une amélioration impressionnante des performances !

Créé en 2009 à Berkeley, il est en train de devenir la plateforme « Big Data » privilégiée, qui remplace peu à peu l’écosystème Hadoop, grâce à des API unifiées en Java, Scala, Python, R qui le rendent très facile d’usage.

La formation passe en revue les principaux composants de Spark, ainsi que les nouveaux packages :

Spark Core
Spark SQL
Spark Streaming
Spark ML
GraphFrame
SparkR
Deep Learning pipeline

Notre formation Spark et Machine Learning présente aussi l’intégration de Spark avec HDFS. Elle présente l’API de Spark. Les travaux pratiques sont réalisés en Scala par défaut (ou bien Python en option).

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie Spark ML (4.0.1) et ses nouveautés.

Objectifs

Être capable d’utiliser Spark 3 et ses nouveautés de manière autonome
Comprendre le concept de Machine Learning et les concepts fondamentaux de Spark, être capable de les utiliser
Manipuler des volumes importants de données en utilisant les bonnes pratiques dans Spark 4
Comprendre la documentation, l’API et l’écosystème du Big Data
Intégrer Spark dans un écosystème Hadoop
Créer des applications d’analyse en temps réel avec Spark Streaming
Faire de la programmation parallèle sur un cluster
Maîtriser Spark SQL

Public visé

Développeurs
Architectes
Administrateurs systèmes
DevOps

Pré-requis

Connaissances de base d’un système Unix
Connaissance de Scala ou Python & Git
Culture orientée stats
Tester Mes Connaissances

Pré-requis techniques

Avoir Visual Studio Code installé

Programme de la formation Spark et Machine Learning

Jour 1 – Comprendre et utiliser Spark 3

Contexte et problématique du Big Data – Calcul distribué

Pourquoi Spark ? Les nouveautés de la version 2 & 3
Installation en standalone, test avec jupyter
Spark Core (Remplaçant de MapReduce)
RDD Resilient Distributed Datasets
PairedRDD
Spark Context VS Spark Session
DAG Directed Acyclic Graph
RDD Objects, DAG Scheduler, Task Scheduler, Worker
Hadoop et HDFS
NameNode & DataNode
- core-site, hdfs-site
Spark sur un Cluster
Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
Mesos (Private Cluster), Marathon, YARN
Structured API

Spark SQL (Remplaçant de HIVE)

SQLContext
HiveContext
- DataFrames
- Spark Structure, Schéma et partitionnement

Jour 2 – Appréhender le Machine Learning et son intégration dans Spark 3

Introduction au Machine Learning (ML)

Apprentissage supervisé
Apprentissage non-supervisé
Clustering : KNN, K-mean
Régression : Arbre de régression
Classification : Random Forest, SVM, AUC, Courbe ROC

Spark ML – Introduction

Pipelines : Transformer, Estimator, Model
ML persistence
MLlib in R & PySpark

DataVisualisation

Matplotlib
Seaborn
Plotly
Bokeh

GraphFrame

Présentation du package

Jour 3 – Spark 3 en mode avancé : Manipuler les données à grande échelle

Spark Streaming

Structured Streaming API
StreamingContext
Static et Dynamic Datasets
- Continuous Aggregations
- Encoders
Analyse temps-réel d’un fichier de log (Real-Time Analytics)
- Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
Création d’agents, de sources, channel et sink
Sérialisation avec Avro RPC

SparkR

Présentation du package

Deep Learning pipeline

Présentation du package
Concept de transfert learning

Conclusion

Lambda VS Kappa architecture

Pour aller plus loin

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Télécharger le plan du cours

Download the course outline

Langues et Lieux disponibles

 Langues

Français
Anglais / English

 Lieux

France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
Belgique
- Bruxelles
- Liège
Suisse
- Genève
- Zurich
- Lausanne
Luxembourg

Nos Formateurs Référents

Romain

J’aide les entreprises à construire une Stratégie Data à court et moyen terme en identifiant pour quels enjeux la data peut avoir une contribution significative. Ma double expérience en développement d’entreprise et en développement informatique me permet de dialoguer en même temps avec les dirigeants d’entreprise et les équipes techniques.

Témoignages

25 mars 2026

Les + : Bonne pédagogie, les exercices sont efficaces.

Les – : Un peu rapide sur certains points mais la courte durée de la formation l’y obligée.

Je souhaite suivre : Formation Deep Learning avancée

Anthony P. de chez INFOTEL CONSEIL

Afficher tous les témoignages

25 mars 2026

Les + : Bonne pédagogie, les exercices sont efficaces.

Les – : Un peu rapide sur certains points mais la courte durée de la formation l’y obligée.

Je souhaite suivre : Formation Deep Learning avancée

Anthony P. de chez INFOTEL CONSEIL

25 mars 2026

Les + : Une bonne alternance entre les cours et les TPs. Cela permet de mettre tout de suite en pratique les notions présentées et de mieux assimiler le cours. Le formateur s’adapte aux élèves et s’assurent que la notion est comprise avant de passer à la suite. Le support de cours est clair et permet de visualiser les notions. C’est bien aussi d’avoir des exemples concrets.

Les – : Certains TPs sont un peu longs. Peut-être faudrait il de donner le début du code et de juste demander de compléter ou d’adapter ?

Loona N. de chez INFOTEL CONSEIL

13 décembre 2024

Les + : Les compétences du formateur et sa disponibilité.

Toute la partie manipulation des données et machine learning de la formation.

Les – : Idéalement il faudrait avoir le support de cours en parallèle à disposition pour permettre de réaliser les TP notamment quand on manque des bases en dev Scala.

Un focus plus important sur les différences entre Spark 2 et Spark 3 et un ou des exemples concrets de comment migrer de l’un vers l’autre (app de ML ou batch) aurait été intéressant.

Antoine C. de chez BPCE INFOGERANCE ET TECHNOLOGIES

13 décembre 2024

Les + : Interessante + bon intervenant qualifié

Les – : Pourquoi faire du Scala et pas plutôt du pyspark?

Suggestion : envoyer un doc pour installer spark en amont de la formation pour moins galérer dessus en live

Arthur G. de chez Groupama Assurances Mutuelles

5 avril 2023

Je recommande la formation

Mohamed Ali B. de chez FEATWAY

5 avril 2023

Je recommande la formation

Yassine H. de chez FEATWAY

5 avril 2023

Les + : La partie pratique, les ateliers sur les notebook jupyter

Les – : La partie théorique de Mlib est très chargée et dense

Yosra T. de chez FEATWAY

5 avril 2023

Je recommande la formation

Sana K. de chez FEATWAY

25 novembre 2020

explication des elements de base dans l’ordre de la construction des couches logiciels

explication du fonctionnement OK

on a été tres vite sur les algo du Machine learning mais ca ne m a pas posé de pbms les connaissant bien.

les exercices d’application qui permettent de prendre les elements en main.

les astuces et retour d’expérience par l’exemple , presentation et illustration des problems pouvant être rencontré en tant qu’utilisateur de spark.

je pense que j’ai maintenant les bases

– ce qui m a le plus bloqué c’est mon manqué de conaissance en programmation fonctionnelle scala

il aurait été bien de pointer des ressources à faire en autodidacte pour avoir un petit baggage le jour de la formation

– des exercices sur le déploiement

– pouvoir faire une mise en place (install , compilation et lancement sur Linux)

Jean-Baptiste H. de chez NEC DEUTSCHLAND GMBH FRENCH BRANCH

25 novembre 2020

Multitude des exemples et exercices, compétences du formateur

Matériel pédagogique pas toujours adapté à la formation en ligne (en particulier l’absence de tableau blanc)

Je suis satisfait de la formation qui m’a permis d’acquérir de nouvelles connaissances

Benoist G. de chez CRIANN

25 septembre 2019

Le support de cours permet de couvrir une grande diversité de cas d’usage. Le formateur de par son expérience donne de nombreux exemples concrets.

Oliver chez DASSAULT SYSTEMES SE

25 septembre 2019

J’ai apprécié les points concrets du formateur, qui tire son expérience de dev + mise en œuvre.

J’aurai apprécié la dernière journée plus d’exercices illustrant spark ui et son déploiement. ML et streaming sont hors sujet de mon point de vue (pas d’intérêt pour ma part).

Yeves de MOODY S ANALYTICS SAS

Réponse d'Ambient IT

Merci pour votre retour, en effet sur les 3 jours le programme aborde à minima 1 jour ML et Stream.

Nous avons un second programme sur 4 jours sur la partie Tuning.

Noter la formation

Prix	1980€ ^HT / personne
3 jours (21 heures)

ActionCo

Paris | Classe Virtuelle

lun 1

mer 3

Juin

lun 7

mer 9

Septembre

lun 30

mer 2

Novembre

Décembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et encas offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 2500€ Bonus Atlas CPF