Formation Spark 3 & Machine Learning
| 1980€ HT / personne |
| 3 jours (21 heures) |
Présentation
Spark est un framework pour effectuer des calculs distribués sur un cluster d’ordinateurs. Cette formation présente la toute nouvelle version 3.5.4, qui apporte un lot considérable de nouveautés ainsi qu’une amélioration impressionnante des performances !
Créé en 2009 à Berkeley, il est en train de devenir la plateforme « Big Data » privilégiée, qui remplace peu à peu l’écosystème Hadoop, grâce à des API unifiées en Java, Scala, Python, R qui le rendent très facile d’usage.
La formation passe en revue les principaux composants de Spark, ainsi que les nouveaux packages :
- Spark Core
- Spark SQL
- Spark Streaming
- Spark ML
- GraphFrame
- SparkR
- Deep Learning pipeline
Notre formation Spark et Machine Learning présente aussi l’intégration de Spark avec HDFS. Elle présente l’API de Spark. Les travaux pratiques sont réalisés en Scala par défaut (ou bien Python en option).
Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie Spark ML (4.0.1) et ses nouveautés.
Objectifs
- Être capable d’utiliser Spark 3 et ses nouveautés de manière autonome
- Comprendre le concept de Machine Learning et les concepts fondamentaux de Spark, être capable de les utiliser
- Manipuler des volumes importants de données en utilisant les bonnes pratiques dans Spark 4
- Comprendre la documentation, l’API et l’écosystème du Big Data
- Intégrer Spark dans un écosystème Hadoop
- Créer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle sur un cluster
- Maîtriser Spark SQL
Public visé
- Développeurs
- Architectes
- Administrateurs systèmes
- DevOps
Pré-requis
- Connaissances de base d’un système Unix
- Connaissance de Scala ou Python & Git
- Culture orientée stats
- Tester Mes Connaissances
Pré-requis techniques
- Avoir Visual Studio Code installé
Programme de la formation Spark et Machine Learning
Jour 1 – Comprendre et utiliser Spark 3
Contexte et problématique du Big Data – Calcul distribué
- Pourquoi Spark ? Les nouveautés de la version 2 & 3
- Installation en standalone, test avec jupyter
- Spark Core (Remplaçant de MapReduce)
- RDD Resilient Distributed Datasets
- PairedRDD
- Spark Context VS Spark Session
- DAG Directed Acyclic Graph
- RDD Objects, DAG Scheduler, Task Scheduler, Worker
- Hadoop et HDFS
- NameNode & DataNode
- core-site, hdfs-site
- Spark sur un Cluster
- Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
- Mesos (Private Cluster), Marathon, YARN
- Structured API
Spark SQL (Remplaçant de HIVE)
- SQLContext
- HiveContext
- DataFrames
- Spark Structure, Schéma et partitionnement
Jour 2 – Appréhender le Machine Learning et son intégration dans Spark 3
Introduction au Machine Learning (ML)
- Apprentissage supervisé
- Apprentissage non-supervisé
- Clustering : KNN, K-mean
- Régression : Arbre de régression
- Classification : Random Forest, SVM, AUC, Courbe ROC
Spark ML – Introduction
- Pipelines : Transformer, Estimator, Model
- ML persistence
- MLlib in R & PySpark
DataVisualisation
- Matplotlib
- Seaborn
- Plotly
- Bokeh
GraphFrame
- Présentation du package
Jour 3 – Spark 3 en mode avancé : Manipuler les données à grande échelle
Spark Streaming
- Structured Streaming API
- StreamingContext
- Static et Dynamic Datasets
- Continuous Aggregations
- Encoders
- Analyse temps-réel d’un fichier de log (Real-Time Analytics)
- Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
- Création d’agents, de sources, channel et sink
- Sérialisation avec Avro RPC
SparkR
- Présentation du package
Deep Learning pipeline
- Présentation du package
- Concept de transfert learning
Conclusion
- Lambda VS Kappa architecture
Pour aller plus loin
Formation Spark Streaming
Formation Spark Tuning Avancé
Formation Kafka
Formation Kibana
Formation MongoDB
Formation PostgreSQL
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Nos Formateurs Référents

Romain
Témoignages
Les + : Bonne pédagogie, les exercices sont efficaces.
Les – : Un peu rapide sur certains points mais la courte durée de la formation l’y obligée.
Je souhaite suivre : Formation Deep Learning avancée
Afficher tous les témoignages
Les + : Bonne pédagogie, les exercices sont efficaces.
Les – : Un peu rapide sur certains points mais la courte durée de la formation l’y obligée.
Je souhaite suivre : Formation Deep Learning avancée
Les + : Une bonne alternance entre les cours et les TPs. Cela permet de mettre tout de suite en pratique les notions présentées et de mieux assimiler le cours. Le formateur s’adapte aux élèves et s’assurent que la notion est comprise avant de passer à la suite. Le support de cours est clair et permet de visualiser les notions. C’est bien aussi d’avoir des exemples concrets.
Les – : Certains TPs sont un peu longs. Peut-être faudrait il de donner le début du code et de juste demander de compléter ou d’adapter ?
Les + : Les compétences du formateur et sa disponibilité.
Toute la partie manipulation des données et machine learning de la formation.
Les – : Idéalement il faudrait avoir le support de cours en parallèle à disposition pour permettre de réaliser les TP notamment quand on manque des bases en dev Scala.
Un focus plus important sur les différences entre Spark 2 et Spark 3 et un ou des exemples concrets de comment migrer de l’un vers l’autre (app de ML ou batch) aurait été intéressant.
Les + : Interessante + bon intervenant qualifié
Les – : Pourquoi faire du Scala et pas plutôt du pyspark?
Suggestion : envoyer un doc pour installer spark en amont de la formation pour moins galérer dessus en live
Je recommande la formation
Je recommande la formation
Les + : La partie pratique, les ateliers sur les notebook jupyter
Les – : La partie théorique de Mlib est très chargée et dense
Je recommande la formation
explication des elements de base dans l’ordre de la construction des couches logiciels
explication du fonctionnement OK
on a été tres vite sur les algo du Machine learning mais ca ne m a pas posé de pbms les connaissant bien.
les exercices d’application qui permettent de prendre les elements en main.
les astuces et retour d’expérience par l’exemple , presentation et illustration des problems pouvant être rencontré en tant qu’utilisateur de spark.
je pense que j’ai maintenant les bases
– ce qui m a le plus bloqué c’est mon manqué de conaissance en programmation fonctionnelle scala
il aurait été bien de pointer des ressources à faire en autodidacte pour avoir un petit baggage le jour de la formation
– des exercices sur le déploiement
– pouvoir faire une mise en place (install , compilation et lancement sur Linux)
Multitude des exemples et exercices, compétences du formateur
Matériel pédagogique pas toujours adapté à la formation en ligne (en particulier l’absence de tableau blanc)
Je suis satisfait de la formation qui m’a permis d’acquérir de nouvelles connaissances
Le support de cours permet de couvrir une grande diversité de cas d’usage. Le formateur de par son expérience donne de nombreux exemples concrets.
J’ai apprécié les points concrets du formateur, qui tire son expérience de dev + mise en œuvre.
J’aurai apprécié la dernière journée plus d’exercices illustrant spark ui et son déploiement. ML et streaming sont hors sujet de mon point de vue (pas d’intérêt pour ma part).
Réponse d'Ambient IT
Merci pour votre retour, en effet sur les 3 jours le programme aborde à minima 1 jour ML et Stream.
Nous avons un second programme sur 4 jours sur la partie Tuning.
Navigation Site Reviews
Noter la formation
| 1980€ HT / personne |
| 3 jours (21 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS

