Sélectionner une page
Formations Data Framework Big Data Formation Apache Spark V3 et Tuning avancée

Formation Spark Tuning Avancé

Logo Formation Spark et Tuning Avancé
Prix 2430€ HT / personne
4 jours (28 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Conçu en 2009 aux États Unis, Apache Spark est un moteur d’analyse unifié pour le traitement de grande quantité de données à grande échelle. Cet outil se démarque par sa simplicité d’utilisation malgré sa capacité à délivrer des analyses sophisitiquées.

Cette formation Spark Tuning est destinée aux administrateurs voulant optimiser les performances de leur système de gestion de données. L’ajustement et l’optimisation des ressources (CPU cores et mémoires) joue un rôle important pour le maintien d’un système informatique de bonne qualité.

Après une introduction au langage Scala, et une explication de Spark, nous étudierons l’api RDD, les dataframes, le Spark Streaming. Nous verrons ensuite Spark en production et finirons sur une introduction au Machine Learning.

À chaque fois, des exercices pratiques sur des clusters de machines avec des datasets significatifs permettront d’assimiler par la pratique les concepts présentés.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable en date, Spark 3.5.2.

 

Objectifs

  • Être capable d’installer et d’utiliser Spark 4 et ses nouveautés de manière autonome
  • Être capable d’utiliser Scala comme langage principal dans Spark
  • Comprendre et optimiser les dataframes
  • Appréhender le tuning sur Spark en production en utilisant les bonnes pratiques

 

Public visé

  • Développeurs
  • Architectes
  • Administrateurs systèmes
  • DevOps

 

Pré-requis

  • Une première expérience sur le développement et la mise en production des traitements Spark
  • Connaissances de base d’un système Unix
  • Connaissance de Scala ou Python & Git

Programme de la formation Spark et Tuning avancé

 

Jour 1 – Introduction Scala et Spark

  • Pourquoi Scala est le langage du Bigdata ?
  • Introduction au paradigme fonctionnel
  • Installation des environnements
  • Hands-on Scala
  • Syntaxe
  • Pattern matching
  • API collection
  • Les types fonctionnels
  • Pourquoi Spark ?
  • Architecture de Spark

 

Jour 2 – Comprendre et utiliser Spark

 

L’API RDD

  • Présentation des RDD
  • PairedRDD
  • Manipulation de l’api RDD (transformations , actions ….)
  • L’import et l’export depuis et vers : cSv, Avro et Elasticsearch

 

Dataframe

  • Présentation des Dataframes
  • L’api Dataframe et UDF
  • SqlContext
  • Utilisation de SQL avec des Dataframes
  • Les Datasets

 

Jour 3 – Dataframe et optimisation

 

Optimisation

  • L’analyse du DAG via Spark-UI
  • Pattern d’optimisation
  • Cache et persistance
  • Impact de la localité des données sur les performances

 

Spark streaming

  • StreamingContext
  • DStream
  • Continuous Aggregations
  • Analyse temps-réel depuis un Apache Kafka
  • Les problématiques des garanties de livraison
  • Spark vs Flink

 

Jour 4 – Spark en prod et conclusion

 

Spark en production

  • Spark en cluster : Yarn, Mesos, Standalone
  • Yarn client vs Yarn cluster
  • Stockage (HDFS, S3, Cassandra ….)

 

Architecture

  • Architecture Lambda
  • Architecture Kappa

 

Introduction au Machine Learning (Optionnel)

  • Les classes d’algorithmes pour le ML : supervisé et non supervisé
  • Les algorithmes de ML
  • Comment fonctionne l’algorithme de la régression linéaire et / ou de la régression
    logistique
  • Mise en pratique d’un algorithme de régression linéaire ou la régression logistique

 


2 modules spécifiques sont disponibles en Intra-entreprise uniquement

 

Module for Data Engineer – Spark Scala

 

Jour 1 – RDD & Dataframes

 

L’API RDD

  • Présentation des RDD
  • PairedRDD
  • Manipulation de l’api RDD (transformations , actions, etc.)
  • L’import et l’export depuis et vers : cSv, Parquet

 

Dataframe

  • Présentation des Dataframes
  • L’api Dataframe et UDF
  • Utilisation de SQL avec des Dataframes
  • Les Datasets

 

Jour 2 – Mise en prod & Optimisation

 

Optimisation

  • L’analyse du DAG via Spark-UI
  • Pattern d’optimisation
  • Cache et persistance
  • Impact de la localité des données sur les performances

 

Spark en production

  • Spark en cluster : Yarn, Mesos, Standalone
  • Yarn client vs Yarn cluster
  • Stockage (HDFS, S3, Cassandra, etc.)

 

Module for Data Scientist – Spark Python

 

Jour 1 – RDD & Dataframes

 

L’API RDD

  • Présentation des RDD
  • PairedRDD
  • Manipulation de l’api RDD (transformations, actions, etc.)
  • L’import et l’export depuis et vers : CSV, Parquet

 

Dataframe

  • Présentation des Dataframes
  • L’api Dataframe et UDF
  • Utilisation de SQL avec des Dataframes
  • Les Datasets

 

Jour 2 – Spark ML/ MLlib

 

Algorithmes

  • Les classes d’algorithmes pour le ML : supervisé et non supervisé
  • Les algorithmes de ML
  • Comment fonctionne l’algorithme de la régression linéaire, la régression
  • Logistique, Random Forest…
  • Clustering : KNN, K-mean

 

MLlib

  • Introduction à MLlib 2.0
  • Pipelines : Transformer, Estimator, Model
  • Cross-Validation
  • Hyperparameters tuning
  • ML persistence: sauvegarde et chargement des pipelines

Pour aller plus loin

Formation Spark Streaming

Formation Spark et Machine Learning

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Walid

Walid

Développeur Java / Scala , passionné par la data et les architectures distribués .

Témoignages

3 août 2023

Les + : Le formateur est à l’écoute des questions et s’adapte aux demandes des stagiaires. Le fonctionnement de spark en scala ou via les spark UI (DAG, plan d’exécution) est bien expliqué. Les Bonnes pratiques et le fonctionnement d’applications autour de l’écosystème big data est très utile pour se situer dans le contexte Big Data

Les – : absence d’information sur l’installation hdfs, non utilisation S3/minio

Gérald L. de chez Toulouse Métropole

Afficher tous les témoignages

3 août 2023

Les + : Le formateur est à l’écoute des questions et s’adapte aux demandes des stagiaires. Le fonctionnement de spark en scala ou via les spark UI (DAG, plan d’exécution) est bien expliqué. Les Bonnes pratiques et le fonctionnement d’applications autour de l’écosystème big data est très utile pour se situer dans le contexte Big Data

Les – : absence d’information sur l’installation hdfs, non utilisation S3/minio

Gérald L. de chez Toulouse Métropole
3 août 2023

Je recommande la formation

Sheron W. de chez ACOSS
3 août 2023

Les + : L’étude approfondie de l’écosystème autour de Spark (Scala, ML, etc.).

L’appui sur Spark UI et l’optimisation des appels Spark.

Les compétences du formateur.

Les – : GoTo meeting prenait bcp de ressources (notamment quand on mettait la webcam).

Pas assez de possibilité de montrer des cas concrets dans nos entreprises.

Le décalage de la formation de Février 2023 à Août 2023 qui entraine une perte d’utilisation de Spark dans notre entreprise car on nous attendait pour le mettre en œuvre. Et maintenant, on va peut-être partir sur autre chose.

La pause méridienne un peu courte sur une formation dense.

Je souhaite suivre : Formation sur le stockage objet (S3 par exemple), Kubernetes.

Clément C. de chez Toulouse Métropole
13 juillet 2023

Je recommande la formation

Thierry K. de chez
13 juillet 2023

Je recommande la formation

Mohamed H. de chez
13 juillet 2023

Je recommande la formation

Sonia Zineb A. de chez
13 juillet 2023

Je recommande la formation

Son trang V. de chez AVANSSUR
25 mai 2023

Les + : Formation riche et intéressante avec pas mal d’idées à implémenter et tester sur nos projets. Une meilleure compréhension des concepts un peu obscures et avancés de Spark.

Les – : Quelques sujets que nous n’avons pas eu le temps d’aborder (Streaming notamment), et peut être un peu plus de hands on.

Maryam Y. de chez BNP PARIBAS SA
25 mai 2023

Les + : équilibre entre théorie et pratique

Rachid S. de chez BNP PARIBAS SA
25 mai 2023

Les + : Etant tous de bnpp, cela nous permet d’échanger entre nous et de customiser légèrement la formation selon nos problématiques.

Les – : Il serait utile d’effectuer des postMortem avec des cas réels de prod, avec la démarche d’analyse, l’utilisation de l’UI et les actions pour régler le problème

Olivier V. de chez BNP PARIBAS SA
25 mai 2023

Les + : – démarrage avec les rappels nécessaires sur Scala

– bonne vision général de l’intagration de Spark dans une architecture

– tunning d’une application

Les – : – un peu trop de tunning le dernier jour et donc peu de place pour d’autres chapitres annoncés tels que Spark Streaming et MLLib

Je souhaite suivre : – cloud computing : AWS, GCP…

– Devops : ELK, ansible

– Data : Python pour l’analyse,

Emmanuel H. de chez BNP PARIBAS SA
25 mai 2023

Je recommande la formation

Tianyu W. de chez BNP PARIBAS SA

Noter la formation

Prix 2430€ HT / personne
4 jours (28 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp