Formation Spark Tuning Avancé

Logo Formation Spark et Tuning Avancé

2200€

1980€HT/ personne

4 jours (28 heures)

Interentreprises

­Paris

Disponible en intraentreprise pour former votre équipe.

Présentation

Créé en 2009 à Berkeley, Spark est en train de devenir la plateforme « Big Data » privilégiée, qui remplace peu à peu l’écosystème Hadoop, grâce à des API unifiées en Java, Scala, Python, RDD qui le rendent très facile d’usage.

Après une introduction au langage Scala, et une explication de Spark, nous étudierons l’api RDD, les dataframes, le Spark Streaming. Nous verrons ensuite Spark en production et finirons sur une introduction au Machine Learning. À chaque fois des exercices pratiques sur des clusters de machines avec des datasets significatifs permettront d’assimiler par la pratique les concepts présentés.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable en date (Spark 2.3.2 à la date de l’article).

 

Objectifs

  • Être capable d’installer et d’utiliser Spark 2 et ses nouveautés de manière autonome
  • Être capable d’utiliser Scala comme langage principal dans Spark
  • Comprendre et optimiser les dataframes
  • Appréhender le tuning sur Spark en production en utilisant les bonnes pratiques

 

Public visé

Développeurs, Architectes, Administrateurs systèmes, DevOps

 

Pré-requis

  • Connaissances de base d’un système Unix
  • Connaissance de Python

Programme de la formation Spark et Tuning avancé

 

Jour 1 – Introduction Scala et Spark

Pourquoi Scala est le langage du Bigdata ?

Introduction au paradigme fonctionnel

Installation des environnements

Hands-on Scala

  • Syntaxe
  • Pattern matching
  • API collection
  • Les types fonctionnels

Pourquoi Spark ?

Architecture de Spark

 

Jour 2 – Comprendre et utiliser Spark

L’API RDD

  • Présentation des RDD
  • PairedRDD
  • Manipulation de l’api RDD (transformations , actions ….)
  • L’import et l’export depuis et vers : Csv, Avro et Elasticsearch

Dataframe

  • Présentation des Dataframes
  • L’api Dataframe et UDF
  • SqlContext
  • Utilisation de SQL avec des Dataframes
  • Les Datasets

 

Jour 3 – Dataframe et optimisation

Optimisation

  • L’analyse du DAG via Spark-UI
  • Pattern d’optimisation
  • Cache et persistance
  • Impact de la localité des données sur les performances

Spark streaming

  • StreamingContext
  • DStream
  • Continuous Aggregations
  • Analyse temps-réel depuis un Apache Kafka
  • Les problématique des garanties de livraison
  • Spark vs Flink

 

Jour 4 – Spark en prod et conclusion

Spark en production

  • Spark en cluster : Yarn, Mesos, Standalone
  • Yarn client vs Yarn cluster
  • Stockage (HDFS, S3, Cassandra ….)

Architecture

  • Architecture Lambda
  • Architecture Kappa

Introduction au Machine Learning (Optionnel)

  • Les classes d’algorithmes pour le ML : supervisé et non supervisé
  • Les algorithmes de ML
  • Comment fonctionne l’algorithme de la régression linéaire et / ou de la régression
    logistique
  • Mise en pratique d’un algorithme de régression linéaire ou la régression logistique
Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Walid

Walid

Développeur Java / Scala , passionné par la data et les architectures distribués .

Témoignages

2 novembre 2017

Très bon formateur !

Hadrien C. de Orange Applications for Business

Afficher tous les témoignages

2 novembre 2017

Très bon formateur !

Hadrien C. de Orange Applications for Business

Noter la formation

2200€

1980€HT/ personne

4 jours (28 heures)

Interentreprises

­Paris

Disponible en intraentreprise pour former votre équipe.

Une question ? Un projet ?

Pour des informations complémentaires, n’hésitez pas à nous contacter.