Formation Spark & Machine Learning

4,2 rating
Logo Formation Spark et Machine Learning

2200€

1980€ HT / personne

3 jours (21 heures)

Paris
Il ne reste que quelques places
Disponible aussi en intra-entreprise pour former votre équipe.

Présentation

Spark est un framework pour effectuer des calculs distribués sur un cluster d’ordinateurs. Cette formation présente la toute nouvelle version 2.4 sortie en novembre 2018, qui apporte un lot considérable de nouveautés ainsi qu’une amélioration impressionnante des performances !

Créé en 2009 à Berkeley, il est en train de devenir la plateforme « Big Data » privilégiée, qui remplace peu à peu l’écosystème Hadoop, grâce à des API unifiées en Java, Scala, Python, R qui le rendent très facile d’usage.
La formation passe en revue les principaux composants de Spark , ainsi que les nouveaux packages :

  1. Spark Core
  2. Spark SQL
  3. Spark Streaming
  4. Spark ML
  5. GraphFrame
  6. SparkR
  7. Deep Learning pipeline

La formation présente aussi l’intégration de Spark avec HDFS.
Elle présente l’API Python de Spark Les travaux pratiques sont réalisés en Python.

 

Objectifs

  • Être capable d’utiliser Spark 2 et ses nouveautés de manière autonome
  • Comprendre le concept de Machine Learning et être capable de l’utiliser dans Spark 2
  • Manipuler des volumes importants de données en utilisant les bonnes pratiques dans Spark 2
  • Comprendre la documentation et l’eco-système du Big Data

 

Public visé

Développeurs, Architectes, Administrateurs systèmes, DevOps

 

Pré-requis

  • Connaissances de base d’un système Unix
  • Connaissance de Python & Git
  • Culture orientée stats

Programme de la formation Spark et Machine Learning

 

Jour 1 – Comprendre et utiliser Spark 2

 

Contexte et problématique du Big Data – Calcul distrubué

Pourquoi Spark ?

 

Installation en standalone , test avec jupyter

Spark Core (Remplaçant de MapReduce)

  • RDD Resilient Distributed Datasets
  • PairedRDD
  • Spark Context VS Spark Session
  • DAG Directed Acyclic Graph
  • RDD Objects, DAG Scheduler, Task Scheduler, Worker
  • Hadoop et HDFS
  • NameNode & DataNode
    • core-site, hdfs-site
  • Spark sur un Cluster
  • Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
  • Mesos (Private Cluster), Marathon, YARN
  • Structured API

 

Spark SQL (Remplaçant de HIVE)

  • SQLContext
  • HiveContext
    • DataFrames
    • Spark Structure, Schéma et partitionnement

 

 

Jour 2 – Appréhender le Machine Learning et son intégration dans Spark 2

 

Spark ML (Remplaçant de Mahout)

Introduction au Machine Learning (ML)

  • Apprentissage supervisé
  • Apprentissage non-supervisé
  • Clustering : KNN, K-mean
  • Régression : Arbre de régression
  • Classification : Random Forest, SVM, AUC, Courbe ROC

Spark ML – Introduction

  • Pipelines : Transformer, Estimator, Model
  • ML persistence
  • MLlib in R & PySpark

DataVisualisation

  • Matplotlib
  • Seaborn
  • Plotly
  • Bokeh

GraphFrame

  • Présentation du package

 

Jour 3 – Spark 2 en mode avancé : Manipuler les données à grande échelle

 

Spark Streaming

  • Structured Streaming API
  • StreamingContext
  • Static et Dynamic Datasets
    •  Continuous Aggregations
    •  Encoders
  •  Analyse temps-réel d’un fichier de log (Real-Time Analytics)
    • Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
  • Création d’agents, de sources, channel et sink
  •  Sérialisation avec Avro RPC

 

SparkR

  • Présentation du package

Deep Learning pipeline

  • Présentation du package
  • Concept de transfert learning

Conclusion

  • Lambda VS Kappa architecture
Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

    Nos Formateurs Référents

    Romain

    Romain

    J’aide les entreprises à construire une Stratégie Data à court et moyen terme en identifiant pour quels enjeux la data peut avoir une contribution significative. Ma double expérience en développement d’entreprise et en développement informatique me permet de dialoguer en même temps avec les dirigeants d’entreprise et les équipes techniques.

    Témoignages

    5,0 rating
    14 décembre 2017

    Mes deux collègues sont très satisfaits de la formation SPARK, merci.

    Stéphane L. de Metigate
    Afficher tous les témoignages
    5,0 rating
    14 décembre 2017

    Mes deux collègues sont très satisfaits de la formation SPARK, merci.

    Stéphane L. de Metigate
    2,0 rating
    14 décembre 2017

    Je pense que je me suis trompé dans le choix de formation, je ne pensais pas avoir une introduction sur spark et hadoop. J’ai trouvé quelques approximations et erreurs dans les informations apportées, cependant j’ai beaucoup apprécié les parties sur le streaming et le machine learning. Dommage qu’il n’y ait pas eu une petite partie sur les graphes.

    Michael B. de voyages-sncf

    Réponse d'Ambient Formations

    Bonjour Michael & merci pour votre commentaire – En 2018, afin de répondre à la demande de nos clients : nous avons ouvert une formation plus orientée « Production » avec Spark & Tuning, si vous êtes libre lors de la prochaine session, nous essayerons de vous y convier.

    5,0 rating
    13 décembre 2017

    Très bonnes aptitudes du formateur

    David D. de l'INA
    3,0 rating
    13 décembre 2017

    J’ai trouvé la formation trop orientée analyse stat ou base de données. Je suis dans un domaine + orienté calcul scientifique et j’aurais préféré plus approfondir spark plutôt qu’une intro au machine learning.
    Exo trop difficiles, pas assez de temps.
    J’aurais préféré passer moins de temps à la config du cluster, mais plus de temps dispo pour pouvoir vraiment faire les exos.
    Prérequis pas assez clairs : connaissance de base linux, culture orientée stat, git, python etc… il faut connaître pas mal de choses pour faire les exos dans le temps limité

    Jean-Michel G. de FEI

    Réponse d'Ambient Formations

    Merci Jean-Michel, nous avons pris en compte votre avis notamment sur la section Prérequis que nous avons mise à jour.
    La partie Machine Learning est assumée dans le programme de cours, car c’est la spécialité du formateur, néanmoins nous avons ouvert une session complémentaire orientée Prod avec -apache-spark-v2-et-tuning-avancee/ »>la formation avancée Spark & Tuning

    5,0 rating
    13 décembre 2017

    Très bonne appréciation globale sur cette formation

    Sébastien M. de FEI
    Noter la formation

    2200€

    1980€ HT / personne

    3 jours (21 heures)

    Paris
    Il ne reste que quelques places
    Disponible aussi en intra-entreprise pour former votre équipe.

    Une question ? Un projet ?

    Pour des informations complémentaires, n’hésitez pas à nous contacter.