Formations Data Framework Big Data Formation Apache Spark V3 et Machine Learning

Formation Spark 3 & Machine Learning

Noté 4.2 sur 5
Logo Formation Spark et Machine Learning
Prix 1980€ HT / personne
Durée 3 jours (21 heures)
Parcours CPF

Paris | à distance | FNE

Il ne reste que quelques places
NewCafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Je ne veux pas me déplacer ? Option classe virtuelle gratuite

Présentation

Spark est un framework pour effectuer des calculs distribués sur un cluster d’ordinateurs. Cette formation présente la toute nouvelle version 3.3.1, qui apporte un lot considérable de nouveautés ainsi qu’une amélioration impressionnante des performances !

Créé en 2009 à Berkeley, il est en train de devenir la plateforme « Big Data » privilégiée, qui remplace peu à peu l’écosystème Hadoop, grâce à des API unifiées en Java, Scala, Python, R qui le rendent très facile d’usage.

La formation passe en revue les principaux composants de Spark, ainsi que les nouveaux packages :

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • Spark ML
  • GraphFrame
  • SparkR
  • Deep Learning pipeline

Notre formation Spark et Machine Learning présente aussi l’intégration de Spark avec HDFS. Elle présente l’API de Spark. Les travaux pratiques sont réalisés en Scala par défaut (ou bien Python en option).

 

Objectifs

  • Être capable d’utiliser Spark 3 et ses nouveautés de manière autonome
  • Comprendre le concept de Machine Learning et être capable de l’utiliser dans Spark 3
  • Manipuler des volumes importants de données en utilisant les bonnes pratiques dans Spark 3
  • Comprendre la documentation, l’API et l’écosystème du Big Data

 

Public visé

  • Développeurs
  • Architectes
  • Administrateurs systèmes
  • DevOps

 

Pré-requis

  • Connaissances de base d’un système Unix
  • Connaissance de Scala ou Python & Git
  • Culture orientée stats

Programme de la formation Spark et Machine Learning

 

Jour 1 – Comprendre et utiliser Spark 3

 

Contexte et problématique du Big Data – Calcul distribué

  • Pourquoi Spark ? Les nouveautés de la version 2 & 3
  • Installation en standalone, test avec jupyter
  • Spark Core (Remplaçant de MapReduce)
  • RDD Resilient Distributed Datasets
  • PairedRDD
  • Spark Context VS Spark Session
  • DAG Directed Acyclic Graph
  • RDD Objects, DAG Scheduler, Task Scheduler, Worker
  • Hadoop et HDFS
  • NameNode & DataNode
    • core-site, hdfs-site
  • Spark sur un Cluster
  • Spark Standalone : Cluster Manager, Worker, Executor, Spark Context
  • Mesos (Private Cluster), Marathon, YARN
  • Structured API

 

Spark SQL (Remplaçant de HIVE)

  • SQLContext
  • HiveContext
    • DataFrames
    • Spark Structure, Schéma et partitionnement

 

Jour 2 – Appréhender le Machine Learning et son intégration dans Spark 3

 

Introduction au Machine Learning (ML)

  • Apprentissage supervisé
  • Apprentissage non-supervisé
  • Clustering : KNN, K-mean
  • Régression : Arbre de régression
  • Classification : Random Forest, SVM, AUC, Courbe ROC

Spark ML – Introduction

  • Pipelines : Transformer, Estimator, Model
  • ML persistence
  • MLlib in R & PySpark

DataVisualisation

  • Matplotlib
  • Seaborn
  • Plotly
  • Bokeh

GraphFrame

  • Présentation du package

 

Jour 3 – Spark 3 en mode avancé : Manipuler les données à grande échelle

 

Spark Streaming

  • Structured Streaming API
  • StreamingContext
  • Static et Dynamic Datasets
    •  Continuous Aggregations
    •  Encoders
  •  Analyse temps-réel d’un fichier de log (Real-Time Analytics)
    • Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine
  • Création d’agents, de sources, channel et sink
  •  Sérialisation avec Avro RPC

SparkR

  • Présentation du package

Deep Learning pipeline

  • Présentation du package
  • Concept de transfert learning

Conclusion

  • Lambda VS Kappa architecture

Pour aller plus loin

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Romain

Romain

J’aide les entreprises à construire une Stratégie Data à court et moyen terme en identifiant pour quels enjeux la data peut avoir une contribution significative. Ma double expérience en développement d’entreprise et en développement informatique me permet de dialoguer en même temps avec les dirigeants d’entreprise et les équipes techniques.

Témoignages

Noté 5 sur 5
25 novembre 2020

explication des elements de base dans l’ordre de la construction des couches logiciels

explication du fonctionnement OK

on a été tres vite sur les algo du Machine learning mais ca ne m a pas posé de pbms les connaissant bien.

les exercices d’application qui permettent de prendre les elements en main.

les astuces et retour d’expérience par l’exemple , presentation et illustration des problems pouvant être rencontré en tant qu’utilisateur de spark.

je pense que j’ai maintenant les bases

– ce qui m a le plus bloqué c’est mon manqué de conaissance en programmation fonctionnelle scala

il aurait été bien de pointer des ressources à faire en autodidacte pour avoir un petit baggage le jour de la formation

– des exercices sur le déploiement

– pouvoir faire une mise en place (install , compilation et lancement sur Linux)

Jean-Baptiste H. de chez NEC DEUTSCHLAND GMBH FRENCH BRANCH

Afficher tous les témoignages

Noté 5 sur 5
25 novembre 2020

explication des elements de base dans l’ordre de la construction des couches logiciels

explication du fonctionnement OK

on a été tres vite sur les algo du Machine learning mais ca ne m a pas posé de pbms les connaissant bien.

les exercices d’application qui permettent de prendre les elements en main.

les astuces et retour d’expérience par l’exemple , presentation et illustration des problems pouvant être rencontré en tant qu’utilisateur de spark.

je pense que j’ai maintenant les bases

– ce qui m a le plus bloqué c’est mon manqué de conaissance en programmation fonctionnelle scala

il aurait été bien de pointer des ressources à faire en autodidacte pour avoir un petit baggage le jour de la formation

– des exercices sur le déploiement

– pouvoir faire une mise en place (install , compilation et lancement sur Linux)

Jean-Baptiste H. de chez NEC DEUTSCHLAND GMBH FRENCH BRANCH
Noté 4 sur 5
25 novembre 2020

Multitude des exemples et exercices, compétences du formateur

Matériel pédagogique pas toujours adapté à la formation en ligne (en particulier l’absence de tableau blanc)

Je suis satisfait de la formation qui m’a permis d’acquérir de nouvelles connaissances

Benoist G. de chez CRIANN
Noté 4 sur 5
25 septembre 2019

Le support de cours permet de couvrir une grande diversité de cas d’usage. Le formateur de par son expérience donne de nombreux exemples concrets.

Oliver chez DASSAULT SYSTEMES SE
Noté 4 sur 5
25 septembre 2019

J’ai apprécié les points concrets du formateur, qui tire son expérience de dev + mise en œuvre.

J’aurai apprécié la dernière journée plus d’exercices illustrant spark ui et son déploiement. ML et streaming sont hors sujet de mon point de vue (pas d’intérêt pour ma part).

Yeves de MOODY S ANALYTICS SAS

Réponse d'Ambient IT

Merci pour votre retour, en effet sur les 3 jours le programme aborde à minima 1 jour ML et Stream.

Nous avons un second programme sur 4 jours sur la partie Tuning.

Noté 4 sur 5
25 septembre 2019

Formateur qui maîtrise parfaitement son sujet, à l’écoute des participants formés.

Ahmed de MOODY S ANALYTICS SAS
Noté 4 sur 5
25 septembre 2019

+ Contenu assez riche (surtout 2ème journée)

+ Nécessite de la pratique (1er et 3ème jour)

+ Exercices proposés assez intéressants et variés

Slim D'ADSERVIO
Noté 5 sur 5
14 décembre 2017

Mes deux collègues sont très satisfaits de la formation SPARK, merci.

Stéphane L. de Metigate
Noté 2 sur 5
14 décembre 2017

Je pense que je me suis trompé dans le choix de formation, je ne pensais pas avoir une introduction sur spark et hadoop. J’ai trouvé quelques approximations et erreurs dans les informations apportées, cependant j’ai beaucoup apprécié les parties sur le streaming et le machine learning. Dommage qu’il n’y ait pas eu une petite partie sur les graphes.

Michael B. de voyages-sncf

Réponse d'Ambient IT

Bonjour Michael & merci pour votre commentaire – En 2018, afin de répondre à la demande de nos clients : nous avons ouvert une formation plus orientée « Production » avec Spark & Tuning, si vous êtes libre lors de la prochaine session, nous essayerons de vous y convier.

Noté 5 sur 5
13 décembre 2017

Très bonnes aptitudes du formateur

David D. de l'INA
Noté 3 sur 5
13 décembre 2017

J’ai trouvé la formation trop orientée analyse stat ou base de données. Je suis dans un domaine + orienté calcul scientifique et j’aurais préféré plus approfondir spark plutôt qu’une intro au machine learning.

Exo trop difficiles, pas assez de temps.

J’aurais préféré passer moins de temps à la config du cluster, mais plus de temps dispo pour pouvoir vraiment faire les exos.

Prérequis pas assez clairs : connaissance de base linux, culture orientée stat, git, python etc… il faut connaître pas mal de choses pour faire les exos dans le temps limité

Jean-Michel G. de FEI

Réponse d'Ambient IT

Merci Jean-Michel, nous avons pris en compte votre avis notamment sur la section Prérequis que nous avons mise à jour.

La partie Machine Learning est assumée dans le programme de cours, car c’est la spécialité du formateur, néanmoins nous avons ouvert une session complémentaire orientée Prod avec ormation-spark-tuning-avancee/">notre formation avancée Spark Tuning.

Noté 5 sur 5
13 décembre 2017

Très bonne appréciation globale sur cette formation

Sébastien M. de FEI
Noté 4 sur 5
13 décembre 2017

Bon équilibre entre théorie et pratique, très bonne salle de formation

Julien G. de Smile
Noté 4 sur 5
13 décembre 2017

Satisfaisant , bonne couverture des sujets.

Steeve S. de Groupe Onepoint
Noté 4 sur 5
13 décembre 2017

Très bonne formation, qui a globalement répondu à mes attentes et démystifié Spark. Développer de A à Z un micro projet ML et le mettre en production à la fin de la formation aurait été un gros plus.

Jadd R. de Metigate
Noté 4 sur 5
13 décembre 2017

Très bonne formation sur Spark ML, Kafka & Cassandra pour la suite en Janvier 2018 !

Mohamed K. de Metigate
Noté 5 sur 5
13 décembre 2017

Cette formation correspond à mes objectifs

Salem H. de Soft Computing
Noté 5 sur 5
21 juillet 2017

La formation correspond aux attentes des différentes stagiaires. Romain a pu nous apporter des connaissances autant techniques que fonctionnelles pour appliquer spark et le machine learning en entreprise grâce à son expérience et des situations vécues dans ses projets antérieurs.

Camille M. chez CGI

Noter la formation

Prix 1980€ HT / personne
Durée 3 jours (21 heures)
Parcours CPF

Paris | à distance | FNE

Il ne reste que quelques places
NewCafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Je ne veux pas me déplacer ? Option classe virtuelle gratuite

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp