Sélectionner une page
Formations Data Framework Big Data Formation Spark Streaming

Formation Spark Streaming

Logo Spark Streaming
Prix 2090€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Spark est un framework pour effectuer des calculs distribués sur un cluster d’ordinateurs. Cette formation présente la toute nouvelle version 3.5.2 apportant un lot considérable de nouveautés ainsi qu’une amélioration impressionnante des performances !

Apache Spark peut traiter rapidement une large quantité de données à grande échelle. Depuis peu, cet outil est devenu l’un des meilleurs frameworks de calcul distribué au monde. Il a l’avantage d’intégrer différents langages de programmation tel que Java, Scala, Python ou encore R.

Notre formation présente les concepts avancés de Spark Streaming, de son intégration avec Kafka, mais aussi toutes les bonnes pratiques pour réussir son déploiement en production. Les travaux pratiques sont réalisés en Scala (ou bien Python en option).

 

Objectifs

  • Manipuler des volumes importants de données en utilisant les bonnes pratiques de Spark Streaming
  • Comprendre les concepts avancés de la nouvelle API Spark Streaming v4
  • Intégrer et faire cohabiter Kafka avec Spark Streaming
  • Être capable d’utiliser Spark Streaming en production

 

Public visé

  • Développeurs
  • Data Engineer
  • Architectes
  • Administrateurs systèmes
  • DevOps

 

Pré-requis

  • Avoir idéalement suivi nos formations Spark ML ou Spark Tuning Avancé
  • Connaissances de base d’un système Unix
  • Connaissance de Scala, Git & Kafka

Programme de la formation Spark Streaming

 

Jour 1

Introduction à Spark (dans un context de streaming)

  • Architecture de Spark
  • Fonctionnement interne (Stage, Task, Scheduler …)
  • Batch vs Stream
  • Le modèle microbatch
  • API DStreams avec Scala

 

Structured Streaming

  • Introduction à l’API Structured Streaming.
  • API source
  • API Sink
  • API fonctionnelle
  • SQL streaming
  • Streaming des sources Json, Csv, Paquet
  • Calculer des agrégats en streaming

 

Jour 2

Introduction à apache Kafka

  • Fonctionnement interne ( Topic, partition, Offset …)
  • Producer
  • Consumers
  • Partitioning
  • Commit des offsets

 

Intégration Spark streaming avec Kafka

  • Streaming en Source et en Sink
  • Calculer des agrégats en temps réel
  • Jointure Stream-static et Stream-Stream
  • Watermarks
  • Windowing (tumbling, sliding, reduce…)

 

Jour 3

Streaming avec état (Stateful Streaming)

  • State store
  • Les opérateurs GroupState
  • Les timeouts

 

Spark streaming en production

  • State checkpointing et fault-tolerance.
  • Monitoring via Spark-UI
  • Tuning

 

Gestion des schémas avec Avro (Optionnelle + 1 jour sur demande)

Pour aller plus loin

Formation Spark Tuning Avancé

Formation Spark et Machine Learning

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Walid

Walid

Data et software engineer, Lead développeur Java / Scala, passionné par la data et les architectures distribués. Je m’intéresse particulièrement aux sujets suivants :

  • La programmation fonctionnelle / asynchrone réactive (Scala, Akka, Rx)
  • Les architectures distribuées et BigData (Spark, Hadoop, Kafka)
  • Machine Learning(SparkML, Scikit-learn, Deep Learning)
  • DevOps(Ansible, Docker, Cloud, Aws, Jenkins, CI/DC )
  • JVM(Profiling, Tuning GC)

Témoignages

16 octobre 2020

Je recommande la formation

Aurianne T. de chez Hewlett-Packard Centre de Competences France SAS Mougins

Afficher tous les témoignages

16 octobre 2020

Je recommande la formation

Aurianne T. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

formateur très pointu/compétent, nombreux retours d’expérience, et qualité des détails techniques

le formateur ne guide pas assez les utilisateurs au départ (pas de correction au fur et a mesure) / les supports pourraient être plus complets / riche / précis… bien que tout ceci soit largement compensé à la moindre question posée ou problème rencontré.

l’outil en ligne remplaçant le tableau blanc n’est visiblement pas pratique à utiliser avec une souris… offrir une tablette graphique au formateur serait clairement utile pour la lisibilité ! 🙂

Donatien R. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

Les connaissances générales du formateur

Quelques redondances dans la partie readStream et writeStream

Sylvain C. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

Je recommande la formation

Olivier F. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

exercices pratiques

spark ui manipulation

partie kafka bien detaile

setup machine / ide / etc. un peu rapide pour un neophyte.

solutions aux exercices entre chaque exercice seraient utile pour valider son propre dev.

tuning advance difficile a comprendre suivant son niveau en spark.

n/a

Merci au formateur malgres les contraintes remotes.

Jean-Charles P. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

Tres bonne adaptation a nos questions / problematiques

Preparation des exercices, pas de distribution des correction au fur et a mesure. je pense que certains etudiants ont eu beaucoup de mal a suivre au fur et a mesure… Distribution des supports au fur et a mesure…. difficultes de prises de notes sans support

Pierre M. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

De la theorie que l’on a bien applique avec les TDs

De ne pas avoir pu etre en presentiel

Perrine B. de chez Hewlett-Packard Centre de Competences France SAS Mougins
16 octobre 2020

Aussi bien dans une salle la formation doit être bien, mais en remote avec gotomeeting, ça fait un peu brouillon : les explications au crayon sur des slides déjà remplis deviennent vite illisibles

le fait que chacun partage son écran en cas de problème fait perdre beaucoup de temps au final les solutions ne sont pas envoyées au fil de la formation.

Christophe A. de chez Hewlett-Packard Centre de Competences France SAS Mougins

Réponse d'Ambient IT

Bonjour Christophe,

Nous vous remercions d’avoir pris le temps de rédiger ce commentaire concernant la formation Spark Streaming.

Les circonstances actuelles nous obligeant à former en distanciel, impactent la qualité de nos formations.

Notre équipe travaille activement pour proposer une expérience digitale aussi qualitative qu’en présentiel.

16 octobre 2020

tres bon environment pour les travaux pratiques. travaux pratiques tres adaptes.

Bon adaptation de la formation a notre demande d’agenda.

Merci !

(il reste juste une question en suspend a propos des aggregations faites dans les windows, et l’utilisation du watermark par rapport au windowing)

Didier A. de chez Hewlett-Packard Centre de Competences France SAS Mougins

Noter la formation

Prix 2090€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp