Sélectionner une page
Formations Data Framework Big Data Formation PySpark : traitez rapidement vos données en masse

Formation PySpark : traitez rapidement vos données en masse

formation pyspark
Prix 1980€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières Place Full Classe Virtuelle
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Notre formation PySpark vous apprendra à manipuler rapidement un grand volume de données, bénéficiez de la puissance de l’API de Python pour maîtriser Apache Spark.

Notre formation se compose en différents modules nécessaires pour comprendre l’écosystème d’Apache Spark et l’utilisation de PySpark. En effet, nous débuterons par une présentation d’Hadoop (son architecture et ses composants). Ensuite, nous vous guiderons sur l’installation de ce framework Big Data ainsi que la configuration de PySpark.

Vous découvrirez comment utiliser l’API de Python sur Spark pour manipuler vos données, ainsi, vous maitriserez l’intégralité de votre processus ETL (extraction, chargement et transformation des données). De plus, un module est dédié à l’utilisation de Pandas pour approfondir l’utilisation de l’outil. Vous saurez également utiliser Spark pour le machine learning, Spark Streaming et évidemment Spark SQL.

Notre formation vous présentera la dernière version d’Apache Spark, Spark 4.0.

 

Objectifs

  • Comprendre le rôle d’Hadoop et de Spark dans le Big Data.
  • Maîtriser l’architecture et le fonctionnement d’Hadoop
  • Installer et interagir avec Spark
  • Utiliser Spark SQL pour manipuler les DataFrames
  • Appliquer PySpark et Pandas pour la manipulation de données

 

Public visé

  • Data analysts
  • Data scientists
  • Data engineers
  • Développeurs

 

Pré-requis

  • Connaissances en SQL
  • Connaissances de base en mathématiques et statistiques
  • Connaissances de base de Python

Programme de notre formation PySpark

 

Présentation d’Hadoop

  • Qu’est-ce qu’Hadoop ?
  • Son rôle dans le Big Data
  • Présentation de son architecture
  • Comment Hadoop fonctionne ?
  • Les modules principaux
    • HDFS
    • YARN
    • MapReduce
    • Hadoop Common

 

Présentation de Spark

  • Spark vs Hadoop
  • Les différences avec MapReduce
  • Pourquoi utiliser Spark ?
  • Les fonctionnalités
    • MLlib
    • Streaming
    • SQL
    • GraphX
  • Comment fonctionne Spark ?
  • Les ensembles de données
    • RDD
    • DataFrames
    • Data Sets

 

Comment installer Spark ?

  • En local
  • Sur une infrastructure distribuée
  • Sur le Cloud
  • Première interaction avec Spark

 

Spark SQL

  • Introduction à Spark SQL
  • Création de DataFrames
  • Manipulation des DataFrames
  • Chargement des données
  • Stockage des données
  • Différences entre l’API SQL et l’API dataframe
  • Explication du fonctionnement de catalyst, et outils de diagnostique et debugging.

 

Utiliser PySpark

  • Présentation de PySpark
  • Utilisation de SparkSQL pour manipuler des données
  • Charger des données de différents formats
  • Transformer ses données
  • TP : Chargement et transformation de données avec PySpark

 

L’API Pandas

  • Installer Pandas
  • Transform et apply
  • Comment les types de données changent ?
  • Les hints
  • Les bonnes pratiques de développement

 

Spark.ml

  • Apprentissage supervisé
  • Random trees
  • Créer des recommandations personnalisées
  • Traitement de données textuelles
  • Automatiser ses analyses avec des pipelines

 

Spark Streaming

  • DStream
  • Les sources de données
  • Utiliser l’API
  • Modifier des données

 

Troubleshooting

  • Exceptions liées à l’absence de mémoire
  • Échec répété de la tâche Spark
  • Échec de la commande Spark Shell
  • FileAlreadyExistsException
  • Erreur « Too Large Frame »
  • Les jobs Spark échouent à cause d’échecs de compilation

Pour aller plus loin

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Témoignages

11 octobre 2023

Les + : – Formateur très qualifié, qui savait répondre à toutes les questions.

– Vernis hyper intéressant sur la partie data engineering, que je ne connaissais pas du tout.

Les – : – Cette formation était plutôt orientée data engineer, alors que nous étions un public de data analyst. Selon moi, toute une partie était inadaptée à notre métier et notre quotidien, mais les parties essentielles nous ont quand même permis de progresser en Spark.

– Il aurait fallu + de cas pratiques.

Léa C. de chez AVANSSUR

Afficher tous les témoignages

11 octobre 2023

Les + : – Formateur très qualifié, qui savait répondre à toutes les questions.

– Vernis hyper intéressant sur la partie data engineering, que je ne connaissais pas du tout.

Les – : – Cette formation était plutôt orientée data engineer, alors que nous étions un public de data analyst. Selon moi, toute une partie était inadaptée à notre métier et notre quotidien, mais les parties essentielles nous ont quand même permis de progresser en Spark.

– Il aurait fallu + de cas pratiques.

Léa C. de chez AVANSSUR
11 octobre 2023

Je recommande la formation

Paul R. de chez AVANSSUR
11 octobre 2023

Je recommande la formation

El harith A. de chez AVANSSUR
11 octobre 2023

Les + : Nous n’avons pas eu de problème d’environnement lors des travaux pratiques sur les notebook, ce qui est très appréciable.

La formation permet de comprendre en profondeur le fonctionnement de spark (Elle serait surement très bien si adressée au bon public : cf question suivante)

Les – : – la formation m’a semblée peu adaptée au public formé : en effet elle était très axée data ingénieur. En tant que Data scientist/analyst : plusieurs parties de la formation m’ont semblées peu pertinente ou trop approfondie vis à vis de mon utilisation future de spark.

– la formation m’a parue trop théorique. Nous avons réalisé environ 2 jours de théorie et un jour de pratique. J’aurais préféré un équilibre inversé. Ma future utilisation de spark consistera à migrer du code python en pyspark et j’aurais préféré qu’on fasse plus de TP de data management en pyspark et qu’on voit en pratique comment régler des problèmes de performance.

Clelia P. de chez AVANSSUR
11 octobre 2023

Les + : Pédagogie et communication

Les – : Un peu intense, beaucoup d’informations à assimiler en peu de temps.

Manel M. de chez AVANSSUR

Noter la formation

Prix 1980€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières Place Full Classe Virtuelle
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp