Sélectionner une page
Formations Data Framework Big Data Formation PySpark : traitez rapidement vos données en masse

Formation PySpark : traitez rapidement vos données en masse

Rated 0 out of 5
formation pyspark
Prix 1980€ HT / personne
Durée 3 jours (21 heures)

Paris | Classe Virtuelle

Il ne reste que quelques places
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Notre formation PySpark vous apprendra à manipuler rapidement un grand volume de données, bénéficiez de la puissance de l’API de Python pour maîtriser Apache Spark.

Notre formation se compose en différents modules nécessaires pour comprendre l’écosystème d’Apache Spark et l’utilisation de PySpark. En effet, nous débuterons par une présentation d’Hadoop (son architecture et ses composants). Ensuite, nous vous guiderons sur l’installation de ce framework Big Data ainsi que la configuration de PySpark.

Vous découvrirez comment utiliser l’API de Python sur Spark pour manipuler vos données, ainsi, vous maitriserez l’intégralité de votre processus ETL (extraction, chargement et transformation des données). De plus, un module est dédié à l’utilisation de Pandas pour approfondir l’utilisation de l’outil. Vous saurez également utiliser Spark pour le machine learning, Spark Streaming et évidemment Spark SQL.

Notre formation vous présentera la dernière version d’Apache Spark, Spark 3.4.

 

Objectifs

  • Comprendre le rôle d’Hadoop et de Spark dans le Big Data.
  • Maîtriser l’architecture et le fonctionnement d’Hadoop
  • Installer et interagir avec Spark
  • Utiliser Spark SQL pour manipuler les DataFrames
  • Appliquer PySpark et Pandas pour la manipulation de données

 

Public visé

  • Data analysts
  • Data scientists
  • Data engineers
  • Développeurs

 

Pré-requis

  • Connaissances en SQL
  • Connaissances de base en mathématiques et statistiques
  • Connaissances de base de Python

Programme de notre formation PySpark

 

Présentation d’Hadoop

  • Qu’est-ce qu’Hadoop ?
  • Son rôle dans le Big Data
  • Présentation de son architecture
  • Comment Hadoop fonctionne ?
  • Les modules principaux
    • HDFS
    • YARN
    • MapReduce
    • Hadoop Common

 

Présentation de Spark

  • Spark vs Hadoop
  • Les différences avec MapReduce
  • Pourquoi utiliser Spark ?
  • Les fonctionnalités
    • MLlib
    • Streaming
    • SQL
    • GraphX
  • Comment fonctionne Spark ?
  • Les ensembles de données
    • RDD
    • DataFrames
    • Data Sets

 

Comment installer Spark ?

  • En local
  • Sur une infrastructure distribuée
  • Sur le Cloud
  • Première interaction avec Spark

 

Spark SQL

  • Introduction à Spark SQL
  • Création de DataFrames
  • Manipulation des DataFrames
  • Chargement des données
  • Stockage des données
  • Différences entre l’API SQL et l’API dataframe
  • Explication du fonctionnement de catalyst, et outils de diagnostique et debugging.

 

Utiliser PySpark

  • Présentation de PySpark
  • Utilisation de SparkSQL pour manipuler des données
  • Charger des données de différents formats
  • Transformer ses données
  • TP : Chargement et transformation de données avec PySpark

 

L’API Pandas

  • Installer Pandas
  • Transform et apply
  • Comment les types de données changent ?
  • Les hints
  • Les bonnes pratiques de développement

 

Spark.ml

  • Apprentissage supervisé
  • Random trees
  • Créer des recommandations personnalisées
  • Traitement de données textuelles
  • Automatiser ses analyses avec des pipelines

 

Spark Streaming

  • DStream
  • Les sources de données
  • Utiliser l’API
  • Modifier des données

 

Troubleshooting

  • Exceptions liées à l’absence de mémoire
  • Échec répété de la tâche Spark
  • Échec de la commande Spark Shell
  • FileAlreadyExistsException
  • Erreur « Too Large Frame »
  • Les jobs Spark échouent à cause d’échecs de compilation

Pour aller plus loin

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Noter la formation

Prix 1980€ HT / personne
Durée 3 jours (21 heures)

Paris | Classe Virtuelle

Il ne reste que quelques places
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp