Formations › Data › Framework Big Data › Formation PySpark : traitez rapidement vos données en masse

Formation PySpark : traitez rapidement vos données en masse

Niveau confirmé

Catégorie Essential

Prix	1 980€ ^HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

lun 15

mer 17

Juin



lun 29

mer 1

Juin

Juillet

lun 10

mer 12

Août



lun 14

mer 16

Septembre

lun 5

mer 7

Octobre



lun 30

mer 2

Novembre

Décembre

lun 14

mer 16

Décembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et encas offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 2500€ Bonus Atlas CPF

Présentation

Notre formation PySpark vous apprendra à manipuler rapidement un grand volume de données, bénéficiez de la puissance de l’API de Python pour maîtriser Apache Spark.

Notre formation se compose en différents modules nécessaires pour comprendre l’écosystème d’Apache Spark et l’utilisation de PySpark. En effet, nous débuterons par une présentation d’Hadoop (son architecture et ses composants). Ensuite, nous vous guiderons sur l’installation de ce framework Big Data ainsi que la configuration de PySpark.

Vous découvrirez comment utiliser l’API de Python sur Spark pour manipuler vos données, ainsi, vous maitriserez l’intégralité de votre processus ETL (extraction, chargement et transformation des données). De plus, un module est dédié à l’utilisation de Pandas pour approfondir l’utilisation de l’outil. Vous saurez également utiliser Spark pour le machine learning, Spark Streaming et évidemment Spark SQL.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie PySpark (3.5.0) et ses nouveautés.

Objectifs

Comprendre le rôle d’Hadoop et de Spark dans le Big Data.
Maîtriser l’architecture et le fonctionnement d’Hadoop
Installer et interagir avec Spark
Utiliser Spark SQL pour manipuler les DataFrames
Appliquer PySpark et Pandas pour la manipulation de données

Public visé

Data analysts
Data scientists
Data engineers
Développeurs

Pré-requis

Connaissances en SQL
Connaissances de base en mathématiques et statistiques
Connaissances de base de Python

Programme de notre formation PySpark

Présentation d’Hadoop

Qu’est-ce qu’Hadoop ?
Son rôle dans le Big Data
Présentation de son architecture
Comment Hadoop fonctionne ?
Les modules principaux
- HDFS
- YARN
- MapReduce
- Hadoop Common

Présentation de Spark

Spark vs Hadoop
Les différences avec MapReduce
Pourquoi utiliser Spark ?
Les fonctionnalités
- MLlib
- Streaming
- SQL
- GraphX
Comment fonctionne Spark ?
Les ensembles de données
- RDD
- DataFrames
- Data Sets

Comment installer Spark ?

En local
Sur une infrastructure distribuée
Sur le Cloud
Première interaction avec Spark

Spark SQL

Introduction à Spark SQL
Création de DataFrames
Manipulation des DataFrames
Chargement des données
Stockage des données
Différences entre l’API SQL et l’API dataframe
Explication du fonctionnement de catalyst, et outils de diagnostique et debugging.

Utiliser PySpark

Présentation de PySpark
Utilisation de SparkSQL pour manipuler des données
Charger des données de différents formats
Transformer ses données
TP : Chargement et transformation de données avec PySpark

L’API Pandas

Installer Pandas
Transform et apply
Comment les types de données changent ?
Les hints
Les bonnes pratiques de développement

Spark.ml

Apprentissage supervisé
Random trees
Créer des recommandations personnalisées
Traitement de données textuelles
Automatiser ses analyses avec des pipelines

Spark Streaming

DStream
Les sources de données
Utiliser l’API
Modifier des données

Troubleshooting

Exceptions liées à l’absence de mémoire
Échec répété de la tâche Spark
Échec de la commande Spark Shell
FileAlreadyExistsException
Erreur “Too Large Frame”
Les jobs Spark échouent à cause d’échecs de compilation

Pour aller plus loin

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Kafka

Formation Kibana

Formation MongoDB

Formation PostgreSQL

Télécharger le plan du cours

Download the course outline

Langues et Lieux disponibles

 Langues

Français
Anglais / English

 Lieux

France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
Belgique
- Bruxelles
- Liège
Suisse
- Genève
- Zurich
- Lausanne
Luxembourg

Nos Formateurs Référents

Témoignages

11 octobre 2023

Les + : – Formateur très qualifié, qui savait répondre à toutes les questions.

– Vernis hyper intéressant sur la partie data engineering, que je ne connaissais pas du tout.

Les – : – Cette formation était plutôt orientée data engineer, alors que nous étions un public de data analyst. Selon moi, toute une partie était inadaptée à notre métier et notre quotidien, mais les parties essentielles nous ont quand même permis de progresser en Spark.

– Il aurait fallu + de cas pratiques.

Léa C. de chez AVANSSUR

Afficher tous les témoignages

11 octobre 2023

Les + : – Formateur très qualifié, qui savait répondre à toutes les questions.

– Vernis hyper intéressant sur la partie data engineering, que je ne connaissais pas du tout.

– Il aurait fallu + de cas pratiques.

Léa C. de chez AVANSSUR

11 octobre 2023

Je recommande la formation

Paul R. de chez AVANSSUR

11 octobre 2023

Je recommande la formation

El harith A. de chez AVANSSUR

11 octobre 2023

Les + : Nous n’avons pas eu de problème d’environnement lors des travaux pratiques sur les notebook, ce qui est très appréciable.

La formation permet de comprendre en profondeur le fonctionnement de spark (Elle serait surement très bien si adressée au bon public : cf question suivante)

Les – : – la formation m’a semblée peu adaptée au public formé : en effet elle était très axée data ingénieur. En tant que Data scientist/analyst : plusieurs parties de la formation m’ont semblées peu pertinente ou trop approfondie vis à vis de mon utilisation future de spark.

– la formation m’a parue trop théorique. Nous avons réalisé environ 2 jours de théorie et un jour de pratique. J’aurais préféré un équilibre inversé. Ma future utilisation de spark consistera à migrer du code python en pyspark et j’aurais préféré qu’on fasse plus de TP de data management en pyspark et qu’on voit en pratique comment régler des problèmes de performance.

Clelia P. de chez AVANSSUR

11 octobre 2023

Les + : Pédagogie et communication

Les – : Un peu intense, beaucoup d’informations à assimiler en peu de temps.

Manel M. de chez AVANSSUR

Noter la formation

Prix	1 980€ ^HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

lun 15

mer 17

Juin



lun 29

mer 1

Juin

Juillet

lun 10

mer 12

Août



lun 14

mer 16

Septembre

lun 5

mer 7

Octobre



lun 30

mer 2

Novembre

Décembre

lun 14

mer 16

Décembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et encas offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 2500€ Bonus Atlas CPF