Formation PySpark : traitez rapidement vos données en masse
1980€ HT / personne |
3 jours (21 heures) |
Présentation
Notre formation PySpark vous apprendra à manipuler rapidement un grand volume de données, bénéficiez de la puissance de l’API de Python pour maîtriser Apache Spark.
Notre formation se compose en différents modules nécessaires pour comprendre l’écosystème d’Apache Spark et l’utilisation de PySpark. En effet, nous débuterons par une présentation d’Hadoop (son architecture et ses composants). Ensuite, nous vous guiderons sur l’installation de ce framework Big Data ainsi que la configuration de PySpark.
Vous découvrirez comment utiliser l’API de Python sur Spark pour manipuler vos données, ainsi, vous maitriserez l’intégralité de votre processus ETL (extraction, chargement et transformation des données). De plus, un module est dédié à l’utilisation de Pandas pour approfondir l’utilisation de l’outil. Vous saurez également utiliser Spark pour le machine learning, Spark Streaming et évidemment Spark SQL.
Notre formation vous présentera la dernière version d’Apache Spark, Spark 3.4.
Objectifs
- Comprendre le rôle d’Hadoop et de Spark dans le Big Data.
- Maîtriser l’architecture et le fonctionnement d’Hadoop
- Installer et interagir avec Spark
- Utiliser Spark SQL pour manipuler les DataFrames
- Appliquer PySpark et Pandas pour la manipulation de données
Public visé
- Data analysts
- Data scientists
- Data engineers
- Développeurs
Pré-requis
- Connaissances en SQL
- Connaissances de base en mathématiques et statistiques
- Connaissances de base de Python
Programme de notre formation PySpark
Présentation d’Hadoop
- Qu’est-ce qu’Hadoop ?
- Son rôle dans le Big Data
- Présentation de son architecture
- Comment Hadoop fonctionne ?
- Les modules principaux
- HDFS
- YARN
- MapReduce
- Hadoop Common
Présentation de Spark
- Spark vs Hadoop
- Les différences avec MapReduce
- Pourquoi utiliser Spark ?
- Les fonctionnalités
- MLlib
- Streaming
- SQL
- GraphX
- Comment fonctionne Spark ?
- Les ensembles de données
- RDD
- DataFrames
- Data Sets
Comment installer Spark ?
- En local
- Sur une infrastructure distribuée
- Sur le Cloud
- Première interaction avec Spark
Spark SQL
- Introduction à Spark SQL
- Création de DataFrames
- Manipulation des DataFrames
- Chargement des données
- Stockage des données
- Différences entre l’API SQL et l’API dataframe
- Explication du fonctionnement de catalyst, et outils de diagnostique et debugging.
Utiliser PySpark
- Présentation de PySpark
- Utilisation de SparkSQL pour manipuler des données
- Charger des données de différents formats
- Transformer ses données
- TP : Chargement et transformation de données avec PySpark
L’API Pandas
- Installer Pandas
- Transform et apply
- Comment les types de données changent ?
- Les hints
- Les bonnes pratiques de développement
Spark.ml
- Apprentissage supervisé
- Random trees
- Créer des recommandations personnalisées
- Traitement de données textuelles
- Automatiser ses analyses avec des pipelines
Spark Streaming
- DStream
- Les sources de données
- Utiliser l’API
- Modifier des données
Troubleshooting
- Exceptions liées à l’absence de mémoire
- Échec répété de la tâche Spark
- Échec de la commande Spark Shell
- FileAlreadyExistsException
- Erreur « Too Large Frame »
- Les jobs Spark échouent à cause d’échecs de compilation
Pour aller plus loin
Formation Spark Streaming
Formation Spark Tuning Avancé
Formation Kafka
Formation Kibana
Formation MongoDB
Formation PostgreSQL
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Nos Formateurs Référents
Témoignages
⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !
Afficher tous les témoignages
⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !
Noter la formation
1980€ HT / personne |
3 jours (21 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS