Formations Data ETL Formation Databricks

Formation Databricks

Rated 4,2 out of 5
Logo formation databricks
Prix 1590€ HT / personne
Durée 2 jours (14 heures)

Paris | Classe Virtuelle

Il ne reste que quelques places
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

Présentation

Databricks simplifie votre process Big Data. Cette plateforme créée par les fondateurs d’Apache Spark rend plus sûr le déroulement du processus ETL.

En effet, Databricks utilise l’architecture d’Apache Spark en y ajoutant des pipelines fiables et puissants. L’outil fournit une gestion automatisée des clusters et des notebooks de style IPython.

Les pipelines de données peuvent être écrits dans de nombreux langages (Scala, SQL, R, Python) conçus dans des workspaces collaboratifs.

Databricks est également rigoureusement sécurisé grâce à un modèle de protection unifié comportant toutes les fonctionnalités (gestion des identités, cryptage…).

Notre formation Databricks vous présentera comment élaborer un processus ETL complet. Nous commencerons par la présentation du système, puis, l’extraction des données, leurs chargements, leurs transformations et enfin nous évoquerons les dashboards et l’utilisation d’IntelliJ IDE.

Comme toujours, nous vous présenterons la dernière version de l’outil, Databricks 14.

 

Objectifs

  • Bien connaître les spécificités de Databricks
  • Extraire les données avec Databricks
  • Savoir comment transformer et charger ses données
  • Utiliser les dashboards et déployer son processus

 

Public visé

  • Développeurs
  • Data Engineer
  • Architectes
  • Administrateurs système
  • Data miners
  • Data scientists
  • Data analysts
  • Business intelligence analysts
  • Market inteligence analysts

 

Pré-requis

  • Avoir idéalement suivi nos formations Spark ML ou Spark Tuning Avancé
  • Connaissance de Scala, SQL et idéalement Python
  • Disposer d’un compte Databricks

Programme de la formation Databricks

 

Introduction

  • Présentation de l’outil
  • Pourquoi utiliser Databricks?
  • Databricks vs Apache Spark
  • Présentation de l’interface
  • Les notebooks
  • Créer un cluster et une table
  • Créer des jobs
  • Créer un pool

 

Extraire ses données

  • Importer ses données
  • Ajouter des schemas
  • Gérer les tables avec SQL
  • Utiliser Python sur Databricks

 

Transformer ses données

  • Transformer ses données avec Scala
  • Manipulation de données avec Spark SQL
  • Modification de données avec Python
  • Utiliser l’API DataFrame

 

Charger ses données

  • Le fichier nested XML
  • Le fichier nested json
  • Les tables DELTA

 

Dashboard et déploiement du processus

  • Présentation du Dashboard
  • Développer un job pour rafraichir le dashboard
  • Créer un projet avec IntelliJ IDE
  • Créer son application
  • Ajouter des dépendances
  • Externaliser les propriétés
  • Envoyer les jobs

Pour aller plus loin

Azure Databricks

Formation Azure Data Factory

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation Spark et Machine Learning

Formation Kibana

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

Rated 5,0 out of 5
17 octobre 2023

Les + : cadre, locaux et intervenant très investie durant tout le long de la formation.

Je souhaite suivre : Mlops, développement avancée Spark.

Martin F. de chez LINCOLN

Afficher tous les témoignages

Rated 5,0 out of 5
17 octobre 2023

Les + : cadre, locaux et intervenant très investie durant tout le long de la formation.

Je souhaite suivre : Mlops, développement avancée Spark.

Martin F. de chez LINCOLN
Rated 4,0 out of 5
17 octobre 2023

Les + : Nouvelle technologie très intéressante.

Les – : La durée est courte pour le programme et il n’y a pas assez de pratique/ On a pas eu le temps de pratiquer.

Je souhaite suivre : Spark avancé

Yanis A. de chez LINCOLN
Rated 4,0 out of 5
17 octobre 2023

Les + : compléte et d’actualité

Les – : période courte pour voir tous les concepts, pas le temps pour tous tester

Je souhaite suivre : spark/scala/MLOps

Hamza H. de chez LINCOLN
Rated 4,0 out of 5
17 octobre 2023

Les + : Panorama très complet de Databricks

Les – : Formation très dense

Emmanuel B. de chez LINCOLN
Rated 5,0 out of 5
17 octobre 2023

Les + : clarté du formateur

Les – : Planning un chargé (vers la fin de la formation)

Jalil O. de chez LINCOLN
Rated 3,0 out of 5
17 octobre 2023

Les + : Bonne présentation de Data-bricks.

Les – : Le programme est trop chargé pour tenir en deux jours, et le temps manque pour véritablement développer une pratique individuelle.

Philippe R. de chez LINCOLN

Noter la formation

Prix 1590€ HT / personne
Durée 2 jours (14 heures)

Paris | Classe Virtuelle

Il ne reste que quelques places
Cafés et déjeuners offerts en interentreprises
Disponible en intra-entreprise pour former votre équipe
Aide au Financement 4000€ de Bonus Atlas en CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp