Formations BigData & NoSQL Formation Databricks

Formation Databricks

Rated 0 out of 5
Logo formation databricks
Prix 1590€ HT / personne
Durée 2 jours ( 14 heures )
Paris | à distance | FNE
Il ne reste que quelques places
Option OFFERTE de classe virtuelle (40€/j en supplément)
Disponible en intra-entreprise pour former votre équipe

Présentation

Databricks simplifie votre process Big Data. Cette plateforme créée par les fondateurs d’Apache Spark rend plus sûr le déroulement du processus ETL.

En effet, Databricks utilise l’architecture d’Apache Spark en y ajoutant des pipelines fiables et puissants. L’outil fournit une gestion automatisée des clusters et des notebooks de style IPython.

Les pipelines de données peuvent être écrits dans de nombreux langages (Scala, SQL, R, Python) conçus dans des workspaces collaboratifs.

Databricks est également rigoureusement sécurisé grâce à un modèle de protection unifié comportant toutes les fonctionnalités (gestion des identités, cryptage…).

Notre formation Databricks vous présentera comment élaborer un processus ETL complet. Nous commencerons par la présentation du système, puis, l’extraction des données, leurs chargements, leurs transformations et enfin nous évoquerons les dashboards et l’utilisation d’IntelliJ IDE.

Comme toujours, nous vous présenterons la dernière version de l’outil, Databricks 8.1.

 

Objectifs

  • Bien connaître les spécificités de Databricks
  • Extraire les données avec Databricks
  • Savoir comment transformer et charger ses données
  • Utiliser les dashboards et déployer son processus

 

Public visé

  • Développeurs
  • Data Engineer
  • Architectes
  • Administrateurs système
  • Data miners
  • Data scientists
  • Data analysts
  • Business intelligence analysts
  • Market inteligence analysts

 

Pré-requis

Programme de la formation Databricks

 

Introduction

  • Présentation de l’outil
  • Pourquoi utiliser Databricks?
  • Databricks vs Apache Spark
  • Présentation de l’interface
  • Les notebooks
  • Créer un cluster et une table
  • Créer des jobs
  • Créer un pool

 

Extraire ses données

  • Importer ses données
  • Ajouter des schemas
  • Gérer les tables avec SQL
  • Utiliser Python sur Databricks

 

Transformer ses données

  • Transformer ses données avec Scala
  • Manipulation de données avec Spark SQL
  • Modification de données avec Python
  • Utiliser l’API DataFrame

 

Charger ses données

  • Le fichier nested XML
  • Le fichier nested json
  • Les tables DELTA

 

Dashboard et déploiement du processus

  • Présentation du Dashboard
  • Développer un job pour rafraichir le dashboard
  • Créer un projet avec IntelliJ IDE
  • Créer son application
  • Ajouter des dépendances
  • Externaliser les propriétés
  • Envoyer les jobs

Pour aller plus loin

Azure Databricks

Formation Spark et Machine Learning

Formation Spark Streaming

Formation Spark Tuning Avancé

Formation MongoDB

Formation Kibana

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

Afficher tous les témoignages

Noter la formation
Prix 1590€ HT / personne
Durée 2 jours ( 14 heures )

Paris | à distance | FNE
Il ne reste que quelques places
Option OFFERTE de classe virtuelle (40€/j en supplément)
Disponible en intra-entreprise pour former votre équipe

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.