Sélectionner une page
Formations Data ETL Formation Apache Hop

Formation Apache Hop

Niveau confirmé
Catégorie Essential
formation apache hop
Prix 2290€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et déjeuners offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

Présentation

La formation Apache Hop est une plongée immersive dans l’univers de l’intégration de données visuelle.

Apache Hop est un outil open source puissant, qui offre une approche visuelle unique pour la conception de flux d’intégration.

Au cours de cette formation, vous explorerez les fondamentaux du traitement de flux et découvrirez comment concevoir des flux complexes de manière intuitive.

Vous serez initié au langage visuel de transformation de données d’Apache Hop, permettant une manipulation aisée des flux.

L’utilisation du langage graphique simplifie la compréhension des processus d’intégration, offrant ainsi une approche conviviale pour les débutants et une flexibilité accrue pour les utilisateurs expérimentés.

Notre formation se basera sur la dernière version du logiciel en date à savoir Apache Hop 2.11.

 

Objectifs

  • Maîtriser la conception de flux d’intégration visuelle
  • Exploiter les fonctionnalités avancées d’Apache Hop
  • Créer des workflows d’intégration complexes

 

Public visé

  • Développeurs
  • Ingénieurs de données

 

Pré-requis

  • Maitriser les bases du SQL
  • Une compréhension de base des concepts d’intégration de données serait un atout.

 

Pré-requis d’installation

  • Avoir un compte Google avec un accès au Dataflow de Google Cloud service (crédit de 300 $ offert à la première inscription)
  • Être admin de son poste, avec une DB active (type PostgreSQL)

Programme de formation Apache Hop

 

[Jour 1 – Matin]

Introduction à Apache Hop et installation

  • Présentation du projet Apache Hop et historique
  • Comprendre les objectifs du framework : intégration, transformation et orchestration des données
  • Architecture générale : Hop GUI, Hop Run, Hop Server, Metadata
  • Installation sur Windows, Linux, Mac (Java 11+)
  • Prise en main de l’interface Hop GUI et création d’un premier projet
  • Atelier pratique : Installation complète et création d’un projet connecté à une base PostgreSQL.

 

[Jour 1 – Après-midi]

Concepts fondamentaux et environnement de travail

  • Comprendre les notions de projets et d’environnements
  • Gestion des connexions et métadonnées : bases de données, fichiers, variables
  • Découverte de la perspective Data Orchestration dans Hop GUI
  • Manipulation des variables et paramètres dans les projets
  • Différences entre pipeline et workflow, orchestration et dépendances
  • Atelier pratique : Création d’un pipeline de transformation CSV – PostgreSQL et d’un workflow conditionnel.

 

Intégration de données multi-sources

  • Connexion à des bases de données : MySQL, PostgreSQL, Oracle
  • Chargement de fichiers structurés : CSV, Excel, JSON, XML
  • Lecture et écriture dans HDFS (Hadoop), MongoDB et Neo4j
  • Gestion des emails : Mail Input et Send Email
  • Bonnes pratiques de mapping et de validation de données
  • Atelier pratique : Intégration CSV – Oracle et automatisation d’imports via e-mails et MongoDB.

 

[Jour 2 – Matin]

Transformations avancées

  • Utilisation des transformations Lookup et Merge Join
  • Opérations de normalisation et dénormalisation des données
  • Calculs, filtres, expressions régulières et enrichissement de données
  • Gestion des erreurs et validation des entrées
  • Automatisation par Metadata Injection
  • Atelier pratique : Pipeline de déduplication + validation et pipeline dynamique avec metadata injection.

 

[Jour 2 – Après-midi]

Gestion de projets et environnements

  • Organisation des projets et des environnements dans Hop
  • Utilisation des fichiers de configuration
  • Gestion des métadonnées partagées entre pipelines
  • Paramétrage des variables globales et spécifiques
  • Meilleures pratiques pour le travail collaboratif et la portabilité
  • Atelier pratique : Création d’un projet multi-environnement avec variables dynamiques.

 

Supervision, logs et performances

  • Configuration des logs d’exécution
  • Analyse en temps réel via Execution Information et Performance Snapshots
  • Gestion des erreurs et reprise après échec
  • Optimisation des pipelines : parallélisation, buffers, filtres, index
  • Centralisation du logging dans une base PostgreSQL/MySQL
  • Atelier pratique : Mise en place d’un système complet de logs et analyse d’un pipeline lent.

 

[Jour 3 – Matin]

Orchestration et déploiement

  • Automatisation via Hop Run et Hop Server
  • Exécution à distance via API REST
  • Structuration des projets pour la production (nomenclature, modularisation)
  • Intégration dans les chaînes CI/CD (Git, Jenkins, GitHub Actions)
  • Comparaison avec Talend et Kettle (forces et faiblesses)
  • Atelier pratique : Déploiement d’un pipeline complet via Hop Run et CI/CD.

 

[Jour 3 – Après-midi]

Cas réels d’entreprise et bonnes pratiques

  • Structuration d’un projet complet : dossiers, versionning, logs, templates
  • Utilisation de Hop Web et de l’interface explorateur
  • Bonnes pratiques de maintenance, gouvernance et documentation
  • Optimisation des performances dans un contexte Big Data
  • Comparaison des architectures On-premise vs Cloud
  • Atelier pratique : Projet complet avec workflow, logs, email et automatisation de déploiement.

 

Approfondissement et extensions

  • Extension du framework via plugins et scripts personnalisés
  • Interopérabilité avec d’autres outils : Kafka, Airflow, Beam
  • Intégration avec les bases NoSQL et Data Lakes
  • Optimisation pour le traitement massif (multi-threading, clustering)
  • Exploration des fonctionnalités avancées de Hop Metadata
  • Atelier pratique : Création d’un plugin personnalisé et exécution distribuée.

 

 

Pour aller plus loin

 

Formation Talend DI 

Formation Azure Data Factory

Formation Alteryx

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

13 mai 2025

Les + : Très bon formateur avec de l’expérience et à l’écoute.

Les – : Décalage horaire 😉

Patrick S. de chez Exelcia

Afficher tous les témoignages

13 mai 2025

Les + : Très bon formateur avec de l’expérience et à l’écoute.

Les – : Décalage horaire 😉

Patrick S. de chez Exelcia

Noter la formation

Prix 2290€ HT / personne
3 jours (21 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et déjeuners offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp