Sélectionner une page
Formations Data Data Engineer Formation Calista Framework

Formation Calista Framework

Niveau confirmé
Catégorie Essential
formation Calista Framework
Prix 1490€ HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et déjeuners offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

Présentation

Calista est un framework de Qualité de Données (DQ) open source et industriel qui permet de valider des volumes massifs de données au sein d’environnements Big Data.

Notre formation Calista vous permettra de maîtriser l’approche “Data Quality as Code” pour automatiser vos contrôles de données. Vous apprendrez à configurer le moteur, à définir des règles de validation complexes et à intégrer ces tests directement dans vos pipelines ETL ou Spark.

L’objectif de notre formation est de garantir une donnée fiable, intègre et prête pour l’analyse décisionnelle.

Comme toutes nos formations, celle-ci privilégie une approche pratique et opérationnelle basée sur des cas d’usage concrets de production. 

 

Objectifs

  • Comprendre la philosophie de Calista et son architecture.
  • Mettre en place des profils de données et des règles de contrôle.
  • Isoler et traiter les anomalies de données de manière industrielle.
  • Intégrer Calista dans une chaîne CI/CD ou un orchestrateur.
  • Générer des rapports de qualité et des KPIs actionnables.

 

Public visé

  • Data Engineers
  • Data Quality Managers
  • Architectes de données

Pré-requis

  • Connaissances de base en SQL
  • Notions en Scala ou Java
  • Familiarité avec l’écosystème Spark/Hadoop

 

Pré-requis techniques

  • 8 Go de RAM au minimum, 16 Go recommandés
  • Environnement Docker ou installation locale de Spark
  • Un IDE (IntelliJ IDEA de préférence)
  • Accès à un terminal (Bash ou PowerShell)

Formation Calista : Qualité de Données & Industrialisation

 

[Jour 1 – Matin]

Fondamentaux et Architecture

  • Comprendre les enjeux de la Data Quality : les 6 dimensions clés
  • Présentation de Calista : philosophie “DQ as Code” et écosystème
  • Architecture technique : moteur Spark, configurations et métadonnées
  • Comparaison vs outils du marché (Great Expectations, Deequ)
  • Installation et setup de l’environnement de développement
  • Atelier pratique : Initialisation d’un projet Calista et premier scan d’un dataset.

 

[Jour 1 – Après-midi]

Mise en œuvre des contrôles

  • Le Profiling : analyse automatique de la structure et distribution
  • Définition des Rules & Checks : types, formats (Regex), nullité, unicité
  • Gestion des seuils de tolérance et niveaux d’alerte
  • Configuration des sorties (outputs) et logs d’exécution
  • Atelier pratique : Création d’un plan de contrôle complet sur un jeu de données métier.

 

[Jour 2 – Matin]

Fonctions Avancées et Customisation

  • Contrôles croisés (Cross-checks) : cohérence inter-sources
  • Calcul de KPIs personnalisés et extension du framework
  • Gestion et isolation des anomalies (données rejetées)
  • Génération de rapports de non-conformité
  • Atelier pratique : Réconciliation complexe entre une source SQL et un fichier CSV.

 

[Jour 2 – Après-midi]

Industrialisation et Monitoring

  • Intégration CI/CD (Jenkins, GitLab CI)
  • Exploitation des résultats pour le Reporting et Dashboards
  • Optimisation des performances sur gros volumes (Spark tuning)
  • Stratégies de mise en production et surveillance
  • Atelier pratique : Pipeline complet de l’injection au rapport de qualité final.

Pour aller plus loin

Formation Pytorch

Formation Tensorflow

Formation Spark Machine Learning

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Noter la formation

Prix 1490€ HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et déjeuners offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp