Formation Calista Framework
| 1490€ HT / personne |
| 2 jours (14 heures) |
Présentation
Calista est un framework de Qualité de Données (DQ) open source et industriel qui permet de valider des volumes massifs de données au sein d’environnements Big Data.
Notre formation Calista vous permettra de maîtriser l’approche “Data Quality as Code” pour automatiser vos contrôles de données. Vous apprendrez à configurer le moteur, à définir des règles de validation complexes et à intégrer ces tests directement dans vos pipelines ETL ou Spark.
L’objectif de notre formation est de garantir une donnée fiable, intègre et prête pour l’analyse décisionnelle.
Comme toutes nos formations, celle-ci privilégie une approche pratique et opérationnelle basée sur des cas d’usage concrets de production.
Objectifs
- Comprendre la philosophie de Calista et son architecture.
- Mettre en place des profils de données et des règles de contrôle.
- Isoler et traiter les anomalies de données de manière industrielle.
- Intégrer Calista dans une chaîne CI/CD ou un orchestrateur.
- Générer des rapports de qualité et des KPIs actionnables.
Public visé
- Data Engineers
- Data Quality Managers
- Architectes de données
Pré-requis
- Connaissances de base en SQL
- Notions en Scala ou Java
- Familiarité avec l’écosystème Spark/Hadoop
Pré-requis techniques
- 8 Go de RAM au minimum, 16 Go recommandés
- Environnement Docker ou installation locale de Spark
- Un IDE (IntelliJ IDEA de préférence)
- Accès à un terminal (Bash ou PowerShell)
Formation Calista : Qualité de Données & Industrialisation
[Jour 1 – Matin]
Fondamentaux et Architecture
- Comprendre les enjeux de la Data Quality : les 6 dimensions clés
- Présentation de Calista : philosophie “DQ as Code” et écosystème
- Architecture technique : moteur Spark, configurations et métadonnées
- Comparaison vs outils du marché (Great Expectations, Deequ)
- Installation et setup de l’environnement de développement
- Atelier pratique : Initialisation d’un projet Calista et premier scan d’un dataset.
[Jour 1 – Après-midi]
Mise en œuvre des contrôles
- Le Profiling : analyse automatique de la structure et distribution
- Définition des Rules & Checks : types, formats (Regex), nullité, unicité
- Gestion des seuils de tolérance et niveaux d’alerte
- Configuration des sorties (outputs) et logs d’exécution
- Atelier pratique : Création d’un plan de contrôle complet sur un jeu de données métier.
[Jour 2 – Matin]
Fonctions Avancées et Customisation
- Contrôles croisés (Cross-checks) : cohérence inter-sources
- Calcul de KPIs personnalisés et extension du framework
- Gestion et isolation des anomalies (données rejetées)
- Génération de rapports de non-conformité
- Atelier pratique : Réconciliation complexe entre une source SQL et un fichier CSV.
[Jour 2 – Après-midi]
Industrialisation et Monitoring
- Intégration CI/CD (Jenkins, GitLab CI)
- Exploitation des résultats pour le Reporting et Dashboards
- Optimisation des performances sur gros volumes (Spark tuning)
- Stratégies de mise en production et surveillance
- Atelier pratique : Pipeline complet de l’injection au rapport de qualité final.
Pour aller plus loin
Formation Pytorch
Formation Tensorflow
Formation Spark Machine Learning
Langues et Lieux disponibles
Langues
- Français
- Anglais / English
Lieux
-
France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
-
Belgique
- Bruxelles
- Liège
-
Suisse
- Genève
- Zurich
- Lausanne
-
Luxembourg
Témoignages
⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !
Afficher tous les témoignages
⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !
Noter la formation
| 1490€ HT / personne |
| 2 jours (14 heures) |
UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?
Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.
ILS SE SONT FORMÉS CHEZ NOUS

