Formations › Data › Base de données › Formation BigQuery avancé – Gestion de datawarehouse

Formation BigQuery avancé pour la gestion de datawarehouse

Niveau expert

Catégorie Essential

Prix	3 500€ ^HT / personne
5 jours (35 heures)

Paris | Classe Virtuelle

lun 21

ven 25

Septembre

lun 12

ven 16

Octobre

lun 16

ven 20

Novembre

lun 14

ven 18

Décembre

 Dernières places  Virtuelle uniquement

Labs : Infrastructure DaaS avec Chrome



Cafés et encas offerts en interentreprises



En intra-entreprise pour former votre équipe

Aide au financement 2500€ Bonus Atlas CPF

Présentation

Maîtrisez BigQuery dans une architecture data moderne, de la gouvernance des données à l’optimisation des performances, des coûts et de la sécurité sur Google Cloud Platform.

Durant notre formation BigQuery avancé, vous apprendrez à concevoir une architecture data complète en intégrant Data Contracts, Data Lineage et gouvernance des données.

Vous développerez des data pipelines robustes (batch, streaming, hybride), en maîtrisant l’ingestion, la résilience, la sécurité et le monitoring avec les outils GCP.

Vous explorerez les architectures Data Warehouse, Data Lake et Lakehouse, ainsi que les fonctionnalités avancées de BigQuery : SQL analytique, window functions, partitionnement, clustering et INFORMATION_SCHEMA.

À la fin de cette formation, vous serez capable d’optimiser les performances, sécuriser vos données (IAM, Data Masking, Cloud DLP) et maîtriser les coûts grâce aux slots, réservations et outils de monitoring, jusqu’à la gouvernance avec Dataplex.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie et ses nouveautés.

Objectifs

Comprendre les architectures data modernes : Data Warehouse, Data Lake, Lakehouse et Apache Iceberg
Mettre en place des Data Contracts, du versioning et du Data Lineage
Concevoir des data pipelines résilients et sécurisés sur Google Cloud
Maîtriser les fonctionnalités avancées de BigQuery : SQL, partitionnement, clustering
Sécuriser les données avec IAM, Row-level security, Data Masking et Cloud DLP
Optimiser les performances et les coûts (slots, réservations, INFORMATION_SCHEMA)

Public visé

Data Engineers
Data Analysts
Architectes data

Pré-requis

Connaissance du langage SQL
Expérience avec BigQuery ou un data warehouse
Notions de base sur Google Cloud Platform
Avoir un compte Google avec des crédits GCP disponibles

Programme de notre formation BigQuery avancé

[Jour 1 – Matin]

La Data au cœur de l’entreprise

Qu’est-ce que la Data ?
- Définition et formes de la donnée : structurée, semi-structurée, non structurée
- Ce qui peut être collecté
- Les 4V de la donnée : Volume, Vélocité, Variété, Véracité
- Architecture Medallion : Bronze, Silver, Gold
Les acteurs de la data et leurs rôles
- Data Engineer, Data Analyst, Data Scientist
- Équipe BI & Décideurs / Business
Data Lineage
- Pourquoi c’est critique pour la fiabilité et la conformité
- Lineage technique vs lineage métier
- Outils du marché
- Lab pratique : Identifier l’origine d’une anomalie dans un dashboard via le lineage.

Data Contracts

Introduction au Data Contract
- Définition et rôle dans une architecture data moderne
- Les Stakeholders : Data Producers & Data Consumers
- Impact producteur & Impact consommateur
- Upstream & Downstream
- Matrice de responsabilité : qui définit le contrat ? qui le valide ? qui le maintient ?
Workflow du Data Contract
- Cycle de définition et processus de changement
- Gouvernance et intégration
Data Contract Life Cycle
- Les étapes : Draft → Review → Approved → Active → Deprecated → Retired
- Schema Definition : structure, types, champs obligatoires et optionnels
- Champs privés
- Meta data
- Lab : Design d’un system de Data Contract dynamic.

[Jour 1 – Après-midi]

GDPR, Versioning & Schema Registry

GDPR : Anonymisation vs Pseudonymisation
- Anonymisation : définition, techniques, cas d’usage
- Pseudonymisation : définition, techniques, cas d’usage
- Différence clé entre les deux approches
- Impact sur les Data Contracts et les obligations légales
Contract Versioning Strategy
- Pourquoi versionner les Data Contracts
- Semantic Versioning (SemVer) appliqué aux contrats de données
- Stratégies de dépréciation progressives
- Versionner les contrats avec Git
- Intégration CI/CD : bloquer le merge si breaking change non déclaré
Schema Registry : On-Prem vs Cloud
- Définition & rôle dans l’écosystème data
- Technologies du marché vs implémentation on-premise
Google Protocol Buffers (Protobuf) & Data Contracts
- Anatomie d’un fichier .proto et types principaux
- Intéropérabilité & support multi-langages
- Workflow Data Contract avec Protobuf
- Définir le schéma dans un fichier .proto versionné dans Git
- Enregistrer le schéma dans le Schema Registry
- Lab pratique supervisé : Définir, versionner et valider un Data Contract avec Protobuf.

[Jour 2 – Matin]

Fondamentaux des Data Pipelines

Définition & concepts clés
- Qu’est-ce qu’un data pipeline ? Définition et rôle dans l’architecture data
- Les composantes d’un pipeline : Source → Ingestion → Transformation → Stockage → Exposition
- Cycle de vie de la donnée dans un pipeline
Types de pipelines
- Pipeline batch vs pipeline streaming vs pipeline hybride
- ETL (Extract → Transform → Load) : cas d’usage et limites
- ELT (Extract → Load → Transform) : paradigme moderne avec dbt
- Streaming pipelines : traitement en temps réel (event-driven)
Patterns d’ingestion
- Full load vs Incremental load
- Push vs Pull
- Sources de données : API, Webhooks, Message queues (Kafka, Pub/Sub)

Pipeline Flow, Gestion des Erreurs & Résilience

Pipeline Flow & Routage des données
- Définition du pipeline flow : séquence et routage des données entre les étapes
- Happy path of Data
- Dead Letter Queue (DLQ)
Stratégies de gestion des erreurs
- Fail fast (batch critique)
- Skip & log
- Retry with backoff
- Circuit breaker
- Seuils d’alerte
Reprise sur incident (Disaster Recovery)
- Types d’incidents et impact sur la data (data loss)
- Backup pipelines et Checkpointing
- Idempotence et Offset management (Kafka)
- Replay pipeline et Backfill
Prévention de la perte de données
- At-least-once delivery : garantir qu’aucun message n’est perdu (risque de doublons)
- Watermarking (streaming) : gérer les données en retard (late data) sans les perdre
- Data retention : politique de rétention
- Alerting & monitoring : Détecter une perte de données via des métriques de volume et de complétude.

[Jour 2 – Après-midi]

Sécurité des Data Pipelines

Principes de sécurité
- Sécurité by design dans les pipelines de données
- Les 3 axes : Confidentialité, Intégrité, Disponibilité (CIA)
- Principe du moindre privilège appliqué aux pipelines
Sécurisation des données en transit
- Chiffrement en transit : TLS/SSL
- Authentification des sources et destinations (Service Accounts, IAM)
- Gestion des secrets : Secret Manager (GCP)
Sécurisation des données au repos
- Chiffrement au repos sur GCP
- Masquage et anonymisation des données sensibles
- Data classification : publique, interne, confidentielle, sensible
Gouvernance & conformité
- Data retention policies et purge automatique
- Audit logs et traçabilité des accès
- Role-Based Access Control (RBAC) sur les pipelines

Monitoring des Pipelines en Production

Métriques clés : throughput, latence, taux d’erreur, lag consommateur
Outils GCP : Cloud Monitoring & Cloud Logging
Découvrir les Alerting Policies sur GCP
Lab pratique : Mettre en place une alerte sur un pipeline en production simulé.

[Jour 3 – Matin]

Data Warehouse

Architecture et fonctionnement du Data Warehouse
Avantages et limites

Data Lake

Architecture et fonctionnement du Data Lake
Avantages et limites

Data Lakehouse : le meilleur des deux mondes

Pourquoi dépasser le choix Data Lake vs Data Warehouse ?
Architecture du Data Lakehouse
Bénéfices clés

Les Table Formats

Définition et rôle d’un Table Format
Hive Metastore
- Fonctionnement par répertoires et partitions
- Avantages & Limites
Les formats modernes

Apache Iceberg

Architecture : Catalog, Metadata file, Manifest list, Manifest file, Data layer
Fonctionnalités avancées :
- Transactions ACID
- Partition evolution
- Hidden partitioning
- Time travel
- Version rollback
Cycle de vie des requêtes Read & Write

Introduction & Architecture BigQuery

Qu’est-ce que BigQuery ? Architecture serverless, columnar storage, Dremel engine
BigQuery dans l’écosystème GCP
Présentation de BigQuery Studio : l’interface unifiée (SQL, Python notebooks)
Modèles de données : Projects, Datasets, Tables, Views, Routines
Lab pratique : Navigation dans la console GCP, exploration de datasets publics.

[Jour 3 – Après-midi]

Requêtage SQL avancé

Syntaxe BigQuery SQL
Types de données et fonctions natives
Fonctions analytiques & window functions (RANK, ROW_NUMBER, LAG, LEAD, PARTITION BY)
Requêtes imbriquées, CTEs (WITH clause), UNNEST sur colonnes répétées
Wildcard tables : requêter sur plusieurs tables
Requêtes fédérées : interroger des sources externes (Cloud SQL, Sheets, GCS)
INFORMATION_SCHEMA : interroger les métadonnées (jobs, tables, colonnes, réservations)
Lab pratique : Écrire des requêtes analytiques complexes sur un dataset réel.

[Jour 4 – Matin]

Gestion des Tables & Datasets

Création et gestion de datasets (régions, options de rétention, labels)
Types de tables : Native, External, Views, Materialized Views, Snapshots, Clones
Chargement de données : batch, streaming inserts
Data Transfer Service
Partitionnement : par ingestion time, par colonne date/timestamp, par integer range
Clustering : définition et bonnes pratiques, combinaison partition + clustering
Schema evolution : ajout/suppression de colonnes, modes NULLABLE / REQUIRED / REPEATED
Expiration automatique des tables et des partitions
Lab pratique : Créer un dataset partitionné + clusterisé, charger des données depuis GCS.

[Jour 4 – Après-midi]

Sécurité, Data Masking & Chiffrement

IAM et contrôle d’accès : rôles prédéfinis BigQuery, rôles personnalisés
Accès granulaire : au niveau Table, Dataset, Column, Row
Column-level security : Policy Tags avec Data Catalog — masquer ou restreindre l’accès à des colonnes sensibles
Row-level security : Row Access Policies pour filtrer les données selon l’identité de l’utilisateur
Data Masking : définir des règles de masquage (nullify, hash, default value) sur les Policy Tags
Chiffrement :
- Chiffrement par défaut (Google-managed keys)
- CMEK (Customer-Managed Encryption Keys) via Cloud KMS
- Cloud DLP (Data Loss Prevention) : détecter et dépersonnaliser les données sensibles (PII, GDPR)
VPC Service Controls : isoler BigQuery dans un périmètre de sécurité réseau
Audit Logs : BigQuery Cloud Audit Logging pour tracer les accès et requêtes.

Optimisation des Requêtes & Performance

Comprendre le query plan et les stages d’exécution (shuffle, join, aggregation)
Utilisation des slots : comment BigQuery distribue le calcul
Stratégies de pruning : bénéficier du partitionnement et du clustering dans les WHERE clauses
Éviter les full table scans : SELECT * vs colonnes ciblées
Optimisation des JOINs : broadcast join vs shuffle join, ordre des tables, éviter les cross joins
Skew de données : identifier et corriger les déséquilibres dans les partitions
Requêtes coûteuses : fonctions non-déterministes, DISTINCT sur grandes tables, subqueries répétées
Materialized Views : cas d’usage, rafraîchissement incrémental, avantages pour les dashboards
Résultats en cache : comportement du cache BigQuery, comment en tirer parti
Query Validator : estimer les bytes avant d’exécuter (dry run)
Lab pratique : Analyser et optimiser un ensemble de requêtes sous-performantes (avant/après).

Data Mesh & BigQuery – Vue d’ensemble

Contexte et problème résolu
Les 4 principes fondateurs
Cas d’usage concrets

[Jour 5 – Matin]

Modèles de Tarification BigQuery

On-demand pricing
Capacity-based pricing (Editions) :
- Standard, Enterprise, Enterprise Plus : différences de fonctionnalités et de prix
- Pay-as-you-go en slot-hours vs engagements à terme
Comprendre les slots : unité de calcul BigQuery, parallélisme, consommation par job
Outils d’estimation : BigQuery Slot Estimator, GCP Pricing Calculator
Quand passer de l’on-demand aux réservations ? Seuils et signaux à surveiller
Lab pratique : Simuler des scénarios de coûts on-demand vs reservations avec le Slot Estimator.

Réservations, Commitments & Workload Management

Architecture des réservations :
- Capacity Commitments : achat de slots (Flex, Monthly, Annual, 3-year)
- Reservations : pools nommés de slots alloués à des workloads
- Assignments : associer projets/dossiers/organisations à une réservation
Administration project : bonne pratique de centralisation de la facturation
Autoscaling : baseline slots vs slots autoscalés, priorité de consommation
Idle slot sharing : partage de capacité inutilisée entre réservations
Commitment plans : réductions tarifaires annuelles et 3 ans, flex slots pour les pics ponctuels
Gérer les expirations de commitments : risques et bonnes pratiques
Lab pratique : Créer des commitments, réservations et assignments via la console GCP.

[Jour 5 – Après-midi]

Contrôle des Coûts & Guardrails

Custom quotas : limiter les bytes scannés par jour par projet ou par utilisateur
Maximum bytes billed : rejeter une requête avant exécution si elle dépasse un seuil
Cloud Billing Budgets : alertes sur les dépenses BigQuery
Isolation des workloads coûteux : projets sandbox pour l’exploration ad-hoc
Bonnes pratiques : timeout de job, étiquetage des requêtes (job labels)
Réduire les coûts de stockage : Long-term storage pricing, partitions expirées, table snapshots

Monitoring & Dashboards de Coûts

INFORMATION_SCHEMA pour le monitoring en temps réel
Administrative Resource Charts (console GCP) : visualisation native des slots par réservation et type de job
Cloud Monitoring
Lab pratique : Construire un dashboard de monitoring dans Looker Studio.

Dataplex – Gouvernance & Qualité des Données

Qu’est-ce que Dataplex ?
Organisation logique des données
Catalogage automatique
Data Quality
Lineage automatique
Gouvernance fédérée
Positionnement dans l’architecture

Pour aller plus loin

Formation BigQuery

Formation Elastic Stack ELK

Formation Power Platform

Formation Chatbot : État de l’art

Formation Kibana

Formation Azure Machine Learning

Télécharger le plan du cours

Download the course outline

Langues et Lieux disponibles

 Langues

Français
Anglais / English

 Lieux

France entière
- Paris
- Lille
- Reims
- Lyon
- Toulouse
- Bordeaux
- Montpellier
- Nice
- Sophia Antipolis
- Marseille
- Aix-en-Provence
- Nantes
- Rennes
- Strasbourg
- Grenoble
- Dijon
- Tours
- Saint-Étienne
- Toulon
- Angers
Belgique
- Bruxelles
- Liège
Suisse
- Genève
- Zurich
- Lausanne
Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages