Sélectionner une page
Formations Data Base de données Formation BigQuery avancé – Gestion de datawarehouse

Formation BigQuery avancé pour la gestion de datawarehouse

Niveau expert
Catégorie Essential
formation bigquery avance

Prix 3 500€ HT / personne
5 jours (35 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et encas offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

Présentation

Maîtrisez BigQuery dans une architecture data moderne, de la gouvernance des données à l’optimisation des performances, des coûts et de la sécurité sur Google Cloud Platform.

Durant notre formation BigQuery avancé, vous apprendrez à concevoir une architecture data complète en intégrant Data Contracts, Data Lineage et gouvernance des données.

Vous développerez des data pipelines robustes (batch, streaming, hybride), en maîtrisant l’ingestion, la résilience, la sécurité et le monitoring avec les outils GCP.

Vous explorerez les architectures Data Warehouse, Data Lake et Lakehouse, ainsi que les fonctionnalités avancées de BigQuery : SQL analytique, window functions, partitionnement, clustering et INFORMATION_SCHEMA.

À la fin de cette formation, vous serez capable d’optimiser les performances, sécuriser vos données (IAM, Data Masking, Cloud DLP) et maîtriser les coûts grâce aux slots, réservations et outils de monitoring, jusqu’à la gouvernance avec Dataplex.

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie et ses nouveautés.

 

Objectifs

  • Comprendre les architectures data modernes : Data Warehouse, Data Lake, Lakehouse et Apache Iceberg
  • Mettre en place des Data Contracts, du versioning et du Data Lineage
  • Concevoir des data pipelines résilients et sécurisés sur Google Cloud
  • Maîtriser les fonctionnalités avancées de BigQuery : SQL, partitionnement, clustering
  • Sécuriser les données avec IAM, Row-level security, Data Masking et Cloud DLP
  • Optimiser les performances et les coûts (slots, réservations, INFORMATION_SCHEMA)

 

Public visé

  • Data Engineers
  • Data Analysts
  • Architectes data

 

Pré-requis

  • Connaissance du langage SQL
  • Expérience avec BigQuery ou un data warehouse
  • Notions de base sur Google Cloud Platform
  • Avoir un compte Google avec des crédits GCP disponibles

Programme de notre formation BigQuery avancé

 

[Jour 1 – Matin]

La Data au cœur de l’entreprise

  • Qu’est-ce que la Data ?
    • Définition et formes de la donnée : structurée, semi-structurée, non structurée
    • Ce qui peut être collecté
    • Les 4V de la donnée : Volume, Vélocité, Variété, Véracité
    • Architecture Medallion : Bronze, Silver, Gold
  • Les acteurs de la data et leurs rôles
    • Data Engineer, Data Analyst, Data Scientist
    • Équipe BI & Décideurs / Business
  • Data Lineage
    • Pourquoi c’est critique pour la fiabilité et la conformité
    • Lineage technique vs lineage métier
    • Outils du marché
    • Lab pratique : Identifier l’origine d’une anomalie dans un dashboard via le lineage.

 

Data Contracts

  • Introduction au Data Contract
    • Définition et rôle dans une architecture data moderne
    • Les Stakeholders : Data Producers & Data Consumers
    • Impact producteur & Impact consommateur
    • Upstream & Downstream
    • Matrice de responsabilité : qui définit le contrat ? qui le valide ? qui le maintient ?
  • Workflow du Data Contract
    • Cycle de définition et processus de changement
    • Gouvernance et intégration
  • Data Contract Life Cycle
    • Les étapes : Draft → Review → Approved → Active → Deprecated → Retired
    • Schema Definition : structure, types, champs obligatoires et optionnels
    • Champs privés
    • Meta data
    • Lab : Design d’un system de Data Contract dynamic.

 

[Jour 1 – Après-midi]

GDPR, Versioning & Schema Registry

  • GDPR : Anonymisation vs Pseudonymisation
    • Anonymisation : définition, techniques, cas d’usage
    • Pseudonymisation : définition, techniques, cas d’usage
    • Différence clé entre les deux approches
    • Impact sur les Data Contracts et les obligations légales
  • Contract Versioning Strategy
    • Pourquoi versionner les Data Contracts
    • Semantic Versioning (SemVer) appliqué aux contrats de données
    • Stratégies de dépréciation progressives
    • Versionner les contrats avec Git
    • Intégration CI/CD : bloquer le merge si breaking change non déclaré
  • Schema Registry : On-Prem vs Cloud
    • Définition & rôle dans l’écosystème data
    • Technologies du marché vs implémentation on-premise
  • Google Protocol Buffers (Protobuf) & Data Contracts
    • Anatomie d’un fichier .proto et types principaux
    • Intéropérabilité & support multi-langages
    • Workflow Data Contract avec Protobuf
    • Définir le schéma dans un fichier .proto versionné dans Git
    • Enregistrer le schéma dans le Schema Registry
    • Lab pratique supervisé : Définir, versionner et valider un Data Contract avec Protobuf.

 

[Jour 2 – Matin]

Fondamentaux des Data Pipelines

  • Définition & concepts clés
    • Qu’est-ce qu’un data pipeline ? Définition et rôle dans l’architecture data
    • Les composantes d’un pipeline : Source → Ingestion → Transformation → Stockage → Exposition
    • Cycle de vie de la donnée dans un pipeline
  • Types de pipelines
    • Pipeline batch vs pipeline streaming vs pipeline hybride
    • ETL (Extract → Transform → Load) : cas d’usage et limites
    • ELT (Extract → Load → Transform) : paradigme moderne avec dbt
    • Streaming pipelines : traitement en temps réel (event-driven)
  • Patterns d’ingestion
    • Full load vs Incremental load
    • Push vs Pull
    • Sources de données : API, Webhooks, Message queues (Kafka, Pub/Sub)

 

Pipeline Flow, Gestion des Erreurs & Résilience

  • Pipeline Flow & Routage des données
    • Définition du pipeline flow : séquence et routage des données entre les étapes
    • Happy path of Data
    • Dead Letter Queue (DLQ)
  • Stratégies de gestion des erreurs
    • Fail fast (batch critique)
    • Skip & log
    • Retry with backoff
    • Circuit breaker
    • Seuils d’alerte
  • Reprise sur incident (Disaster Recovery)
    • Types d’incidents et impact sur la data (data loss)
    • Backup pipelines et Checkpointing
    • Idempotence et Offset management (Kafka)
    • Replay pipeline et Backfill
  • Prévention de la perte de données
    • At-least-once delivery : garantir qu’aucun message n’est perdu (risque de doublons)
    • Watermarking (streaming) : gérer les données en retard (late data) sans les perdre
    • Data retention : politique de rétention
    • Alerting & monitoring : Détecter une perte de données via des métriques de volume et de complétude.

 

[Jour 2 – Après-midi]

Sécurité des Data Pipelines

  • Principes de sécurité
    • Sécurité by design dans les pipelines de données
    • Les 3 axes : Confidentialité, Intégrité, Disponibilité (CIA)
    • Principe du moindre privilège appliqué aux pipelines
  • Sécurisation des données en transit
    • Chiffrement en transit : TLS/SSL
    • Authentification des sources et destinations (Service Accounts, IAM)
    • Gestion des secrets : Secret Manager (GCP)
  • Sécurisation des données au repos
    • Chiffrement au repos sur GCP
    • Masquage et anonymisation des données sensibles
    • Data classification : publique, interne, confidentielle, sensible
  • Gouvernance & conformité
    • Data retention policies et purge automatique
    • Audit logs et traçabilité des accès
    • Role-Based Access Control (RBAC) sur les pipelines

 

Monitoring des Pipelines en Production

  • Métriques clés : throughput, latence, taux d’erreur, lag consommateur
  • Outils GCP : Cloud Monitoring & Cloud Logging
  • Découvrir les Alerting Policies sur GCP
  • Lab pratique : Mettre en place une alerte sur un pipeline en production simulé.

 

[Jour 3 – Matin]

Data Warehouse

  • Architecture et fonctionnement du Data Warehouse
  • Avantages et limites

 

Data Lake

  • Architecture et fonctionnement du Data Lake
  • Avantages et limites

 

Data Lakehouse : le meilleur des deux mondes

  • Pourquoi dépasser le choix Data Lake vs Data Warehouse ?
  • Architecture du Data Lakehouse
  • Bénéfices clés

 

Les Table Formats

  • Définition et rôle d’un Table Format
  • Hive Metastore
    • Fonctionnement par répertoires et partitions
    • Avantages & Limites
  • Les formats modernes

 

Apache Iceberg

  • Architecture : Catalog, Metadata file, Manifest list, Manifest file, Data layer
  • Fonctionnalités avancées :
    • Transactions ACID
    • Partition evolution
    • Hidden partitioning
    • Time travel
    • Version rollback
  • Cycle de vie des requêtes Read & Write

 

Introduction & Architecture BigQuery

  • Qu’est-ce que BigQuery ? Architecture serverless, columnar storage, Dremel engine
  • BigQuery dans l’écosystème GCP
  • Présentation de BigQuery Studio : l’interface unifiée (SQL, Python notebooks)
  • Modèles de données : Projects, Datasets, Tables, Views, Routines
  • Lab pratique : Navigation dans la console GCP, exploration de datasets publics.

 

[Jour 3 – Après-midi]

Requêtage SQL avancé

  • Syntaxe BigQuery SQL
  • Types de données et fonctions natives
  • Fonctions analytiques & window functions (RANK, ROW_NUMBER, LAG, LEAD, PARTITION BY)
  • Requêtes imbriquées, CTEs (WITH clause), UNNEST sur colonnes répétées
  • Wildcard tables : requêter sur plusieurs tables
  • Requêtes fédérées : interroger des sources externes (Cloud SQL, Sheets, GCS)
  • INFORMATION_SCHEMA : interroger les métadonnées (jobs, tables, colonnes, réservations)
  • Lab pratique : Écrire des requêtes analytiques complexes sur un dataset réel.

 

[Jour 4 – Matin]

Gestion des Tables & Datasets

  • Création et gestion de datasets (régions, options de rétention, labels)
  • Types de tables : Native, External, Views, Materialized Views, Snapshots, Clones
  • Chargement de données : batch, streaming inserts
  • Data Transfer Service
  • Partitionnement : par ingestion time, par colonne date/timestamp, par integer range
  • Clustering : définition et bonnes pratiques, combinaison partition + clustering
  • Schema evolution : ajout/suppression de colonnes, modes NULLABLE / REQUIRED / REPEATED
  • Expiration automatique des tables et des partitions
  • Lab pratique : Créer un dataset partitionné + clusterisé, charger des données depuis GCS.

 

[Jour 4 – Après-midi]

Sécurité, Data Masking & Chiffrement

  • IAM et contrôle d’accès : rôles prédéfinis BigQuery, rôles personnalisés
  • Accès granulaire : au niveau Table, Dataset, Column, Row
  • Column-level security : Policy Tags avec Data Catalog — masquer ou restreindre l’accès à des colonnes sensibles
  • Row-level security : Row Access Policies pour filtrer les données selon l’identité de l’utilisateur
  • Data Masking : définir des règles de masquage (nullify, hash, default value) sur les Policy Tags
  • Chiffrement :
    • Chiffrement par défaut (Google-managed keys)
    • CMEK (Customer-Managed Encryption Keys) via Cloud KMS
    • Cloud DLP (Data Loss Prevention) : détecter et dépersonnaliser les données sensibles (PII, GDPR)
  • VPC Service Controls : isoler BigQuery dans un périmètre de sécurité réseau
  • Audit Logs : BigQuery Cloud Audit Logging pour tracer les accès et requêtes.

 

Optimisation des Requêtes & Performance

  • Comprendre le query plan et les stages d’exécution (shuffle, join, aggregation)
  • Utilisation des slots : comment BigQuery distribue le calcul
  • Stratégies de pruning : bénéficier du partitionnement et du clustering dans les WHERE clauses
  • Éviter les full table scans : SELECT * vs colonnes ciblées
  • Optimisation des JOINs : broadcast join vs shuffle join, ordre des tables, éviter les cross joins
  • Skew de données : identifier et corriger les déséquilibres dans les partitions
  • Requêtes coûteuses : fonctions non-déterministes, DISTINCT sur grandes tables, subqueries répétées
  • Materialized Views : cas d’usage, rafraîchissement incrémental, avantages pour les dashboards
  • Résultats en cache : comportement du cache BigQuery, comment en tirer parti
  • Query Validator : estimer les bytes avant d’exécuter (dry run)
  • Lab pratique : Analyser et optimiser un ensemble de requêtes sous-performantes (avant/après).

 

Data Mesh & BigQuery – Vue d’ensemble

  • Contexte et problème résolu
  • Les 4 principes fondateurs
  • Cas d’usage concrets

 

[Jour 5 – Matin]

Modèles de Tarification BigQuery

  • On-demand pricing
  • Capacity-based pricing (Editions) :
    • Standard, Enterprise, Enterprise Plus : différences de fonctionnalités et de prix
    • Pay-as-you-go en slot-hours vs engagements à terme
  • Comprendre les slots : unité de calcul BigQuery, parallélisme, consommation par job
  • Outils d’estimation : BigQuery Slot Estimator, GCP Pricing Calculator
  • Quand passer de l’on-demand aux réservations ? Seuils et signaux à surveiller
  • Lab pratique : Simuler des scénarios de coûts on-demand vs reservations avec le Slot Estimator.

 

Réservations, Commitments & Workload Management

  • Architecture des réservations :
    • Capacity Commitments : achat de slots (Flex, Monthly, Annual, 3-year)
    • Reservations : pools nommés de slots alloués à des workloads
    • Assignments : associer projets/dossiers/organisations à une réservation
  • Administration project : bonne pratique de centralisation de la facturation
  • Autoscaling : baseline slots vs slots autoscalés, priorité de consommation
  • Idle slot sharing : partage de capacité inutilisée entre réservations
  • Commitment plans : réductions tarifaires annuelles et 3 ans, flex slots pour les pics ponctuels
  • Gérer les expirations de commitments : risques et bonnes pratiques
  • Lab pratique : Créer des commitments, réservations et assignments via la console GCP.

 

[Jour 5 – Après-midi]

Contrôle des Coûts & Guardrails

  • Custom quotas : limiter les bytes scannés par jour par projet ou par utilisateur
  • Maximum bytes billed : rejeter une requête avant exécution si elle dépasse un seuil
  • Cloud Billing Budgets : alertes sur les dépenses BigQuery
  • Isolation des workloads coûteux : projets sandbox pour l’exploration ad-hoc
  • Bonnes pratiques : timeout de job, étiquetage des requêtes (job labels)
  • Réduire les coûts de stockage : Long-term storage pricing, partitions expirées, table snapshots

 

Monitoring & Dashboards de Coûts

  • INFORMATION_SCHEMA pour le monitoring en temps réel
  • Administrative Resource Charts (console GCP) : visualisation native des slots par réservation et type de job
  • Cloud Monitoring
  • Lab pratique : Construire un dashboard de monitoring dans Looker Studio.

 

Dataplex – Gouvernance & Qualité des Données

  • Qu’est-ce que Dataplex ?
  • Organisation logique des données
  • Catalogage automatique
  • Data Quality
  • Lineage automatique
  • Gouvernance fédérée
  • Positionnement dans l’architecture

Pour aller plus loin

Formation BigQuery

Formation Elastic Stack ELK

Formation Power Platform

Formation Chatbot : État de l’art

Formation Kibana

Formation Azure Machine Learning

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Noter la formation

Prix 3 500€ HT / personne
5 jours (35 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et encas offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp