Sélectionner une page
Formations Data Python pour la data Formation ChromaDB

Formation ChromaDB

Niveau confirmé
Catégorie Essential
Prix HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et déjeuners offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

Présentation

Maîtrisez ChromaDB pour construire des moteurs de recherche sémantique puissants et des bases vectorielles prêtes à intégrer vos applications IA. Cette formation vous accompagne pas à pas dans la conception, l’indexation et l’interrogation de données vectorielles.

Vous apprendrez à générer et manipuler des embeddings à partir de textes, à les indexer efficacement dans Chroma, et à optimiser vos collections pour des recherches rapides, précises et filtrées par métadonnées.

Vous saurez créer des collections persistantes, interroger vos données avec des critères avancés, visualiser les distances sémantiques entre vos contenus, et maintenir une base vectorielle adaptée à la production.

Vous découvrirez également comment intégrer Chroma dans un système RAG complet via LangChain, en combinant retrieval sémantique et génération de réponse contextuelle avec un LLM comme GPT. Vous serez ainsi en mesure de créer vos propres assistants intelligents connectés à votre base de connaissances.

Comme pour toutes nos formations, elle se déroulera sur ma toute dernière version de l’outil : ChromaDB

 

Objectifs

  • Comprendre les principes de la recherche vectorielle, le rôle des embeddings, et les fondements de la similarité sémantique dans les systèmes d’IA modernes.
  • Installer, configurer et administrer une base vectorielle ChromaDB en mode mémoire ou persistant, avec gestion fine des collections, documents et métadonnées.
  • Générer, indexer et interroger efficacement des embeddings de texte à l’aide de modèles pré-entraînés (OpenAI, SentenceTransformers), avec des requêtes filtrées et précises.
  • Concevoir des workflows complets d’ingestion, de découpage, d’indexation et d’interrogation de données textuelles dans une base Chroma à des fins de recherche intelligente.
  • Exploiter ChromaDB dans une architecture RAG en l’intégrant à LangChain pour construire des assistants conversationnels connectés à une base documentaire vectorisée.
  • Superviser, sécuriser et optimiser les bases vectorielles en production, en abordant les problématiques de performance, de gouvernance, de persistabilité et de mise à l’échelle.

 

Public visé

  • Développeurs
  • Data Scientists
  • Chercheur IA

 

Pré-requis

  • Connaissances de base sur les APIs REST
  • Connaissance dans un langage de développement moderne  Python

 

 

Programme de la formation ChromaDB

 

Introduction à la recherche vectorielle

  • Représentation sémantique des textes
  • Embeddings courants : OpenAI, HuggingFace, BERT
  • Cosine similarity, Euclidean, Manhattan
  • Notions de top-k, seuils de score

 

 Architecture et fonctionnement de ChromaDB

  • Collections, Documents, Embeddings, Metadata
  • Index interne (FAISS-like, local storage)
  • Mémoire uniquement (:memory:)
  • Persistante (dossier local)
  • Documents texte, paires clé/valeur, métadonnées optionnelles

 

Mise en place de ChromaDB

  • pip install chromadb
  • Dépendances utiles (tqdm, langchain pour test)
  • chromadb.Client()
  • Dossier de stockage (persist_directory)
  • create_collection(), nommage, duplication, gestion
  • Ajout de documents et embeddings

 

Indexation et interrogation des données

  • Embeddings via OpenAI ou sentence-transformers
  • add() et upsert() : quand utiliser quoi
  • query(query_embeddings=…, n_results=…)
  • Filtrage par métadonnées
  • delete(), modify(), reset() : gérer ses données
  • Export / import éventuel (JSON, backup local)

 

Visualisation et analyse des résultats

  • ids, documents, metadatas, distances
  • Utiliser pandas ou prettytable pour inspection rapide
  • t-SNE, PCA pour représentation 2D

 

Cas pratiques d’utilisation

  • Embedding des phrases de transcript
  • Récupération de passages pertinents
  • PDFs convertis en chunks indexés
  • Affichage des résultats avec contexte
  • Utilisation des métadonnées 

 

Intégration avec LangChain

  • Embedding → Vector Store → Retriever → LLM
  • Chroma.from_documents(documents, embedding)
  • as_retriever(), similarity_search()
  • Utilisation de RetrievalQA
  • Injection du contexte dans le prompt

 

Bonnes pratiques & Ressources

  • Documentation officielle Chroma
  • Chunking optimal, stockage persistant, embeddings légers
  • Projets d’approfondissement
    • Chatbot juridique
    • moteur de recherche RH
    • assistant support client

 

 

Pour aller plus loin

Formation Langchain

Formation Azure Data Factory

Formation Python Data Analyst

Autour du sujet

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Noter la formation

Prix HT / personne
2 jours (14 heures)

Paris | Classe Virtuelle

Dernières places Virtuelle uniquement
Labs : Infrastructure DaaS avec Chrome
Cafés et déjeuners offerts en interentreprises
En intra-entreprise pour former votre équipe
Aide au financement 2500€ Bonus Atlas CPF

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp