Sélectionner une page
Formations Formation Formation Moshi & S2S : Speech-to-Speech haute performance

Formation Formation Moshi & S2S : Speech-to-Speech haute performance

Niveau confirmé
Catégorie Corporate
Logo Jekyll

Présentation

Moshi est un générateur de parole natif (Speech-to-Speech) open source qui s’inscrit dans une rupture technologique de l’IA conversationnelle. Cette approche moderne repose sur un paradigme End-to-End pour concevoir des assistants vocaux fluides, rapides et capables de gérer les émotions en temps réel.

Notre formation Moshi & S2S vous permettra de comprendre l’architecture Native Speech-to-Speech, de maîtriser le moteur Mimi, d’optimiser l’inférence avec Rust et de déployer vos projets via des flux WebSockets ou gRPC. Vous apprendrez également à gérer l’interactivité Full-Duplex, à réduire la latence critique et à assurer la sécurité des flux audio.

À l’issue de la formation, vous serez en mesure de créer, déployer et maintenir des systèmes d’IA vocale performants, de comprendre leurs avantages face au cascading traditionnel (ASR+LLM+TTS) et d’industrialiser vos workflows pour des projets professionnels.

Comme toutes nos formations, celle-ci s’appuie sur la dernière version stable de Moshi et privilégie une approche pratique et opérationnelle

Comme toutes nos formations, celle-ci vous présentera la dernière version stable de la technologie et ses nouveautés.

 

Objectifs

  • Comprendre la philosophie du Native S2S et l’architecture du moteur Mimi.
  • Déployer et quantifier des modèles Moshi pour l’inférence locale.
  • Maîtriser la gestion des interruptions et du flux Full-Duplex.
  • Optimiser les performances (RTF) et la consommation VRAM.
  • Intégrer une stack complète S2S dans une interface Web.

 

Public visé

  • Développeurs IA / Machine Learning
  • Ingénieurs Backend et Systèmes
  • Chefs de projet technique

 

Pré-requis

  • Maîtrise de Python et bases de PyTorch
  • Connaissances en Deep Learning (Transformers)
  • Familiarité avec Linux et la ligne de commande

 

Pré-requis logiciels

  • 16 Go de RAM au minimum, GPU NVIDIA avec 12 Go de VRAM
  • Linux (Ubuntu recommandé) ou Windows avec WSL2
  • Un terminal avec support GPU (NVIDIA Container Toolkit)
  • Un éditeur de code et Python 3.10+

Formation Moshi & S2S : Déployer l’IA Conversationnelle Temps Réel

 

[Jour 1 – Matin]

L’architecture Native Speech-to-Speech

  • Révolution Moshi : Pourquoi le paradigme “End-to-End” supplante le cascading (ASR+LLM+TTS)
  • Le moteur Mimi : Fonctionnement du codec neural et des codebooks audio
  • Latence et flux : Comprendre la prédiction conjointe des flux utilisateur et modèle
  • Setup Environnement : Installation PyTorch, Rust/Candle et modèles quantifiés
  • Atelier pratique : Déploiement local et premier échange vocal avec monitoring VRAM.

 

[Jour 1 – Après-midi]

Maîtrise de l’Interactivité et du Full-Duplex

  • Gestion des interruptions : Algorithmes de détection de parole concurrente sans VAD classique
  • Streaming de tokens audio : Manipulation des flux de sortie en temps réel
  • Émotions et Prosodie : Contrôler le style de voix et la température de sampling audio
  • Stabilité du flux : Gestion des buffers pour éviter les craquements (glitches)
  • Atelier pratique : Développement d’un assistant capable d’être interrompu proprement en pleine phrase.

 

[Jour 2 – Matin]

Optimisation de l’Inférence (Performance Critique)

  • Moshi-backend (Rust) : Utiliser l’implémentation performante pour la production
  • Quantification et Précision : Arbitrage entre 4-bit, 8-bit et bf16 selon le hardware
  • KV-Caching Audio : Optimiser la mémoire pour les conversations longues
  • Profiling de latence : Identifier les goulots (décodage Mimi vs Inférence LLM)
  • Atelier pratique : Benchmarking comparatif et optimisation du RTF (Real-Time Factor).

 

[Jour 2 – Après-midi]

Industrialisation et Intégration Système

  • Architecture Serveur : Mise en place d’un tunnel WebSocket / gRPC pour l’audio brut
  • Interface Web/Client : Capture micro et restitution haut-parleur en PCM via navigateur
  • Observabilité S2S : Métriques de gigue (jitter), perte de paquets et qualité perçue
  • Sécurité et Éthique : Chiffrement des flux et gestion de la confidentialité audio
  • Atelier pratique : Création d’une stack complète (Backend S2S + Frontend Web interactif).

Pour aller plus loin

Formation suite OpenAI

Formation Copilot

Formation Make

Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Afficher tous les témoignages

⭐⭐⭐⭐⭐ 4,8/5 sur Google My Business. Vous aussi, partagez votre expérience !

Noter la formation

UNE QUESTION ? UN PROJET ? UN AUDIT DE CODE / D'INFRASTRUCTURE ?

Pour vos besoins d’expertise que vous ne trouvez nulle part ailleurs, n’hésitez pas à nous contacter.

ILS SE SONT FORMÉS CHEZ NOUS

partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp
partenaire sncf
partenaire hp
partenaire allianz
partenaire sfr
partenaire engie
partenaire boursorama
partenaire invivo
partenaire orange
partenaire psa
partenaire bnp