Formation Introduction au Deep Learning pour le traitement du langage

0,0 rating
Logo Formation Deep Learning langage

1400€

1260€ HT / personne

2 jours (14 heures)

Paris
Il ne reste que quelques places
Disponible aussi en intra-entreprise pour former votre équipe.

Présentation

 Le Deep Learning a révolutionné un grand nombre d’approches concernant le langage : traduction, identification d’éléments, interprétation, systèmes de dialogue, etc. Néanmoins, ces nouvelles pratiques demandent une certaine connaissance des outils, pratiques et limites propres à cette approche. Cette formation vise à donner les clés techniques d’implémentation et d’utilisation de ces nouvelles techniques.

Un premier point d’attention concerne ainsi les architectures de réseaux de neurones principalement utilisées dans ce domaine avec, pour chacune, les différentes implémentations et modes d’utilisation de ces outils. L’ensemble des principales tâches NLP (Natural Language Processing) sont ainsi parcourues en donnant pour chacune les solutions existant à date. Les modèles d’état de l’art sont abordés en détail dans un second temps, avant un parcours des solutions à date permettant l’interprétation, voire la correction d’un modèle à base de réseaux de neurones.

 

Objectifs

  • Comprendre en détail les architectures fondamentales du deep learning appliqué au traitement du langage
  • Maîtriser les différentes implémentations et outils

 

Public visé

Développeurs, Architectes, Big Data Data Analyst / Data Engineer / Data Scientist

 

Pré-requis

  • Connaissance de Python et en mathématique

 

Pour aller plus loin

Programme de la formation Introduction au Deep Learning pour le traitement du langage

 

[JOUR 1]

 

1. Introduction Deep Learning

  • Rappel de bases mathématiques.
  • Définition d’un réseau de neurones : architecture classique, fonctions d’activation et de pondération des activations précédentes, profondeur d’un réseau.
  • Définition de l’apprentissage d’un réseau de neurones : fonctions de coût, backpropagation, stochastic gradient descent, maximum likelihood.
  • Modélisation d’un réseau de neurones : modélisation des données d’entrée et de sortie selon le type de problème (régression, classification…). Curse of dimensionality. Distinction entre donnée multi-features et signal. Choix d’une fonction de coût selon la donnée.
  • Généralisation des résultats d’un réseau de neurones.
  • Initialisations et régularisations d’un réseau de neurones : L1/L2 regularization, Batch Normalization, Instance Normalization
  • Optimisations et algorithmes de convergence

 

2. Génération d’embeddings comme modèle de texte

  • Définition d’un embedding : transformation non supervisée d’un vocabulaire avec conservation sémantique.
  • Approche Word2Vec (skip-gram) : génération de représentations au niveau du mot, de la phrase ou du paragraphe.
  • Framework FastText (Facebook) : approches et utilisation en détection de sentiment.
  • Applications directes, modélisation du langage. Spécificités d’un vocabulaire et limites.

 

3. Architectures fondamentales NLP : réseaux récurrents

  • Présentation des Recurrent Neural Networks : principes fondamentaux et applications.
  • Fonctionnement fondamental du RNN : hidden activation, back propagation through time, unfolded version.
  • LSTM (Long Short Term Memory). Évolution d’architecture, flux de gradient. Approche Bi-LSTM.
  • Architecture RNN Encoder Decoder.
  • Applications NLP basiques (Détection de sentiment, classification).
  • Skip Connections et construction résiduelle.
  • Étude de l’approche et du design du Google Neural Machine Translation. Parallélisation, skip-connections.

 

4. Architectures fondamentales NLP : réseaux convolutionnels

  • Présentation de l’architecture fondamentale d’un layer CNN : convolution, stride, pooling.
  • Fonctions de non-linéarité usuelles.
  • Utilisation du pooling.
  • Problématiques de classification : fonctions de coût, approche probabiliste.
  • Applications NLP Basiques

 

5. Modèles d’attention et comparaisons entre approches convolutionnelles et récurrentes

  • Modèle d’attention pour un réseau récurrent.
  • Utilisation d’un CNN Sequence to Sequence avec un modèle d’attention. Choix d’architecture, exemple d’implémentation. Application : traduction automatique.
  • Comparaisons entre approches récurrentes et convolutionnelles. Considérations en qualité et en coût de performance selon les problèmes et approches.

 

 

[JOUR 2]

 

6. Revue d’applications et d’architectures au traitement du langage : définitions, architectures et résultats

  • Identification d’éléments de langage (Part of speech tagging) : Bidirectional LSTMs, Conditional Random Fields.
  • Analyse de dépendances et structuration (Parsing) : Stack LSTMs.
  • Reconnaissance d’éléments (Named entity Recognition) : Bidirectional LSTM, Dilated CNN et CRFs.
  • Détection de sentiment : Tree-LSTM avec amélioration des embeddings.
  • Réponse à des questions libres et compréhension : Memory Networks, QANet (convolutions locales et self-attention globale).
  • Système de dialogues : Dual LSTM Encoder with semantic matching, Sentence-level CNN-LSTM Encoder.

 

7. Approches récentes et états de l’art

  • Approche Google « Attention is all you need »
  • Cellule Transformer : nouvelle cellule Deep Learning de gestion de séquences. Détail de l’architecture, revue d’une implémentation.
  • OpenAI ELMO : description de l’architecture et des avancées.
  • Description du modèle BERT (Google) : état de l’art et Transfert Learning pour le NLP. Exemples d’utilisation.a

 

8. Visualisation, sécurisation et interprétation d’un modèle : outils

  • Analyse du fonctionnement d’une cellule RNN. Maximums d’activation.
  • Visualisation des modes d’attention, distinction des dépendances entre éléments en entrée et éléments en sortie.
  • Outil Havard NLP Seq2Seq-Viz de visualisation du fonctionnement d’un modèle. Cas d’étude d’erreurs d’interprétation.
  • Hierarchical Contextual Decompositions.
  • Attaques adversariales : facilité de confusion d’un réseau de neurones. Étude du cas spécifique du langage.

 

9. Génération de texte libre ou conditionnée

  • Présentation de l’architecture du Variational AutoEncoder : évolution de l’autoencoder, approche probabiliste, reparameterization trick.
  • Application VAE à la génération de texte.

Références :
• Generating Sentences from a Continuous Space, Bowman et al.
• Toward Controlled Generation of Text, Hu et al.

  • Présentation de l’approche GAN (Generative Adversarial Networks) : architecture générale, principe de convergence
  • Applications GAN à la génération de texte et limites. Questions de métriques internes (Earth Mover Distance)
  • Présentation de l’approche Deep Reinforcement Learning et applications à la génération de textes.
Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

    Nos Formateurs Référents

    Eric

    Eric

    Ingénieur Telecom ParisTech et chef d’entreprise depuis 2010. Il est co-fondateur de Quematech, société de conseil et services en architecture logicielle complexe, ainsi que de Datalchemy, startup spécialisée en Deep Learning, chez qui il occupe également le poste de Lead Data Scientist.

    Témoignages

    Afficher tous les témoignages

    Noter la formation

    1400€

    1260€ HT / personne

    2 jours (14 heures)

    Paris
    Il ne reste que quelques places
    Disponible aussi en intra-entreprise pour former votre équipe.

    Une question ? Un projet ?

    Pour des informations complémentaires, n’hésitez pas à nous contacter.