Formation Langage R

Logo Formation Langage R

2500€

2250€HT/ personne

5 jours (35 heures)

Interentreprises

­Paris

Disponible en intraentreprise pour former votre équipe.

Présentation

R est un langage de programmation et un logiciel dédié aux statistiques et à la science des données. Créé en 1993, il est utilisé par les statisticiens, les data miner, data scientist pour le développement de logiciels statistiques et l’analyse des données.

Il compile et fonctionne sur une grande variété de plates-formes UNIX, Windows et MacOS.

Dans cette formation Data Science, nous appréhendons le langage R, ensuite, nous apprendrons l’enjeu et les pièges de l’apprentissage non supervisé et les règles de l’apprentissage supervisé. Puis, nous analyserons un modèle et découvrirons le traitement de données non structurées. Enfin, nous finirons cette formation sur une initiation au Deep Learning.

La formation utilisera les dernière version stable en date du projet (R version 3.5 à ce jour).

 

Objectifs

  • Initiation au langage R
  • Comprendre l’apprentissage non supervisé et supervisé
  • Anticiper le Deep Learning

 

Public visé

Data-scientists, Manipulateurs de la data, Développeurs, Chefs de Projets, Architecte

 

Pré-requis

Des connaissances de base en statistiques et à un langage de programmation

Programme de la formation langage R : Data Science

 

Jour 1 – Philosophie data science

  • Historique rapide
  • Fondements formel de l’apprentissage machine.
  • Distinction supervisé, non supervisé, par renforcement, trade off biais variance
  • « Big Data » : Ni plafond ni plancher
  • Théorie de la longue traîne appliquée aux données
  • 2 approches : connaître l’avenir ou le changer ?
  • Une stratégie de microdécision plus qu’un outil de décision

Initiation à R

  • Fondamentaux
  • Chargement des données avec data.table
  • Exploration des données : par synthèse, par visualisation. Exercices de sélection / filtrage
  • Traitement des données catégorielles, notion de dummy variable
  • Traitement des données manquantes
  • Gestion des formats (dont temps et lieux)
  • Génération de nouvelles features : exploitation approfondie du format datatable

 

Jour 2 – Apprentissage non supervisé

  • Approche synthèse
    • Synthese par colonne : Réduction de dimension : PCA / ICA
    • Synthèse par ligne : clustering
    • Kmeans
    • Hiérarchique (top down ou bottom up
    • Méthode d’évaluation de performance : variance / indicateur de silhouette
  • Approche valeurs manquantes
    • Décomposition SVD
    • SGD, ALS

 

Jour 3 – Apprentissage supervisé

  • Régression lin2aire
    • Formulation, condition d’usage
  • Analyse de performance, pvalue, détection de performance
    • Notion d’overfitting
    • R2 et R2 ajusté
  • Sélection de feature : approche forward, stepwise
  • Approche pénalisée
    • Ridge, Lasso, élastic net.
    • Interprétation géométrique
  • Arbres de décision
    • Principe de construction
    • Prunning
    • Interprétation, contexte d’exploitation
  • Random Forest
    • Comment dépasser les limites de l’arbre de décision
    • Feature importance, importance locale
  • Gradient boosting
    • Principes
    • Réglages
  • XGBosst (extreme gradient boosting)
    • Principes, réglages

 

Jour 4 – Réglage fin et dépouillement de modèle

  • Approfondissement des techniques de réglage de modeles
    • Fonctions de coût, RMSE, courbe roc et indicateur auc
    • Précautions de réglage, pièges à éviter
  • Dépouillement de modèle
    • Où était l’information ?
    • Simplifier le modèle, sélection de feature avancée

Initiation text mining et NLP

  • Lois de Heaps et de Zipf
  • Comment structurer une source non structurée
    • Approche bag of words
    • Stop word et normalisation TF IDF
  • Vers le NLP (natural language processing)
    • Analyse sémantique
    • Approche deep learning

 

Jour 5 – Initiation Deep Learning

  • Réseaux de neurone
  • Architecture de réseaux
    • Convolution
    • LSTM
  • Découverte de l’environnement Keras pour déployer

Gestion de projet

  • Les différentes phases d’un projet data
  • Adaptation de la gestion de projet Agile aux projets data
  • Structurer le dialogue data science / métier
  • Piloter le projet
  • Comment faire émerger les projets ? Quand s’arrêter ?
Langues et Lieux disponibles

Langues

  • Français
  • Anglais / English

Lieux

  • France entière
    • Paris
    • Lille
    • Reims
    • Lyon
    • Toulouse
    • Bordeaux
    • Montpellier
    • Nice
    • Sophia Antipolis
    • Marseille
    • Aix-en-Provence
    • Nantes
    • Rennes
    • Strasbourg
    • Grenoble
    • Dijon
    • Tours
    • Saint-Étienne
    • Toulon
    • Angers
  • Belgique
    • Bruxelles
    • Liège
  • Suisse
    • Genève
    • Zurich
    • Lausanne
  • Luxembourg

Nos Formateurs Référents

Denis

Denis

Notre formateur passionné vous proposera de partager son expérience en tant que Expert Data Marketing. Denis a développé une expérience professionnelle mixte à deux titres : entre conseil et responsabilité opérationnelle (banque et assurances), entre expertise métier et expertise big data.

Témoignages

Donnez votre avis ?

Afficher tous les témoignages

Donnez votre avis ?

Noter la formation

2500€

2250€HT/ personne

5 jours (35 heures)

Interentreprises

­Paris

Disponible en intraentreprise pour former votre équipe.

Une question ? Un projet ?

Pour des informations complémentaires, n’hésitez pas à nous contacter.