• 288 €

Formation aux statistiques avec R

  • Cours
  • 80 Leçons

Si vous êtes à la recherche d'une formation elearning en statistique appliquée, que vous soyez statisticienne ou statisticien de base ou non, vous êtes au bon endroit. Dans cette formation MOOC, je démystifie les statistiques en ligne, avec une couche importante de pratique sous R.

  • MOOC en ligne : à votre rythme (accès 2 ans)

  • Approche intuitive et conceptuelle

  • Pas de recours à des formules mathématiques complexes

  • +8h de vidéos + supports PDF + scripts R réutilisables

  • De la statistique descriptive aux modèles (tests, ACP, régression, ANOVA…)

  • Pour débutants à intermédiaires

Tester la formation statistiques avec R (gratuitement)

Extrait : quels outils statistiques pour quelles questions ?

Six minutes pour introduire les statistiques descriptives univariées, les statistiques descriptives bivariées, les tests statistiques, les statistiques exploratoires multivariées, la segmentation, la modélisation statistique et le Machine Learning supervisé.

A qui s'adresse cette formation aux statistiques avec R ?

Cette formation s'adresse à des utilisateurs des statistiques, novices ou avancés, chercheurs, ingénieurs, techniciens, doctorants, des secteurs privé ou académique.

Le contenu est conçu de manière à être compris par des personnes provenant de toute discipline : biostatistique, recherche clinique, analyse sensorielle, sciences sociales, agronomie, écologie, marketing, finance, etc.

Qu’allez-vous savoir faire à l’issue de la formation ?

À l’issue de cette formation en statistiques avec R, vous aurez acquis les bases essentielles en statistique appliquée et serez capable d’analyser vos propres données de manière autonome.
Vous saurez mettre en œuvre les principales méthodes statistiques sous R, interpréter les résultats et les mobiliser pour répondre à des problématiques concrètes issues de votre domaine d'expertise.

Offre spéciale étudiantes et étudiants

Les étudiantes et étudiants bénéficient d'une réduction de 50% sur présentation d'une carte étudiante en cours de validité à l'adresse jeanpaul@statistique-formation.fr.

Ce que cette formation ne propose pas

Cette formation ne propose pas :

  • Le détail mathématique poussé du fonctionnement des outils. Nous privilégions l'approche conceptuelle et intuitive.

  • Un cours avancé de programmation sous R. Nous proposons uniquement une introduction à l'utilisation élémentaire de R. Cependant, cette initiation sera suffisamment complète pour vous permettre de mettre en application les notions de statistique développées tout au long de la formation.

Quelles compétences allez-vous acquérir avec cette formation à l'analyse de données sous R ?

Cette formation vous permet de maîtriser progressivement les principales méthodes d’analyse statistique avec R. Suivez-la à votre rythme. Vous pourrez bientôt faire parler vos données.

1. Statistiques : Se poser les bonnes questions

Commençons par le commencement : voici une vidéo-éclair d'introduction aux statistiques.

Vous avez un jeu de données sous les yeux. Un jeu de données surréaliste, avec des extraterrestres, en l'occurrence. Quelles questions peut-on se poser pour en tirer des informations alléchantes ?

Bonjour les extra-terrestres
Aperçu

2. Introduction-éclair au logiciel R

R est le logiciel de statistique open-source le plus puissant. Il fonctionne avec des lignes de commande que l'utilisateur organise en scripts. Il offre des possibilités considérables de calcul statistique et d'automatisation.

Cette section présente une série de vidéos vous permettant de prendre en main rapidement le logiciel pour une utilisation de base, nécessaire pour la suite de la formation.

Exemple de script R et résultat

Au programme

Introduction-éclair au logiciel R : diapositives
2.1 Présentation de R
Aperçu
2.2. Installer R et RStudio
2.3 Créer un projet R avec RStudio
Aperçu
Téléchargement : projet R, données illustratives et scripts
2.4 Quelques notes sur la syntaxe
Aperçu
2.5 Fonctions et Packages
2.6 Types de données et commentaires #
2.7 Jeux de données dans R : la structure data frame
2.8 Préparation et importation d'un jeu de données en data frame
2.9 Caractérisation d'un data frame
2.10 Accéder à différentes parties d'un data frame
2.11 Trier un data frame
2.12 Créer de nouvelles colonnes dans un data frame
2.13 Calculs automatisés sur chaque colonne
2.14 Effectuer des calculs par groupe et exporter un data frame
2.15 Graphiques avec ggplot2
Environnement R : fonctions principales

3. Statistiques : introduction et définitions

Que sont les statistiques ? Définitions de concepts clés (variables quantitatives et qualitatives, individu, échantillon, population, etc.)

Statistiques : définition Larousse

Au programme

Statistiques : introduction et définitions, diapositives
Statistiques : introduction et quelques définitions
Aperçu

4. Statistiques descriptives univariées

Premiers pas en statistiques : comment décrire chaque colonne à part dans un jeu de données ?

Cette approche permet :

  • D'avoir une première caractérisation des données

  • De détecter des extrêmes ou des données aberrantes et de les corriger assez tôt dans le processus d'analyse

  • D'inspirer la suite de l'analyse, quelquefois :)

Nous verrons deux cas de figure : comment décrire une variable qualitative et comment décrire une variable quantitative.

Qu'est-ce qu'un boxplot ?

Au programme

Statistiques descriptives univariées : diapositives
4.1 Décrire une variable qualitative
Aperçu
4.2 Décrire une var. quantitative : tendance centrale
4.3 Décrire une var. quantitative : dispersion
4.4 Décrire une var. quantitative : box plot
Aperçu
4.5 Décrire une var. quantitative : distribution et histogramme
4.6 Intervalles de confiance
Téléchargement : dossier, projet R, données et script
4.7 Application R : décrire une variable qualitative
4.8 Application R : décrire une variable quantitative
4.9 Application R : fonctions génériques de statistiques univariées

5. Statistiques descriptives bivariées

Comment décrire le lien entre deux variables ? Le rendement est-il lié au fertilisant appliqué ? L'âge est-il lié à la pression systolique des patients ? La préférence du produit A est-elle liée à l'origine du consommateur ?

Nous exploiterons méthodiquement plusieurs outils couramment utilisés en statistiques descriptives bivariées : tableau de contingence, nuage de points, coefficients de corrélation, box-plots groupés, etc.

Comment interpréter un coefficient de corrélation ?

Au programme

Statistiques descriptives bivariées : diapositives
5.1 Décrire le lien entre deux variables qualitatives
5.2 Décrire le lien entre deux variables quantitatives
Aperçu
5.3 Décrire le lien entre une variable quantitative et une variable qualitative
Téléchargement : dossier, projet R, données et script

6. Tests statistiques

Comment évaluer la significativité statistique d'une différence ou d'une relation ?

Dans cette partie nous examinerons différents aspects des tests statistiques : hypothèses nulle et alternative, seuil de risque et p-value.

Nous exécuterons plusieurs tests statistiques courants, exemples à l'appui : test t de Student, test du khi², tests de corrélation.

Test du khi2 exemple du Titanic

Au programme

Tests statistiques : diapositives
6.1 Introduction aux tests statistiques
Aperçu
6.2 Tester le lien entre une variable quantitative et une qualitative
6.3 Tester le lien entre deux variables qualitatives
6.4 Tester le lien entre deux variables quantitatives
6.5 Echantillons indépendants et échantillons appariés
6.6 Bonus : Tests non-paramétriques
6.7 Tests statistiques : récapitulatif
Téléchargement : dossier, projet R, données illustratives et scripts
Guide de choix d'un test statistique et code R

7. Statistiques exploratoires multivariées

Les statistiques exploratoires multivariées permettent d'explorer efficacement des tableaux de données volumineux. Selon le type de données en entrée, différentes techniques existent.

Plusieurs méthodes reposent sur le principe de réduction de la dimensionnalité.

Analyse en Composantes Principales ou ACP : exemple Decathlon

Au programme

Statistiques exploratoires multivariées : diapositives
7.1 Introduction aux statistiques exploratoires multivariées
7.2.1 Analyse en Composantes Principales 1
7.2.2 Analyse en Composantes Principales 2
7.3 Analyse Factorielle des Correspondances
7.4 Analyse des Correspondances Multiples
Téléchargement : dossier, projet R, données et script

8. Segmenter des données avec des techniques de Clustering

Comment répartir différents objets en groupes d'objets qui se ressemblent, statistiquement ? Par exemple, comment classer différents vins en groupes de vins similaires selon le profil sensoriel ? Comment classer différents patients selon leur génôme ? Comment classer des consommateurs selon leurs profils de préférences ?

Les techniques de classification ou clustering permettent de répondre à ces questions.

Classification Ascendante Hiérarchique ou CAH : dendrogramme

Au programme

Segmentation des données ou clustering : diapositives
8.1 Introduction à la segmentation des données ou clustering
8.2 Classification Ascendante Hiérarchique
8.3 Classification k-means
Aperçu
8.4 Décrire les clusters
Téléchargement : dossier, projet R, données et script

9. Modélisation statistique : introduction et régression linéaire

Comment expliquer une variable en fonction d'une ou plusieurs autres variables ?

  • Le score de qualité d’une boisson peut-il être expliqué par son acidité ?

  • La pression systolique est-elle affectée par l’âge du patient ? Par son Indice de Masse Corporelle ?

  • Le rendement agricole d’un champ dépend-il du type de fertilisant utilisé ? Du régime d’irrigation ?

  • Le risque de réaction allergique à un médicament est-il influencé par son dosage ?

  • Le montant de la rémunération affecte-t-il le risque de démission ?

Toutes ces questions peuvent être abordées via la modélisation statistique. Après une introduction à la notion de modélisation, nous aborderons un premier modèle statistique : la régression linéaire. Nous parlerons d'implémentation, d'interprétation et de mises en garde.

Régression linéaire simple : exemples

Au programme

Modélisation statistique, Introduction et régression linéaire : diapositives
9.1 Modélisation statistique : introduction
9.2 Régression linéaire simple
9.3 Hypothèses sur les résidus
9.4 Régression linéaire multiple : principes
9.5 Le probème du surajustement
9.6 Le problème de multicolinéarité
9.7 Régression linéaire multiple : exemple
Téléchargement : dossier, projet R, données et script

10. Modélisation statistique : régression logistique

La régression logistique est un modèle statistique qui permet d'expliquer une variable qualitative en fonction d'une ou plusieurs variables explicatives.

Souvent, on prend en compte des variables à expliquer à deux modalités (binaires).

Exemples :

  • Le statut du patient (sain ou malade) peut-il être expliqué par tel ou tel facteur de risque ?

  • La présence d'une espèce protégée de lézard peut-il être expliqué par des variables environnementales ?

Régression logistique : exemples

Au programme

Modélisation statistique, Régression logistique : diapositives
10.1 Introduction à la régression logistique
10.2 Régression logistique, exemple
Téléchargement : dossier, projet R, données et script

11. Modélisation statistique : Analyse de Variance ou ANOVA

Comment expliquer une variable quantitative en fonction d'une ou plusieurs variables qualitatives ?

L'Analyse de Variance ou ANOVA est un modèle statistique qui permet d'aborder cette question.

Dans le cadre de l'ANOVA, les variables explicatives sont appelées facteurs.

Techniquement, l'ANOVA aide à comparer des moyennes issues de plusieurs groupes d'observations. Exemples de questions abordées :

  • Le type de fertilisant appliqué (N, P, K ou contrôle) induit-il une différence significative de rendement moyen d'un champ ? Il s'agit d'une problématique d'ANOVA à un facteur.

  • La pression systolique moyenne est-elle influencée par l'exposition fréquente au tabac (oui ou non) ? Par le sexe du patient ? Par l'interaction exposition-sexe ? Il s'agit d'une problématique d'ANOVA à deux facteurs.

ANOVA à un facteur : comparaisons multiples par paires

Au programme

Modélisation statistique - Analyse de Variance ANOVA : diapositives
11.1 ANOVA à un facteur
11.2 Hypothèses sur les résidus
11.3 Comparaisons multiples par paires
11.4 ANOVA à deux facteurs et effet d'interaction
Téléchargement : dossier, projet R, données et script

Fiches-résumé

Résumé Fonctions R et Statistiques

Tester la formation statistiques avec R (gratuitement)

Une formation en ligne aux statistiques, à votre rythme

Cette formation en ligne en statistiques avec R est conçue pour s’adapter à votre emploi du temps et à votre niveau. Vous avancez à votre rythme, sans contrainte de calendrier, et pouvez revenir autant que nécessaire sur les notions clés.

La formation combine :

  • Des vidéos pédagogiques,

  • Des supports écrits (PDF),

  • Des scripts R commentés et réutilisables, afin de vous permettre de pratiquer directement sur vos propres données.

L’accès est ouvert pendant 2 ans, ce qui vous laisse le temps d’assimiler les concepts, de mettre en pratique les méthodes statistiques et d’y revenir au fil de vos projets professionnels ou académiques.

Questions fréquentes sur la formation statistiques avec R

Cette formation en statistiques avec R convient-elle aux débutants ?

Oui. La formation est conçue pour des débutants en statistique ou en analyse de données, ainsi que pour des profils ayant déjà quelques bases mais souhaitant consolider leurs acquis.
Les notions sont introduites progressivement, avec une approche pédagogique orientée compréhension et mise en pratique sous R.


Faut-il des prérequis en statistique ou en programmation R ?

Aucun prérequis n’est nécessaire.
La formation part des fondamentaux en statistique et introduit progressivement l’utilisation de R, sans supposer de compétences préalables en programmation. Une familiarité basique avec l’informatique est suffisante.


Que vais-je apprendre concrètement avec cette formation ?

Vous apprendrez à analyser des données avec R, depuis les statistiques descriptives jusqu’à des méthodes plus avancées (tests statistiques, ACP, classifications, régressions, ANOVA).
L’accent est mis sur l'explication intuitive des outils, l’interprétation des résultats et l’application des méthodes à des données réelles.


Combien de temps faut-il pour suivre la formation ?

La formation est 100 % préenregistrée et en ligne.
Vous disposez d’un accès pendant 2 ans, ce qui vous permet de progresser selon vos disponibilités et de revenir sur les contenus en fonction de vos besoins et de vos projets.

Quelques remarques

PS1 : les contenus proposés renferment des résultats produits avec les logiciels R et XLSTAT.

PS2 : j'ai pris le parti de parler doucement devant mon micro. Mais vous pouvez accélérer le son avec le bouton en bas à droite de l'écran.

PS3 : une partie du contenu est consultable gratuitement, sans souscription (boutons aperçu). Profitez-en.

Quelques outils statistiques expliqués dans la formation

Qu'est-ce qu'un boxplot ?

Box plots ou boîtes à moustaches

Les box plots ou boîtes à moustaches permettent de décrire efficacement une variable quantitative. Ils représentent des mesures robustes de la tendance centrale et de la dispersion. Ils permettent par ailleurs de détecter des données extrêmes.

Exemple d'Analyse en Composantes Principales

Analyse en Composantes Principales ACP

L'Analyse en Composantes Principales ou ACP permet d'explorer un tableau de variables quantitatives volumineux sur quelques graphiques compacts.

Régression logistique : exemples

Régression logistique

La régression logistique est un modèle statistique qui permet d'expliquer une variable qualitative en fonction d'un ensemble de variables explicatives.

Exemple d'ANOVA avec comparaisons multiples par paires

ANOVA

L'Analyse de Variance ou ANOVA est un modèle statistique qui permet d'expliquer une variable quantitative en fonction d'une ou plusieurs variables qualitatives appelées facteurs.

Tester la formation statistiques avec R (gratuitement)