Gratuit

Statistiques avec R : formation complète gratuite

Cours
80 Leçons

Si vous êtes à la recherche d'une formation elearning en statistique appliquée, que vous soyez statisticienne ou statisticien de base ou non, vous êtes au bon endroit. Dans cette formation MOOC, je démystifie les statistiques en ligne, avec une couche importante de pratique sous R.

MOOC en ligne gratuit : avancez à votre rythme
Approche intuitive et conceptuelle
Pas de recours à des formules mathématiques complexes
+8h de vidéos + supports PDF + scripts R réutilisables
De la statistique descriptive aux modèles (tests, ACP, régression, ANOVA…)
Pour débutants à intermédiaires

Obtenir maintenant

Extrait : quels outils statistiques pour quelles questions ?

Six minutes pour introduire les statistiques descriptives univariées, les statistiques descriptives bivariées, les tests statistiques, les statistiques exploratoires multivariées, la segmentation, la modélisation statistique et le Machine Learning supervisé.

Envie d'en apprendre plus ?

A qui s'adresse cette formation aux statistiques avec R ?

Cette formation s'adresse à des utilisateurs des statistiques, novices ou avancés, chercheurs, ingénieurs, techniciens, doctorants, des secteurs privé ou académique.

Le contenu est conçu de manière à être compris par des personnes provenant de toute discipline : biostatistique, recherche clinique, analyse sensorielle, sciences sociales, agronomie, écologie, marketing, finance, etc.

Qu’allez-vous savoir faire à l’issue de la formation ?

À l’issue de cette formation en statistiques avec R, vous aurez acquis les bases essentielles en statistique appliquée et serez capable d’analyser vos propres données de manière autonome.
Vous saurez mettre en œuvre les principales méthodes statistiques sous R, interpréter les résultats et les mobiliser pour répondre à des problématiques concrètes issues de votre domaine d'expertise.

Ce que cette formation ne propose pas

Cette formation ne propose pas :

Le détail mathématique poussé du fonctionnement des outils. Nous privilégions l'approche conceptuelle et intuitive.
Un cours avancé de programmation sous R. Nous proposons uniquement une introduction à l'utilisation élémentaire de R. Cependant, cette initiation sera suffisamment complète pour vous permettre de mettre en application les notions de statistique développées tout au long de la formation.

Souscrire maintenant

Quelles compétences allez-vous acquérir avec cette formation à l'analyse de données sous R ?

Cette formation vous permet de maîtriser progressivement les principales méthodes d’analyse statistique avec R. Suivez-la à votre rythme. Vous pourrez bientôt faire parler vos données.

1. Statistiques : Se poser les bonnes questions

Commençons par le commencement : voici une vidéo-éclair d'introduction aux statistiques.

Vous avez un jeu de données sous les yeux. Un jeu de données surréaliste, avec des extraterrestres, en l'occurrence. Quelles questions peut-on se poser pour en tirer des informations alléchantes ?

Bonjour les extra-terrestres

Aperçu

2. Introduction-éclair au logiciel R

R est le logiciel de statistique open-source le plus puissant. Il fonctionne avec des lignes de commande que l'utilisateur organise en scripts. Il offre des possibilités considérables de calcul statistique et d'automatisation.

Cette section présente une série de vidéos vous permettant de prendre en main rapidement le logiciel pour une utilisation de base, nécessaire pour la suite de la formation.

Au programme

Introduction-éclair au logiciel R : diapositives

2.1 Présentation de R

Aperçu

2.2. Installer R et RStudio

2.3 Créer un projet R avec RStudio

Aperçu

Téléchargement : projet R, données illustratives et scripts

2.4 Quelques notes sur la syntaxe

Aperçu

2.5 Fonctions et Packages

2.6 Types de données et commentaires #

2.7 Jeux de données dans R : la structure data frame

2.8 Préparation et importation d'un jeu de données en data frame

2.9 Caractérisation d'un data frame

2.10 Accéder à différentes parties d'un data frame

2.11 Trier un data frame

2.12 Créer de nouvelles colonnes dans un data frame

2.13 Calculs automatisés sur chaque colonne

2.14 Effectuer des calculs par groupe et exporter un data frame

2.15 Graphiques avec ggplot2

Environnement R : fonctions principales

3. Statistiques : introduction et définitions

Que sont les statistiques ? Définitions de concepts clés (variables quantitatives et qualitatives, individu, échantillon, population, etc.)

Au programme

Statistiques : introduction et définitions, diapositives

Statistiques : introduction et quelques définitions

Aperçu

4. Statistiques descriptives univariées

Premiers pas en statistiques : comment décrire chaque colonne à part dans un jeu de données ?

Cette approche permet :

D'avoir une première caractérisation des données
De détecter des extrêmes ou des données aberrantes et de les corriger assez tôt dans le processus d'analyse
D'inspirer la suite de l'analyse, quelquefois :)

Nous verrons deux cas de figure : comment décrire une variable qualitative et comment décrire une variable quantitative.

Au programme

Statistiques descriptives univariées : diapositives

4.1 Décrire une variable qualitative

Aperçu

4.2 Décrire une var. quantitative : tendance centrale

4.3 Décrire une var. quantitative : dispersion

4.4 Décrire une var. quantitative : box plot

Aperçu

4.5 Décrire une var. quantitative : distribution et histogramme

4.6 Intervalles de confiance

Téléchargement : dossier, projet R, données et script

4.7 Application R : décrire une variable qualitative

4.8 Application R : décrire une variable quantitative

4.9 Application R : fonctions génériques de statistiques univariées

5. Statistiques descriptives bivariées

Comment décrire le lien entre deux variables ? Le rendement est-il lié au fertilisant appliqué ? L'âge est-il lié à la pression systolique des patients ? La préférence du produit A est-elle liée à l'origine du consommateur ?

Nous exploiterons méthodiquement plusieurs outils couramment utilisés en statistiques descriptives bivariées : tableau de contingence, nuage de points, coefficients de corrélation, box-plots groupés, etc.

Comment interpréter un coefficient de corrélation ?

Au programme

Statistiques descriptives bivariées : diapositives

5.1 Décrire le lien entre deux variables qualitatives

5.2 Décrire le lien entre deux variables quantitatives

Aperçu

5.3 Décrire le lien entre une variable quantitative et une variable qualitative

Téléchargement : dossier, projet R, données et script

6. Tests statistiques

Comment évaluer la significativité statistique d'une différence ou d'une relation ?

Dans cette partie nous examinerons différents aspects des tests statistiques : hypothèses nulle et alternative, seuil de risque et p-value.

Nous exécuterons plusieurs tests statistiques courants, exemples à l'appui : test t de Student, test du khi², tests de corrélation.

Au programme

Tests statistiques : diapositives

6.1 Introduction aux tests statistiques

Aperçu

6.2 Tester le lien entre une variable quantitative et une qualitative

6.3 Tester le lien entre deux variables qualitatives

6.4 Tester le lien entre deux variables quantitatives

6.5 Echantillons indépendants et échantillons appariés

6.6 Bonus : Tests non-paramétriques

6.7 Tests statistiques : récapitulatif

Téléchargement : dossier, projet R, données illustratives et scripts

Guide de choix d'un test statistique et code R

7. Statistiques exploratoires multivariées

Les statistiques exploratoires multivariées permettent d'explorer efficacement des tableaux de données volumineux. Selon le type de données en entrée, différentes techniques existent.

Plusieurs méthodes reposent sur le principe de réduction de la dimensionnalité.

Analyse en Composantes Principales ou ACP : exemple Decathlon

Au programme

Statistiques exploratoires multivariées : diapositives

7.1 Introduction aux statistiques exploratoires multivariées

7.2.1 Analyse en Composantes Principales 1

7.2.2 Analyse en Composantes Principales 2

7.3 Analyse Factorielle des Correspondances

7.4 Analyse des Correspondances Multiples

Téléchargement : dossier, projet R, données et script

8. Segmenter des données avec des techniques de Clustering

Comment répartir différents objets en groupes d'objets qui se ressemblent, statistiquement ? Par exemple, comment classer différents vins en groupes de vins similaires selon le profil sensoriel ? Comment classer différents patients selon leur génôme ? Comment classer des consommateurs selon leurs profils de préférences ?

Les techniques de classification ou clustering permettent de répondre à ces questions.

Classification Ascendante Hiérarchique ou CAH : dendrogramme

Au programme

Segmentation des données ou clustering : diapositives

8.1 Introduction à la segmentation des données ou clustering

8.2 Classification Ascendante Hiérarchique

8.3 Classification k-means

Aperçu

8.4 Décrire les clusters

Téléchargement : dossier, projet R, données et script

9. Modélisation statistique : introduction et régression linéaire

Comment expliquer une variable en fonction d'une ou plusieurs autres variables ?

Le score de qualité d’une boisson peut-il être expliqué par son acidité ?
La pression systolique est-elle affectée par l’âge du patient ? Par son Indice de Masse Corporelle ?
Le rendement agricole d’un champ dépend-il du type de fertilisant utilisé ? Du régime d’irrigation ?
Le risque de réaction allergique à un médicament est-il influencé par son dosage ?
Le montant de la rémunération affecte-t-il le risque de démission ?

Toutes ces questions peuvent être abordées via la modélisation statistique. Après une introduction à la notion de modélisation, nous aborderons un premier modèle statistique : la régression linéaire. Nous parlerons d'implémentation, d'interprétation et de mises en garde.

Au programme

Modélisation statistique, Introduction et régression linéaire : diapositives

9.1 Modélisation statistique : introduction

9.2 Régression linéaire simple

9.3 Hypothèses sur les résidus

9.4 Régression linéaire multiple : principes

9.5 Le probème du surajustement

9.6 Le problème de multicolinéarité

9.7 Régression linéaire multiple : exemple

Téléchargement : dossier, projet R, données et script

10. Modélisation statistique : régression logistique

La régression logistique est un modèle statistique qui permet d'expliquer une variable qualitative en fonction d'une ou plusieurs variables explicatives.

Souvent, on prend en compte des variables à expliquer à deux modalités (binaires).

Exemples :

Le statut du patient (sain ou malade) peut-il être expliqué par tel ou tel facteur de risque ?
La présence d'une espèce protégée de lézard peut-il être expliqué par des variables environnementales ?

Au programme

Modélisation statistique, Régression logistique : diapositives

10.1 Introduction à la régression logistique

10.2 Régression logistique, exemple

Téléchargement : dossier, projet R, données et script

11. Modélisation statistique : Analyse de Variance ou ANOVA

Comment expliquer une variable quantitative en fonction d'une ou plusieurs variables qualitatives ?

L'Analyse de Variance ou ANOVA est un modèle statistique qui permet d'aborder cette question.

Dans le cadre de l'ANOVA, les variables explicatives sont appelées facteurs.

Techniquement, l'ANOVA aide à comparer des moyennes issues de plusieurs groupes d'observations. Exemples de questions abordées :

Le type de fertilisant appliqué (N, P, K ou contrôle) induit-il une différence significative de rendement moyen d'un champ ? Il s'agit d'une problématique d'ANOVA à un facteur.
La pression systolique moyenne est-elle influencée par l'exposition fréquente au tabac (oui ou non) ? Par le sexe du patient ? Par l'interaction exposition-sexe ? Il s'agit d'une problématique d'ANOVA à deux facteurs.

ANOVA à un facteur : comparaisons multiples par paires

Au programme

Modélisation statistique - Analyse de Variance ANOVA : diapositives

11.1 ANOVA à un facteur

11.2 Hypothèses sur les résidus

11.3 Comparaisons multiples par paires

11.4 ANOVA à deux facteurs et effet d'interaction

Téléchargement : dossier, projet R, données et script

Fiches-résumé

Résumé Fonctions R et Statistiques

Une formation en ligne aux statistiques, à votre rythme

Cette formation en ligne en statistiques avec R est conçue pour s’adapter à votre emploi du temps et à votre niveau. Vous avancez à votre rythme, sans contrainte de calendrier, et pouvez revenir autant que nécessaire sur les notions clés.

La formation combine :

Des vidéos pédagogiques,
Des supports écrits (PDF),
Des scripts R commentés et réutilisables, afin de vous permettre de pratiquer directement sur vos propres données.

Questions fréquentes sur la formation statistiques avec R

Cette formation en statistiques avec R convient-elle aux débutants ?

Oui. La formation est conçue pour des débutants en statistique ou en analyse de données, ainsi que pour des profils ayant déjà quelques bases mais souhaitant consolider leurs acquis.
Les notions sont introduites progressivement, avec une approche pédagogique orientée compréhension et mise en pratique sous R.

Faut-il des prérequis en statistique ou en programmation R ?

Aucun prérequis n’est nécessaire.
La formation part des fondamentaux en statistique et introduit progressivement l’utilisation de R, sans supposer de compétences préalables en programmation. Une familiarité basique avec l’informatique est suffisante.

Que vais-je apprendre concrètement avec cette formation ?

Vous apprendrez à analyser des données avec R, depuis les statistiques descriptives jusqu’à des méthodes plus avancées (tests statistiques, ACP, classifications, régressions, ANOVA).
L’accent est mis sur l'explication intuitive des outils, l’interprétation des résultats et l’application des méthodes à des données réelles.

Combien de temps faut-il pour suivre la formation ?

La formation est 100 % préenregistrée, en accès libre en ligne. Avancez donc au rythme qui vous convient.

Souscrire maintenant

Quelques remarques

PS1 : les contenus proposés renferment des résultats produits avec les logiciels R et XLSTAT.

PS2 : j'ai pris le parti de parler doucement devant mon micro. Mais vous pouvez accélérer le son avec le bouton en bas à droite de l'écran.

Quelques outils statistiques expliqués dans la formation

Box plots ou boîtes à moustaches

Les box plots ou boîtes à moustaches permettent de décrire efficacement une variable quantitative. Ils représentent des mesures robustes de la tendance centrale et de la dispersion. Ils permettent par ailleurs de détecter des données extrêmes.

Exemple d'Analyse en Composantes Principales

Analyse en Composantes Principales ACP

L'Analyse en Composantes Principales ou ACP permet d'explorer un tableau de variables quantitatives volumineux sur quelques graphiques compacts.

Régression logistique

La régression logistique est un modèle statistique qui permet d'expliquer une variable qualitative en fonction d'un ensemble de variables explicatives.

ANOVA

L'Analyse de Variance ou ANOVA est un modèle statistique qui permet d'expliquer une variable quantitative en fonction d'une ou plusieurs variables qualitatives appelées facteurs.

Souscrire maintenant

Ressources pédagogiques gratuites

Statistiques avec R - Livre gratuit (Vincent Isoz)
Stat' Apprendra - chaîne YouTube (Nancy Rebout)