Statistiques avec R : formation complète/Statistiques avec R : formation complète en ligne

Tester la formation gratuitement

  • 288 €

Statistiques avec R : formation complète en ligne

  • Cours
  • 80 Leçons

Voici une formation en statistiques appliquées illustrées avec le logiciel R, en elearning. Les outils sont approchés de manière intuitive et conceptuelle et illustrés avec des exemples. Des applications pratiques sont proposées avec le logiciel open-source R.

Offre promotionnelle de rentrée valable jusqu'au 30 septembre 2024 : accédez à la formation pour un tarif préférentiel de 220 Euros TTC au lieu de 288.

La formation est du type MOOC. Elle est suivie en ligne et se déploie sur de nombreux supports consultables à tout moment : plus de 8 heures de vidéos enregistrées, ainsi que des présentations PDF et des scripts R que vous pourrez adapter à vos propres problématiques.

La souscription offre un accès illimité à tous les contenus pendant 2 ans.

Tester la formation gratuitement

Une formation sur mesure pour tout le monde

Cette formation s'adresse à des utilisateurs des statistiques, novices ou avancés, des secteurs privé ou académique.

Le contenu est conçu de manière à être compris par des personnes provenant de toute discipline : biostatistique, recherche clinique, analyse sensorielle, sciences sociales, agronomie, écologie, marketing, finance, etc.

Objectif de la formation

L'objectif de la formation est de vous permettre d'acquérir des notions de base en statistique et d'être opérationnels dans l'application de ces notions sous R pour traiter ses propres problématiques à l'issue de la formation.

Offre spéciale étudiantes et étudiants

Les étudiantes et étudiants bénéficient d'une réduction de 50% sur présentation d'une carte étudiante en cours de validité à l'adresse jeanpaul@statistique-formation.fr.

Ce que cette formation ne propose pas

Cette formation ne propose pas :

  • Le détail mathématique poussé du fonctionnement des outils. Nous privilégions l'approche conceptuelle et intuitive.

  • Un cours avancé de programmation sous R. Nous proposons uniquement une introduction à l'utilisation élémentaire de R. Cependant, cette initiation sera suffisamment complète pour vous permettre de mettre en application les notions de statistique développées tout au long de la formation.

Contenu de la formation

Suivez la formation à votre rythme. Vous pourrez bientôt faire parler vos données.

1. Statistiques : Se poser les bonnes questions

Commençons par le commencement : voici une vidéo-éclair d'introduction aux statistiques.

Vous avez un jeu de données sous les yeux. Un jeu de données surréaliste, avec des extraterrestres, en l'occurrence. Quelles questions peut-on se poser pour en tirer des informations alléchantes ?

Bonjour les extra-terrestres
Aperçu

2. Introduction-éclair au logiciel R

R est le logiciel de statistique open-source le plus puissant. Il fonctionne avec des lignes de commande que l'utilisateur organise en scripts. Il offre des possibilités considérables de calcul statistique et d'automatisation.

Cette section présente une série de vidéos vous permettant de prendre en main rapidement le logiciel pour une utilisation de base, nécessaire pour la suite de la formation.

Exemple de script R et résultat

Au programme

Introduction-éclair au logiciel R : diapositives
2.1 Présentation de R
Aperçu
2.2. Installer R et RStudio
2.3 Créer un projet R avec RStudio
Aperçu
Téléchargement : projet R, données illustratives et scripts
2.4 Quelques notes sur la syntaxe
Aperçu
2.5 Fonctions et Packages
2.6 Types de données et commentaires #
2.7 Jeux de données dans R : la structure data frame
2.8 Préparation et importation d'un jeu de données en data frame
2.9 Caractérisation d'un data frame
2.10 Accéder à différentes parties d'un data frame
2.11 Trier un data frame
2.12 Créer de nouvelles colonnes dans un data frame
2.13 Calculs automatisés sur chaque colonne
2.14 Effectuer des calculs par groupe et exporter un data frame
2.15 Graphiques avec ggplot2
Environnement R : fonctions principales

3. Statistiques : introduction et définitions

Que sont les statistiques ? Définitions de concepts clés (variables quantitatives et qualitatives, individu, échantillon, population, etc.)

Statistiques : définition Larousse

Au programme

Statistiques : introduction et définitions, diapositives
Statistiques : introduction et quelques définitions
Aperçu

4. Statistiques descriptives univariées

Premiers pas en statistiques : comment décrire chaque colonne à part dans un jeu de données ?

Cette approche permet :

  • D'avoir une première caractérisation des données

  • De détecter des extrêmes ou des données aberrantes et de les corriger assez tôt dans le processus d'analyse

  • D'inspirer la suite de l'analyse, quelquefois :)

Nous verrons deux cas de figure : comment décrire une variable qualitative et comment décrire une variable quantitative.

Qu'est-ce qu'un boxplot ?

Au programme

Statistiques descriptives univariées : diapositives
4.1 Décrire une variable qualitative
Aperçu
4.2 Décrire une var. quantitative : tendance centrale
4.3 Décrire une var. quantitative : dispersion
4.4 Décrire une var. quantitative : box plot
Aperçu
4.5 Décrire une var. quantitative : distribution et histogramme
4.6 Intervalles de confiance
Téléchargement : dossier, projet R, données et script
4.7 Application R : décrire une variable qualitative
4.8 Application R : décrire une variable quantitative
4.9 Application R : fonctions génériques de statistiques univariées

5. Statistiques descriptives bivariées

Comment décrire le lien entre deux variables ? Le rendement est-il lié au fertilisant appliqué ? L'âge est-il lié à la pression systolique des patients ? La préférence du produit A est-elle liée à l'origine du consommateur ?

Nous exploiterons méthodiquement plusieurs outils couramment utilisés en statistiques descriptives bivariées : tableau de contingence, nuage de points, coefficients de corrélation, box-plots groupés, etc.

Comment interpréter un coefficient de corrélation ?

Au programme

Statistiques descriptives bivariées : diapositives
5.1 Décrire le lien entre deux variables qualitatives
5.2 Décrire le lien entre deux variables quantitatives
Aperçu
5.3 Décrire le lien entre une variable quantitative et une variable qualitative
Téléchargement : dossier, projet R, données et script

6. Tests statistiques

Comment évaluer la significativité statistique d'une différence ou d'une relation ?

Dans cette partie nous examinerons différents aspects des tests statistiques : hypothèses nulle et alternative, seuil de risque et p-value.

Nous exécuterons plusieurs tests statistiques courants, exemples à l'appui : test t de Student, test du khi², tests de corrélation.

Test du khi2 exemple du Titanic

Au programme

Tests statistiques : diapositives
6.1 Introduction aux tests statistiques
Aperçu
6.2 Tester le lien entre une variable quantitative et une qualitative
6.3 Tester le lien entre deux variables qualitatives
6.4 Tester le lien entre deux variables quantitatives
6.5 Echantillons indépendants et échantillons appariés
6.6 Bonus : Tests non-paramétriques
6.7 Tests statistiques : récapitulatif
Téléchargement : dossier, projet R, données illustratives et scripts
Guide de choix d'un test statistique et code R

7. Statistiques exploratoires multivariées

Les statistiques exploratoires multivariées permettent d'explorer efficacement des tableaux de données volumineux. Selon le type de données en entrée, différentes techniques existent.

Plusieurs méthodes reposent sur le principe de réduction de la dimensionnalité.

Analyse en Composantes Principales ou ACP : exemple Decathlon

Au programme

Statistiques exploratoires multivariées : diapositives
7.1 Introduction aux statistiques exploratoires multivariées
7.2.1 Analyse en Composantes Principales 1
7.2.2 Analyse en Composantes Principales 2
7.3 Analyse Factorielle des Correspondances
7.4 Analyse des Correspondances Multiples
Téléchargement : dossier, projet R, données et script

8. Segmenter des données avec des techniques de Clustering

Comment répartir différents objets en groupes d'objets qui se ressemblent, statistiquement ? Par exemple, comment classer différents vins en groupes de vins similaires selon le profil sensoriel ? Comment classer différents patients selon leur génôme ? Comment classer des consommateurs selon leurs profils de préférences ?

Les techniques de classification ou clustering permettent de répondre à ces questions.

Classification Ascendante Hiérarchique ou CAH : dendrogramme

Au programme

Segmentation des données ou clustering : diapositives
8.1 Introduction à la segmentation des données ou clustering
8.2 Classification Ascendante Hiérarchique
8.3 Classification k-means
Aperçu
8.4 Décrire les clusters
Téléchargement : dossier, projet R, données et script

9. Modélisation statistique : introduction et régression linéaire

Comment expliquer une variable en fonction d'une ou plusieurs autres variables ?

  • Le score de qualité d’une boisson peut-il être expliqué par son acidité ?

  • La pression systolique est-elle affectée par l’âge du patient ? Par son Indice de Masse Corporelle ?

  • Le rendement agricole d’un champ dépend-il du type de fertilisant utilisé ? Du régime d’irrigation ?

  • Le risque de réaction allergique à un médicament est-il influencé par son dosage ?

  • Le montant de la rémunération affecte-t-il le risque de démission ?

Toutes ces questions peuvent être abordées via la modélisation statistique. Après une introduction à la notion de modélisation, nous aborderons un premier modèle statistique : la régression linéaire. Nous parlerons d'implémentation, d'interprétation et de mises en garde.

Régression linéaire simple : exemples

Au programme

Modélisation statistique, Introduction et régression linéaire : diapositives
9.1 Modélisation statistique : introduction
9.2 Régression linéaire simple
9.3 Hypothèses sur les résidus
9.4 Régression linéaire multiple : principes
9.5 Le probème du surajustement
9.6 Le problème de multicolinéarité
9.7 Régression linéaire multiple : exemple
Téléchargement : dossier, projet R, données et script

10. Modélisation statistique : régression logistique

La régression logistique est un modèle statistique qui permet d'expliquer une variable qualitative en fonction d'une ou plusieurs variables explicatives.

Souvent, on prend en compte des variables à expliquer à deux modalités (binaires).

Exemples :

  • Le statut du patient (sain ou malade) peut-il être expliqué par tel ou tel facteur de risque ?

  • La présence d'une espèce protégée de lézard peut-il être expliqué par des variables environnementales ?

Régression logistique : exemples

Au programme

Modélisation statistique, Régression logistique : diapositives
10.1 Introduction à la régression logistique
10.2 Régression logistique, exemple
Téléchargement : dossier, projet R, données et script

11. Modélisation statistique : Analyse de Variance ou ANOVA

Comment expliquer une variable quantitative en fonction d'une ou plusieurs variables qualitatives ?

L'Analyse de Variance ou ANOVA est un modèle statistique qui permet d'aborder cette question.

Dans le cadre de l'ANOVA, les variables explicatives sont appelées facteurs.

Techniquement, l'ANOVA aide à comparer des moyennes issues de plusieurs groupes d'observations. Exemples de questions abordées :

  • Le type de fertilisant appliqué (N, P, K ou contrôle) induit-il une différence significative de rendement moyen d'un champ ? Il s'agit d'une problématique d'ANOVA à un facteur.

  • La pression systolique moyenne est-elle influencée par l'exposition fréquente au tabac (oui ou non) ? Par le sexe du patient ? Par l'interaction exposition-sexe ? Il s'agit d'une problématique d'ANOVA à deux facteurs.

ANOVA à un facteur : comparaisons multiples par paires

Au programme

Modélisation statistique - Analyse de Variance ANOVA : diapositives
11.1 ANOVA à un facteur
11.2 Hypothèses sur les résidus
11.3 Comparaisons multiples par paires
11.4 ANOVA à deux facteurs et effet d'interaction
Téléchargement : dossier, projet R, données et script

Fiches-résumé

Résumé Fonctions R et Statistiques

Quelques remarques

PS1 : les contenus proposés renferment des résultats produits avec les logiciels R et XLSTAT.

PS2 : j'ai pris le parti de parler doucement devant mon micro. Mais vous pouvez accélérer le son avec le bouton en bas à droite de l'écran.

PS3 : une partie du contenu est consultable gratuitement, sans souscription (boutons aperçu). Profitez-en.

Recevez les nouveautés de statistique-formation

Transmettez-moi votre adresse mail pour recevoir en avant-première les nouveautés de mes formations, services et offres exclusives. Promis, je n'inonderai pas votre boîte mail :)