Voici une formation en statistiques appliquées illustrées avec le logiciel R, en elearning. Les outils sont approchés de manière intuitive et conceptuelle et illustrés avec des exemples. Des applications pratiques sont proposées avec le logiciel open-source R.
Offre promotionnelle de rentrée valable jusqu'au 30 septembre 2024 : accédez à la formation pour un tarif préférentiel de 220 Euros TTC au lieu de 288.
La formation est du type MOOC. Elle est suivie en ligne et se déploie sur de nombreux supports consultables à tout moment : plus de 8 heures de vidéos enregistrées, ainsi que des présentations PDF et des scripts R que vous pourrez adapter à vos propres problématiques.
La souscription offre un accès illimité à tous les contenus pendant 2 ans.
Cette formation s'adresse à des utilisateurs des statistiques, novices ou avancés, des secteurs privé ou académique.
Le contenu est conçu de manière à être compris par des personnes provenant de toute discipline : biostatistique, recherche clinique, analyse sensorielle, sciences sociales, agronomie, écologie, marketing, finance, etc.
L'objectif de la formation est de vous permettre d'acquérir des notions de base en statistique et d'être opérationnels dans l'application de ces notions sous R pour traiter ses propres problématiques à l'issue de la formation.
Les étudiantes et étudiants bénéficient d'une réduction de 50% sur présentation d'une carte étudiante en cours de validité à l'adresse jeanpaul@statistique-formation.fr.
Cette formation ne propose pas :
Le détail mathématique poussé du fonctionnement des outils. Nous privilégions l'approche conceptuelle et intuitive.
Un cours avancé de programmation sous R. Nous proposons uniquement une introduction à l'utilisation élémentaire de R. Cependant, cette initiation sera suffisamment complète pour vous permettre de mettre en application les notions de statistique développées tout au long de la formation.
Suivez la formation à votre rythme. Vous pourrez bientôt faire parler vos données.
Commençons par le commencement : voici une vidéo-éclair d'introduction aux statistiques.
Vous avez un jeu de données sous les yeux. Un jeu de données surréaliste, avec des extraterrestres, en l'occurrence. Quelles questions peut-on se poser pour en tirer des informations alléchantes ?
R est le logiciel de statistique open-source le plus puissant. Il fonctionne avec des lignes de commande que l'utilisateur organise en scripts. Il offre des possibilités considérables de calcul statistique et d'automatisation.
Cette section présente une série de vidéos vous permettant de prendre en main rapidement le logiciel pour une utilisation de base, nécessaire pour la suite de la formation.
Que sont les statistiques ? Définitions de concepts clés (variables quantitatives et qualitatives, individu, échantillon, population, etc.)
Premiers pas en statistiques : comment décrire chaque colonne à part dans un jeu de données ?
Cette approche permet :
D'avoir une première caractérisation des données
De détecter des extrêmes ou des données aberrantes et de les corriger assez tôt dans le processus d'analyse
D'inspirer la suite de l'analyse, quelquefois :)
Nous verrons deux cas de figure : comment décrire une variable qualitative et comment décrire une variable quantitative.
Comment décrire le lien entre deux variables ? Le rendement est-il lié au fertilisant appliqué ? L'âge est-il lié à la pression systolique des patients ? La préférence du produit A est-elle liée à l'origine du consommateur ?
Nous exploiterons méthodiquement plusieurs outils couramment utilisés en statistiques descriptives bivariées : tableau de contingence, nuage de points, coefficients de corrélation, box-plots groupés, etc.
Comment évaluer la significativité statistique d'une différence ou d'une relation ?
Dans cette partie nous examinerons différents aspects des tests statistiques : hypothèses nulle et alternative, seuil de risque et p-value.
Nous exécuterons plusieurs tests statistiques courants, exemples à l'appui : test t de Student, test du khi², tests de corrélation.
Les statistiques exploratoires multivariées permettent d'explorer efficacement des tableaux de données volumineux. Selon le type de données en entrée, différentes techniques existent.
Plusieurs méthodes reposent sur le principe de réduction de la dimensionnalité.
Comment répartir différents objets en groupes d'objets qui se ressemblent, statistiquement ? Par exemple, comment classer différents vins en groupes de vins similaires selon le profil sensoriel ? Comment classer différents patients selon leur génôme ? Comment classer des consommateurs selon leurs profils de préférences ?
Les techniques de classification ou clustering permettent de répondre à ces questions.
Comment expliquer une variable en fonction d'une ou plusieurs autres variables ?
Le score de qualité d’une boisson peut-il être expliqué par son acidité ?
La pression systolique est-elle affectée par l’âge du patient ? Par son Indice de Masse Corporelle ?
Le rendement agricole d’un champ dépend-il du type de fertilisant utilisé ? Du régime d’irrigation ?
Le risque de réaction allergique à un médicament est-il influencé par son dosage ?
Le montant de la rémunération affecte-t-il le risque de démission ?
Toutes ces questions peuvent être abordées via la modélisation statistique. Après une introduction à la notion de modélisation, nous aborderons un premier modèle statistique : la régression linéaire. Nous parlerons d'implémentation, d'interprétation et de mises en garde.
La régression logistique est un modèle statistique qui permet d'expliquer une variable qualitative en fonction d'une ou plusieurs variables explicatives.
Souvent, on prend en compte des variables à expliquer à deux modalités (binaires).
Exemples :
Le statut du patient (sain ou malade) peut-il être expliqué par tel ou tel facteur de risque ?
La présence d'une espèce protégée de lézard peut-il être expliqué par des variables environnementales ?
Comment expliquer une variable quantitative en fonction d'une ou plusieurs variables qualitatives ?
L'Analyse de Variance ou ANOVA est un modèle statistique qui permet d'aborder cette question.
Dans le cadre de l'ANOVA, les variables explicatives sont appelées facteurs.
Techniquement, l'ANOVA aide à comparer des moyennes issues de plusieurs groupes d'observations. Exemples de questions abordées :
Le type de fertilisant appliqué (N, P, K ou contrôle) induit-il une différence significative de rendement moyen d'un champ ? Il s'agit d'une problématique d'ANOVA à un facteur.
La pression systolique moyenne est-elle influencée par l'exposition fréquente au tabac (oui ou non) ? Par le sexe du patient ? Par l'interaction exposition-sexe ? Il s'agit d'une problématique d'ANOVA à deux facteurs.
PS1 : les contenus proposés renferment des résultats produits avec les logiciels R et XLSTAT.
PS2 : j'ai pris le parti de parler doucement devant mon micro. Mais vous pouvez accélérer le son avec le bouton en bas à droite de l'écran.
PS3 : une partie du contenu est consultable gratuitement, sans souscription (boutons aperçu). Profitez-en.
Transmettez-moi votre adresse mail pour recevoir en avant-première les nouveautés de mes formations, services et offres exclusives. Promis, je n'inonderai pas votre boîte mail :)