- Mar 4, 2026
Corrélation de Pearson ou de Spearman : quel coefficient utiliser pour analyser la relation entre deux variables quantitatives ?
- Jean Paul Maalouf
- 0 comments
Lorsqu’on analyse des données quantitatives, l’une des premières questions consiste souvent à savoir si deux variables sont liées.
Pour cela, on utilise généralement un coefficient de corrélation. Les deux coefficients les plus utilisés sont :
le coefficient de corrélation de Pearson
le coefficient de corrélation de Spearman
Ces deux indicateurs permettent de mesurer la force et la direction d’une corrélation entre deux variables quantitatives, mais ils reposent sur des principes différents et ne réagissent pas de la même manière face aux données.
Dans de nombreux contextes d’analyse exploratoire, le coefficient de Spearman constitue souvent un outil particulièrement utile.
Le coefficient de corrélation de Pearson
Le coefficient de corrélation de Pearson est probablement le coefficient de corrélation le plus connu en statistique.
Il mesure la force du lien linéaire entre deux variables quantitatives.
Sa valeur varie entre -1 et 1 :
1 : corrélation positive parfaite : lorsqu'une variable augmente, l'autre augmente.
0 : absence de corrélation.
-1 : corrélation négative parfaite : lorsqu'une variable augmente, l'autre diminue.
Le coefficient de Pearson est calculé directement à partir des valeurs brutes des variables.
Cependant, cette approche implique plusieurs limites.
Sensibilité aux valeurs extrêmes
Le coefficient de Pearson peut être fortement influencé par les valeurs atypiques (outliers). Une seule observation extrême peut modifier fortement la corrélation mesurée.
Hypothèse de relation linéaire
Le coefficient de Pearson est conçu pour mesurer une relation linéaire. Si la relation entre les variables est non linéaire, Pearson peut sous-estimer la force réelle du lien.
Le coefficient de corrélation de Spearman
Le coefficient de corrélation de Spearman repose sur une approche différente.
Au lieu d'utiliser les valeurs des variables, il est calculé à partir des rangs des observations. Autrement dit, les valeurs sont transformées en positions dans l’ordre des données. Cette transformation confère plusieurs avantages au coefficient de Spearman.
Une corrélation plus robuste aux valeurs extrêmes
Comme Spearman utilise les rangs, l’impact d’une valeur extrême est beaucoup plus limité. Cela rend le coefficient de Spearman plus robuste dans les datasets comportant des observations atypiques.
Une meilleure détection des relations monotones non linéaires
Le coefficient de Spearman mesure la force d’une relation monotone.
Une relation est dite monotone lorsque :
les deux variables augmentent ensemble, ou
l’une augmente tandis que l’autre diminue
La relation peut être linéaire ou non linéaire.
Par exemple :
relation exponentielle
relation logarithmique
relation avec plateau
Dans ces situations, le coefficient de corrélation de Spearman peut détecter un lien que Pearson ne capture pas correctement.
Pearson vs Spearman : comparaison dans différentes situations
1. Corrélation linéaire
Lorsque la relation entre deux variables est clairement linéaire, les coefficients de corrélation Pearson et Spearman donnent généralement des résultats très proches.
Dans ce cas, les deux coefficients sont adaptés.
2. Présence de valeurs extrêmes
Si une observation atypique apparaît dans les données :
le coefficient de Pearson peut être fortement influencé.
le coefficient de Spearman reste généralement plus stable.
Spearman offre donc une corrélation plus robuste dans ce type de situation.
3. et 4. Relation non linéaire monotone
Certaines relations entre variables sont non linéaires mais monotones.
Par exemple :
relation avec plateau
relation exponentielle
relation logistique
Dans ces cas, le coefficient de Pearson peut sous-estimer la corrélation, tandis que Spearman capture mieux la structure du lien.
Pourquoi utiliser la corrélation de Spearman en analyse exploratoire ?
Lors des premières étapes d’une analyse statistique, l’objectif est souvent d’obtenir une vision globale des relations entre variables.
Dans ce contexte, le coefficient de corrélation de Spearman présente plusieurs avantages :
✔ plus robuste aux valeurs extrêmes
✔ capable de détecter des relations non linéaires monotones
✔ moins dépendant des hypothèses statistiques
✔ adapté aux matrices de corrélation exploratoires
Ces propriétés en font un outil particulièrement utile lorsque l’on travaille avec un grand nombre de variables quantitatives.
À retenir : Pearson ou Spearman ?
Le coefficient de corrélation de Pearson reste parfaitement adapté lorsque :
la relation entre les variables est linéaire
les données sont bien comportées
il n’y a pas de valeurs extrêmes importantes
En revanche, pour une première exploration des corrélations dans un dataset, le coefficient de corrélation de Spearman constitue souvent une approche plus robuste et plus flexible.
Il permet d’identifier plus facilement les relations potentielles entre variables, avant d’aller vers des analyses statistiques plus approfondies.
Envie d'en apprendre plus ?
- 288 €
Statistiques avec R : formation complète
- Cours
- 80 Leçons