- Mar 4, 2026
Quel graphique utiliser pour visualiser le lien entre une variable quantitative et une variable qualitative ?
- Jean Paul Maalouf
- 0 comments
Comment étudier le lien entre une variable quantitative et une qualitative en biostatistique ?
Un exemple classique concerne l’étude de la biodiversité en écologie : la diversité des espèces varie-t-elle selon le type d’écosystème ?
Pour répondre à cette question, une bonne visualisation des données est souvent la première étape de l’analyse statistique.
Plusieurs types de graphiques permettent d’explorer ce type de relation. Chacun présente des avantages et des limites, selon l’objectif de l’analyse et la structure des données.
Exemple en écologie : biodiversité des insectes selon le type d’écosystème
Prenons un exemple simple en écologie de la biodiversité.
On cherche à savoir si la biodiversité des insectes varie selon le type de site naturel :
prairie
forêt
zone humide
La variable qualitative est donc le type de site naturel.
La variable quantitative est la richesse spécifique, c’est-à-dire le nombre d’espèces d’insectes observées sur chaque site.
Concrètement, des relevés sont réalisés sur plusieurs sites de chaque type d’écosystème :
plusieurs prairies
plusieurs forêts
plusieurs zones humides
On obtient donc plusieurs valeurs de biodiversité pour chaque catégorie d’écosystème.
Comment visualiser ces données ?
Voici quatre approches courantes de visualisation statistique.
Code R pour générer les données aléatoirement
set.seed(123) # Pour rendre les résultats reproductibles
data_eco <- data.frame(
milieu = rep(c("Prairie", "Forêt", "Zone humide"), each = 200),
richesse = c(
# Prairie : une distribution normale
round(rnorm(200, mean = 20, sd = 5)),
# Forêt : bi-modalité avec deux distributions normales
round(c(rnorm(100, mean = 15, sd = 1.1), rnorm(100, mean = 30, sd = 3))),
# Zone humide : dissymétrie + outliers
round(c(rnorm(190, mean = 30, sd = 5),37, 36.5,37.4, 46,37.5, 38,40, 45, 50, 58))
)
)1. Diagrammes en barres avec moyennes et barres d’erreur
Une première approche consiste à représenter les moyennes de biodiversité pour chaque type d’écosystème, accompagnées de barres d’erreur représentant l’écart-type.
Avantages
graphique clair et concis
très courant dans la littérature scientifique
-
permet de visualiser :
la tendance centrale (moyenne)
la dispersion (écart-type)
Limites
Ce graphique ne permet pas de voir :
la forme de la distribution
l’étendue des données (min et max)
les valeurs extrêmes
Quand l'utiliser
Ce type de visualisation statistique est particulièrement adapté lorsque :
les données suivent approximativement une distribution normale
l’objectif est de montrer une comparaison synthétique entre groupes
Code R (ggplot2)
library(ggplot2)
ggplot(data_eco, aes(x = milieu, y = richesse)) +
stat_summary(fun = mean, geom = "bar", fill = "gray80", color = "black") +
stat_summary(fun.data = mean_sdl, geom = "errorbar", width = 0.2) +
labs(title = "1.Barres de moyennes & écarts-types\nConcis mais incomplet", x = "Milieu", y = "Biodiversité") +
theme_bw()2. Boxplots : un classique de la visualisation statistique
Les boxplots ou boîtes à moustaches sont très utilisés en statistique exploratoire, notamment dans les études de biodiversité et d’écologie.
Ils permettent de visualiser plusieurs indicateurs statistiques robustes.
Avantages
Un boxplot permet de visualiser :
la médiane
les quartiles
l’étendue des données
les valeurs extrêmes (outliers)
Dans notre exemple, plusieurs observations extrêmes peuvent apparaître, notamment dans les zones humides.
Limites
Le boxplot ne permet pas de voir :
les regroupements de données (multi-modalité)
l’écart-type
La moyenne peut toutefois être ajoutée en option.
Quand l'utiliser
Les boxplots constituent une alternative robuste aux diagrammes de moyennes, notamment lorsque :
les distributions ne sont pas normales
il existe des valeurs extrêmes
Code R (ggplot2)
ggplot(data_eco, aes(x = milieu, y = richesse)) +
geom_boxplot(fill = "gray80") +
labs(title = "2.Boxplots\nRobuste & détection données extrêmes", x = "Milieu", y = "Biodiversité") +
theme_bw()3. Scattergrams : visualiser chaque observation
Une autre approche consiste à représenter les données individuelles à l’aide d’un nuage de points (scattergram).
Avantages
chaque observation est visible
le graphique est très intuitif
-
permet d’identifier :
des sous-groupes
une multi-modalité
Dans notre exemple, certains regroupements peuvent apparaître dans les sites forestiers.
Limites
Ce type de graphique ne montre pas directement :
la tendance centrale
les statistiques de dispersion (écart-type, etc.)
Quand l'utiliser
Les scattergrams sont particulièrement utiles :
pour de petits échantillons
dans le cadre de structures groupées au sein de la même modalité
lorsque l’on souhaite montrer toutes les observations
pour des publics non spécialistes
Code R (ggplot2)
ggplot(data_eco, aes(x = milieu, y = richesse)) +
geom_jitter(width = 0.2, color = "black", alpha = 0.6) +
labs(title = "3.Scattergrams\nToutes les observations & multi-modalité", x = "Milieu", y = "Biodiversité") +
theme_bw()4. Violin plots : comparer les distributions
Les violin plots sont une extension des boxplots qui permettent de visualiser la forme complète des distributions.
Ils sont très utiles pour comparer les distributions statistiques entre groupes.
Avantages
Les violin plots permettent de visualiser :
la forme de la distribution
la dissymétrie
la multi-modalité
l’aplatissement de la distribution
Ils offrent donc une visualisation très riche des données écologiques.
Limites
Les violin plots ne montrent pas directement :
la médiane
la dispersion statistique
Cependant, ces éléments peuvent facilement être ajoutés au graphique.
Quand l'utiliser
Les violin plots sont particulièrement adaptés lorsque l’on souhaite comparer finement les distributions entre groupes.
Code R
ggplot(data_eco, aes(x = milieu, y = richesse)) +
geom_violin(fill = "gray80") +
labs(title = "4.Violin plots\nDistributions en détail", x = "Milieu", y = "Biodiversité") +
theme_bw()Graphique hybride : boxplot et violin plot
Pour combiner les avantages de plusieurs représentations, il est courant de créer des graphiques hybrides. Ci-dessous, des boxplots superposés à des violinplots.
Code R (ggplot2)
ggplot(data_eco, aes(x = milieu, y = richesse)) +
geom_violin()+
geom_boxplot(fill = "gray80", alpha=0.5) +
labs(title = "Violin + boxplots", x = "Milieu", y = "Biodiversité") +
theme_bw()Conclusion : quel graphique choisir pour visualiser des données de biodiversité ?
En statistique appliquée à l’écologie, plusieurs graphiques permettent d’explorer la relation entre une variable quantitative et une variable qualitative.
Chaque type de visualisation apporte une information différente :
les diagrammes de moyennes donnent une vision synthétique
les boxplots fournissent des statistiques robustes
les scattergrams montrent chaque observation
les violin plots décrivent finement la distribution
En pratique, ces graphiques sont souvent complémentaires. Les combiner permet d’obtenir une vision plus complète de la structure des données et de la biodiversité observée dans les différents écosystèmes.
Dans les analyses exploratoires, il est donc souvent utile de tester plusieurs types de visualisation statistique avant de passer à l’analyse statistique plus inférentielle (tests, modèles, etc.).
Envie d'en apprendre plus ?
- 288 €
Statistiques avec R : formation complète
- Cours
- 80 Leçons