4 mars

IA générative et métiers de la data : 5 types d'utilisation

Jean Paul Maalouf
0 comments

L’IA générative suscite beaucoup de questions dans les métiers de la data science et de la statistique. Les LLM (Large Language Models) comme ChatGPT vont-ils remplacer les statisticien·nes ? A mon avis, non.

L’IA générative suscite beaucoup de questions dans les métiers de la data science et de la statistique. Les LLM (Large Language Models) comme ChatGPT vont-ils remplacer les statisticien·nes ?

À mon avis, probablement pas.

En revanche, ces outils peuvent clairement changer la manière dont nous travaillons. Utilisés comme assistants, les modèles génératifs peuvent accélérer certaines tâches et faciliter l’exploration d’idées.

Voici cinq usages concrets de l’IA générative que j’ai progressivement intégrés dans ma pratique de statisticien, avec des exemples de prompts.

1️⃣ Utiliser l’IA pour explorer des méthodes statistiques adaptées

L’un des premiers usages de ChatGPT ou d’autres LLM consiste à explorer rapidement différentes approches méthodologiques.

À partir de la description :

D’un jeu de données,
D’une question de recherche,
Du contexte scientifique,

l’IA peut suggérer plusieurs pistes :

Types de modèles statistiques à exploiter,
Tests statistiques possibles,
Stratégies d’analyse.

Cela permet de cartographier rapidement plusieurs approches avant d’entrer dans une réflexion méthodologique plus approfondie. Dans un métier comme la statistique appliquée, où plusieurs méthodes peuvent souvent répondre à une même question, cet usage peut être particulièrement utile.

Exemple de prompt

Je dispose de données issues d'un sondage mené auprès d'un échantillon de 400 consommateurs d'un certain type de produit. Mon objectif est d'identifier les déterminants de la satisfaction mesurée sur une échelle de Likert (1-9) via R. Les déterminants candidats sont au nobre de 8 et ils présentent une multicolinéarité moyenne à élevée. L'échantillon doit être redressé de manière à ce qu'il soit représentatif de la population française, selon les tranches d'âge, le sexe et le niveau d'éducation. J'ai vu qu'il était possible d'utiliser des modèles ElasticNet via le package svyVarSel. Penses-tu que c'est une bonne idée ? As-tu d'autres suggestions ?

Photo : Ákos Helgert

2️⃣ Apprendre et clarifier des concepts statistiques

Les modèles de langage comme ChatGPT peuvent aussi servir d’outil d’apprentissage. Lorsqu’un domaine statistique est peu familier, l’IA peut fournir :

Une première explication synthétique,
Une mise en contexte dans un domaine métier,
Une comparaison entre méthodes.

Dans ce cadre, j’aime bien demander des réponses sous forme de bullet points, ce qui permet de structurer rapidement les idées. Ce type d’usage peut être particulièrement utile pour :

Découvrir un nouveau type de modèle statistique,
Comprendre les conditions d’application d’une méthode,
Clarifier certaines notions théoriques.

Exemple de prompt

J'ai une connaissance assez bonne des plans d'expérience classiques, du type screening, plans fractionnaires et plans d'optimisation. A partir de là, peux-tu stp m'expliquer en 10 bullet points, l'intérêt des plans de Taguchi ? Il faudra notamment que tu m'expliques clairement leur utilité par rapport à ceux que je connais. Illustre les choses dans le domaine de l'optimisation de la qualité de barres d'acier. Je veux bien également un tableau comparatif des 4 types de plans. Dans les critères de comparaison, il faudra inclure obligatoirement le coût en nombre d'essais, la possibilité de gérer les interactions et le nombre de facteurs possibles. N'hésite pas à rajouter dans le tableau des plans complémentaires auxquels je n'aurais pas pensé.

Photo : Pixabay

3️⃣ Générer et améliorer du code R ou Python

Les LLM sont particulièrement efficaces pour générer du code, notamment en R ou en Python.

Ils peuvent proposer des des squelettes de scripts et des pipelines de manipulation de données

Cela peut accélérer la mise en place d’une analyse, notamment dans les premières étapes :

Structuration du script,
Préparation et nettoyage des données,
Analyse exploratoire (Exploratory Data Analysis).

L’IA générative agit ici comme un assistant de programmation pour le métier de data scientist ou de statisticien.

Exemple de prompt

Mon objectif est de construire une pipeline d’apprentissage supervisé (Machine Learning) pour prédire le risque de maladie à partir de données de protéomique. J’ai un jeu de données comprenant 543 protéines mesurées chez 19 patients malades et 20 patients sains. Il y a beaucoup de données manquantes. J’ai envisagé les étapes suivantes :

analyse descriptive univariée et bivariée

nettoyage des données

normalisation des données

gestion des données manquantes

validation croisée k-fold

Peux-tu :

me dire ce que tu penses de ma pipeline ? Y a-t-il des étapes à modifier ou à ajouter ?

générer un code R détaillé en utilisant le framework Bioconductor ? Merci d’ajouter beaucoup de commentaires à chaque étape, avec un langage compréhensible par des biologistes.

4️⃣ Déboguer et optimiser du code de programmation

Autre usage très pratique : le débogage de code.

Lorsqu’un script R ou Python renvoie une erreur, un modèle génératif comme ChatGPT peut aider à :

Identifier l’origine du problème
Proposer une correction

Il peut également suggérer des optimisations de code, par exemple :

Simplifier un pipeline de manipulation de données
Améliorer la lisibilité du script
Annoter le script (commentaires)
Proposer des alternatives plus efficaces

Dans ce cas, l’IA joue le rôle d’un assistant technique dans le workflow data.

Exemple de prompt

J'ai une erreur dans mon script R. J'essaie d'utiliser dplyr pour calculer les moyennes de protéines au sein de chacune de mes catégories de tabagisme. Peux-tu stp m'aider à débugger ?

Voici le code (coller le code problématique ici)
data_med|>
  group_by(tobacco)|>
  summarise_all(mean, na.rm=TRUE)
Voici le message d'erreur (coller le message d'erreur ici).

J'ai déjà vérifié si mes protéines étaient codées en chaînes de caractères. Ce n'est pas le cas.

5️⃣ Générer des jeux de données pédagogiques avec ChatGPT

Un usage un peu différent concerne l’enseignement des statistiques.

Il m’arrive d’utiliser l’IA générative pour créer des jeux de données pédagogiques personnalisés, adaptés à un concept statistique précis.

Par exemple :

Illustrer un modèle GAM mixte en écologie
Créer un dataset avec multicolinéarité
Simuler des données pour un modèle de survie

Cela permet de produire rapidement des jeux de données sur mesure, utiles pour illlustrer des cours ou des formations en statistique ou en data science.

Photo : Diego Madrigal

Exemple de prompt

Je dois dispenser une formation poussée aux statistiques appliquées en écologie. Peux-tu stp du code R permettant de générer une base de données (fichier Excel) portant sur la biodiversité de grenouilles observées sur 300 étangs (en lignes). L'objectif est d'étudier les facteurs environnementaux influençant la présence ou l'abondance de différentes espèces de grenouilles. Il faudra inclure :

Plusieurs colonnes correspondant à plusieurs espèces de grenouille. Il faudra au moins :

Une espèce mesurée en présence-absence (illustration de modèles logistiques ; prévoir des liens linéaires avec variables environnementales)

Une espèce mesurée en comptages avec beaucoup de zéros (illustration de modèles de Poisson, modèles zero-inflated et modèles hurdle ; prévoir des liens linéaires avec des facteurs environnementaux)

Une espèce mesurée en comptages ou abondances (illustration de modèles GAM : prévoir des liens non-linéaires avec les facteurs environnementaux).

Plusieurs colonnes correspondant à des facteurs environnementaux liés au climat, à l'abondance de certaines algues, à des propriétés physico-chimiques de l'eau etc.

Une colonne renfermant un effet aléatoire (région) pour illustrer l'inclusion de variables aléatoires dans les modèles (modèles mixtes).

IA générative et métier de statisticien : quelques mises en garde

Même si ces usages peuvent être très utiles, il est important de garder un point fondamental en tête : L’IA est un assistant, pas un statisticien ou un data scientist à part entière.

Les modèles génératifs peuvent :

Proposer des pistes
Générer du code
Expliquer des concepts

Mais ce sont toujours les statisticiens et data scientists qui, avec leur oeil d'expert doivent juger de la véracité des réponses, interroger, prendre ce qui est bon à prendre et corriger ou laisser de côté ce qui n'est pas à prendre.

Autrement dit, l’expertise scientifique reste humaine.

Par ailleurs, l’utilisation de ces outils doit rester raisonnée et parcimonieuse, notamment en raison de plusieurs enjeux :

Impact environnemental des modèles de langage
Qualité variable des réponses
Biais possibles des modèles
Risque de dépendance aux outils

Dans cet article je donne quelques conseils d'utilisation des outils d'IA générative dans le cadre du métier de statisticien.

Besoin d'un accompagnement ou d'une formation en statistique ?

Avec ou sans assistance par IA ;)

Contactez-moi

Gratuit

Formez-vous aux statistiques avec R

Cours
80 Leçons

Plus de 8 heures de vidéos gratuites pour apprendre à analyser vos données avec R : statistiques descriptives, tests statistiques, ACP, régression, ANOVA

Obtenir maintenant En savoir plus

0 comments

Rejoindreor login to leave a comment