IA et métier de data scientist

  • 4 mars

IA et métiers data : 3 mises en garde

  • Jean Paul Maalouf
  • 0 comments

Des outils comme ChatGPT ou d’autres modèles de langage (LLM) peuvent être extrêmement utiles dans les métiers de la data. Voici toutefois 3 mises en garde.

Comme beaucoup de monde aujourd’hui, j’utilise l’IA générative dans mon travail de statisticien.

Des outils comme ChatGPT ou d’autres modèles de langage (LLM) peuvent être extrêmement utiles : génération de code, explication de méthodes statistiques, brainstorming méthodologique, aide à la rédaction…

Mais avec le temps, trois mises en garde me paraissent importantes lorsqu’on utilise ces modèles génératifs en statistique ou en data science.


Les modèles génératifs peuvent halluciner 🍄

Lorsque je me renseigne sur des méthodes scientifiques en statistique et data science, je demande presque toujours à l’IA de me fournir des références académiques.

Et là, surprise.

Combien de fois me suis-je rendu compte que :

  • Les informations présentées n’étaient pas réellement présentes dans les références citées.

  • Ou, pire encore, que les références n’existaient tout simplement pas.

Les modèles de langage comme ChatGPT sont capables de produire des réponses très convaincantes : texte fluide, argumentation logique, ton assuré. Mais cela ne signifie pas que la réponse est correcte.

Une explication crédible n’est pas forcément une explication vraie. Dans ces situations, c’est l’expertise humaine qui doit faire la différence entre une réponse correcte et une hallucination du modèle.

Et cela m’amène au deuxième point.


En statistique, l’expert reste l’humain (pas l’IA) 👩🏽‍⚕️

Les modèles génératifs sont des assistants. Pas des experts.

Il y a quelque temps, je me suis amusé à tendre quelques pièges classique de data scientist à ChatGPT. Je lui ai demandé d'analyser des données et de construire un process de Machine Learning supervisé sur des données présentant de la multicolinéarité, des données aberrantes et des données manquantes.

Résultat : l'IA est tombée dans le piège une fois sur deux.

Ces outils sont incroyablement utiles et permettent de gagner un temps considérable, mais sans recul critique, on peut vite se retrouver dans la situation de l’apprenti sorcier.

(Un peu comme Mickey Mouse dans Fantasia, pour celles et ceux qui ont la référence 😉)

Si cela vous intéresse, j’avais raconté cette expérience ici.


Utiliser l’IA seulement quand c’est vraiment utile 💧

Je me pose souvent une question simple avant d’utiliser l’IA : « Est-ce que cette question peut être résolue sans solliciter un modèle génératif ? » Et cela pour deux raisons.

L’impact environnemental de l’IA

Chaque inférence réalisée par un modèle de langage a un coût énergétique non négligeable. Nous sommes de plus en plus nombreux à en avoir conscience. Utiliser ces outils pose donc aussi une question sur l'impact environnemental.

Le risque de perdre certaines compétences

Il y a aussi un aspect plus subtil : l’effort cognitif. Si l’on délègue systématiquement certaines tâches à l’IA — par exemple écrire du code R ou Python — certaines compétences peuvent progressivement s’émousser.

C’est un peu comme arrêter de jouer du piano pendant un moment : la vélocité revient, mais elle demande un effort.

À force de demander à l’IA de filtrer un dataset ou d’écrire une fonction simple, on pourrait finir par perdre certaines automatismes. (J’exagère peut-être un peu, mais l’idée est là.)


IA et statistique : un assistant puissant, pas un remplaçant

Les modèles génératifs et les outils comme ChatGPT peuvent être des assistants précieux dans le travail quotidien d’un statisticien ou d’un data scientist.

Ils peuvent aider à :

  • Explorer des idées

  • Accélérer certaines tâches techniques

  • Expliquer des concepts

  • Générer du code

Mais ils ne remplacent pas l’expertise scientifique.

Au final, c’est toujours l’humain qui pose les bonnes questions, interprète les résultats et prend les décisions méthodologiques.

Et c’est probablement une bonne nouvelle.


Besoin d'un accompagnement ou d'une formation en statistique ?

Avec ou sans assistance par IA ;)

  • Gratuit

Formez-vous aux statistiques avec R

  • Cours
  • 80 Leçons

Plus de 8 heures de vidéos gratuites pour apprendre à analyser vos données avec R : statistiques descriptives, tests statistiques, ACP, régression, ANOVA

0 comments

Sign upor login to leave a comment