[Bonus] Libre à vous : La Guerre des IA
S01:E13

[Bonus] Libre à vous : La Guerre des IA

Episode description

Comment ça fonctionne, à quoi ça sert, à quoi ça ne sert pas… Tuto bricolage, intelligence artificielle, heuristiques, biais cognitifs, biais statistiques, IA shootées au LSD, cet épisode de 10mn aborde beaucoup trop de sujets.

Liens :

Download transcript (.srt)
0:03

[Générique] Libre à vous

0:05

L'émission pour comprendre et agir avec l'April

0:08

L'association de promotion et de défense du Logiciel Libre.

0:18

[Étienne] Nous allons poursuivre avec le truc que presque personne n'a vraiment compris mais qui nous concerne tous et toutes, la chronique de Benjamin Bellamy.

0:25

[Étienne] Aujourd'hui Benjamin tu vas nous parler de la guerre des intelligences artificielles.

0:29

[Benjamin] Bonjour Étienne, alors non changement de programme, aujourd'hui je fais un tuto bricolage. Pour faire une chronique vraiment utile je me suis dit que j'allais plutôt vous apprendre à monter un meuble en bois quand vous avez perdu le tournevis. Alors regardez bien, vous allez voir, on s'en fait toute une montagne mais c'est très facile.

0:47

[Benjamin] Et voilà, un bon coup de marteau et pas mal d'entraînement et il n'y a pas une seule vis qui résiste. Prévoyez toutefois quelques centaines d'heures pour vous entraîner.

0:55

[Benjamin] parce que sinon, ça va se finir en catastrophe.

0:58

[Benjamin] Bon et comme je sais qu'on n'a pas beaucoup de temps je vais aller à l'essentiel et dans les 5 minutes qui nous restent je vais vous montrer en 42 étapes comment choper le truc. Alors étape 1 bien évidemment pour commencer un classique.

1:10

[Benjamin] La vis à bois à tête fraisée cruciforme.

1:13

[Étienne] Attends, attends Benjamin, excuse-moi de t'interrompre, ça a l'air vraiment très intéressant ton tuto, mais déjà c'est pas du tout radiophonique et puis on s'était mis d'accord que tu parles d'IA et en plus ça tombe bien avec l'actualité, c'est la semaine du sommet pour l'action sur intelligence artificielle.

1:26

[Benjamin] Ah ouais mais moi j'avais vachement préparé mon tuto là, j'avais même posté une vidéo sur Loops pour illustrer mon propos.

1:31

[Étienne] On la mettra dans les notes de l'émission si tu veux.

1:33

[Benjamin] Bon bah je vais vous parler d'IA alors mais c'est bien parce que c'est la semaine du sommet sur l'action, sur l'IA, par où je commence alors...

1:41

[Étienne] D'habitude tu simplifies et tu commences par une métaphore.

1:44

[Benjamin] Ah oui bonne idée, et bien disons que dans une certaine mesure l'IA permet de simuler les mécanismes d'apprentissage des êtres humains, d'où le nom “Intelligence Artificielle”.

1:54

[Étienne] C'est-à-dire ?

1:55

[Benjamin] Imagine que tu joues à la pétanque, tu vises le cauchenet. En cours de mécanique à l'école, t'as appris que la somme des forces est égale au produit de la masse par l'accélération.

2:04

[Benjamin] Donc, c'est facile quand tu lances la boule tu calcules la vitesse 𝒗₀ et l'angle α pour calculer…

2:10

[Benjamin] pour calculer la distance parcourue 𝒅 qui vaut (𝒗₀² / g) × sinus(2α)

2:17

[Benjamin] Et pour que ça corresponde à la distance du cochonnet. C'est facile non ?

2:20

[Étienne] Mais personne ne joue à la pétanque comme ça !

2:21

[Benjamin] Ouais, t'as raison. Y'a pas besoin de savoir calculer un tir balistique pour jouer à la pétanque.

2:26

[Benjamin] Mais comment c'est possible de réussir à lancer sans avoir la moindre idée des équations qui le régissent ?

2:32

[Benjamin] Et bien dans la pratique on apprend par une succession d'essais. À force de lancer des boules de pétanque en haut, à droite, à gauche, doucement, fort, des centaines et des milliers de fois, on finit par deviner ce qui va se passer, sans passer par le calcul.

2:45

[Benjamin] Quand tu attrapes un ballon de basket c'est pareil tu pourrais calculer sa trajectoire en fonction de sa vitesse initiale, sa masse, etc,

2:51

[Benjamin] mais dans la vraie vie, on développe des tas de raccourcis mentaux basés sur nos expériences, des heuristiques ou des biais cognitifs.

2:57

[Benjamin] Ils sont indispensables, sans eux on survivrait pas au premier passage clouté.

3:02

[Benjamin] Et notre cerveau fonctionne naturellement comme ça pour tout, en commençant par le langage.

3:05

[Benjamin] Quand tu parles avec un étranger qui te pose une question de grammaire sur ta langue maternelle, il y a toujours un moment gênant où tu lui réponds « bah parce que ça sonne mieux comme ça ».

3:14

[Benjamin] Par exemple, quand est-ce qu'on doit utiliser l'auxiliaire être ou l'auxiliaire avoir ?

3:20

[Benjamin] On a appris par l'expérience, la règle on la connaît même pas et pourtant elle existe. On utilise être avec les verbes perfectifs qui expriment un mouvement ou un changement d'état et les verbes pronominaux.

3:30

[Étienne] Mais quel rapport avec l'IA ?

3:31

[Benjamin] L'IA fait exactement pareil.

3:34

[Benjamin] L'IA reste un programme informatique, mais plutôt que de modéliser le fonctionnement intrinsèque d'un système et de répondre à des questions en résolvant les équations sous-jacentes,

3:43

[Benjamin] c'est comme ça qu'on a envoyé des hommes sur la Lune,

3:45

[Benjamin] un programme basé sur l'IA va se contenter d'observer le système un grand nombre de fois dans des conditions diverses pour ensuite deviner les réponses aux questions en cherchant des similitudes probables.

3:56

[Benjamin] Si on filme assez de lancer de boules de pétanque, le programme n'a plus besoin de connaître les équations de mécanique pour savoir où la boule va tomber.

4:04

[Étienne] Un peu comme le biais cognitif dont tu parlais alors.

4:07

[Benjamin] Et bien tout à fait, au sens des neurosciences, les mécanismes de l'IA s'inspirent beaucoup des biais cognitifs.

4:12

[Benjamin] Ça explique d'ailleurs pourquoi on entend souvent que les IA sont pleines de biais statistiques.

4:17

[Benjamin] C'est la conséquence directe de leur mode d'apprentissage. On voit là l'incroyable importance des données utilisées pour entraîner ces programmes. Dans le jargon, on parle de data set.

4:25

[Benjamin] Si ces data sets ne contiennent pas certains types de données, l'IA ne saura pas comment les interpréter quand elle les verra.

4:31

[Étienne] Mais ça sert à quoi de prendre ces raccourcis à une époque où les ordinateurs sont devenus ultra rapides ?

4:36

[Benjamin] En fait c'est super utile, on a beau avoir des ordinateurs très rapides, il y a encore des tas de calculs où ils vont pas assez vite.

4:43

[Benjamin] Dès qu'on a des systèmes complexes multidimensionnels avec trop d'inconnues, on atteint encore des temps de calcul de l'ordre du siècle, voire pire.

4:51

[Benjamin] Et exactement de la même manière qu'un parisien traverse un carrefour en courant, sans sortir sa calculette pour calculer les trajectoires des voitures en mouvement, l'IA permet de trouver des solutions en quelques secondes alors que ça prendrait des années en résolvant “proprement” les équations.

5:05

[Benjamin] Sans compter les cas où on ne serait même pas en mesure de trouver le modèle mathématique sous-jacent.

5:09

[Étienne] Je suis un peu déçu, en fait t'es un vrai défenseur de l'IA.

5:12

[Benjamin] Alors j'ai pas à être pour ou contre l'IA, ça n'aurait pas plus de sens que d'être pour ou contre les multiplications.

5:18

[Benjamin] L'IA est un outil informatique pour résoudre des problèmes complexes dans un temps humainement acceptable.

5:24

[Benjamin] Mais bon, les polémiques autour de l'IA sont de deux ordres. 1, le champ d'application

5:29

[Benjamin] totalement nouveau qui a émergé peut poser de nouveaux problèmes et 2,

5:34

[Benjamin] la manière dont les IA sont entraînées est souvent suspecte.

5:38

[Benjamin] Pour ce qui est des nouveaux champs d'application, on a aucune raison d'être inquiet puisque l'Europe a mis en application l'IA Act en août 2024,

5:46

[Benjamin] et il encadre ses applications en définissant quatre niveaux de risque avec des exigences pour chacun.

5:52

[Benjamin] Cela nous protège de tous les abus, par exemple de “l'identification biométrique à distance en temps réel dans des espaces accessibles au public”.

6:00

[Benjamin] Bon, sauf dans le cas où les députés auraient aqua-poney parce qu'on accueillerait les Jeux Olympiques en France, mais franchement, ça serait vraiment pas de chance.

6:09

[Étienne] Je te sens un peu cynique.

6:10

[Benjamin] Qu'on utilise une technologie non éprouvée et interdite en Europe, donc vraiment je vois pas pourquoi tu dis ça et puis bon ils ont promis juré craché que c'est juste pour la durée des JO.

6:23

[Étienne] Et donc tu parlais de suspicion sur l'entraînement des modèles.

6:26

[Benjamin] Oui, pour pouvoir fonctionner, une IA a besoin d'entraînement et donc de données d'entraînement, les fameux data sets. Le premier souci c'est que bien souvent,

6:33

[Benjamin] les données collectées pour constituer ces datasets leçons de manière totalement illégale.

6:39

[Benjamin] Violation des droits d'auteur, des licences d'utilisation et bien sûr, “last but not least”, du RGPD.

6:44

[Benjamin] Ils sont les nouveaux Napster :

6:45

[Benjamin] “Ouais c'est pas super légal mais c'est pas grave parce que regardez comme c'est super-méga-cool.”

6:51

[Benjamin] Que les choses soient bien claires, il n'y a pas besoin de légiférer là-dessus : la plupart des outils violent déjà les lois de tous les pays où ils opèrent.

7:00

[Étienne] Et personne ne dit rien ?

7:01

[Benjamin] On entend quand même de plus en plus de voix s'élever contre ce pillage planétaire, mais le problème c'est que c'est difficile de retrouver les données volées juste en utilisant ces outils.

7:09

[Benjamin] Et même si certains fournissent quelques informations, c'est jamais suffisant. Ils donnent pas les data sets, les données avant entraînement.

7:15

[Étienne] Mais beaucoup sont quand même du logiciel libre.

7:18

[Benjamin] Alors non, beaucoup le disent, c'est différent.

7:20

[Benjamin] Se contenter de fournir le code source qui permet de faire tourner un modèle entraîné, les paramètres et prétendre que c'est open source, c'est un mensonge, c'est de “l'open-source-washing”.

7:29

[Étienne] Mais dans les modèles fournis on ne devrait pas pouvoir retrouver les données initiales, non ?

7:32

[Benjamin] C'est pas si simple, si t'as appris à jouer à la pétanque en regardant faire les pros et que aujourd'hui grâce à eux t'as un bon petit niveau,

7:38

[Benjamin] est-ce que pour autant tu seras capable de décrire tous les coups que tu les as vus jouer ?

7:42

[Benjamin] Un modèle entraîné c'est quasiment une boite noire, on sait pas comment il a été généré et aujourd'hui tous ces organismes qui engloutissent en masse nos données et des kilowatts heures pour vanter leurs IA et qui font la course à celui qui a la plus grosse…

7:55

[Benjamin] Et ben c'est juste ça la guerre des IA.

7:58

[Benjamin] Et comme pour les moteurs de recherche il y a 25 ans, tous craignent qu'à la fin le gagnant rafle la mise et qu'il n'en reste qu'un, façon Highlander.

8:05

[Étienne] Et dans cette course, en France, on est encore plutôt à la traîne, non ?

8:09

[Benjamin] Ben moi j'aurais plutôt tendance à dire qu'on fait la course en tête mais j'ai probablement pas les mêmes critères. Alors j'imagine que tu fais allusion à Lucie, raillé sur les réseaux sociaux et

8:17

[Benjamin] accusée d'avoir le QI d'une australopitèque shootée au LSD.

8:22

[Benjamin] Ici on parle de LLM, les grands modèles de langage. Ces systèmes ont un fonctionnement probabiliste.

8:26

[Benjamin] Ils fonctionnent comme un joueur de domino, il aligne les mots les uns derrière les autres,

8:31

[Benjamin] en posant le mot suivant le plus probable par rapport à ce qui précède, à la lumière du dataset sur lequel il s'est entraîné.

8:37

[Benjamin] Ces outils peuvent être vraiment extrêmement utiles pour manipuler des données textuelles, en entrée ou en sortie.

8:43

[Benjamin] Mais l'important c'est de comprendre un minimum comment ils fonctionnent pour les utiliser à bon escient.

8:48

[Étienne] Ce que tu dis, ça ressemble quand même pas mal à de la langue de bois.

8:51

[Benjamin] Ah c'est pas mon genre hein, donc je vais expliciter ma pensée.

8:54

[Benjamin] On a vu qu'un modèle entraîné posait plusieurs problèmes. C'est une boîte noire, donc on ne peut pas savoir si des données illégales ont été utilisées.

9:00

[Benjamin] Et puis si l'outil se met à halluciner trop fort

9:03

[Benjamin] on n'a pas vraiment de moyen de comprendre l'origine du problème pour le corriger. Si t'as Mein Kampf dans un dataset, c'est quand même mieux de le savoir.

9:11

[Benjamin] Lucie elle, elle fournit tout, le dataset complet, les paramètres, le modèle entraîné, les codes sources de tous les programmes.

9:17

[Benjamin] Et pas les autres, alors déso, pas déso, mais rien que pour ça moi, et ben ça élimine tous les autres, y'a même pas de débat.

9:22

[Étienne] Oui mais tu sais bien comment ça se passe, c'est peut-être triste mais on préférera toujours un outil qui fonctionne mieux à un outil fourni avec la notice de montage complète.

9:29

[Benjamin] Effectivement c'est triste mais c'est surtout une mauvaise analyse.

9:32

[Benjamin] Pour être tout à fait honnête, les tests que j'ai vu passer sur l'Usi ont fait naître en moi un profond sentiment de désespoir dans les utilisations faites de l'IA.

9:40

[Benjamin] Par exemple, j'ai vu en boucle passer un test arithmétique simple.

9:44

[Benjamin] 5 × (3 + 2) et Lucy répondait 17 au lieu de 25.

9:48

[Étienne] Ça tu peux quand même pas dire que c’est juste…

9:50

[Benjamin] Alors je dis pas que c'est juste, je dis juste que poser une question de calcul mental à un LLM c'est juste…

9:56

[Benjamin] totalement débile.

9:58

[Étienne] Mais c'est pour tester, si sur un calcul aussi simple, le résultat est faux. Qu'est-ce que ça donnera avec des calculs plus compliqués ?

10:03

[Benjamin] Le problème de fond, c'est qu'un LLM ne comprend absolument rien à ce qu'il écrit, rien, il n'y voit aucun sens, il se contente d'aligner les mots comme des dominos par rapport à ce qu'il a déjà vu.

10:14

[Benjamin] a déjà vu (5 × 3) + 2 = 17, il va trouver que ça ressemble vachement donc statistiquement 17 est effectivement la réponse la plus probable.

10:23

[Benjamin] Alors c'est sûr qu'en engloutissant beaucoup plus de données et d'énergie, en bâchotant sans rien piger, il va finir par y arriver. Mais on l'arrête quand ? C'est quoi la limite ?

10:32

[Benjamin] Parce que là le calcul est simple et l'erreur se détecte facilement mais attention tous les LLM, tous, font

10:37

[Benjamin] des erreurs, c'est inhérent à leur conception, on va juste pouvoir repousser un peu leurs limites, le moment où ils font l'erreur. Et si le calcul est compliqué, on ne sera même plus en mesure de se rendre compte que la réponse est totalement bidon.

10:49

[Benjamin] Alors que d'autres outils,

10:50

[Benjamin] au hasard, une calculette à 5€ le feront sans erreur et sans nécessiter la consommation électrique d'un data center pendant des mois d'entraînement.

10:57

[Benjamin] Demander à un LLM de faire des calculs n'a aucun sens, aucune utilité réelle qui soit pas dangereuse.

11:03

[Benjamin] Vouloir utiliser des IA sans comprendre leurs mécanismes juste parce que ça a l'air cool est idiot.

11:08

[Benjamin] Et désolé de le dire ainsi, mais c'est aussi con que de vouloir planter une vis avec un marteau.

11:13

[Étienne] Merci Benjamin, on te retrouvera le mois prochain. Et d'ici là, tous les mercredis dans ton podcast RdGP, le podcast sérieux qui vous emmène au cœur des enjeux des droits numériques, des libertés individuelles et de la vie privée.

11:25

[Benjamin] Merci Étienne.

11:26

[Générique] Libre à vous, libre à vous, libre à vous. L'émission de l'April sur les libertés informatiques. Chaque mardi de 15h30 à 17h sur Radio Cause Commune. Puis en podcast.