Logée dans notre cerveau, une petite zone appelée aire tegmentale ventrale (ATV) joue un rôle central dans notre rapport à la récompense. Elle produit la dopamine, un neuromodulateur qui peut prédire une récompense future sur la base d’un contexte donné. Une équipe des universités de Genève (UNIGE), Harvard et McGill montre qu’elle peut faire encore davantage, en encodant chaque gain espéré avec l’instant précis où il est attendu. Cette découverte, rendue possible par un algorithme, montre l’importance du dialogue entre intelligence artificielle et neurosciences. L’étude est publiée dans la revue Nature.
L’aire tegmentale ventrale (ATV) joue un rôle clé dans la motivation et le circuit de la récompense. Principale source de dopamine dans notre cerveau, ce petit noyau de neurones envoie ce neuromodulateur vers d’autres régions cérébrales pour déclencher une action en réponse à un stimulus positif.
«Au départ, on pensait que l’ATV était simplement le centre de la récompense dans le cerveau. Mais dans les années 1990, les scientifiques ont découvert qu’elle ne codait pas la récompense en soi, mais la prédiction de récompense», explique Alexandre Pouget, professeur ordinaire au Département des neurosciences fondamentales de la Faculté de médecine de l’UNIGE.
Des expériences menées sur des animaux ont en effet montré que, lorsqu’une récompense suit systématiquement un signal lumineux par exemple, l’ATV finit par libérer de la dopamine non plus au moment de la récompense, mais dès l’apparition du signal. Cette réponse encode donc la prédiction de la récompense, associée au signal lumineux, et non la récompense elle-même.
Une fonction beaucoup plus sophistiquée
Cet «apprentissage par renforcement», nécessitant peu de supervision, est central chez l’humain. C’est également sur ce principe que s’appuient les algorithmes d’intelligence artificielle pour optimiser leurs résultats au fil d’entraînements, comme par exemple Alpha Go, le premier algorithme à avoir battu le champion du monde du jeu de Go.
Dans une récente étude, l’équipe d’Alexandre Pouget, en collaboration avec Naoshige Uchida de l’Université Harvard et Paul Masset de l’Université McGill, montre que le codage de l’ATV est en réalité encore plus sophistiqué qu’on ne le pensait. «Plutôt que de prédire une somme pondérée des récompenses futures, l’ATV prédit leur évolution temporelle. En d’autres termes, chaque gain est représenté séparément, avec l’instant précis où il est attendu», explique Alexandre Pouget, qui a dirigé ces travaux.
«Alors que nous savions que les neurones de l’ATV donnaient la priorité aux récompenses proches dans le temps par rapport aux récompenses plus lointaines - selon le principe qu’un tiens vaut mieux que deux tu l’auras - nous avons découvert que différents neurones agissaient à différentes échelles de temps, certains se concentrant sur la récompense possible dans quelques secondes, d’autres sur la récompense attendue dans une minute, et d’autres encore sur des horizons plus lointains. C’est cette diversité qui permet l’encodage de la chronologie de la récompense.»
Cette représentation beaucoup plus fine confère au système d’apprentissage une grande flexibilité, lui permettant de s’adapter pour maximiser les récompenses immédiates ou différées, en fonction des objectifs et des priorités de l’individu.
IA et neurosciences: vases communicants
Ces résultats sont le fruit d’un dialogue entre neurosciences et intelligence artificielle. Alexandre Pouget avait conçu, sur une base purement mathématique, un algorithme tenant compte du facteur temps dans le traitement de la récompense. De leur côté, les chercheurs d’Harvard avaient recueilli de nombreuses données neurophysiologiques sur l’activité de l’ATV chez l’animal en situation de récompense.
«Ils ont alors appliqué notre algorithme à leurs données et ont constaté que les résultats obtenus correspondaient parfaitement aux données issues de leur expérience empirique». Si le cerveau inspire les techniques de machine learning de l’IA, ces résultats montrent que les algorithmes peuvent aussi devenir de puissants révélateurs de nos mécanismes neurophysiologiques.