En vidéo – Comment les intelligences artificielles génératives nous comprennent-elles?
Plus de deux ans après sa sortie, ChatGPT a popularisé l’intelligence artificielle générative auprès du grand public. Mais qu’est-ce qui se cache derrière ces machines à tout faire?Par quel miracle les intelligences artificielles (IA) nous comprennent-elles? Que ce soit un générateur d’images, ou un large modèle de langage, tout part d’un prompt. On souhaite résumer un long texte, écrire une lettre de motivation ou générer une image, alors on s’adresse à une intelligence artificielle générative, comme ChatGPT, Dall-E ou autres en lui rédigeant un court texte. Le résultat, qu’il soit satisfaisant, surprenant ou décevant, est le fruit d’une technologie qui s’est mis au point au fil des années. Décortiquons ensemble les grands principes.Pour qu’une IA générative comprenne notre requête, elle doit d’abord être digérée par celle-ci. On dit qu’elle transforme nos mots, ou des parties de mots, en token. Le but de cette tokenisation, c’est de donner une sorte de carte d’identité aux mots. Dans le monde de l’IA, elle prend la forme d’un vecteur, c’est-à-dire une liste ordonnée de nombres. Ce vecteur est ensuite rangé dans un énorme ensemble de données: un espace vectoriel. La professeure de linguistique computationnelle à l’Université de Genève, Paola Merlo, illustre: «Le mot saumon, associé à la rivière, aura un vecteur de nombres différent que le saumon dans le contexte d’un pavé de saumon. Ils se trouveront dans des espaces vectoriels différents.»Lire aussi: Tout ce que vous devez savoir sur ChatGPT en 2024Des souris d’ordinateur chassées par un chat? Grâce à cette base vectorielle, les modèles d’IA génératives sont donc capables de savoir quel mot pourrait remplacer quel autre mot. Seulement, à l’image de l’exemple choisi par Paola Merlo, les mots peuvent avoir plusieurs sens: c’est le principe d’une polysémie. Un sacré défi pour les IA, génératives de texte ou de photo. La solution est venue quand la technologie des transformers a été introduite, lors des dernières versions d’intelligences artificielles génératives publiées en 2018.Grâce à ce système, l’IA ne comprend plus chaque mot individuellement, il les assimile en fonction des autres mots de la phrase «pour comprendre le contexte», complète Jamil Zaghir, doctorant à la faculté de médecine de l’université de Genève. Il vulgarise: «Par exemple, admettons que nous avons le mot «souris» dans la phrase: «la souris est chassée par un chat». Le groupe de tokens associé à chat permet de comprendre que le sens de souris est lié à l’animal. En revanche, si on parle de souris d’ordinateur, on aura «souris» et «ordinateur» dans la même phrase, donc le transformer comprendra qu’on parle d’une souris d’ordinateur».Pourtant, en 2022, une image générée par Dall-E fait le buzz. On y voit un pavé de saumon remontant une rivière. Pourquoi le transformer de ce générateur d’images n’a pas identifié le bon saumon? Parce que cela ne suffit pas. Cette technologie doit être nourrie de vastes quantités de données. «Dans ce type de modèle, il n’y avait pas énormément de données d’entraînements», rappelle Jamil Zaghir. Beaucoup de chemin a été fait depuis. Aujourd’hui, les modèles sont entraînés par des quantités de données toujours plus vastes, de façon à les généraliser. La course aux paramètres Les dernières versions des modèles comportant également de plus en plus de paramètres. Plus un modèle dispose de paramètres, plus il est entraîné sur des corpus de données gigantesques plus il est capable de capter les nuances et les complexités du langage. Paola Merlo complète: «On mesure la taille d’un modèle avec le nombre de paramètres dont il a besoin. Là, nous sommes dans le billion de paramètres et à chaque mise à jour, c’est un ordre de grandeur qui augmente.» Ces paramètres sont donc essentiels à l’amélioration des résultats, puisque «plus vous avez d’exemples de textes sur lequel vous pouvez vous entraîner, plus vous pouvez représenter chacun des exemples comme un point dans cet espace vectoriel et ne pas faire de confusion», ponctue Paola Merlo. En graphique Le nombre de paramètres des IA génératives a explosé Publié le 14 juin 2024 à 15:57. / Modifié le 17 juin 2024 à 17:11.
Plus de deux ans après sa sortie, ChatGPT a popularisé l’intelligence artificielle générative auprès du grand public. Mais qu’est-ce qui se cache derrière ces machines à tout faire?
Par quel miracle les intelligences artificielles (IA) nous comprennent-elles? Que ce soit un générateur d’images, ou un large modèle de langage, tout part d’un prompt. On souhaite résumer un long texte, écrire une lettre de motivation ou générer une image, alors on s’adresse à une intelligence artificielle générative, comme ChatGPT, Dall-E ou autres en lui rédigeant un court texte. Le résultat, qu’il soit satisfaisant, surprenant ou décevant, est le fruit d’une technologie qui s’est mis au point au fil des années. Décortiquons ensemble les grands principes.
Pour qu’une IA générative comprenne notre requête, elle doit d’abord être digérée par celle-ci. On dit qu’elle transforme nos mots, ou des parties de mots, en token. Le but de cette tokenisation, c’est de donner une sorte de carte d’identité aux mots. Dans le monde de l’IA, elle prend la forme d’un vecteur, c’est-à-dire une liste ordonnée de nombres. Ce vecteur est ensuite rangé dans un énorme ensemble de données: un espace vectoriel. La professeure de linguistique computationnelle à l’Université de Genève, Paola Merlo, illustre: «Le mot saumon, associé à la rivière, aura un vecteur de nombres différent que le saumon dans le contexte d’un pavé de saumon. Ils se trouveront dans des espaces vectoriels différents.»
Des souris d’ordinateur chassées par un chat?
Grâce à cette base vectorielle, les modèles d’IA génératives sont donc capables de savoir quel mot pourrait remplacer quel autre mot. Seulement, à l’image de l’exemple choisi par Paola Merlo, les mots peuvent avoir plusieurs sens: c’est le principe d’une polysémie. Un sacré défi pour les IA, génératives de texte ou de photo. La solution est venue quand la technologie des transformers a été introduite, lors des dernières versions d’intelligences artificielles génératives publiées en 2018.
Grâce à ce système, l’IA ne comprend plus chaque mot individuellement, il les assimile en fonction des autres mots de la phrase «pour comprendre le contexte», complète Jamil Zaghir, doctorant à la faculté de médecine de l’université de Genève. Il vulgarise: «Par exemple, admettons que nous avons le mot «souris» dans la phrase: «la souris est chassée par un chat». Le groupe de tokens associé à chat permet de comprendre que le sens de souris est lié à l’animal. En revanche, si on parle de souris d’ordinateur, on aura «souris» et «ordinateur» dans la même phrase, donc le transformer comprendra qu’on parle d’une souris d’ordinateur».
Pourtant, en 2022, une image générée par Dall-E fait le buzz. On y voit un pavé de saumon remontant une rivière. Pourquoi le transformer de ce générateur d’images n’a pas identifié le bon saumon? Parce que cela ne suffit pas. Cette technologie doit être nourrie de vastes quantités de données. «Dans ce type de modèle, il n’y avait pas énormément de données d’entraînements», rappelle Jamil Zaghir. Beaucoup de chemin a été fait depuis. Aujourd’hui, les modèles sont entraînés par des quantités de données toujours plus vastes, de façon à les généraliser.
La course aux paramètres
Les dernières versions des modèles comportant également de plus en plus de paramètres. Plus un modèle dispose de paramètres, plus il est entraîné sur des corpus de données gigantesques plus il est capable de capter les nuances et les complexités du langage. Paola Merlo complète: «On mesure la taille d’un modèle avec le nombre de paramètres dont il a besoin. Là, nous sommes dans le billion de paramètres et à chaque mise à jour, c’est un ordre de grandeur qui augmente.» Ces paramètres sont donc essentiels à l’amélioration des résultats, puisque «plus vous avez d’exemples de textes sur lequel vous pouvez vous entraîner, plus vous pouvez représenter chacun des exemples comme un point dans cet espace vectoriel et ne pas faire de confusion», ponctue Paola Merlo.