Entraîner une intelligence artificielle avec des données générées par IA conduit à l’absurde

Alors que les contenus créés par des intelligences artificielles commencent à se répandre sur internet, des chercheurs alertent sur les conséquences à long terme. A force de réentraîner des modèles de langage avec des contenus «synthétiques», ils finiraient par déraillerC’est un peu l’histoire du serpent qui se mord la queue: nourrir des générations successives d’un modèle d’intelligence artificielle avec des textes de synthèse créés par la génération d’IA précédente finit par produire des résultats absurdes, ce que les scientifiques appellent un «effondrement» – collapse en anglais. C’est ce que confirment des travaux dirigés par Yarin Gal (Université d’Oxford, Grande-Bretagne), et publiés dans Nature. De précédents travaux mis en ligne sur ArXiv.org avaient déjà pointé ce problème avec les images.Faute de disposer de ressources de calcul considérables, un groupe basé en Grande-Bretagne et au Canada a travaillé avec un générateur de langage (LLM) relativement modeste, doté de seulement 125 millions de paramètres – les modèles les plus performants comme ChatGPT-4 en possèdent de l’ordre de mille milliards. «Comme l’effondrement est un phénomène général, d’ordre statistique, nous pouvons dire en toute confiance sur la base de nos résultats que cela se produit quelle que soit la taille des modèles, explique Ilia Shumailov (Université d’Oxford), premier auteur de l’article. Ces derniers engendrent toujours des erreurs; si ces défauts sont ingérés par un modèle, qui ajoute ses propres errements, et qu’on répète le processus, les erreurs finissent par prendre le dessus.»Voir plus

Entraîner une intelligence artificielle avec des données générées par IA conduit à l’absurde

Alors que les contenus créés par des intelligences artificielles commencent à se répandre sur internet, des chercheurs alertent sur les conséquences à long terme. A force de réentraîner des modèles de langage avec des contenus «synthétiques», ils finiraient par dérailler

C’est un peu l’histoire du serpent qui se mord la queue: nourrir des générations successives d’un modèle d’intelligence artificielle avec des textes de synthèse créés par la génération d’IA précédente finit par produire des résultats absurdes, ce que les scientifiques appellent un «effondrement» – collapse en anglais. C’est ce que confirment des travaux dirigés par Yarin Gal (Université d’Oxford, Grande-Bretagne), et publiés dans Nature. De précédents travaux mis en ligne sur ArXiv.org avaient déjà pointé ce problème avec les images.

Faute de disposer de ressources de calcul considérables, un groupe basé en Grande-Bretagne et au Canada a travaillé avec un générateur de langage (LLM) relativement modeste, doté de seulement 125 millions de paramètres – les modèles les plus performants comme ChatGPT-4 en possèdent de l’ordre de mille milliards. «Comme l’effondrement est un phénomène général, d’ordre statistique, nous pouvons dire en toute confiance sur la base de nos résultats que cela se produit quelle que soit la taille des modèles, explique Ilia Shumailov (Université d’Oxford), premier auteur de l’article. Ces derniers engendrent toujours des erreurs; si ces défauts sont ingérés par un modèle, qui ajoute ses propres errements, et qu’on répète le processus, les erreurs finissent par prendre le dessus.»Voir plus