Crise De Lépuisement Des Données, Le Goulot Détranglement Des Données Dans Le Développement De LIA Et Les Mesures À Prendre
Nous estimons que le stock de texte public produit par l’humanité est d’environ 300 000 milliards de tokens. Si la tendance se poursuit, les modèles linguistiques auront épuisé ce stock entre 2026 et 2032, ou même plus tôt en cas de surentraînement. ——Epoch AI
En 2006, Fei-Fei Li, alors professeur à l’Université de l’Illinois (aujourd’hui à Stanford), a vu le potentiel d’Internet pour transformer la recherche en intelligence artificielle (IA). La recherche en linguistique avait identifié 80 000 “ensembles de synonymes de noms”, c’est-à-dire des ensembles de synonymes décrivant la même catégorie d’objets. Fei-Fei Li a supposé que parmi les milliards d’images sur Internet, il devait y avoir d’innombrables exemples de ces ensembles de synonymes. Si suffisamment de ces images pouvaient être collectées, cela permettrait de créer une base de données plus vaste que toute ressource d’entraînement en IA antérieure. Elle a déclaré : “Beaucoup de gens se concentrent sur les modèles, nous devrions nous concentrer sur les données”. Ainsi, le projet ImageNet est né.
Internet a fourni non seulement des images, mais aussi des ressources pour l’annotation d’images. Après avoir trouvé des images de chats, de chiens, de chaises, etc., via des moteurs de recherche, des personnes sur la plateforme de crowdsourcing Mechanical Turk d’Amazon ont vérifié et annoté ces images manuellement. Finalement, une base de données contenant des millions d’images vérifiées a été construite. C’est en utilisant une partie des données d’ImageNet qu’AlexNet a démontré en 2012 le potentiel énorme de “l’apprentissage profond”, ouvrant le cycle précédent de l’IA et donnant naissance à une industrie dépendante de grandes quantités de données annotées.
1 L’ère de l’IA pilotée par les données
Dans ce cycle de l’IA, le développement de l’IA s’est étendu aux grands modèles linguistiques (LLM), qui dépendent également des données Internet pour leur entraînement, mais de manière différente. La tâche classique d’entraînement en vision par ordinateur (CV) est de prédire le contenu d’une image (tâche de classification d’images), tandis que la tâche classique d’entraînement des LLM est de prédire les mots manquants dans un texte basé sur le contexte.
Cette méthode d’entraînement ne nécessite pas de données annotées manuellement, le système peut lui-même masquer des mots, faire des inférences et évaluer la justesse des réponses par “entraînement auto-supervisé”. Mais cette méthode nécessite de grandes quantités de données. En général, plus un modèle reçoit de texte et plus le volume de données est grand, meilleures sont ses performances (Scaling Law). Internet fournit justement des dizaines de milliards de textes, qui pour les LLM ont une signification comparable à celle du carbone déposé pendant des millions d’années pour l’industrie moderne, une ressource précieuse pouvant être raffinée en carburant.
Une source de données d’entraînement courante est Common Crawl, une archive Internet contenant 50 milliards de pages web. Avec le développement des modèles IA, davantage de données ont été ajoutées, comme Books3 - une base de données contenant des milliers de livres. Cependant, avec la croissance de la demande de données textuelles par l’IA, l’offre de données de qualité sur Internet devient progressivement insuffisante. Selon les estimations d’Epoch AI, d’ici 2028, les données textuelles de haute qualité sur Internet seront complètement épuisées, et l’industrie fera face à ce qu’on appelle le “mur de données”. L’Internet chinois est encore plus touché, passant de “l’Internet chinois s’effondre” à de grandes plateformes verrouillant leurs portes, une fois que la valeur des données a été reconnue, elles ont été mises en sécurité. Comment surmonter cette barrière pourrait être l’un des problèmes les plus épineux pour le développement futur de l’IA, et peut-être celui qui pourrait le ralentir le plus.
2 Problèmes de propriété et de droits d’auteur des données
Les modèles IA dépendent de plus en plus des données Internet, mais les questions de droits d’auteur des données sont également controversées. De nombreuses données utilisées pour entraîner les grands modèles linguistiques sont souvent utilisées sans le consentement des détenteurs des droits d’auteur, certaines entreprises d’IA exploitant même du contenu derrière des paywalls. Bien que les entreprises d’IA prétendent que cette utilisation relève de la “fair use” du droit d’auteur, les détenteurs de droits ne sont pas d’accord. Getty Images a poursuivi l’entreprise de génération d’images Stability AI, l’accusant d’avoir utilisé sa bibliothèque d’images sans autorisation. Le New York Times a poursuivi OpenAI et Microsoft, les accusant de violer les droits d’auteur de millions d’articles. Stack Overflow, Reddit et X (anciennement Twitter) facturent désormais des frais aux entreprises d’IA. Zhihu perturbe également les crawlers de Bing et Google avec des caractères illisibles pour limiter l’utilisation de son contenu chinois dans les ensembles de données pour l’entraînement de l’IA.
Les attitudes envers ce problème varient selon les régions. Le Japon et Israël ont adopté une position souple pour promouvoir le développement de leur industrie de l’IA. L’Union européenne, qui n’a pas de concept général de “fair use”, pourrait être plus stricte. En Chine, un Bureau national des données a été créé, clarifiant que les données ont une double identité de moyen de production et d’objet de production.
3 Stratégies actuelles d’utilisation des données
Face au mur de données, le domaine de l’IA a proposé plusieurs stratégies pour y faire face. Une stratégie clé est de se concentrer sur la qualité des données plutôt que sur la quantité. Les laboratoires d’IA ne se contentent plus d’utiliser aveuglément toutes les données d’Internet pour entraîner leurs modèles, mais accordent plus d’importance au filtrage, au nettoyage et à l’optimisation des données, garantissant que les modèles peuvent en extraire le contenu le plus précieux. Au cours de l’année écoulée (2024), les modèles d’OpenAI ne semblent plus “largement en avance”, les modèles des autres se battent à armes égales, et les différences de performance sur différentes tâches proviennent de la construction des données d’entraînement. Après tout, il existe de nombreux algorithmes et modèles open-source, mais très peu de jeux de données open-source.
Obtenir des “informations du monde réel” est crucial, surtout lorsque les modèles impliquent beaucoup de raisonnement, les ressources autoritaires comme les manuels académiques deviennent particulièrement précieuses. Mais comment trouver le meilleur équilibre entre différentes sources de données reste une science occulte.
Dans le processus d’utilisation des données, les modèles font également face au problème de “l’oubli catastrophique” - c’est-à-dire que lorsque le système est trop entraîné sur certains types de données, il peut exceller dans ce domaine tout en oubliant d’autres connaissances précédemment acquises. Par conséquent, l’ordre des données lors de l’entraînement doit également être soigneusement considéré. Si toutes les données sur un sujet (comme les mathématiques) sont concentrées à la fin du processus d’entraînement, le modèle pourrait bien performer sur les problèmes mathématiques, mais cela pourrait affaiblir ses capacités dans d’autres domaines. Ce déséquilibre dans l’entraînement augmente le risque d’oubli catastrophique.
Lorsque les données concernent à la fois différents domaines et différentes formes (modalités), ces stratégies deviennent plus complexes. En raison de la pénurie de nouvelles données textuelles, les modèles de pointe comme GPT-4 d’OpenAI et Gemini de Google utilisent, en plus des textes, des images, des vidéos et de l’audio pour s’entraîner lors de l’apprentissage auto-supervisé. Cependant, les données vidéo sont particulièrement délicates car les fichiers vidéo contiennent des points de données extrêmement denses. Pour simplifier le problème, les modèles actuels extraient généralement uniquement certaines images clés pour un traitement simplifié, et le monde académique cherche encore des solutions plus efficaces.
4 Données synthétiques et auto-entraînement de l’IA
Les capacités des modèles peuvent également être améliorées en utilisant des données supplémentaires pour un réglage fin (fine-tuning) sur la base des versions générées par l’apprentissage auto-supervisé (version pré-entraînement). Par exemple, le “réglage fin supervisé” consiste à fournir au modèle des paires de questions-réponses collectées ou créées par des humains pour lui enseigner ce qu’est une bonne réponse. Une autre méthode, “l’apprentissage par renforcement basé sur le retour d’information humain” (RLHF), consiste à indiquer au modèle si les réponses satisfont le demandeur.
Dans le RLHF, les utilisateurs donnent leur avis sur la qualité des sorties du modèle, et ces retours sont ensuite utilisés pour ajuster les paramètres (poids) du modèle. Les interactions des utilisateurs avec les chatbots, telles que les likes ou dislikes, sont particulièrement utiles pour le RLHF. C’est le mécanisme de la “flywheel des données” : plus d’utilisateurs apportent plus de données, qui à leur tour optimisent de meilleurs modèles. Les entreprises d’IA surveillent de près les diverses questions posées à leurs modèles par les utilisateurs, puis collectent des données pour ajuster les modèles afin de couvrir ces sujets. Alibaba, ByteDance et Minimax, entre autres, ont lancé des guerres de prix sur les modèles, difficile de dire qu’il n’y a pas de considérations à cet égard.
À mesure que les données pré-entraînement sur Internet s’épuisent progressivement, l’importance de l’entraînement postérieur (Post-Training) devient de plus en plus évidente. Des entreprises d’annotation comme Scale AI et Surge AI gagnent chaque année des centaines de millions de dollars en collectant des données d’entraînement postérieur. Scale a récemment levé 1 milliard de dollars à une valorisation de 14 milliards de dollars. Aujourd’hui, le travail d’annotation a dépassé l’ère de Mechanical Turk : les meilleurs annotateurs peuvent gagner jusqu’à 100 dollars de l’heure. Bien que l’entraînement postérieur contribue à générer de meilleurs modèles et puisse répondre aux besoins de nombreuses applications commerciales, cela reste une amélioration incrémentale, un remède temporaire.
Outre le franchissement progressif du mur de données, une solution consiste à le contourner complètement, c’est-à-dire à utiliser des données synthétiques générées par des machines. Le modèle AlphaGo Zero de DeepMind (filiale de Google) en est un bon exemple. Le premier modèle de Go réussi de l’entreprise a été entraîné sur les données de millions de parties amateurs, tandis qu’AlphaGo Zero n’a utilisé aucune donnée existante. Au lieu de cela, il a appris le Go en jouant 4,9 millions de parties contre lui-même en trois jours, enregistrant les stratégies réussies. Cet “apprentissage par renforcement” lui a appris à répondre aux coups de l’adversaire en simulant de nombreuses réponses possibles et en choisissant la stratégie avec la plus grande probabilité de succès.
Des méthodes similaires peuvent également être utilisées pour les LLM, comme le modèle open-source le plus puissant actuellement, Llama 3.1. Une proportion significative des données SFT de Llama 3.1 est constituée de données synthétiques générées par le modèle, et une grande partie des données de la phase SFT de Gemma2 est synthétisée par un modèle de plus grande envergure, prouvant que la qualité des données synthétiques n’est pas inférieure à celle des données annotées manuellement.
Peut-on alors générer des données synthétiques à l’infini, en se reposant sur ses propres lauriers ? Je pense que la réponse est non. Une étude publiée le mois dernier dans “Nature” a révélé que l’utilisation excessive de données synthétiques dans l’entraînement des modèles peut entraîner des “défauts irréversibles”. En utilisant des données synthétiques générées par des modèles pour affiner le modèle, il suffit de quelques cycles pour que le modèle commence à délirer, un phénomène que les chercheurs appellent “l’effondrement du modèle”.
Le problème plus important est de savoir comment étendre cette méthode à des domaines verticaux tels que la médecine ou l’éducation. Dans les jeux, la définition de la victoire est claire, et il est plus facile de collecter des données sur la pertinence d’une action. Dans d’autres domaines, c’est beaucoup plus complexe. Les données sur les “bonnes” décisions sont généralement collectées auprès d’experts, mais cela est coûteux et chronophage, et les solutions ne sont pas exhaustives. Comment déterminer si un expert a raison est aussi une question en soi.
5 Conclusion
Obtenir plus de données sera essentiel pour maintenir le progrès rapide de l’IA. Que ce soit des données spécialisées provenant de sources expertes ou des données synthétiques générées par des machines, le progrès de l’IA dépend de l’approvisionnement continu en données. À mesure que les réserves de données les plus facilement accessibles s’épuisent, l’industrie de l’IA a fait de nombreux efforts pour atténuer ce problème :
- Mettre l’accent sur la qualité des données, effectuer un nettoyage des données
- Augmenter la proportion de données mathématiques, logiques et de code, ajuster l’ordre d’entraînement
- Utiliser des données synthétiques pour compléter les données réelles
Mais tout cela semble insoutenable, il est nécessaire de trouver de nouvelles sources de données ou de développer des alternatives durables ; ou de concevoir de nouvelles architectures qui ne dépendent pas des données, ouvrant ainsi la voie au prochain cycle de l’IA.
6 Lectures recommandées
- L’Internet chinois s’effondre à un rythme accéléré | He Jia Yan
- Allons-nous manquer de données ? Limites de l’échelle des LLM basées sur les données générées par l’homme | EpochAI
- Zhihu perturbe les crawlers de Bing/Google avec des caractères illisibles | CSDN
- Les données d’entraînement de l’intelligence artificielle s’épuisent, les données synthétiques suscitent une énorme controverse | Wall Street Insights
- Discussion sur Llama3.1, de la structure, du processus d’entraînement, de l’impact à la synthèse des données | Volcan Community
- Les modèles IA s’effondrent lorsqu’ils sont entraînés sur des données générées de manière récursive | Nature