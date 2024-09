L’arrivée de ChatGPT, en novembre 2022, n’en finit pas d’avoir des conséquences, fantasmées ou réelles. Parmi ces dernières, un groupe d’universitaires indépendants, Data Provenance Initiative, vient d’en identifier une, assez inattendue : le tarissement des sources auxquelles s’abreuvent les systèmes d’intelligence artificielle générative que l’outil de l’entreprise américaine OpenAI a popularisés.

Plus exactement, dans son preprint soumis à une conférence, en juillet, cette équipe a mesuré à quel point un nombre important de sites, parmi les plus fréquentés du monde (The New York Times, HuffPost, The Guardian…), interdisent désormais aux outils automatiques de récupération des données, ou crawling en anglais, d’accéder à leurs informations.

Et c’est à partir de ces données que d’énormes corpus sont constitués pour entraîner les intelligences artificielles tels ChatGPT, Gemini, Copilot, Le Chat, Llama, Claude… Plus grands sont les corpus, meilleurs sont les résultats, même si la « qualité » compte aussi.

Pour arriver à ce constat de fermeture du Web, les chercheurs ont étudié trois corpus très utilisés pour le développement d’IA, C4, RefinedWeb et Dolma, contenant des milliards de « tokens » (ou unités lexicales, syllabes, voire mots) en provenance de dizaines de millions de sites Internet (médias, forums, encyclopédies, marchands en ligne, sites personnels ou d’universités, réseaux sociaux…).

Ils ont aussi récupéré deux types d’informations sur ces sites afin de savoir ce qu’ils autorisent ou non : leurs conditions générales d’utilisation (CGU) et un fichier appelé « robots.txt », que les robots-crawlers sont censés « lire » pour déterminer s’ils ont le droit de collecter des données ou non (mais une « interdiction » peut aussi ne pas être respectée).

