Régulation

ArXiv serre la vis contre les papiers générés par l’IA

ArXiv pourra bannir un an les auteurs de papiers massivement générés par IA, un tournant pour l’usage des LLM dans la recherche scientifique.

ArXiv durcit ses règles face à la montée des articles scientifiques produits par l’IA

Le principal dépôt mondial de prépublications scientifiques, arXiv, s’apprête à franchir une étape symbolique dans l’encadrement de l’intelligence artificielle générative. Selon TechCrunch, la plateforme prévoit de bannir pendant un an les auteurs qui soumettent des articles largement rédigés par des systèmes d’IA, lorsque ces outils ont fait l’essentiel du travail intellectuel ou rédactionnel. Le signal est fort: après une phase d’enthousiasme autour des grands modèles de langage, le monde académique commence à formaliser des lignes rouges et à y associer des sanctions explicites.

Créé en 1991 et administré par l’université Cornell, arXiv occupe une place centrale dans la circulation rapide des travaux en physique, mathématiques, informatique, statistiques, biologie quantitative ou encore économie. La plateforme héberge aujourd’hui plus de 2 millions d’articles et reçoit chaque mois des dizaines de milliers de nouvelles soumissions. Dans des domaines comme l’IA, où la compétition se joue souvent à l’échelle de quelques semaines, publier sur arXiv est devenu un réflexe avant même l’évaluation par les pairs.

C’est précisément cette position stratégique qui donne à la nouvelle orientation d’arXiv une portée bien plus large qu’un simple ajustement de modération. En visant ce que beaucoup de chercheurs appellent désormais l’AI slop — des textes produits vite, peu relus, souvent gonflés de formulations génériques et parfois scientifiquement faibles — la plateforme intervient au cœur d’un problème qui touche déjà la crédibilité de la littérature scientifique.

Ce que prévoit la nouvelle politique et ce qu’elle cherche à empêcher

D’après les informations rapportées par TechCrunch AI, arXiv veut sanctionner les auteurs qui laissent l’IA “faire tout le travail”, avec une peine annoncée d’un an d’exclusion. L’objectif n’est pas d’interdire tout usage des modèles génératifs, mais de cibler les soumissions dans lesquelles la machine remplace de fait l’auteur au lieu de l’assister. La nuance est importante: corriger une tournure, reformuler un résumé ou améliorer l’anglais d’un texte n’est pas équivalent à produire une démonstration, une revue de littérature ou une discussion scientifique sans contrôle humain substantiel.

Cette évolution s’inscrit dans un climat de vigilance accrue. Depuis l’explosion de ChatGPT fin 2022, puis l’arrivée d’outils comme Claude, Gemini ou les modèles open source de la famille Llama, les usages académiques se sont multipliés. Beaucoup de laboratoires utilisent déjà les LLM pour traduire, résumer des articles, générer du code, préparer des figures ou reformuler des passages. Mais cette adoption rapide a aussi ouvert la voie à des abus: textes verbeux, références inventées, erreurs méthodologiques masquées par une prose fluide, voire soumissions quasi automatiques destinées à gonfler artificiellement un CV.

ArXiv n’est pas une revue à comité de lecture classique, mais un serveur de diffusion. Son rôle est pourtant crucial, car il sert souvent de première vitrine publique. Si cette vitrine se remplit de contenus faibles ou semi-automatisés, c’est toute la chaîne de confiance qui se dégrade: lecteurs, journalistes, investisseurs, recruteurs et autres chercheurs s’appuient sur ces textes pour suivre l’état de l’art. En ce sens, la décision annoncée relève autant de la régulation éditoriale que de la défense d’une infrastructure scientifique.

Le message implicite est clair: l’IA peut assister la recherche, mais elle ne doit pas se substituer à la responsabilité scientifique des auteurs.

Après l’euphorie des LLM, le retour des frontières dans la production académique

Le tournant est culturel autant que technique. Depuis deux ans, le récit dominant autour des LLM dans la recherche reposait sur un gain de productivité: écrire plus vite, synthétiser plus de littérature, accélérer la rédaction de projets, de rapports ou de preprints. Dans les équipes les plus exposées à la pression de publication, la promesse était séduisante. Mais la productivité textuelle ne garantit ni la qualité scientifique ni la traçabilité intellectuelle.

Le problème est particulièrement aigu dans les disciplines proches de l’informatique et de l’IA, où la cadence de publication est élevée et où la barrière d’entrée rédactionnelle peut sembler plus faible. Un modèle génératif sait produire en quelques secondes une introduction crédible en apparence, avec le ton académique attendu, des formulations standardisées et une structure familière. Ce vernis peut suffire à faire circuler des travaux médiocres, surtout dans les espaces de prépublication où l’évaluation intervient après diffusion.

La décision d’arXiv traduit donc une inflexion: l’usage des LLM n’est plus seulement une question d’outillage personnel, mais un sujet de gouvernance scientifique. Qui est l’auteur réel d’un texte? Quelle part du raisonnement a été externalisée? Comment vérifier que l’auteur comprend ce qu’il soumet? À partir de quel seuil l’assistance devient-elle une délégation abusive? Ces questions, longtemps théoriques, prennent désormais une dimension disciplinaire et opérationnelle.

Le terme “AI slop”, popularisé sur le web pour désigner les contenus de faible qualité générés à la chaîne, fait ici son entrée dans le débat académique. Son apparition dans le champ de la recherche est en soi révélatrice: les institutions scientifiques considèrent désormais qu’elles peuvent être contaminées par les mêmes dynamiques que les plateformes de contenu grand public, à savoir l’abondance, la vitesse et la dilution de la responsabilité.

Un sujet sensible pour la recherche française et européenne

Pour l’écosystème francophone, cette évolution n’a rien d’abstrait. Les laboratoires français, belges, suisses et plus largement européens utilisent eux aussi des assistants génératifs dans leurs workflows quotidiens. En France, où les équipes publiques doivent composer avec une forte pression de publication, des budgets contraints et une internationalisation croissante des échanges, l’aide à la rédaction en anglais est souvent perçue comme un levier pratique. Les LLM peuvent réduire un désavantage linguistique réel pour des chercheurs non natifs.

Mais cette utilité entre en tension avec plusieurs principes structurants de la recherche européenne: intégrité scientifique, responsabilité individuelle, transparence méthodologique et reproductibilité. Les établissements français ont déjà commencé à publier des recommandations internes sur l’usage de l’IA générative, souvent inspirées par les travaux de comités d’éthique, du CNRS, d’universités ou d’écoles d’ingénieurs. Le durcissement d’arXiv pourrait accélérer cette formalisation en poussant les institutions à préciser ce qui est autorisé, ce qui doit être déclaré et ce qui relève de la fraude.

Le sujet touche aussi les jeunes chercheurs. Doctorants, postdoctorants et candidats à des postes académiques sont parmi les plus exposés à la tentation d’automatiser la rédaction. Or ce sont aussi ceux pour qui une exclusion d’un an d’arXiv peut avoir des effets très concrets sur la visibilité, la recherche de collaborations ou le calendrier de carrière. Dans certains sous-domaines de l’IA et de l’apprentissage automatique, ne pas pouvoir publier de preprint pendant douze mois revient à disparaître temporairement du radar international.

  • Pour les laboratoires: nécessité de documenter les usages acceptables des LLM.
  • Pour les auteurs: risque disciplinaire direct en cas de soumission jugée excessivement générée.
  • Pour les institutions: obligation de clarifier la frontière entre assistance linguistique et production intellectuelle.
  • Pour les lecteurs: attente accrue de transparence sur les conditions de rédaction.

Une régulation difficile à appliquer, mais déjà structurante

Reste une question centrale: comment arXiv déterminera-t-il qu’un papier a été “largement produit” par une IA? Les détecteurs automatiques de texte généré sont notoirement fragiles, avec des faux positifs et des faux négatifs fréquents. Des textes humains peuvent être signalés à tort, tandis que des contenus générés puis retravaillés passent inaperçus. La mise en œuvre reposera donc probablement sur un mélange de signaux: style inhabituellement générique, erreurs typiques des LLM, incohérences bibliographiques, anomalies dans les démonstrations, et signalements humains.

Cette difficulté n’annule pas l’effet de la règle. En matière de modération, la norme compte souvent autant que l’outil de détection. En annonçant une sanction claire, arXiv crée un précédent et déplace le centre de gravité du débat. La question n’est plus “peut-on utiliser un LLM pour écrire un papier?”, mais “jusqu’où peut-on aller sans rompre le contrat de confiance avec la communauté scientifique?”.

Il faut aussi noter que la mesure intervient dans un contexte plus large de reprise en main. Les éditeurs scientifiques, les conférences et les universités ajustent progressivement leurs politiques. Certaines revues exigent déjà une déclaration d’usage de l’IA. D’autres interdisent aux modèles génératifs d’être listés comme coauteurs, au motif qu’ils ne peuvent ni assumer une responsabilité légale ni répondre aux critiques. ArXiv, de son côté, ajoute une dimension punitive plus visible, adaptée à son rôle de porte d’entrée de la diffusion scientifique.

Pour les entreprises d’IA, y compris celles qui vendent des assistants à la recherche, le message est ambigu. D’un côté, leurs outils restent utiles pour des tâches périphériques. De l’autre, l’idée d’une rédaction scientifique largement automatisée devient institutionnellement suspecte. Cela pourrait favoriser l’émergence de solutions plus spécialisées, centrées sur la vérification, la citation sourcée, l’audit des modifications et la traçabilité des contributions humaines.

Vers une science augmentée, mais sous contrainte de preuve

Le durcissement d’arXiv marque probablement le début d’une phase plus mature dans la relation entre recherche et IA générative. L’enjeu ne sera pas d’éliminer les LLM des pratiques académiques, scénario peu réaliste, mais de les réinscrire dans une chaîne de responsabilité démontrable. Autrement dit, l’assistance restera tolérée, voire encouragée, à condition que l’auteur puisse prouver qu’il maîtrise le contenu, vérifie les références, comprend les résultats et assume l’argumentation.

Cette évolution pourrait transformer les normes de publication bien au-delà d’arXiv. On peut imaginer, à moyen terme, des formulaires de divulgation standardisés, des journaux d’édition intégrés aux outils de rédaction, ou encore des politiques institutionnelles imposant de documenter précisément l’usage des modèles. En Europe, où la culture réglementaire est plus affirmée qu’aux États-Unis, cette logique pourrait trouver un terrain favorable, notamment dans les établissements publics et les projets financés sur fonds européens.

Le paradoxe est que l’IA générative, conçue pour fluidifier la production de texte, pourrait finalement conduire la science à exiger davantage de preuves sur l’origine des formulations, des raisonnements et des choix éditoriaux. Plus les machines savent écrire comme des chercheurs, plus les chercheurs devront montrer en quoi leur travail reste irréductiblement humain. C’est sans doute là que se joue le vrai tournant: non pas la fin des LLM dans la recherche, mais la fin de l’illusion selon laquelle écrire plus vite suffit encore à produire de la science crédible.

Retour aux actualités