Publié le 4 janvier 2022 Mis à jour le 16 mars 2022
Publiée par la prestigieuse revue scientifique Nature depuis 2011, la liste Nature's 10 met en avant chaque année 10 scientifiques qui ont marqué l’avancée de la science face aux événements marquants. Parmi ces personnalités, nous avons interviewé Guillaume Cabanac, enseignant-chercheur à l’université Toulouse III – Paul Sabatier au département informatique de l'IUT, rattaché à l’Institut de recherche en informatique de Toulouse (IRIT – CNRS/Toulouse INP/UT1 Capitole/UT2J/UT3 Paul Sabatier). Surnommé « détective de la tromperie » par l’article de Nature, il débusque les fausses publications scientifiques.
 

Spécialiste de recherche d’information et de scientométrie, pouvez-vous nous expliquer en quoi consistent vos travaux de recherche ?

Guillaume Cabanac : Ma recherche porte sur l’analyse quantitative de la science via la fouille de la littérature scientifique. Il s’agit de produire de nouvelles connaissances en concevant et implémentant des algorithmes qui examinent les millions d’articles scientifiques publiés chaque année. Ces données massives sont modélisées sous forme de réseaux de mots, auteurs, affiliations, références bibliographiques et métadonnées variées.

Pour illustrer avec un résultat récent développé durant la pandémie : le COVID 19 Preprint Tracker repose sur un algorithme qui recherche des appariements entre preprints d’intérêt, c’est-à-dire des brouillons de recherche non validés, et articles publiés dans des revues après évaluation par les pairs. Exécuté quotidiennement, il permet aux épidémiologistes de l’Assistance Publique – Hôpitaux de Paris de valider et réviser la base de connaissances sur le COVID 19 réalisée par le réseau Cochrane et exploitée par l’Organisation Mondiale de la Santé.

Dans une recherche plus ancienne, j’ai caractérisé le corpus des bibliothèques clandestines Libgen et SciHub en 2015. Ces sites web fournissent gratuitement quasiment l'intégralité des articles scientifiques publiés en contournant les "péages" classiques des éditeurs académiques. À l’époque, ces bibliothèques étaient bien plus confidentielles qu’aujourd’hui.

La problématique de l’erreur en science sera au cœur de mes travaux durant les 5 prochaines années via le projet interdisciplinaire Nanobubbles: how, when, and why science fails to correct itself?” lauréat du programme ERC Synergy en 2021.


crédit Alex Salim
crédit Alex Salim

Crédit Alex Salim

Vous avez développé une méthode permettant de débusquer les faux articles dans la littérature scientifique. En existe-t-il beaucoup ? Et savez-vous à quoi est dû ce phénomène ?

Guillaume Cabanac : Les travaux de 2021 ont porté sur l’automatisation de la détection d’articles publiés bien que dénués de sens. J’ai publié en mai avec Cyril Labbé de l’Université Grenoble-Alpes une méthode qui a identifié 243 articles produits par le générateur Scigen : totalement bidons et pourtant publiés (parfois vendus) par Elsevier, IEEE (Institut des ingénieurs électriciens et électroniciens), IOP et d’autres éditeurs réputés. Avec l’apport d’Alexander Magazinov de Yandex Russia, nous avons poursuivi ces travaux pour traquer 468 « expressions torturées » à ce jour, telles que :

capture
capture

Totalement aberrantes, ces expressions figurent pourtant dans 3 000 articles parus dans des revues d’éditeurs réputés, principalement en ingénierie et santé. Elles résultent d’une forme de plagiat inédite en science : « copier/paraphraser/coller ». Les faussaires volent des passages d’articles publiés, utilisent un programme pour changer les mots par des synonymes et s’approprient ce texte paraphrasé. L’inspection de ces articles frauduleux révèle d’autres problèmes : identité d’auteur usurpée, images volées, passages de textes générés algorithmiquement et dénués de sens…

Partisans de la science ouverte, nous avons posté un preprint sur arXiv détaillant méthode et résultats le 12 juillet 2020. Des journalistes scientifiques ont immédiatement couvert ce résultat dans Nature et RetractionWatch. Sous-titré “Open Call for Investigation”, notre preprint invite la communauté scientifique à participer à l’effort d’analyse post-publication des milliers d’articles problématiques listés sur le Problematic Paper Screener que j’ai développé pour éplucher l’intégralité de la littérature scientifique toutes les nuits. Tels des détectives enquêtant sur une piste à partir de « tuyaux » révélés par des indics, des dizaines de scientifiques exploitent ces indices et postent leurs rapports de (ré)évaluation sur PubPeer. Cette activité d’évaluation post-publication est soutenue par l’Office Français de l’Intégrité Scientifique, département du HCERES, comme souligné dans sa note de septembre 2021.

Nos travaux ont conduit à la rétractation de plus de 800 articles d’Elsevier, de Springer et autres. Cette dépollution évitera que des collègues ou des intelligences artificielles exploitent des résultats invalides. Tout ceci interroge quant à la rigueur de l’évaluation par les pairs pratiquée par les revues établies, avec facteur d’impact et publiées par des éditeurs qui ne sont généralement pas qualifiés de prédateurs.

 

Afin de lutter contre ce phénomène, vous préconisez une « routine d’hygiène numérique », pouvez-vous nous expliquer en quoi cela consiste ?

Guillaume Cabanac : Dans la colonne World View: A personal view on science and society de Nature, j’enjoins les scientifiques à une plus grande vigilance quant à leur présence numérique. Identifions et signalons au plus tôt tout détournement de notre identité ou de notre affiliation. Vérifions les notifications de nouveaux articles envoyées par Google Scholar ou Dimensions pour détecter toute publication à notre insu. Vérifions que les citations de nos travaux soient accompagnées d’une explication valide – dialoguons avec les auteurs en cas de quiproquo. De temps à autre, cherchons sur le web les mentions de notre identité pour détecter toute utilisation inappropriée.

En adoptant une telle routine d’hygiène numérique, deux chercheurs séniors français dont l’identité a été usurpée auraient pu éviter de fâcheuses déconvenues. Ils se retrouvent coauteurs de dizaines d’articles bancals voire erronés parus à leur insu. Ces pseudo-recherches dans des champs disciplinaires hors de leur spécialité ont été découvertes via une bibliométrie réalisée par leur établissement. S’agissait-il de nouvelles collaborations avec un pays d’Asie sur un thème émergeant ? Les deux chercheurs médusés ont indiqué à la référente intégrité scientifique de leur établissement : « nous ne connaissons pas ces coauteurs-faussaires, nous n’avons aucune compétence sur ce sujet... ils ont mis notre nom et notre affiliation sans que nous le sachions ! ». Ce type d’escroquerie vise à profiter du « prestige » de leur institution et suggérer une collaboration internationale. Conséquence : la réputation des chercheurs et de leur établissement est dégradée. Cette fraude est signalée aux maisons d’édition et aux institutions des coauteurs-faussaires… mais les rétractations demandées peinent à venir, ce n’est pas une surprise.

D’autres cas impliquent des chercheurs dont le nom se retrouve listé dans le comité de programme d’une conférence prédatrice, dans le comité de rédaction d’une revue jadis sérieuse mais désormais détournée et publiant des articles problématiques...

 

Vous faites partie cette année des 10 scientifiques qui ont compté pour la science en 2021 pour la prestigieuse revue Nature. Est-ce pour vous le signe que la communauté des éditeurs a pris conscience de ce phénomène de « fausses publications » ?

Guillaume Cabanac : Les scientifiques ont progressivement pris conscience des pratiques délictueuses d’éditeurs prédateurs qui font payer des frais pour publier vite et sans évaluation ou si peu à des auteurs parfois crédules, parfois complices.

La réputation des maisons d’édition et le ciblage de revues classées dans le Journal Citation Reports de Clarivate Analytics ou Scopus d’Elsevier offrait, pensait-on, une assurance de qualité et d’intégrité scientifique. Nos résultats démontrent le contraire : des milliers d’articles problématiques sont parus, déstabilisant la confiance que la communauté a placée dans le processus d’évaluation opéré par des dizaines de revues épinglées, publiées par des industriels qui ont remplacé les rigoureuses sociétés savantes d’autrefois.

Le code source de nos détecteurs figure en annexe de nos publications (ex : détection de ruptures abruptes dans les durées d’évaluation). De nombreuses maisons d’édition sollicitent notre expertise pour intégrer ces contrôles qualité à leurs chaînes éditoriales. Je leur recommande surtout de vérifier que les éditeurs, éditeurs invités, évaluateurs mobilisés disposent des compétences requises pour réaliser une évaluation rigoureuse — ce n’est pas toujours le cas. La « pression à la publication » qui s’intensifie engendre de nouvelles fraudes : des pseudo-auteurs achètent des articles tout prêts et des citations auprès de paper mills. Chercher à contrer les fraudeurs par une approche techno-centrée uniquement paraît bien vain. La contrattaque nécessite une plus grande vigilance de la part de la communauté scientifique dans son ensemble.

Voir l’article sur le site de Nature.