L’IA, précieuse auxiliaire des bibliothèques
Jean-Philippe Moreux occupe le poste d’expert scientifique à Gallica, la bibliothèque numérique de la BnF, qui comporte un fonds d’environ neuf millions de documents. La question des possibilités qu’offre l’intelligence artificielle aux champs de la conservation et de la diffusion du fonds est au cœur des projets de cet expert et de nombre de ses collègues. Pour lui, c’est l’opportunité de traiter enfin la masse toujours plus importante de documents détenus et déposés à la BnF. Une mission impossible pour l’humain dépourvu de machine.
__
Peut-on dire d’un logiciel ou d’un outil de recherche que ce sont des IA ?
Jean-Philippe Moreux : Il existe plein de définitions de l’IA, qui ont varié historiquement. Du point de vue de l’utilisateur final ou de celui qui cherche à concevoir un dispositif, c’est un outil qui mime l’intelligence humaine et qui peut donc aider à rechercher de l’information. En soi, il y a deux définitions possibles : une qui part des bases technologiques qui sont à l’arrière-plan et une autre qui se base sur des notions plus cognitives et sur les services rendus par l’IA. Mais il s’agit toujours de logiciels.
Quelles évolutions l’utilisation de l’IA peut apporter au milieu de la conservation et de la diffusion des fonds patrimoniaux ?
J-P.M. : On manque de recul, ce ne sont que les prémices. À la BnF et chez nos collègues en France et à l’étranger, on en est majoritairement au stade de l’expérimentation. L’IA peut apporter la capacité de traiter en masse et automatiquement de grandes quantités de données. Cela permet de réaliser des tâches qui, sans ce levier de l’IA, seraient impossibles à accomplir humainement. L’OCR, c’est-à-dire la reconnaissance optique de caractères [Optical Character Recognition en anglais, NDLR], est une forme d’IA. Ce sont des logiciels qui cherchent à transcrire automatiquement des textes imprimés et qui existent depuis les années cinquante. Ces OCR ont rendu de grands services aux bibliothèques sauf qu’on ne parlait pas d’IA à l’époque. C’est une sorte d’effet de mode conjugué aux avancées technologiques de ces cinq dernières années. Aujourd’hui, ces IA peuvent servir à lire et à retranscrire des images ou des voix, à traduire des textes ou à analyser quasiment tout type de production humaine. En bibliothèque, on imagine facilement qu’elles vont pouvoir enrichir les collections en aidant à les indexer, à les cataloguer et en faisant de la transcription de manuscrits imprimés, de la vidéo, de la musique ou d’autres contenus qui sont ingérés tous les jours via le dépôt légal numérique ou les programmes de numérisation. Ces technologies vont pouvoir enrichir la description d’une vidéo, par exemple, ou la découper en séquences tout en générant des descriptions spécifiques pour chacune d’entre elles, dire qui parle et quel est le sujet, ou encore transcrire les dialogues automatiquement. De fait, l’IA va nous offrir la capacité de traiter des collections devenues difficiles à gérer à la main.
Chez Gallica, êtes-vous en train de développer quelque chose en particulier ?
J-P.M. : Depuis 2020, la BnF a mis en place une feuille de route IA pour prioriser nos axes de développement. Le projet le plus avancé se nomme "Gallica Images", mais la BnF travaille également à appliquer des approches IA à d’autres services aux utilisateurs ou activités internes. Le projet Gallica Images vise, à partir de tous les contenus numérisés dans Gallica, à décrire et à caractériser toutes les portions de documents qui contiennent des illustrations. L’objectif est de créer automatiquement une base iconographique. Il peut s’agir d’images imprimées dans la presse, d’illustrations scientifiques ou d’enluminures contenues dans des manuscrits… Tout ce qui aurait nature à enrichir une base iconographique mais qui, étant donné la diversité et la quantité, ne peut être fait qu’automatiquement. On veut se baser sur une partie du travail des personnels scientifiques qui ont déjà indexé manuellement une partie de la collection et apprendre à la machine à reproduire ces actions de classification et d’indexation pour qu’elle l’applique à tout le reste.
Cela prend-il beaucoup de temps d’apprendre ces différentes techniques à la machine ?
J-P.M. : Non, c’est justement la révolution de ces dernières années : la machine apprend par l’exemple. Et comme nous sommes dans le milieu des bibliothèques, nous disposons de beaucoup d’exemples qui s’étalent sur des siècles et des siècles. En caricaturant, nous n’aurons pas besoin de créer une base d’apprentissage, elle existe déjà.
Ces innovations doivent-elles inquiéter les professionnels, parfois soucieux de se voir remplacer par ces IA ?
J-P.M. : L’inquiétude est légitime, mais il va plutôt s’agir d’un changement de manière de travailler plutôt que d’un remplacement de l’humain par l’IA. On a besoin des sachants et des scientifiques qui détiennent la connaissance des fonds pour construire et enrichir ces approches. Des bibliothèques ont commencé à appliquer ces techniques pour des tâches de catalogage, sur l’indexation documentaire d’imprimés et de documents numériques. L’expérience prouve que les catalogueurs n’ont pas été renvoyés chez eux, car ces experts de l’indexation contribuent à l’entraînement des IA et à leur contrôle. Ce que l’IA indexe, le catalogueur vient le vérifier ou lever des doutes sur la fiabilité. Cela permet d’automatiser les tâches les plus fastidieuses. Les IA peuvent permettre d’améliorer l’accès aux collections : on parle de dizaines de millions d’illustrations, donc si on ne le fait pas avec l’IA, personne ne le fera !
Ces technologies vont-elles favoriser l’accès au fonds, colossal, que propose Gallica ?
J-P.M. : Bien entendu, cela va permettre de valoriser et de faciliter l’accès au fonds. On va pouvoir rentrer dans le document, notamment ceux dits composites comme la presse, les quotidiens ou les revues, les documents multimédias qui ont plusieurs séquences et thématiques. Grâce à cela, on va échapper au syndrome de l’unique notice bibliographique qui n’est jamais très parlante. Même si l’océrisation permet d’aller chercher dans des titres de presse complets, aujourd’hui, on aimerait entrer dans chaque page pour les décrire plus finement. Vous pourrez consulter un numéro du Monde datant de 1950 avec une sorte de "notice" qui vous indiquera la présence de tel et tel article, qui vous dira comment ils sont répartis entre politique/international/événements culturels/ sport, qui indiquera aussi que tel article est illustré, qui donnera accès aux pages de publicités, etc. En bref, la notice décrira toutes les composantes du document.
L’utilisation de l’IA en bibliothèque peut-elle faire bondir la recherche ?
J-P.M. : Oui, on le constate déjà aujourd’hui avec la multiplication des contenus et l’ouverture des données, notamment dans le domaine des sciences humaines. Si c’est le cas actuellement, ça le sera demain a fortiori parce que ces contenus seront encore mieux décrits et découpés. L’IA favorise non seulement l’accessibilité aux contenus au sens large, mais aussi la réexploitation de ces contenus par les chercheurs en particulier ou par le grand public. L’IA va démultiplier les possibilités pour tous les citoyens d’interroger ces collections.
L’image du robot qui va nous trouver l’ouvrage que l’on cherche en rayon tient-elle du fantasme ?
J-P.M. : Cela existe déjà en Asie et aux États-Unis. On y voit des robots qui font de l’accueil et de la médiation auprès du public quand d’autres font du picking ou vont ranger les ouvrages laissés par les lecteurs. Il ne s’agit plus d’expérimentation, mais de la réalité. Ce sont des choix liés aux pratiques et aux cultures locales. Mais n’oublions pas qu’il s’agit de machines et de logiciels qui imitent les comportements humains. Donc si on n’a plus d’experts pour apprendre à ces machines comment travailler et qui imiter, alors il n’y a plus d’IA.