Bruno Helly, Enjeux et défis de la numérisation
rétrospective des documents et
publications scientifiques en sciences
humaines et sociales, In : Lettre du département Sciences de l'Homme et de la Société, n°69, CNRS , mai 2004.
L'établissement d’une bonne classification est un
gros travail et le rôle crucial des notations rend très difficile
d’y introduire des compléments. On a donc essayé de
développer des systèmes qui font ce travail sans notations
artificielles. Une solution qui a eu un succès considérable
est la norme internationale de thesaurus dans laquelle les
relations permettent d’établir des hiérarchies qui sont définies
d’une façon qui permet de les employer dans une
requête sans obtenir trop de bruit. Le problème est évidemment
de trouver des relations qui semblent si naturelles que
producteur et utilisateur aient une chance de les
comprendre de la même façon. Il n’y en a pas beaucoup,
semble-t-il, et ceux qui ont eu le plaisir de construire un
thesaurus savent très bien que notre compréhension se plie
difficilement aux concepts si clairs et abstraits qui nous
sont proposés. Les relations les plus utiles sont celles qu’on
peut comprendre à l’aide d’une logique de langue naturelle,
par exemple la relation générique : « chaque X est un genre
de Y ». Donc « chaque chaise est un genre de siège »
semble acceptable de façon probablement universelle, mais
« chaque couteau est une arme » conduit évidemment à
beaucoup de bruit pour celui qui cherche des « armes ».
Cependant, il apparaît que, malgré tous les efforts faits pour
agrandir la partie formalisable d’une procédure d’accès aux
données, la partie non-formalisable reste importante,
presque aussi importante qu’avant l’ère de l’information.
C’est pourquoi nous visons aussi à développer l’idée de
bases de données dynamiques, à forte valeur ajoutée, en
travaillant sur des systèmes d’annotations et sur des
systèmes d’accès multilingues. Pour les systèmes d’annotations, nous travaillons en collaboration avec l’École française
d’Athènes et l’INSA de Lyon dans le cadre d’un programme
commun des départements du CNRS SHS et STIC. Par l’intermédiaire
d’un système d’annotation, on vise à mettre à
disposition des utilisateurs des outils qu’ils peuvent employer
pour annoter tel ou tel document d’une base de données
accessible pour eux et qui conduisent à des parcours d’expertise
fondés notamment sur une approche sémantique des
données. Un exemple sans doute un peu caricatural : dans
une Chronique des fouilles comme celle du BCH de l’École
française d’Athènes, on trouve en 1910 telle information sur
un site désigné comme proche de la ville de Volos, en 1920
sur un site appelé Alykes, en 1950 Pagasai, en 1980
Amphanai : seul le spécialiste de la Thessalie pourra indiquer
que toutes ces informations se rapportent à un seul et même
site antique. On aura donc tout intérêt à enregistrer cet avis
d’expert sur le serveur, afin de le mettre à disposition de tous
les utilisateurs, qui seraient condamnés dans une simple
recherche par index lexical, à un « silence » complet sur l’ensemble
des informations se rapportant à ce site.
Dans le même esprit, on peut enrichir toute base de
données qui contient des documents primaires numérisés
rapidement en mode image, en demandant aux utilisateurs
de renvoyer sur la base tout ou partie de ce qu’ils en ont tiré
en mode caractères. Encore un exemple : une collection de
lettres manuscrites est numérisée avant d’être vendue. Un
étudiant peut être appelé à faire un mémoire sur ces documents,
qu’il transcrira donc au cours de son travail. Le
retour sur la base pourra se concevoir comme une contrepartie
à l’accès qui lui a été donné aux documents.
Les objets numériques (fichiers numériques), communs
aux diverses disciplines des sciences exactes ou des
sciences humaines, constituent l'outil idéal d'un dialogue.
L'information numérique, partagée à tous les niveaux (de
l'équipe, du campus, de la région, du pays, du monde),
permet aux chercheurs de nos disciplines de s'organiser
pour pouvoir bénéficier du même fonds « exhaustif » d'archives
numériques : c'est l'enjeu crucial de la mémoire
scientifique et collective.
[Source]