La collecte du numérique implique de nouvelles compétences de la part des agents. Ceux-ci se retrouvent confrontés à la collecte de flux de données. La collecte devient donc automatique et systématique. Mais comment saisir des données en perpétuel mouvement ?
Céline Guyon travaille au conseil général de l’Aube. Elle a abordé le thème de la collecte dématérialisée. Les archivistes sont confrontés d’une part à la numérisation de leurs archives et, d’autre part, à la dématérialisation des données. Il ne s’agit pas, ici, de renégocier la règle des « 4C », la théorie des trois âges ou encore de redéfinir le record management.
Le numérique implique un passage de l’unicité du document à la multiplicité des exemplaires, des supports et des accès. Afin de distinguer l’original de la copie, le document administratif est signé numériquement à l’aide d’un certificat de signature et d’un logiciel de signature électronique. Cette dernière, originellement immatérielle, se trouve être, dans le cadre du conseil général de l’Aube, rematérialisée à l’aide d’un cartouche d’authenticité (signature visuelle et numéro d’authenticité). Cette démarche permet de donner confiance à l’usager dans les documents numériques.
Le document numérique pose problème. Il se retrouve fragmenté. Il s’agit pour l’archiviste de reconstituer le dossier auquel le document appartient, ainsi que le fonds auquel il est rattaché. De plus, les documents d’un même fonds (service administratif par exemple) n’arrivent plus en un seul versement mais de manière continue (flux). Céline Guyon propose donc de renouveler le vocabulaire archivistique afin qu’il sied à cette nouvelle réalité. L’emploi du langage notarial (minutes, expéditions, copies conformes…) permettrait de remplacer le mot « versement » qui ne tient pas compte des différents états du document électronique. L’utilisation du mot « version » ne retient que l’aspect temporel du document.
La collecte s’engage dès que le document est authentifié. La numérisation chez les archivistes s’engage non pas dans la collecte de documents numériques, mais dans la dématérialisation des modes de collecte. Par exemple, les bordereaux de versement circulent sous forme électronique (signature comprise).
Suit l’intervention de Clément Oury, chef du service du dépôt légal numérique à la Bibliothèque nationale de France.
Cette deuxième intervention porte sur le thème de « l’archivage » du web en posant la question suivante : quelles pratiques pour la préservation d’un objet documentaire singulier ?
Ce questionnement doit apporter des réponses aux risques de trous de mémoire numérique du web (erreur 404). En effet le web est soumis à un fort potentiel de disparition ou d’obsolescence. Clément Oury ouvre le débat sur l’archivage du web : est-ce une mission archivistique ?
La première réflexion développée porte sur la nécessité d’archiver le web. Trois raisons sont mises en avant :
- la conservation d’une institution ou d’une entreprise,
- la conservation des contenus à destination des chercheurs,
- la conservation de la mémoire d’un espace de publication.
Depuis 2006, le web est soumis au dépôt légal ; tous les contenus en ligne qui ne relèvent pas de la correspondance privée doivent faire l’objet d’un dépôt légal à l’INA pour l’audiovisuel et la BNF pour le reste. Il n’y a pas de jugement de valeur sur le contenu. L’objectif de ce dépôt légal est de constituer une représentation du web à un moment donné. Tous les sites en .fr sont par exemple collectés de manière à consulter les pages principales (les plus visitées) de ces derniers. Cette collecte s’opère par un logiciel qu’on appelle le « collecteur » (croller en anglais), « aspirateur » ou « araignée ».
Depuis le décret n° 2011-1904 du 19 décembre 2011, la BNF a accès aux sites restreints (ceux payants et/ou protégés par mot de passe). Ceci leur a permis de conserver les dernières éditions de France-Soir, uniquement disponible sur internet, avant la disparition du journal.
L’archivage dépend d’un logiciel robot. Celui-ci est-il un archiviste ? Ne risque-t-on pas d’avoir des artéfacts ? L’archiviste doit s’intéresser au mode de fonctionnement de cet appareil. Cela conduit à un ecdotique (science de l’édition des textes) des archives du web.
Aïda Chebbi présente, quant à elle, son sujet de thèse : « les archives web : principes, méthodes et outils de gestion des archives dans un environnement numérique réseauté ».
Internet comporte une documentation importante. Pour les organisations, il constitue une vitrine de leurs activités, voire un moyen de mettre en place des actions. Les archives deviennent non seulement une source d’informations, mais aussi des preuves. Ceci implique deux approches différentes.
- La perspective documentaire renouvelle des processus traditionnels (dépôt légal par exemple). Les institutions collaborent entre elles (Ex : BnF et INA).
- La seconde perspective, archivistique cette fois, envisage uniquement de collecter le « web gouvernemental ». Ainsi, les archives collectent les données des sites internet du gouvernement canadien, anglais, ou envisagent celles contenues sur le site du Premier Ministre français.
Or, ceci va à l’encontre de nos pratiques de collecte. En effet, le producteur ne verse plus ses archives, c’est aux archivistes de les collecter. Quatre informations sont essentielles (d’après le modèle états-unien) : les objectifs du site, la fréquence de ses mises à jour, la technique employée pour créer le site web ainsi que la visibilité du site.
Le problème concerne les sites à dynamique partielle, c’est-à-dire qu’une partie du contenu seulement est mise à jour. Il faudrait pouvoir archiver chacun de ces changements. Mais quel cadre de modèle employer ? Celui préconisé par la gestion des risques ? Comment parer les erreurs générées lors de la capture du web ?
Ces captures d’internet ne sont hélas pas suffisantes (erreur 404) et trop peu fréquentes. Une copie annuelle du web génère la perte de données des sites mis à jour quotidiennement. Il est nécessaire de développer des règles de conservations, pour les anciens sites web par exemple. Mais qui a la responsabilité de l’archivage ?
Une compensation à cette perte est la politique d’archivage mise en place par les sites internet eux-mêmes. En effet, sur ces derniers se trouve une partie « archives » (catégorie). Il devient donc un lieu d’archives. Les pratiques se développent et se multiplient selon le degré d’implication des archivistes, s’ils décident de collaborer avec les informaticiens ou non. Mais en collectant le web de manière vaste, ne risquons-nous pas de perdre la mémoire institutionnelle ?
Nicolas Bertrand, Matthieu Bouvet, Lucille Cottin et Florian Guicheteau.