Une boîte à outils pour les vracs numériques

Traiter un vrac numérique peut rapidement s’avérer être un tâche très complexe.

Thomas Bernard, chef de projet AD-Essor, et Baptiste Nichèle, chef de projet pour l’archivage numérique, travaillant tous deux au service interministériel des Archives de France nous ont présenté hier, mercredi 30 mars lors de la première journée du Forum des archivistes, des outils très intéressants pour faciliter ce travail de pré-versement d’un vrac numérique.

Leurs travaux actuels se portent sur un projet de développement d’une application de pré-versement de fichiers numériques : OCTAVE.

Cet Outil de Constitution et de Traitement Automatisé des Versements Électroniques étant encore en développement, T. Bernard et B. Nichèle se sont concentrés, lors de l’atelier Mécano, sur les outils les plus pertinents et les plus performants pour la manipulation pratique des fichiers. L’idée n’est pas de nous donner clé en main un outil magique traitant de A à Z les problèmes liés au pré-versement de vracs numériques, mais de nous fournir une palette d’outils rendant ces vracs plus « propres ».

Après avoir explicité les étapes de la chaîne de traitement (capture, traitement, classement et description, traçabilité et empaquetage), les deux chefs de projet ont commencé à détailler cette « boîte à outils », exclusivement composée de logiciels libres et gratuits.

Le premier logiciel présenté s’attaque à une des premières étapes de la chaîne de traitement : l’état des lieux du vrac numérique. Il s’agit de DataAccesioner qui permet de lister les fichiers et les dossiers présents, d’afficher leur arborescence, de générer un récolement en créant un dossier source contenant un jeu de données et un fichier XML avec la liste des fichiers.

Duplicate Files Finder est le deuxième logiciel testé et approuvé par les participants de cet atelier Mécano. Il a été conçu pour repérer les fichiers en doublons dans des dossiers communs ou pas, à différents endroits de l’arborescence, que leur nom soit identique ou non. Ce logiciel fonctionne en analysant le contenu des documents et en les comparant afin d’en déterminer les points communs et de mettre en avant les documents en double. Un allié précieux pour gagner du temps !

Le problème du renommage en masse des fichiers a été grandement résolu par vRenamer. L’intérêt principal de ce logiciel est qu’il permet certes de renommer en masse des fichiers, mais aussi qu’il propose une visualisation en direct du résultat obtenu ! Parmi les nombreuses possibilités de renommage, on peut enlever les accents ou les espaces, mettre tout en capitales ou en minuscules, inclure une date de dernière modification, ajouter un suffixe ou un préfixe, renommer de manière séquentielle, etc. Ce logiciel nous est apparu comme très performant et répondant bien aux besoins des archivistes.

Puis, un autre logiciel nous a été présenté : DROID. Ce logiciel, maintenu par The National Archives (UK), permet de vérifier la conformité des formats de fichiers par rapport à la norme (en l’occurrence Pronom). DROID nous permet de lister et de localiser ces fichiers non conformes et nous renvoie vers la ressource du format en question dans le référentiel Pronom.

Pourquoi vérifier la conformité des formats ?

Parce que lire simplement l’extension collée au nom du fichier n’est pas suffisant pour déterminer la nature des formats utilisés et peut même être trompeur. Parce que certains fichiers sont mal construits et ne correspondent pas aux règles précises et exclusives des formats utilisés. Parce que si ces entorses aux règles des formats ne sont pas forcément gênantes pour la lecture des fichiers actuellement, qu’en sera-t-il dans cinquante ou dans cent ans ? Sachant qu’il est absolument nécessaire de penser les archives sur une échelle de temps longue !

Enfin, l’outil Docuteam Packer, développé par Docuteam en Suisse, offre la possibilité de faire la capture de ces fichiers ainsi que de décrire le vrac. Il faut se le représenter comme une salle de tri virtuelle, où les métadonnées techniques sont visibles, accompagnée d’une visionneuse du document (pour certains formats), et d’un bordereau de versement numérique qui apparaîtra dans l’export XML final.

Baptiste Nichèle lors de l'atelier Mécano
Baptiste Nichèle lors de l’atelier Mécano

Merci à T. Bernard et B. Nichèle pour cette palette d’outils réellement efficaces dans le traitement d’un vrac numérique ! Cet atelier Mécano a connu un tel succès qu’il se murmure qu’une deuxième session serait peut-être prévue demain…

 

Charlotte, pour les meta/reporters

Une réflexion au sujet de « Une boîte à outils pour les vracs numériques »

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *