Archivage numérique

Intro :

La reconnaissance de l’écrit électronique comme preuve en 2000 a ouvert la voie à “l’administration électronique” et à la dématérialisation des processus métier. Au cours de cette transformation, la mise en place d’un processus d’archivage numérique est un levier pour un meilleur pilotage des politiques liées aux données publiques, à leur diffusion (ouverture) et à leur conservation (sécurité).

Il s’inscrit dans une gestion “efficiente” du cycle de vie de l’information en vue d’identifier dès l’amont les durées de conservation des données et documents et leur destination finale (élimination avec visa ou versement à titre patrimonial dans un service public d’archives). Il renvoie également à la « gouvernance des données numériques » qu’on appelle aussi « gouvernance du management de l’information ».

En effet, les systèmes d’information produisent des données pouvant avoir une forte valeur juridique, stratégique et/ou patrimoniale qui sont souvent la seule trace de l’activité de l’administration. Leur perte constituerait à la fois un risque juridique et un risque majeur pour la continuité des activités. Il s’agit de données sensibles dont la perte irréversible, la diffusion inappropriée, pourraient porter atteinte aux droits des citoyens ou -dans certains cas - à la sûreté de l’État. La spécificité de la production numérique implique un travail, en amont, dont le but est de garantir la qualité des données en collaboration avec les services qui les produisent et les DSI. La gouvernance des systèmes devrait, donc, être indissociable de la gouvernance des données numériques.

En ce sens, l’archivage électronique est un processus dynamique qui commence dès la création des documents. Il se décline en un ensemble de procédures qui visent à garantir une bonne gestion du cycle de vie de l’information, sa conservation durant les délais requis et sa communication à l’administration et aux citoyens. Il permet, ainsi, d’éviter l’altération (modification intentionnelle ou non-intentionnelle) et la perte des données en préservant leur intégrité (lisibilité, exploitabilité).

Ces procédures reposent sur l’utilisation, par le producteur des données, de référentiels (référentiel de conservation, référentiels de description, règles d’écriture et de présentation des documents) qui doivent être mis en usage en amont de la production des documents. Ces éléments structurants pour la qualité des données sont également communs aux données des SI dites données «structurées» et aux données bureautiques «non structurées».

La gouvernance des données numériques

Celle-ci recouvre à la fois :

  • La production de données fiables et authentiques. La qualité des données produites est un enjeu majeur pour garantir leur valeur et leur exploitabilité à moyen et à long terme (y compris à des fins de preuve).
  • La définition de la responsabilité des données tout au long de leur cycle de vie :
    • A qui appartiennent les données?
    • Qui est le garant de leur authenticité ?
    • Qui est le garant de leur conservation ?
    • Qui est responsable de préserver leur intégrité dans le temps ?
    • Qui est responsable de leur confidentialité ?

Il convient de définir la répartition des rôles entre maîtrise d’ouvrage et producteurs des données, maîtrise d’oeuvre (services des systèmes d’information) et services d’archives.

  • L’identification, parmi la masse des données produites, de celles à forte valeur juridique, stratégique et/ou patrimoniale et dont la durée de conservation peut être très longue.
  • La définition d’une politique d’accès à l’information conforme aux dispositions prévues par la législation en vigueur.
  • La destruction de façon contrôlée des données devenues inutiles afin de réduire les coûts de stockage et de garantir le retrait de service des applications qui ne sont plus utilisées.
  • Un stockage et une sauvegarde des données importantes dans un environnement sécurisé avec des moyens adéquats.

Ces différentes actions requièrent autour des services informatiques et des MOA de nombreuses expertises dont celle au premier chef de l’archiviste mais, également, d’autres experts comme les juristes et les qualiticiens, les contrôleurs de gestion, les ergonomes, les auditeurs internes ….

Le cadre législatif et réglementaire de l’administration électronique

L’administration électronique repose sur le cadre juridique de l’administration de la preuve, les questions liées à l’authenticité et à la signature électronique, les relations entre la signature électronique et l’archivage sécurisé (code civil), ainsi que la protection des données à caractère personnel et des données de santé (loi CNIL, code de la santé publique). Les référentiels généraux (accessibilité, sécurité, interopérabilité) déterminent le socle de confiance numérique. La question de la valeur de la copie d’un document papier qui a été numérisé est fréquemment posée.

Les Archives de France ont, sur ce sujet, rédigé l’instruction DITN/DPACI/RES/2005/001 du 14 janvier 2005, intitulée Modalités de délivrance du visa d’élimination des documents papiers transférés sur support numérique ou micrographique.

Ces éliminations des originaux papier ne peuvent se faire en tout état de cause que :

  • sur des documents à terme éliminables ;
  • avec le visa réglementaire de l’administration des archives ;
  • si le processus de numérisation a été conduit dans les règles de l’art (voir ci-dessous la fiche pratique sur les projets de numérisation et de GED).

La prise en compte de la gestion des données dans le temps : le cycle de vie de l’information

Lors du lancement de tout projet de système d’information, la gestion du cycle de vie des données et leur archivage nécessite une analyse de différentes questions. La définition du cycle de vie de l’information est fondée sur une analyse des processus de travail qui prend en compte la réglementation adéquate en fonction du type d’information produite (comptabilité, gestion du personnel, marchés publics, état civil…) et des besoins de l’administration. Cette pratique de gestion de l’information permet d’identifier de façon efficace les documents, traces de l’action administrative, qu’il convient de préserver et ceux qui peuvent être éliminés. Elle contribue à définir également les durées de conservation (combien de temps les documents seront-ils nécessaires) ? À partir de quel moment peut-on les détruire ?) et les règles de communicabilité (quel est le délai pour rendre une information librement accessible à tous ?). Les archivistes utilisent pour ce faire plusieurs outils, dont les tableaux de gestion, les référentiels de conservation…

Cette démarche sera facilitée pour les services engagés dans une démarche qualité.

Les durées de conservation

Il convient également de définir la durée pendant laquelle les documents et données doivent être conservés dans le système d’information. Plusieurs durées peuvent être appliquées au sein d’un même système.

Le management du cycle de vie de l’information est également appelé records management (et gestion des documents d’activités avec la série des normes ISO 30300) .

Doivent être pris en compte :

  • les prescriptions légales des actions prévues par la réglementation ;
  • les durées de conservation prévues pour les données personnelles ;
  • les besoins de la maîtrise d’ouvrage.

L’expertise portera sur les conséquences liées aux durées de conservation en termes de volumétrie et de performance du SI. Maîtrise d’ouvrage, services juridiques et services d’archives concourront à la définition de ces durées de conservation.

Dans le code du patrimoine, on définit trois durées de conservation différentes :

  • la durée d’utilité courante
  • la durée d’utilité administrative (DUA)
  • la conservation définitive.

Le cycle de vie de l’information débute par l’analyse des processus métier, leur modélisation et l’établissement de règles de production et de gestion documentaire. La durée d’utilité courante correspond au laps de temps pendant lequel une information sera nécessaire à la gestion des dossiers actifs : par exemple, pour un dossier de personnel, elle couvre le temps d’activité professionnelle de l’agent. La durée d’utilité administrative (DUA) définit la période pendant laquelle l’administration peut avoir recours à des informations pour des besoins juridiques même si elles ne sont plus utilisées dans le quotidien. On parle souvent de dossiers « semi-actifs » pour identifier ces informations. Une fois la DUA écoulée, l’information, quel que soit son support, peut être détruite ou versée pour conservation définitive selon les règles définies dans le respect de la législation en vigueur : par exemple pour un dossier de personnel, après la cessation de son activité professionnelle, elle est de 80 ans à compter de la date de naissance de l’agent.

Une fois les durées d’utilité administrative expirées, les informations peuvent être conservées en raison de leur valeur patrimoniale (historique, statistique, scientifique). Les archives dites définitives sont alors prises en charge en responsabilité par une institution publique d’archives (Archives nationales, Archives départementales, service d’archives du ministère des Affaires étrangères ou du ministère de la Défense).

De la « gestion électronique de documents » (GED) au SAE : des briques fonctionnelles qui se cumulent

Les outils de GED (pour l’ensemble des données et documents quelle que soit leur valeur) recouvrent :

  • des fonctions de capture et de contrôle des données et des documents ;
  • des plans de classement ;
  • la gestion des versions ;
  • la gestion et la recherche documentaires ;
  • la numérisation des documents papier avec capture automatique des métadonnées ;
  • la compatibilité avec les modules de circulation et de signature électronique.

Les outils de « records management » (RM) (pour les documents figés essentiels à valeur de preuve) comportent en plus :

  • l’intégration du cycle de vie des données et documents capturés et gérés ;
  • la gestion de données et des documents figés (qu’on ne peut plus modifier) ;
  • des fonctions liées à l’intégrité et à la traçabilité (voir les fonctions d’un coffre-fort numérique).

Le SAE comporte l’ensemble de ces briques auxquelles il convient de rajouter celles relatives à la pérennisation des données et des documents : outils d’identification et de validation des formats, outils de conversion des formats, gestion fine des métadonnées techniques sur les formats, plans de migrations des formats et supports… Le SAE est indispensable dès lors que les données de conservation dépassent 10 ans. Un service d’archives définitives mettra forcément en place un SAE.

Pour chacun de ces outils, des infrastructures de stockage devront être associées (suivant le niveau de sécurité, utilisation de supports non modifiables de type WORM).

L’ensemble est à ne pas confondre avec les procédures de sauvegarde qui ne sont qu’une opération technique destinée à assurer la continuité de l’exploitation d’un système informatique en cas d’incident.

Les rôles et les responsabilités pour la gestion des données dans le temps Les durées de conservation permettent de définir les rôles et les responsabilités en matière de gestion et de conservation des données :

L’autorité juridique (responsable du contenu des données) jusqu’à la fin de la DUA est le producteur des données. A la fin de la DUA, le rôle de l’autorité juridique est endossé par les services d’archives définitives conformément au Code du patrimoine.

L’autorité d’archivage (responsable de la conservation et par là-même du service d’archivage électronique) pendant la DUA. Suivant les contextes, les durées de conservation, la nature des données, la stratégie d’archivage mise en oeuvre, elle peut être exercée par différents acteurs :

  • le producteur des données,
  • un service public d’archives s’il est responsable de la conservation pendant la DUA.

A l’expiration de la DUA, les services d’archives publics deviennent l’autorité d’archivage quelque soit le cas de figure pour la conservation pendant la DUA.

L’opérateur d’archivage est celui qui est responsable du système d’archivage électronique. Il s’agit de la DSI ou du tiers archiveur.

L’archivage électronique: une des modalités d’action pour une rationalisation du SI

La législation sur les archives a été établie pour s’assurer que l’État conserve l’information dont il aura besoin, pour rendre des comptes sur son activité et préserver les intérêts du citoyen. En ce sens, elle contribue à la gouvernance d’un État démocratique.

Le cadre législatif et réglementaire des archives

L’état a construit un cadre législatif pour les archives papier qui demeure pertinent pour la gestion du cycle de vie des données numériques même si des adaptations sont nécessaires afin de mieux prendre en compte la spécificité des SI.

Les données et documents numériques produits par l’administration, ont le statut d’ « archives publiques » dès leur création, et à ce titre elles doivent être gérées conformément au cadre juridique et réglementaire.

Les services publics d’archives sont le service interministériel des archives de France (SIAF) et les missions des archives implantées au sein de la plupart des départements ministériels, les directions des archives relevant des ministères des Affaires étrangères et de la Défense, ainsi que les services opérationnels comme les Archives nationales ou les Archives départementales. Ils exercent un contrôle scientifique et technique sur les archives qui sont conservées au sein des administrations.

L’intégration de l’archivage dans un système d’information et la détermination d’une stratégie d’archivage

Concernant l’ensemble du système d’information de l’organisation Il conviendra:

  • d’obtenir de la direction un soutien clair (sponsor) pour la mise en place d’une politique globale d’archivage englobant tant la production traditionnelle que la production numérique (applications métier, documents bureautiques, courriels). Ce soutien fort doit se manifester notamment :

    • par une lettre de mission annonçant la mise en place de cette politique, diffusée à toute l’organisation ;
    • par la désignation d’un responsable de la politique en matière de qualité de l’information au sein de l’organisation ;
    • par des moyens humains et financiers clairement définis ;
    • par la mise en oeuvre de plans de formation adaptés pour les agents de l’organisation.
  • d’élaborer cette politique d’archivage globale pour l’organisation. On peut envisager de décliner des politiques d’archivage spécifiques à des typologies documentaires et à des familles d’applications.

A l’Institut national de la propriété industrielle (INPI), un groupe de travail Archelec a été constitué, qui a été piloté par le pôle archives et le service informatique, constitué de représentants de la direction juridique, des directions métier, du secrétariat général, de l’informatique, du pôle archives, afin de rédiger collectivement cette politique d’archivage.

  • de faire intégrer dès que cela est possible dans le schéma directeur informatique de son organisation ou de son entité, le bloc fonctionnel “gestion du cycle de vie de l’information et archivage”
  • de conduire des opérations de communication régulières vis à vis des agents de l’organisme qui seront des utilisateurs, des dirigeants.

Deux grands modes d’actions sont possibles :

  • commencer la mise en conformité du système d’information existant, en s’appuyant sur les cartographies pour la partie applicative ;
  • intégrer l’expertise sur la gestion du cycle de vie des données dans les nouveaux projets dès leur conception et les projets de refonte du système d’information dans son ensemble et/ou de certaines applications.

Par ailleurs, des points de vigilance particuliers seront apportés d’une part à la reprise des données existantes et d’autre part aux modalités de saisie et d’hébergement des données. S’agissant de la reprise des documents et dossiers papier, il conviendra de définir les modalités de dématérialisation de ces documents et le sort qu’il convient d’attribuer aux originaux sous format papier, notamment en cas de dématérialisation intégrale.

S’agissant des données et documents électroniques, il conviendra de s’attacher tout particulièrement aux données qui ne pourront ou n’auront pas intérêt à être reprises dans le nouveau système. S’il s’agit de documents originaux et si aucune règle n’existe quant à la gestion de leur cycle de vie, leur sort final (purge, export pour archivage définitif dans un service d’archives public) devra faire l’objet d’un examen conjoint par la maîtrise d’ouvrage et le service d’archives. Dans tous les cas, toute destruction de documents ou données sera soumise à l’accord de l’administration des archives. Concernant les modalités de saisie et d’hébergement des données, le recours à des solutions de Saas ou de cloud computing feront l’objet d’une attention toute particulière. Les clauses du contrat devront ainsi faire l’objet d’un examen conjoint entre maîtrise d’ouvrage, maîtrise d’oeuvre, service juridique et service d’archives, pour s’assurer que l’administration conserve la maîtrise des données traitées par le système. La réversibilité des données ainsi que la purge de l’ensemble des systèmes du prestataire (copies et sauvegardes comprises) devront être prévues.

Concernant les applications métier existantes les différentes étapes seront les suivantes :

  • identifier les zones fonctionnelles prioritaires (SI traitant des données à forte valeur juridique et/ou patrimoniale) en s’appuyant si possible sur les cartographies existantes, et affiner ensuite l’état des lieux par un audit des principaux SI sélectionnés,
  • définir pour ces SI priorisés la stratégie d’archivage la plus adaptée (cahier des charges, méthodologie). Il s’agit :
    • soit de permettre l’archivage des données tout au long de leur cycle de vie durant leur durée de conservation au sein de l’application métier (la fin du processus étant l’élimination réglementaire des données avec le visa de l’administration des archives) ;
    • soit d’organiser, dès leur validation ou durant le cours de leur durée d’utilité administrative, leur versement vers un SAE. Dans ce second cas, l’archivage électronique sera :
      • soit géré par l’administration productrice dans son SAE ;
      • soit pris en charge au sein d’un SAE mutualisé avec d’autres services, d’autres administrations, voire dans le SAE géré par le service public d’archives pour ses archives définitives ;
      • soit géré en mode externalisé par un tiers archiveur agréé. Dans tous les cas, la fin du processus sera soit l’élimination des données, soit leur conservation à titre définitif.

Par ailleurs, il faudra privilégier :

  • des formats d’encodage des données ouverts, reposant sur des spécifications techniques accessibles gratuitement et, dans l’idéal, reposant sur des normes
  • le respect du format d’échange de données pour l’archivage (le SEDA) ;
  • et concernant les données extraites de bases de données, le format d’archivage des bases des données SIARD (Software Independent Archiving of Relational Databases).

Enfin, il est possible de se reporter aux quelques exemples de choix pouvant être effectués proposées dans la fiche annexe « Mise en place d’une stratégie d’archivage dans le système d’information d’une organisation » afin de choisir la meilleure stratégie.

Une fois le scénario d’archivage choisi, il conviendra de le réaliser en faisant évoluer l’application métier existante (intégration des fonctionnalités liées au cycle de vie de l’information et aux exports) avec la possibilité de mettre en oeuvre un SAE (voir la partie 3.4).

Pour l’ensemble de ces étapes (cartographie, définition d’une stratégie, définition des spécifications et les spécifications Ica-Req (module 3) – voir fiche normes généralistes- peuvent utilement être utilisées pour auditer un SI.

De même, une grille outils a été définie dans le cadre de la méthode Astaré (voir fiche Mise en place d’une stratégie d’archivage dans le système d’information d’une organisation) SI).

Les acteurs principaux seront :

  • l’urbaniste en charge du SI au sein de l’organisation avec l’expertise de l’archiviste pour la cartographie du SI,
  • l’archiviste et le service métier pour la définition des spécifications archivistiques (durées de conservation, sort final des données et documents, modèles de description (bordereaux de versement et d’élimination)
  • tandis que la mise en oeuvre (développement des fonctionnalités, interfaces, workflow.) relèvera plutôt des équipes de la DSI : services projets, services réseau et exploitation…

On s’appuiera également sur les expertises existantes au sein de l’organisation en matière de sécurité des systèmes d’information ainsi que sur celles afférentes par exemple à la protection des données personnelles.

Pour ce qui est de l’évolution de l’applicatif métier, il convient concrètement d’intégrer un workflow « archives » dans l’applicatif métier afin que l’utilisateur puisse afficher, selon une périodicité à déterminer, l’ensemble des données/documents arrivés au terme de leur DUA et de choisir alors, suivant les cas :

  • l’élimination de ces données/documents avec édition d’un bordereau ‘élimination au format SEDA et le recueil du consentement du service producteur et du service public d’archives à cette élimination.
  • le versement des données/documents dans un SAE externe avec édition d’un bordereau de versement au format du SEDA et le workflow amenant à éliminer les données/documents de l’applicatif métier une fois le versement accepté par le SAE (message d’acceptation).

A titre d’exemples :

Pour la mise en place simple d’un export au format du SEDA à partir d’une application métier du ministère de la Culture et de la communication, l’ensemble de processus (spécifications, développements, recette) est évalué à 15 à 20 jours, soit une fourchette entre près de 7500 à 10 000 euros.

Concernant les coûts de mise en oeuvre d’une filière archives pour la Cour des comptes et les chambres régionales de compte (recours à un tiers archiveur : le CINES), auquel il faut ajouter l’implémentation du SEDA pour le SAE du CINES, les coûts estimés sont les suivants :

  • du côté de la Cour des comptes (côté producteur) (2 à 3 applications métier impactés), le coût est estimé en investissement initial (développement des interfaces) à 100 000 euros, avec un coût annuel des prestations pour la première année de 6000 euros auxquels il convient d’ajouter des coûts de réseau estimés à 70 000 euros la première année et 40 000 la seconde. Enfin un personnel qualifié sur le projet archivage électronique a été recruté par la Cour pour une durée limitée à deux ans.

Dans le cadre d’un autre projet, il a été calculé que les développements réalisés pour le premier fonds à connecter (côté producteur), seront en partie ré-exploitables pour les suivants.

  • du côté du CINES (côté SAE), le CINES estime le temps passé en interne d’une part à 50 à 60 jours d’analyse technique et de rédaction des spécifications, et d’autre part à 60 à 80 jours pour le développement et l’intégration de la transaction de transfert. La prestation a été réalisée par deux prestataires de service à raison de 110 à 140 jours/homme. Une fois cette implémentation réalisée côté SAE, elle est réalisée définitivement et aucun coût supplémentaire n’est a priori à prévoir pour un nouvelle typologie à intégrer dans le SAE.

En outre, l’implémentation d’une filière métier spécifique (par exemple ici celle de la Cour des Compte) s’élève à 1 mois/homme (compréhension du projet, mise au point des profils d’archivage, relecture de paquets de test, étude des formats de fichier, mise en place des connexions, réunion de suivi de projet, etc). On retrouverait d’ailleurs cette charge pour toute nouvelle intégration dans un SAE d’une filière métier qu’elle soit ou non au format SEDA.

Il aurait été, en cas de développement interne d’un SAE pour la Cour, de 540 000 euros en investissement initial (dont 55 000 euros d’AMOA, 150 000 euros de matériels, 245 000 euros de prestations intégrateur, 60 000 euros de développement des interfaces avec les applications métier) auxquels il convient de rajouter 750 jours/homme en ressources internes (archives, DSI, métiers) et un coût de maintenance annuel la première année de 18 000 euros.

De son côté, le conseil général de l’Aube estime à 110 jours/homme (en interne) la création du programme pour générer depuis la plate forme de dématérialisation les paquets d’archives au format du SEDA ainsi que les workflow pour les échanges avec le SAE Marine.

Concernant les nouveaux projets

L’expertise archives intervient sur l’ensemble des étapes du projet, depuis l’étude d’opportunité et de faisabilité (en effectuant un diagnostic éclair basé sur un petit nombre de questions essentielles), jusqu’au déploiement du SI.

Une attention particulière sera portée à la reprise des données. L’expertise archives intervient également après cette mise en production ainsi que pour la fin de vie de l’application.

Les conditions de l’interopérabilité et de la préservation sur le long terme : le respect du cadre normatif (les normes généralistes, les normes spécialisées, le SEDA, les normes dans le référentiel général d’interopérabilité)

Accompagner les services dans la gestion de leurs fichiers bureautiques et la gestion de leurs serveurs partagés La production bureautique est par défaut très souvent non structurée. Afin d’envisager son archivage, il convient de maîtriser au mieux sa production.

Pour ce faire, trois axes de travail sont à privilégier :

  1. La mise en place d’un plan de classement dans une optique de travail collaboratif et dont la démarche soit positionnée au plus haut niveau : il s’agit en effet de produire les entrées au moins de premier niveau, définir les principes en lien avec les processus métier, les règles d’écriture pour la terminologie à adopter, les sources à utiliser, la cohérence avec les multiples listes de mots-clés utilisés …. Le plan de classement doit par ailleurs viser à moyen terme une cohérence pour tous les espaces (stockage et publication), serveurs partagés et sites intranet. On pourra ainsi viser l’organisation d’une arborescence simple (à trois niveaux) dossiers/sous-dossiers au sein d’une entité en se basant sur les fonctions et activités de l’organisation. Il convient par ailleurs de bien gérer les partages ainsi que les droits d’accès. Le plan de classement est défini par l’administrateur et reste figé.

Plan de classement

Qu’est-ce qu’un bon plan de classement ?

  • une hiérarchie de répertoires et de dossiers allant du général au particulier;
  • une organisation thématique (aux niveaux supérieurs puis chronologique, numérique ou alphabétique (aux niveaux inférieurs) qui reflète les fonctions de l’entité et non son organigramme. Un plan de classement doit viser à une certaine pérennité;
  • englobe tous les documents de l’unité de travail (direction, sous-direction, service, bureau, agent);
  • des intitulés de répertoires, de fichiers et de dossiers intelligibles par tous. Le travail sur la formulation est très important, car les termes choisis doivent être explicites. Il est possible d’aller jusqu’à la codification;
  • on ne doit y trouver aucun dossier de type « divers » ou « affaires générales » ou « à classer »;
  • composé de trois à quatre niveaux hiérarchiques de répertoires et de dossiers, dont les trois premiers sont fixes et verrouillés et le dernier modifiable par les agents.
  • dans l’idéal, le plan de classement permet également à l’archiviste de repérer immédiatement les « branches » à archiver / éliminer.
  1. La mise en place de règles de nommage des dossiers et des fichiers : le nommage est le corollaire du plan de classement et répond aux mêmes besoins : un critère de traçabilité et un critère d’identification. L’intérêt du nommage est d’associer au fichier, dès sa création, un certain nombre de métadonnées.
  2. La mise en place de modèles de documents : au-delà du nommage des fichiers, on peut aller jusqu’à la rédaction de modèles de documents (cadres pour les comptes-rendus et notes, lettres types, etc.) à employer par l’organisme concerné.

Accompagner les services dans l’archivage des courriels

La complexité de l’archivage des courriels ne provient pas de la structure même du courriel (généralement en-tête, corps et pièces jointes). Elle ne provient pas non plus d’un accès concurrentiel (sauf sur certaines boîtes aux lettres ([BAL] fonctionnelles partagées). En revanche, ce qui rend difficile la collecte des courriels provient des éléments suivants :

  • côté multiple et multifonctionnel de la messagerie (avec des usages parfois « déviants » car non régulés) ; différenciation complexe entre courriels professionnels et privés ;
  • difficultés techniques de la capture ; question des pièces jointes zippées, des pièces jointes encapsulées dans des pièces jointes…, question des doublons (même si des outils de dédoublonnage existent) ;
  • pression de la masse et difficulté de la sélection (qui devrait se faire par des moyens simples et adaptés aux besoins de l’utilisateur mais qui n’existent pas aujourd’hui).

Plusieurs approches existent :

  • approche message par message ;
  • approche compte de messagerie par compte de messagerie ;
  • approche système de messagerie global.

La mise en oeuvre de l’archivage des courriels passe avant tout par la sélection des messages à archiver (courriels professionnels à caractère officiel, principalement). Il convient, ensuite, d’appliquer la solution technique qui permet de réaliser l’export des messages dans un format pérenne, tout en veillant à bien conserver l’ensemble des métadonnées et à bien préserver les liens entre les messages et les pièces jointes.

A l’inverse, il n’est pas recommandé de sauvegarder les messages et pièces jointes à l’intérieur du logiciel de messagerie. En définitive, sans politique globale et outils de records management incluant la gestion des courriels, aucune approche n’est satisfaisante. Cette politique conditionne la recherche de moyens humains et techniques adéquats aux ambitions affichées.

Intégrer la gestion du cycle de vie dans un projet de numérisation

Il s’agit ici de présenter les étapes d’un projet de numérisation de documents papier en vue de leur archivage sous format électronique, avant intégration dans une gestion électronique de documents (GED), gestion électronique de courriers (GEC) ou un SI métier.

Pour ce faire, il convient tout d’abord de définir le projet de numérisation, c’est-à-dire son périmètre, le choix des dossiers et des pièces des dossiers. Il convient, ensuite, de distinguer ce qui relève de la numérisation du flux de documents postérieurement à la mise en place du projet de numérisation, par opposition à la numérisation des documents en stock. Il est nécessaire de s’affranchir de la numérisation des documents dont la DUA est dépassée.

Les différentes étapes du projet sont :

  • déterminer la valeur juridique des documents,
  • déterminer la classification/sensibilité des documents,
  • déterminer les durées d’utilité administrative des dossiers et des pièces,
  • déterminer le sort final des dossiers et des pièces,
  • établir le plan de classement des pièces constitutives du dossier et la liste des métadonnées,
  • conduire et organiser les opérations de numérisation.

La mise en place d’un SAE

Principales caractéristiques d’un SAE

Le modèle OAIS

La norme OAIS a pour objectif de définir les responsabilités et les différentes fonctions de l’ensemble des acteurs impliqués dans le processus d’archivage électronique, et en premier lieu l’Archive, entendue ici au sens de service d’archives, dont la responsabilité est de pérenniser l’information qu’elle reçoit, c’est-à-dire de la conserver et de la rendre accessible et compréhensible sur le long terme.

Les six responsabilités minimales d’une Archive OAIS sont les suivantes :

  • négocier avec les Producteurs d’information pour s’assurer que les Contenus d’information et Informations de pérennisation (PDI) associés qu’elle va recevoir correspondent bien à sa mission et aux besoins de la Communauté d’utilisateurs cible ;
  • acquérir une maîtrise suffisante de l’information fournie, au niveau requis pour pouvoir en garantir la Pérennisation ;
  • extraire - ou obtenir par d’autres moyens – une Information de description suffisante pour que la Communauté d’utilisateurs cible puisse trouver le Contenu d’information qui l’intéresse ;
  • déterminer quelles communautés doivent constituer la Communauté d’utilisateurs cible en mesure de comprendre l’information fournie et assurer que l’information à conserver est compréhensible pour cette communauté (c’est-à-dire, sans l’assistance des experts ayant produit ces informations) ;
  • appliquer une stratégie et des procédures documentées garantissant la conservation de l’information contre tout imprévu dans les limites du raisonnable, et permettant la diffusion d’une information, copie authentifiée de l’original ou permettant de remonter à l’original ;
  • rendre l’information conservée disponible pour la Communauté d’utilisateurs cible.

Le modèle OAIS repose sur l’idée que l’information constitue des paquets et que ces paquets ne sont pas les mêmes suivant qu’on est en train de produire l’information, d’essayer de la conserver ou de la communiquer à un utilisateur. On a donc trois sortes de paquets :

  • les objets numériques sur lesquels travaillent les Producteurs avant archivage sont les SIP (Submission Information Package ou Paquets d’information à verser) ;
  • une fois archivés, les SIP deviennent des AIP (Archival Information Package ou Paquets d’informations à archiver), objets internes à l’Archive ;
  • les objets numériques mis à disposition des Utilisateurs sont les DIP (Dissemination Information Package ou Paquets d’informations à diffuser), transformés par l’Archive à partir des AIP dans une forme plus facile à communiquer notamment sur le réseau.
les paquets d’information

Le paquet d’information à archivé (AIP) est décrit par une description du contenu du paquet et est délimité par une information d’empaquetage qui le délimite. Il contient un contenu d’information qui est décrit plus précisément par des informations visant à sa pérennisation (information d’identification, de provenance, de contexte et d’intérité). l’Objet Information est composé d’un objet données (physique ou numérique) et de l’information dereprésentation qui permettent d’interpréter les données sous la forme d’une information compréhensible.

Ce contenu est formé par un objet données qui est interprétable au moyen d’informations de représentation qui permettent de comprendre sa structure et sa sémantique, c’est-à-dire son format, sa structure, sa signification… nécessaire à la compréhension de cet objet par la Communauté d’utilisateurs cible. Par exemple, les spécifications du format PDF sont une information de représentation nécessaire pour pouvoir lire correctement un document de ce format. Chaque information de représentation peut elle-même être représentée par d’autres informations de représentation de manière récursive.

Elle contient notamment :

  • des informations de structure, types de données courants en informatique, comme des caractères, des nombres, des pixels, des tableaux
  • des informations sémantiques : informations complémentaires associées aux éléments de structure, telles que la langue dans laquelle l’objet est exprimé, les opérations réalisables sur chaque type de données et leurs relations, etc.
  • d’autres informations comme des identifiants d’autres standards comme la référence à la norme ASCII ou au format de fichier utilisé.
  • des informations de provenance qui décrivent l’origine du contenu d’information, qui en a la charge, et quel est l’historique de ses modifications
  • des information de contexte qui décrivent comment le contenu d’information s’articule avec d’autres informations à l’extérieur du paquet
  • des informations d’identification qui fournissent un ou plusieurs identifiants ou systèmes d’identification
  • des informations de droits d’accès(Access Rights Information) : informations qui identifient les restrictions d’accès portant sur l’Information de contenu
  • des informations d’intégrité qui protègent le contenu d’information contre les altérations non documentées

Ces informations de représentation sont nécessaires pour pouvoir restituer les informations versées par le producteur à l’utilisateur. La Communauté cible comme sa Base de connaissances sont susceptibles d’évoluer dans le temps, et nécessitent dans ce cas que l’Archive anticipe la multiplicité et l’hétérogénéité des Utilisateurs dans le temps. C’est par exemple ce travail qui doit être effectué si une base de données autrefois utilisée au quotidien par une administration devient une source historique pour des généalogistes. La structure de la base, son but, certaines abréviations ou termes techniques utilisés dans le différents champs doivent être explicités pour s’adapter à des Utilisateurs peu familiers du fonctionnement de l’administration productrice.

L’objet donnée est lui -même composé d’objets physique ou numérique car cette empaquetage d’information peut aussi bien s’appliquer aux objets matériels qu’immatériels.

ex : un dossier de consultation d’entreprise dans le cadre d’une procédure de marchés pubics. Il dispose d’un titre et d’une description précisant l’objet de la consultation. L’ensemble des fichiers ou données composant ce dossier sont assemblées au sein d’une archive zipée disposant d’un nom et d’une extension. Le contenu d’information est décrit par les métadonnées précisant l’entité qui l’a produit, le numéro d’identification que celle-ci lui a attribué, le lien qui relie ce dossier avec la fonction exercée par l’entité administrative qui l’a réalisée et une somme de contrôle permettant de vérifier l’intégrité du contenu des fichiers contenu dans le dossier zippé. Au sein de l’objet donnée on trouve plusieurs objets numériques classés au sein de différents dossiers dans une hiérarchie normalisée. Des métadonnées produites au moyen de notices d’autorité accompagnent ces fichiers et explicitent les caractéristiques relatives au producteur, à la thématique du dossier de consultation, à la période temporelle, aux étapes de réalisation et au circuit de validation. Des informations sématiques font référence aux formats des fichiers utilisés pour encapsuler les informations contenues dans les documents permettant de connaître les caractéristiques de structuration des données. Des certificats de signature électronique permettent de conserver la valeur probante du circuit de validation associé à ce dossier et des traces liées aux modifications opérées sur le contenu des documents assurent la tracabilité du cycle de vie de l’objet donnée.

Présentation fonctionnelle basée sur le modèle OAIS

Un SAE est avant tout un ensemble de briques modulaires permettant de répondre à l’ensemble des fonctionnalités d’archivage qu’on trouve modélisées dans le modèle OAIS (Open Archival Information System ou norme ISO 14721:2003). Il conviendra, par conséquent, de prévoir les interfaces entre ces différentes briques ainsi qu’avec les systèmes d’information en relation avec le SAE (exemple de réutilisation d’une GED existante).

Ainsi, un outil de records management ou un SAE peuvent être davantage orientés sécurisation des données/documents à valeur probatoire ou pérennisation à très long terme des données/documents. Dans le premier cas, une attention particulière sera portée aux fonctionnalités liées à l’intégrité, à l’authentification des accès, ou par exemple à la confidentialité des données. Dans le second cas, les fonctionnalités relatives à la pérennisation de l’information (voir plus bas) seront davantage développées. Dans tous les cas, les fonctionnalités liées à la traçabilité seront essentielles. Attention à ne pas confondre le SAE avec l’offre de coffres-forts électroniques. Ces derniers visent à sécuriser les données et documents à valeur de preuve. Un coffre-fort électronique est un « composant d’un système d’information constitué d’un logiciel ou d’une combinaison logiciel/matériel qui permet de préserver l’intégrité d’objets numériques dans le temps »6. Les SAE peuvent ainsi piloter un tel composant. La pérennisation de l’information numérique est spécifique à l’archivage électronique et concerne autant la veille technologique notamment vis-à-vis des formats et des supports que la mise en oeuvre des plans de migration de formats ou de supports.

Architecture technique d’un SAE

La particularité d’un SAE est d’assurer la conservation des données avant même les questions de disponibilité. On sécurisera les données, au-delà de la redondance « classique » des systèmes et des installations, en doublant les copies (duplication, réplication synchrone ou asynchrone) sur des sites distants, en choisissant des supports de stockage de natures différentes, en disposant éventuellement d’un serveur applicatif de secours. D’une manière générale, les évolutions de la plate-forme de stockage (choix de supports et de gestion de l’ensemble de leurs migrations) doivent être sans conséquence sur l’organisation logique de l’archivage. A l’heure actuelle, les volumétries les plus importantes sont atteintes non par les fichiers textes mais bien par les fichiers images haute définition, les documents multi-média, les plans vectoriels… A l’inverse le très grand nombre de fichiers unitaires peut également poser de grosses difficultés de performances. Parmi ces briques, les plus spécifiques (nécessitant de forts investissements humains) à un SAE sont les briques “versement” et “pérennisation de l’information” (si nécessaire), ainsi que l’architecture technique du SAE (duplication des données).

Définition de la norme AFNOR Z 42-020 : « Spécifications fonctionnelles d’un composant Coffre-fort Numérique destiné à la conservation d’informations numériques dans des conditions de nature à en garantir leur intégrité dans le temps », 2012.

Il est particulièrement délicat d’estimer le coût d’un SAE car il dépend de l’existant et des équipements déjà en place. Plusieurs services ont toutefois calculé que le coût de stockage d’un To de données par an s’élevait entre 5000 et 8000 euros. Le temps de mise en place d’un SAE est évidemment très variable suivant les environnements et le degré de maturité des acteurs, la décision d’inclure ou non une assistance à maîtrise d’ouvrage. Il sera au minimum de 18 mois et peut s’étaler sur une durée de deux à trois années.

Présentation théorique d’un système d’archivage électronique (SAE)

Le cadre normatif

Un important travail de normalisation a été entrepris au niveau national et international par les organismes de normalisation comme l’AFNOR7 et l’ISO8 et par des acteurs publics comme le SIAF9 et privés comme le Conseil International des Archives.

Les bénéfices attendus de cette normalisation sont les suivants :

  • réduire à moyen terme les coûts en permettant de se dégager d’offres propriétaires (interfaces spécifiques à développer à chaque évolution, formats interdisant les migrations),
  • développer les échanges entre systèmes dans un environnement de plus en plus ouvert,
  • réutiliser des briques logicielles.

Il y a deux grandes familles de normes :

  • La première recouvre le périmètre du records management (analyse des processus de travail, gestion du cycle de vie des données). On trouve à la fois des normes conceptuelles et des normes11 dédiées à la mise en oeuvre de bonnes pratiques dont la norme ISO 15489 est la norme fondatrice.
  • La deuxième famille des normes concerne la mise en place de systèmes pour la conservation pérenne de l’information numérique. La norme fondatrice est dans ce cas la norme OAIS tandis que les spécifications techniques d’un SAE sont contenues dans la norme Z 42-013. Par ailleurs des normes spécifiques adaptées aux contextes et besoins des organisations existent, relatives aux formats de métadonnées, formats d’encodage des fichiers, formats des supports (stockage).

L’interopérabilité entre les systèmes d’information et les SAE nécessitent l’adoption de formats d’échanges. Pour l’archivage, le SIAF a défini le standard d’échange de données pour l’archivage (SEDA) inscrit au sein du RGI et en cours de normalisation.

Fig. 3. Les principales normes de gestion du cycle de vie et de conservation définitive

A la convergence des reflexions actuelles sur :

  • La qualité de l’information et la provenance des données et documents
  • Leur cycle de vie
  • Les référentiels structurés
  • Les identifiants

Différence entre archives papier et archives numérique ?

Dans l’environnement papier, la seule difficulté réside dans la recherche du document pertinent qui fait foi ; une fois celui-ci trouvé, sa simple production en l’état emporte d’emblée la preuve car il rassemble à lui seul l’écrit lisible et compréhensible, l’information indissociable du support, avec provenance, destinataire, objet, date, signature ;

Dans l’environnement électronique, la difficulté de recherche est identique s’il n’y a pas organisation ; mais une fois l’information trouvée, la preuve ne peut être acquise tant que l’ensemble des éléments dissociés (données + métadonnées descriptives, administratives et techniques) qui la composent ne sont pas réunis de manière fiable.

Dans l’environnement électronique, la garantie de pérennisation ne réside pas dans une conservation en l’état mais dans une conservation évolutive. L’archive électronique ne peut être pérennisée qu’au prix de mutations, d’ajouts, de migrations qui constituent en eux-mêmes des risques d’altération de l’intégrité et de la fiabilité des documents :

  • traitement séparé de la signature électronique
  • gestion des métadonnées
  • migration des formats et des supports.

La notion d’original devient plus difficile à appréhender, le document seul est ininterprétable et ne présente aucune garantie de fiabilité s’il est séparé des informations qui lui sont associées.

On entre dans un monde où l’organisation, la rigueur, le contrôle, les mesures de sécurité s’imposent à tous les acteurs du système d’archivage électronique.

Les données numériques sont par nature très vulnérables pour deux raisons principales :

D’une part, elles sont facilement manipulables. On peut les modifier, les copier, les échanger et les diffuser sans qu’il n’y ait aucun contrôle. On rencontre également des difficultés à identifier la version validée d’un document et à avoir accès à l’information pertinente, nécessaire à la prise de décision. D’autre part, le support et le contenu de l’information ne sont plus indissociables, ce qui entraîne des conséquences majeures. En effet, l’affichage d’une information numérique est le résultat d’une harmonie entre systèmes logiciels, systèmes matériels, systèmes d’exploitation et périphériques. lls sont tous soumis à des rythmes différents et de plus en plus rapides qui entraînent un risque d’obsolescence technologique.

Des stratégies de pérennisation, étayées par les nombreuses normes existantes dans le domaine, doivent par conséquent être anticipées et mises en oeuvre, dès lors que les durées de conservation sont supérieures à un délai de 10 ans.

La définition légale des archives : « Les archives sont l’ensemble des documents, quels que soient leur date, leur lieu de conservation, leur forme et leur support, produits ou reçus par toute personne physique ou morale et par tout service ou organisme public ou privé dans l’exercice de leur activité » (Code du patrimoine, L 211-1)

Les archives courantes :

« Sont considérés comme archives courantes les documents qui sont d’utilisation habituelle pour l’activité des services, établissements et organismes qui les ont produits ou reçus. La conservation des archives courantes incombe, sous le contrôle de la personne chargée du contrôle scientifique et technique de l’Etat sur les archives, aux services, établissements et organismes qui les ont produites ou reçues. Ceux-ci peuvent les déposer dans les conditions prévues aux articles 20-1 à 20-13 . » (art. 12 du décret n° 79-1037).

L’archivage électronique est en premier perçu comme un moyen de pérenniser à des fins juridiques et patrimoniales les archives intermédiaires et définitives.

Or l’environnement électronique, par ses spécificités, impose une organisation et donc des contraintes maximales au stade des archives courantes. Toutes les fonctionnalités doivent être strictement encadrées et normalisées :

  • la création (moment clé de la production / réception)
  • la validation et le contrôle (fonctionnalités indispensables et sensibles)
  • la gestion (métadonnées administratives, techniques et documentaires)
  • la diffusion (accès et recherche, cf. § 1.2)
  • la conservation (stockage in situ ou externalisé)
  • l’épuration en fin de durée d’utilité courante.

Ces fonctionnalités impliquent des outils et des moyens adaptés au sein d’une organisation renforcée.

Les archives intermédiaires

« Sont considérés comme archives intermédiaires les documents qui :

  1. ont cessé d’être considérés comme archives courantes ;
  2. ne peuvent encore, en raison de leur intérêt administratif, faire l’objet de sélection et d’élimination conformément à l’article 16 ci-dessous .

La conservation des archives intermédiaires peut être assurée dans des dépôts spéciaux, dits dépôts de préarchivage, placés sous le contrôle de la personne chargée du contrôle scientifique et technique de l’Etat sur les archives. A défaut de préarchivage, les archives intermédiaires sont soit conservées dans les locaux de leur service, établissement ou organisme d’origine, sous le contrôle de la personne chargée du contrôle scientifique et technique de l’Etat sur les archives, soit déposées dans les conditions prévues aux articles 20-1 à 20-13 » (art. 13 du décret n° 79-1037) .

Les archives définitives

« Sont considérés comme archives définitives les documents qui ont subi les sélections et éliminations définis ci-dessous aux articles 15 et 16 et qui sont à conserver sans limitation de durée. La conservation des archives définitives est assurée dans les dépôts d’archives relevant de la direction générale des patrimoines ou placés sous le contrôle de la personne chargée du contrôle scientifique et technique de l’Etat sur les archives. » (art. 14 du décret n° 79-1037).

Dans le périmètre des attributions légales du Conseil général, les archives définitives se caractérisent par :

  • la sélection à opérer sur les archives intermédiaires de la collectivité ;
  • un transfert de documents et de compétence à l’administration des archives qui devient réglementairement autorité d’archivage ;
  • l’extension de la collecte aux services extérieurs qui doivent ou peuvent verser leurs archives aux Archives départementales ;
  • la valeur secondaire, patrimoniale, qu’acquièrent les documents qui accèdent à ce 3ème âge, sans méconnaître l’existence d’archives définitives qui conservent une valeur primaire, de type administratif et juridique, sur un temps illimité (exemple : délibérations du Conseil général).

En matière d’archives définitives, qu’elles soient d’intérêt patrimonial ou à valeur probante pérenne, les enjeux principaux résident dans une double nécessité :

  • leur préservation sans limite de temps ;
  • leur libre communication ; quand bien même celle-ci s’est trouvée limitée dans les périodes antérieures d’archivage par des délais imposés par la loi, ceux-ci viennent forcément à échéance à un temps T de l’archivage définitif.

Chacune des spécificités des archives définitives se traduit par des mesures particulières dans l’environnement électronique.

Les enjeux stratégiques

Généralement, le service ayant recours à une application pour produire des documents et gérer des données a besoin de :

  • accéder immédiatement et efficacement à l’information pertinente ;
  • garantir le statut des documents ou données (validé ou non) ;
  • garantir la complétude et l’intégrité des documents ;
  • maîtriser les risques de perte ou de destruction intentionnelles ou non intentionnelles de données ou documents ;
  • détruire de manière contrôlée les données ou documents qui n’ont plus d’utilité ou dont la durée de conservation est échue ;
  • verser les archives historiques à l’autorité archivistique compétente.

Une bonne gestion de l’archivage permet de répondre à l’ensemble de ces besoins.

Prendre en compte le cycle de vie des données et des documents et organiser leur archivage nécessite une collaboration forte entre les services d’archives, les directions des systèmes d’information et les services métiers.

  • maintient de la valeur probante des documents/données numériques
  • conservatrion préventive face au risque d’obsolescence des formats des données
  • Protection des données à caractère personnel
  • Équilibre entre devoir de mémoire et droit à l’oubli

Modalités d’application

On peut avec profit s’inspirer de la délibération n° 2005-213 du 11 octobre 2005 portant adoption d’une recommandation concernant les modalités d’archivage électronique, dans le secteur privé, de données à caractère personnel, 11 octobre 2005. Il est recommandé :

  • de respecter le principe du « droit à l’oubli » ;
  • de protéger les données archivées notamment contre la diffusion ou l’accès non autorisés ainsi que contre toute autre forme de traitement illicite ;
  • d’éviter la « dilution » des données archivées dans le système informatique de l’entreprise : la CNIL recommande que l’accès aux archives intermédiaires soit limité à un service spécifique (par exemple un service du contentieux) et qu’il soit procédé, a minima, à un isolement des données archivées au moyen d’une séparation logique (gestion des droits d’accès et des habilitations).
  • de développer, dans les entreprises, des procédures formalisées et qu’une information puisse être fournie sur ces règles, en cas de demande exprimée de leur part, aux individus faisant l’objet des traitements archivés. La recommandation a vocation à s’appliquer aux archives dites courantes, intermédiaires et définitives. En revanche, s’agissant des archives publiques, les données personnelles destinées à une conservation définitive par les services publics d’archives et dont la complétude et l’intégrité doivent être préservées, n’ont pas vocation à faire l’objet d’anonymisation comme indiqué dans cette recommandation destinée au secteur privé.

Ceci implique que dans le cadre des déclarations à faire à la CNIL, la détermination de la durée de conservation des données doit être identique à la durée d’utilité administrative prévue par ailleurs dans le cadre du code du patrimoine, avec notamment, en cas de conservation au titre des archives définitives, mention de l’article L 212-3. Il convient par conséquent systématiquement d’élaborer cette déclaration en étroite collaboration avec la mission ou le service d’archives concerné.

Les enjeux de la feuille de route du ministère de la culture et de la communication

Identification : Action 1 Mettre en place un dispositif d’identifiants pérennes pour les ressources culturelles

Identification : Action 2 Développer un dispositif d’identification des auteurs de ressources culturelles

Interconnection : Action 3 Créer et maintenir une interconnexion sémantique des grands référentiels culturels : Le « Graphe Culture »

Interconnection : Action 4 Expérimenter l’interconnexion inter-institutionnelle des données culturelles

Interconnection : Action 5 Explorer des modes d’interaction avec les publics utilisant les potentialités du Web 3.0

Innovation : Action 6 Mettre en place un dispositif global de R&D destiné au soutien de l’innovation du Web 3.0 culturel

Innovation : Action 7 Appliquer les technologies 3.0 à la description des événements culturels

Tracabilité : Action 8 Positionner le Ministère de la Culture et de la Communication en tant qu’expert sur la traçabilité des données numériques

Formation : Action 9 Mettre en place un programme de sensibilisation et de formation interne pour le Ministère de la Culture et de la Communication

les règles de l’archivage

  • respect du fonds
  • lien avec le producteur
  • règles des 3 I

les spécificités du numérique

  • intermédiation Des dispositifs d’encodage, de lecture et de transmission conditionnent notre accès aux données

  • distribution Des dispositifs de stockage répartis géographiquement, de sécurisation préventive et de surveillance assisté permettent la conservation des données sur le long terme

  • médiation Des dispositifs de médiation sont nécessaires à l’appréhension de la donnée.

Structuration de l’information

La structuration de l’information est la clé qui assure la versatilité des usages au sein d’un unique processus de description

les métadonnées

Définition : Une métadonnée est une donnée servant à définir ou décrire une autre donnée. Porteuse d’information sur le contexte, le sens et la finalité de la ressource informationnelle portée par la donnée brute. vient de meta en grec signifiant auto-référence Ces données numériques sont porteuses d’information d’identification et de provenance

Une métadonnée doit avoir une finalité et une utilité immédiate Différentes stratégies sont possibles pour relier les métadonnées aux données qu’elles décrivent

  • stockage interne : en-têtes des fichiers
  • stockage externe : fichiers textes reliés

Plusieurs communautés d’utilisateurs impliquent différents types de métadonnées et l’un des enjeux de la production de métadonnées consiste dans la normalisation de leur production. Celle-ci a en effet le double avantage d’éviter la re-saisie d’information en utilisant des pointeurs vers des ressources produites par des organismes de référence et de permettre de relier entre-eux des paquets d’information au moyen notamment de l’utilisation de vocabulaires contrôlés.

A ce titre les professionnels de l’archivistique ont pour missions de contrôler le vocabulaire de description, de proposer différents axes de navigation, d’offrir des vues différentes d’une même information et de relier des objets et des corpus constitués au travers du temps.

structuration des métadonnées

Pour mettre en oeuvre ces missions vous pouvez commencer par appliquer une norme métier dans le cadre de vos pratiques de production d’information de représentation : * EAD / EAC pour les archives, MARC, FRBR pour les bibliothèques, CIDOC-CRM / LIDO pour les musées pour fédérer les pratiques et échanger facilement des informations * Réconcilier des référentiels : rapprocher ou réutiliser des thésaurus existants exemples : Thesaurus Archives : http://data.culture.fr/thesaurus Rameau : http://data.bnf.fr/liste-rameau Dewey http://dewey.info * Créer un référentiel réutilisable http://data.bnf.fr et http://wikidata.org (voir présentation semweb.pro 2015)

Les schémas de métadonnées servent à contrôler la saisie et développer la sémantique des informations

On assemble les descripteurs « métiers » dont on a besoin en fonction de ce que l’on veut représenter et des usages des métadonnées, une méthode de raisonnement, un format d’organisation des connaissances et des systèmes d’organisation des connaissances

Pour mettre en oeuvre ces différentes pratiques, on assite aujourd’hui à une convergence entre les savoirs-faire issus des métiers de l’information liés à l’univers du papier et à ceux issus du monde numérique. Au sein de celui-ci il est utile de faire un détour par le web souvent assimilé à Internet, réseau d’ordinateurs le plus utilisé de nos jours qui ont repris et adapté les principes de la navigation, de l’identification et de la localisation aux spécificités de l’information numérique :

  • identification URI et adressage URL
  • communication et protocole HTTP
  • language de représentation HTML

Le web permet d’accroître l’interopérabilité des pratiques des différentes communautés des professionnels de l’information en favorisant l’utilisation de classes de descripteurs génériques

Par exmple, le schéma Dublin Core crée pour décrir simplement des ressources disponibles sur le Web sous la forme de pages HTML propose 15 éléments optionnels répétables et qualifiables. Des profils d’implémentation permettant d’échanger facilement des données entre différents domaines et de s’intégrer dans des portails documentaires transversaux Ils sont aujourd’hui courramment utilisés au sein d’ontologies permettant de gérer les descriptions hétérogènes au sein d’un paquet d’information.

Encoder et lier les métadonnées : uri (uniform resource identifier) : l’économie durable de la connaissance

A l’instar de la cote dans les dépôts d’archives ou de bibliothèques, le web a inventé un système d’identification permettant d’associer un idnetifiant à une ressource qui peut être soit local au sein d’un système fermé soit global au sein du réseau interconnecté du réseau.

Parmis ces URI les URL sont des identifiants pour le web qui identifient la ressource par le moyen d’y accéder. Parmi ceux-ci certains peuvent être pérennes par le biais d’une autorité d’identification ou par une politique d’identification et d’adressage normalisée.

Syntaxe :

<scheme:chaîne/de.caractère>
<http://monsite.com/dossier/fichier.html#ancre>
<http://mondomaine.org/ressource/1234>

Un préfixe qui indique le contexte dans lequel l’identifiant est attribué (par ex. http:,ftp:, urn:, etc.) Un élément qui permet de désigner l’autorité nommante qui a attribué l’identifiant au sein de ce système le « nom » lui-même, c’est-à-dire une chaîne de caractères qui identifie la ressource de manière unique, au sein de ce système et pour cette autorité.

ref : http://fr.wikipedia.org/wiki/Universal_Unique_Identifier

ark

ARK, c’est quoi ?

  • une institution de maintenance : CDL library
  • une spécification http://tools.ietf.org/pdf/draft-kunze-ark-18.pdf
  • un répertoire d’utilisateurs : http://www.cdlib.org/uc3/naan_registry.txt
  • une liste de discussion : http://groups.google.com/group/arks-forum

exemple

http://gallica.bnf.fr/ark:/12148/bpt6k103039f/f26.thumbnail

Autorité d’accès : bnf.fr schème : ark Numéro d’autorité nommante (NAAN) : 12148 Nom ARK : bpt6k103039f Qualificatifs : f26.thumbnail

http://www.bnf.fr/documents/identifiants_perennes_vademecum.pdf http://www.bnf.fr/fr/professionnels/anx_isbn_issn_autres/a.faq_ark.html

communiquer et échanger des informations : le protocole HTTP

Hyper text transfert protocole

représenter de l’information par du code HTML

A la différence des pratiques traditionnelles de mise en forme, le Web propose de dissocier le plus possible le contenu d’information et le contenant permettant sa mise en forme. Un language à balise (Hyper text Markup Langage) a été crée cet effet et permet aujourd’hui d’associer différents styles à un même contenu d’information en fonction du média utilisé pour le consulter.

Le web propose donc un système d’organisation des connaissances qui permet à la fois de décrire les données entre elles (classification), de les relier (identification et adressage) et de déduire des informations des relations qui les décrivent (ontologie)

** Ontologie: défini de manière formelle, pour un domaine de connaissance, les concepts qui permettront de décrire les « choses » de façon non ambiguë, et les règles contraignant ces descriptions

Cette norme comprend les éléments suivants :

  • les types de choses : classes Ex : Document, Livre, Personne

  • les propriétés ou attributs des choses Ex : auteur, date de publication

  • les contraintes éventuelles qui relient celles-ci à celles-là Ex : Un livre est un document, un livre a au moins un auteur, une personne n’est pas un document

A la base de ce système se trouve la notion de ressource qui permet de réconcilier la vue documentaire (document ) et la vue informationnelle (donnée)

exemple :

Je veux décrire des livres par catégories avec des informations sur les auteurs et gérer les liens entre les différentes formes de représentation de ces livres conservées dans différents lieux

Qu’est-ce que je souhaite décrire ?

Un livre = Un titre, une description Un auteur = un nom, un prénom, des dates, des lieux Des représentations = des relations, des formes, des contenants et des contenus Des lieux de conservation : une provenance, des activités, des relations

Les ingrédients existants Dublin Core / FRBR / RDA EAC / FOAF / wgs84-pos / time PROV-O / RDFS/ OWL

le cadre de description des ressources

Il est souvent nécessaire d’expliciter l’information en décrivant son contexte et ses relations

Le language RDF permet de décrire l’ensemble des connaissances sous la forme de ressources en décrivant celles-ci sous la forme d’une phrase simple (sujet, verbe, complément) formant un triplet dont la base est le sujet sur lequel s’applique cette phrase.

Sujet, prédicat, objet

  • Le sujet représente la ressource à décrire ;
  • Le prédicat représente un type de propriété de la ressource ;
  • L’objet représente la valeur de la propriété.

  • Le sujet est toujours une URI. Toute “chose” sur laquelle on veut faire des assertions (sujet) doit avoir une URI. Les “choses” ont toujours un type : une CLASSE.
  • Le prédicat est toujours une URI. Il permet d’exprimer les PROPRIETES des “choses”, ou les relations des “choses” entre elles
  • L‘objet peut être un texte (littéral) ou une URI.

Les classes et les propriétés sont déclarées dans des vocabulaires pour être réutilisées

Exemple :

Le modèle RDF permet de décloisonner les silos de données

Les référentiels permettent alors de les relier

L’Écume des jours est un roman de Boris Vian publié en 1947 avec pour thèmes centraux l’amour, la maladie, la mort L’Écume des jours est un roman L’Écume des jours a pour auteur Boris Vian L’Écume des jours est paru en 1947 L’Écume des jours a pour thèmes l’amour, la maladie, la mort J’irais cracher sur vos tombes a pour auteur Vernon Sullivan

http://dbpedia.org/page/Froth_on_the_Daydream
http://data.bnf.fr/13091689/boris_vian/
  dbpedia:Froth_on_the_Daydream rdf:type yago:Novel106367879
  dbpedia:Froth_on_the_Daydream dcterms:creator dbpedia:Boris_Vian
  dbpedia:Froth_on_the_Daydream dcterms:date "1947"
  dbpedia:Froth_on_the_Daydream skos:subject dbpedia:Love
  dbpedia-owl:wikiPageRedirects dcterms:creator dbpedia:Vernon_Sullivan

ACTION PUBLIQUE est un terme français précisant le terme ADMINISTRATION qui englobe l’ensemble des descripteurs contrôlés utilisés par le vocabulaire contrôlé INTERDOC pour décrire les activités des services des collectivités publiques

ACTION PUBLIQUE est un terme ACTION PUBLIQUE est français ACTION PUBLIQUE précise le terme administration ACTION PUBLIQUE fait partie du vocabulaire INTERDOC INTERDOC est un vocabulaire INTERDOC décrit les activités des services des collectivités publiques

Les vocabulaires contrôlés

standard SKOS

SKOS est construit sur la base du langage RDF, et son principal objectif est de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le cadre du Web de données. les propriétés de mise en correspondance proposées dans SKOS permettent d’exprimer des correspondances entre concepts provenant de schémas différents

  • skos:exactMatch ou skos:closeMatch
  • skos:broadMatch, skos:narrowMatch, skos:relatedMatch
  • skos:semanticRelation

exemple :

http://data.culture.fr/thesaurus/resource/ark:/67717/T1-1302
  dct:created "2014-03-12T19:13:55+0100" ;
  dct:modified "2012-11-22T00:00:00+0100" ;
  iso-thes:status "1" ;
  a skos:Concept ;
  skos:exactMatch <http://data.bnf.fr/ark:/12148/cb13318807v> ;
  skos:historyNote "2011-12-07 : modification du prefLabel
  \« Education\" en \« Education et sciences\""@fr-fr ;
  skos:inScheme <http://data.culture.fr/thesaurus/resource/ark:/67717/Matiere> ;
  skos:narrower <http://data.culture.fr/thesaurus/resource/ark:/67717/T1-1121> ,
  <http://data.culture.fr/thesaurus/resource/ark:/67717/T1-3> ,
  <http://data.culture.fr/thesaurus/resource/ark:/67717/T1-499> ,
  <http://data.culture.fr/thesaurus/resource/ark:/67717/T1-881> ;
  skos:prefLabel « Education et sciences"@fr-fr ;
  <http://www.w3.org/2008/05/skos-xl#prefLabel>
  <http://data.culture.fr/thesaurus/resource/ark:/67717/ce918de4-581a-49a6-83ef-d8932deb73d6> ;
  foaf:focus <http://dbpedia.org/resource/Education> .

La traçabilité des informations

Une information est toujours produite dans un contexte. Elle résulte de l’action d’un ou plusieurs agents. Son cycle de vie est une suite d’événements qui opèrent sur des objets entre lesquels il existe souvent des relations

Typologies à modéliser :

  • Agents : qui a créé, qui a modifié, qui a contribué, qui a transformé, etc..
  • Activités : création, modification, contribution, suppression, archivage, etc…
  • Entités : fichier, dossier, collection

Agents : Les agents sont responsables des activités affectant les entités. Un agent est quelque chose qui porte une forme de responsabilité dans le déroulement d’une activité, dans l’existence d’une entité ou dans l’activité d’un autre agent. Ce peut être une personne, une composante de logiciel, un objet inanimé, une organisation, ou une autre entité.

Activités : Les activités sont les processus qui ont utilisé ou généré des entités, comme par exemple : calculer un résultat, écrire un livre, faire une présentation. Les activités ne sont pas des entités. « Une activité est quelque chose qui se produit pendant une période déterminée et qui agit sur ou avec des entités ; elle peut inclure l’utilisation, la transformation, la modification, la délocalisation, ou la génération d’entités. »

Entités : dans le modèle PROV, une entité est une ressource dont on veut décrire la provenance. « Une entité est un objet physique, numérique, conceptuel ou tout autre type d’objet avec des aspects déterminés ; les entités peuvent être réelles ou imaginaires. » Par exemple : un document, une partie d’un document, une idée, un article de nouvelles, un contrat, un résultat, etc.

Les entités, les activités et les agents peuvent interagir les unes par rapport aux autres :

d’un point de vue temporel :

  • une Entité a été générée (wasGeneratedBy) par une Activité ;
  • une Activité a utilisé (used) une Entité ;
  • une Activité a été fondée (wasInformedBy) sur une autre Activité ;
  • une Entité est dérivée (wasDerivedFrom) d’une autre Entité ;
  • une Activité a commencé (startedAtTime) à une Date/heure donnée ;
  • une Activité s’est terminée (endedAtTime) à une Date/heure donnée.

du point de vue de la responsabilité :

  • une Activité a été associée (wasAssociatedWith) à un Agent ;
  • une Entité a été attribuée (wasAttributedTo) à un Agent ;
  • un Agent a agi pour le compte (actedOnBehalfOf) d’un autre Agent.

Le typage des relations

Generation (Génération)

Les activités génèrent de nouvelles entités. La génération permet de décrire l’origine des entités et de répondre à des questions, comme par exemple : comment un document a-t-il été généré ? Comment un résultat de calcul a-t-il été obtenu ? Comment une entité a-t-elle été modifiée ? Comment un résultat a-t-il été validé ?  

Usage (Utilisation)

Les activités utilisent également des entités. L’utilisation permet de préciser quelles sont les entités qui ont participé à une activité, par exemple : les références utilisées pour créer un document, la requête faite pour obtenir un résultat ou encore les flux entrants d’un processus informatique.  

Communication (Communication)

La communication sert à décrire l’interdépendance entre deux activités. Quelles sont les activités qui ont précédé l’activité actuelle ? Quelles sont les étapes nécessaires pour exécuter une requête ?

Attribution (Attribution)

L’attribution est l’assignation d’une activité à un agent. Elle permet de répondre à des questions comme par exemple : qui est l’auteur d’un document ? Quel logiciel a été utilisé pour générer tel résultat ? Qui a créé tel jeu de données ?

Derivation (Dérivation)

Les activités utilisent et génèrent des entités. Dans certains cas, l’utilisation d’une entité a une influence sur la création d’une autre entité. Cette « influence » ou dérivation est la transformation d’une entité en une autre entité, le résultat de la mise à jour d’une entité est la génération d’une nouvelle entité à partir de l’entité préexistante. La dérivation permet de décrire l’interdépendance de différentes entités entre elles. Par exemple : les contenus d’un document s’appuient-ils sur d’autres entités ? Quelles ressources ont influencé cette entité et dans quelle mesure ?  

Association (Association)

Un agent peut se voir attribuer une certaine responsabilité dans le déroulement d’une activité. D’après le modèle PROV, l’Activité est associée à l’Agent. La relation d’association permet de répondre à des questions comme par exemple : qui a la responsabilité d’un document ? Qui a la responsabilité de l’élaboration d’un produit/contrat ?  

Delegation (Délégation)

La délégation est l’assignation d’une autorité et d’une responsabilité à un agent (par lui-même ou par un autre agent) pour exercer une activité spécifique comme délégué ou représentant, tandis que l’agent pour le compte duquel il agit détient une certaine responsabilité dans le résultat du travail qui a fait l’objet de la délégation. La délégation sert à préciser les responsabilités de plusieurs agents les uns par rapport aux autres. Par exemple : quel utilisateur a activé tel outil pour générer tel rapport ?

http://provenance.ecs.soton.ac.uk

offre applicative (à rédiger)

propriétaire instiutionnel open source

Mise en place du projet

Pour chaque application, pour une première approche, il convient également d’avoir une connaissance précise des utilisateurs et de leurs besoins en termes de finalités de l’archivage (probatoire, patrimonial) ainsi que des critères de recherche et d’accès.
Il est conseillé, pour ce faire, de s’appuyer sur l’ensemble des outils de vulgarisation et de présentation de l’application existantes (manuels utilisateurs, actions de communication….). Nota : Il convient de porter une attention particulière aux données à caractère personnel qui requièrent généralement un traitement spécifique. A l’issue de cette phase, un premier état des lieux aura été fait, à partir duquel un audit plus circonstancié des principales applications repérées devra être mené afin de pouvoir prioriser les SI à forte valeur juridique et/ou patrimoniale.

La réponse à la question Comment archiver les données et documents numériques produits dans mon organisation ?, suppose l’analyse :

  • des besoins prioritaires en termes d’archivage ;
  • des acteurs du processus d’archivage, du point de vue leur degré de sensibilité à la problématique et aux enjeux de l’archivage numérique ;
  • des outils, sous l’angle de la sécurité du système d’information et des capacités d’archivage des applications métier dans lesquelles sont créés les données et documents.

exemples de stratégies d’archivage

  • Archivage dans l’application métier Privilégier l’archivage au sein de l’application métier pour des données de gestion dont la durée de conservation est de faible durée. Pour des données et documents auxquels on souhaite accéder rapidement et fréquemment, privilégier si possible l’archivage au sein de l’application ou du moins l’export vers un SAE à haute disponibilité.

  • Archivage hors de l’application métier ou au sein d’un SAE mutualisé Ne pas déployer en interne un SAE si la structure est petite ou s’il existe des solutions de mutualisation interministérielle. Ne pas déployer en interne un SAE si la maturité des acteurs en termes d’archivage numérique n’est pas suffisante. Pour des données et documents signés électroniquement, privilégier le versement dans un SAE (maintien de leur force probante) dès leur validation. Pour des documents à forte valeur patrimoniale, il est toujours possible de verser dans le SAE des archives nationales ou départementales un exemplaire de ces archives dès leur validation.

  • Externalisation Ne pas choisir a priori d’externalisation de ses données et documents chez un tiers archiveur pour des données et documents à très longue conservation pour des raisons de coûts (lors des changements de tiers archiveurs lors des changements de marchés). Ne pas choisir a priori d’externalisation de ses données et documents chez un tiers archiveur pour des données sensibles ou hautement confidentielles. Ne pas externaliser chez un tiers archiveur des archives définitives (interdiction du Code du patrimoine).

Une fois le scénario (ou les scénarios) d’archivage défini(s), il faut faire évoluer les différentes applications priorisées pour intégrer les fonctionnalités relatives au cycle de vie de l’information et pour préparer les éliminations et/ou les exports pour archivage définitif. Sinon, il faut mettre en œuvre un SAE

Mise en œuvre du scénario d’archivage

Dans tous les cas, il convient de :

  • Établir un contrat de service avec les producteurs et les services informatiques précisant les rôles, missions et responsabilités de chacun des partenaires.
  • Définir les durées de conservation et sort final des données et documents et développer les fonctionnalités correspondantes.
  • Définir éventuellement sa stratégie en matière d’archivage de fichiers signés : outils de vérification des signatures, de production de rapports de vérification et d’archivage de ces rapports.
  • Définir les règles de nommage des fichiers.
  • Définir sa stratégie en matière de formats des fichiers acceptés par les applications métier, récupérer les métadonnées techniques relatives à ces formats afin de permettre les futures migrations. Les formats ouverts et si possible normalisés seront privilégiés..
  • Définir les modalités (réglementaires et matérielles) de destruction des données et documents arrivés à terme de leur durée de conservation et à la traçabilité de ces destructions et faire développer les fonctionnalités nécessaires à les mettre en œuvre.
  • Définir les formats d’échanges (format SEDA) en cas de versements et les profils de données correspondants et faire développer les fonctionnalités relatives aux exports..
  • Dans le cas des données à archiver qui sont à extraire de bases de données, on privilégiera le format SIARD
  • En cas de données personnelles, introduire les modalités d’archivage dans la déclaration CNIL.
  • Mettre en œuvre des modalités d’audits de son système et de son service.

Étude d’opportunité et étude de faisabilité

Lors de cette phase, il conviendra d’identifier précisément la production :

  • compréhension du contexte : flux de la production documentaire, circulation et circuits de diffusion ;
  • connaissance des producteurs des documents : statut, rôle et responsabilités, missions et activités et leur périmètre ;
  • connaissance des documents produits, usages et besoins d’accès à court, moyen ou long terme, typologie documentaire.

Analyse fonctionnelle

On pourra retenir les points essentiels suivants à étudier :

  • Production et capture des documents dans leur contexte (définition des métadonnées, formats des fichiers).
  • Éléments de traçabilité relatifs au cycle de vie de l’information.
  • Fonctionnalités liées à la conservation et à la gestion des sorts finaux des documents au sein du SI.
  • Fonctionnalités d’import, d’export (définition du format d’échange SEDA).
  • Reprise éventuelle de données.

Modalités d’accès aux archives

La communication des archives

Compte tenu des durées de conservation des documents et des données en archives courantes et en archives intermédiaires, il est clair que les délais les plus longs de communicabilité fixés par le Code du patrimoine , et applicables quel que soit le lieu de conservation, viendront à échéance après le passage en archives définitives.

De ce constat, naît une triple difficulté de gestion générée par :

  • la nécessité d’introduire le délai de communicabilité dans les métadonnées et d’automatiser la libre communication des documents et des données ;
  • l’évolution des droits d’accès (sans oublier les dérogations qui peuvent être obtenues )
  • l’évolution éventuelle de la législation obligeant à une révision générale des métadonnées de communicabilité.

Les droits d’accès doivent encore être gérés très finement sur les archives définitives et l’on devra définir, selon le demandeur, comme pour les archives courantes et intermédiaires, quel degré d’information lui sera fourni sur les documents qui ne lui sont pas communicables :

  • données descriptives du document
  • ou simple signalement de son existence
  • ou absence totale d’information.

Les protocoles de communication

MEDONA

Le schéma MEDONA Z 44-022 permet de structurer les métadonnées générées par les acteurs au cours des échanges (transfert, de communication, de modification, d’élimination ou de restitution d’archives).

Il doit permettre de modéliser les échanges de données pour l‘archivage et d’automatiser les procédures d’échange d’information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d’un paquet d’information.

Les messages MEDONA décrivent les contraintes (format, support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..)

La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut pas être différent de, n’existe qu’en un seul exemplaire, provient de, etc…)

La classe ManagementMetadata regroupe l’ensemble des informations nécessaires à la gestion de l’échange d’un paquet de données. Les informations apportées par cette classe concernent tous les Objets de données du paquet.

Ces informations sont :

  • l’accord de service (ArchivalAgreement),
  • le profil d’archivage (ArchivalProfile),
  • le niveau de service (ServiceLevel),
  • la règle d’accessibilité (AccessRule)
  • la règle pour le calcul du sort final (AppraisalRule).

Toutes ces informations sont facultatives.

Tous les messages partagent des propriétés communes définies dans la classe Message.

Ces propriétés sont :

  • une date (Date) qui correspond à la date d’émission du message
  • un identifiant du message (MessageIdentifier) ;
  • éventuellement des commentaires (Comment) qui permettent en particulier d’expliquer la raison du message (par exemple pour une réponse négative, ces commentaires peuvent expliquer la raison du refus et ce qu’il convient de faire pour reformuler la demande)
  • éventuellement une signature du message lui-même (Signature).

Le message d’accusé de réception (Ackwowledgement) hérite des propriétés de la classe Message auxquelles il faut ajouter l’identifiant du message dont il accuse la réception.

Une communauté peut créer son propre schéma XML dérivé celui de la norme sans avoir à intervenir sur le schéma de la norme en incluant le schéma de la norme dans le sien tout en redéfinissant sous forme de restriction les types laissés ouverts: DescriptiveMetadataType, OrganizationDescriptiveMetadataType SignatureType, AccessRuleType)

Par exemple, si cette communauté souhaite utiliser le modèle EAC-CPF 19) pour décrire les acteurs (Service versant, Service producteur, etc.), elle donnera une autre définition du type OrganizationDescriptiveMetadataType dans son schéma dérivé. De cette manière les messages qui respectent ce nouveau schéma respectent forcément le schéma de la norme.

<xsd:schema targetNamespace="org:afnor:www:medona:v1.0"
xmlns:xsd="http://www.w3.org/2001/XMLSchema"
xmlns:medona="org:afnor:www:medona:v1.0"
xmlns:xlink="http://www.w3.org/1999/xlink"
xmlns:eac="urn:isbn:1-931666-33-4">

<xsd:import namespace="urn:isbn:1-931666-33-4" schemaLocation="cpf.xsd"/>
<xsd:import namespace=http://www.w3.org/1999/xlink schemaLocation="xlink.xsd"/>
<xsd:redefine schemaLocation="MEDONA.xsd">
      <xsd:complexType name="OrganizationDescriptiveMetadataType">
          <xsd:complexContent>
               <xsd:restriction base="medona:OrganizationDescriptiveMetadataType">
    <xsd:sequence>
         <xsd:element ref="eac:cpfDescription"/>
    </xsd:sequence>
    <xsd:attribute ref="xlink:href" use="prohibited"/>
              </xsd:restriction>
       </xsd:complexContent>
    </xsd:complexType>
 </xsd:redefine>
</xsd:schema>

Le schéma SEDA permet de décrire les relations entre les acteurs au cours des transactions (transfert, de communication, de modification, d’élimination ou de restitution d’archives).

Ces transactions sont au nombre de six :

  • le transfert de données,
  • la demande de transfert,
  • la modification de métadonnées,
  • l’élimination des données,
  • la communication des données
  • la restitution des données.

Les acteurs sont eux au nombre de cinq :

  • le service producteur,
  • le service versant,
  • le service d’archives,
  • le service de contrôle,
  • le demandeur d’Archives.

Chaque transaction y est décrite comme un dialogue dans lequel les partenaires s’échangent des messages dans un ordre et dans une forme précisés. Par exemple, pour le transfert qui va faire dialoguer un service d’archives avec un service versant, se succèdent :

  • Un message initial de transfert (composé d’un en-tête et d’un bordereau de versement) accompagné des données elles-mêmes ;
  • un message d’accusé réception ;
  • un message de notification d’acceptation ou d’avis d’anomalie ;
  • si nécessaire, un message d’accusé réception d’avis d’anomalie.

Il permet d’automatiser les procédures d’échange d’information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d’un paquet d’information.

Les messages SEDA décrivent les contraintes (format, support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..)

La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut pas être différent de, n’existe qu’en un seul exemplaire, provient de, etc…)

OAI-PMH

6 verbes pour un échange de données normalisé

  • qui?: la carte d’identité de l’entrepôt
  • quand?: les dates de modification
  • comment?: les standards de métadonnées xml les collection de données
  • combien?: la liste des identifiants uniques la liste des fiches descriptives
  • quoi?: le contenu de la fiche descriptive

Archivage et gouvernance de l’information

La gestion du cycle de vie de l’information

la gestion des données numériques et de leur cycle de vie ainsi que la conservation pérenne des données sont des enjeux à forte valeur juridique, stratégique et/ou patrimoniale.

Cycle de vie

Processus : ensemble ordonnées d’activités qui délivre un produite et/ou un service, à un “client” interne ou externe, lui apporte de la valeur, répond à ses besoins exprimés ou implicites et nécessite d’être maîtrisé/piloté

Processus métier : ensemble des activités qui s’enchaînent pour créer un produit ou un service à partir d’éléments de base. Un processus se décompose en sous-processus. (MAC, glossaire de l’archivage)

Dématérialisation

La dématérialisation produit ou renforce de nouveaux processus :

  • Gestion des droits : la mise à jour de l’annuaire devient critique
  • Gestion des circuits / processus dématérialisés dans la GED maintenance, nouveaux processus, adaptation vs réorganisation, …
  • Gestion des référentiels de métadonnées : outils et correspondants métiers sont essentiels

La dématérialisation produit ou renforce de nouveaux processus :

  • Gestion de l’enrichissement des documents grâce aux référentiels : comment les utilisateurs enrichissent leurs documents, à quelle dose, comment ?
  • Gestion de la contribution des utilisateurs aux référentiels : comment les retours des utilisateurs peuvent aider à améliorer les référentiels ?
  • Gestion documentaire : les basiques de la GED et des fonctionnalités associées.
  • La recherche d’information : c’est un processus qui doit être clair pour les utilisateurs.
  • Le travail collaboratif : méthodologie à mettre en place.

Le cadre juridique de l’administration électronique

Intégrité des données

Code civil et cadre de la preuve

Depuis 2000, la validité comme preuve juridique d’un document numérique est reconnue, au même titre que la preuve écrite sur papier, mais sous certaines conditions : pouvoir justifier de l’identité de la personne dont il émane et de son intégrité, en vertu de la loi n°2000-230 du 13 mars 2000 portant adaptation du droit de la preuve aux technologies de l’information et relatif à la signature électronique, modifiant le Code civil.

Les conditions pour créer un environnement de confiance propice à la conservation électronique sont ainsi énoncées :

  • le maintien d’une neutralité technologique et organisationnelle ;
  • le fait que la mise en place d’un processus de conservation ne doit pas modifier le statut juridique d’un document

Intégrité : le respect cumulé de trois critères Dans la mesure où devant le juge, se posent les questions de recevabilité et de force probante des documents électroniques archivés, les critères de l’intégrité doivent impérativement être édictés afin de permettre de définir les conditions dans lesquelles un document conservé pourra avoir valeur probante. C’est ainsi que cette exigence d’intégrité est assurée par le respect cumulé des trois critères que sont :

  • la lisibilité du document
  • la stabilité du contenu informationnel
  • la traçabilité des opérations sur le document :

Les fondements juridiques de l’authenticité des données numériques

Cadre de confiance

L’article 1348 alinéa 2 du code civil, issu de la loi du 12 juillet 1980, indique : « Les règles ci-dessus [production d’une preuve écrite] reçoivent aussi exception lorsqu’une partie ou le dépositaire n’a pas conservé le titre original et présente une copie qui en est la reproduction non seulement fidèle mais aussi durable. Est réputée durable toute reproduction indélébile de l’original qui entraîne une modification irréversible du support.»

Authenticité et signature électronique

La signature électronique est le procédé retenu en droit (art. 1316-4 du Code civil, alinéa 2) pour garantir l’identité de l’auteur du document et l’intégrité d’un document numérique. L’archivage sécurisé est une obligation découlant de l’adoption de la signature électronique.

Fonctionnement de la signature électronique

Il s’agit d’un procédé qui prend une empreinte d’une information (fichier, document) à un instant précis et y applique un algorithme de chiffrement à clé publique, c’est-à-dire dont la clé de déchiffrement figure sur un certificat appartenant nominalement à l’émetteur du document. Le déchiffrement permet ainsi de comparer l’empreinte du document envoyé avec celle du document initial et de constater d’éventuelles modifications

Architecture de l’information : un nouveau métier, une fonction dédiée ?

Archivage / record management

  • Archivage : ensemble des activités qui transforment les traces de l’activité d’une entreprise ou d’un organisme en un corpus cohérent d’objets documentaires fiables dont la non-disponibilité présenterait un risque. Le processus d’archivage croise les processus métier au moment de la déclaration des documents engageants et de leur entrée dans le système d’archivage, avec le contrôle de la qualité des documents archivés et la prise en charge de leur conservation matérielle.

  • Record management : organisation et contrôle de la constitution, de la sélection, de la conservation et de la destination finale des documents d’une administration, d’une entreprise ou d’un organisme. Le records management fait l’objet de la norme internationale ISO 15489.

  • Versement : capture et transfert de responsabilité
  • Conservation : gestion de l’intégrité et de l’intelligibilité
  • Demande de communication : gestion des délais de communicabilité et des moyens d’accès
  • Restitution : réversibilité et transfert de responsabilité
  • Élimination : suppression et gestion du stockage

L’archivage électronique est un processus dynamique qui commence dès la création des document

Il se décline en un ensemble de procédures qui visent à garantir une bonne gestion du cycle de vie de l’information, sa conservation durant les délais requis et sa communication à l’administration et aux citoyens.

Il permet, ainsi, d’éviter l’altération (modification intentionnelle ou non-intentionnelle) et la perte des données en préservant leur intégrité (lisibilité, exploitabilité).

Ces procédures reposent sur l’utilisation, par le producteur des données, de référentiels (référentiel de conservation, référentiels de description, règles d’écriture et de présentation des documents) qui doivent être mis en usage en amont de la production des documents.

Ces éléments structurants pour la qualité des données sont également communs aux données des SI dites données «structurées» et aux données bureautiques «non structurées».

OAIS : un modèle conceptuel organisé autour de six entités gérant les échanges d’informations au sein du système d’information [ISO 14721:2003]

La gestion et le stockage impliquent la description d’événements (l’analyse, l’enrichissement, le stockage, la migration) dont la responsabilité incombe à différentes entités OAIS. L’administration dans le temps de l’objet archive nécessite le suivi et la conservation des événements qui affectent l’information.

Une veille technologique est nécessaire pour garantir l’accès des agents habilités au cours du cycle de vie des objets informationnels et la conservation du capital informationnel.

L’accès aux informations nécessite l’enrichissement et la mise en relation des objets avec d’autres sources d’explicitation .

Ces procédures reposent sur l’utilisation, par le producteur des données, de référentiels (référentiel de conservation, référentiels de description, règles d’écriture et de présentation des documents) qui doivent être mis en usage en amont de la production des documents.

Ces éléments structurants pour la qualité des données sont également communs aux données des SI dites données «structurées» et aux données bureautiques «non structurées».

Les communautés d’agents expriment des besoins qui doivent être pris en compte sans compromettre l’intégrité de l’entité OAIS.

Ces processus sont complexes et nécessitent la description des objets à conserver et à diffuser

L’entité OAIS utilise les métadonnées pour normaliser et structurer les échanges d’informations avec les acteurs externes et internes

L’objectif est de conserver la richesse de l’information et sa traçabilité

La gouvernance de l’information

Les responsabilités

  • L’identification, parmi la masse des données produites, de celles à forte valeur juridique, stratégique et/ou patrimoniale et dont la durée de conservation peut être très longue.
  • La définition d’une politique d’accès à l’information conforme aux dispositions prévues par la législation en vigueur.
  • La destruction de façon contrôlée des données devenues inutiles afin de réduire les coûts de stockage et de garantir le retrait de service des applications qui ne sont plus utilisées.
  • Un stockage et une sauvegarde des données importantes dans un environnement sécurisé avec des moyens adéquats.

Définition du cycle de vie de l’information -> une analyse des processus de travail + règlementation + besoin de gestion

Identification des documents liés à la continuité de l’activité

Définition des durées de conservation (combien de temps les documents seront-ils nécessaires) ? À partir de quel moment peut-on les détruire ?)

Définition des règles de communicabilité (quel est le délai pour rendre une information librement accessible à tous ?)

les acteurs clés

L’AA (autorité d’archivage) est responsable de l’ensemble des prestations rendues par le service d’archivage électronique conformément à la politique d’archivage dont elle est à l’origine. L’ensemble des prestations peut être décliné en plusieurs niveaux de sécurité et de service.

L’OA (opérateur d’archivage) est quant à lui responsable des moyens mis en œuvre pour satisfaire les exigences définies dans la PA. L’AA doit posséder un droit de contrôle sur l’OA.

Le service producteur désigne l’entité qui produit ou reçoit des archives et qui en est le propriétaire ou, suite à un transfert de compétences, l’entité qui aura récupéré les missions. Il est à ce stade du cycle de vie l’Autorité d’archivage car il a la responsabilité de ses archives courantes et est dans l’obligation de les gérer depuis leur création, leur réception et leur validation jusqu’à l’échéance de leur durée d’utilité courante (DUC). Avec l’aide de services prestataires (informatique, archives, juridique), il doit définir des règles strictes encadrant la création et la réception des documents, l’utilisation des applications métiers et il doit s’y soumettre.

Le service d’archives désigne à la fois :

  • la direction des Archives départementales qui, chargée réglementairement du contrôle scientifique et technique sur les archives publiques tout au long du cycle de leur vie, assure la fonction de contrôleur sur les conditions de gestion des archives courantes du service producteur, autorité d’archivage ;
  • l’entité en charge du records management au sein de l’institution (au Conseil général de la Gironde, la Cellule Archives relevant des Archives départementales) qui apporte expertise et conseils au service producteur et procède avec lui à l’évaluation de la production documentaire dans toutes ses composantes (couplage papier/électronique) et sous tous ses aspects (administratif, juridique, patrimonial). Elle aide en particulier à la détermination de la durée d’utilité courante (DUC) des documents et données avant leur éventuel passage en archives intermédiaires.

Le service producteur et le service d’archives peuvent faire appel au service juridique pour un avis sur la DUC.

Le service informatique (Direction des systèmes d’information –DSI- au Conseil général de la Gironde) désigne l’entité chargée du système d’information de l’institution. Il centralise les projets et oriente les choix applicatifs :

  • en privilégiant des outils communs (GED, recherche documentaire…)
  • en veillant à ce que toutes les conditions de l’archivage électronique, quand il s’impose, soient remplies
  • en garantissant la conformité aux référentiels généraux d’interopérabilité et de sécurité. Il apporte son concours à la normalisation des applications existantes en vue de leur éventuel archivage électronique et à leur exploitation dans la complémentarité avec le papier pour les dossiers hybrides. Il est, pour les archives courantes, le principal opérateur d’archivage des services producteurs dans les fonctions de stockage et d’accès. Il devra assurer au service producteur et aux utilisateurs la fourniture d’infrastructures techniques adaptées et leur maintenance, la sécurité des réseaux, la sauvegarde quotidienne et la maintenance régulière des applications. Il devra fournir une qualité de service en garantissant la disponibilité et la performance du système. En matière d’archives courantes, le Conseil général délègue à d’autres opérateurs d’archivage la gestion et l’hébergement d’une partie de son système d’information (plates-formes de dématérialisation et de télétransmission, par exemple) : la DSI veillera au respect des exigences de la politique d’archivage au moment du choix des prestataires externes, tout au long de la prestation et à échéance de la prestation.

Les utilisateurs désignent les personnes autorisées à avoir accès aux documents et données d’utilisation courante. Ils disposent d’un mode d’accès spécifique et personnel (authentification par login, mot de passe, certificat ou autres). Ils doivent s’engager à respecter les conditions de consultation, la confidentialité, les conditions de communication à des tiers. En fonction des droits qui leur sont accordés, ils s’engagent également à ne pas modifier, altérer ou supprimer tout ou partie des documents et données et de leurs métadonnées.

Les usagers : encore peu fréquents dans l’usage actuel, ils vont se multiplier pour plusieurs raisons.

La définition de la responsabilité des données tout au long de leur cycle de vie : A qui appartiennent les données ? Qui est le garant de leur authenticité ? Qui est le garant de leur conservation ? Qui est responsable de préserver leur intégrité dans le temps ? Qui est responsable de leur confidentialité ?

Il convient de définir la répartition des rôles entre maîtrise d’ouvrage et producteurs des données, maîtrise d’oeuvre (services des systèmes d’information) et services d’archives

Les acteurs du système d’information ouvert d’archivage

le réseau des contributeurs les instances la sécurité
la qualité

administration ouverte des données

Les questions génériques qui se posent ainsi de façon transverse aux disciplines portent sur les normes et standards de description des données (métadonnées), les règles de partage, d’accès sécurisé, de stockage et d’archivage pérenne, en addition aux aspects juridiques et d’éthique.

le contexte réglementaire les objectifs la transversalité

les impacts sur l’organisation gestion des données identification des référentiels internes identification des référentiels externes normalisation de la description processus de validation

Offres de consommation

L’Edition numérique facilite l’élargissement instantané du nombre des lecteurs, tout en permettant une réduction des coûts d’accès à l’IST ainsi qu’une souplesse d’exploitation et de distribution sans précédent.

qualité et sécurité évaluation

####L’open access

Dans la contribution du CNRS à la Stratégie nationale de Recherche (1er juin 2013), l’organisme se met en phase avec les enjeux et démarches de la évolution numérique. Le texte souligne notamment : “Aujourd’hui, la science vit une révolution (parmic d’autres) qui conduit à un nouveau paradigme selon lequel la science est dans des données. La production massive de données par des expériences cientifiques, des capteurs ou des populations munies d’équipement de communication (crowdsourcing) est dorénavant une approche classique”. par ailleurs, “L’extraction de connaissances, l’apprentissage, l’agrégation de données, la visualisation et la navigation dans de grands espaces de données sont autant d’instruments qui permettent d’observer et de découvrir des phénomènes, de valider des hypothèses et d’élaborer de nouveaux modèles”.

L’efficacité de la science repose aujourd’hui sur sa capacité à traiter et exploiter les masses de données produites dans des environnements partagés; son efficience dans les années à venir se mesurera à sa capacité à gérer, partager et autoriser la réutilisation de ces mêmes données.

transformation numérique le management compétent l’autonomie des collaborateurs le partage des objectifs la gestion de projet itérative l’étude d’opportunité la proposition de valeur l’équipe la rétrospective l’interaction avec la sphère externe parangonnage partage d’expérience feedback utilisateur

l’accès aux objets

http://www.geneanet.org/hier_et_aujourdhui