Les métadonnées sont essentielles pour la promotion des catalogues des éditeurs. 94% des éditeurs seraient en tout cas de cet avis, d'après le SNE. Dans le même temps, ils seraient 77% à ne pas savoir comment améliorer ces métadonnées. Retour sur la formation aux métadonnées, donnée au PILEn par Stéphane Leroy par l’entremise d’Edinovo.

Métadonnées et référentiels de métadonnées : organiser la jungle de l’information

La métadonnée est une donnée sur une donnée. Une donnée donnant une caractéristique sur une autre donnée. La métadonnée sert, d’une part à décrire une donnée, d’autre part à établir des relations entre données. Dit autrement encore, la métadonnée détaille et permet de trouver. C'est pour cette raison qu'elle est si importante pour les éditeurs et éditrices.

Les métadonnées sont rangées dans des registres. Il existe plusieurs registres, organisant chacun différemment les métadonnées. Ces registres sont appelés des référentiels de métadonnées. Ces référentiels posent une sémantique et une structuration des éléments qui leur sont propres, un cadre d’autorité à respecter par les personnes utilisant tel ou tel référentiel. Les référentiels de métadonnées sont nombreux. Tous n’ont pas réussi à s’imposer. L'un des plus connus se nomme Dublin Core (DC). Ce référentiel de métadonnées est géré par la Dublin Core Metadata Initiative, ou DCMI. La DCMI assure la maintenance du registre DC, notamment quand des évolutions sont nécessaires. Chaque référentiel possède son propre organisme de gestion.

Les métadonnées sont internes ou externes à un fichier. Internes, tout d’abord : un fichier photo par exemple contient toute une série d’informations (date de la prise de vue, objectif utilisé, durée d’obturation, etc.). Le logiciel affichant cette photo peut fournir toute une série d’informations supplémentaires ; via le référentiel IPTC (International Press Telecommunications Council), on peut ajouter une description de l’image, des mots-clés, un copyright, etc. C’est l’aspect renseignement de métadonnées, utile notamment pour être visible par les moteurs de recherche. Les métadonnées peuvent aussi être externes, stockées dans un autre fichier destiné à constituer, avec d’autres fichiers externes, une base de données. Par exemple, les données publiques de la région Bretagne disponibles sur ows.region-bretagne.fr. C’est l’aspect catalogue de métadonnées.

De MARC à ISNI : le livre et les métadonnées, une longue histoire

Les bibliothécaires sont les premiers à se pencher sur les métadonnées ; les premiers modèle de notices bibliographiques voient le jour au XIXème siècle. Mais c’est bien l’avènement de l’informatique qui fait entrer les métadonnées et le monde du livre dans une nouvelle dimension ; le format MARC (MAchine Readable Cataloging), une notice bibliographique lisible par ordinateur, est adoptée par plusieurs bibliothèques dès 1968. 

En 1970, l’ISBN (International Standard Book Number) est créé. Il ne compte à l’époque que 10 chiffres. L’ISBN à 13 chiffres, qu’on peut rapprocher de l’EAN (European Article Number), arrive en 2007 pour s’harmoniser sur un autre standard : le code-barres. Adopté par les acteurs et actrices de la chaine du livre, ce numéro de série permet de simplifier la gestion des références. En effet, chaque ISBN est unique mais toutes les structures d’ISBN sont les mêmes et se lisent de cette façon :

  • Trois premiers chiffres : pays du livre ;
  • Quatrième chiffre : langue utilisée ;
  • Cinquième à huitième chiffres : identification de l’éditeur ou éditrice ;
  • Neuvième à douzième chiffres : identification de la manifestation (c’est-à-dire : une édition poche d’un livre x, une édition avec annexes d’un livre y, etc.)
  • Treizième chiffre : clé de contrôle destinée à l’algorithme.

 L’ISBN est attribué une fois pour toutes. Si un livre connait plusieurs formats (papier, ePub, PDF, etc.), chaque format aura son propre ISBN. Si le contenu du livre est modifié (nouvelle édition, édition illustrée, nouvelle couverture, etc.), un nouvel ISBN sera attribué. Si les droits d’usage diffèrent (téléchargement, prêt numérique en bibliothèque, etc.), chaque droit générera un ISBN propre. 

En 1994, c’est la révolution d’Internet ; désormais, on peut échanger des données depuis des lieux différents. Par la force des choses, la question des langages communs, et donc des référentiels de métadonnées, s’accentue. C’est ainsi qu’en 1998, le langage XML (EXtensible Markup Language, ou langage de balisage extensible) est défini ; il est désormais possible de créer et partager n’importe quel vocabulaire structuré de description, ou référentiel, qui sera lisible par n’importe quelle machine.

En 2000, un référentiel XML voit le jour pour la description du livre : ONIX (ONline Information eXchange). Ce standard de description, qui ne concerne à l’époque que le livre imprimé, a une dimension commerciale car il reprend des informations marketing, sur le prix, etc. ONIX est donc pensé pour les maisons d'édition et les libraires, pas pour les bibliothécaires qui utilisent plutôt le système MARC, plus descriptif. Depuis 2009, ONIX 3.0 permet la description du livre numérique également. Les métadonnées propres au livre numérique interactif ne sont pas intégrées à ONIX 3.0, ce qui ne permet pas la commercialisation correcte de ce produit, en particulier par les librairies indépendantes.

En 2012, l’ISNI (International Standard Name Identifier) vient compléter les métadonnées du livre ; l’ISNI permet, comme son nom l’indique, d’identifier tout-e créateur-trice d’une œuvre de façon certaine dans le monde entier, peu importe si l’orthographe du nom diffère ou si un homonyme existe. Certains grands revendeurs ont adopté un système propre à eux (ASNI pour Amazon, par exemple). Chaque ISNI est lié à une notice, qui peut être complétée au fur et à mesure par qui de droit. A noter que d’autres identifiants existent, comme le DOI (Digital Object Identifier, pour les ressources numériques accessibles sur le web : podcasts audio, vidéos, articles) ou le ISSN (International Standard Serial Number, pour les publications périodiques). 

Classifications thématiques du livre : à chaque livre son (ses) rayon(s)

Si vous voulez que votre livre numérique ou votre livre papier vendu sur Internet soit correctement distribué, il faut penser aux métadonnées ; à la différence d’une vente en librairie où c’est le libraire qui choisit de placer votre livre dans un rayon plutôt qu’un autre, la présence de votre livre dans telle ou telle catégorie d’un site web de revendeur sera automatisée. Une autre différence avec la librairie traditionnelle est que votre livre a le don d’ubiquité : il peut figurer dans plusieurs rayons à la fois. Vos métadonnées doivent donc être bien complétées, en particulier les classifications thématiques. 

Les classifications thématiques identifient la ou les thématiques de votre livre selon une arborescence à plusieurs niveaux. Par exemple : littérature > roman historique > roman historique médiéval. Plusieurs classifications existent, notamment :

  • CLIL (Commission de Liaison interprofessionnelle du Livre) : utilisée par les distributeurs, distributrices et libraires francophones. 1.300 entrées thématiques réparties dans 24 sections ;
  • BISAC (Book Industry Standards And Communication) : utilisée par les distributeurs, distributrices et libraires américains-es. 4.000 entrées thématiques réparties dans 53 sections ;
  • THEMA de EDItEUR : une classification plus internationale. 2.500 entrées thématiques réparties dans 20 sections.

De vraies différences culturelles existent entre ces classifications thématiques. Par exemple, la BISAC compte environ 400 entrées pour les ouvrages traitant de religion, en raison du nombre d’important de communautés religieuses aux Etats-Unis. En fonction d’où vous voulez vendre votre livre (en France, aux Etats-Unis, etc.), votre recours à ces classifications thématiques sera différent.

Open Package Format, Dublin Core, ONIX : métadonnées de l’ePub

Les métadonnées d’un ePub sont stockées dans un fichier interne nommé content.opf. OPF est l’acronyme d’Open Package Format, un référentiel de métadonnées au même titre que DC (Dublin Core). Open Package Format propose des métadonnées propres aux ePUB. Dublin Core propose des métadonnées pour décrire succinctement toute ressource culturelle : livre, image, film, musique, etc. Dans un fichier content.opf, on retrouve habituellement des métadonnées utilisant les référentiels OPF et DC, pouvant être complétées d'autres référentiels, comme iBooks par exemple. Il est aussi possible d'attacher une notice ONIX complète aux métadonnées de l'ePub. Des référentiels de métadonnées qui se présentent tous sous la forme du langage à balises XML.

Les possibilités de décrire et relier son livre grâce aux métadonnées sont quasi infinies. Ceci étant, seules quatre métadonnées sont obligatoires pour l’ePUB

  • le champ Identification (via l’ISBN/EAN par exemple) ;
  • le champ Titre ;
  • le champ Langue ;
  • le champ Dernière modification de la fiche. 

De grands revendeurs et distributeurs en ligne peuvent imposer le remplissage de métadonnées supplémentaires.

OPF, DC, ONIX et autres : les référentiels de métadonnées, parfois également appelés espaces de noms, utilisés apparaissent nommément -on parle de déclaration- dans le fichier XML. Chacun de ces référentiels a un préfixe qui lui est propre. Exemple : pour déclarer l’usage du référentiel Open Package Format (OPF) et du référentiel Dublin Core (DC), on écrira dans le fichier XML : 

<dc:identifier opf:scheme="ean">9782123456789<dc:identifier>

Des logiciels comme Calibre ou Sigil permettent de rendre ces XML plus lisibles. 

Catalogue en ONIX 3.0 : quelles métadonnées de diffusion et quels outils ?

Vous êtes éditeur ou éditrice et vous souhaitez que votre livre soit bien référencé auprès des libraires et revendeurs-ses. Vous avez peut-être une base de données, mais celle-ci n’est pas communicable en tant que telle aux libraires et revendeurs-ses. Vous avez besoin de créer un fichier XML, qui sera le véhicule de vos données vers la base de données des libraires et revendeurs-ses.

Mais quelles métadonnées retenir pour votre livre ?

  • identité du livre (un ISBN par exemple, et ce par version comme évoqué plus haut : livre papier, ePub, édition illustrée, prêt numérique en bibliothèque, etc.) ;
  • description du livre (titre, sous-titre, résumé, pagination, collection, thématique CLIL/BISAC/THEMA, mots-clés, copyright) ;
  • dates du livre (date de mise en vente et de première édition) ;
  • contributeurs-trices du livre (pour chaque contributeur : rôle, prénom, nom, pays, site web, biographie, etc.) ;
  • prix du livre (pour chaque pays : devise et prix par version)

Pour gérer et éditer un catalogue en ONIX, il existe des outils professionnels tels que Onix Edit ou Onix SuiteVous êtes un auteur ou une autrice autoédité-e ? Vous êtes une maison d'édition avec un petit catalogue ? Si votre production n'est pas assez importante pour justifier un investissement dans ce type d'outils, les distributeurs-trices en ligne mettent généralement à votre disposition des interfaces de saisie des métadonnées à travers des formulaires en ligne. Ces interfaces se chargeront ensuite de générer les fichiers XML ONIX correspondants pour les revendeurs-ses. Dans tous les cas de figure, il peut être utile de consulter des guides de bonnes pratiques du langage ONIX avant de se lancer.

Les métadonnées sont un sujet quelque peu technique. A l'heure où nous sommes submergés d'informations, les métadonnées n'en demeurent pas moins essentielles pour trouver et être trouvé. Ce pourquoi le PILEn tenait à organiser cette formation à visée pédagogique, à laquelle 17 acteurs et actrices de l'ensemble de la chaine du livre ont participé. Nous espérons que le présent compte-rendu vous aura également éclairé. Merci à Stéphane Leroy pour sa bonne humeur et sa capacité à vulgariser une telle matière, ainsi qu'à Edinovo.