Charadrius melodus Ord, 1824 observed in Canada by Steven McGrath via iNaturalist

Guide de publication en 7 étapes

Introduction

Ce guide explique comment publier vos données de biodiversité auprès de GBIF, pour les partager avec le monde entier, via le répertoire Canadensys. Ce n’est pas la seule méthode que vous pouvez utiliser pour publier vos données, mais nous pensons que c’est, à l’heure actuelle, la plus pratique pour les collections et institutions canadiennes.

Notre répertoire est propulsé par l’Outil de Publication Intégré du GBIF (IPT) et maintenu par notre équipe, ce qui vous permet de télécharger, standardiser, publier et enregistrer vos données en 7 étapes, sans le soucis d’installer et maintenir votre propre outil de publication. Les données sont publiées au nom de votre institution et tout ceci est parfaitement gratuit.

Pour de l’information sur les différentes classes de données, suivez les guides du GBIF suivants :

Conditions

Nous nous soucions des données et nous voulons nous assurer qu’il en va de même pour vous. Afin de publier vos données à l’aide du répertoire Canadensys vous devez répondre aux critères suivants :

  • Vous êtes associés à une collection ou une institution canadienne.
  • Vous publiez des jeux de données de spécimens ou d’observations, une checklist taxonomique, un jeu de données d’échantillonnage ou simplement des métadonnées (en d’autres mots, l’un des 4 types de jeu de données supportés par l’IPT).
  • Vous détenez les droits pour publier ces données.
  • Vous avez la volonté de conserver et maintenir ce jeu de données et d’améliorer sa qualité lorsque possible.
  • Vous avez la volonté de fournir des métadonnées les plus complètes possibles, afin que les utilisateurs puissent aisément comprendre de quoi traite votre jeu de données.
  • Vous publiez les données sur le domaine public, ainsi les usagers pourront réellement les utiliser. Nous vous recommandons vivement la publication sous CC0.

1. Création de votre ressource sur l’IPT

Le répertoire Canadensys utilise l’Outil de Publication Intégré du GBIF (IPT), une application web libre de droit développée par GBIF et personalisée par Canadensys afin de s’intégrer parfaitement à notre site Internet. Nous l’utilisons pour publier et enregistrer tous nos jeux de données. Afin de pouvoir créer et gérer votre propre jeu de données (appelé « ressource »), vous aurez besoin d’un compte utilisateur. Contactez-nous afin que nous puissions vous le créer.

Une fois votre compte créé, connectez-vous en haut de cette page. Cliquez sur l’onglet gérer les ressources afin d’accéder à votre page de gestion. Cette page affiche toutes les ressources que vous gérez. Elle vous apparaîtra donc vide lors de la première utilisation. Vous pouvez créer une nouvelle ressource au bas de la page. Suivez le manuel de l’IPT pour de plus amples instructions.

Attention : veuillez utiliser le format suivant (en minuscule) pour le nom court de votre ressource (shortname) : codedelacollection-typededonnées (ex. acad-specimens ou wildlife-sightings-observations). Cela permet d’identifier de manière unique votre ressource et d’y accéder, et cela ne peut être modifié ultérieurement ! A des fins de test, veuillez utiliser codedelacollection-test (e.g. ubc-test).

Dès que votre ressource est créée, vous pourrez voir une vue d’ensemble de votre ressource, qui est actuellement vide.

2. Exportation

La manière la plus simple pour ajouter vos données sur l’IPT est d’exporter celles-ci de votre base de données sous forme de fichier texte délimité (ex .txt, .tab, .csv). La plupart des bases de données offrent cette option. Utilisez le format d’encodage des caractères UTF-8 lors de votre exportation (et non pas ASCII, Macintosh ou Windows ANSI), afin d’éviter la mauvaise interprétation des caractères accentués (ex. é, à, ü, î ). Si l’option vous est offerte, choisissez d’inclure la ligne d’en-tête dans votre fichier d’exportation (la première ligne avec les noms des champs), puisque cette information sera utile par la suite.

3. Téléchargement

Télécharger votre fichier source sur l’IPT est une étape facile : allez sur la vue d’ensemble de votre ressource > Source de Données puis cliquez sur Choisissez un fichier. Vous devriez songer à compresser/ziper votre fichier source afin d’améliorer la vitesse de téléchargement des larges fichiers. L’IPT décompressera automatiquement votre fichier. Suivre le manuel de l’IPT pour de plus amples informations (incluant le téléchargement de fichiers source multiples, ou directement via la connexion à une base de données).

Une fois que votre fichier source a été correctement téléchargé, une page de détails apparaît (voir l’exemple de capture d’écran dans le manuel IPT), affichant comment votre fichier a été interprété par l’IPT (nombres de colonnes, lignes, lignes d’en-tête, encodage des caractères, délimiteurs de texte, etc.). Cliquez sur le bouton aperçu pour vérifier l’exactitude des informations, puis cliquez sur enregistrer.

4. Conversion Darwin Core

Les données de biodiversité sont publiées sous le standard Darwin Core. Cela inclut une liste de termes et permet que vos données soient interprétées et agrégées correctement par tout le monde. Cela permet également à un agrégateur comme GBIF de combiner vos données avec d’autres données, tel qu’ils le font sur leur portail de données.

La conversion Darwin Core est l’étape qui vous permet de lier les champs de votre fichier source aux termes Darwin Core appropriés. C’est l’étape la plus difficile dans le processus de publication de vos données, et ce pour deux raisons : 1) la liste des termes Darwin Core peut être effrayante, et il peut être compliqué de choisir les termes appropriés à votre jeu de données, et 2) à l’heure actuelle, l’IPT ne permettant que des conversions une-à-une des champs, la facilité de conversion va dépendre de la structure de votre jeu de données, et de la possibilité de l’exporter dans le format le plus proche des standards Darwin Core.

C’est pour ces raisons que nous sommes là ! Contactez-nous afin d’organiser un appel téléphonique ou une rencontre en ligne, pour que nous puissions vous guider à travers les étapes, vérifier votre conversion Darwin Core, suggérer l’utilisation de termes et vous aider à répéter les étapes 2 à 4 jusqu’à la meilleure conversion possible.

Vous trouverez plus d’informations à propos de la conversion Darwin Core dans le manuel de l’IPT (incluant les types de noyaux, les extensions, la conversion automatique, les valeurs par défaut, les traductions de valeurs, etc.) et dans l’introduction au standard Darwin Core sur notre site web.

5. Ajout de métadonnées

Si l’on compare les données à des briques LEGO, alors les métadonnées sont la belle boîte et le feuillet d’instructions. Elles permettent à l’usager de découvrir votre jeu de données et ainsi de déterminer si celui-ci est pertinent pour ses travaux. Il est donc important de prendre un peu de temps pour les compléter.

Allez sur la vue d’ensemble de votre ressource > Metadonnées et cliquez sur Modifier pour ouvrir l’éditeur de métadonnées. Contactez-nous afin d’enregistrer votre institution (si ce n’est déjà fait) auprès du GBIF, afin de lier votre ressource à votre institution dans les métadonnées. Nous vous informerons lorsque votre jeu de données sera disponible sur le portail de données du GBIF.

Toutes les informations que vous fournirez ici seront directement visibles sur la page de votre ressource et associées à vos données lors de la publication. Les métadonnées sont exprimées en EML, qui est un standard utilisé par GBIF, et peuvent également être téléchargées sous forme de fichier RTF (Rich Text Format). Ce dernier peut servir d’ébauche de manuscrit décrivant votre jeu de données (un « Article de Données »), qui peut être soumis à l’un des journaux libres d’accès et révisés par les pairs de Pensoft, tels que le Biodiversity Data Journal, Phytokeys, Zookeys, Biorisk, Neobiota or Nature Conservation.

Suivez le manuel de l’IPT pour des instructions détaillées à propos de l’éditeur de métadonnées, et utilisez l’un des jeux de données déjà publiés comme exemple (collection, checklist). De plus amples informations à propos des métadonnées sont disponibles sur notre site web.

6. Publication

Tout est maintenant prêt pour la publication ! Rendez-vous sur la vue d’ensemble de votre ressource > Versions publiées et cliquez sur Publier. Le IPT va transformer vos données en Darwin Core, les combiner avec les métadonnées et les assembler dans un fichier compressé appelé une Archive Darwin Core.

Si vous souhaitez attribuer un DOI à votre jeu de données, vous devez au préalable cliquer sur « Reserve » puis modifier la visibilité de votre ressource vers « Public », avant de cliquer sur « Publier ». Le DOI est enregistré directement auprès de DataCite et un lien est ajouté aux métadonnées de votre ressource. Pour de plus amples information à propos de l’attribution de DOI, veuillez consulter le Flux de travail IPT DOI. Consultez le manuel de l’IPT pour plus de détails sur la publication en général.

En retournant sur la vue d’ensemble de votre ressource > Versions publiées, vous pouvez voir les détails de votre premier jeu de données publié, incluant la date de publication et la version. Votre jeu de données étant publié de manière privée, la dernière chose qu’il vous reste à faire est de cliquer sur Visibilité de la ressource > Public (voir le manuel de l’IPT) afin de le rendre disponible à tous. Attention : veuillez, s.v.p, ne pas rendre publique une version test.

Félicitations, vous venez de publier votre premier jeu de données aux yeux du monde ! Il est maintenant listé sur la page d’accueil du répertoire et vous pouvez le partager et en faire un lien : https://data.canadensys.net/ipt/resource?r=dataset-shortname. C’est le moment opportun pour prévenir les réseaux régionaux ou thématiques dont vous faites partie, comme par exemple VertNet, le Consortium of Northeastern Herbaria ou la Société d’Entomologie du Canada.

Votre jeu de données publié est une vue statique de vos données qui ne changera pas tant que vous ne téléchargerez pas une version mise à jour de votre fichier source et cliquiez de nouveau sur Publier. Les avantages sont que vos données sont toujours disponibles, ne requièrent pas de connexion directe à votre base de données et peuvent-être aisément partagées (ex. vous pouvez envoyer par courriel l’Archive Darwin Core à un(e) collègue). Cela vous permet également de mieux contrôler le processus de publication : version 1, version 2, etc. et les usagers sont informés de la date de la ressource et des différences entre les versions (ajout de données, corrections d’erreurs, etc).

7. Enregistrement auprès de GBIF

Même si votre jeu de données est maintenant disponible à tous, il peut s’avérer difficile pour un usager de le découvrir. C’est pourquoi nous vous recommandons de l’enregistrer auprès du GBIF (Global Biodiversity Information Facility). Cela permet à vos données de devenir disponibles à une audience internationale via le portail de données de GBIF et cela assure l’attribution complète des crédits à votre institution. En vous enregistrant, vous acceptez les accords de partage de données de GBIF.

Sur la page de la vue d’ensemble de votre ressource, cliquez sur Visibilité de la ressource > Enregistrement (voir le manuel de l’IPT) afin d’enregistrer votre jeu de données auprès du GBIF. Cela leur permettra d’indexer votre ressource à leur portail, à partir duquel elle sera facilement accessible à tous.

Citation

Comme tout le contenu de ce site, ce guide est publié sous CC-BY. Citation :

Desmet, P. & C. Sinou. 2012. 7-step guide to data publication. Canadensys. https://canadensys.net/fr/publish/7-step-guide/