Nouvelles intégrations et outils - Automne 2023

Last modified by Julia Gilmore on 2024-03-02, 18:41

Blog post in English here 

Borealis est passé à la version 5.13 du logiciel Dataverse plus tôt cette année (voir l’article de blogue précédent). L’équipe de Borealis a configuré les nouvelles fonctionnalités qui prennent en charge :

Pour tester ces fonctionnalités, n’hésitez pas à utiliser la plateforme de démonstration. Contactez-nous pour toute question ou tout commentaire.

L’intégration GitHub - téléversement vers Borealis à l’aide d’une action GitHub

Qu’est-ce que c’est?

Le contenu du dépôt GitHub peut être téléversé dans un ensemble de données Borealis existant à l’aide d’une « action GitHub » appelée Action de téléchargement de Dataverse.

Quel est le cas d’utilisation?

Cette intégration offre un moyen simplifié de sauvegarder votre dépôt GitHub dans un ensemble de données Borealis. Cette action personnalisable permet :

  • le téléversement de l’intégralité du dépôt GitHub ou des sous-répertoires spécifiques
  • la synchronisation automatique lors d’évènements déclencheurs (p. ex., pousser, libérer) ou manuelle à l’aide de l’évènement de répartition du flux de travail
  • l’activation/désactivation de la suppression du contenu de l’ensemble de données avant de le téléverser depuis GitHub
  • l’activation/désactivation de la publication automatique d’une nouvelle version de l’ensemble de données

Comment accéder à cette fonctionnalité?

  1. Dans le dépôt GitHub, créez un fichier YML (c’est-à-dire workflow.yml) fichier dans le répertoire appelé .github.workflows/ (voir capture d’écran ci-dessous)
  2. Saisissez vos configurations, telles que les évènements déclencheurs (voir l’encadré du haut, lignes 1 à 3), et si vous souhaitez téléverser l’intégralité du dépôt (par défaut) ou des sous-répertoires spécifiques
  3. Ajoutez votre jeton API comme variable secrète (voir l’encadré du bas, ligne 12)
  4. Entrez l’URL du serveur (p. ex., https://borealisdata.ca/fr, https://demo.borealisdata.ca/fr) et l’ensemble de données DOI (p. ex., doi:xx.xxxx/xxx/xxxxxx) (voir l’encadré du bas, lignes 13 et 14)

2023-11-17_19-28-46.jpg

Capture d’écran du fichier YML d’un dépôt GitHub avec l’action définie pour être libérée et manuellement et le jeton API inclus comme variable secrète.

Une fois que l’action GitHub a téléversé les fichiers dans Borealis, vous verrez les fichiers apparaître dans la liste des fichiers avec les métadonnées de fichier « Téléchargé avec l’action GitHub depuis » avec le nom de votre dépôt (voir capture d’écran ci-dessous).

2023-11-17_19-36-49.jpg

Aperçu ZIP et la possibilité de télécharger un seul fichier dans une archive ZIP

Qu’est-ce que c’est?

Il est maintenant possible d’obtenir un aperçu des archives ZIP dans le navigateur et les fichiers individuels peuvent être sélectionnés pour le téléchargement.

Quel est le cas d’utilisation?

À l’origine, les gens devaient télécharger une archive ZIP entière afin de visualiser les fichiers qu’elle contenait, même si seul un sous-ensemble de fichiers était requis. L’outil d’aperçu permet de consulter les fichiers avant de les télécharger et de télécharger uniquement un sous-ensemble au besoin.

Comment accéder à cette fonctionnalité?

  1. Accédez à une archive ZIP et cliquez sur l’icône Aperçu (voir capture d’écran).

2023-09-12_15-07-58.jpg

2. Après avoir accepté les conditions d’utilisation d’accès, vous pourrez visualiser la structure de l’archive ZIP, naviguer dans la hiérarchie des fichiers et télécharger des fichiers individuels (voir capture d’écran ci-dessous).

 2023-09-12_15-09-22.jpg

Aperçu NcML et ELN (NcML)

Qu’est-ce que c’est?

Depuis la dernière mise à niveau, le logiciel Dataverse détecte désormais les fichiers NetCDF et HDF5 en fonction de leur contenu et tente d’extraire les métadonnées au format NcML (XML) et de les enregistrer comme fichiers auxiliaires. De plus, les fichiers ELN sont également détectés.

Nous avons maintenant configuré l’aperçu pour vous permettre d’obtenir un aperçu des fichiers NcML et ELN.

Pour plus d’information, consultez notre article de blogue précédent (https://spotdocs.scholarsportal.info/pages/viewpage.action?pageId=305397835#Mise%C3%A0niveaudeBorealisverslaversion5.13-Soutienpourlad%C3%A9tectiondefichiersNetCDFetHDF5) et le Guide avancé (https://guides.dataverse.org/en/latest/user/dataset-management.html#netcdf-and-hdf5) (en anglais).

Quel est le cas d’utilisation?

NetCDF (Network Common Data Form) est un format de données indépendant de la machine, une norme internationale de l’Open Geospatial Consortium et couramment utilisé dans les sciences de l’environnement et du climat.

HDF5 (Hierarchical Data Format) est un format de fichier libre qui prend en charge des données volumineuses et complexes.

Le format de fichier ELN a été développé pour améliorer l’interopérabilité entre les différents logiciels ELN. Ce format d’archive permet l’importation/exportation de données de recherche, telles que des résultats expérimentaux, des protocoles, des descriptions, des modèles, etc.

L’aperçu vous permet d’explorer ces fichiers avant de les télécharger.

Comment accéder à cette fonctionnalité?

Accédez à la liste des fichiers pour les fichiers détectés comme NetCDF, HDF5 ou ELN. Cliquez sur l’icône en forme d’œil pour accéder à l’aperçu.

2023-10-12_16-09-35.jpg

Lorsque l’outil d’aperçu s’ouvre, vous pourrez visualiser le contenu du fichier grâce à l’aperçu NetCDF.

2023-10-12_16-10-14.jpg

Métadonnées du flux de travail informatique

Qu’est-ce que c’est?

Un flux de travail informatique décrit un processus permettant de coordonner plusieurs tâches de calcul et leurs dépendances de données qui conduisent à l’ensemble de données finalisé résultant, p. ex., l’exécution de code, l’utilisation d’outils de ligne de commande, l’accès à une base de données, la soumission d’une tâche à une ressource de calcul en infonuagique et l’exécution de scripts de traitement de données. Dans le diagramme ci-dessous, un exemple de flux de travail est présenté dans lequel les données d’origine suivent une série de tâches et de conditions qui sont organisées en étapes, aboutissant finalement au produit de données final.

 Un exemple de flux de travail montrant diverses tâches et conditions aboutissant à des produits de données finaux.

(Source : Institute for Qualitative Science (consulté le 01/06/2023). Guide d’utilisation de Dataverse https://guides.dataverse.org/en/5.13/user/dataset-management.html#computational-workflow)

L’information sur le flux de travail informatique peut être incluse dans Borealis de deux manières. Premièrement, les utilisateurs peuvent appliquer une balise « flux de travail » aux fichiers de flux de travail informatique téléversés dans Borealis. Deuxièmement, Borealis dispose désormais d’un bloc de métadonnées de flux de travail informatique qui peut être lié à un dépôt de code externe où sont stockés le code et les étapes associées. Ces deux options sont décrites plus en détail ci-dessous.

Quel est le cas d’utilisation?

L’inclusion de flux de travail informatiques dans la documentation des ensembles de données fait de plus en plus partie des meilleures pratiques pour soutenir la gestion transparente et la reproductibilité des données. L’information permet une meilleure compréhension de la transformation des données d’origine en produit fini lors d’utilisations futures de l’ensemble de données.

Comment accéder à cette fonctionnalité?

Il existe deux options pour inclure l’information sur le flux de travail informatique dans Borealis :

  1. Créer un fichier de flux de travail informatique en utilisant un cadre ou un outil (p. ex., Common Workflow Language (CWL), Carnet R, registres de flux de travail). Ensuite, téléversez le fichier dans l’ensemble de données et ajoutez une balise personnalisée appelée « flux de travail » (voir capture d’écran ci-dessous).

2023-11-17_19-49-55.jpg

2023-11-17_19-52-24.jpg

2. Une fois l’ensemble de données enregistré, accédez à l’onglet « Métadonnées » et sélectionnez « Ajouter + Modifier les métadonnées ». Accédez au bloc de métadonnées du flux de travail informatique et ajoutez des détails en pour lier les dépôts de code externes contenant le code et les détails associés sur les étapes du flux de travail informatique. Les champs peuvent contenir des détails sur le type de structure de flux de travail informatique, l’URL du dépôt de code externe où se trouve le code associé et l’URL de la documentation ou du texte décrivant le flux de travail informatique et son utilisation.

2023-11-17_19-53-17.jpg

Pour plus d’information :

Goble et al., (2020) Flux de travail informatiques FAIR. https://direct.mit.edu/dint/article/2/1-2/108/10003/FAIR-Computational-Workflows

Guides de Dataverse. « Ensemble de données + gestion de fichiers. » https://guides.dataverse.org/en/5.13/user/dataset-management.html#computational-workflow