Aller au contenu principal

Soutien aux chercheurs

Gestion des données de recherche

Les dépôts de données

Les options de dépôt à l'UQTR

Le Service de la bibliothèque peut accompagner les chercheurs dans leurs démarches pour déposer des données dans l'un de ces dépôts.  Pour une présentation complète de leurs caractéristiques, consultez le document Options de dépôt au Canada de l'Alliance de recherche numérique du Canada ou notre document synthèse.

Borealis_logo

 

Borealis (anciennement Scholars Portal Dataverse) est un dépôt numérique fiable multidisciplinaire utilisé par les universités du Québec et de l'Ontario. Les chercheurs de l'UQTR peuvent déposer leurs données dans la collection de l'UQTR de Borealis.

On ne peut y déposer que des fichiers de 5Go et moins. La plateforme permet toutefois de gérer les accès de différents collaborateurs aux données.

Déposez vos données

 

Consultez les documents suivants avant de déposer dans Borealis:

 

DFDR est une infrastructure de recherche canadienne développée par les organismes Alliance de recherche numérique et Calcul Canada. 

Ce dépôt est optimal pour les données massives. Les options de gestion des données en cours de projet sont toutefois limitées.

Déposez vos données

Aide en vidéoQu’est-ce que le DFDR ? ; Obtenir un compte Globus ; Installer Globus Connect Personal ;Télécharger un jeu de données ; Téléverser un jeu de données

Lors du choix d’un dépôt, il faut considérer :

  • La réputation du dépôt dans son domaine de recherche.
  • L’adéquation entre la communauté desservie par le dépôt et les chercheurs potentiellement intéressés par vos données.
  • Les exigences des revues dans lesquelles on souhaite publier. Certaines revues forcent l’utilisation de certains dépôts de données.
  • La qualité des données déjà présentes dans le dépôt.
  • L’attribution d’un identifiant pérenne de type DOI par le dépôt, et la possibilité de lier les données à votre identifiant ORCiD.
  • Le coût, qui varie selon le volume de données et le soutien offert par les administrateurs du dépôt.
  • Les mesures prises par le dépôt pour assurer l’intégrité et la qualité des données.
  • La capacité du dépôt à gérer les accès restreints ou sous embargo.
  • La qualité de l’infrastructure du dépôt (sauvegarde des données, préservation à long terme, interface de recherche).
  • Les contraintes relatives à la licence et au format. Certains dépôts forcent l’utilisation de licences et de formats ouverts pour assurer une meilleure diffusion des contenus.
  • La possibilité de gérer les versions. Les données pouvant généralement être modifiées après leur diffusion, le dépôt doit être en mesure de supporter la gestion de plusieurs versions et leur horodatage.

Note : Choisir un seul dépôt pour éviter la multiplication des DOI. Certains dépôts spécialisés interdisent que les données soient déposées ailleurs.

Pour aller plus loin:

Collège Données de la recherche (2024). Sélectionner un entrepôt thématique de confiance pour le dépôt de données : méthodologie et analyse de l’offre existante. Repéré à https://www.https://hal-lara.archives-ouvertes.fr/hal-04534321
Digital Curation Centre. (2016). Where to keep research data. Repéré à http://www.dcc.ac.uk/resources/how-guides-checklists/where-keep-research-data/where-keep-research-data#5
Portage. (2019). Options de dépôt au Canada : un guide de Portage. Repéré à https://zenodo.org/record/3966357#.YtA2kHbMKUk

Il existe plusieurs centaines de dépôts de données différents. Pour les repérer, utilisez le Registry of research data repositories. Cette section brosse un portrait général des dépôts pour guider votre choix.

Pour une liste des dépôts canadiens, consultez le Dépôt fédéré de données de recherche (DFDR) du Canada. De plus, ce tableau conçu par la bibliothèque de Polytechnique vous permet de comparer les caractéristiques de certains dépôts multidisciplinaires.

  • La stratégie la plus simple et efficace consiste à déposer vos données dans le dépôt le plus fréquemment utilisé par les autres chercheurs de votre domaine.

Comme il s’agit d’une précision à fournir dans le plan de gestion des données, il vaut mieux choisir dès le départ le dépôt qui sera utilisé et prendre connaissance de ses exigences en matière de métadonnées, de licences et de formats des fichiers.

Données sensibles ou confidentielles

Le consentement

Selon l'Énoncé de politique des trois conseils : Éthique de la recherche avec des êtres humains (2022), les chercheurs ont des devoirs éthiques quant à la confidentialité et au respect de la vie privée des participants.

  • Les chercheurs doivent s'assurer d’obtenir l’avis du Comité d'éthique de la recherche avec des êtres humains de l’UQTR avant de procéder à la diffusion de ce type de données.
  • Les participants doivent donner leur consentement pour la diffusion de données sensibles ou confidentielles.

Pour information, divers organismes fournissent des exemples pour la rédaction de formulaires de consentement:

L'Alliance de recherche numérique du Canada a développé un document fournissant des échantillons du langage de la GDR pour le consentement éclairé.

UKDataService donne des conseils sur la façon de documenter le consentement.

L'anonymisation

L’anonymisation des données est fortement recommandée lorsqu’il s’agit de données permettant l’identification directe des participants (nom, adresse, coordonnées, numéros d’identification uniques, adresse IP, etc.). Cela dit, le croisement des données d’identification indirecte (genre, verbatim des réponses, code postal, données socioéconomiques, etc.) peut également permettre l’identification des individus. Consultez ces Directives sur la dépersonnalisation des données créées par Portage pour connaitre quelques pistes de solution.

 Peu importe le type de données, l’anonymisation est une tâche complexe et en planifier l’exécution dès le début du projet est conseillé.

  • Il existe certains logiciels permettant la gestion des données sensibles (par ex. ARXDataTags).

Selon les dépôts, notez qu’il est possible d’obtenir un embargo sur l’ensemble ou une partie des données pour une période déterminée. Également, certains dépôts permettent la diffusion de la description des données uniquement, alors que les données sont accessibles sur demande seulement.

  • Par exemple, l’Inter-University Consortium for Political and Social Research (ICPSR) permet de ne publier que les métadonnées des données sensibles et d’exiger un accès contrôlé et la signature d’un contrat d’utilisation.
  • Les raisons justifiant les restrictions d’accès ou l’anonymisation des données doivent toutefois être précisées dans les métadonnées du jeu de données.

Licences et réutilisation

La question de la propriété intellectuelle des données est complexe. Elle dépend notamment du type de données, du partage de la reconnaissance entre les auteurs du projet et des politiques de l’institution d’attache et de l’organisme subventionnaire. En ce qui concerne les données de recherche, le Guide sur les droits d’auteur (RUTTEQ & ValoRIST, 2010) stipule que :

"En principe, le droit d’auteur ne protège pas les données en soi, mais plutôt la forme qu’elles prennent lorsqu’elles sont assemblées dans une compilation. Les représentations graphiques de données sous forme de tableaux sont généralement suffisamment originales pour être protégées à titre de compilation, car elles résultent d’un exercice de talent et de jugement de la part de l’auteur.

Ainsi, le choix et l’arrangement des données doivent être plus qu’une sélection mécanique et évidente. Les tribunaux ont en effet déjà jugé que la simple compilation des renseignements des abonnés dans un annuaire téléphonique n’était pas suffisante pour accorder une protection par droit d’auteur à titre de compilation." (p. 9)

 

Pour toute question relative à la propriété intellectuelle des données, contactez Marie-Catherine Deschênes, conseillère juridique au Secrétariat général. Pour plus d’information sur le sujet dans un contexte de recherche en partenariat ou de valorisation de la recherche, consultez votre conseillère ou votre conseiller au Service des partenariats et du soutien à l'innovation (SPSI), ou bien contactez Jean-François Fecteau pour que votre demande soit acheminée à une conseillère ou un conseiller du SPSI.

Le partage des données peut être accompagné d’une licence d’utilisation, qui indique les modalités de réutilisation permises par l’auteur. Deux types de licences sont actuellement utilisés lors de la diffusion de données de recherche : Open Data Commons et Creative Commons.

La première est conçue spécifiquement pour le partage de données de recherche. Les licences Open Data Commons peuvent prendre trois formes :

  • Public Domain Dedication and Licence (PDDL) : Les données entrent dans le domaine public et peuvent être utilisées sans aucune restriction.
  • Attribution Licence (ODC-By) : Les données peuvent être utilisées sans restriction, à la condition que l’auteur des données soit crédité.
  • Open Database Licence (ODbl) : Le produit de l’utilisation des données doit être partagé sous cette même licence ODbl. La source des données devra également être citée.

Plus générales, les licences Creative Commons sont un standard dans l’univers du libre accès. Deux types sont principalement utilisés lors du partage de données :

  • CC0 : Comme la licence ODC-PDDL, cette licence place les données dans le domaine public.
  • CC BY : Cette licence est équivalente à la licence OCD-By. Cependant, on ne peut utiliser cette licence pour des œuvres non protégées par la loi sur le droit d’auteur (ex. les données factuelles prises isolément, sans travail d’agencement ni de jugement).

Pour plus d'informations, consultez ce guide d'introduction aux licences Creative Commons préparé par les bibliothèques de l'UQÀM.

La tendance générale est aux licences ouvertes sans restriction, car les auteurs d’articles procédant à l’agrégation de données provenant de plusieurs dizaines de jeux de données distincts peuvent difficilement respecter les normes de citation pour chaque donnée.

L’attribution d’un DOI facilitera d’ailleurs la citation et le repérage des données. Les dépôts en attribueront un à votre jeu de données, une fois celui-ci déposé. Comme il s’agit d’un identifiant unique, il faut s’assurer que seul un DOI est attribué à un même ensemble de données, d'où la recommandation de ne choisir qu'un seul dépôt.

Si possible, il peut également être avantageux d’associer les données à votre identifiant de type ORCiD, pour maximiser la reconnaissance reçue suite à leur diffusion.

Pour en savoir plus sur ORCiD, consultez cette page dans le guide Bibliométrie et impact de la recherche de la bibliothèque.