Skip to main content Site web de la bibliothèque de l'UQTR

Gestion des données de recherche

Les dépôts de données

Les options de dépôt à l'UQTR

Le Service de la bibliothèque peut accompagner les chercheurs dans leurs démarches pour déposer des données dans l'un de ces dépôts.  Pour une présentation complète de leurs caractéristiques, consultez le document Options de dépôt au Canada de Portage ou notre document synthèse.

 

Scholars Portal Dataverse est un dépôt numérique fiable multidisciplinaire utilisé par les universités du Québec et de l'Ontario. On y retrouve un espace Dataverse de l'UQTR.

On ne peut y déposer que des fichiers de 3Go et moins. La plateforme permet toutefois de gérer les accès de différents collaborateurs aux données.

Déposez vos données

 

Consultez les documents suivants avant de déposer dans Dataverse:

DFDR est une infrastructure de recherche canadienne développée par les organismes Portage et Calcul Canada. 

Ce dépôt est optimal pour les données massives. Les options de gestion des données en cours de projet sont toutefois limitées.

Aide en vidéo : Qu'est-ce que le DFDR?Télécharger des donnéesTéléverser des donnéesCompte Globus

Déposez vos données

Lors du choix d’un dépôt, il faut considérer :

  • La réputation du dépôt dans son domaine de recherche.
  • L’adéquation entre la communauté desservie par le dépôt et les chercheurs potentiellement intéressés par vos données.
  • Les exigences des revues dans lesquelles on souhaite publier. Certaines revues forcent l’utilisation de certains dépôts de données.
  • La qualité des données déjà présentes dans le dépôt.
  • L’attribution d’un identifiant pérenne de type DOI par le dépôt, et la possibilité de lier les données à votre identifiant ORCiD.
  • Le coût, qui varie selon le volume de données et le soutien offert par les administrateurs du dépôt.
  • Les mesures prises par le dépôt pour assurer l’intégrité et la qualité des données.
  • La capacité du dépôt à gérer les accès restreints ou sous embargo.
  • La qualité de l’infrastructure du dépôt (sauvegarde des données, préservation à long terme, interface de recherche).
  • Les contraintes relatives à la licence et au format. Certains dépôts forcent l’utilisation de licences et de formats ouverts pour assurer une meilleure diffusion des contenus.
  • La possibilité de gérer les versions. Les données pouvant généralement être modifiées après leur diffusion, le dépôt doit être en mesure de supporter la gestion de plusieurs versions et leur horodatage.

Note : Déposer dans plus d’un dépôt peut poser problème en raison de la multiplication des DOI. Certains dépôts spécialisés interdisent donc que les données soient déposées ailleurs.

Pour aller plus loin
Digital Curation Centre. (2016). Where to keep research data. Repéré à http://www.dcc.ac.uk/resources/how-guides-checklists/where-keep-research-data/where-keep-research-data#5
Portage. (2019). Options de dépôt au Canada : un guide de Portage. Repéré à https://portagenetwork.ca/wp-content/uploads/2019/06/Repository-Options-Guide_FR-2.pdf 

Il existe plusieurs centaines de dépôts de données différents. Pour les repérer, utilisez le Registry of research data repositories.

Pour une liste des dépôts canadiens, consultez le Dépôt fédéré de données de recherche (DFDR) du Canada.

Cette section brosse un portrait général des dépôts pour guider votre choix.

  • La stratégie la plus simple et efficace consiste à déposer vos données dans le dépôt le plus fréquemment utilisé par les autres chercheurs de votre domaine.

Comme il s’agit d’une précision à fournir dans le plan de gestion des données, il vaut mieux choisir dès le départ le dépôt qui sera utilisé et prendre connaissance de ses exigences en matière de métadonnées, de licences et de formats des fichiers.

 

Caractéristiques des dépôts

     
Locaux

Portée
VS

Internationaux

À but non lucratif

Financement
VS

Commerciaux

À accès restreint
Limités à une discipline, un type de donnée, un projet, etc.

Diffusion
VS

Ouverts à tous
Multidisciplinaire.

Spécialisés
Centrés sur une discipline, un projet, un type de donnée, etc. 
Indexation spécialisée. 
Optimisés pour une communauté.
Contrôle de qualité supérieure.

Champs de recherche
VS

Multidisciplinaires
Flexibles. Gratuits. Accessibles.
Souvent administrés par une ou des institutions publiques.

Clés en main
Service incluant la préparation des métadonnées, la conversion des fichiers, etc.

Service
VS
Libre-service
Préparation et dépôt des données par le chercheur.

Données sensibles ou confidentielles

Le consentement

Selon l'Énoncé de politique des trois conseils : Éthique de la recherche avec des êtres humains (2018), les chercheurs ont des devoirs éthiques quant à la confidentialité et au respect de la vie privée des participants.

  • Notamment, ceux-ci doivent donner leur consentement pour la diffusion de données sensibles ou confidentielles.
  • Assurez-vous d’obtenir l’avis du Comité d'éthique de la recherche avec des êtres humains de l’UQTR avant de procéder à la diffusion de ce type de données.
  • Pour information, divers organismes fournissent des exemples pour la rédaction de formulaires de consentement

Portage :  Un document fournissant des échantillons du langage de la gestion des données de recherche pour le consentement éclairé.

UKDataService  : https://www.ukdataservice.ac.uk/manage-data/legal-ethical/consent-data-sharing/consent-forms

L'anonymisation

L’anonymisation des données est fortement recommandée lorsqu’il s’agit de données permettant l’identification directe des participants (nom, adresse, coordonnées, numéros d’identification uniques, adresse IP, etc.).

Cela dit, le croisement des données d’identification indirecte (genre, verbatim des réponses, code postal, données socioéconomiques, etc.) peut également permettre l’identification des individus. 

Peu importe le type de données, l’anonymisation est une tâche complexe , en particulier lorsqu’elle est faite à la fin du projet de recherche. En planifier l’exécution dès le début est conseillé.

  • Il existe certains logiciels permettant la gestion des données sensibles (par ex. ARXDataTags).

Selon les dépôts, notez qu’il est possible d’obtenir un embargo sur l’ensemble ou une partie des données pour une période déterminée.

  • Par exemple, l’Inter-University Consortium for Political and Social Research (ICPSR) permet de ne publier que les métadonnées des données sensibles et d’exiger un accès contrôlé et la signature d’un contrat d’utilisation.
  • Les raisons justifiant les restrictions d’accès ou l’anonymisation des données doivent toutefois être précisées dans les métadonnées du jeu de données.

Bibliothèque de l’Université d’Ottawa. Considérations juridiques et éthiques. Repéré à http://biblio.uottawa.ca/fr/services/professeurs/gestion-donnees-recherche/considerations-juridiques-ethiques
CRSH, CRSNG, & IRSC (2018). Énoncé de politique des trois Conseils : éthique de la recherche avec des êtres humains. Ottawa: Sécretariat interagences en éthique de la recherche. Repéré à https://ethics.gc.ca/fra/policy-politique_tcps2-eptc2_2018.html
Hrynaszkiewicz I., Norton M. L., Vickers A. J., & Altman D. G. (2010). Preparing raw clinical data for publication: guidance for journal editors, authors, and peer reviewers. BMJ, 340. Doi: 10.1136/bmj.c181
Inter-university Consortium for Political and Social Research. (2012). Phase 5: Preparing Data for Sharing. Dans Guide to Social Science Data Preparation and Archiving (5e éd.). Repéré à https://www.icpsr.umich.edu/files/deposit/dataprep.pdf
UKDataService. (2018). Consent for data sharing. Repéré à https://www.ukdataservice.ac.uk/manage-data/legal-ethical/consent-data-sharing/consent-forms

Licences et réutilisation

La question de la propriété intellectuelle des données est complexe. Elle dépend notamment du type de données, du partage de la reconnaissance entre les auteurs du projet et des politiques de l’institution d’attache et de l’organisme subventionnaire. En ce qui concerne les données de recherche, le Guide sur les droits d’auteur (RUTTEQ & ValoRIST, 2010) stipule que :

En principe, le droit d’auteur ne protège pas les données en soi, mais plutôt la forme qu’elles prennent lorsqu’elles sont assemblées dans une compilation. Les représentations graphiques de données sous forme de tableaux sont généralement suffisamment originales pour être protégées à titre de compilation, car elles résultent d’un exercice de talent et de jugement de la part de l’auteur.

Ainsi, le choix et l’arrangement des données doivent être plus qu’une sélection mécanique et évidente. Les tribunaux ont en effet déjà jugé que la simple compilation des renseignements des abonnés dans un annuaire téléphonique n’était pas suffisante pour accorder une protection par droit d’auteur à titre de compilation. (p. 9)

Pour plus d’information à ce sujet, consultez Marie-Claude Masson, conseillère juridique au Secrétariat général de l’UQTR. 

Le partage des données peut être accompagné d’une licence d’utilisation, qui indique les modalités de réutilisation permises par l’auteur. Deux types de licences sont actuellement utilisés lors de la diffusion de données de recherche : Open Data Commons et Creative Commons.

La première est conçue spécifiquement pour le partage de données de recherche. Les licences Open Data Commons peuvent prendre trois formes :

  • Public Domain Dedication and Licence (PDDL) : Les données entrent dans le domaine public et peuvent être utilisées sans aucune restriction.
  • Attribution Licence (ODC-By) : Les données peuvent être utilisées sans restriction, à la condition que l’auteur des données soit crédité.
  • Open Database Licence (ODbl) : Le produit de l’utilisation des données doit être partagé sous cette même licence ODbl. La source des données devra également être citée.

Plus générales, les licences Creative Commons sont un standard dans l’univers du libre accès. Deux types sont principalement utilisés lors du partage de données :

  • CC0 : Comme la licence ODC-PDDL, cette licence place les données dans le domaine public.
  • CC BY : Cette licence est équivalente à la licence OCD-By. Cependant, on ne peut utiliser cette licence pour des œuvres non protégées par la loi sur le droit d’auteur (ex. données factuelles).

La tendance générale est aux licences ouvertes sans restriction, car les auteurs d’articles procédant à l’agrégation de données provenant de plusieurs dizaines de jeux de données distincts peuvent difficilement respecter les normes de citation pour chaque donnée.

L’attribution d’un DOI facilitera d’ailleurs la citation et le repérage des données. Les dépôts en attribueront un à votre jeu de données, une fois celui-ci déposé. Comme il s’agit d’un identifiant unique, il faut s’assurer que seul un DOI est attribué à un même ensemble de données, peu importe le nombre de dépôts dans lesquels elles sont déposées (ex. dépôt institutionnel, dépôt disciplinaire international, etc.).

Si possible, il peut également être avantageux d’associer les données à votre identifiant de type ORCiD, pour maximiser la reconnaissance reçue suite à leur diffusion.

Cornel University Research Data Management Service Group. (n.d.). Introduction to intellectual property rights in data management. Repéré à https://data.research.cornell.edu/content/intellectual-property
Creative Commons (s.d.). À propos des licences. Repéré à https://creativecommons.org/licenses/
Open Data Commons. (s.d.). Open Data Commons – Legal tools for Open Data. Repéré à https://opendatacommons.org
Open Knowledge International. (s.d.).  Guide to Open Data Licensing. Repéré à http://opendefinition.org/guide/data/
UKData Service. (2018). Copyright for data sharing and fair dealing. Repéré à https://www.ukdataservice.ac.uk/manage-data/rights/sharing
Réseau universitaire en transfert des technologies de l’Est du Québec (RUTTEQ), & ValoRIST (2010). Guide sur les droits d’auteur : Un guide destiné aux professeurs et aux chercheurs en milieu universitaire. Québec, QC : Université Laval. Repéré à https://oraweb.ulaval.ca/pls/vrr/document.download?path=sweb/guide_droits_auteur/Guide%20sur%20les%20droits%20d%27auteur%20en%20milieu%20universitaire.pdf