LibGuides: Gestion des données de recherche: Organiser ses données

Bonnes pratiques

Tout au long du projet, il est conseillé de suivre la règle du 3-2-1:

3 copies sauvegardées;
sur 2 supports de stockage distincts;
dont 1 situé hors campus.

Visionnez la vidéo "Bonnes pratiques de sauvegarde à l'UQTR" du Service des technologies de l'information (STI) pour comprendre en quoi il est nécessaire de choisir les bons supports de stockage.

Il est nécessaire de stocker les données sensibles sur des serveurs sécurisés, plutôt que sur des plateformes infonuagiques commerciales telles Dropbox et Google Drive. La localisation de leurs serveurs et leurs politiques d’utilisation changeantes constituent des freins à leur utilisation en contexte académique et pour des fins de préservation. Les CD, DVD, clés USB, et dans plusieurs cas les disques durs externes ou NAS et ordinateurs portables, ne sont généralement pas des supports recommandés pour stocker et sauvegarder des données de recherche, puisque qu’ils peuvent facilement s’user, se briser ou se faire voler.

Selon le support choisi, la sauvegarde peut être automatisée. Si elle ne l'est pas, il convient de définir une fréquence de sauvegarde pour chaque copie selon le rythme d’évolution du projet (ex. une sauvegarde à chaque modification sur le poste informatique, à chaque jour sur le serveur de l’UQTR, à chaque semaine dans la boite courriel de l'UQTR). Il est conseillé d’inclure dans chaque sauvegarde l’ensemble de la documentation pertinente, comme les métadonnées ou le fichier LISEZMOI.

Pour stocker des données de recherche en phase active d'un projet, voici les recommandations, en fonction du statut de la personne chercheuse. Si le projet comprend des données de recherche sensibles, la gestion des accès devra être étroitement contrôlée. Les membres du corps professoral peuvent également consulter l'offre de service des Projets Spéciaux et Soutien à la Recherche (PSSR) du STI.

	Support principal	Sauvegarde supplémentaire	Autre support
Corps professoral et membres du personnel	Teams/OneDrive/Espace U ou P (sauvegarde automatisée quotidienne)		Courriel institutionnel
Communauté étudiante	Teams du professeur ou de la professeure (sauvegarde automatisée quotidienne)	OneDrive de l’UQTR	Courriel institutionnel

Support principal

Sauvegarde supplémentaire

Autre support

Corps professoral et

membres du personnel

Teams/OneDrive/Espace U ou P

(sauvegarde automatisée quotidienne)

Courriel institutionnel

Communauté étudiante

Teams du professeur ou de la professeure

(sauvegarde automatisée quotidienne)

OneDrive de l’UQTR

Courriel institutionnel

Comment créer un canal Teams?

Seuls les membres du corps professoral peuvent faire une demande de création d’équipe Teams pour ensuite créer des canaux pour chaque étudiant ou étudiante dont ils dirigent le projet de recherche.

• Aller sur https://aide.uqtr.ca (se connecter avec le compte UQTR)

• Sélectionner Service des technologies de l’information (STI)

• Sélectionner Microsoft 365 (courriel @uqtr.ca / Teams / OneDrive)

• Sélectionner Teams : Création d'équipe

Le professeur ou la professeure doit faire la demande à son nom et s’inscrire comme propriétaire. Le nom de l'équipe doit être « Direction d'étudiants **nom de la personne enseignante** » et son type, Groupe de Recherche. Il est possible de créer ainsi plusieurs canaux, soit un par personne étudiante, et inviter celle-ci dans le canal. Ces canaux doivent être privés. Au besoin, contacter Mylène Raymond du STI.

Pensez à conserver les données originales brutes dans un fichier sécurisé en lecture seule ou sous un mot de passe, particulièrement si les données sont sensibles. Vous aurez ainsi toujours la possibilité de revoir les données initiales du projet.

La gestion des données confidentielles demande souvent leur cryptage. L’organisme UKDataService propose différents outils permettant d’effectuer cette procédure : https://www.ukdataservice.ac.uk/manage-data/store/encryption

L’utilisation de formats de fichier ouverts est recommandée pour faciliter l’accès aux données à long terme et le partage. Les formats ouverts peuvent être consultés avec n'importe quel logiciel pouvant traiter le type de fichier (ex: logiciel de traitement de texte, logiciel tableur, logiciel de visualisation d'images, etc.).

Au contraire, les formats propriétaires peuvent rapidement devenir désuets ou causer des problèmes d’incompatibilité, puisqu'ils ne peuvent s'ouvrir qu'avec un logiciel particulier appartenant à une compagnie.

Les formats propriétaires largement utilisés dans certaines disciplines sont acceptables.

L’organisme UKDataService tient à jour une liste de formats recommandés ou acceptables selon le type de données.

Par exemple, voici quelques formats recommandés ou acceptés :

Données textuelles: .txt ou .pdf
Données tabulaires: .csv
Images: .tif ou .pdf
Vidéo: .mp4
Audio: .flac ou .mp3

Par exemple, voici quelques astuces pour formater et normaliser des données tabulaires afin de les conserver en format .csv.:

Une seule information par cellule, un seul tableau par feuille, une seule feuille par fichier
Éviter les cellules vides (inscrire 0 si la valeur est de 0, utiliser une valeur standard pour les données manquantes)
Éviter les caractères spéciaux et toute mise en forme "esthétique"

Quelques bonnes pratiques permettront de facilement identifier le contenu des dossiers et des fichiers.

Il existe plus d’une façon de nommer ses fichiers. L’important est de choisir des règles et de les appliquer uniformément.

Utiliser des titres composés de mots-clés significatifs pour un utilisateur externe (ex. embodied-energy-data).
Inclure une mention du type de documents lorsque possible (ex. questionnaire, donnees, formulaire).
Limiter la longueur des titres autant que possible.
Ne pas utiliser de caractères spéciaux (!, $, %, $ , ?, &, *, /, \, #) ni de caractères accentués (é, à, ç, ë).
Remplacer les espaces entre les mots par des tirets (-).
Lorsqu’il faut mentionner une date, utiliser le format année-mois-jour (ex. 2017-12-30).
Éviter l'utilisation des majuscules.
Assurer le suivi des versions des fichiers en utilisant une séquence numérique claire.
- Pour des modifications mineures à la version v01 : v01-01
- Pour des modifications majeures à la version v01 : v02
Numéroter les dossiers pour faciliter la navigation. Exemple :
- 100-premier-dossier
  - 110-premier-sous-dossier
    - 111-premier-sous-sous-dossier
  - 200-deuxieme-dossier

Voici quelques exemples de titres respectant les bonnes pratiques :

Titres de dossiers

100-questionnaires
- 120-enseignants
300-donnees
- 310-sondages
  - 311-clsc

Titres de fichiers

prevalence-depression-questionnaire-20170418
consentement-formulaire-v02
focusgroupe1-reponses
bourse-crsng-soumission

Backup your data
Par DataONE
Best Practices and UO-specific Resources
Par University of Oregon
Data Security
Par UKData Service
Document and store data using stable file formats
Par DataONE
Formatting data
Par UKData Service
Organisation des fichiers
Par le Service des bibliothèques de l'UQAM
Recommended formats
Par UKDataService
Research Data Management
Par The University of Brisith Columbia
Jeu - Mille Formats
Jeu de cartes sur les formats de fichiers.

Documenter ses données

Pour être repérés et utilisés dans vos travaux futurs, par vos collaborateurs ou par d’autres chercheurs, vos jeux de données doivent être décrits de façon appropriée.

La façon dont cette description sera faite devra être précisée dans votre plan de gestion des données : « toutes les données de recherche devraient être accompagnées de métadonnées qui sont compatibles avec les pratiques exemplaires internationales et disciplinaires, afin de permettre leur accès, leur lisibilité et leur réutilisation par de futurs utilisateurs. » (Gouvernement du Canada, 2016)

Source : DoRaNum [Doranum]. (2017, 22 septembre). Les schémas de métadonnées [vidéo]. Youtube. https://www.youtube.com/watch?v=S-Hw_04ojCc

Pour une présentation claire et rapide du fonctionnement et de l'importance des schémas des métadonnées,
consultez cette vidéo conçue par l'organisme DoRANum.

Les métadonnées sont les données sur vos données.

Elles consistent en l’ensemble des renseignements nécessaires pour comprendre le contexte de création des données.

De manière générale, elles répondent aux questions QQOQCCP (Qui ?, Quoi ?, Où ?, Quand ?, Comment ?, Combien ?, Pourquoi ?).

Ces renseignements sont moissonnés par les moteurs de recherche et facilitent donc le repérage et la réutilisation des jeux de données par d’autres utilisateurs.

Les informations minimales à consigner sont :

Le titre du projet et du jeu de données
Les noms des créateurs et leurs institutions d’attache
Les identifiants uniques des auteurs (ORCiD)
Les dates de création des données
La période de couverture des données
La description brève des données
Le format des données
Les logiciels utilisés pour produire, utiliser ou compresser les données
Les mots-clés permettant leur repérage
L’identification unique des données (ex. DOI)
S'il s'agit d'un jeu de données provenant d'un plus grand ensemble: Décrire l'ensemble global de données dont il provient
La langue des données et de la documentation s’y rattachant
Le format d'encodage des caractères
L’entité responsable de la publication des données
La couverture géographique des données
Les organismes ayant subventionné la recherche
Les droits et licences applicables
Les restrictions d’accès

Les dépôts de données utilisent des schémas de métadonnées standardisés facilitant le repérage et la classification des données.

Il existe des normes générales (ex. Dublin Core), qui peuvent s’appliquer à la plupart des données, et des normes spécialisées (ex. DDI, LOM, VRA, TEI, Darwin Core), visant la description d’un type précis de données. Ce sera lors du dépôt de vos données que vous aurez à fournir ces informations via un formulaire.

Plus vous fournirez d’informations, plus vos données seront repérables et réutilisables par la communauté scientifique. Le Guide des pratiques exemplaires sur les métadonnées de Dataverse Nord V3.0 explique les champs à remplir dans cette plateforme de dépôt.

Le format XML est à privilégier lors du partage des métadonnées. Il assure une interopérabilité avec les divers autres systèmes qui pourront en extraire le contenu. Pour générer un schéma de métadonnées général, utilisez l'outil DataCite Metadata Generator.

Le dictionnaire de données comprend les éléments essentiels à l’utilisation des données.

On y retrouve une description des variables, la signification des abréviations employées dans les fichiers de données, les unités de mesure utilisées, la valeur attribuée aux données manquantes, etc.

L’organisme Center for Open Science décrit les bonnes pratiques associées à la création d’un tel dictionnaire à l’adresse suivante : https://help.osf.io/article/217-how-to-make-a-data-dictionary

À mesure que des jeux de données sont produits, on conseille de créer un fichier indiquant les producteurs du fichier, la méthode ou le logiciel (et sa version) utilisé, le format de compression, l'encodage des caractères, les restrictions appliquées, etc. C’est la mémoire de votre projet.

L’université Cornell a produit un guide pour la rédaction d'un fichier « Lisez-moi » complet : https://data.research.cornell.edu/content/readme.

Un modèle de fichier est également disponible à l’adresse suivante : https://cornell.app.box.com/v/ReadmeTemplate.
Une adaptation française de ce modèle est accessible ici.

Documenting data
Par UKData Service
Guide to Social Science Data Preparation and Archiving - Phase 3: Data Collection and File Creation.
Par Inter-university Consortium for Political and Social Research (ICPSR)
Metadata
Par DataONE
Recommended Formats Statement
Par la Library of Congress
Research Data Management
Par University of California Irving (UCI) Libraries

Soutien aux chercheurs

Gestion des données de recherche

Accès rapide

Colloque GDR 2021

Bibliothécaire responsable

Bonnes pratiques

Titres de dossiers

Titres de fichiers

Documenter ses données