Logo du gouvernement du Québec

Lignes directrices sur la diffusion de données ouvertes

Pour fin de diffusion sur le portail, les normes retenues sont le produit d’un travail collaboratif entre des organisations diffusant sur ce portail et elles s’inspirent fortement des standards internationaux en matière de données ouvertes, soit Dublin Core, la Classification des fonctions des administrations publiques COFOG et Data Catalog Vocabulary (DCAT). Elles doivent être respectées par l’ensemble des organisations conformément à l’entente encadrant l’utilisation de ce portail.

Bien que les lignes directrices soient appelées à évoluer afin d’assurer une amélioration continue de la qualité des données diffusées sur ce portail, les bonnes pratiques internationales demeureront une référence incontournable dont s’inspireront les diffuseurs du site Données Québec.

La version intégrale du document est disponible en format PDF: Pdf_by_mimooh  Lignes directrices sur la diffusion des données ouvertes

Abrégé des lignes directrices

  1. Dispositions générales
  2. Données tabulaires
  3. Données hiérarchiques
  4. Données géographiques
  5. Considérations pour les différents types de données
  6. Structures des données
  7. Considérations générales relatives aux fichiers
  8. Métadonnées
  9. Création et mise à jour d’un jeu de données

1. Dispositions générales

1. 1 Objet des lignes directrices

Ce document vient appuyer les diffuseurs de jeux de données sur le portail Données Québec en présentant les normes techniques à respecter.

1. 2 Champ d’application

Les organisations diffusant des données ouvertes sur le portail ont la responsabilité de les respecter et de documenter les dérogations. Les choix retenus ont été déterminés et approuvés par les partenaires du portail.
Il est essentiel de signaler que les lignes directrices mentionnées dans le présent document s’appliquent d’abord et avant tout aux jeux de données diffusés pour une première fois après avril 2016, soit la date de la mise en ligne du portail Données Québec.
En ce qui concerne les données diffusées pour une première fois avant le lancement du portail (avril 2016), les diffuseurs sont fortement encouragés à respecter les normes établies dans ce qui suit lorsqu’ils en effectueront une mise à jour.

1. 3 Schéma synthétique des lignes directrices

Le schéma présenté ci-après définit de manière structurée et synthétisée les lignes directrices à suivre lors de la diffusion de données

 

Retour à la table des matières

2. Données tabulaires

Les jeux de données tabulaires, c’est-à-dire pouvant être représentés sous forme d’un tableau simple comportant des lignes et des colonnes, peuvent être diffusés en données ouvertes sous différents formats de fichiers. Pour fin de diffusion sur le portail : le format CSV est fortement recommandé.

Les considérations propres au type des champs (nombre, date, etc.) sont décrites à la section 5 – Considérations pour les différents types de données, alors que les règles s’appliquant à plusieurs formats de fichiers sont décrites à la section 7 – Considérations générales relatives aux fichiers. Le texte qui suit est relatif aux formats proposés pour les données tabulaires.

2. 1 Format CSV (fortement recommandé)

Le format Comma-separated values (CSV) désigne un format de fichier ouvert représentant des données tabulaires sous forme de valeurs délimitées par des séparateurs de champs. Ce format est celui qui est recommandé, car le portail Données Québec offre des fonctionnalités additionnelles pour les jeux de données diffusés en CSV.

Pour les jeux de données diffusés en CSV, le portail offre également à l’utilisateur la possibilité d’en créer une représentation graphique.
Le portail offre aussi d’autres fonctionnalités plus avancées pour les fichiers CSV, par exemple l’intégration du jeu de données à une base de données permettant une visualisation plus performante pour l’utilisateur et l’extraction du jeu de données (partiellement ou en totalité) à partir d’un API.

Un jeu de données peut être diffusé en plusieurs formats sur le portail. Considérant les nombreux avantages associés aux CSV, il est fortement recommandé de diffuser les jeux de données tabulaires en format CSV (et optionnellement sous d’autres formats).

Structure du CSV
Le CSV n’a jamais fait l’objet d’une spécification formelle, offrant donc beaucoup de flexibilité au diffuseur. Dans le but de simplifier l’interprétation des CSV et de faciliter l’interopérabilité entre eux, les diffuseurs devront respecter les quelques règles suivantes :

  • la première ligne du fichier désigne l’en-tête des colonnes :
    • les en-têtes ne comportent pas de caractères accentués ou d’espaces,
    • pour les en-têtes, la barre de soulignement est utilisée au lieu des espaces;
  • les lignes suivantes donnent les valeurs des données;
  • les éléments sont séparés par des virgules « , »;
  • les guillemets anglais «  »  » » sont utilisés pour délimiter les champs de texte.

2. 2 Formats XLSX et ODS (à utiliser sous certaines conditions)

Les formats (par exemple, XLSX, ODS) utilisés par les logiciels tableurs courants, tels que Microsoft Excel, ne doivent jamais être privilégiés comme format principal de jeux de données. Ces formats sont à éviter pour les raisons suivantes :

  • dans la majorité des cas, les outils de visualisation du portail ne peuvent pas afficher le contenu de ces fichiers;
  • il est impossible d’accéder au contenu de ces fichiers par l’intermédiaire de l’API du portail;
  • les formats de logiciels tableurs permettent la mise en forme des données, allant à l’encontre de la volonté d’offrir des données brutes aux citoyens et aux entreprises.

Toutefois, lorsque les formats XLSX et ODS doivent être utilisés pour des raisons particulières, on doit prendre en considération les éléments suivants:

  • le fichier ne doit contenir aucun formatage;
  • la première ligne désigne l’en-tête des colonnes :
    • les en-têtes ne comportent pas de caractères accentués ou d’espaces,
    • pour les en-têtes, la barre de soulignement est utilisée au lieu des espaces;
  • l’utilisation d’onglets doit être évitée;
  • l’utilisation de fonctions dynamiques doit être évitée;
  • la fusion de cellules est à proscrire.

Par ailleurs, un jeu de données demeure conforme aux présentes lignes directrices si les formats XLSX et ODS ou tout autre format sont offerts en plus du format recommandé (CSV).

Retour à la table des matières

3. Données hiérarchiques

Les jeux de données hiérarchiques, c’est-à-dire ne pouvant pas être représentés sous forme d’un tableau simple, doivent être diffusés dans des formats permettant de reproduire les relations complexes entre les données. Différents formats de fichiers offrent cette possibilité, pour fin de diffusion sur le portail : le format JSON est fortement recommandé.

Malgré le fait que ces formats sont beaucoup plus appropriés pour des données hiérarchiques, ils pourraient aussi être utilisés pour des données tabulaires.

Les considérations propres au type des champs (nombre, date, etc.) sont décrites à la section 5 – Considérations pour les différents types de données, alors que les règles s’appliquant à plusieurs formats de fichiers sont décrites à la section 7 – Considérations générales relatives aux fichiers. Le texte qui suit est relatif aux formats proposés pour les données hiérarchiques.

3. 1 Format JSON (fortement recommandé)

Le format JavaScript Object Notation (JSON) désigne un format de données ouvertes permettant de représenter des données hiérarchiques. Dans le contexte du portail de données ouvertes, le format JSON est recommandé, puisqu’il est destiné à représenter de l’information brute et structurée, qu’il est simple à interpréter et qu’il est facile à intégrer pour la majorité des langages de programmation.

Il est possible de valider le contenu d’un format JSON à l’adresse suivante : http://www.webtoolkitonline.com/json-tester.html

3. 2 Format XML (à retenir sous certaines conditions)

Le format Extensible Markup Language (XML) est un langage informatique de balisage dont l’objectif est le stockage et l’échange de contenu complexe. Il peut donc être utilisé pour des données tabulaires, mais il est beaucoup plus approprié pour des données hiérarchiques. Par son extensibilité, le format XML est également très flexible.

Structure du format XML
Dans le cadre des données ouvertes, le XML doit respecter les conditions suivantes :

  • Le XML est brut et autodescriptif : celui-ci ne contient que les données pertinentes. Il est interdit d’inclure de l’information sur la mise en forme (par exemple, un enregistrement en format XML à partir de l’application Microsoft Excel ne respecte pas ces critères);
  • Le XML est valide : l’arborescence est cohérente et logique. Il est possible de vérifier que le contenu du XML respecte le standard, à l’adresse suivante : http://www.w3schools.com/xml/xml_validator.asp;
  • Aucun caractère accentué n’est intégré dans le nom des balises;
  • Le XML est encodé en UTF-8 et l’encodage est indiqué à l’aide de la balise: <?xml version= »1.0″ encoding= »UTF-8″?>

Retour à la table des matières

4. Données géographiques

Les données géographiques portent sur les entités géographiques qui représentent des objets et des phénomènes localisés dans l’espace. Cette section concerne les jeux de données ouvertes en géomatique.

4. 1 Données vectorielles

Les données vectorielles sont composées d’une partie géométrique (point, ligne et polygone) et d’une partie descriptive (les attributs). Ces données permettent de représenter des objets ou des phénomènes géolocalisés. Pour fin de diffusion sur le portail : le format GeoJSON est fortement recommandé.

Le format principal à adopter est GeoJSON, dans le système géodésique WGS84 (EPSG :4326). GeoJSON est le format ouvert le plus répandu dans le cas de développement d’applications Web en données ouvertes, puisqu’il est une adaptation géographique au JSON. Ce format est apprécié des développeurs et il est supporté par la plupart des systèmes d’information géographique (SIG) sur le marché.

4. 1. 1 Format GeoJSON (fortement recommandé)

Le format Geographic JavaScript Object Notation (GeoJSON) est un format ouvert d’encodage et d’ensemble de données géographiques. Dans le contexte du portail de données ouvertes, le format GeoJSON utilise par défaut le système géodésique WGS84 (EPSG:4326). En utilisant ce système géodésique, lorsque la taille du fichier est inférieure à 5 mégaoctets (Mo), il est possible de tirer profit des outils de visualisation du portail CKAN.

Visualisation
Le système de coordonnées géographiques doit être WGS 84 (projection par défaut : EPSG:4326 : http://spatialreference.org/ref/epsg/4326/) pour visualiser un jeu de données sur le portail, car celui-ci ne peut supporter qu’une seule projection. Pour les jeux de données faisant appel à une autre projection que celle utilisée par défaut (4326), le code EPSG de la projection utilisée doit être documenté à la section Information complémentaire si cette projection s’applique à toutes les ressources (fichiers) du jeu ou dans la description de la ressource lorsque la projection particulière s’applique pour une ressource donnée.

Visualisation enrichie (IGO2)
Pour une visualisation plus interactive (symbologie, interrogation de la couche, connexion à des services Web, superposition avec d’autres jeux de données, etc.) des données géographiques, l’équipe géomatique du MSP et ses partenaires, entre autres le ministère des Transports, de la Mobilité durable et de l’Électrification des transport, l’Institut de la Santé publique du Québec et le ministère de la Culture et des Communications, soutiennent, par l’entremise de l’initiative Infrastructure de géomatique ouverte, l’intégration d’IGO2 (http://igouverte.org/). Ainsi, les données géographiques diffusées sur Données Québec peuvent être intégrées à ce visualisateur, d’ailleurs adapté pour appareils mobiles. Pour en savoir plus sur l’intégration des jeux de données à IGO2, contactez le pilote du portail.

4. 1. 2 Autres formats vectoriels (à utiliser sous certaines conditions)

Lorsque la taille d’un fichier GeoJSON devient trop importante, d’autres formats peuvent être envisagés :

  • Shapefile : fichier compressé;
  • SpatiaLite ou GeoPackage : format léger de base de données géomatiques;
  • KML, GML : un langage dérivé du XML pour encoder, manipuler et échanger des données géographiques;
  • CSV :
    • Si l’information géospatiale est un point, le CSV doit contenir un champ « latitude » et un champ « longitude »,
    • Si l’information géospatiale est une ligne ou une région, le CSV doit contenir un champ « well known text ».

Un service Web peut être offert en complémentarité de ces formats afin de permettre la visualisation.
Pour les jeux de données faisant appel à une autre projection que celle utilisée par défaut (4326), le code EPSG de la projection utilisée doit être documenté à la section Informations complémentaires si cette projection s’applique à toutes les ressources (fichiers) du jeu ou dans la description de la ressource lorsque la projection particulière s’applique pour une ressource donnée.
Outils de conversion
Pour la conversion, deux logiciels libres et gratuits sont proposés :

  • Système d’information géographique (SIG) : le logiciel QGIS dispose de nombreuses fonctionnalités, dont un outil de conversion;
  • Application Web, soit l’outil Web OGRE, qui permet la conversion rapide de fichiers.

Des logiciels propriétaires tels que FME et ArcGIS font également la conversion.
Par ailleurs, un jeu de données demeure conforme aux présentes lignes directrices si d’autres formats sont offerts en plus du format recommandé (GeoJSON).

4. 2 Données matricielles (raster)

Les données matricielles, ou images géoréférencées, sont des représentations numériques d’images du territoire. Avec ce type de données d’images, la projection conique conforme de Lambert (EPSG:32198) est recommandée pour les données couvrant une grande partie du territoire du Québec. Toutefois, il est possible de diffuser les images dans une autre projection, notamment pour des données à l’échelle municipale. Cette projection doit être documentée par son code EPSG, dans le fichier et dans la métadonnée du jeu de données, à la section Informations complémentaires si elle s’applique à toutes les ressources (fichiers) ou dans la description de la ressource si elle est propre à une ressource. Pour fin de diffusion sur le portail : le format GeoTIFF est fortement recommandé
Les autres formats à considérer sont :

  • JPEG2000;
  • Web Coverage Service (WCS);
  • Web Map Service (WMS).

Veuillez prendre note que les images géoréférencées de taille très volumineuse (plusieurs gigaoctets) ne peuvent être téléversées directement sur le portail. Veuillez communiquer avec le pilote du portail pour discuter d’options de rechange.

4. 3 Données 3D

Le format privilégié pour les données 3D est CityGML.

Retour à la table des matières

5. Considérations pour les différents types de données

Les jeux de données contiennent différents types d’information (texte, nombre, date, etc.). Selon le type d’information, certaines recommandations doivent être respectées pour assurer l’intégrité, simplifier l’interprétation et accroître l’interopérabilité.

5. 1 Valeurs inconnues ou non disponibles

Peu importe la nature d’une donnée (date, heure, nombre, booléen, texte), lorsque la valeur n’est pas connue, quelle qu’en soit la raison, il est fortement recommandé de laisser le champ vide plutôt que de mettre une valeur par défaut qui introduirait des erreurs d’interprétation.

5. 2 Date et heure

Lorsqu’une donnée représente une date ou une heure, elle doit être fournie selon la norme ISO8601. À cet égard, voici les spécifications techniques :

  • Format de la date : AAAA-MM-JJ;
  • Format de l’heure : HH:MM:SS;
  • Lorsque la date et l’heure sont dans le même champ, on utilise la valeur « T » pour les séparer [AAAA-MM-JJTHH:MM:SS].

5. 3 Nombre

Pour ce qui est des nombres, les particularités suivantes sont à prendre en considération :

  • Les valeurs décimales sont séparées par un point « . »;
  • Les valeurs sont fournies selon les unités de base du Système international (par exemple, m, g);
  • Les valeurs monétaires sont en dollars ($).

5. 4 Booléen

En ce qui concerne les booléens, il est proposé d’utiliser des valeurs simples et évidentes à interpréter. Par exemple, les combinaisons suivantes peuvent être retenues :

  • TRUE, FALSE;
  • Vrai, Faux;
  • Oui, Non.

Retour à la table des matières

6. Structures des données

Certains jeux contenant des données structurées ont été normalisés (champs requis, champs optionnels, nom des champs, etc.) de manière à faciliter l’interopérabilité et la comparabilité.

Dans certains cas, la structure des données a été normalisée par les partenaires de Données Québec, notamment les jeux de données diffusés pour les compétitions de codage HackQC. Ces normes établies sont décrites sur le portail https ://www.donneesquebec.ca/fr/normes-etablies/.

Pour les jeux n’ayant pas été normalisés par les partenaires de Données Québec et pour lesquels des normes reconnues existent, celles-ci doivent être favorisées dans la mesure du possible.

7. Considérations générales relatives aux fichiers

Outre les règles mentionnées précédemment et propres aux différents formats, les quelques règles générales suivantes sont à prendre en considération.

7. 1 Encodage pour les fichiers textes

Pour tous les formats de fichiers sauvegardés sous forme de texte (y compris, par exemple, les formats CSV, JSON, XML et GEOJSON), l’encodage utilisé doit être UTF-8. Cet encodage de caractères informatiques a été conçu par l’ISO pour respecter l’ensemble du répertoire universel de caractères codés. Dans le contexte québécois, UTF-8 permet de respecter les exigences du français intégral.

Encodage UTF-8 et suite bureautique de Microsoft
La suite bureautique de Microsoft Office ne supporte pas la sauvegarde en UTF-8. La façon la plus simple de remédier à cette situation consiste à utiliser le logiciel Bloc-notes de Windows. Voici la procédure à suivre :
1. Ouvrir le fichier avec Bloc-notes;
2. Dans le menu, sélectionner « Fichier », puis « Enregistrer sous »;
3. Dans le menu « Encodage », sélectionner UTF-8;
4. Enregistrer le fichier.

7. 2 Nom des fichiers

Des noms de fichier structurés et uniformes permettent aux utilisateurs de comprendre ce qu’ils ont téléchargé et limitent les risques d’erreur. Voici la structure de base recommandée pour nommer les fichiers : préfixe-identifiant-suffixe.extension (par exemple, gtdo-rapport-2013.csv).
Voici quelques éléments à prendre en considération :

  • Tout en minuscules;
  • Aucun caractère accentué (par exemple : à, è, î);
  • Aucun caractère spécial (par exemple : %, oe, …, =, ¾);
  • Aucun espace;
  • Éviter les mots superflus (par exemple, les déterminants);
  • Privilégier le trait d’union « – » plutôt que la barre de soulignement « _ ».

7. 3 Format d’image

Une image n’est pas considérée comme une donnée ouverte. Toutefois, certains jeux de données peuvent être accompagnés d’images (photos historiques, désastre naturel, etc.). Deux formats de fichiers d’images sont à envisager :

  • Représentation principale en PNG;
  • Représentation secondaire en JPG.

7. 4 Compression

La compression de fichier doit être évitée. En effet, les outils de prévisualisation du portail ne peuvent gérer les formats compressés (.zip, .tar, etc.). Toutefois, voici quelques exceptions à prendre en considération :

  • Certains jeux sont accompagnés de plusieurs images. Dans ce cas précis, il est acceptable de compresser les fichiers au format ZIP;
  • Certains formats, tels que le Shapefile et le GTFS, sont standardisés sous un format compressé.

Retour à la table des matières

8. Métadonnées

Les métadonnées sont les données qui accompagnent les jeux de données afin de décrire leur contenu et leur contexte. Elles sont un complément essentiel aux jeux de données ouvertes, car elles permettent de structurer la définition du jeu de données. Les métadonnées utilisées sur le portail s’appuient sur les standards DCAT et Dublin Core et sont structurées en deux groupes :

  • les métadonnées associées au jeu de données, de manière globale;
  • les métadonnées associées à chacune des ressources (par exemple, les fichiers attachés au jeu de données). Les ressources contiennent généralement les données pour différentes périodes de temps ou pour différentes perspectives, mais les ressources peuvent aussi contenir des compléments d’information décrivant la signification des champs du jeu de données ou toute information pouvant servir à l’utilisateur des données.

Cette section aborde les différents éléments normatifs concernant les métadonnées utilisées sur le portail Données Québec.

8. 1 Métadonnées associées au jeu de données

Le tableau suivant présente la corrélation entre les métadonnées québécoises et celles de Dublin Core qui sont associées globalement au jeu de données. Il décrit également chacune des métadonnées et mentionne si la métadonnée est requise (R) ou facultative (F). La mention A pour une métadonnée indique qu’elle est gérée automatiquement par le portail.

Dublin core metadata element set Métadonnée du portail (R)(A)(F) Nomenclature Commentaires
Identifier Identifiant unique A Identifiant universel unique ou UUID Généré automatiquement par CKAN
Title Titre R Texte libre Afin d’assurer la pérennité de l’information, il est suggéré de ne pas y apporter de modification; on suggère également de ne pas modifier l’URL donnant accès au jeu de données.
Description Description R Texte libre Permet de décrire le jeu de données de manière générale et de préciser ce qui est commun à la majorité des fichiers associés au jeu de données.
Information complémentaire F Texte libre Caractéristiques importantes pour soutenir l’utilisation et l’interprétation des données, y compris, notamment, les limites, la fiabilité, les exclusions ou inclusions, l’exhaustivité, la granularité, la précision, le système de coordonnées et tout complément d’information sur une autre métadonnée. Il est important de préciser si les caractéristiques s’appliquent à l’ensemble du jeu de données ou si elles sont propres à un fichier donné. Le diffuseur est invité à documenter toute dérogation aux présentes lignes directrices dans cette section.
Subject Catégorie R Menu déroulant
Choix multiples possibles parmi les douze catégories prédéfinies
(voir les points 8.4 et 8.5 pour le détail)
Le champ « subject » fait aussi référence au thésaurus canadien. Au Québec, le thésaurus québécois sera utilisé pour déterminer la catégorie et les mots clés.
Mots clés R Texte libre avec proposition de saisie
(voir le point 8.6)
Coverage Portée géographique R Portée prédéterminée en fonction du territoire des municipalités et du Québec Une portée géographique générale est définie par défaut pour les villes participantes et le gouvernement du Québec. Il sera éventuellement possible d’intégrer une portée personnalisée.
Portée temporelle F AAAA-MM-JJ / AAAA-MM-JJ Période de temps traitée dans le contenu du jeu de données. La période peut être une date fixe s’il s’agit d’un portrait ponctuel.
Date Diffusion initiale A AAAA-MM-JJ HH:mm UTC La date de diffusion initiale est la date à laquelle le jeu de données a été diffusé la première fois. Cette première diffusion pourrait être sur le portail donneesquebec.ca ou sur un autre portail. La date est en temps universel coordonné (UTC).
Mise à jour A AAAA-MM-JJ HH:mm UTC La date de la dernière mise à jour indique la date à laquelle une ressource (fichier de données ou ressource additionnelle) associée au jeu de données a été modifiée ou la date à laquelle la fiche descriptive du jeu de données a été modifiée. La date est en temps universel coordonné (UTC).
Fréquence de mise à jour R Menu déroulant : irrégulier, temps réel, quotidien, hebdomadaire, mensuel, trimestriel, semi-annuel, annuel, bisannuel, triennal La fréquence de mise à jour informe sur la fréquence à laquelle le jeu de données est actualisé. Généralement, cette fréquence est moins élevée que la fréquence à laquelle les données changent réellement.
Rights Licence R Menu déroulant CC0, CC-BY, CC-BY-SA, CC-ND, CC-BY-NC, CC-BY-SA-NC, CC-BY-NC-ND Voir le point 8.3 pour le détail.
Creator Organisation participante R Menu défilant à choix restreint, en fonction de l’organisation principale Ce champ désigne l’organisme diffusant le jeu de données. Le nombre de variantes disponibles pour une organisation principale dépend de ses préférences.
Responsable F Texte libre permettant de préciser l’unité responsable de la création et de la mise à jour Le niveau de précision peut varier selon l’organisation. À titre d’exemple, au gouvernement du Québec, il est recommandé de limiter la précision à la direction générale.
Language Langue R Menu déroulant Français, Français et anglais Par défaut, ce champ sera en français, car le portail ne supporte pas l’anglais pour le moment. N. B. : le Canada indique ce champ pour chacune des ressources, mais dans le cas de Données Québec, c’est la langue des métadonnées du jeu de données.
Source Source URL F Possibilité de modification Lien de l’organisme

8. 2 Métadonnées associées aux fichiers attachés

Le tableau suivant dresse la liste des métadonnées du portail associées à chacun des fichiers attachés au jeu de données. Il décrit également chacune des métadonnées et mentionne si la métadonnée est requise (R) ou facultative (F). La mention A pour une métadonnée indique qu’elle est gérée automatiquement par le portail.

Métadonnée du portail R/F/A Nomenclature
Identifiant unique du fichier A
Titre R Texte libre
Description R Texte libre permettant de décrire ce qui est propre au fichier
Taille F Saisie manuelle : ce champ est particulièrement important si le jeu occupe plusieurs centaines de mégaoctets
Format R Saisie manuelle : (XML, CSV, JSON etc.) tout en majuscules, à l’exception de GeoTIFF, de GeoJSON et de SQLite
Type de ressource R Menu déroulant avec les valeurs suivantes : Carte interactive, Données, Documentation et Services Web. Cette métadonnée permet de faciliter la recherche des ressources en fonction de leur type. Aussi, le diffuseur est invité à fournir la définition des champs dans un document support de type « documentation ».
Lien URL A
Diffusion initiale A Date de la première diffusion du fichier ou du lien vers le fichier sur le portail donneesquebec.ca. La date est en temps universel coordonné (UTC) au format suivant : AAAA-MM-JJ HH:mm UTC.
Respect du standard R Booléen : Si le jeu de données ne satisfait pas à une exigence précise des lignes directrices, l’organisation peut préciser celle-ci.
Mise à jour (fichier ou lien) A La date de la dernière mise à jour indique la date à laquelle la ressource (fichier de données ou lien vers ce fichier dans le cas d’un fichier hébergé à l’externe) a été modifiée. Pour les fichiers qui ne sont pas hébergés sur donneesquebec.ca, la date de la dernière mise à jour (du lien vers le fichier) pourrait différer de la date de mise à jour réelle du fichier référé.
La date est en temps universel coordonné (UTC), au format suivant : AAAA-MM-JJ HH:mm UTC.

8. 3 Métadonnée « Licence »

La métadonnée « Licence » fait partie des différentes métadonnées du jeu de données. La « Creative Commons 4.0 » est la licence adoptée pour les jeux de données du portail. Plus précisément, la variante CC-BY est assignée par défaut aux données du portail. Toutefois, en fonction du contexte des exigences présentes au sein de votre organisme, une variante différente peut être retenue. Pour trouver quelle variante de la licence CC peut convenir à un jeu de données, Creative Commons a créé un outil d’aide à la décision.

Considérations particulières

  • La licence est irrévocable. Ainsi, une fois accordée, elle ne peut être révoquée. Vous devez donc vous assurer que votre organisme est le titulaire des droits d’auteur des données qu’il diffuse. Bien sûr, vous pouvez en tout temps cesser de diffuser un jeu de données. Toutefois la licence continuera de s’appliquer aux données qui auront été antérieurement diffusées.
  • L’organisme détient les droits d’auteur (patrimoniaux et moraux) relatifs aux données qu’il diffuse, ou il les a obtenus sous une licence compatible à la CC4.
  • L’organisme adhère au respect de la vie privée. Il est donc important de :
    • ne pas diffuser de données contenant des renseignements personnels non publics ou qui seraient contraires aux lois en la matière;
    • prendre soin que l’identification d’une personne ne puisse pas se faire par croisement de données.

8. 4 Métadonnée « Catégorie »

Les jeux de données du portail sont classés selon différentes catégories, précisées par l’entremise de métadonnées du jeu de données. Les catégories du portail de données ouvertes s’appuient sur la Classification des fonctions des administrations publiques (COFOG) et sur le thésaurus de l’activité gouvernementale. Le fait d’assurer une corrélation avec ces deux nomenclatures favorise une compréhension mutuelle, tant sur le plan national que sur le plan international, des termes utilisés lors de la classification de l’information. Le thésaurus, accessible à l’adresse http://www.thesaurus.gouv.qc.ca, peut être utilisé pour repérer la bonne catégorie pour un jeu de données.

COFOG Thésaurus québécois Catégorie correspondante sur le portail
Protection de l’environnement Ressources naturelles, agriculture, environnement Environnement, ressources naturelles et énergie
Affaires économiques Agriculture et alimentation
Économie, finances et industrie Économies et entreprises
Transport
Infrastructure
Ordre et sécurité publique Loi, justice et droit Loi, justice et sécurité publique
Services généraux des administrations publiques Gouvernance, politique et administration publique Gouvernement et finances
Enseignement Éducation, emploi et sciences Éducation et recherche
Loisir, culture et culte Information, culture, communications Société et culture
Tourisme et loisirs Tourisme, sports et loisirs
Santé Santé Santé
Protection sociale Soutien aux personnes, familles et communauté Politiques sociales

8. 5 Définition des catégories

En s’inspirant du thésaurus de l’activité gouvernementale du gouvernement du Québec, les catégories permettant de classer les jeux de données du portail ont été définies de la façon suivante.

Environnement, ressources naturelles et énergie
Domaine d’affaires correspondant à la mise en valeur et à l’utilisation optimale du territoire et des ressources énergétiques, forestières et minérales, et ce, dans une perspective de développement durable. Cela inclut les forêts, les gisements de pétrole, de gaz naturel ou de minerai, les ressources hydroélectriques et autres biens de même nature qui ont une valeur économique certaine. Ce domaine concerne aussi la protection des écosystèmes et de la biodiversité, la prévention, la réduction et la suppression de la pollution dans l’environnement ainsi que toute activité climatique pouvant avoir des répercussions sur la vie des citoyens.

Agriculture et alimentation
Domaine d’affaires correspondant à la mise en valeur et à l’utilisation optimale de tout ce qui touche l’agriculture, la pêche et l’alimentation : production, transformation, distribution et commercialisation des produits agricoles et des pêches.

Économie et entreprises
Domaine d’affaires correspondant au développement de la compétitivité des entreprises et des marchés dans le secteur industriel ou de la technologie ou toute autre entreprise à but lucratif.

Transport
Ensemble des moyens publics et privés permettant de déplacer, à l’aide d’un équipement de transport, des personnes ou des marchandises sur une distance relativement importante.

Infrastructure
Ensemble des équipements collectifs de base nécessaires à la vie économique de la nation : routes, ponts, voies ferrées, canaux, ports, réseaux de télécommunication et d’énergie, gestion de l’eau.

Loi, justice et sécurité publique
Domaine d’affaires qui correspond à tout ce qui a trait à la législation et à son application, tout en reconnaissant les droits des citoyens et leur accès au système de justice. En ce sens, cette catégorie inclut le domaine législatif : préparation des lois et règlements (civil et pénal), administration de la justice, protection des personnes, prévention de la criminalité, encadrement des activités policières et administration des décisions des tribunaux. Elle concerne aussi l’ensemble des mesures instaurées par l’État dans le but de garantir l’ordre public et la sécurité des citoyens.

Gouvernement et finances
Domaine d’affaires correspondant à la manière dont le pouvoir est exercé par le gouvernement sur les citoyens et l’appareil d’État. Cette catégorie inclut la gestion des services publics et de son administration, le contrôle du processus législatif et démocratique ainsi que le maintien et le renforcement des relations entretenues par le gouvernement, que ce soit du point de vue municipal ou international.

Éducation et recherche
Domaine d’affaires correspondant au développement et au maintien du système éducatif ainsi qu’à l’accès à celui-ci. Cette catégorie inclut également tout ce qui a trait à l’innovation et à la recherche industrielle et scientifique.

Société et culture
Domaine d’affaires correspondant à la mission du gouvernement en matière de culture, notamment sur le plan de son développement et de sa diffusion. Le terme « culture et société » fait référence à un ensemble des usages, des coutumes, des structures sociales et des manifestations artistiques, culturelles, religieuses et intellectuelles qui définissent un groupe ou une société par rapport à un autre.

Tourisme, sports et loisirs
Domaine d’affaires correspondant à l’action gouvernementale en matière de loisirs, de sports et de tourisme. Ce domaine se traduit par le développement de l’offre touristique, de la mise en marché du Québec et de ses acquis touristiques ainsi que de toute l’infrastructure visant l’accueil des visiteurs.

Santé
Domaine d’affaires correspondant à la régulation du système de santé, c’est-à-dire à la définition des règles de fonctionnement et de leur application ainsi qu’à toutes les spécificités reliées aux domaines médical et social.

Politiques sociales
Domaine d’affaires correspondant à la mission sociale du gouvernement. Il touche, entre autres, les relations avec les citoyens (jeunes, familles, aînés, femmes), l’immigration, le développement communautaire et l’intégration des individus. Ce domaine inclut également le soutien socioéconomique par l’entremise des divers programmes gouvernementaux, des personnes en difficulté ou caractérisées comme vulnérables.

8. 6 Métadonnée « Mots clés »

Le thésaurus contient des milliers de termes liés hiérarchiquement aux grands domaines de l’activité gouvernementale. Il permet donc de repérer non seulement la bonne catégorie pour un jeu de données, mais aussi les mots clés recommandés. Le thésaurus est accessible à l’adresse suivante : http://www.thesaurus.gouv.qc.ca.

Exemple de classification
Par exemple, pour classer le jeu fictif « liste des parcs nationaux du Québec », une recherche de « Parc national » dans le thésaurus propose la suite hiérarchique suivante : « parc → attrait touristique → tourisme → tourisme et loisir ». La catégorie équivalente sur le portail est donc « tourisme, sports et loisirs ». Les mots clés à considérer sont les suivants : parc, attrait touristique, ainsi qu’aire protégée proposée comme terme associé par le thésaurus. Le mot clé « tourisme et loisir » n’a pas de valeur ajoutée, puisqu’on le retrouve déjà dans la métadonnée catégorie.
Les mots clés doivent être saisis en considérant ces points :

  • La première lettre en majuscule;
  • Le reste du mot en minuscules;
  • Pas de pluriel.

Retour à la table des matières

9. Création et mise à jour d’un jeu de données

La création ainsi que la mise à jour des jeux de données et des métadonnées associées à ceux-ci peuvent se faire manuellement, en utilisant le formulaire offert sur le portail de données ouvertes, ou de manière automatisée, en utilisant l’API.
L’API permet d’actualiser un fichier de données. Lorsqu’il est utilisé en combinaison avec la base de données interne du portail, l’API peut servir à remplacer, par une information plus actuelle, des valeurs dans un jeu de données ou à insérer une mise à jour de la valeur tout en conservant les anciennes valeurs. Cette fonctionnalité est seulement offerte avec les fichiers de format CSV.
L’utilisation de l’API et de la base de données est documentée, en anglais, aux adresses suivantes :

  • API : http://docs.ckan.org/en/ckan-2.3/api/index.html;
  • Base de données : http://docs.ckan.org/en/latest/maintaining/datastore.html.

9. 1 Fréquence de mise à jour des données ouvertes

En fonction de la fréquence à laquelle la valeur d’une donnée change, il est proposé de diffuser une mise à jour en données ouvertes selon les options ci-dessous :

  • Données mesurées de manière horaire ou quotidienne : il est suggéré d’effectuer un instantané (snapshot) à une fréquence quotidienne et de rendre cette valeur accessible en données ouvertes;
  • Données mesurées de manière hebdomadaire ou mensuelle : il est suggéré d’effectuer un instantané à une fréquence mensuelle et de rendre cette valeur accessible en données ouvertes;
  • Données mesurées de manière mensuelle, annuelle ou occasionnelle : il est suggéré d’effectuer un instantané à une fréquence trimestrielle ou annuelle et de rendre cette valeur accessible en données ouvertes.
    Au lieu d’un instantané, les valeurs publiées en données ouvertes pourraient également être une somme ou une moyenne, dépendamment de l’information diffusée. Le diffuseur du jeu de données doit donc inscrire dans les métadonnées toute information pertinente à propos de la méthodologie utilisée pour colliger et diffuser les données.

9. 2 Gestion de l’historique des données

Peu importe à quelle fréquence la valeur d’une donnée est mesurée et peu importe la fréquence à laquelle elle est rendue accessible en données ouvertes, il est souvent intéressant de conserver un historique des valeurs pour une certaine période de temps. Différentes manières existent pour conserver un historique des valeurs antérieures, notamment :

  • en diffusant un fichier unique cumulant toutes les valeurs des données;
  • en diffusant un nouveau fichier pour chaque mise à jour. Le fichier peut comporter uniquement les nouvelles valeurs ou contenir une certaine période (par exemple, les 5 dernières années);
  • en actualisant la base de données interne du portail pour insérer les dernières valeurs. La base de données peut être utilisée pour stocker toutes les valeurs diffusées dans le passé ou une procédure peut effectuer les suppressions nécessaires pour conserver uniquement une certaine période. L’utilisation de la base de données a l’avantage pour les utilisateurs des données de pouvoir recourir à l’API pour extraire les valeurs pour la période qu’ils désirent. Cette fonctionnalité est seulement offerte avec les fichiers de format CSV.

La manière retenue dépend généralement des besoins des utilisateurs pour ces données et de la stabilité dans le temps des données antérieures (certaines données historiques peuvent nécessiter d’être revues pour faciliter leur comparaison avec la dernière mise à jour). Peu importe la manière choisie par le diffuseur, ce dernier doit bien décrire comment il gère l’historique des données par l’entremise des métadonnées.

Retour à la table des matières