Lignes directrices sur la diffusion de données ouvertes

Pour fin de diffusion sur le portail, les normes retenues sont le produit d’un travail collaboratif entre des organisations diffusant sur ce portail et elles s’inspirent fortement des standards internationaux en matière de données ouvertes, soit Dublin Core, la Classification des fonctions des administrations publiques COFOG et Data Catalog Vocabulary (DCAT). Elles doivent être respectées par l’ensemble des organisations conformément à l’entente encadrant l’utilisation de ce portail.

Bien que les lignes directrices soient appelées à évoluer afin d’assurer une amélioration continue de la qualité des données diffusées sur ce portail, les bonnes pratiques internationales demeureront une référence incontournable dont s’inspireront les diffuseurs du site Données Québec.

La version intégrale du document est disponible en format PDF : Lignes directrices sur la diffusion de données ouvertes.

1. 1 Objet des lignes directrices

Ce document vient appuyer les diffuseurs en présentant les normes techniques à respecter pour publier les jeux de données sur le portail Données Québec. Un jeu de données est composé de ressources (fichiers) et de métadonnées. Un jeu de données contient au moins une ressource de type données et peut être accompagné d’une carte interactive, d’un service Web ou de documentation. Les ressources ont aussi leurs métadonnées spécifiques.

1. 2 Champ d’application

Les organisations diffusant des données ouvertes sur le portail ont la responsabilité de respecter les lignes directrices et de documenter les dérogations. Les choix retenus ont été déterminés et approuvés par les partenaires du portail.

Il est essentiel de signaler que les lignes directrices mentionnées dans le présent document s’appliquent d’abord et avant tout aux jeux de données diffusés pour une première fois après avril 2016, soit la date de la mise en ligne du portail Données Québec.

En ce qui concerne les données diffusées pour une première fois avant le lancement du portail (avril 2016), les diffuseurs sont fortement encouragés à respecter les normes établies dans ce qui suit lorsqu’ils en effectueront une mise à jour.

1. 3 Schéma synthétique des lignes directrices

Le schéma présenté ci-après définit de manière structurée et synthétisée les lignes directrices à suivre lors de la diffusion de données


Les jeux de données tabulaires, c’est-à-dire pouvant être représentés sous forme d’un tableau simple comportant des lignes et des colonnes, peuvent être diffusés en données ouvertes sous différents formats de fichiers. Pour fin de diffusion sur le portail :


le format CSV est fortement recommandé.


Les considérations propres au type des champs (nombre, date, etc.) sont décrites à la section 5 – Considérations pour les différents types de données, alors que les règles s’appliquant à plusieurs formats de fichiers sont décrites à la section 7 – Considérations générales relatives aux fichiers. Le texte qui suit est relatif aux formats proposés pour les données tabulaires.

2. 1 Format CSV (fortement recommandé)

Le format Comma-separated values (CSV) désigne un format de fichier ouvert représentant des données tabulaires sous forme de valeurs délimitées par des séparateurs de champs. Ce format est celui qui est recommandé, car le portail Données Québec offre des fonctionnalités additionnelles pour les jeux de données diffusés en CSV.

Par exemple, le portail affiche automatiquement le contenu d’un fichier CSV dans un tableau où l’utilisateur du portail peut trier et filtrer les données.

Pour les jeux de données diffusés en CSV, le portail offre également à l’utilisateur la possibilité d’en créer une représentation graphique.
Le portail offre aussi d’autres fonctionnalités plus avancées pour les fichiers CSV, par exemple l’intégration du jeu de données à une base de données permettant une visualisation plus performante pour l’utilisateur et l’extraction du jeu de données (partiellement ou en totalité) à partir d’un API.

Un jeu de données peut être diffusé en plusieurs formats sur le portail. Considérant les nombreux avantages associés aux CSV, il est fortement recommandé de diffuser les jeux de données tabulaires en format CSV (et optionnellement sous d’autres formats).


Structure du CSV

Le CSV n’a jamais fait l’objet d’une spécification formelle, offrant donc beaucoup de flexibilité au diffuseur. Dans le but de simplifier l’interprétation des CSV et de faciliter l’interopérabilité entre eux, les diffuseurs devront respecter les quelques règles suivantes :

  • la première ligne du fichier désigne l’en-tête des colonnes :
    • les en-têtes ne comportent pas de caractères accentués ou d’espaces,
    • pour les en-têtes, la barre de soulignement est utilisée au lieu des espaces;
  • les lignes suivantes donnent les valeurs des données;
  • les éléments sont séparés par des virgules « , »;
  • les guillemets anglais «» sont utilisés pour délimiter les champs de texte.

Outil de validation

Il est possible de valider le contenu d’un CSV à l’aide de l’outil CSV Lint : http://csvlint.io.


Exemple de données en CSV

Un jeu de données donnant l’état d’avancement de différents projets pourrait ressembler à ce qui suit en format CSV. Ce fichier pourrait être représenté dans le tableau suivant.


Tableau 1 – Représentation d’un CSV sous forme de tableau

IdNomNom_OrganismeDate_Fin_ProjeteeStatutVariation_echeancier
11598Refonte ERT – État du réseau routierTransports2015-10-30Actif-45.9
13942Téléphonie IPConseil exécutif2015-06-30Terminé3.4
13373Rehaussement Infrastructure Serveurs / ServicesSociété d’habitation du Québec2015-12-31Terminé-25.6
13964Refonte du site Internet ministérielCulture et Communications2017-03-31Suspendu 

 

2. 2 Format XLSX et ODS (à utiliser sous certaines conditions)

Les formats (par exemple, XLSX, ODS) utilisés par les logiciels tableurs courants, tels que Microsoft Excel, ne doivent jamais être privilégiés comme format principal de jeux de données. Ces formats sont à éviter pour les raisons suivantes :
  • dans la majorité des cas, les outils de visualisation du portail ne peuvent pas afficher le contenu de ces fichiers;
  • il est impossible d’accéder au contenu de ces fichiers par l’intermédiaire de l’API du portail;
  • les formats de logiciels tableurs permettent la mise en forme des données, allant à l’encontre de la volonté d’offrir des données brutes aux citoyens et aux entreprises.

Toutefois, lorsque les formats XLSX et ODS doivent être utilisés pour des raisons particulières, on doit prendre en considération les éléments suivants :

  • le fichier ne doit contenir aucun formatage;
  • la première ligne désigne l’en-tête des colonnes :
    • les en-têtes ne comportent pas de caractères accentués ou d’espaces,
    • pour les en-têtes, la barre de soulignement est utilisée au lieu des espaces;
  • l’utilisation d’onglets doit être évitée;
  • l’utilisation de fonctions dynamiques doit être évitée;
  • la fusion de cellules est à proscrire.

Par ailleurs, un jeu de données demeure conforme aux présentes lignes directrices si les formats XLSX et ODS ou tout autre format sont offerts en plus du format recommandé (CSV).

 

Les jeux de données hiérarchiques, c’est-à-dire ne pouvant pas être représentés sous forme d’un tableau simple, doivent être diffusés dans des formats permettant de reproduire les relations complexes entre les données. Différents formats de fichiers offrent cette possibilité, pour fin de diffusion sur le portail : 


le format JSON est fortement recommandé.


Malgré le fait que ces formats soient beaucoup plus appropriés pour des données hiérarchiques, ils pourraient aussi être utilisés pour des données tabulaires.

Les considérations propres au type des champs (nombre, date, etc.) sont décrites à la section 5 – Considérations pour les différents types de données, alors que les règles s’appliquant à plusieurs formats de fichiers sont décrites à la section 7 – Considérations générales relatives aux fichiers. Le texte qui suit est relatif aux formats proposés pour les données hiérarchiques.

3. 1 Format JSON (fortement recommandé)

Le format JavaScript Object Notation (JSON) désigne un format de données ouvertes permettant de représenter des données hiérarchiques. Dans le contexte du portail de données ouvertes, le format JSON est recommandé, puisqu’il est destiné à représenter de l’information brute et structurée, qu’il est simple à interpréter et qu’il est facile à intégrer pour la majorité des langages de programmation.

Outil de validation.

Il est possible de valider le contenu d’un format JSON à l’adresse suivante : http://www.webtoolkitonline.com/json-tester.html 

 

3. 2 Format XML (à retenir sous certaines conditions)

Le format Extensible Markup Language (XML) est un langage informatique de balisage dont l’objectif est le stockage et l’échange de contenu complexe. Il peut donc être utilisé pour des données tabulaires, mais il est beaucoup plus approprié pour des données hiérarchiques. Par son extensibilité, le format XML est également très flexible.

Structure du format XML

Dans le cadre des données ouvertes, le XML doit respecter les conditions suivantes :

  • Le XML est brut et autodescriptif : celui-ci ne contient que les données pertinentes. Il est interdit d’inclure de l’information sur la mise en forme (par exemple, un enregistrement en format XML à partir de l’application Microsoft Excel ne respecte pas ces critères);
  • Le XML est valide : l’arborescence est cohérente et logique. Il est possible de vérifier que le contenu du XML respecte le standard, à l’adresse suivante : http://www.w3schools.com/xml/xml_validator.asp ;
  • Aucun caractère accentué n’est intégré dans le nom des balises;
  • Le XML est encodé en UTF-8 et l’encodage est indiqué à l’aide de la balise.

Les données géographiques portent sur les entités géographiques qui représentent des objets et des phénomènes localisés dans l’espace. Cette section concerne les jeux de données ouvertes en géomatique.

4. 1 Données vectorielles

Les données vectorielles sont composées d’une partie géométrique (point, ligne et polygone) et d’une partie descriptive (les attributs). Ces données permettent de représenter des objets ou des phénomènes géolocalisés. Pour fin de diffusion sur le portail : 


le format GeoJSON est fortement recommandé.


4. 1. 1 Format GeoJSON (fortement recommandé)

GeoJSON est le format ouvert le plus répandu dans le cas de développement d’applications Web en données ouvertes, puisqu’il est une adaptation géographique du JSON. Ce format est apprécié des développeurs et il est accepté par la plupart des systèmes d’information géographique (SIG) sur le marché. Dans le contexte du portail de données ouvertes, le format GeoJSON utilise par défaut le système géodésique WGS84 (EPSG: 4326). En utilisant ce système géodésique, lorsque la taille du fichier est inférieure à 5 mégaoctets (Mo), il est possible de tirer profit des outils de visualisation du portail CKAN.

Exemple d’un fichier GeoJSON 

Le jeu de données « Échelles limnimétriques (publiques) » publié par le Ministère de la Sécurité Publique (MSP) offre un exemple de fichier GeoJSON. Les deux figures représentées après décrivent respectivement un extrait du fichier de format GeoJSON et son aperçu par l’entremise de l’outil de visualisation CKAN.

Visualisation

Le système de coordonnées géographiques doit être WGS 84 (projection par défaut : EPSG:4326 : http://spatialreference.org/ref/epsg/4326/ ) pour visualiser un jeu de données sur le portail, car celui-ci ne peut supporter qu’une seule projection. Pour les jeux de données faisant appel à une autre projection que celle utilisée par défaut (4326), le code EPSG de la projection utilisée doit être documenté à la section « Informations complémentaires » si cette projection s’applique à toutes les ressources (fichiers) du jeu ou dans la description de la ressource lorsque la projection particulière s’applique pour une ressource donnée.

Visualisation enrichie (IGO2)

Pour une visualisation plus interactive des données géographiques (symbologie, interrogation de la couche, connexion à des services Web, superposition avec d’autres jeux de données, etc.), la carte interactive du Partenariat Données Québec peut être utilisé. Cette carte est fondée sur la version 2.0 d’IGO (Infrastructure géomatique ouverte), qui est une solution Web libre en géomatique  conçue grâce à un réseau d’échange regroupant des spécialistes en géomatique provenant de plusieurs ministères et organismes de l’Administration publique québécoise (http://igouverte.org/ ). Ainsi, les données géographiques diffusées sur Données Québec peuvent être intégrées à ce visualisateur , d’ailleurs adapté pour appareils mobiles. Pour en savoir plus sur l’intégration des jeux de données à IGO2, contactez le pilote du portail.

4. 1. 2 Autres formats vectoriels (à utiliser sous certaines conditions)

Pour diverses raisons, le format GeoJSON pourrait ne pas être adapté pour la diffusion de certaines données. Lorsque la situation se présente, d’autres formats peuvent être envisagés :

  • GeoPackage : format ouvert de données géospatiales raster ou vecteur, mis-en-oeuvre sous la forme d’une base de données SQLite, ce format supporte les relations.
    • Le standard GeoPackage adopté par l’Open Geospatial Consortium (OGC) est recommandé pour la diffusion de base de données volumineuses comprenant des relations.
    • Il est à noter que le standard GeoPackage de l’OGC recommande, entre autres, l’utilisation des minuscules pour nommer les tables et les champs.
  • Shapefile : format ouvert largement répandu, publié sous la forme d’une archive compressée;
  • KML, GML : un langage dérivé du XML pour encoder, manipuler et échanger des données géographiques;
  • CSV :
    • Si l’information géospatiale est un point, le CSV doit contenir un champ « latitude » et un champ « longitude »,
    • Si l’information géospatiale est une ligne, une polyligne ou un polygone, le CSV doit contenir un champ « well known text ».

Un service Web peut être offert en complémentarité de ces formats afin de permettre la consommation par certains outils et les standards de l’OGC sont à privilégier.

  • Web Feature Service (WFS)
  • Service de vecteurs tuilés (Vector Tile Service)

Pour les jeux de données faisant appel à une autre projection que celle utilisée par défaut (4326), le code EPSG de la projection utilisée doit être documenté à la section « Informations complémentaires » si cette projection s’applique à toutes les ressources (fichiers) du jeu ou dans la description de la ressource lorsque la projection particulière s’applique pour une ressource donnée. 

Par ailleurs, un jeu de données demeure conforme aux présentes lignes directrices si d’autres formats sont offerts en plus du format recommandé (GeoJSON).

Exemple d’un format CSV contenant de l’information géographique.

À titre d’exemple, le jeu de données « Sites patrimoniaux cités par les municipalités et les communautés autochtones », diffusé par le ministère de la Culture et des Communications, permet une visualisation par géolocalisation, puisqu’il contient les champs « latitude » et « longitude ». Les deux figures présentées ci-après illustrent, respectivement, un extrait du contenu du fichier de format CSV et une visualisation d’un fichier CSV contenant l’information géographique.

Outils de conversion

Pour la conversion, deux logiciels libres et gratuits sont proposés :

  • Système d’information géographique (SIG) : le logiciel QGIS dispose de nombreuses fonctionnalités, dont un outil de conversion;
  • Application Web, soit l’outil Web OGRE, qui permet la conversion rapide de fichiers.
  • La bibliothèque GEDAL offre des outils qui peuvent être utilisés à partir d’un langage de programmation (C, C++, Java, Python, etc.) pour faire la conversion
    de fichier.

Des logiciels propriétaires tels que FME et ArcGIS font également la conversion.

4. 2 Données matricielles (raster)

Les données matricielles, ou images géoréférencées, sont des représentations numériques d’images du territoire. Avec ce type de données d’images, la projection conique conforme de Lambert (EPSG:32198) est recommandée pour les données couvrant une grande partie du territoire du Québec. Toutefois, il est possible de diffuser les images dans une autre projection, notamment pour des données à l’échelle municipale. Cette projection doit être documentée par son code EPSG, dans le fichier et dans la métadonnée du jeu de données, à la section « Informations complémentaires » si elle s’applique à toutes les ressources (fichiers) ou dans la description de la ressource si elle est propre à une ressource. Pour fin de diffusion sur le portail : 


le format GeoTIFF est fortement recommandé.


Les autres formats à considérer sont :

  • JPEG2000.

Un service de cartographie Web peut être offert en complémentarité de ces formats afin de permettre la consommation par certains outils et les standards de l’OGC sont à privilégier, par exemple :

  • Web Coverage Service (WCS);
  • Web Map Service (WMS):
  • Web Map Tile Service (WMTS).

Veuillez prendre note que pour téléverser des images géoréférencées de taille très volumineuse (plusieurs gigaoctets) sur le portail, une procédure particulière doit être utilisée. Veuillez communiquer avec le pilote du portail pour en savoir plus.

4. 3 Données 3D

Le format privilégié pour les données 3D est CityGML.


Les jeux de données contiennent différents types d’information (texte, nombre, date, etc.). Selon le type d’information, certaines recommandations doivent être respectées pour assurer l’intégrité, simplifier l’interprétation et accroître l’interopérabilité.

5. 1 Valeurs inconnues ou non disponibles

Peu importe la nature d’une donnée (date, heure, nombre, booléen, texte), lorsque la valeur n’est pas connue, quelle qu’en soit la raison, il est fortement recommandé de laisser le champ vide plutôt que de mettre une valeur par défaut qui introduirait des erreurs d’interprétation.

5. 2 Date et heure

Lorsqu’une donnée représente une date ou une heure, elle doit être fournie selon la norme ISO8601. À cet égard, voici les spécifications techniques :

  • Format de la date : AAAA-MM-JJ;
  • Format de l’heure : HH:MM:SS;
  • Lorsque la date et l’heure sont dans le même champ, on utilise la valeur « T » pour les séparer [AAAA-MM-JJTHH:MM:SS].

5. 3 Nombre

Pour ce qui est des nombres, les particularités suivantes sont à prendre en considération :

  • Les valeurs décimales sont séparées par un point « . »;
  • Les valeurs sont fournies selon les unités de base du Système international (par exemple, m, g);
  • Les valeurs monétaires sont en dollars canadiens ($).

5. 4 Booléen

En ce qui concerne les booléens, il est proposé d’utiliser des valeurs simples et évidentes à interpréter. Par exemple, les combinaisons suivantes peuvent être retenues :

  • TRUE, FALSE;
  • Vrai, Faux;
  • Oui, Non.


Certains jeux contenant des données structurées ont été normalisés (champs requis, champs optionnels, nom des champs, etc.) de manière à faciliter l’interopérabilité et la comparabilité.

Dans certains cas, la structure des données a été normalisée par les partenaires de Données Québec, notamment les jeux de données diffusés pour les compétitions de codage HackQC. Ces normes établies sont décrites sur le portail https://www.donneesquebec.ca/normes-etablies/.

Pour les jeux n’ayant pas été normalisés par les partenaires de Données Québec et pour lesquels des normes reconnues existent, celles-ci doivent être favorisées dans la mesure du possible.


Outre les règles mentionnées précédemment et propres aux différents formats, les quelques règles générales suivantes sont à prendre en considération.

7. 1 Encodage pour les fichiers textes

Pour tous les formats de fichiers sauvegardés sous forme de texte (y compris, par exemple, les formats CSV, JSON, XML, GeoJSON, SHP ainsi que les champs textes dans une base de données géospatiales), l’encodage utilisé doit être UTF-8. Cet encodage de caractères informatiques a été conçu par l’ISO pour respecter l’ensemble du répertoire universel de caractères codés. Dans le contexte québécois, UTF-8 permet de respecter les exigences du français intégral.

Encodage UTF-8 et suite bureautique de Microsoft

La suite bureautique de Microsoft Office ne supporte pas la sauvegarde en UTF-8. La façon la plus simple de remédier à cette situation consiste à utiliser le logiciel Bloc-notes de Windows. Voici la procédure à suivre :
1. Ouvrir le fichier avec Bloc-notes;
2. Dans le menu, sélectionner « Fichier », puis « Enregistrer sous »;
3. Dans le menu « Encodage », sélectionner UTF-8;
4. Enregistrer le fichier.

7. 2 Nom des fichiers

Des noms de fichier structurés et uniformes permettent aux utilisateurs de comprendre ce qu’ils ont téléchargé et limitent les risques d’erreur. Voici la structure de base recommandée pour nommer les fichiers : préfixe-identifiant-suffixe.extension (par exemple, gtdo-rapport-2013.csv).
Voici quelques éléments à prendre en considération :

  • Tout en minuscules;
  • Aucun caractère accentué (par exemple : à, è, î);
  • Aucun caractère spécial (par exemple : %, oe, …, =, ¾);
  • Aucun espace;
  • Éviter les mots superflus (par exemple, les déterminants);
  • Privilégier le trait d’union « – » plutôt que la barre de soulignement « _ ».

7. 3 Format d’image

Une image n’est pas considérée comme une donnée ouverte. Toutefois, certains jeux de données peuvent être accompagnés d’images (photos historiques, désastre naturel, etc.). Deux formats de fichiers d’images sont à envisager :

  • Représentation principale en PNG;
  • Représentation secondaire en JPG.

7. 4 Compression

La compression de fichier doit être évitée. En effet, les outils de prévisualisation du portail ne peuvent gérer les formats compressés (.zip, .tar, etc.). Toutefois, voici quelques exceptions à prendre en considération :

  • Certains jeux sont accompagnés de plusieurs images. Dans ce cas précis, il est acceptable de compresser les fichiers au format ZIP;
  • Certains formats, tels que le Shapefile et le GTFS, sont standardisés sous un format compressé.

Les métadonnées sont les données qui accompagnent les jeux de données afin de décrire leur contenu et leur contexte. Elles sont un complément essentiel aux jeux de données ouvertes, car elles permettent de structurer la définition du jeu de données. Les métadonnées utilisées sur le portail s’appuient sur les standards DCAT et Dublin Core et sont structurées en deux groupes :

  • les métadonnées associées au jeu de données, de manière globale;
  • les métadonnées associées à chacune des ressources (par exemple, les fichiers attachés au jeu de données). Les ressources contiennent généralement les données pour différentes périodes de temps ou pour différentes perspectives, mais les ressources peuvent aussi contenir des compléments d’information décrivant la signification des champs du jeu de données ou toute information pouvant servir à l’utilisateur des données.

Cette section aborde les différents éléments normatifs concernant les métadonnées utilisées sur le portail Données Québec.

8. 1 Métadonnées associées à un jeu de données

Le tableau suivant présente la corrélation entre les métadonnées québécoises et celles de Dublin Core qui sont associées globalement à un jeu de données. Il décrit également chacune des métadonnées et mentionne si la métadonnée est requise (R) ou facultative (F). La mention (A) pour une métadonnée indique qu’elle est gérée automatiquement par le portail.

Dublin core metadata element set

Métadonnée du portail

(R)(A)(F)

Nomenclature

Commentaires

Identifier

Identifiant unique

A

Identifiant universel unique ou UUID

Généré automatiquement par CKAN

Title

Titre

R

Texte libre

Afin d’assurer la pérennité de l’information, il est suggéré de ne pas y apporter de modification; on suggère également de ne pas modifier l’URL donnant accès au jeu de données.

Description

Description

R

Texte libre

Permet de décrire le jeu de données de manière générale et de préciser ce qui est commun à la majorité des fichiers associés au jeu de données.

Information complémentaire

F

Texte libre

Caractéristiques importantes pour soutenir l’utilisation et l’interprétation des données, y compris, notamment, les limites, la fiabilité, les exclusions ou inclusions, l’exhaustivité, la granularité, la précision, le système de coordonnées et tout complément d’information sur une autre métadonnée. Il est important de préciser si les caractéristiques s’appliquent à l’ensemble du jeu de données ou si elles sont propres à un fichier donné. Le diffuseur est invité à documenter toute dérogation aux présentes lignes directrices dans cette section.

Subject

Catégorie

R

Menu déroulant
Choix multiples possibles parmi les douze catégories prédéfinies
(voir les points 8.5 et 8.6 pour le détail)

Le champ « subject » fait aussi référence au thésaurus canadien. Au Québec, le thésaurus québécois sera utilisé pour déterminer la catégorie et les mots clés.

Mots clés

R

Texte libre avec proposition de saisie
(voir le point 8.7)

Coverage

Portée géographique

R

Portée prédéterminée en fonction du territoire des municipalités et du Québec

Une portée géographique générale est définie par défaut pour les villes participantes et le gouvernement du Québec. Il sera éventuellement possible d’intégrer une portée personnalisée.

Portée temporelle

F

AAAA-MM-JJ / AAAA-MM-JJ

Période de temps traitée dans le contenu du jeu de données. La période peut être une date fixe s’il s’agit d’un portrait ponctuel.

Date

Diffusion initiale

A

AAAA-MM-JJ HH:mm EDT

La date de diffusion initiale est la date à laquelle le jeu de données a été diffusé la première fois. Cette première diffusion pourrait être sur le portail donneesquebec.ca ou sur un autre portail. La date est en temps Avancé de l’Est (EDT).

Dernière modification

A

AAAA-MM-JJ HH:mm EDT

La date de la dernière mise à jour indique la date à laquelle une ressource (fichier de données ou ressource additionnelle) associée au jeu de données a été modifiée ou la date à laquelle la fiche descriptive du jeu de données a été modifiée. La date est en temps Avancé de l’Est (EDT).

Fréquence de mise à jour

R

Menu déroulant : irrégulier, temps réel, quotidien, hebdomadaire, mensuel, trimestriel, semi-annuel, annuel, bisannuel, triennal, archives

La fréquence de mise à jour informe sur la fréquence à laquelle le jeu de données est actualisé. Généralement, cette fréquence est moins élevée que la fréquence à laquelle les données changent réellement. Pour les données archivées, un visuel accompagne le jeu de données.  

Rights

Licence

R

Menu déroulant CC0, CC-BY, CC-BY-SA, CC-ND, CC-BY-NC, CC-BY-SA-NC, CC-BY-NC-ND

Voir le point 8.3 pour le détail.

Creator

Organisation participante

R

Menu déroulant à choix restreint, en fonction de l’organisation principale

Ce champ désigne l’organisme diffusant le jeu de données. Le nombre de variantes disponibles pour une organisation principale dépend de ses préférences.

Responsable

F

Texte libre permettant de préciser l’unité responsable de la création et de la mise à jour

Le niveau de précision peut varier selon l’organisation. À titre d’exemple, au gouvernement du Québec, il est recommandé de limiter la précision à la direction générale.

Language

Langue

R

Menu déroulant Français, Français et anglais

Par défaut, ce champ sera en français, car le portail ne supporte pas l’anglais pour le moment. N. B. : le Canada indique ce champ pour chacune des ressources, mais dans le cas de Données Québec, c’est la langue des métadonnées du jeu de données.

Source

Source URL

F

Possibilité de modification

Lien de l’organisme

8. 2 Métadonnées associées aux ressources

Le tableau suivant dresse la liste des métadonnées du portail associées à chacune des ressources attachées au jeu de données. Il décrit également chacune des métadonnées et mentionne si la métadonnée est requise (R) ou facultative (F). La mention A pour une métadonnée indique qu’elle est gérée automatiquement par le portail.

Métadonnée du portail

R/F/A

Nomenclature

Identifiant unique du fichier

A

Identifiant généré automatiquement par CKAN

Titre

R

Texte libre

Description

R

Texte libre qui permet de décrire ce qui est propre au fichier

Taille

F

Saisie manuelle : ce champ est particulièrement important si le jeu occupe plusieurs centaines de mégaoctets

Format

R

Saisie manuelle : (XML, CSV, JSON, etc.) tout en majuscules, à l’exception de GeoTIFF, de GeoJSON et de SQLite

Type de ressource

R

Menu déroulant avec les valeurs suivantes : Carte interactive, Données, Documentation et Services Web. Cette métadonnée permet de faciliter la recherche des ressources en fonction de leur type. Aussi, le diffuseur est invité à fournir la définition des champs dans un document soutien de type « documentation ».

Lien URL

A

Diffusion initiale

A

Date de la première diffusion du fichier ou du lien vers le fichier sur le portail donneesquebec.ca. La date est en temps universel coordonné Avancé de l’Est (EDT) au format suivant : AAAA-MM-JJ HH:mm EDT.

Respect des lignes directrices

R

Choix multiples : permet de préciser la conformité du fichier aux lignes directrices (voir 8.3). 

Dernière modification (fichier ou lien)

A

La date de la dernière mise à jour indique la date à laquelle la ressource (fichier de données ou lien vers ce fichier dans le cas d’un fichier hébergé à l’externe) a été  modifiée. Pour les fichiers qui ne sont pas hébergés sur donneesquebec.ca, la date de la dernière mise à jour (du lien vers le fichier) pourrait différer de la date de mise à jour réelle du fichier référé. Il  est dans ce cas recommandé d’utiliser les API pour mettre à jour cette date.

La date est en temps universel coordonnéavancé de l’Est (EDT), au format suivant : AAAA-MM-JJ HH:mm EDT. 

8.3 Métadonnée « Respect des lignes directrices »

La métadonnée du respect des lignes directrices indique la conformité d’un jeu de données aux présentes lignes directrices en deux endroits.

  • au niveau du jeu de données, par une cote globale correspondant au meilleur niveau de conformité d’une des ressources de type données du jeu;
  • au niveau de chaque ressource, en détaillant les cinq éléments de conformité suivants :
    • Format de la ressource (recommandé, ouvert alternatif, propriétaire);
    • Licence (sans restriction, légère restriction, plusieurs restrictions);
    • Description des champs (fournie en métadonnée ou en ressource, absente);
    • Considération fichiers (conforme ou n/a, faible non-conformité, non conforme; les éléments de non-conformité sont affichés);
    • Considérations données (conforme ou n/a, faible non-conformité, non conforme; les éléments de non-conformité sont affichés).

8. 4 Métadonnée « Licence »

La métadonnée « Licence » fait partie des différentes métadonnées du jeu de données. La « Creative Commons 4.0 » est la licence adoptée pour les jeux de données du portail. Plus précisément, la variante CC BY est assignée par défaut aux données du portail. Toutefois, en fonction du contexte des exigences présentes au sein de votre organisme, une variante différente peut être retenue. Pour trouver quelle variante de la licence CC peut convenir à un jeu de données, Creative Commons a créé un outil d’aide à la décision.

Considérations particulières

  • La licence est irrévocable. Ainsi, une fois accordée, elle ne peut être révoquée. Vous devez donc vous assurer que votre organisme est le titulaire des droits d’auteur des données qu’il diffuse. Bien sûr, vous pouvez en tout temps cesser de diffuser un jeu de données. Toutefois la licence continuera de s’appliquer aux données qui auront été antérieurement diffusées.
  • L’organisme détient les droits d’auteur (patrimoniaux et moraux) relatifs aux données qu’il diffuse, ou il les a obtenus sous une licence compatible à la CC 4.0.
  • L’organisme adhère au respect de la vie privée. Il est donc important de :
    • ne pas diffuser de données contenant des renseignements personnels non publics ou qui seraient contraires aux lois en la matière;
    • prendre soin que l’identification d’une personne ne puisse pas se faire par croisement de données.

8. 5 Métadonnée « Catégorie »

Les jeux de données du portail sont classés selon différentes catégories, précisées par l’entremise de métadonnées du jeu de données. Les catégories du portail de données ouvertes s’appuient sur la Classification des fonctions des administrations publiques (COFOG) et sur le thésaurus de l’activité gouvernementale. Le fait d’assurer une corrélation avec ces deux nomenclatures favorise une compréhension mutuelle, tant sur le plan national que sur le plan international, des termes utilisés lors de la classification de l’information. Le thésaurus, accessible à l’adresse http://www.thesaurus.gouv.qc.ca, peut être utilisé pour repérer la bonne catégorie pour un jeu de données.

COFOG

Thésaurus québécois

Catégorie correspondante sur le portail

Protection de l’environnement

Ressources naturelles, agriculture, environnement

Environnement, ressources naturelles et énergie

Agriculture et alimentation

Affaires économiques

Économie, finances et industrie

Économies et entreprises

Transport

Infrastructure

Ordre et sécurité publique

Loi, justice et droit

Loi, justice et sécurité publique

Services généraux des administrations publiques

Gouvernance, politique et administration publique

Gouvernement et finances

Enseignement

Éducation, emploi et sciences

Éducation et recherche

Loisir, culture et culte

Information, culture, communications

Société et culture

Tourisme et loisirs

Tourisme, sports et loisirs

Santé

Santé

Santé

Protection sociale

Soutien aux personnes, familles et communauté

Politiques sociales

8. 6 Définition des catégories

En s’inspirant du thésaurus de l’activité gouvernementale du gouvernement du Québec, les catégories permettant de classer les jeux de données du portail ont été définies de la façon suivante.

Environnement, ressources naturelles et énergie

Domaine d’affaires correspondant à la mise en valeur et à l’utilisation optimale du territoire et des ressources énergétiques, forestières et minérales, et ce, dans une perspective de développement durable. Cela inclut les forêts, les gisements de pétrole, de gaz naturel ou de minerai, les ressources hydroélectriques et autres biens de même nature qui ont une valeur économique certaine. Ce domaine concerne aussi la protection des écosystèmes et de la biodiversité, la prévention, la réduction et la suppression de la pollution dans l’environnement ainsi que toute activité climatique pouvant avoir des répercussions sur la vie des citoyens.

Agriculture et alimentation

Domaine d’affaires correspondant à la mise en valeur et à l’utilisation optimale de tout ce qui touche l’agriculture, la pêche et l’alimentation : production, transformation, distribution et commercialisation des produits agricoles et des pêches.

Économie et entreprises

Domaine d’affaires correspondant au développement de la compétitivité des entreprises et des marchés dans le secteur industriel ou de la technologie ou toute autre entreprise à but lucratif.

Transport

Ensemble des moyens publics et privés permettant de déplacer, à l’aide d’un équipement de transport, des personnes ou des marchandises sur une distance relativement importante.

Infrastructure

Ensemble des équipements collectifs de base nécessaires à la vie économique de la nation : routes, ponts, voies ferrées, canaux, ports, réseaux de télécommunication et d’énergie, gestion de l’eau.

Loi, justice et sécurité publique

Domaine d’affaires qui correspond à tout ce qui a trait à la législation et à son application, tout en reconnaissant les droits des citoyens et leur accès au système de justice. En ce sens, cette catégorie inclut le domaine législatif : préparation des lois et règlements (civil et pénal), administration de la justice, protection des personnes, prévention de la criminalité, encadrement des activités policières et administration des décisions des tribunaux. Elle concerne aussi l’ensemble des mesures instaurées par l’État dans le but de garantir l’ordre public et la sécurité des citoyens.

Gouvernement et finances 

Domaine d’affaires correspondant à la manière dont le pouvoir est exercé par le gouvernement sur les citoyens et l’appareil d’État. Cette catégorie inclut la gestion des services publics et de son administration, le contrôle du processus législatif et démocratique ainsi que le maintien et le renforcement des relations entretenues par le gouvernement, que ce soit du point de vue municipal ou international.

Éducation et recherche

Domaine d’affaires correspondant au développement et au maintien du système éducatif ainsi qu’à l’accès à celui-ci. Cette catégorie inclut également tout ce qui a trait à l’innovation et à la recherche industrielle et scientifique.

Société et culture

Domaine d’affaires correspondant à la mission du gouvernement en matière de culture, notamment sur le plan de son développement et de sa diffusion. Le terme « culture et société » fait référence à un ensemble des usages, des coutumes, des structures sociales et des manifestations artistiques, culturelles, religieuses et intellectuelles qui définissent un groupe ou une société par rapport à un autre.

Tourisme, sports et loisirs

Domaine d’affaires correspondant à l’action gouvernementale en matière de loisirs, de sports et de tourisme. Ce domaine se traduit par le développement de l’offre touristique, de la mise en marché du Québec et de ses acquis touristiques ainsi que de toute l’infrastructure visant l’accueil des visiteurs.

Santé

Domaine d’affaires correspondant à la régulation du système de santé, c’est-à-dire à la définition des règles de fonctionnement et de leur application ainsi qu’à toutes les spécificités reliées aux domaines médical et social.

Politiques sociales

Domaine d’affaires correspondant à la mission sociale du gouvernement. Il touche, entre autres, les relations avec les citoyens (jeunes, familles, aînés, femmes), l’immigration, le développement communautaire et l’intégration des individus. Ce domaine inclut également le soutien socioéconomique par l’entremise des divers programmes gouvernementaux, des personnes en difficulté ou caractérisées comme vulnérables.

8. 7 Métadonnée « Mots clés »

Le thésaurus contient des milliers de termes liés hiérarchiquement aux grands domaines de l’activité gouvernementale. Il permet donc de repérer non seulement la bonne catégorie pour un jeu de données, mais aussi les mots clés recommandés. 

Exemple de classification

Par exemple, pour classer le jeu fictif « liste des parcs nationaux du Québec », une recherche de « Parc national » dans le thésaurus propose la suite hiérarchique suivante : « parc → attrait touristique → tourisme → tourisme et loisir ». La catégorie équivalente sur le portail est donc « tourisme, sports et loisirs ». Les mots clés à considérer sont les suivants : parc, attrait touristique, ainsi qu’aire protégée proposée comme terme associé par le thésaurus. Le mot clé « tourisme et loisir » n’a pas de valeur ajoutée, puisqu’on le retrouve déjà dans la métadonnée catégorie.
Les mots clés doivent être saisis en considérant ces points :

  • La première lettre en majuscule;
  • Le reste du mot en minuscules;
  • Pas de pluriel.

8. 8 Métadonnée des Données ou Description des champs

La donnée stockée dans les fichiers représente la portion essentielle d‘un jeu de données. Il est important de bien la comprendre pour en faire bon usage. La description des champs ou encore dictionnaire de données permet aux usagers de s’approprier la donnée diffusée.
Dans un jeu de données, la description des champs contient minimalement :
  • La liste des attributs et leur définition;
  • Les domaines de valeurs s’il y a lieu.

Cette description peut être fournie à l’un des emplacements suivants :

Métadonnées

Dans cette option, la description des données est inscrite dans la métadonnée « Informations complémentaires » du jeu ou « Description » de la ressource. Les usagers pourront ainsi prendre connaissance de cette information en consultant le tableau des métadonnées du jeu (Fiche descriptive du jeu de données) ou l’entête de la page de la ressource. Il est possible d’utiliser les markdown pour formater le texte dans l’interface graphique.

Ressource

La description des données peut aussi être inscrite dans un fichier distinct de préférence au format PDF et téléverser dans le jeu de données comme une ressource. Il est important dans ce cas de sélectionner « Guide et document support » pour le type de ressource. Les usagers téléchargeront le fichier pour avoir cette information.

Dictionnaire de données

Cette option est disponible pour les données tabulaires stockées dans un fichier au format CSV, XLS, ou XLSX. Elle permet au diffuseur d’indiquer pour chaque champ (colonne) de ses données le type de la donnée (texte, numérique, date), l’intitulé, et une description détaillée. Cette information sera disponible aux usagers du datastore via les API. Cette méthode peut être un complément pour les données au format tabulaire permettant ainsi aux usagers accédant aux données par API de mieux comprendre la donnée sans avoir à consulter la page de la ressource ou du jeu.


Il est recommandé de décrire les données diffusées avec au moins une des approches ci-dessus.


La mise à jour des jeux de données et des métadonnées associées à ceux-ci peut se faire manuellement, en utilisant le formulaire offert sur le portail de données ouvertes, ou de manière automatisée, en utilisant l’API.
L’API permet d’actualiser un fichier de données. Lorsqu’il est utilisé en combinaison avec la base de données interne du portail (datastore), l’API peut servir à remplacer, par une information plus actuelle, des valeurs dans un jeu de données ou à insérer une mise à jour de la valeur tout en conservant les anciennes valeurs. Cette fonctionnalité est seulement offerte avec les fichiers de format CSV.

L’utilisation de l’API et de la base de données est documentée, en anglais, aux adresses suivantes :

9. 1 Gestion de l’historique des données

Peu importe à quelle fréquence la valeur d’une donnée est mesurée et peu importe la fréquence à laquelle elle est rendue accessible en données ouvertes, il est souvent intéressant de conserver un historique des valeurs. Différentes manières existent pour conserver un historique des valeurs antérieures, notamment :

  • en diffusant un fichier unique cumulant toutes les valeurs des données;
  • en diffusant un nouveau fichier pour chaque mise à jour. Le fichier peut comporter uniquement les nouvelles valeurs ou contenir une certaine période (par exemple, les 5 dernières années);
  • en actualisant la base de données interne du portail pour insérer les dernières valeurs. La base de données peut être utilisée pour stocker toutes les valeurs diffusées dans le passé. L’utilisation de la base de données a l’avantage pour les utilisateurs des données de pouvoir recourir à l’API pour extraire les valeurs pour la période qu’ils désirent. Cette fonctionnalité est seulement offerte avec les fichiers de format CSV.

La manière retenue dépend généralement des besoins des utilisateurs pour ces données et de la stabilité dans le temps des données antérieures (certaines données historiques peuvent nécessiter d’être revues pour faciliter leur comparaison avec la dernière mise à jour). Peu importe la manière choisie par le diffuseur, ce dernier doit bien décrire comment il gère l’historique des données par l’entremise des métadonnées.

9. 2 Gérer la désuétude des données

Dans le cycle de vie de la donnée, des données peuvent devenir désuètes. La désuétude est liée à une donnée qui perd de sa valeur avec le temps. Selon le principe de permanence défini en 2007 par la Sunlight foundation, l’information diffusée devrait demeurée disponible dans le temps. Dans le cas d’évolution (ex: rehaussement ou regroupement), l’archivage est privilégié à la suppression. Toutefois les données en temps réel qui ne sont plus mises à jour pourraient ne pas être archivées.

Dans le tableau suivant, on retrouve différents cas de figure et la façon de les gérer.

Cas de figure

Façon de le gérer

Si un jeu de données (l’ensemble de données) ne sera plus mis à jour

La métadonnée fréquence de mise à jour du jeu est mise à “Archives”

Si l’archive concerne seulement une ressource d’un jeu de données

Le type de la ressource est mis à “Archives”

Le contexte a évolué,
• la source des données a changé (organisme ou base de données)

Si le nouveau jeu contient les mêmes données, l’ancien jeu peut être supprimé.

Si le nouveau jeu ne contient pas les mêmes données, l’ancien jeu est conservé et la métadonnée fréquence de mise à jour du jeu est mise à “Archives”.

Le contexte a évolué,
• l’organisation n’existe plus

La métadonnée fréquence de mise à jour est mise à “Archives”

Suite à une restructuration d’un ou plusieurs jeux de données (regroupement, éclatement, réorganisation des ressources)

Le(s) ancien(s) jeu(x) peuvent être supprimés puisque les données sont encore disponibles

Suite à un rehaussement d’un jeu de données qui mène à une diffusion plus granulaire et exhaustive

L’ancien jeu peut être supprimé puisque les données sont encore disponibles.

9. 3 Gestion des modifications

Pour des modifications importantes ayant un impact sur la façon dont les données sont utilisées, il est recommandé de documenter ces modifications. La documentation des changements peut être fournie soit dans un document en ressource soit dans la métadonnée information complémentaire.

Afin que les utilisateurs puissent se préparer, les modifications importantes peuvent être documentées en prévision d’un changement futur comme l’ajout, le retrait, ou le renommage d’une colonne. Cette information peut aussi être communiquée via différents canaux de communication, notamment le blogue de Données Québec.

Voici l’exemple d’un changement apporté au jeu de données du système électronique d’appel d’offres en 2021. En mars 2021 un fichier JSON inspirée de la normes Open Contracting Data Standard (OCDS) a été ajouté au jeu de données du système électronique d’appel d’offres (SEAO). Pour notifier les usagers de cette modification et faciliter son utilisation, la description du jeu a été modifiée et un document décrivant le nouveau fichier a été ajouté.