Principe 5: Les données électorale sont ouvertes quand elles sont analysables (c. à-d. disponibles dans un format lisible et numérique)

Analysables

Les données qui sont disponibles dans un format digital et lisible à la machine peuvent être rapidement et facilement analysées. L'accès aux données électorales «analysables» est clé dans l'évaluation de l'intégrité d'un processus électoral. Il est essentiel dans la transparence électorale pour les membres du public d'être en mesure d'effectuer leur propre analyse indépendante des données brutes et de vérifier l'analyse de l'OGE. Un ensemble de données brut confère très peu d'informations à un être humain. Une fois l'ensemble de données traité d'une certaine manière - par l'analyse et / ou des visualisations - il devient utile et permet de transmettre un aperçu.

Lisibles à la machine

En termes plus techniques, des données «lisible à la machine» sont des données analysables. «Lisible à la machine» est une façon de dire que l'ensemble de données est dans un format qui peut être compris facilement par un ordinateur. En d'autres termes, cela signifie que les données sont structurées de façon à permettre raisonnablement un traitement automatisé. Dans leur Manuel des Politiques des Données Ouvertes, la Fondation pour un Savoir Ouvert définit des formats lisibles comme «ceux qui sont en mesure d'avoir leurs données extraites facilement par des programmes informatiques».

Lisibles à la machine versus un format numériquement accessible

Il est important de comprendre que «lisible à la machine» n'est pas la même chose qu'une information «numériquement accessible». Scanner un rapport rend le contenu accessible numériquement. Cependant, un ordinateur n'est pas en mesure de «comprendre» les informations contenues dans le rapport. Data.gov's Primer on Machine Readability for Online Documents and Data (Abécédaire de lisibilité à la machine pour les documents en ligne et les données)a une illustration utile des différences entre lisible à la machine et accessible numériquement:

La distinction peut être perçue dans la différence qui existe entre une couverture de magazine et le code barre existant sur cette couverture. Un ordinateur ne peut pas comprendre directement ce que l'image sur le magazine représente, même si elle est présentée dans un format en ligne, mais il peut lire et comprendre le code barre, en pouvant l'utiliser pour identifier le prix et le suivi de l'achat.

Lorsque l'OGE diffuse des informations avec un format analysable (c.-à-d., lisibles par machine), ils contribuent à combler le fossé entre les «documents» (qui sont généralement statiques et figés dans leur format) et les «données» (qui sont dynamiques et permettent un traitement ultérieur).

Alors que de nombreux OGE rendent l'information disponible en format PDF, ce format n'est pas lisible par machine. En fait, un grand nombre de formats populaires pour diffuser l'information électorale (par exemple, des rapports, des coordonnées, des résultats électoraux) ne sont pas lisibles par machine. Des formats tels que PDF, Word, des images JPG et pages HTML ne disposent pas d'une structure qui se prête à l'analyse et au traitement automatisé. Au lieu de cela, ils sont utiles pour afficher des informations sur un écran ou imprimer des informations sur une page. Malheureusement, ces formats rendent très difficiles la reconstruction mécanique et l'analyse de leurs contenus. Alors qu'un ordinateur peut bien afficher le texte, dans un format PDF, il est difficile - ou presque impossible - pour qu'il «comprenne» la structure et le contexte autour du texte.

Des formats appropriés à des fins appropriées

Comme mentionné précédemment, des formats tels que PDF, Word, les images JPG et les pages HTML ne disposent pas d'une structure qui se prête à un traitement automatisé. Ces formats sont adaptés pour afficher des informations sur un écran ou imprimer l'information. Historiquement, ces formats ont été adaptés à l'usage prévu à l'époque. Lorsque les OGE publiaient les informations, l'utilisation prévue pour un individu était de lire, d'imprimer et puis éventuellement de prendre des mesures, comme remplir un formulaire. Dans certains cas, les utilisateurs ont peut-être été en mesure d'interroger les données, mais accéder aux données sous-jacentes, n'était pas possible. La publication de ces informations dans ces types de fichiers fermés étaient motivés par des formats familiers (HTML et PDF), et une attente plus limitée de ce que les utilisateurs pouvaient et voulaient faire de l'information.

Actuellement, les OGE qui apprécient pleinement la gamme des utilisations possibles de l'information électorale rendent les informations disponibles dans une gamme variée de formats, y compris les formats qui sont à la fois «imprimables» et «analysables». Les OGE en Géorgie, Colombie et au Mexique ont produit des images numérisées des formulaires de résultats des bureaux de vote disponibles en temps quasi réel sur leurs sites web.^[1] Ils ont publié les images numérisées parce qu'ils voulaient être transparents sur la source principale des données et permettre à toute personne d'examiner visuellement les numéros manuscrits, les signatures et le pointage. Pour les élections présidentielles, sénatoriales et législatives de 2012, l'Institut Fédérale Electorale (IFE) du Mexique, maintenant appelée l'Institut Nationale Electorale (INE), a également rendu l'information préliminaire et finale des résultats pour chaque élection de 2012 disponibles en téléchargement en vrac dans un format lisible par une machine (comme un fichier TXT). Les résultats préliminaires sont disponibles dans un fichier compressé sous «Base de Datos» («Base de Données») sur le site PREP de l'IFE, tandis que les résultats définitifs sont disponibles en téléchargement et en vrac pour chaque Etat à travers le système ATLAS de données historiques de l'IFE. L'IFE a rendu les données disponibles de cette façon parce qu'ils voulaient que les organisations médiatiques et de surveillance des élections puissent pouvoir rapidement analyser et vérifier l'information. L'exemple l'IFE illustre le fait que faire correspondre le format à l'objectif ne se résume pas à fournir des données lisibles à la machine à la place des images numérisées, mais de fournir des données lisibles à la machine, en plus des images. Ainsi, le choix du format doit correspondre à ou aux finalités, ce qui peut signifier que les OGE pourraient avoir besoin de publier des données dans des formats multiples, presque simultanément.

CSV, XML et JSON: Les formats recommandés pour les données électorales

La structure la plus courante des données électorales se présente sous forme tabulaire- Les données sont stockées sous forme de tableau ou de série de tableaux. La forme lisible à la machine la plus courante pour les données tabulaires est le fichier de type «variables séparées par une virgule» (CSV). Presque toutes les bases de données et tableurs peuvent enregistrer des informations dans ce format. Les données tabulaires CSV stockent dans un format basé sur le texte ce qui le rend facilement traitable par des ordinateurs.

La Commission Electorale Centrale de Géorgie a publié des images des formulaires des bureaux de vote en temps quasi-réel pour les élection législatives de 2012, les élection présidentielle de 2013, et pour les élections municipales de 2014 . Le Registre National Colombien a publié les scans d'image des formulaires de bureaux de vote pour les élection sénatoriales de 2014. En 2012, l'Institut Fédéral Electoral du Mexique (IFE) affiche les images et les résultats préliminaires au niveau des bureaux de vote (appelé «Actas») pour les élections présidentielles, sénatoriales et législatives sur leur site web du système PREP. ↩︎