Principe 4: Les données électorales sont ouvertes quand elles sont complètes et fournies en vrac
Des données complètes et mises à la disposition dans leur ensemble sont des données ouvertes. La publication d'un ensemble de données complet est clairement un acte de transparence. Toutes les données qui sont omises sont inaccessibles et ne peuvent pas être utilisées. Même quand un utilisateur est particulièrement intéressé par une partie des données, il est toujours utile pour eux d'avoir l'ensemble des données afin qu'ils puissent situer leur intérêt particulier dans un contexte. Par exemple, une organisation peut souhaiter analyser le taux d'inscription des électeurs pour les circonscriptions dans leur région. Elle peut concentrer la plupart de ses analyses sur les données de cette région, mais, si elle a l'ensemble des données, elle peut calculer rapidement le taux d'inscription pour l'ensemble du pays et l'utiliser pour mettre le taux régional dans un contexte approprié. Quand un OGE publie un ensemble de données incomplètes, il risque d'être accusé d'essayer (à dessein) de masquer les informations qui ne sont pas inclues. Le risque est souvent plus élevé lorsque la différence entre ce qui est publié et ce qui n'est pas publié a une dimension géographique. Dans de nombreux pays, le soutien à un candidat ou à un parti est fortement corrélé avec la géographie (par exemple, les zones urbaines peuvent soutenir un candidat spécifique alors que les zones plus rurales peuvent soutenir un candidat différent). L'intégralité des données est particulièrement importante quand il y a une composante géographique dans les données, puisque laisser de côté un espace peut être perçu comme un parti pris de la part de l'OGE contre un candidat ou un parti en particulier.
La diffusion des données en vrac signifie que toutes les données sont contenues dans un fichier de sorte que l'ensemble des données peut être obtenu en un seul téléchargement. Par exemple, la Commission Electorale Indépendante d'Afrique du Sud (CEI) a rendu les résultats au niveau des bureaux de vote (appelés «résultats du vote par circonscription») pour les élections nationales et provinciales de 2014 disponibles en vrac sous forme de fichier de téléchargement (comme un fichier CSV compressé). La CEI a également noté le type et la taille de fichier à côté du lien. La mise à disposition d'un ensemble complet de données en vrac est souvent l'une des premières étapes les plus simples et directes qu'un OGE peut prendre pour rendre les données véritablement ouvertes. Dans les cas où un fichier peut être trop grand et donc prendre du temps pour télécharger, les données doivent aussi être proposées sous la forme d'un petit ensemble de fichiers. Dans Open Government Data: The Book (Les Données Gouvernementales Ouvertes: Le Livre), Joshua Tauberer parle de «trop grand» lorsque qu'un «ensemble de données est si grand qu'il n'est pratiquement pas téléchargeable en vrac. En se basant sur les normes actuelles, ce serait un ensemble de données d'au moins 10 giga-octets en termes de taille, représentant environ 6 heures de téléchargement sur une connexion haut débit.»
Une Documentation Appropriée
Une documentation suffisante est un autre aspect pour que les données soient complètes ou intégrales. Le fichier de données doit avoir une documentation correspondante qui décrit les variables, les champs et les étiquettes utilisées dans le fichier. Au minimum, la documentation doit également inclure des notes sur la structure des données et des explications sur les abréviations utilisées dans les données. Idéalement, la documentation comprendra les éléments cités ci-dessus ainsi qu'une description sur la façon dont les données ont été collectées, la finalité de la collecte, le public ciblé, les liens vers des données auxiliaires connexes et un point de contact en cas d'autres questions. Comme l'avait encouragé La Charte des Données Ouvertes et l'Annexe Technique du G8, l'OGE doit veiller à ce qu'un ensemble de données soit «entièrement décrit, le cas échéant, pour aider les utilisateurs à comprendre pleinement les données.» Le recueil de données de la Chambre Supérieure du Tribunal Electoral Brésilien (TSE) est un excellent exemple de données fournies par une OGE proposant des données en vrac avec une documentation appropriée. Le recueil comprend des données sur l'inscription électorale, des informations sur les candidats et les partis, des données sur le financement des campagnes et des données traitant des résultats électorales. Un utilisateur peut télécharger les résultats des élections pour 2012 et 2014 dans leur ensemble, comprenant un fichier «read me» («lisez-moi»). Le fichier «read me» pour les résultats de 2014, par exemple, explique comment les données sont codées, fournit une description de chaque variable, note lorsque les données ont été mises à jour et comprend des coordonnées en cas de questions.