Principio 5: Los datos electorales son abiertos cuando son analizables (es decir, están en formato legible por una máquina)
Los datos que se encuentran disponibles en formato digital, legible por una máquina, pueden analizarse fácil y rápidamente. El acceso a datos electorales "analizables" es clave para la integridad de un proceso electoral. Es crucial para la transparencia electoral que los miembros del público puedan llevar a cabo su propio análisis independiente de los datos crudos y verificar el análisis del EMB. Un conjunto de datos por sí mismo aporta muy poca información a una persona, pero una vez que los datos se procesan de alguna manera, ya sea a través de análisis o visualizaciones, se convierten en algo útil y transmiten información.
Legible por una máquina
En términos más técnicos, los datos "legibles por una máquina" son datos que se pueden analizar. "Legible por una máquina" es una manera de decir que el conjunto de datos está en un formato que una computadora puede entender fácilmente. Dicho de otra manera, significa que los datos están estructurados de una manera razonable que permite el procesamiento automatizado. En su Lineamientos para Políticas de Datos Abiertos, la Fundación Conocimiento Abierto define los formatos legibles por una máquina como "aquellos cuyos datos se pueden extraer fácilmente mediante programas de cómputo".
Lo que es "legible por una máquina" en contraste con lo que es "accesible digitalmente"
Es importante entender que "información legible por una máquina" no es lo mismo que "información accesible digitalmente". Escanear un informe hace que el contenido esté accesible digitalmente, sin embargo, una computadora no es capaz de "entender" la información del informe. El Primer on Machine Readability for Online Documents and Data [Manual básico sobre legibilidad por máquina de documentos en línea] del sitio web data.gov, tiene un ejemplo muy útil de las diferencias entre lo que es legible por una máquina y lo que es accesible digitalmente:
[La] distinción puede verse en la diferencia que existe entre la portada de una revista y el código de barras de dicha portada. Una computadora no puede entender directamente qué es lo que representa la fotografía de la revista, incluso si se presenta en un formato en línea, pero sí puede leer y entender el código de barras, el cual utiliza para identificar el precio y rastrear la compra, por ejemplo.
Cuando los EMB publican información en formatos que se pueden analizar (es decir, legibles por una máquina), ayudan a cerrar la brecha entre los "documentos" (que normalmente son estáticos y están congelados en cuanto a su formato) y los "datos" (que son dinámicos y permiten un mayor procesamiento).
Si bien muchos EMB publican la información en documentos PDF, ese formato no es legible por una máquina. De hecho, muchos de los formatos más populares para la publicación de información electoral (es decir, informes, datos de contacto, resultados de elecciones) no son legibles por una máquina. Formatos como PDF, documentos en Word, imágenes de JPG y páginas HTML no tienen una estructura que se preste al análisis y procesamiento automatizados, sino que más bien, son útiles para mostrar información en una pantalla o imprimir información en una hoja. Desafortunadamente, esos formatos dificultan la tarea de reconstruir y analizar sus contenidos de una manera mecánica. Si bien una computadora puede mostrar texto de, por ejemplo, un documento en PDF, es difícil, o prácticamente imposible, que "entienda" la estructura y el contexto que rodea el texto.
Formatos adecuados para objetivos adecuados
Como se mencionó anteriormente, los formatos como PDF, Word, imágenes de JPG y páginas HTML no tienen una estructura que se preste al procesamiento automatizado. Esos formatos son adecuados para mostrar información en una pantalla o imprimir la información. Históricamente, esos formatos eran adecuados para el objetivo que se pretendía alcanzar en aquel entonces. Cuando los EMB empezaron a publicar la información, el uso esperado era que las personas la leyeran, la imprimieran y luego, posiblemente, hicieran algo, como llenar un formulario. En algunos casos los usuarios podían llevar a cabo búsquedas de datos, pero el acceso al dato subyacente en sí no estaba disponible. La publicación de información mediante este tipo de archivos cerrados fue el resultado del uso de formatos familiares, como HTML y PDF, una definición estrecha de "usuarios", y una expectativa más limitada de lo que estos usuarios podían hacer y harían con la información.
Actualmente, los EMB que realmente aprecian la variedad de posibles usos que se le puede dar a la información electoral, hacen que dicha información esté disponible en distintos formatos, incluyendo aquellos que son tanto "imprimibles" como "analizables". Los EMB de Georgia, Colombia y México han publicado en sus sitios web imágenes escaneadas de las actas de resultados de los centros de votación, en tiempo casi real. Publicaron estas imágenes escaneadas porque buscaban ser transparentes en cuanto a la fuente primaria de los datos y permitir que cualquier persona pudiera escudriñar visualmente los números escritos a mano, las firmas y los conteos. Para la elección presidencial, de senadores y diputados de México, el Instituto Federal Electoral (IFE), ahora llamado Instituto Nacional Electoral (INE), también publicó la información de los resultados preliminares y definitivos de cada elección de 2012 en bloque, en un formato legible por una máquina y que se podía descargar (como archivo TXT). Los resultados preliminares están disponibles como un archivo comprimido llamado "Base de Datos" en el sitio PREP del IFE, mientras que los resultados definitivos para cada estado están disponibles como una descarga en bloque a través del sistema ATLAS de datos históricos del IFE. El IFE puso los datos a disposición del público de esa manera porque quería que los medios de comunicación y las organizaciones que monitorean las elecciones pudieran analizar y verificar la información rápidamente. El ejemplo del IFE demuestra que hacer coincidir el formato y el objetivo, no implica ofrecer datos legibles por una máquina en lugar de imágenes escaneadas, sino proporcionar los datos legibles por una máquina además de las imágenes. Por lo tanto, la elección del formato debe coincidir con el objetivo o los objetivos que se tengan, lo cual quiere decir que es probable que los EMB necesiten publicar datos en varios formatos, casi simultáneamente.
CSV y JSON y XML: formatos recomendables para los datos electorales
- La estructura más común de los datos electorales son los datos "tabulares", es decir, datos almacenados como tablas o series de tablas. El formato legible por una máquina más común para datos tabulares es el tipo de archivo "Variables Separadas por Comas" (CSV, por su siglas en inglés). Casi todos los programas de bases de datos y hojas de cálculo pueden guardar información en este formato. El formato CSV almacena datos tabulares en un formato basado en texto que permite a las computadoras procesarlo fácilmente.
- El formato "JavaScript Object Notation" (JSON), es un formato legible por una máquina y no exclusivo. El formato JSON se deriva del lenguaje JavaScript que se utiliza en muchos sitios web y es mejor para representar las relaciones jerárquicas entre los datos (por ejemplo, un organigrama o diferentes niveles de demarcaciones electorales) que datos tabulares. Sin embargo, una de las desventajas que tienen los archivos en formatos CSV y JSON es que no incluyen metadatos de manera inherente (la información que explica los datos). Los metadatos ofrecen un contexto para los datos al incluir una descripción de las variables, la manera en que se recopilaron o cuándo fue la última vez que se actualizaron.
- El XML (por sus siglas en inglés) o "Lenguaje de Marcas Extensible", se desarrolló para hacer directamente disponibles y procesables los metadatos de documentos. El formato XML facilita la inclusión de documentación adecuada acerca de un conjunto de datos. El formato XML permite a los usuarios etiquetar la información en un documento de manera que las computadoras puedan indexarla y extraerla automáticamente, lo cual facilita la búsqueda y navegación de la información.