Принцип 5: Виборчі дані є відкритими, якщо вони придатні для аналізу (тобто доступні в цифровому форматі придатному для зчитування машиною).
Дані, які доступні в цифровому форматі придатному для зчитування машиною можна швидко та просто проаналізувати. Доступ до виборчих даних які є "придатні для аналізу" – це ключ до оцінювання цілісності виборчого процесу. В питанні прозорості виборів, можливість здійснити власний незалежний аналіз вихідних даних для перевірки аналізу здійсненого ОУВП є критичною для громадськості. Сам по собі набір даних дає мало інформації. Однак, після того як інформація проходить певну обробку через аналіз та/або візуалізацію, вона стає придатною для розуміння.
Придатність для машинного зчитування
Більш технічною мовою, визначення "придатність для машинного зчитування" означає що дані є придатними для аналізу. "Придатність для машинного зчитування" означає, що набір даних поданий у форматі, який може легко зрозуміти комп'ютер. Іншими словами, це означає, що дані структуровані таким чином, щоб їх можна було автоматично обробляти. У своєму «Довіднику по відкритих даних», Фонд «Відкриті знання» дає наступне визначення форматів, придатних для машинного зчитування: «формати, які дозволяють комп'ютерним програмам легко видобувати дані».
Придатність для машинного зчитування та доступність в цифровій формі
Важливо зрозуміти різницю між визначеннями «придатністю для машинного зчитування» та «доступністю в цифровій формі». Наприклад, відсканувавши звіт, ми можемо зробити його доступним в цифровій формі. Однак, комп'ютер не зможе "зрозуміти" інформацію в звіті. Стаття «Базова інформація про машинне зчитування онлайн-документів та даних» на сайті data.gov містить корисний приклад різниці між придатністю для машинного зчитування та доступністю в цифровій формі:
Різницю можна побачити, порівнявши обкладинку журналу, та штрих-код на ній. Комп'ютер не може зрозуміти що означає картинка на обкладинці, навіть якщо вона подана в цифровій формі, але він може легко зрозуміти штрих-код, щоб,наприклад, отримати інформацію про ціну журналу та простежити етапи покупки.
Коли ОУВП публікують інформацію в придатних для аналізу форматах (напр. придатних для машинного зчитування), вони допомагають заповнити прогалину між «документами» (формат який зазвичай статичний) та «даними» (які є динамічними та дозволяють здійснення подальшої обробки).
Однак, багато ОУВП публікують інформацію в форматі .PDF, який не є придатним для машинного зчитування. Насправді, найбільш популярні формати для публікації виборчої інформації (напр. звіти, контактна інформація, результати голосування) не є придатними для машинного зчитування. Такі формати, як PDF, Word, JPG та HTML не мають структури яка б дозволила здійснення автоматичного аналізу та обробки. Однак, вони корисні для відображення інформації на екрані, або для друку. На жаль, такі формати дуже ускладнюють машинний аналіз їхнього змісту. Хоча комп'ютер і може відобразити текст в, наприклад, форматі PDF, «розуміння» структури та контексту є занадто складним, чи майже неможливим, завданням для нього.
Формат, який відповідає цілі
Як було сказано вище, формати PDF, Word, JPG та HTML не мають структури яка б дозволила здійснення автоматичного аналізу. Такі формати підходять для відображення інформації на екрані, або для друку. В минулому, ці формати задовольняли вимоги того часу. Коли ОУВП публікували інформацію, вона призначалася для того, щоб її читали люди, друкували та, можливо, заповняли форми. В інших випадках, користувачі могли уточнювати дані, але доступ до основних даних був закритим. Публікація інформації в таких закритих типах файлів пояснювалася тим, що вони були добре відомі (HTML та PDF), а коло «користувачів» було досить вузьким, як і очікування щодо можливого використання інформації такими користувачами.
Сьогодні ОУВП які повністю розуміють усю сферу можливого використання виборчої інформації, надають її в декількох форматах, включаючи формати, придатні і для «аналізу», і для «друку». ОУВП і Грузії, Колумбії та Мексиці зробили відскановані зображення протоколів підрахунку голосів на виборчих дільницях доступними майже в режимі реального часу на своїх сайтах[1]. Вони опублікували відскановані зображення протоколів, тому що хотіли продемонструвати прозорість вихідних джерел даних, щоб будь-хто міг ретельно дослідити цифри, підписи та підсумки написані від руки. Під час президентських та парламентських виборів 2012 року, Федеральний виборчий інститут Мексики (IFE), який тепер називається Національний виборчий інститут (INE), також опублікував попередні та кінцеві результати голосування 2012р., доступні для завантаження в великому об'ємі та в форматі, придатному для зчитування машиною (TXT файл). Попередні результати доступні в стиснутому файлі в розділі “Base de Datos” («База даних») на сайті Національного виборчого інституту “PREP”, а кінцеві результати доступні для завантаження в великому об'ємі для кожного штату через систему зберігання історичних даних “ATLAS”. IFE надав дані в такому вигляді для того, щоб організації зі спостереження за виборами та медіа могли швидко провести аналіз та перевірку інформації. Приклад IFE показує, що публікація формату який відповідає цілі означає надання даних у форматі доступному для машинного зчитування не замість сканованих зображень, а на додаток до них. Отож, вибір формату повинен відповідати цілі або цілям, і це може означати, що ОУВП можливо доведеться публікувати дані в кількох видах форматів майже одночасно.
CSV, JSON та XML: Формати, рекомендовані для публікації виборчих даних
- Виборчі дані найчастіше зберігаються у вигляді таблиці або серії таблиць. CSV (розділені комами змінні) – найбільш поширений придатний для машинного зчитування формат. Майже усі бази даних та програми для роботи з таблицями можуть зберігати інформацію в цьому форматі. Формат CSV дозволяє зберігати дані у вигляді таблиці в текстовому форматі, що полегшує їхню обробку на комп'ютері.
- Формат JSON (об'єктний запис JavaScript) є відкритим та придатним для машинного зчитування. Формат JSON є похідним від мови програмування JavaScript, яка використовується на багатьох сайтах. Формат JSON найкраще підходить для відображення ієрархічних зв'язків даних (напр. організаційна таблиця або різні рівні меж виборчих округів), аніж даних в вигляді таблиці. Однак, одним з мінусів форматів CSV та JSON є те, що вони не містять в собі метаданих – інформації, яка пояснює дані. Метадані забезпечують контекст даних, даючи опис змінних, інформацію щодо збору даних, та дати їхнього останнього оновлення.
- Формат XML (розширювана мова розмітки) був розроблений для того, щоб зробити метадані документів доступними напряму, та дозволити їх обробку. Формат XML полегшує включення належної документації в набір даних. Формат XML дозволяє користувачам позначати інформацію в документі тегами, щоб комп'ютер міг автоматично індексувати та витягати інформацію, що полегшує її пошук та перегляд.
Центральна виборча комісія в Грузії опублікувала майже в режимі реального дільничні протоколи часу під час парламентських виборів 2012 року, президентських виборів 2013 року, та місцевих виборів 2014 року. Колумбійський Національний реєстратор опублікував відскановані зображення дільничних протоколів під час виборів до сенату в 2014 році. В 2012р., Федеральний виборчий інститут Мексики (IFE) опублікував попередні результати голосування на виборчих дільницях, які називаються “Actas” (укр. - «Протоколи»), на своєму сайті “PREP” під час президентських та парламентських виборів. ↩︎