أكاديمية البيانات الانتخابية


3. تمرين تطبيقي: تلخيص مجموعة بيانات مكاتب الاقتراع

في هذا الدرس، سنطّلع على الخطوات الخمس الرئيسية المتّبعة في عملية تحليل البيانات، قبل إلقاء نظرة على بعض النصائح المفيدة لحسن استخدام البيانات والملفات المرتبطة بها. في الختام، وبالاستناد إلى قائمة مكاتب الاقتراع من الوحدة 1، سنقوم بتمرين تطبيقي نستثمر فيه المعارف التي اكتسبناها من الوحدة 2 لتلخيص متغيّرة “Registered_Voters” (الناخبين_المسجّلين).

الخطوات الخمس الرئيسية لعملية تحليل البيانات:

الخطوة 1: الانطلاق من سؤال أو هدف محدّد

خذ من فضلك بعض الوقت للتفكير بما تبحث عنه في مجموعة البيانات، وما تتوقّع أو لا تتوقّع إيجاده فيها. من الأوفق لك بالطبع أن تضع نصب عينيك هدفاً محدداً، لأنّ ذلك يساعدك في تطبيق الخطوات التالية بقدر أكبر من الفعالية. إليك مثلاً بعض الأسئلة التي قد تودّ الإجابة عنها عند استعراض قائمة مكاتب الاقتراع من الوحدة 1.

  • هل تبدو لك قائمة مكاتب الاقتراع كاملة؟
  • هل تبدو لك قائمة مكاتب الاقتراع صحيحة أو منقّحة
  • كم العدد النموذجي للناخبين المسجّلين في كل مكتب اقتراع؟ وما مدى انتشاره؟
  • كيف تصف شكل توزيع مكاتب الاقتراع في مختلف المناطق الجغرافية؟
  • هل تغيّر شكل توزيعها مع مرّ الوقت من قائمة إلى أخرى (في حال وجود عدّة قوائم)؟
  • هل تستعين بقائمة مكاتب الاقتراع لإعداد عيّنة؟

الخطوة 2: الحصول على البيانات

بعد أن تكون قد فكّرت في الأسباب التي تدفعك إلى تحليل البيانات، آن لك الحصول على البيانات التي تحتاج إليها. تذكّر أن تحفظ نسخة عن البيانات بصيغتها الأصلية في مكان ما قبل أن تباشر استعمالها لأي غرض.

الخطوة 3: ترتيب البيانات وتنقيحها

يعلم الخبراء المتمرّسون في تحليل البيانات أنّ 80% من كامل جهودهم ينصبّ فعلياً على تحويل البيانات و/أو تنقيحها و/أو إعادة ترتيبها. أولاً، عليك التدقيق في البيانات، بحثاً عن تلك التي قد تكون مفقودة أو أي أخطاء قد تَرِد فيها. ثمّ غالباً ما يتعيّن عليك أن "تعاود ترتيب" البيانات لإحكام ترابطها. يجوز مثلاً أن تختلط بعض، أو جميع، المتغيرات لكل صف ضمن العمود ذاته (كأن تكون البيانات الخاصة بالمدينة والمقاطعة مدرجة ضمن العمود ذاته، بحيث يتعيّن عليك أن تفصل بينها في عمودين اثنين). قد لا تَرِد البيانات بصيغة قابلة للتحليل، بما معناه، أنها لا تكون مقروءة آلياً، ممّا يستدعي منك أن تجد طريقة لتحويلها. تذكّر من الوحدة 1 أنّ البيانات المتعلقة بمكاتب اقتراع 2008 حُفِظت في عدة ملفات بصيغة بي دي آف. فقد حوّلنا المعلومات الواردة في تلك الملفات إلى صيغة مقروءة مالياً، خدمةً لأغراضك (أي ملفات سي آس في وآكس آل آس). قد تجد نفسك مضطراً إلى جمع أو ضمّ البيانات المستمدة من مجموعتين ضمن مجموعة واحدة قبل أن تتمكّن من تحليلها.

الخطوة 4: تلخيص المتغيرات ذات الأهمية في بياناتك

لكل متغيّرة ذات أهمية، يلزمك أن تكون قادراً على الإجابة عن السؤال التالي: ما النموذجي في البيانات وما مدى تشتتّها؟ في 2 الوحدة تناولنا طريقة احتساب القيمة النموذجية (أي المتوسط أو الوسط الحسابي) لمتغيّرة طول الحيوان، وطريقة تشتّت البيانات عن طريق قياس الانحراف المعياري.

الخطوة 5: التكرار.

تعتمد عملية تحليل البيانات عادةً على مبدأ التكرار. فعند انتهاء الجولة الأولى من تلخيص بعض المتغيرات، قد تلاحظ وجود حاجة إلى إعادة ترتيب البيانات (إدماجها مثلاً مع مجموعة بيانات أخرى) قبل التعمّق في تحليلها. قد تقودك آلية تلخيص البيانات إلى هدف جديد يجب تحليله، يعيدك بدوره إلى تكرار المسار ذاته

توخّياً لإيجاز هذه الوحدة وسهولة فهمها، سننتقل مباشرة إلى الخطوة 4 في عملية تحليل البيانات. سنفترض أنك تعرف بالتحديد أسئلتك وهدفك، فضلاً عن أنك تملك البيانات بالصيغة المناسبة (لحسن حظك). ولكن، لنستعرض بعض النصائح المفيدة لاستعمال البيانات قبل الانتقال إلى التمرين التطبيقي.

نصائح لاستعمال البيانات

  • لأغراض تمرينك، استعمل نسخة غير الملف المصدر الذي يتضمّن البيانات الأولية، حرصاً منك على الرجوع دوماً إلى البيانات الأصلية، والتحقق منها، عند الحاجة.
  • إذا كنت تستخدم ملف جدول البيانات، أدرج عملياتك الحسابية في ورقة أو علامة تبويب منفصلة.
  • قم بتوثيق الخطوات المتّبعة في عملية التحليل، على نحوٍ يتيح لك تصويب خطواتك ورصد أي خطأ ترتكبه عند تطبيق الصيغة الحسابية. قد يساعدك ذلك أيضاً في أن تدرك كيف غيّرت البيانات قبل قيامك بالعمليات الحسابية.
  • استخدم بحذر شديد وظيفة ترتيب البيانات بعد أن تتأكّد من أنك ظللتها جميعاً، علماً أنه من الأوفق عدم استخدامها تجنّباً لأي خطأ.
  • تجنّب دمج الخانات. لعلّ دمجها قد يحسّن شكلها العام لكنه يتسبّب لك بمشقات جمّة إذا اضطررت إلى أتمتة البيانات و/أو إعادة ترتيبها (تعديل طريقة تصميمها مثلاً). عوض ذلك، استعِن بالألوان وأزِل الخطوط المحيطة بالخانات لتحسين مظهرها.

بعد أن تكون قد تمرّنت على تنقية البيانات وتنقيحها، عاود الآن فحص قائمة مكاتب الاقتراع المستمدة من الوحدة 1.

تمرين تطبيقي: (إعادة) دراسة قائمة مكاتب الاقتراع باستخدام برنامج آكسيل

في الوحدة الأولى من أكاديمية البيانات الانتخابية، قمنا بدراسة قائمة مكاتب اقتراع (بصيغة آكس آل آس). يُفترض أن يتضمّن الملف من الناحية النظرية قائمة بمكاتب اقتراع 2008 في بلد معيّن[1]. إفتح الملف وألقِ نظرة أخرى على البيانات الواردة فيه، طارحاً على نفسك الأسئلة التالية، عند تصفّحه:

  • هل تلاحظ أنّ ثمة بيانات مفقودة؟
  • هل البيانات منظّمة بطريقة منطقية؟
  • ماذا يتضمّن كل صف؟
  • ماذا يتضمّن كل عمود؟
  • هل تمّ دمج أي خانات؟

يتضمّن أول صف من الملف أسماء المتغيّرات، التي يبلغ عددها ستة في مجموعات البيانات هذه، وهي “PS_Code” (رمز_مكتب الاقتراع)، “PS_Name” (إسم_مكتب الاقتراع)، “Region_Name” (إسم_المنطقة)، “District_Name” (إسم_المقاطعة)، “Constituency_Name” (إسم_الدائرة)، و“Registered_Voters” (الناخبون_المسجّلون).

Image 1

لنحدد بعدذاك عدد المشاهدات في قاعدة البيانات هذه، إما بإسدال الجدول حتى الأسفل أو بطرح الصف 1 (أي الصف الذي يتضمّن أسماء المتغيّرات):

Image 2

أو يمكننا أن نظلل عموداً معيّناً (إحدى المتغيّرات مثلاً، كتلك المتعلقة بالناخبين المسجّلين)، ونعاين أسفل الشاشة من الجهة اليمنى، بحثاً عن الرقم المبيّن تحت خانة “Numerical Count” (الإحصاء العددي). هذا الأخير يطلعك فقط على ما تتوقّعه، أي لا يحتسب إلاّ الأرقام متجاهلاً أي نص.

Image 3

إذا لم يظهر “Numerical Count” (الإحصاء العددي) في أسفل شريط المعلومات، لأي سبب من الأسباب، أنقر بزر الماوس الأيمن على الشريط، واختر “Numerical Count” (الإحصاء العددي) من بين الإحصاءات المطلوب عرضها.

فيتبيّن لك وجود 20,928 مشاهدة للمتغيّرة الواردة تحت إسم “Registered_Voters” (الناخبين_المسجّلين)، التي سنركّز عليها في المرحلة اللاحقة.

التحقق من توقعاتك: متغيّرة "الناخبين_المسجّلين"

يحتوي العمود (F) على عدد الناخبين المسجّلين في كل مكتب اقتراع (أي صف). قبل أن نلخّص متغيّرة “Registered_Voters” (الناخبين_المسجّلين)، فكّر بعض الوقت في ما تتوقّع إيجاده تحت هذه الخانة، طارحاً على نفسك الأسئلة التالية:

  • ما القيم الممكنة التي تتوقّع إيجادها؟
  • ما سيكون، برأيك، المتوسط أو الوسط الحسابي الذي ستحصل عليه؟
  • ما سيكون، برأيك، الحدّ الأدنى لعدد الناخبين المسجّلين في مكتب اقتراع؟
  • هل تتوقّع أن تشمل أي مشاهدات العدد صفر؟ هل تتوقّع أن تقع على عدد سالب؟
  • ما هو الحدّ الأقصى لعدد الناخبين المسجّلين الذي تتوقعه في أي مكتب اقتراع؟
  • ما القيمة أو القيم التي ستبدو لك غير منطقية أو غير محتملة؟ هل يبدو لك منطقياً أن تحصل عل عدد عشري (12,5 مثلاً)؟ ما الغريب في هذا العدد؟

استخدام برنامج آكسيل لوصف متغيّرة “Registered_Voters” (الناخبين_المسجّلين)

إذا ظللت العمود الذي يضمّ متغيّرة “Registered_Voters” (الناخبين_المسجّلين) (العمود F)، سيقوم برنامج آكسيل تلقائياً باحتساب وإبراز بعض القيم العائدة إلى الخانات المظللة/المختارة في الجانب الأيمن من أسفل شريط المعلومات. لكنك قد تضطر مجدداً إلى أن تنقر بزر الماوس الأيمن على هذا الشريط، وتعديل الإحصاءات التي يظهرها من خلال التحقق من كل إحصائية.

Image 4

يتبيّن لك في قائمة مكاتب الاقتراع لعام 2008 أنّ متوسط عدد الناخبين المسجّلين في جميع مكاتب الاقتراع هو 547,8 ناخباً. كذلك تلاحظ أن إجمالي عدد الخانات التي تمّ ملؤها (أي "الإحصاء") هو 20,929. يُظهر برنامج آكسيل أيضاً أنّ الخانات المظللة تسجّل قيمة دنيا قدرها 1 وقيمة قصوى قدرها 55,515، يحتسب كل واحدة منها باعتماد صيغة فردية. في هذه المرحلة، يمكنك فتح علامة تبويب جديدة في ورقة العمل، لتدرج فيها الوظائف الفردية للوسط الحسابي ("الوسط الحسابي")، والحدّ الأدنى ("الحدّ الأدنى")، والحدّ الأقصى ("الحدّ الأقصى")، والإحصاء ("الإحصاء")، والانحراف المعياري ("الانحراف المعياري"). أنشئت لك استناداً إلى بيانات الطول. نلفت انتباهك إلى أنّ الانحراف المعياري ليس أحد الخيارات المتاحة في أسفل شريط المعلومات، إنما يجوز لك إدخال الصيغة الحسابية في علامة تبويب أخرى.

أو استخدام حزمة أدوات "تولباك" لتحليل البيانات، والطلب من آكسيل احتساب جميع الإحصاءات

عند تثبيت حزمة أدوات “Analysis Toolpak” (تولباك للتحليل)[2]، إنتقل إلى علامة تبويب البيانات، حيث تلاحظ ميزة “Data Analysis” (تحليل البيانات) مدرجة في أقصى الجهة اليمنى.

Image 5

ثمّ أنقر في تلك القائمة على خيار “Data Analysis” (تحليل البيانات)، الذي يقودك إلى نافذة جديدة.

Image 6

في القائمة، تحت عنوان “Analysis Tools” (أدوات التحليل)، اختر “Descriptive Statistics” (إحصاءات وصفية)، قبل أن تنقر على زر “Ok” (موافق). فتبرز أمامك قائمة جديدة. في هذه الأخيرة، أنقر على المربّع في الجانب الأيمن من “Input Range” (نطاق المدخلات):

Image 7

يمكنك الآن أن تختار النطاق الذي تودّ وصفه. ما يشغل اهتمامنا في هذه المرحلة هو متغيّرة “Registered_Voters” (الناخبين_المسجّلين)، المدرجة في العمود (F). لذا، اضغط على أعلى العمود المذكور لتظليله بالكامل.

Image 8

ثمّ، أنقر مجدداً على ذاك المربّع في الجانب الأيمن من المدخلات (Input box).

Image 9

فيقودك ذلك مجدداً إلى نافذة “Descriptive Statistics” (الإحصاءات الوصفية). في تلك النافذة، إحرص على أن تنقر على مربّع الاختيار إلى جانب “Labels in First Row” (تسميات الصف الأول)، قبل أن تنقر على مربّع “Summary Statistics” (ملخص الإحصاءات). تأكّد أيضاً من اختيار “New Worksheet Ply” (طيّ ورقة عمل جديدة)، حتى تدرج إحصاءاتك فيها، قبل أن تنقر على زر “Ok” (موافق).

Image 10

ستظهر أمامك الآن علامة تبويب جديدة تتضمّن ملخص جميع الإحصاءات المتعلقة “Registered_Voters” (بالناخبين_المسجّلين).

Image 11

إنطلاقاً من المعلومات التي تكوّنت لديك حول الوسط الحسابي والانحراف المعياري والمدى، كيف تصف متغيّرة “Registered_Voters” (الناخبين_المسجّلين)؟ هل ترى أنّ البيانات مبعثرة جداً، أو شديدة الالتصاق؟?

مقارنة الإحصاءات الفعلية مع التوقعات

بعد الحصول على ملخص الإحصاءات لمتغيّرة “Registered_Voters” (الناخبين_المسجّلين)، كيف تجيب عن الأسئلة التالية؟ كيف تقارن الإجابات مع التوقعات التي وضعتها في البداية؟

  • هل تلاحظ أنّ ثمة بيانات مفقودة؟
  • هل البيانات منظّمة بطريقة منطقية؟
  • ماذا يتضمّن كل صف؟
  • ماذا يتضمّن كل عمود؟
  1. تستند القائمة إلى قائمة مكاتب الاقتراع في غانا لعام 2008. قد تكون بعض معلوماتها خضعت لتغيير أو تعديل بهدف الإضاءة على المفاهيم الواردة في هذه الوثيقة.
  2. لتثبيت هذه الوظيفة الإضافية، قم بتظليل علامة تبويب الملف، ثمّ اختر “Options” (خيارات) إلى جانب نهاية القائمة، من الجانب الأيسر. في نافذة“Excel Options” (خيارات آكسيل) الجديدة، اختر “Add-ins” (الوظائف الإضافية)، التي تندرج فيها حتماً حزمة أدوات “Analysis Toolpak” (تولباك للتحليل). أنقر لتظليلها قبل أن تضغط على زر “Go” (الانطلاق) في أسفل تلك النافذة. فتظهر لك نافذة جديدة تدعى “Add-ins” (وظائف إضافية). ضمن خانة “Add-ins Available” (الوظائف الإضافية المتوافرة)، ضع علامة في مربّع الاختيار إلى جانب “Analysis Toolpak” (تولباك للتحليل)، قبل أن تنقر على زر “Ok” (موافق). تحت خانة علامة تبويب “Data” (البيانات)، يجب أن يظهر احتمال “Data Analysis” (تحليل البيانات) كخيار في أقصى الجانب الأيمن.
Facebook
Twitter
Instagram
Youtube
Tumblr