بحث هذه المدونة الإلكترونية

الخميس، 20 أغسطس 2020

الإبداع في تحليل البيانات



لقد سمعت كثيرًا أن هناك حاجة لمحللي البيانات ليكونوا مبدعين في عملهم. لكن لماذا؟ أين وكيف يتم ممارسة هذا الإبداع بالضبط؟
من ناحية ، يمكن التفكير في أنه يجب استبدال محلل البيانات بسهولة بآلة. بالنسبة لأنواع البيانات المختلفة وأنواع الأسئلة المختلفة ، يجب أن يكون هناك نهج محدد للتحليل لا يتغير. من المفترض ، يمكن ترميز هذا في برنامج كمبيوتر ويمكن إدخال البيانات في البرنامج في كل مرة ، مع عرض النتيجة في النهاية. بالنسبة للمبتدئين ، هذا من شأنه القضاء على درجات الباحث سيئة السمعة لمشكلة الحرية . إذا كانت هناك معرفة مؤسسية كبيرة بتحليل البيانات ، فقد يكون هذا ممكنًا بالفعل. كيف يختلف كل تحليل للبيانات اختلافًا كبيرًا لدرجة أن الإنسان بحاجة إلى صياغة حل؟
حسنًا ، ليس صحيحًا أن كل تحليل مختلف. العديد من حسابات القوة ، على سبيل المثال ، متطابقة أو متشابهة جدًا ، ويمكن أن تتم آليًا إلى حد ما. ومع ذلك ، فإن كيفية استخدام حسابات القوة أو تفسيرها بالضبط يمكن أن تختلف قليلاً من مشروع إلى آخر. حتى نفس الحساب لنفس تصميم الدراسة يمكن تفسيره بشكل مختلف في مشاريع مختلفة ، اعتمادًا على السياق. وينطبق الشيء نفسه على أنواع أخرى من التحليلات مثل نمذجة الانحدار أو التعلم الآلي.
هناك حاجة إلى الإبداع بسبب القيود المفروضة على التحليل السياق ، الموارد ، و الجمهور ، كل الأشياء التي كنا قد تفكر في كونها "خارج" البيانات. السياق الذي يتم حوله إنشاء البيانات ، والموارد (الوقت ، والمال ، والتكنولوجيا) المتاحة لإجراء التحليل ، والجمهور الذي ستُعرض النتائج عليه ، تلعب جميعها دورًا رئيسيًا في تحديد الاستراتيجية التي يطورها المحلل لتحليلها البيانات. غالبًا ما يتعين على المحلل توظيف قدر من الإبداع من أجل تنفيذ استراتيجية تنتج مخرجات مفيدة.
دور السياق
سياق المشكلة له تأثير كبير على كيفية تأطير السؤال ، وكيف نترجمه إلى مشكلة بيانات ، وكيف نبدأ في جمع البيانات. يسمح لنا السياق أيضًا بالإجابة على الأسئلة المتعلقة بأسباب ظهور البيانات بالطريقة التي تعمل بها. يمكن أن يكون لنفس الرقم لنفس النوع من القياس تفسيرات مختلفة بناءً على السياق.
بيانات مفقودة
توجد البيانات المفقودة في كل مجموعة بيانات تقريبًا ، وأهم سؤال يمكن أن يطرحه محلل البيانات عند مواجهة البيانات المفقودة هو "لماذا البيانات مفقودة؟" من المهم تطوير بعض الفهم للآلية الكامنة وراء ما يجعل البيانات مفقودة من أجل تطوير استراتيجية مناسبة للتعامل مع البيانات المفقودة (أي عدم القيام بأي شيء ، أو التضمين ، وما إلى ذلك) ولكن البيانات نفسها غالبًا ما توفر القليل من المعلومات حول هذه الآلية ؛ غالبًا ما يتم ترميز الآلية خارج البيانات ، وربما لا يتم تدوينها ولكن يتم تخزينها في أذهان الأشخاص الذين جمعوا البيانات في الأصل.
خذ تجربة سريرية ثنائية الذراع مع علاج تجريبي وهمي. في بعض الأحيان مع العلاجات التجريبية ، هناك آثار جانبية وسينسحب الناس من التجربة (أو حتى يموتوا) لأنهم لا يستطيعون التعامل مع الآثار الجانبية. والنتيجة هي المزيد من البيانات المفقودة في الجزء التجريبي من التجربة مقارنةً بذراع الدواء الوهمي. الآن ستكشف البيانات نفسها عن تباين في معدل البيانات المفقودة بين الذراعين حيث سيكون من الواضح أن ذراع العلاج لديه معدل أعلى. لكن البيانات لن تكشف عن السبب الدقيق وراء انسحابهم. اعتمادًا على طبيعة التجربة والسؤال المطروح ، قد تكون هناك عدة طرق مختلفة للتعامل مع هذه المشكلة. قد يكون الاقتراض ممكنًا أو ربما نوعًا من مخطط المطابقة. سيعتمد الاختيار الدقيق لكيفية المتابعة على البيانات الخارجية المتاحة ،

مثال آخر قد يكون في تحليل بيانات تلوث الهواء بالجسيمات الخارجية. عادة ما تأخذ الشاشات التي تديرها وكالة حماية البيئة الأمريكية القياسات مرة كل ستة أيام. والسبب هو أن معالجة عوامل التصفية لبيانات الجسيمات باهظة الثمن ، وبالتالي فإن جدول اليوم الواحد من ستة أيام هو حل وسط مصمم لموازنة التكلفة مع كمية البيانات. بالطبع ، هذا يعني أن 5 من كل 6 أيام "مفقودة" في سجلات البيانات ، على الرغم من أن النقص قد تم تقديمه عمداً. مرة أخرى ، لا توضح البيانات سبب فقدها. يمكن للمرء أن يتخيل بسهولة سيناريو لا تسجل فيه الشاشة البيانات عندما تكون قيم PM عالية جدًا أو منخفضة جدًا ، وهو نوع من نقص المعلومات. ولكن في هذه الحالة ، يمكن تجاهل البيانات المفقودة وعادة لا يكون لها تأثير كبير على النمذجة اللاحقة. حقيقة،
في كلتا الحالتين ، تتمثل مهمة محلل البيانات في تقييم الموقف ، والنظر في البيانات ، والحصول على معلومات حول السياق ولماذا البيانات مفقودة (من خبير في الموضوع) ، ثم تحديد المسار المناسب للمضي قدمًا. حتى مع هذين السيناريوهين ، لا يوجد مسار عام للمضي قدمًا.
دور الجمهور
الجمهور هو عامل رئيسي آخر يؤثر بشكل أساسي على كيفية تحليل البيانات وتقديم النتائج. تتمثل إحدى الطرق المفيدة في التفكير في المنتجات النهائية التي يجب إنتاجها ثم العمل بشكل عكسي من هناك لتحقيق النتيجة. على سبيل المثال ، إذا كان "الجمهور" عبارة عن خوارزمية أو إجراء آخر ، فقد لا تكون الطبيعة الدقيقة للمخرجات مهمة لأنه يمكن إدخالها بشكل مناسب في الجزء التالي من خط الأنابيب. سيتم إعطاء الأولوية للتأكد من أن الإخراج يمكن قراءته آليًا. بالإضافة إلى ذلك ، قد لا تزن القابلية للتفسير بهذا الحجم لأنه لن ينظر أي إنسان إلى ناتج هذا الجزء. ومع ذلك ، إذا كان شخص ما سينظر إلى النتائج ، فقد ترغب في التركيز على نهج النمذجة الذي يسمح لذلك الشخصسبب البيانات وفهم كيفية قيام البيانات بإبلاغ النتائج.
في إحدى الحالات المتطرفة ، إذا كان الجمهور هو محلل بيانات آخر ، فقد ترغب في إجراء تحليل "خفيف" نسبيًا (ربما مجرد بعض المعالجة المسبقة) ولكن بعد ذلك قم بإعداد البيانات بطريقة يمكن توزيعها بسهولة على الآخرين للقيام التحليل الخاص. يمكن أن يكون هذا في شكل حزمة R أو ملف CSV أو أي شيء آخر. قد لا يهتم المحللون الآخرون بتصوراتك أو نماذجك الرائعة ؛ يفضلون الحصول على البيانات لأنفسهم وتحقيق نتائجهم الخاصة.
يجب أن يقوم محلل البيانات بإجراء تقييم معقول لاحتياجات الجمهور وخلفيته وتفضيلاته لتلقي نتائج تحليل البيانات. قد يتطلب هذا بعض التخمين الإبداعي. إذا كان الجمهور متاحًا للمحلل ، فيجب على المحلل طرح أسئلة حول أفضل طريقة لتقديم النتائج. خلاف ذلك ، يجب وضع افتراضات معقولة أو يمكن إعداد حالات الطوارئ (مثل شرائح النسخ الاحتياطي والملاحق) للعرض التقديمي نفسه.

الموارد والأدوات
من المحتمل أن يعمل محلل البيانات في ظل مجموعة من قيود الموارد ، مما يضع حدودًا لما يمكن فعله بالبيانات. من المرجح أن يكون الوقت هو القيد الأول والأهم. يمكن للمرء فقط تجربة أشياء كثيرة في الوقت المحدد ، أو قد تستغرق بعض التحليلات وقتًا طويلاً لإكمالها. لذلك ، قد يلزم إجراء حلول وسط ما لم يتم التفاوض على مزيد من الوقت والموارد. ستكون الأدوات محدودة حيث قد لا توجد مجموعات معينة من النماذج والبرامج وقد لا يكون هناك وقت لتطوير أدوات جديدة من البداية.
يجب أن يقوم محلل البيانات الجيد بتقدير الوقت المتاح وتحديد ما إذا كان كافياً لإكمال التحليل. إذا كانت الموارد غير كافية ، فيجب على المحلل إما التفاوض للحصول على المزيد من الموارد أو تكييف التحليل ليلائم الموارد المتاحة. يكاد يكون من المؤكد أن الإبداع مطلوب عندما تكون هناك قيود شديدة على الموارد ، من أجل الضغط على أكبر قدر من الإنتاجية مما هو متاح.
ملخص
يمكن للسياق والجمهور والموارد وضع أنواع مختلفة من القيود على تحليل البيانات ، مما يجبر المحلل على توظيف أنواع مختلفة من الإبداع لإنجاز المهمة. على الرغم من أنني قدمت كل سياق وجمهور وموارد بشكل منفصل هنا ، إلا أن كل هذه العوامل في معظم التحليلات ستلعب دورًا في وقت واحد. يمكن أن ينمو تعقيد بيئة القيد (وتفاعلاتها المختلفة) بسرعة ، مما يضع ضغطًا متزايدًا على المحلل للتفكير بشكل خلاق لتحقيق نتائج مفيدة.




لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...