بحث هذه المدونة الإلكترونية

الخميس، 20 أغسطس 2020

ما هو تحليل البيانات الناجح؟



لقد استعصى علي تحديد النجاح في تحليل البيانات لبعض الوقت الآن. منذ حوالي عامين حاولت استكشاف هذا السؤال في محاضرة العميد ، لكنني أعتقد في النهاية أنني فاتني العلامة. في هذا الحديث حاولت تحديد المعايير (التي أسميتها "الجماليات") التي يمكننا من خلالها تقييم جودة تحليل البيانات عالميًا وحاولت إجراء تشابه مع نظرية الموسيقى. لقد كان حديثًا ممتعًا ، جزئيًا لأنني لعبت في نهاية السيمفونية الثانية لتشارلز آيفز.

الإحصائيون ، من واقع خبرتي ، لا يناقشون هذا الموضوع كثيرًا. إما لأنه من الغباء أن كل شخص لديه فهم (غير معلن) له ، أو أن كل شخص لديه فهم مختلف قليلاً عنه ، أو أن لا أحد يفهمه. في كلتا الحالتين ، في ما يقرب من عشرين عامًا كإحصائي ، لا أعتقد أنني أجريت العديد من المحادثات المتعمقة مع أي شخص حول ما يجعل تحليل البيانات ناجحًا. أكثر ما ناقشته على الإطلاق حول هذا الموضوع هو حول ليس كذلك الانحرافات المعيارية مع هيلاري باركر ، حيث يكون هذا موضوعًا متكررًا للمحادثة. مؤخرًا ، ألقت هيلاري حديثًا متعلقًا بهذا الموضوع ( الشرائح هنا ) ، ولذا فقد ألهمتني كتابة شيء ما.

أعتقد أنني توصلت إلى التعريف التالي لنجاح تحليل البيانات ، وهو
يكون تحليل البيانات ناجحًا إذا قبل الجمهور الذي يتم تقديمه النتائج إليه.
هناك عدد من الأشياء التي يجب تفريغها هنا ، لذلك سوف أمشي من خلالها. اثنين من المفاهيم الرئيسية التي أعتقد أنها مهمة هي مفاهيم القبول و الجمهور .

قبول
الفكرة الأولى هي مفهوم القبول . من المغري الخلط بين هذا وبين الاعتقاد ، لكنهما مفهومان مختلفان يجب الفصل بينهما (على الرغم من صعوبة ذلك في بعض الأحيان). يتضمن قبول التحليل التحليل نفسه - البيانات والطرق المطبقة عليه ، جنبًا إلى جنب مع السرد الذي يتم إخباره لشرح النتائج. الاعتقاد في نتائج يعتمد على التحليل نفسه، فضلا عن أشياء أخرى كثيرة خارج التحليل، بما في ذلك التحليلات السابقة والأدب القائمة، ودولة العلم (من حيث النظرية الافتراضية بحتة، بك السابقة ). يمكن للجمهور المسؤول قبول التحليل دون الاعتقاد بالضرورة بادعاءاته الرئيسية ، ولكن من المحتمل أن يكون هذان المفهومان مرتبطين.
على سبيل المثال ، افترض أن فريقًا في شركتك يصمم تجربة لجمع البيانات لتحديد ما إذا كان خفض سعر الأداة سيكون له تأثير على أرباح شركتك التي تصنع الأدوات. أثناء عملية جمع البيانات ، كانت هناك مشكلة أدت إلى فقدان بعض البيانات بطريقة يحتمل أن تكون مفيدة بالمعلومات. ثم يتم تسليم البيانات إليك. أنت تبذل قصارى جهدك لتفسير النواقص وعدم اليقين الناتج ، ربما من خلال التضمين المتعدد أو طرق التعديل الأخرى. في نهاية اليوم ، عرضت لي التحليل واستنتجت أن خفض سعر الأداة سيزيد الأرباح 3 أضعاف. قد أقبل أنك أجريت التحليل بشكل صحيح وأثق في أنك بذلت قصارى جهدك لتفسير المشكلات التي واجهتها أثناء الجمع باستخدام أحدث الأساليب. لكن قد أختلف مع الاستنتاج ، يرجع ذلك جزئيًا إلى المشكلات التي تم تقديمها مع البيانات المفقودة (ليس خطأك) ، ولكن أيضًا جزئيًا لأننا خفضنا سابقًا أسعار منتج آخر نبيعه ولم تكن هناك زيادة مقابلة في الأرباح. نظرًا للتكلفة الهائلة لإجراء التجربة ، قد أقرر في النهاية أنه يجب علينا التخلي عن محاولة تعديل سعر الأدوات وترك الأشياء في مكانها (على الأقل في الوقت الحالي). كان التحليل ناجحًا.
يوضح هذا المثال البسيط شيئين. أولاً ، يعتمد قبول التحليل بشكل أساسي على تفاصيل التحليل ورغبتي في الوثوق بما فعله المحلل. هل تم حساب البيانات المفقودة؟ هل تم تقديم عدم اليقين بشكل صحيح؟ هل يمكنني التفكير في البيانات وفهم كيف تؤثر البيانات على النتائج؟ ثانيًا ، إيماني بالنتائج يعتمد جزئيًا على أشياء خارج التحليل ، أشياء خارجة عن سيطرة المحلل بشكل أساسي. في هذه الحالة ، هذا هو وجود بيانات مفقودة أثناء التجميع وتجربة منفصلة تمامًا لخفض أسعار منتج مختلف. كيف أزن هذه الأشياء الخارجية ، في ظل تحليلك ، هو تفضيل شخصي.
القبول مقابل الصلاحية
في السياقات العلمية ، من المغري التفكير في الصلاحية. هنا ، يكون تحليل البيانات ناجحًا إذا كانت الادعاءات المقدمة صحيحة. إذا قمت بتحليل البيانات حول عادات التدخين ومعدلات الوفيات وخلصت إلى أن التدخين يسبب سرطان الرئة ، فإن تحليلي يكون ناجحًا إذا كان هذا الادعاء صحيحًا. يتميز هذا التعريف بأنه يزيل العنصر الذاتي للقبول ، والذي يعتمد على الجمهور الذي يتم تقديم التحليل إليه. لكن الصلاحية هي عائق مرتفع للغاية يجب تلبيته لأي تحليل معين. في مثال التدخين هذا ، لا يمكن اعتبار التحليلات الأولية لبيانات التدخين والوفيات ناجحة أو لا يمكن اعتبارها إلا بعد عقود من إجرائها. تتطلب معظم الاستنتاجات العلمية تكرارًا متعددًا يحدث على مدى سنوات عديدة بواسطة محققين ومحللين مستقلين قبل أن يعتقد المجتمع أو يستنتج أنها صحيحة. يبدو ترك محللي البيانات في طي النسيان لفترة طويلة غير عملي ، بصراحة غير عادلة. وفي النهاية ، لا أعتقد أننا نريد معاقبة محللي البيانات على استخلاص استنتاجات تبين أنها خاطئة ، طالما أننا نعتقد أنهم يقومون بعمل جيد. ما إذا كانت هذه الادعاءات صحيحة أم لا قد تعتمد على أشياء خارجة عن سيطرتهم.
المعيار المرتبط بالتحليلات هو في الأساس مفهوم الصلاحية الجوهرية. بدلاً من الانتظار حتى نتمكن من التحقق من صحة ادعاء تم إجراؤه بواسطة تحليل (ربما بعد عقود على الطريق) ، يمكننا تقييم التحليل من خلال ما إذا كان هو الصحيح أم الأفضلتم تنفيذ النهج وطبقت الطرق الصحيحة. لكن هناك مشكلتان على الأقل في هذا النهج. في العديد من السيناريوهات ، لا يمكن معرفة الطريقة الأفضل ، أو ما هي أفضل مجموعة من الأساليب التي يمكن تطبيقها ، مما قد يوحي بأنه في العديد من التحليلات ، نحن غير متأكدين من النجاح. هذا يبدو غير مرضٍ وغير عملي في نهاية المطاف. تخيل توظيف محلل بيانات والقول لهم "في الغالبية العظمى من التحليلات التي تقوم بها ، لن نعرف ما إذا كنت ناجحًا أم لا." ثانيًا ، حتى في السيناريوهات المثالية ، حيث نعرف ما هو الصحيح أو الأفضل ، فإن الصلاحية الجوهرية ضرورية ولكنها بعيدة عن أن تكون كافية. هذا بسبب السياقالتي يتم فيها إجراء تحليل أمر بالغ الأهمية في فهم ما هو مناسب. إذا لم يكن المحلل على دراية بهذا السياق ، فقد يرتكب أخطاء فادحة ، سواء من منظور تحليلي أو تفسيري. ومع ذلك ، قد تكون هذه الأخطاء نفسها غير ضارة في سياق مختلف. كل هذا يتوقف ، لكن المحلل يحتاج إلى معرفة الفرق.
إحدى القصص التي تتبادر إلى الذهن تأتي من الانتصار الانتخابي لجورج دبليو بوش على آل جور في الانتخابات الرئاسية الأمريكية عام 2000. توقفت تلك الانتخابات على فرز الأصوات في ولاية فلوريدا ، حيث كان بوش وجور متقاربين للغاية. في النهاية ، تم رفع دعاوى قضائية وتم تعيين محاكمة لتحديد كيفية إجراء فرز الأصوات بالضبط. تم استدعاء الإحصائيين للإدلاء بشهاداتهم لكل من بوش وجور. الإحصائي الذي تم استدعاؤه للإدلاء بشهادته لفريق جور كان نيكولاس هينجارتنر ، سابقًا بجامعة ييل (كان مستشاري الجامعي عندما كنت هناك). قدم هينجارتنر تحليلاً شاملاً للبيانات التي قدمها له فريق جور وخلص إلى وجود اختلافات في كيفية عد الأصوات في جميع أنحاء فلوريدا وأن بعض بطاقات الاقتراع كانت أقل من قيمتها. ومع ذلك ، عند استجواب الشهود ، كان محامي بوش قادرًا على اللحاق بهنغارتنر في لحظة "مسكت" الأمر الذي كان له علاقة في النهاية بالطريقة التي تم بها جمع البيانات ، والتي لم يكن هينجارتنر على علم بها. هل كان التحليل ناجحًا؟ من الصعب القول دون أن يكون قد شارك بشكل مباشر. لم يعترض أحد على المنهجية التي استخدمها هينجارتنر في التحليل ، والتي كانت بكل المقاييس تحليلًا بسيطًا للغاية. لذلك ، يمكن للمرء أن يجادل في أن لها صلاحية جوهرية. ومع ذلك ، يمكن للمرء أيضًا أن يجادل بأنه كان يجب أن يكون على علم بالمشكلة المتعلقة بكيفية جمع البيانات (وربما السياق الأوسع) ودمج ذلك في تحليله وعرضه على المحكمة. كان تحليل Hengartner جزءًا واحدًا فقط من مجموعة من الأدلة المقدمة ، ولذلك من الصعب تحديد الدور الذي لعبه في النتيجة النهائية.
الجمهور
جميع تحليلات البيانات لها جمهور ، حتى لو كان هذا الجمهور أنت. في النهاية ، قد يقبل الجمهور نتائج التحليل أو قد يفشلون في قبولها ، وفي هذه الحالة قد يلزم إجراء المزيد من التحليلات. حقيقة أن نجاح المحلل قد يعتمد على شخص مختلف عن المحلل قد تبدو ميزة غير مريحة للبعض. ومع ذلك ، أعتقد أن هذا هو واقع جميع تحليلات البيانات. النجاح يعتمد على البشر ، للأسف ، وهذا شيء يجب على المحللين الاستعداد للتعامل معه. إن الاعتراف بأن الطبيعة البشرية تلعب دورًا رئيسيًا في تحديد نجاح تحليل البيانات يشرح عددًا من الجوانب الرئيسية لما قد نعتبره تحليلات جيدة أو سيئة.
من المفترض أن يكون تحليل البيانات حول البيانات ، أليس كذلك؟ فقط الحقائق؟ وفي معظم الأحيان ، حتى النقطة التي تحتاجها لإيصال نتائجك إلى الجمهور. تكمن المشكلة في أنه في أي تحليل للبيانات سيكون مفيدًا للآخرين ، هناك ببساطة عدد كبير جدًا من النتائج لعرضها ، وبالتالي يجب اتخاذ الخيارات . اعتمادًا على من هو الجمهور ، أو من يتكون الجمهور ، ستحتاج إلى ضبط العرض التقديمي الخاص بك من أجل جعل الجمهور يقبل التحليل. كيف يتم ذلك؟ هنا نقيضان.

في أسوأ الحالات ، يتم ذلك من خلال الخداع. الرسوم البيانية ذات المحاور الفاسدة ، أو الجداول التي تحجب البيانات الرئيسية ؛ كلنا نعرف قصص الرعب. قد يكتشف الجمهور المتطور هذا النوع من الخداع ويرفض التحليل ، لكن ربما لا. بعد قولي هذا ، لنفترض أننا أنقياء القلوب. كيف ينظم المرء عرضًا تقديميًا ليكون ناجحًا؟ نعلم جميعًا قصة الرعب الأخرى ، وهي تفريغ البيانات . هنا ، يقدم المحلل كل ما قام به وينقل بشكل أساسي عبء التفسير إلى الجمهور. نادرا ما يكون هذا هو المطلوب. في بعض الحالات ، يريد الجمهور فقط أن تقوم البيانات بتحليلاتهم الخاصة ، ولكن بعد ذلك لا داعي لأن يضيع المحلل وقته في إجراء أي تحليل.

في النهاية ، يجب على المحلل أن يختار ما يقدمه ، وهذا يمكن أن يسبب مشاكل. يجب اتخاذ الخيارات لتلائم سرد المحلل لـ "ما يجري مع البيانات". سيختارون تضمين بعض قطع الأرض دون البعض الآخر وبعض الجداول دون البعض الآخر. يتم توجيه هذه الاختيارات من خلال سرد وتفسير للبيانات. عندما ينزعج الجمهور من تحليل البيانات ، ويكونون صادقين ، فإنهم عادة ما ينزعجون من السرد المختار ، وليس من الحقائق في حد ذاتها. سوف ينزعجون من مجموعة البيانات التي اختار المحلل تضمينها والبيانات التي اختار المحلل استبعادها . لماذا لم تقم بتضمين تلك البيانات؟ لماذا يركز هذا السرد على هذا الجانب أو ذاك؟
دور الإبداع
من ناحية ، يمكن التفكير في أنه يجب استبدال محلل البيانات بسهولة بآلة: لأنواع مختلفة من البيانات وأنواع مختلفة من الأسئلة ، يجب أن يكون هناك نهج محدد للتحليل لا يتغير. من المفترض ، يمكن ترميز هذا في برنامج كمبيوتر ويمكن إدخال البيانات في البرنامج في كل مرة ، مع عرض النتيجة في النهاية. كيف يختلف كل تحليل للبيانات اختلافًا كبيرًا لدرجة أن الإنسان بحاجة إلى صياغة حل؟ كيف يمكن أن تظهر الكلمات "الإبداع" و "تحليل البيانات" في نفس الجملة؟
حسنًا ، ليس صحيحًا أن كل تحليل مختلف تمامًا. العديد من حسابات القوة ، على سبيل المثال ، متطابقة. ومع ذلك ، فإن كيفية استخدام حسابات الطاقة هذه بالضبط يمكن أن تختلف قليلاً من مشروع إلى آخر. حتى نفس الحساب لنفس تصميم الدراسة يمكن تفسيره بشكل مختلف في مشاريع مختلفة. وينطبق الشيء نفسه على أنواع أخرى من التحليلات مثل نمذجة الانحدار أو غيرها من النمذجة الفاخرة. السبب وراء الحاجة إلى الإبداع في تحليل البيانات يجب أن يتعامل بشكل أساسي مع الأشياء التي نعتقد تقليديًا أنها "خارج" البيانات.
الجمهور هو عامل رئيسي "خارج البيانات" ويؤثر على كيفية تحليل البيانات وتقديم النتائج. تتمثل إحدى الطرق المفيدة في التفكير في المنتجات النهائية التي يجب إنتاجها ثم العمل بشكل عكسي من هناك لتحقيق النتيجة. على سبيل المثال ، إذا كان "الجمهور" عبارة عن خوارزمية أو إجراء آخر ، فقد لا تكون الطبيعة الدقيقة للمخرجات مهمة لأنه يمكن إدخالها بشكل مناسب في الجزء التالي من خط الأنابيب. على وجه الخصوص ، قد لا تزن القابلية للتفسير بهذا الحجم لأنه لن ينظر أي شخص إلى ناتج هذا الجزء. ومع ذلك ، إذا كان الشخص سوفبالنظر إلى النتائج ، فقد ترغب في التركيز على نهج النمذجة الذي يسمح لهذا الشخص بالتفكير في البيانات وفهم كيفية قيام البيانات بإثراء النتائج. على سبيل المثال ، قد ترغب في عمل المزيد من مخططات البيانات ، أو إظهار جداول مفصلة إذا لم تكن مجموعة البيانات كبيرة.
في إحدى الحالات المتطرفة ، إذا كان الجمهور هو محلل بيانات آخر ، فقد ترغب في إجراء تحليل "خفيف" نسبيًا ، ولكن بعد ذلك قم بإعداد البيانات بطريقة يمكن توزيعها بسهولة على الآخرين لإجراء تحليلهم الخاص. يمكن أن يكون هذا في شكل حزمة R أو ملف CSV أو أي شيء آخر. قد لا يهتم المحللون الآخرون بتصوراتك أو نماذجك الرائعة ؛ يفضلون الحصول على البيانات لأنفسهم وتحقيق نتائجهم الخاصة.
هناك حاجة إلى الإبداع جزئيًا لأن محلل البيانات يجب أن يقوم بإجراء تقييم معقول لاحتياجات الجمهور وخلفيته وتفضيلاته لتلقي نتائج تحليل البيانات. إذا كان المحلل لديه حق الوصول إلى الجمهور ، فيجب على المحلل طرح أسئلة حول أفضل طريقة لتقديم النتائج. خلاف ذلك ، يجب وضع افتراضات معقولة أو يمكن إعداد حالات الطوارئ (مثل شرائح النسخ الاحتياطي والملاحق) للعرض التقديمي نفسه.
نتائج "غير متسقة"
مررت في كثير من الأحيان بتجربة تقديم نفس العرض التقديمي لجمهورين مختلفين. جمهور واحد يحبها والآخر يكرهها. كيف يمكن أن يكون ذلك إذا كانت التحليلات والعرض متماثلًا تمامًا في كلتا الحالتين؟ الحقيقة هي أنه يمكن قبول التحليل أو رفضه من قبل جماهير مختلفة اعتمادًا على من هم وما هي توقعاتهم. يتضمن السيناريو الشائع تقديم عرض تقديمي إلى "المطلعين" الذين هم على دراية بالسياق والممارسات القياسية في هذا المجال. إن أخذ هذا العرض التقديمي حرفيًا إلى جمهور "خارجي" أقل دراية سيؤدي غالبًا إلى الفشل لأنهم لن يفهموا ما يجري. إذا كان هذا الجمهور الخارجي يتوقع تطبيق مجموعة معينة من الإجراءات على البيانات ، فقد يطلبون منك أن تفعل الشيء نفسه ، ويرفضون قبول التحليل حتى تقوم بذلك.
أتذكر بوضوح إحدى التجارب التي قمت بتقديمها لتحليل بعض بيانات تلوث الهواء والبيانات الصحية التي قمت بها. من الناحية العملية ، فإن المحادثات مع مجموعتي الخاصة سارت على ما يرام واعتقدت أن الأمور كانت كاملة بشكل معقول. عند إلقاء نفس الحديث على مجموعة خارجية ، رفضوا قبول ما قمت به (أو حتى تفسير النتائج) حتى قمت أيضًا بإجراء تحليل منفصل باستخدام نوع مختلف من نموذج الشرائح. لم تكن فكرة غير منطقية ، لذلك قمت بإجراء تحليل منفصل وفي حدث مستقبلي مع نفس المجموعة قدمت كلا التحليلين جنبًا إلى جنب. لم يكونوا جامحين بشأن الاستنتاجات ، لكن النقاش لم يعد يركز على التحليلات نفسها وبدلاً من ذلك ركز على الجوانب العلمية الأخرى. في الماضي ، أعطي لهم الفضل في قبول التحليلات حتى لو لم يؤمنوا بالضرورة بالاستنتاج.

ملخص
أعتقد أن تعريفي المقترح لتحليل البيانات الناجح يمثل تحديًا (وربما مقلقًا) لأنه يشير إلى أن محللي البيانات مسؤولون عن أشياء خارج البيانات. على وجه الخصوص ، يحتاجون إلى فهم السياق الذي يتم حوله جمع البيانات والجمهور الذي سيتم تقديم النتائج إليه. أعتقد أيضًا أن هذا هو السبب في أنني استغرقت وقتًا طويلاً للوصول إليه. لكني أعتقد أن هذا التعريف يشرح بوضوح أكبر سبب صعوبة أن تكون محلل بيانات جيداً. عندما نفكر في تحليل البيانات باستخدام المعايير التقليدية التي وضعها الإحصائيون ، فإننا نكافح لشرح سبب كون بعض الأشخاص محللين بيانات أفضل من غيرهم ولماذا تكون بعض التحليلات أفضل من غيرها. ومع ذلك ، عندما نعتبر أنه يتعين على محللي البيانات التوفيق بين مجموعة متنوعة من العوامل الداخلية والخارجية للبيانات من أجل تحقيق النجاح ، فإننا نرى بشكل أوضح سبب صعوبة هذه المهمة ولماذا يصعب الحصول على الأشخاص الجيدين.
من الآثار الأخرى لهذا التعريف لنجاح تحليل البيانات أنه يشير إلى أن الطبيعة البشرية تلعب دورًا كبيرًا وأن الكثير من تحليل البيانات الناجح هو في الأساس مفاوضات ناجحة للعلاقات الإنسانية. غالبًا ما يلعب التواصل الجيد مع الجمهور دورًا أكبر بكثير في النجاح مما إذا كنت تستخدم نموذجًا خطيًا أو نموذجًا تربيعيًا. تعد الثقة بين المحلل والجمهور أمرًا بالغ الأهمية عندما يتعين على المحلل اتخاذ قرارات بشأن ما يجب تقديمه وما يجب حذفه. من الصعب الاعتراف بأن الطبيعة البشرية تلعب دورًا في نجاح تحليل البيانات لأن البشر ذاتيون للغاية وغير متسقين ويصعب تحديدهم كميًا. ومع ذلك ، أعتقد أن القيام بذلك يمنحنا فهمًا أفضل لكيفية الحكم على جودة تحليلات البيانات وكيفية تحسينها في المستقبل.




لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا 

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...