بحث هذه المدونة الإلكترونية

الأربعاء، 26 أغسطس 2020

شرح قيمة P ببساطة لعلماء البيانات




تعد P-Values ​​دائمًا صداعًا لتوضيحها حتى لشخص يعرفها ، ناهيك عن شخص لا يفهم الإحصائيات.
ذهبت إلى ويكيبيديا للعثور على شيء ما وهنا التعريف:
في اختبار الفرضية الإحصائية ، تكون القيمة الاحتمالية أو القيمة الاحتمالية ، بالنسبة لنموذج إحصائي معين ، احتمال أنه عندما تكون الفرضية الصفرية صحيحة ، فإن الملخص الإحصائي (مثل فرق متوسط ​​العينة بين مجموعتين) سيكون مساويًا لـ ، أو أكثر تطرفًا من النتائج الفعلية الملاحظة.
وكان أول ما فكرت فيه هو أنهم ربما كتبوها على هذا النحو حتى لا يفهمها أحدتكمن المشكلة هنا في الكثير من المصطلحات واللغة التي يستمتع الإحصائيون بتوظيفها.
يدور هذا المنشور حول شرح قيم p بطريقة سهلة الفهم دون كل هذا الطغيان من الإحصائيين .

مشكلة حقيقية
في حياتنا ، نعتقد بالتأكيد شيئًا على آخر.
من الواضح مثل - الأرض مستديرةأو أن الأرض تدور حول الشمسالشمس تشرق في الشرق.
إلى الأشخاص الأكثر وضوحًا مع مستويات متفاوتة من عدم اليقين - ممارسة الرياضة تقلل الوزن؟ أم أن ترامب سيفوز / يخسر في انتخاباته القادمة؟ أو أن دواء معين يعمل؟ أم أن النوم لمدة 8 ساعات مفيد لصحتك؟
في حين أن الفئة الأولى هي حقائق ، فإن الفئة الأخيرة تختلف من شخص لآخر.
فماذا لو جئت إليكم وقلت إن التمارين لا تؤثر على الوزن؟
قد ينادني جميع رواد صالة الألعاب الرياضية بكلمات ليست لطيفةلكن هل هناك بنية رياضية ومنطقية يمكن لأي شخص أن يدحضني فيها؟
يقودنا هذا إلى فكرة اختبار الفرضيات.

اختبار الفرضيات
التمارين لا تقلل الوزن؟
لذا فإن البيان الذي أدليت به في المثال أعلاه - ممارسة الرياضة لا تؤثر على الوزنهذا البيان هو فرضيتيدعنا نسميها فرضية لاغية في الوقت الحاليفي الوقت الحالي ، هذا هو الوضع الراهن كما نعتبره صحيحًا.
و الفرضية البديلة من الناس الذين أقسم ممارسة غير - ممارسة يفعل خفض الوزن.
لكن كيف نختبر هذه الفرضيات؟ نحن نجمع البياناتنقوم بجمع بيانات فقدان الوزن لعينة من 10 أشخاص يمارسون الرياضة بانتظام لأكثر من 3 أشهر.
متوسط ​​الوزن المفقود = 2 كجم
عينة الانحراف المعياري = 1 كجم
هل هذا يثبت أن التمرين يقلل الوزن؟ من نظرة خاطفة ، يبدو نوعًا ما أن التمارين الرياضية لها فوائدها لأن الأشخاص الذين يمارسون الرياضة فقدوا 2 كجم في المتوسط.
لكنك ستجد أن مثل هذه النتائج الواضحة ليست هي الحال دائمًا عند إجراء اختبار الفرضياتماذا لو كان فقدان الوزن يعني بالنسبة للأشخاص الذين يمارسون الرياضة 0.2 كجم فقطهل مازلت على يقين من أن التمارين لا تقلل الوزن؟
فكيف يمكننا قياس هذا ووضع بعض الرياضيات خلفه كله؟
دعونا نعد تجربتنا للقيام بذلك.

تجربة
لنعد إلى فرضياتنا مرة أخرى:
Hº: التمارين الرياضية لا تؤثر على الوزنأو ما يعادله 𝜇 = 0
H: التمرين يقلل الوزنأو ما يعادله 𝜇> 0
نرى عينة بياناتنا المكونة من 10 أشخاص ، ونحاول معرفة قيمة
المتوسط ​​المرصود (خسارة الوزن للأشخاص الذين يمارسون الرياضة) = 2 كجم
الانحراف المعياري للعينة المرصودة = 1 كجم

الآن السؤال الجيد الذي يجب طرحه على أنفسنا هوبافتراض أن الفرضية الصفرية صحيحة ، ما هو احتمال ملاحظة متوسط ​​عينة يبلغ 2 كجم أو أكثر من 2 كجم؟
بافتراض أنه يمكننا حساب هذا - إذا كانت قيمة الاحتمال هذه ضئيلة (أقل من قيمة العتبة) ، فإننا نرفض فرضيتنا الصفريةوإلا فإننا نفشل في رفض فرضيتنا الصفريةلماذا لا ترفض ولا تقبل؟ أنا سأجيب هذا في وقت لاحق.
هذه القيمة الاحتمالية هي في الواقع القيمة الاحتماليةببساطة ، إنه مجرد احتمال ملاحظة ما لاحظناه أو النتائج المتطرفة إذا افترضنا أن فرضيتنا الصفرية صحيحة.
يسمي الإحصائيون العتبة بمستوى الأهمية (𝜶) ، وفي معظم الحالات ، 𝜶 تؤخذ على أنها 0.05.

إذن كيف نجيب: بافتراض أن الفرضية الصفرية صحيحة ، ما هو احتمال الحصول على قيمة 2 كجم أو أكثر من 2 كجم؟
وهنا يأتي التوزيع المفضل لدينا ، التوزيع الطبيعي في الصورة.

التوزيع الطبيعي
نقوم بإنشاء توزيع عينات لمتوسط ​​عينات WeightLoss بافتراض أن فرضيتنا Null صحيحة.
المركزي نظرية النهاية: إن نظرية النهاية المركزية تنص ببساطة أنه إذا كان لديك عدد سكانها مع متوسط μ وσ الانحراف المعياري، وأخذ عينات عشوائية من السكان، ثم توزيع ل عينة وسائل سيتم تقريبا عادة توزيع مع متوسط مثل متوسط عدد السكان و الانحراف المعياري σ / √n . حيث σ هو الانحراف المعياري للعينة و n هو عدد المشاهدات في العينة.
الآن نحن نعرف بالفعل متوسط ​​تعدادنا كما هو محدد في فرضيتنا الصفريةلذلك ، نستخدم ذلك ولدينا توزيع طبيعي متوسطه 0. وانحرافه المعياري معطى 1 / √10

توزيع العينات هو توزيع لمتوسط ​​العينات.
هذا هو ، في الواقع ، توزيع متوسط ​​العينات من السكانلاحظنا قيمة معينة للمتوسط ​​الذي يتم ملاحظته X = 2 كجم.
يمكننا الآن استخدام بعض البرامج الإحصائية للعثور على المنطقة الواقعة تحت هذا المنحنى المحدد:
من scipy.stats استيراد معيار
استيراد numpy كـ npp = 1-norm.cdf (2، loc = 0، scale = 1 / np.sqrt (10))
print (p)
--------------------- ---------------------
1.269814253745949e-10
على هذا النحو ، هذه قيمة احتمالية صغيرة جدًا (<مستوى أهمية 0.5) لمتوسط ​​العينة لأخذ قيمة 2 أو أكثر.
ولذا يمكننا رفض فرضيتنا الخاليةويمكننا أن نطلق على نتائجنا دلالة إحصائية لأنها لا تحدث لمجرد الصدفة.
إحصاء Z
ربما تكون قد سمعت عن إحصاء Z أيضًا عندما قرأت عن اختبار الفرضياتمرة أخرى كما قلت ، المصطلحات.
هذا هو امتداد لنفس الفكرة المذكورة أعلاه حيث نستخدم معيارًا عاديًا بمتوسط ​​0 والتباين 1 كتوزيع العينات لدينا بعد تحويل القيمة المرصودة x باستخدام:

صورة للنشر
هذا يجعل من السهل استخدام الجداول الإحصائيةفي مثالنا الجاري ، إحصائية z هي:
z = (2-0) / (1 / np.sqrt (10))
print (z)
---------------------------- --------------------------
6.324555320336758
مجرد النظر إلى إحصاء Z> 6 يجب أن يمنحك فكرة أن القيمة المرصودة تبعد ستة انحرافات معيارية على الأقل وبالتالي يجب أن تكون القيمة p أقل من ذلك بكثيرلا يزال بإمكاننا العثور على القيمة p باستخدام:
من scipy.stats استيراد معيار
استيراد numpy كـ npp = 1-norm.cdf (z، loc = 0، scale = 1)
print (p)
---------------------------- --------------------------
1.269814253745949e-10
كما ترى ، نحصل على نفس الإجابة باستخدام إحصاء Z.

تمييز مهم
لا يمكن أبدًا أن يكون المحلفون على يقين نهائيًا ، لذا فهم لا يقبلون رفضهم فقط.
لذلك قلنا من قبل أننا نرفض فرضيتنا الصفرية حيث حصلنا على أدلة كافية لإثبات أن فرضيتنا الصفرية خاطئة.
ولكن ماذا لو كانت القيمة الاحتمالية أعلى من مستوى الأهميةثم نقول إننا فشلنا في رفض فرضية العدم.لماذا لا نقول قبول فرضية العدم؟
أفضل مثال بديهي على ذلك هو استخدام محاكم الموضوعفي المحكمة الابتدائية ، الفرضية الصفرية هي أن المتهم غير مذنبثم نرى بعض الأدلة لدحض فرضية العدم.
إذا لم نتمكن من دحض الفرضيات الباطلة ، فإن القاضي لا يقول إن المتهم لم يرتكب الجريمةيقول القاضي فقط أنه بناءً على الأدلة المقدمة ، لا يمكننا إدانة المتهم.
مثال آخر لدفع هذه النقطة إلى الأمام: بافتراض أننا نستكشف الحياة على كوكب غريبوفرضيتنا الصفرية ) هي أنه لا توجد حياة على هذا الكوكبنتجول على بعد أميال قليلة لبعض الوقت ونبحث عن أشخاص / كائنات فضائية على هذا الكوكبإذا رأينا أي كائن فضائي ، فيمكننا رفض فرضية العدم لصالح البديل.
ولكن إذا لم نرى أي كائن فضائي ، فهل يمكننا أن نقول بشكل قاطع أنه لا توجد حياة غريبة على هذا الكوكب أو نقبل فرضياتنا الفارغة؟ ربما كنا بحاجة إلى استكشاف المزيد ، أو ربما كنا بحاجة إلى مزيد من الوقت وربما وجدنا كائنًا فضائيًالذلك ، في هذه الحالة ، لا يمكننا قبول فرضية العدم ؛ لا يسعنا إلا أن نفشل في رفضهأو في كلمات كاسي كوزيركوف التي يأتي منها المثال ، يمكننا القول "لم نتعلم شيئًا مثيرًا للاهتمام".
في صف STAT101 ، يعلمونك كتابة فقرة معقدة عندما يحدث ذلك. ("لقد فشلنا في رفض الفرضية الصفرية واستنتجنا أنه لا توجد أدلة إحصائية كافية لدعم وجود حياة غريبة على هذا الكوكب.") أنا مقتنع بأن الغرض الوحيد من هذا التعبير هو إجهاد معصمي الطلابلطالما سمحت لطلابي الجامعيين بكتابتها كما هي: لم نتعلم شيئًا مثيرًا للاهتمام.
Riddikulus: اختبار الفرضية يمكن أن يجعل الفرضية الصفرية تبدو سخيفة باستخدام قيم p (العصا)
في الأساس ، يتعلق اختبار الفرضية فقط بالتحقق مما إذا كانت قيمنا الملاحظة تجعل الفرضية الصفرية تبدو سخيفة.إذا كانت الإجابة بنعم ، فنحن نرفض الفرضية الصفرية ونطلق على نتائجنا دلالة إحصائيةوإلا فإننا لم نتعلم شيئًا مثيرًا للاهتمام ، ونستمر في وضعنا الراهن.
لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...