تحليل المال والاعمال : شرح قيمة P ببساطة لعلماء البيانات

تعد P-Values دائمًا صداعًا لتوضيحها حتى لشخص يعرفها ، ناهيك عن شخص لا يفهم الإحصائيات.

ذهبت إلى ويكيبيديا للعثور على شيء ما وهنا التعريف:

في اختبار الفرضية الإحصائية ، تكون القيمة الاحتمالية أو القيمة الاحتمالية ، بالنسبة لنموذج إحصائي معين ، احتمال أنه عندما تكون الفرضية الصفرية صحيحة ، فإن الملخص الإحصائي (مثل فرق متوسط العينة بين مجموعتين) سيكون مساويًا لـ ، أو أكثر تطرفًا من النتائج الفعلية الملاحظة.

وكان أول ما فكرت فيه هو أنهم ربما كتبوها على هذا النحو حتى لا يفهمها أحد. تكمن المشكلة هنا في الكثير من المصطلحات واللغة التي يستمتع الإحصائيون بتوظيفها.

يدور هذا المنشور حول شرح قيم p بطريقة سهلة الفهم دون كل هذا الطغيان من الإحصائيين .

مشكلة حقيقية

في حياتنا ، نعتقد بالتأكيد شيئًا على آخر.

من الواضح مثل - الأرض مستديرة. أو أن الأرض تدور حول الشمس. الشمس تشرق في الشرق.

إلى الأشخاص الأكثر وضوحًا مع مستويات متفاوتة من عدم اليقين - ممارسة الرياضة تقلل الوزن؟ أم أن ترامب سيفوز / يخسر في انتخاباته القادمة؟ أو أن دواء معين يعمل؟ أم أن النوم لمدة 8 ساعات مفيد لصحتك؟

في حين أن الفئة الأولى هي حقائق ، فإن الفئة الأخيرة تختلف من شخص لآخر.

فماذا لو جئت إليكم وقلت إن التمارين لا تؤثر على الوزن؟

قد ينادني جميع رواد صالة الألعاب الرياضية بكلمات ليست لطيفة. لكن هل هناك بنية رياضية ومنطقية يمكن لأي شخص أن يدحضني فيها؟

يقودنا هذا إلى فكرة اختبار الفرضيات.

اختبار الفرضيات

التمارين لا تقلل الوزن؟

لذا فإن البيان الذي أدليت به في المثال أعلاه - ممارسة الرياضة لا تؤثر على الوزن. هذا البيان هو فرضيتي. دعنا نسميها فرضية لاغية في الوقت الحالي. في الوقت الحالي ، هذا هو الوضع الراهن كما نعتبره صحيحًا.

و الفرضية البديلة من الناس الذين أقسم ممارسة غير - ممارسة يفعل خفض الوزن.

لكن كيف نختبر هذه الفرضيات؟ نحن نجمع البيانات. نقوم بجمع بيانات فقدان الوزن لعينة من 10 أشخاص يمارسون الرياضة بانتظام لأكثر من 3 أشهر.

متوسط الوزن المفقود = 2 كجم

عينة الانحراف المعياري = 1 كجم

هل هذا يثبت أن التمرين يقلل الوزن؟ من نظرة خاطفة ، يبدو نوعًا ما أن التمارين الرياضية لها فوائدها لأن الأشخاص الذين يمارسون الرياضة فقدوا 2 كجم في المتوسط.

لكنك ستجد أن مثل هذه النتائج الواضحة ليست هي الحال دائمًا عند إجراء اختبار الفرضيات. ماذا لو كان فقدان الوزن يعني بالنسبة للأشخاص الذين يمارسون الرياضة 0.2 كجم فقط. هل مازلت على يقين من أن التمارين لا تقلل الوزن؟

فكيف يمكننا قياس هذا ووضع بعض الرياضيات خلفه كله؟

دعونا نعد تجربتنا للقيام بذلك.

تجربة

لنعد إلى فرضياتنا مرة أخرى:

Hº: التمارين الرياضية لا تؤثر على الوزن. أو ما يعادله 𝜇 = 0

H: التمرين يقلل الوزن. أو ما يعادله 𝜇> 0

نرى عينة بياناتنا المكونة من 10 أشخاص ، ونحاول معرفة قيمة

المتوسط المرصود (خسارة الوزن للأشخاص الذين يمارسون الرياضة) = 2 كجم

الانحراف المعياري للعينة المرصودة = 1 كجم

الآن السؤال الجيد الذي يجب طرحه على أنفسنا هو - بافتراض أن الفرضية الصفرية صحيحة ، ما هو احتمال ملاحظة متوسط عينة يبلغ 2 كجم أو أكثر من 2 كجم؟

بافتراض أنه يمكننا حساب هذا - إذا كانت قيمة الاحتمال هذه ضئيلة (أقل من قيمة العتبة) ، فإننا نرفض فرضيتنا الصفرية. وإلا فإننا نفشل في رفض فرضيتنا الصفرية. لماذا لا ترفض ولا تقبل؟ أنا سأجيب هذا في وقت لاحق.

هذه القيمة الاحتمالية هي في الواقع القيمة الاحتمالية. ببساطة ، إنه مجرد احتمال ملاحظة ما لاحظناه أو النتائج المتطرفة إذا افترضنا أن فرضيتنا الصفرية صحيحة.

يسمي الإحصائيون العتبة بمستوى الأهمية (𝜶) ، وفي معظم الحالات ، 𝜶 تؤخذ على أنها 0.05.

إذن كيف نجيب: بافتراض أن الفرضية الصفرية صحيحة ، ما هو احتمال الحصول على قيمة 2 كجم أو أكثر من 2 كجم؟

وهنا يأتي التوزيع المفضل لدينا ، التوزيع الطبيعي في الصورة.

التوزيع الطبيعي

نقوم بإنشاء توزيع عينات لمتوسط عينات WeightLoss بافتراض أن فرضيتنا Null صحيحة.

المركزي نظرية النهاية: إن نظرية النهاية المركزية تنص ببساطة أنه إذا كان لديك عدد سكانها مع متوسط μ وσ الانحراف المعياري، وأخذ عينات عشوائية من السكان، ثم توزيع ل عينة وسائل سيتم تقريبا عادة توزيع مع متوسط مثل متوسط عدد السكان و الانحراف المعياري σ / √n . حيث σ هو الانحراف المعياري للعينة و n هو عدد المشاهدات في العينة.

الآن نحن نعرف بالفعل متوسط تعدادنا كما هو محدد في فرضيتنا الصفرية. لذلك ، نستخدم ذلك ولدينا توزيع طبيعي متوسطه 0. وانحرافه المعياري معطى 1 / √10

توزيع العينات هو توزيع لمتوسط العينات.

هذا هو ، في الواقع ، توزيع متوسط العينات من السكان. لاحظنا قيمة معينة للمتوسط الذي يتم ملاحظته X = 2 كجم.

يمكننا الآن استخدام بعض البرامج الإحصائية للعثور على المنطقة الواقعة تحت هذا المنحنى المحدد:

من scipy.stats استيراد معيار
استيراد numpy كـ npp = 1-norm.cdf (2، loc = 0، scale = 1 / np.sqrt (10))
print (p)
--------------------- ---------------------
1.269814253745949e-10

على هذا النحو ، هذه قيمة احتمالية صغيرة جدًا (<مستوى أهمية 0.5) لمتوسط العينة لأخذ قيمة 2 أو أكثر.

ولذا يمكننا رفض فرضيتنا الخالية. ويمكننا أن نطلق على نتائجنا دلالة إحصائية لأنها لا تحدث لمجرد الصدفة.

إحصاء Z

ربما تكون قد سمعت عن إحصاء Z أيضًا عندما قرأت عن اختبار الفرضيات. مرة أخرى كما قلت ، المصطلحات.

هذا هو امتداد لنفس الفكرة المذكورة أعلاه حيث نستخدم معيارًا عاديًا بمتوسط 0 والتباين 1 كتوزيع العينات لدينا بعد تحويل القيمة المرصودة x باستخدام:

هذا يجعل من السهل استخدام الجداول الإحصائية. في مثالنا الجاري ، إحصائية z هي:

z = (2-0) / (1 / np.sqrt (10))
print (z)
---------------------------- --------------------------
6.324555320336758

مجرد النظر إلى إحصاء Z> 6 يجب أن يمنحك فكرة أن القيمة المرصودة تبعد ستة انحرافات معيارية على الأقل وبالتالي يجب أن تكون القيمة p أقل من ذلك بكثير. لا يزال بإمكاننا العثور على القيمة p باستخدام:

من scipy.stats استيراد معيار
استيراد numpy كـ npp = 1-norm.cdf (z، loc = 0، scale = 1)
print (p)
---------------------------- --------------------------
1.269814253745949e-10

كما ترى ، نحصل على نفس الإجابة باستخدام إحصاء Z.

تمييز مهم

لا يمكن أبدًا أن يكون المحلفون على يقين نهائيًا ، لذا فهم لا يقبلون رفضهم فقط.

لذلك قلنا من قبل أننا نرفض فرضيتنا الصفرية حيث حصلنا على أدلة كافية لإثبات أن فرضيتنا الصفرية خاطئة.

ولكن ماذا لو كانت القيمة الاحتمالية أعلى من مستوى الأهمية. ثم نقول إننا فشلنا في رفض فرضية العدم.لماذا لا نقول قبول فرضية العدم؟

أفضل مثال بديهي على ذلك هو استخدام محاكم الموضوع. في المحكمة الابتدائية ، الفرضية الصفرية هي أن المتهم غير مذنب. ثم نرى بعض الأدلة لدحض فرضية العدم.

إذا لم نتمكن من دحض الفرضيات الباطلة ، فإن القاضي لا يقول إن المتهم لم يرتكب الجريمة. يقول القاضي فقط أنه بناءً على الأدلة المقدمة ، لا يمكننا إدانة المتهم.

مثال آخر لدفع هذه النقطة إلى الأمام: بافتراض أننا نستكشف الحياة على كوكب غريب. وفرضيتنا الصفرية ( Hº ) هي أنه لا توجد حياة على هذا الكوكب. نتجول على بعد أميال قليلة لبعض الوقت ونبحث عن أشخاص / كائنات فضائية على هذا الكوكب. إذا رأينا أي كائن فضائي ، فيمكننا رفض فرضية العدم لصالح البديل.

ولكن إذا لم نرى أي كائن فضائي ، فهل يمكننا أن نقول بشكل قاطع أنه لا توجد حياة غريبة على هذا الكوكب أو نقبل فرضياتنا الفارغة؟ ربما كنا بحاجة إلى استكشاف المزيد ، أو ربما كنا بحاجة إلى مزيد من الوقت وربما وجدنا كائنًا فضائيًا. لذلك ، في هذه الحالة ، لا يمكننا قبول فرضية العدم ؛ لا يسعنا إلا أن نفشل في رفضه. أو في كلمات كاسي كوزيركوف التي يأتي منها المثال ، يمكننا القول "لم نتعلم شيئًا مثيرًا للاهتمام".

في صف STAT101 ، يعلمونك كتابة فقرة معقدة عندما يحدث ذلك. ("لقد فشلنا في رفض الفرضية الصفرية واستنتجنا أنه لا توجد أدلة إحصائية كافية لدعم وجود حياة غريبة على هذا الكوكب.") أنا مقتنع بأن الغرض الوحيد من هذا التعبير هو إجهاد معصمي الطلاب. لطالما سمحت لطلابي الجامعيين بكتابتها كما هي: لم نتعلم شيئًا مثيرًا للاهتمام.

Riddikulus: اختبار الفرضية يمكن أن يجعل الفرضية الصفرية تبدو سخيفة باستخدام قيم p (العصا)

في الأساس ، يتعلق اختبار الفرضية فقط بالتحقق مما إذا كانت قيمنا الملاحظة تجعل الفرضية الصفرية تبدو سخيفة.إذا كانت الإجابة بنعم ، فنحن نرفض الفرضية الصفرية ونطلق على نتائجنا دلالة إحصائية. وإلا فإننا لم نتعلم شيئًا مثيرًا للاهتمام ، ونستمر في وضعنا الراهن.

لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

تحليل المال والاعمال

بحث هذه المدونة الإلكترونية

الأربعاء، 26 أغسطس 2020

شرح قيمة P ببساطة لعلماء البيانات

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي