التوزيع الطبيعي هو أهم توزيع احتمالي في الإحصاء لأنه يناسب العديد من
الظواهر الطبيعية. على سبيل المثال ، تتبع درجات الارتفاع وضغط
الدم وخطأ القياس ونسبة الذكاء التوزيع الطبيعي. يُعرف أيضًا باسم التوزيع
الغوسي ومنحنى الجرس.
التوزيع الطبيعي هو دالة
احتمالية تصف كيفية توزيع قيم المتغير. إنه توزيع متماثل حيث تتجمع معظم الملاحظات حول
الذروة المركزية وتتناقص احتمالات القيم البعيدة عن المتوسط التدريجي بالتساوي في كلا
الاتجاهين. القيم المتطرفة في كلا طرفي التوزيع غير محتملة
بالمثل.
في منشور المدونة هذا ،
ستتعلم كيفية استخدام التوزيع الطبيعي ، ومعلماته ، وكيفية حساب Z-scores لتوحيد بياناتك وإيجاد
الاحتمالات.
مثال
على البيانات الموزعة بشكل طبيعي: المرتفعات
يتم توزيع بيانات الارتفاع
بشكل طبيعي. يناسب التوزيع في هذا المثال البيانات الحقيقية
التي جمعتها من فتيات يبلغن من العمر 14 عامًا أثناء إحدى الدراسات.
كما ترى ، فإن توزيع
الارتفاعات يتبع النمط المعتاد لجميع التوزيعات العادية. معظم الفتيات يقتربن من المتوسط (1.512 متر). تحدث الفروق الصغيرة بين طول
الفرد والمتوسط بشكل متكرر أكثر من الانحرافات الجوهرية عن المتوسط. الانحراف المعياري هو 0.0741
م ، مما يشير إلى المسافة النموذجية التي تميل الفتيات إلى السقوط من متوسط
الطول.
التوزيع متماثل. عدد الفتيات الأقصر من
المتوسط يساوي عدد الفتيات الأطول من المتوسط. في كلا طرفي التوزيع ، تظهر
فتيات قصيرات للغاية بشكل غير متكرر مثل الفتيات طويل القامة للغاية.
معلمات
التوزيع الطبيعي
كما هو الحال مع أي توزيع احتمالي
، تحدد معلمات التوزيع الطبيعي شكله واحتمالاته بالكامل. التوزيع الطبيعي له معلمتان
، المتوسط والانحراف المعياري. التوزيع الطبيعي ليس له شكل واحد فقط. بدلاً من ذلك ، يتغير الشكل
بناءً على قيم المعلمات ،
كما هو موضح في الرسوم البيانية أدناه.
تعني
المتوسط هو الاتجاه
المركزي للتوزيع. يحدد موقع الذروة للتوزيعات العادية. تتجمع معظم القيم حول
المتوسط. على الرسم البياني ، يؤدي تغيير المتوسط إلى
إزاحة المنحنى بالكامل إلى اليسار أو اليمين على المحور X.
الانحراف
المعياري
الانحراف المعياري هو مقياس
للتغير. يحدد عرض التوزيع الطبيعي. يحدد الانحراف المعياري مدى
بُعد القيم عن المتوسط الذي تميل إليه القيم. يمثل المسافة النموذجية بين
الملاحظات والمتوسط.
على الرسم البياني ، يؤدي
تغيير الانحراف المعياري إلى تشديد عرض التوزيع على طول المحور "س" أو
توسيعه. تنتج الانحرافات المعيارية الأكبر توزيعات أكثر
انتشارًا.
عندما يكون لديك توزيعات
ضيقة ، تكون الاحتمالات أعلى بحيث لا تقع القيم بعيدًا عن المتوسط. كلما زادت انتشار التوزيع ،
تزداد أيضًا احتمالية أن تكون الملاحظات بعيدة عن المتوسط.
المعلمات
السكانية مقابل تقديرات العينة
المتوسط والانحراف
المعياري عبارة عن قيم معلمات تنطبق على مجموعات سكانية بأكملها. بالنسبة للتوزيع الطبيعي، الإحصاء يعني المعلمات باستخدام μ رمز اليوناني (مو) ل سكان المتوسط وσ (سيغما) لالانحراف المعياري
السكان.
لسوء الحظ ، عادةً ما تكون
معلمات السكان غير معروفة لأنه من المستحيل عمومًا قياس مجتمع بأكمله. ومع ذلك ، يمكنك استخدام
عينات عشوائية لحساب تقديرات هذه المعلمات. يمثل الإحصائيون تقديرات عينة لهذه المعلمات باستخدام x̅ لمتوسط العينة و s للانحراف المعياري للعينة.
الخصائص
المشتركة لجميع أشكال التوزيع الطبيعي
على الرغم من الأشكال
المختلفة ، فإن جميع أشكال التوزيع الطبيعي لها الخصائص المميزة التالية.
o نصف
السكان أقل من المتوسط والنصف أكبر من المتوسط.
o تسمح
لك القاعدة التجريبية بتحديد نسبة القيم التي تقع ضمن مسافات معينة من المتوسط. المزيد عن هذا أدناه!
في حين أن التوزيع الطبيعي
ضروري في الإحصاء ، فهو مجرد واحد من توزيعات احتمالية عديدة ، ولا يناسب جميع
السكان. لمعرفة كيفية تحديد ما إذا كان التوزيع الطبيعي
يوفر أفضل يصلح لبيانات العينة الخاصة بك، وقراءة مشاركاتي حول كيفية تحديد
توزيع البيانات الخاصة بك و تقييم الحياة
الطبيعية: المدرج الإحصائي مقابل مؤامرات احتمال عادي .
القاعدة
التجريبية للتوزيع الطبيعي
عندما تقوم بتوزيع البيانات
بشكل طبيعي ، يصبح الانحراف المعياري ذا قيمة خاصة. يمكنك استخدامه لتحديد نسبة
القيم التي تقع ضمن عدد محدد من الانحرافات المعيارية عن المتوسط. على سبيل المثال ، في
التوزيع الطبيعي ، تقع 68٪ من الملاحظات ضمن +/- 1 الانحراف المعياري عن المتوسط. هذه الخاصية هي جزء من
القاعدة التجريبية ، التي تصف النسبة المئوية للبيانات التي تقع ضمن أعداد محددة
من الانحرافات المعيارية عن متوسط المنحنيات على شكل جرس.
النسبة المئوية للبيانات الواردة
|
|
1
|
68٪
|
2
|
95٪
|
3
|
99.7٪
|
لنلقِ نظرة على مثال على
توصيل البيتزا. افترض أن متوسط وقت التوصيل لمطعم بيتزا هو
30 دقيقة وانحراف معياري قدره 5 دقائق. باستخدام القاعدة التجريبية ، يمكننا تحديد أن
68٪ من أوقات التسليم تتراوح بين 25-35 دقيقة (30 +/- 5) ، و 95٪ ما بين 20-40
دقيقة (30 +/- 2 * 5) ، و 99.7٪ ما بين 15-45 دقيقة (30 +/- 3 * 5). الرسم البياني أدناه يوضح
هذه الخاصية بيانيا.
التوزيع
الطبيعي القياسي والنتائج القياسية
كما رأينا أعلاه ، يحتوي
التوزيع الطبيعي على العديد من الأشكال المختلفة اعتمادًا على قيم المعلمات. ومع ذلك ، فإن التوزيع
الطبيعي القياسي هو حالة خاصة للتوزيع العادي حيث يكون المتوسط صفرًا والانحراف
المعياري 1. يُعرف هذا التوزيع أيضًا باسم التوزيع Z.
تُعرف القيمة الموجودة في
التوزيع العادي القياسي بالدرجة القياسية أو الدرجة Z. تمثل الدرجة القياسية عدد
الانحرافات المعيارية أعلى أو أقل من المتوسط الذي تقع فيه ملاحظة معينة. على سبيل المثال ، تشير
الدرجة القياسية 1.5 إلى أن الملاحظة هي 1.5 انحراف معياري فوق المتوسط. من ناحية أخرى ، تمثل الدرجة
السالبة قيمة أقل من المتوسط. المتوسط لديه درجة Z تساوي 0
لنفترض أنك تزن تفاحة وتزن
110 جرامًا. لا توجد طريقة لمعرفة الوزن وحده كيف يمكن
مقارنة هذه التفاحة مع غيرها من التفاح. ومع ذلك ، كما سترى ، بعد أن تقوم بحساب درجة Z ،
ستعرف مكان سقوطها بالنسبة إلى التفاحات الأخرى.
التوحيد:
كيفية حساب Z- عشرات
تعتبر الدرجات القياسية طريقة رائعة لفهم أين تقع
ملاحظة معينة بالنسبة للتوزيع بأكمله. كما أنها تسمح لك بأخذ الملاحظات المستمدة من
المجموعات السكانية الموزعة بشكل طبيعي والتي لها وسائل مختلفة وانحرافات معيارية
ووضعها على مقياس قياسي. يمكّنك هذا المقياس القياسي من مقارنة الملاحظات
التي قد تكون صعبة بخلاف ذلك.
تسمى هذه العملية بالتوحيد القياسي ، وهي تسمح لك بمقارنة الملاحظات وحساب
الاحتمالات عبر مجموعات سكانية مختلفة. بمعنى آخر ، يسمح لك بمقارنة التفاح بالبرتقال. أليست الإحصائيات رائعة!
لتوحيد بياناتك ، تحتاج إلى
تحويل القياسات الأولية إلى درجات Z.
لحساب الدرجة القياسية
لملاحظة ما ، خذ القياس الأولي ، واطرح المتوسط ، واقسم على الانحراف المعياري. رياضيا ، صيغة هذه العملية
هي كما يلي:
تمثل X القيمة الأولية لقياس
الفائدة. يمثل Mu و sigma معلمات السكان التي تم رسم
الملاحظة منها.
بعد توحيد بياناتك ، يمكنك
وضعها ضمن التوزيع العادي القياسي. بهذه الطريقة ، يسمح لك التوحيد القياسي
بمقارنة أنواع مختلفة من الملاحظات بناءً على مكان كل ملاحظة ضمن توزيعها الخاص.
مثال
على استخدام الدرجات القياسية لعمل مقارنة بين التفاح والبرتقال
لنفترض أننا نريد حرفيا
مقارنة التفاح بالبرتقال. على وجه التحديد ، دعنا نقارن أوزانهم. تخيل أن لدينا تفاحة تزن 110
جرام وبرتقالة تزن 100 جرام.
إذا قارنا القيم الخام ، فمن
السهل أن نرى أن وزن التفاحة أكثر من البرتقال. ومع ذلك ، دعنا نقارن
نتائجهم القياسية . للقيام بذلك ، سنحتاج إلى
معرفة خصائص توزيعات الوزن للتفاح والبرتقال. افترض أن أوزان التفاح
والبرتقال تتبع توزيعًا طبيعيًا بقيم المعلمات التالية:
تفاح
|
البرتقال
|
|
يعني الوزن بالجرام
|
100
|
140
|
الانحراف المعياري
|
15
|
25
|
الآن سنقوم بحساب Z-
الدرجات:
o التفاح
= (110-100) / 15 = 0.667
o البرتقالي
= (100-140) / 25 = -1.6
درجة Z للتفاحة (0.667) إيجابية ،
مما يعني أن تفاحةنا تزن أكثر من متوسط التفاحة. إنها ليست قيمة قصوى بأي حال
من الأحوال ، لكنها أعلى من المتوسط بالنسبة للتفاح. من ناحية أخرى ، فإن اللون
البرتقالي له درجة Z سلبية إلى حد ما (-1.6). إنه أقل بكثير من متوسط
وزن البرتقال. لقد وضعت قيم Z هذه في التوزيع العادي
القياسي أدناه.
بينما يزن تفاحنا أكثر من
برتقالة لدينا ، فإننا نقارن تفاحة أثقل إلى حد ما من المتوسط ببرتقالة بسيطة! باستخدام درجات Z ،
تعلمنا كيف تتناسب كل فاكهة مع توزيعها الخاص وكيف تقارن مع بعضها البعض.
إيجاد
مناطق تحت منحنى التوزيع الطبيعي
التوزيع الطبيعي هو توزيع
احتمالي. كما هو الحال مع أي توزيع احتمالي ، تشير نسبة
المنطقة التي تقع تحت المنحنى بين نقطتين على مخطط توزيع احتمالي إلى احتمال وقوع
قيمة ضمن تلك الفترة الزمنية. لمعرفة المزيد حول هذه الخاصية ، اقرأ رسالتي
حول فهم التوزيعات
الاحتمالية .
عادةً ما أستخدم البرامج
الإحصائية للعثور على المناطق الواقعة تحت المنحنى. ومع ذلك ، عند العمل مع
التوزيع الطبيعي وتحويل القيم إلى درجات قياسية ، يمكنك حساب المناطق بالبحث عن
درجات Z في جدول التوزيع العادي القياسي.
نظرًا لوجود عدد لا حصر له
من التوزيعات العادية المختلفة ، لا يمكن للناشرين طباعة جدول لكل توزيع. ومع ذلك ، يمكنك تحويل القيم
من أي توزيع عادي إلى درجات Z ، ثم استخدام جدول الدرجات القياسية لحساب الاحتمالات.
باستخدام
جدول Z- درجات
لنأخذ درجة Z لتفاحنا (0.667) ونستخدمها
لتحديد النسبة المئوية لوزنها. المئين هو نسبة السكان التي تقل عن قيمة معينة. وبالتالي ، لتحديد النسبة
المئوية ، نحتاج إلى إيجاد المساحة التي تتوافق مع نطاق درجات Z الأقل من 0.667. في جزء الجدول أدناه ، أقرب
درجة Z إلى لدينا هي 0.65 ، والتي سنستخدمها.
تكمن الحيلة في هذه الجداول
في استخدام القيم جنبًا إلى جنب مع خصائص التوزيع الطبيعي لحساب الاحتمال الذي
تحتاجه. تشير قيمة الجدول إلى أن مساحة المنحنى بين
-0.65 و +0.65 هي 48.43٪. ومع ذلك ، هذا ليس ما نريد أن نعرفه. نريد المنطقة التي تقل عن
درجة Z 0.65.
نعلم أن نصفي التوزيع
الطبيعي عبارة عن صور معكوسة لبعضهما البعض. لذلك ، إذا كانت مساحة
الفترة من -0.65 و +0.65 هي 48.43٪ ، فإن النطاق من 0 إلى +0.65 يجب أن يكون نصف
ذلك: 48.43 / 2 = 24.215٪. بالإضافة إلى ذلك ، نعلم أن مساحة جميع الدرجات
الأقل من الصفر هي نصف (50٪) من التوزيع.
لذلك ، فإن المساحة لجميع
الدرجات حتى 0.65 = 50٪ + 24.215٪ = 74.215٪
لدينا التفاح في حوالي 74 عشر المئوي.
يوجد أدناه مخطط توزيع
احتمالي تم إنتاجه بواسطة برنامج إحصائي يُظهر نفس النسبة المئوية مع تمثيل رسومي
للمنطقة المقابلة أسفل المنحنى. تختلف القيمة قليلاً لأننا استخدمنا درجة Z
0.65 من
الجدول بينما يستخدم البرنامج القيمة الأكثر دقة 0.667
أسباب
أخرى لماذا التوزيع الطبيعي مهم
بالإضافة إلى كل ما سبق ،
هناك عدة أسباب أخرى تجعل التوزيع الطبيعي مهمًا في الإحصائيات.
o تفترض بعض اختبارات الفرضيات الإحصائية أن البيانات تتبع التوزيع
الطبيعي. ومع ذلك ، كما أوضحت في رسالتي حول الاختبارات
البارامترية واللامعلمية ، هناك ما هو أكثر من مجرد ما إذا كانت البيانات موزعة بشكل طبيعي.
o يفترض
كل من الانحدار الخطي وغير الخطي أن القيم المتبقية تتبع التوزيع الطبيعي. تعرف على المزيد في رسالتي
حول تقييم المؤامرات المتبقية .
o و نظرية النهاية المركزية الدول التي كلما زاد حجم
العينة، وتوزيع المعاينة للمتوسط يتبع التوزيع الطبيعي حتى عندما يكون توزيع
الكامنة وراء المتغير الأصلي هو غير طبيعي.
كان هذا قليلاً عن التوزيع
الطبيعي! نأمل أن تفهم أنه مهم بسبب الطرق العديدة التي
يستخدمها المحللون.
إذا كنت تتعرف على
الإحصائيات وتعجبك الطريقة التي أستخدمها في مدونتي ، فتحقق من مقدمة الكتاب الإلكتروني للإحصائيات !
لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا
ليست هناك تعليقات:
إرسال تعليق