بحث هذه المدونة الإلكترونية

الثلاثاء، 25 أغسطس 2020

شرح بديهي للإنتروبيا في الإحصاء



يدور هذا المنشور حول مفهوم الانتروبيا في سياق نظرية المعلومات. من أين يأتي مصطلح الإنتروبيا ؟ ماذا يعني ذلك في الواقع؟ وكيف تتعارض مع مفهوم المتانة؟

من أين يأتي مصطلح الإنتروبيا (المفترض) من؟
تم استيراد مصطلح الانتروبيا إلى نظرية المعلومات بواسطة كلود شانون. تم لصقها من "إنتروبيا ، فون نيومان وفون نيومان إنتروبيا" ، ورد أن شانون كتب في بحثه الصادر عام 1971 حول الطاقة والمعلومات:

"كان قلقي الأكبر هو ما أسميه. فكرت في تسميتها "معلومات" ، ولكن تم استخدام الكلمة بشكل مفرط ، لذلك قررت أن أسميها "عدم اليقين". عندما ناقشت الأمر مع جون فون نيومان ، كانت لديه فكرة أفضل. أخبرني فون نيومان ، 'يجب أن تسميها إنتروبيا ، لسببين. في المقام الأول ، تم استخدام دالة عدم اليقين الخاصة بك في الميكانيكا الإحصائية تحت هذا الاسم ، لذلك لها اسم بالفعل. في المقام الثاني ، والأهم من ذلك ، لا أحد يعرف ما هي الأنتروبيا حقًا ، لذلك في المناقشة ستتمتع دائمًا بالميزة ".

الانتروبيا كمقياس للمفاجأة المتوقعة - الجزء 1
إذا كان للمتغير العشوائي x ما يسمونه توزيعًا منحطًا ، أي أنه يأخذ القيمة الواحدة مع الاحتمال 1 ، فلا مفاجأة. فكر في نرد أحادي الجانب ، أو عملة ذات رأسين (كلا الجانبين "رأس"). كل سحب ينتج عنه نفس القيمة ؛ لذلك سيكون تخمينك دائمًا صحيحًا ، ولا مفاجأة. في هذه الحالة ، تكون إنتروبيا هذا المتغير العشوائي هي صفر ، مما يخبرك أيضًا أنه ليس عشوائيًا في الواقع.

إذا كان رميًا عاديًا لعملة معدنية ، فإن كلا القيمتين (رؤوس ، وذيول) متساويان في الاحتمال. لذلك من هذه النقطة فصاعدًا ، لا يمكن زيادة مقدار المفاجأة. تخمينك لا يفيد ، ولا يوجد طريقة تجعلنا مفيدين. إذا كانت عملة منحازة ، فلنفترض أن هناك فرصة أكبر للهبوط على الوجه ، فيمكنك "مساعدة" تخمينك من خلال التصريح بالعقل. بمعنى أن متغير عشوائي معين (قرعة العملة) أقل عشوائية ، لذلك من المتوقع أقل مفاجأة.

بشكل رسمي ، نحدد الانتروبيا باستخدام إنتروبيا شانون (ولكن هناك عدة طرق أخرى):
دعونا نكبر. P_iهو احتمال وقوع حدث أنا. إذا فقدنا علامة الطرح وبدلاً من \ تسجيل {P_ {i}}الاستخدام سنستخدم ببساطة قيمة الحدث أنا، لنفترض x_iأننا سننتهي بصيغة توقع المتغير العشوائي. لذلك ربما لهذا السبب نشير إليها على أنها مفاجأة "متوقعة". لاحظ أيضًا أننا لا نهتم كثيرًا بقيمة x_iالاحتمال أو التردد فقط. التمييز بين الاحتمالية والتردد مهم هنا. في الواقع نحن عادة لا نعرف الاحتمال ، نحن نقدره من التردد الذي نلاحظه. إليك بعض التعليمات البرمجية لاستكمال الشرح أعلاه:

الانتروبيا كمقياس للمفاجأة المتوقعة - الجزء 2
الانتروبيا مفيد في العديد من النواحي ، ليس أقلها تحديد مقدار العشوائية إذا ما قورن متغير عشوائي بآخر.

لنفترض أن لدينا ثلاثة متغيرات عشوائية ، أحدهما موزع بشكل طبيعي ، والآخر منتظم ، والآخر أسي. ما مقدار العشوائية التي يمثلها المتغير العشوائي المنتظم عن المتغير العشوائي العادي القياسي؟


هل تختلف عوائد هذا العام فعليًا عما يمكن توقعه من عام عادي؟ هل الاختلاف في الواقع مختلف عما يمكن توقعه من سنة نموذجية؟ هذه أسئلة خفيفة إلى حد ما وسهلة الإجابة. يمكننا استخدام اختبارات لتساوي الوسائل أو المساواة في التباينات.
ولكن ماذا عن السؤال التالي:

هل يختلف ملف / سلوك المرتجعات هذا العام عما يمكن توقعه في عام عادي؟

هذا سؤال أكثر عمومية وأهمية ، لأنه يشمل كل اللحظات وسلوك الذيل. وليس من التافه الإجابة.

في هذا المنشور ، أخدش حكة شعرت بها منذ أن كتبت Understanding Kullback - Leibler Divergence . في منشور Kullback - Leibler Divergence ، رأينا كيفية تحديد الفرق بين الكثافات ، على سبيل المثال باستخدام كثافة عودة SPY في السنة. بمجرد أن انتهيت من هذا المنشور ، كنت أفكر أنه يجب أن تكون هناك طريقة لاختبار الاختلاف رسميًا ، بدلاً من مجرد التحديد الكمي والتخيل ومقلة العين. وبالفعل هناك. هدف هذا المنشور هو إظهار اختبار رسمي للمساواة بين الكثافات.
هناك طريقتان على الأقل يمكنك من خلالهما اختبار المساواة بين كثافتين أو توزيعين. الأول أكثر كلاسيكية. يسمى الاختبار اختبار كولموغوروف سميرنوف. والآخر أكثر حداثة ، باستخدام اختبار التقليب (الذي يتطلب محاكاة). نعرض كلاهما. دعنا أولاً نسحب بعض بيانات الأسعار:
يمكننا أن نرى أن المتوسط ​​والانحراف المعياري للعوائد اليومية لعام 2018 يختلف قليلاً عن المتوسط ​​والانحراف المعياري للباقي. هكذا تبدو الكثافات المقدرة:
اختبار كولموغوروف سميرنوف
ما يمكننا فعله هو حساب دالة التوزيع التراكمي و (س)لكل من الكثافات. واحد لعام 2018 والآخر باستثناء 2018. قل التوزيع F_1 (x)لعام 2018 والتوزيع F_2 (x)للباقي. نحسب الفرق \ vert F_1 (x) - F_2 (x) \ vertلكل من x. نحن نعلم كيف يتم توزيع الحد الأقصى من هذه الاختلافات (المطلقة) ، لذا يمكننا استخدام هذا الحد الأقصى كإحصاء اختبار ، إذا تبين أنه بعيد جدًا في الأطراف ، فإننا نقرر بعد ذلك أن التوزيعين مختلفان. رسميًا ، ولكن مع تدوين متساهل إلى حد ما:
أين ريقع بين 0 و 1 (حسب البناء ، لأننا نطرح احتمالين ونأخذ القيمة المطلقة). ب (ف (ر))هو جسر براوني . إنه ليس ممتعًا للغاية ، كل ما يجب أن تهتم به هو أن (الحد الأقصى) للفرق له توزيع معروف. هذا توزيع محدود ، لذلك نحتاج إلى عدد كبير من الملاحظات ، n ، لنثق في هذا الاختبار.
اختبار Kolmogorov-Smirnov - كود R.
دعونا نقارن العائد اليومي لعام 2018 مع باقي العائدات لمعرفة ما إذا كان التوزيع هو نفسه بناءً على اختبار Kolmogorov-Smirnov:
سريع وغير مؤلم. نرى أن الحد الأقصى هو 0.067 وأنه بناءً على التوزيع المحدود ، فإن القيمة p هي 0.3891. لذلك لا يوجد دليل على أن توزيع 2018 يختلف بأي شكل من الأشكال عن الباقي.

لنلق نظرة على اختبار التقليب. السبب الرئيسي هو أنه لكي يكون اختبار Kolmogorov-Smirnov صحيحًا ، نظرًا لأنه يعتمد على توزيع محدود ، نحتاج إلى عدد كبير من الملاحظات. لكن في الوقت الحاضر ، لا يتعين علينا الاعتماد على التقارب بقدر ما كان علينا في الماضي ، لأنه يمكننا استخدام أجهزة الكمبيوتر.

اختبار التقليب للمساواة بين كثافتين
حدسيًا ، إذا كانت الكثافات هي نفسها تمامًا ، فيمكننا تجميعها معًا وأخذ عينات من "البيانات المجمعة". في مثالنا ، نظرًا لأننا جمعنا العوائد في متجه واحد ، فإن تبديل المتجه يعني أن العوائد اليومية من 2018 مبعثرة الآن عبر المتجه ، لذا فإن أخذ الاختلاف كما في المعادلة أعلاه يشبه المحاكاة من فرضية فارغة: توزيع العوائد اليومية لعام 2018 هي بالضبط نفس العوائد المتبقية.الآن لكل x سيكون لدينا فرق تحت الصفر. لدينا أيضًا الفرق الفعلي لكل x ، من البيانات التي تمت ملاحظتها. يمكننا الآن تربيع (أو أخذ القيم المطلقة) للفرق الفعلي بين الكثافات (لكل س) ، ومقارنتها بنتائج المحاكاة التي تم إنشاؤها من "البيانات المجمعة". يمكن تقدير القيمة p من خلال النظر في أي مقدار يقع الفرق الفعلي ضمن الاختلافات المحاكاة. إذا كانت البيانات الفعلية تقع خارج نطاق التوزيع (الفروق التربيعية المجمعة) تحت الصفر ، فإننا نرفض الفرضية القائلة بأن التوزيعات هي نفسها.

اختبار تبديل مقارنة الكثافة - كود R.
هناك حزمة رائعة تسمىsm (أساليب التنعيم)
نستخدم الوظيفة sm.density.compareمن تلك الحزمة للقيام بما تم وصفه للتو. حجة اثنين nbootو ngridهي عدد محاكاة كنت ترغب في الحصول على وعدد من نقاط الشبكة في جميع أنحاء س كنت ترغب في استخدامه عند حساب و (س). لذلك ngrid=100"يقطع" الدعم إلى 100 نقطة.
يمكننا أن نرى أن القيمة p لا تختلف كثيرًا عما حصلنا عليه باستخدام اختبار Kolmogorov-Smirnov. هذه عن كيفية الشبه:
اختبار الكثافة المتساوية: القيمة الاحتمالية = 0.326


لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...