بحث هذه المدونة الإلكترونية

الخميس، 20 أغسطس 2020

تقسيم التباين في البيانات



أحد الأسئلة الأساسية التي يمكننا طرحها في أي تحليل للبيانات هو ، "لماذا تختلف الأشياء؟" على الرغم من أنني أعتقد أن هذا أمر أساسي ، إلا أنني وجدت أنه لم يتم طرحه بشكل صريح كما أعتقد. تكمن مشكلة عدم طرح هذا السؤال في أنه يمكن أن يؤدي في كثير من الأحيان إلى الكثير من العمل الذي لا طائل من ورائه ويستغرق وقتًا طويلاً. توقف لحظة لتسأل نفسك ، "ما الذي أعرفه والذي يمكن أن يفسر سبب اختلاف هذه الميزة أو المتغير؟" يمكن أن تجعلك تدرك غالبًا أنك تعرف بالفعل أكثر مما تعتقد أنك تعرفه. يعد تطوير فهم مصادر التباين في البيانات هدفًا رئيسيًا لتحليل البيانات الاستكشافية.

عند الشروع في تحليل البيانات ، من الناحية المثالية قبل إلقاء نظرة على البيانات ، من المفيد تقسيم التباين في البيانات. يمكن تقسيم هذا تقريبًا إلى فئات متنوعة: ثابتة وعشوائية. ضمن كل فئة من هذه الفئات ، يمكن أن يكون هناك عدد من الفئات الفرعية للأشياء للتحقيق فيها.

تباين ثابت
يُعزى التباين الثابت في البيانات إلى الخصائص الثابتة في العالم. إذا كان علينا أخذ عينات من البيانات مرة أخرى ، فإن التباين في البيانات المنسوبة إلى الخصائص الثابتة سيكون هو نفسه تمامًا. المثال الكلاسيكي للخاصية الثابتة هو الموسمية في بيانات السلاسل الزمنية. إذا نظرت إلى سلسلة زمنية متعددة السنوات للوفيات في الولايات المتحدة ، فسترى أن معدل الوفيات يميل إلى الارتفاع في فصل الشتاء وانخفاضه في فصل الصيف. في سلسلة زمنية من القيم اليومية لتلوث الهواء بالأوزون ، سترى أن الأوزون يكون الأعلى في الصيف والأدنى في الشتاء. لكل من هذه الأمثلة ، تكون الموسمية ثابتة إلى حد كبير كل عام. بالنسبة للأوزون ، يتعلق التفسير بطبيعة كيمياء الغلاف الجوي ؛ بالنسبة للوفيات ، يكون التفسير أقل وضوحًا وأكثر تعقيدًا (ومن المحتمل أن يكون بسبب مجموعة من العوامل).

لا تعني البيانات ذات التباين الثابت أنها تحتوي دائمًا على نفس القيم في كل مرة تقوم فيها بأخذ عينات من البيانات ، ولكن تظل الأنماط العامة في البيانات كما هي. إذا كانت البيانات مختلفة في كل عينة ، فمن المحتمل أن يكون ذلك بسبب الاختلاف العشوائي ، الذي نناقشه في القسم التالي.

من المهم فهم جوانب التباين في بياناتك التي تم إصلاحها لأنه غالبًا ما يمكنك جمع البيانات حول تلك الخصائص الثابتة واستخدامها مباشرة في أي نمذجة إحصائية قد تقوم بها. على سبيل المثال ، يعد الموسم من المتغيرات المشتركة التي يسهل تضمينها لأننا نعرف بالفعل متى تبدأ المواسم وتنتهي. عادةً ما يؤدي استخدام متغير مشترك يمثل شهرًا أو ربعًا إلى الحل.
يمكن أن يؤدي شرح التباين في بياناتك عن طريق إدخال خصائص ثابتة في نموذج إلى تقليل عدم اليقين وتحسين الكفاءة أو الدقة. قد يتطلب هذا مزيدًا من العمل ، في شكل الخروج وجمع المزيد من البيانات أو استرداد المزيد من المتغيرات. لكن القيام بهذا العمل يستحق العناء في النهاية. تعد محاولة نموذج التباين في البيانات التي تم إصلاحها بطبيعتها مضيعة للوقت ومن المحتمل أن تكلفك درجات من الحرية في النموذج.
من خلال تجربتي في البحث في البيانات الطبية الحيوية ، وجدت أن الكثير من التباين في البيانات يمكن تفسيره من خلال بعض الخصائص الثابتة: العمر ، والجنس ، والموقع ، والموسم ، ودرجة الحرارة ، وما إلى ذلك. في الواقع ، غالبًا ما يمكن تفسير الكثير هناك حاجة قليلة لنماذج صريحة للتنوع العشوائي. على الرغم من ذلك ، فإن أحد الجوانب الصعبة لهذا النهج هو أنه يتطلب فهمًا عميقًا للسياق المحيط بالبيانات بالإضافة إلى وجود علاقة جيدة مع خبير في الموضوع يمكنه مساعدتك في إطلاعك على مصادر الاختلاف. يمكن أن يوفر لك الاستثمار في معرفة المزيد عن البيانات ، قبل البحث في البيانات نفسها ، الكثير من الوقت في مرحلة النمذجة لتحليل البيانات.
الاختلاف عشوائية
بمجرد تقسيم جميع الاختلافات في البيانات التي يمكن أن تُعزى إلى الخصائص الثابتة ، فإن ما تبقى هو التباين العشوائي. من المغري أحيانًا النظر إلى البيانات والادعاء بأن كل التباين عشوائي لأنه بعد ذلك يمكننا نمذجتها دون جمع البيانات عن أي متغيرات أخرى! يمكن أن يكون تطوير نماذج جديدة وفاخرة أمرًا ممتعًا ومثيرًا ، ولكن دعنا نواجه الأمر ، يمكننا عادةً التخلص من الحاجة إلى كل ذلك بمجرد جمع بيانات أفضل قليلاً. من المفيد على الأقل الافتراض حول ما قد يكون الدافع وراء هذا التباين الملحوظ وجمع البيانات الإضافية المطلوبة.
يؤدي التباين العشوائي إلى ظهور البيانات بشكل مختلف في كل مرة نقوم فيها بأخذ عينات منها. في حين أننا قد نكون متأكدين تمامًا من أن الأوزون سيرتفع في الصيف (مقابل الشتاء) ، فإن هذا لا يعني أنه سيكون دائمًا 90 جزءًا في المليار في 30 يونيو. قد يكون 85 جزءًا في البليون في السنة الواحدة و 96 جزءًا في البليون سنة أخرى. لا يمكن تفسير هذه الاختلافات بسهولة عن طريق الظواهر الثابتة ولذا قد يكون من المعقول وصفها بأنها اختلافات عشوائية. الشيء الأساسي الذي يجب تذكره حول التباين العشوائي في البيانات هو


يجب أن يكون التباين العشوائي مستقلاً عن التباين المنسوب إلى الخصائص الثابتة
يقال أحيانًا أن التباين العشوائي هو مجرد "كل ما تبقى" لم نتمكن من التقاطه بالميزات الثابتة. ومع ذلك ، فهذه طريقة غير حاسمة للنظر في البيانات لأنه إذا كانت هناك خصائص ثابتة يتم إلقاؤها في سلة التباينات العشوائية ، فقد تتعرض تحليل بياناتك لتحيز خفي أو مربك. هناك بعض الطرق للتحقق من ذلك في مرحلة النمذجة لتحليل البيانات ، ولكن من الأفضل أن تفعل ما في وسعك لمعرفة الأشياء مسبقًا في مرحلتي الاكتشاف والاستكشاف.
أحد التطبيقات التي يتم فيها نمذجة التباين العشوائي هو بيانات السوق المالية ، ولسبب وجيه. و فرضية كفاءة السوق على أنه، في الأساس، إذا كان هناك أي ثابت (يمكن التنبؤ بها) التباين في أسعار الأصول المالية، ثم المشاركين في السوق أن يغتنم فور تلك المعلومات إلى الربح من خلال فرص المراجحة. إذا كنت تعلم على سبيل المثال أن سعر سهم Apple كان دائمًا منخفضًا في الشتاء ومرتفعًا في الصيف ، يمكنك فقط الشراء في الشتاء والبيع في الصيف وكسب المال دون مخاطرة. ولكن إذا كان الجميعفعل ذلك ، ثم في النهاية ستختفي فرصة المراجحة (بالإضافة إلى التأثير الموسمي الثابت). أي اختلاف في سعر السهم متبقي هو ببساطة تغيير عشوائي ، وهذا هو سبب صعوبة "التغلب على السوق".
هل هو حقا عشوائي؟
عندما أرى الطلاب يقدمون تحليلات للبيانات ، ويستخدمون نموذجًا خطيًا قياسيًا له نتيجة (عادةً ما يُسمى Y ) ، ومتنبئ ( X ) ، وتباين عشوائي أو خطأ ( هـ ) ، فإن سؤالي الأول دائمًا يتعلق بمكون الخطأ. عادة ، هناك القليل من الالتباس حول سبب سؤالي عن ذلك لأن هذا الجزء هو مجرد "عشوائي" وغير مهم. ولكن عندما أحاول توجيههم إلى مناقشة سبب وجود تباين عشوائي في البيانات ، غالبًا ما نكتشف بعض المتغيرات الإضافية التي نرغب في الحصول عليها ولكن ليس لدينا بيانات عنها.
عادة ، هناك تفسير جيد جدًا لسبب عدم وجود هذه البيانات. وجهة نظري ليست انتقاد الطالب لعدم امتلاكه بيانات لم يتمكنوا من الحصول عليها ، ولكن للتأكيد على أن هذه الميزات محتملات محتمَلة وليست عشوائية. فقط لأنك لا تستطيع الحصول على بيانات حول شيء ما لا يعني أنه يمكنك التصريح عن شيء عشوائي من خلال أمر. إذا تعذر جمع البيانات حول هذه الميزات ، فقد يكون من المفيد التحقق مما إذا كان يمكن العثور على بديل معقول. قد لا يكون العثور على بديل مثاليًا ، ولكن يمكن أن يمنحك عادةً فكرة عما إذا كان نموذجك معطلاً تمامًا أم لا.
أحد الأمثلة على استخدام بديل يتضمن تقدير انتشار التدخين بين السكان. تتوفر بيانات حول سلوكيات التدخين في بعض الاستطلاعات في الولايات المتحدة ، لكن البيانات الشاملة في جميع أنحاء البلاد ليست كذلك. في دراسة حديثة حول معدل الوفيات وتلوث الهواء بواسطة Zeger et al. ، استخدموا سرطان الرئة كبديل. المنطق هنا هو أن سرطان الرئة ناتج بشكل عام عن التدخين ، وعلى الرغم من أنه ليس مؤشرًا مثاليًا لانتشار التدخين ، إلا أنه بديل تقريبي لهذا السلوك.

ملخص
يمكن أن يكون تقسيم بياناتك إلى مكونات التباين الثابتة والعشوائية تمرينًا مفيدًا حتى قبل إلقاء نظرة على البيانات. قد يقودك ذلك إلى اكتشاف أن هناك ميزات مهمة ليس لديك بيانات عنها ولكن يمكنك الخروج منها وجمعها. إن بذل الجهد لجمع بيانات إضافية عندما يكون هناك ما يبرر ذلك يمكن أن يوفر الكثير من الوقت والجهد في محاولة تصميم التباين كما لو كان عشوائيًا. والأهم من ذلك ، أن حذف التأثيرات الثابتة المهمة في نموذج إحصائي يمكن أن يؤدي إلى تحيز خفي أو إرباك. عندما يتعذر جمع البيانات المتعلقة بالمتغيرات المحذوفة ، فإن محاولة إيجاد بديل لتلك المتغيرات يمكن أن تكون بديلاً معقولاً.




لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...