بحث هذه المدونة الإلكترونية

الثلاثاء، 25 أغسطس 2020

العلاقة الخطية المتعددة في تحليل الانحدار: المشاكل والكشف والحلول




تحدث العلاقة الخطية المتعددة عندما ترتبط المتغيرات المستقلة في نموذج الانحدار . يعتبر هذا الارتباط مشكلة لأن المتغيرات المستقلة يجب أن تكون مستقلة . إذا كانت درجة الارتباط بين المتغيرات عالية بدرجة كافية ، فقد تتسبب في حدوث مشكلات عند ملاءمة النموذج وتفسير النتائج.
أستخدم الانحدار لنمذجة الكثافة المعدنية للعظام في رقبة الفخذ من أجل ، والعفو عن التورية ، واستخلاص تأثيرات العلاقة الخطية المتعددةصورة هنري فانديك كارتر - هنري جراي (1918)
في منشور المدونة هذا ، سأقوم بتسليط الضوء على المشكلات التي يمكن أن تسببها الخطوط الخطية المتعددة ، وسأوضح لك كيفية اختبار النموذج الخاص بك من أجله ، وإبراز بعض الطرق لحلهافي بعض الحالات ، لا يمثل تعدد الخطوط الخطية مشكلة بالضرورة ، وسأوضح لك كيفية إجراء هذا التحديدسأعمل من خلال مثال على مجموعة البيانات التي تحتوي على خطوط خطية متعددة لإضفاء الحيوية عليها!
لماذا تعتبر العلاقة الخطية المتعددة مشكلة محتملة؟
ويتمثل الهدف الرئيسي من تحليل الانحدار هو عزل العلاقة بين كل متغير مستقل و متغير تابع . تفسير معامل الانحدار هو أنه يمثل متوسط التغيير في المتغير التابع لكل وحدة تغيير واحدة في متغير مستقل عندما تحافظ على ثبات جميع المتغيرات المستقلة الأخرى . هذا الجزء الأخير مهم لمناقشتنا حول العلاقة الخطية المتعددة.
الفكرة هي أنه يمكنك تغيير قيمة أحد المتغيرات المستقلة وليس المتغيرات الأخرىومع ذلك ، عندما ترتبط المتغيرات المستقلة ، فإنها تشير إلى أن التغييرات في متغير واحد مرتبطة بالتحولات في متغير آخركلما كانت العلاقة أقوى ، زادت صعوبة تغيير متغير دون تغيير آخريصبح من الصعب على النموذج تقدير العلاقة بين كل متغير مستقل والمتغير التابع بشكل مستقل لأن المتغيرات المستقلة تميل إلى التغيير في انسجام.
هناك نوعان أساسيان من العلاقات الخطية المتعددة:
o       العلاقة الخطية الهيكلية المتعددة : يحدث هذا النوع عندما نقوم بإنشاء مصطلح نموذجي باستخدام مصطلحات أخرىبمعنى آخر ، إنها نتيجة ثانوية للنموذج الذي نحدده بدلاً من التواجد في البيانات نفسهاعلى سبيل المثال ، إذا قمت بتربيع المصطلح X لنمذجة الانحناء ، فمن الواضح أن هناك ارتباط بين X و2 .
o       العلاقات الخطية المتعددة للبيانات : هذا النوع من العلاقات الخطية المتعددة موجود في البيانات نفسها بدلاً من أن يكون قطعة أثرية في نموذجنامن المرجح أن تعرض التجارب القائمة على الملاحظة هذا النوع من العلاقة الخطية المتعددة.
ما هي المشاكل التي تسببها الخطية المتعددة؟
تسبب العلاقة الخطية المتعددة نوعين أساسيين من المشاكل:
o       و معامل التقديرات يمكن أن تتأرجح بعنف على أساسها المتغيرات المستقلة الأخرى في النموذجفي معاملات تصبح حساسة جدا للتغيرات صغيرة في نموذج.
o       يقلل تعدد الخط من دقة معاملات التقدير ، مما يضعف القوة الإحصائية لنموذج الانحدار الخاص بكقد لا تتمكن من الوثوق بقيم p لتحديد المتغيرات المستقلة ذات الأهمية الإحصائية.
تخيل أنك تناسب نموذج انحدار وقيم المعامل ، وحتى الإشارات ، تتغير بشكل كبير اعتمادًا على المتغيرات المحددة التي تقوم بتضمينها في النموذجإنه شعور محبط عندما تؤدي النماذج المختلفة قليلاً إلى استنتاجات مختلفة تمامًالا تشعر أنك تعرف التأثير الفعلي لكل متغير!
الآن ، ضع في الاعتبار حقيقة أنه لا يمكنك بالضرورة الوثوق بقيم p لتحديد المتغيرات المستقلة لتضمينها في النموذجتجعل هذه المشكلة من الصعب تحديد النموذج الصحيح وتبرير النموذج إذا لم تكن العديد من قيم p الخاصة بك ذات دلالة إحصائية.
مع زيادة شدة العلاقة الخطية المتعددة تزداد هذه التأثيرات الإشكاليةومع ذلك ، فإن هذه القضايا تؤثر فقط على المتغيرات المستقلة المرتبطة ببعضها البعضيمكن أن يكون لديك نموذج ذو علاقة خطية متعددة وخطيرة ومع ذلك قد لا تتأثر بعض المتغيرات في النموذج تمامًا.
يوضح مثال الانحدار ذي الخطية المتعددة التي أعمل عليها لاحقًا هذه المشكلات أثناء العمل.
هل يجب علي إصلاح العلاقات الخطية المتعددة؟
تجعل العلاقة الخطية المتعددة من الصعب تفسير معاملاتك ، كما أنها تقلل من قوة النموذج الخاص بك لتحديد المتغيرات المستقلة ذات الأهمية الإحصائيةهذه بالتأكيد مشاكل خطيرةومع ذلك ، فإن الخبر السار هو أنك لست مضطرًا دائمًا إلى إيجاد طريقة لإصلاح العلاقة الخطية المتعددة.
تعتمد الحاجة إلى تقليل العلاقة الخطية المتعددة على مدى خطورتها وعلى هدفك الأساسي لنموذج الانحدار الخاص بكضع النقاط الثلاث التالية في الاعتبار:
1.    تزداد شدة المشاكل مع درجة العلاقة الخطية المتعددةلذلك ، إذا كان لديك خط متعدد الخطوط معتدل فقط ، فقد لا تحتاج إلى حلها.
2.    تؤثر العلاقة الخطية المتعددة على المتغيرات المستقلة المحددة المرتبطة فقطلذلك ، إذا لم تكن العلاقة الخطية المتعددة موجودة للمتغيرات المستقلة التي تهتم بها بشكل خاص ، فقد لا تحتاج إلى حلهاافترض أن نموذجك يحتوي على المتغيرات التجريبية ذات الأهمية وبعض متغيرات التحكمفي حالة وجود علاقة خطية متعددة عالية لمتغيرات التحكم ولكن ليس المتغيرات التجريبية ، فيمكنك تفسير المتغيرات التجريبية بدون مشاكل.
3.    تؤثر العلاقة الخطية المتعددة على المعاملات والقيم p ، لكنها لا تؤثر على التنبؤات ودقة التنبؤات وإحصائيات ملاءمة الملاءمة . إذا كان هدفك الأساسي هو عمل تنبؤات ، ولم تكن بحاجة إلى فهم دور كل متغير مستقل ، فلن تحتاج إلى تقليل الخطية المتعددة الشديدة.
على مر السنين ، وجدت أن الكثير من الناس لا يصدقون النقطة الثالثة ، لذا فإليك مرجع!
حقيقة أن بعض أو كل متغيرات التوقع مرتبطة ببعضها البعض ، بشكل عام ، لا تمنع قدرتنا على الحصول على ملاءمة جيدة ولا تميل إلى التأثير على الاستنتاجات حول الاستجابات المتوسطة أو التنبؤات للملاحظات الجديدة. - النماذج الإحصائية الخطية المطبقة ، ص 289 ، الإصدار الرابع .
اختبار العلاقة الخطية المتعددة مع عوامل تضخم التباين (VIF)
إذا كان بإمكانك تحديد المتغيرات التي تتأثر بتعدد الخطوط وقوة الارتباط ، فأنت في طريقك إلى تحديد ما إذا كنت بحاجة إلى إصلاحهلحسن الحظ ، يوجد اختبار بسيط للغاية لتقييم العلاقة الخطية المتعددة في نموذج الانحدار الخاص بكيحدد عامل تضخم التباين (VIF) الارتباط بين المتغيرات المستقلة وقوة هذا الارتباط.
يحسب البرنامج الإحصائي VIF لكل متغير مستقلتبدأ VIFs من 1 وليس لها حد أعلىتشير القيمة 1 إلى عدم وجود ارتباط بين هذا المتغير المستقل وأي متغير آخرتشير VIFs بين 1 و 5 إلى أن هناك علاقة معتدلة ، لكنها ليست شديدة بما يكفي لتبرير اتخاذ تدابير تصحيحيةتمثل VIFs الأكبر من 5 مستويات حرجة من العلاقات الخطية المتعددة حيث يتم تقدير المعاملات بشكل سيئ ، وتكون القيم p موضع شك.
استخدم VIFs لتحديد الارتباطات بين المتغيرات وتحديد قوة العلاقاتيمكن لمعظم البرامج الإحصائية عرض VIFs لكيعد تقييم VIFs مهمًا بشكل خاص للدراسات القائمة على الملاحظة لأن هذه الدراسات أكثر عرضة لوجود علاقة خطية متعددة.
مثال متعدد الخطية: التنبؤ بكثافة العظام في عظم الفخذ
يستخدم مثال الانحدار هذا مجموعة فرعية من المتغيرات التي جمعتها للتجربةفي هذا المثال ، سأوضح لك كيفية اكتشاف العلاقة الخطية المتعددة وكذلك توضيح آثارهاسأوضح لك أيضًا كيفية إزالة العلاقة الخطية المتعددة الهيكليةيمكنك تنزيل ملف بيانات CSV: MulticollinearityExample .
سأستخدم تحليل الانحدار لنمذجة العلاقة بين المتغيرات المستقلة (النشاط البدني ونسبة الدهون في الجسم والوزن والتفاعل بين الوزن ودهون الجسم) والمتغير التابع (كثافة المعادن في عظم عنق الفخذ).
فيما يلي نتائج الانحدار:
تظهر هذه النتائج أن الوزن والنشاط والتفاعل بينهما ذات دلالة إحصائيةنسبة الدهون في الجسم ليست ذات دلالة إحصائيةومع ذلك ، تشير VIFs إلى أن نموذجنا له علاقة خطية متعددة شديدة لبعض المتغيرات المستقلة.
لاحظ أن النشاط يحتوي على VIF بالقرب من 1 ، مما يدل على أن العلاقة الخطية المتعددة لا تؤثر عليه ويمكننا الوثوق بهذا المعامل والقيمة p دون أي إجراء آخرومع ذلك ، فإن المعاملات والقيم p للمصطلحات الأخرى مشكوك فيها.
بالإضافة إلى ذلك ، فإن بعض العلاقات الخطية المتعددة في نموذجنا على الأقل هي النوع الهيكليلقد قمنا بتضمين مصطلح التفاعل بين دهون الجسم * الوزنمن الواضح أن هناك ارتباطًا بين مصطلح التفاعل وكل من مصطلحات التأثير الرئيسيةتعكس VIFs هذه العلاقات.
لدي خدعة رائعة لأريكهاهناك طريقة لإزالة هذا النوع من الخط الخطي الهيكلي بسرعة وسهولة!
توسيط المتغيرات المستقلة لتقليل التعددية الخطية الهيكلية
في نموذجنا ، يكون مصطلح التفاعل مسؤولًا جزئيًا على الأقل عن قيم VIF العاليةتنتج كل من المصطلحات ذات الترتيب الأعلى وشروط التفاعل علاقة خطية متعددة لأن هذه المصطلحات تتضمن التأثيرات الرئيسيةيُعد توسيط المتغيرات طريقة بسيطة لتقليل العلاقة الخطية الهيكلية المتعددة.
يُعرف توسيط المتغيرات أيضًا بتوحيد المتغيرات عن طريق طرح المتوسطتتضمن هذه العملية حساب المتوسط ​​لكل متغير مستقل مستمر ثم طرح المتوسط ​​من جميع القيم المرصودة لهذا المتغيرثم ، استخدم هذه المتغيرات المركزية في نموذجكتوفر معظم البرامج الإحصائية ميزة ملاءمة نموذجك باستخدام متغيرات قياسية .
هناك طرق أخرى للتوحيد القياسي ، لكن ميزة طرح المتوسط ​​فقط هي أن تفسير المعاملات يظل كما هوتستمر المعاملات في تمثيل متوسط ​​التغيير في المتغير التابع نظرًا لتغير وحدة واحدة في المتغير المستقل.
في ورقة العمل ، قمت بتضمين المتغيرات المستقلة المركزية في الأعمدة مع إضافة S إلى أسماء المتغيرات.
لمزيد من المعلومات حول هذا الموضوع ، اقرأ رسالتي حول توحيد المتغيرات المستقلة المستمرة .
الانحدار مع المتغيرات المركزية
دعونا نلائم النموذج نفسه ولكن باستخدام المتغيرات المستقلة المركزية.
الفرق الأكثر وضوحا هو أن VIFs كلها وصول إلى القيم المرضية ؛ جميعها أقل من 5. بإزالة الخطية المتعددة الهيكلية ، يمكننا أن نرى أن هناك بعض الخطية المتعددة في بياناتنا ، ولكنها ليست شديدة بما يكفي لتبرير المزيد من الإجراءات التصحيحية.
نتج عن إزالة الهيكلية المتعددة الخطية اختلافات ملحوظة أخرى في المخرجات التي سنبحث عنها.
مقارنة نماذج الانحدار للكشف عن تأثيرات العلاقة الخطية المتعددة
يمكننا مقارنة نسختين من نفس النموذج ، إحداهما ذات علاقة خطية متعددة عالية والأخرى بدونهاهذه المقارنة تسلط الضوء على آثارها.
أول متغير مستقل سننظر إليه هو النشاطكان هذا المتغير هو الوحيد الذي لا يمتلك علاقة خطية متعددة تقريبًا في النموذج الأولقارن بين معاملات النشاط والقيم p بين النموذجين وستلاحظ أنهما متماثلان (المعامل = 0.000022 ، قيمة p = 0.003). يوضح هذا كيف أن المتغيرات المرتبطة بشدة هي فقط التي تتأثر بمشاكلها.
لنلقِ نظرة على المتغيرات التي تحتوي على VIFs عالية في النموذج الأوليقيس الخطأ المعياري للمعامل دقة التقديراتتشير القيم المنخفضة إلى تقديرات أكثر دقةالأخطاء القياسية في النموذج الثاني أقل لكل من نسبة الدهون والوزنبالإضافة إلى ذلك ، تعتبر النسبة المئوية للدهون مهمة في النموذج الثاني على الرغم من أنها لم تكن في النموذج الأولليس ذلك فحسب ، بل تغيرت علامة النسبة المئوية للدهون من إيجابي إلى سلبي!
تعد الدقة المنخفضة والعلامات المبدلة ونقص الأهمية الإحصائية من المشكلات النموذجية المرتبطة بالخطوات المتعددة الخطية.
الآن ، ألق نظرة على ملخص جداول النموذج لكلا الطرازينستلاحظ أن الخطأ القياسي للانحدار (S) و R-squared و R-squared المعدل و R-squared المتنبأ به كلها متطابقةكما ذكرت سابقًا ، لا تؤثر العلاقات الخطية المتعددة على التنبؤات أو جودة الملاءمةإذا كنت ترغب فقط في عمل تنبؤات ، فإن النموذج ذو الخطية المتعددة الشديدة يكون جيدًا تمامًا!
كيفية التعامل مع العلاقات الخطية المتعددة
لقد أوضحت كيف توجد مجموعة متنوعة من المواقف التي لا تحتاج إلى التعامل معهاقد لا تكون العلاقة الخطية المتعددة شديدة ، وقد لا تؤثر على المتغيرات التي تهتم بها كثيرًا ، أو ربما تحتاج فقط إلى عمل تنبؤاتأو ربما تكون مجرد علاقة خطية متعددة هيكلية يمكنك التخلص منها بتوسيط المتغيرات.
ولكن ، ماذا لو كان لديك علاقة خطية متعددة في بياناتك ووجدت أنه يجب عليك التعامل معها؟ ماذا تفعل بعد ذلك؟ لسوء الحظ ، قد يكون من الصعب حل هذا الوضعهناك العديد من الطرق التي يمكنك تجربتها ، لكن لكل منها بعض العيوبستحتاج إلى استخدام معرفتك في مجال الموضوع والعامل في أهداف دراستك لاختيار الحل الذي يوفر أفضل مزيج من المزايا والعيوب.
تشمل الحلول المحتملة ما يلي:
o       قم بإزالة بعض المتغيرات المستقلة شديدة الارتباط.
o       ادمج المتغيرات المستقلة خطيًا ، مثل جمعها معًا.
o       قم بإجراء تحليل مصمم للمتغيرات شديدة الارتباط ، مثل تحليل المكونات الرئيسية أو انحدار المربعات الصغرى الجزئي.
عندما تفكر في حل ، تذكر أن كل هذه لها جوانب سلبيةإذا كان بإمكانك قبول معاملات أقل دقة ، أو نموذج انحدار ذي مربع R مرتفع ولكن بالكاد أي متغيرات ذات دلالة إحصائية ، فقد يكون عدم فعل أي شيء بشأن العلاقة الخطية المتعددة هو الحل الأفضل.


لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...