تحدث العلاقة الخطية المتعددة عندما ترتبط المتغيرات المستقلة في نموذج الانحدار . يعتبر هذا الارتباط مشكلة لأن المتغيرات المستقلة يجب أن تكون مستقلة . إذا كانت درجة الارتباط بين المتغيرات عالية بدرجة كافية ، فقد تتسبب في حدوث مشكلات عند ملاءمة النموذج وتفسير النتائج.
أستخدم الانحدار لنمذجة
الكثافة المعدنية للعظام في رقبة الفخذ من أجل ، والعفو عن التورية ، واستخلاص
تأثيرات العلاقة الخطية المتعددة. صورة هنري فانديك كارتر - هنري جراي (1918)
في منشور المدونة هذا ،
سأقوم بتسليط الضوء على المشكلات التي يمكن أن تسببها الخطوط الخطية المتعددة ،
وسأوضح لك كيفية اختبار النموذج الخاص بك من أجله ، وإبراز بعض الطرق لحلها. في بعض الحالات ، لا يمثل
تعدد الخطوط الخطية مشكلة بالضرورة ، وسأوضح لك كيفية إجراء هذا التحديد. سأعمل من خلال مثال على
مجموعة البيانات التي تحتوي على خطوط خطية متعددة لإضفاء الحيوية عليها!
لماذا
تعتبر العلاقة الخطية المتعددة مشكلة محتملة؟
ويتمثل الهدف الرئيسي من تحليل الانحدار هو عزل العلاقة بين كل متغير مستقل و متغير تابع . تفسير معامل الانحدار هو أنه يمثل متوسط التغيير في المتغير التابع لكل وحدة تغيير
واحدة في متغير مستقل عندما تحافظ على ثبات جميع المتغيرات المستقلة الأخرى . هذا الجزء الأخير مهم
لمناقشتنا حول العلاقة الخطية المتعددة.
الفكرة هي أنه يمكنك تغيير
قيمة أحد المتغيرات المستقلة وليس المتغيرات الأخرى. ومع ذلك ، عندما ترتبط
المتغيرات المستقلة ، فإنها تشير إلى أن التغييرات في متغير واحد مرتبطة بالتحولات
في متغير آخر. كلما كانت العلاقة أقوى ، زادت صعوبة تغيير
متغير دون تغيير آخر. يصبح من الصعب على النموذج تقدير العلاقة بين كل متغير مستقل والمتغير التابع بشكل مستقل لأن المتغيرات المستقلة تميل
إلى التغيير في انسجام.
هناك نوعان أساسيان من
العلاقات الخطية المتعددة:
o العلاقة
الخطية الهيكلية المتعددة : يحدث هذا النوع عندما نقوم بإنشاء مصطلح نموذجي
باستخدام مصطلحات أخرى. بمعنى آخر ، إنها نتيجة ثانوية للنموذج الذي
نحدده بدلاً من التواجد في البيانات نفسها. على سبيل المثال ، إذا قمت
بتربيع المصطلح X لنمذجة الانحناء ، فمن الواضح أن هناك ارتباط بين X و X 2 .
o العلاقات
الخطية المتعددة للبيانات : هذا النوع من العلاقات
الخطية المتعددة موجود في البيانات نفسها بدلاً من أن يكون قطعة أثرية في نموذجنا. من المرجح أن تعرض التجارب
القائمة على الملاحظة هذا النوع من العلاقة الخطية المتعددة.
ما
هي المشاكل التي تسببها الخطية المتعددة؟
تسبب العلاقة الخطية
المتعددة نوعين أساسيين من المشاكل:
o و معامل التقديرات يمكن أن تتأرجح بعنف على
أساسها المتغيرات المستقلة الأخرى في النموذج. في معاملات تصبح حساسة جدا للتغيرات
صغيرة في نموذج.
o يقلل
تعدد الخط من دقة معاملات التقدير ، مما يضعف القوة الإحصائية لنموذج الانحدار الخاص بك. قد لا تتمكن من الوثوق بقيم p لتحديد المتغيرات المستقلة
ذات الأهمية الإحصائية.
تخيل أنك تناسب نموذج انحدار
وقيم المعامل ، وحتى الإشارات ، تتغير بشكل كبير اعتمادًا على المتغيرات المحددة
التي تقوم بتضمينها في النموذج. إنه شعور محبط عندما تؤدي النماذج المختلفة
قليلاً إلى استنتاجات مختلفة تمامًا. لا تشعر أنك تعرف التأثير الفعلي لكل متغير!
الآن ، ضع في الاعتبار حقيقة
أنه لا يمكنك بالضرورة الوثوق بقيم p لتحديد المتغيرات المستقلة لتضمينها في النموذج. تجعل هذه المشكلة من الصعب تحديد النموذج
الصحيح وتبرير النموذج إذا لم تكن العديد من قيم p الخاصة بك ذات دلالة إحصائية.
مع زيادة شدة العلاقة الخطية
المتعددة تزداد هذه التأثيرات الإشكالية. ومع ذلك ، فإن هذه القضايا
تؤثر فقط على المتغيرات المستقلة المرتبطة ببعضها البعض. يمكن أن يكون لديك نموذج ذو
علاقة خطية متعددة وخطيرة ومع ذلك قد لا تتأثر بعض المتغيرات في النموذج تمامًا.
يوضح مثال الانحدار ذي
الخطية المتعددة التي أعمل عليها لاحقًا هذه المشكلات أثناء العمل.
هل
يجب علي إصلاح العلاقات الخطية المتعددة؟
تجعل العلاقة الخطية
المتعددة من الصعب تفسير معاملاتك ، كما أنها تقلل من قوة النموذج الخاص بك لتحديد
المتغيرات المستقلة ذات الأهمية الإحصائية. هذه بالتأكيد مشاكل خطيرة. ومع ذلك ، فإن الخبر السار
هو أنك لست مضطرًا دائمًا إلى إيجاد طريقة لإصلاح العلاقة الخطية المتعددة.
تعتمد الحاجة إلى تقليل
العلاقة الخطية المتعددة على مدى خطورتها وعلى هدفك الأساسي لنموذج الانحدار الخاص
بك. ضع النقاط الثلاث التالية في الاعتبار:
1.
تزداد شدة المشاكل مع درجة
العلاقة الخطية المتعددة. لذلك ، إذا كان لديك خط متعدد الخطوط معتدل فقط
، فقد لا تحتاج إلى حلها.
2.
تؤثر العلاقة الخطية
المتعددة على المتغيرات المستقلة المحددة المرتبطة فقط. لذلك ، إذا لم تكن العلاقة
الخطية المتعددة موجودة للمتغيرات المستقلة التي تهتم بها بشكل خاص ، فقد لا تحتاج
إلى حلها. افترض أن نموذجك يحتوي على المتغيرات التجريبية
ذات الأهمية وبعض متغيرات التحكم. في حالة وجود علاقة خطية متعددة عالية لمتغيرات
التحكم ولكن ليس المتغيرات التجريبية ، فيمكنك تفسير المتغيرات التجريبية بدون
مشاكل.
3.
تؤثر العلاقة الخطية
المتعددة على المعاملات والقيم p ، لكنها لا تؤثر على التنبؤات ودقة التنبؤات وإحصائيات ملاءمة الملاءمة . إذا كان هدفك الأساسي هو عمل
تنبؤات ، ولم تكن بحاجة إلى فهم دور كل متغير مستقل ، فلن تحتاج إلى تقليل الخطية
المتعددة الشديدة.
على مر السنين ، وجدت أن
الكثير من الناس لا يصدقون النقطة الثالثة ، لذا فإليك مرجع!
حقيقة أن بعض أو كل متغيرات التوقع مرتبطة ببعضها البعض ، بشكل
عام ، لا تمنع قدرتنا على الحصول على ملاءمة جيدة ولا تميل إلى التأثير على الاستنتاجات
حول الاستجابات المتوسطة أو التنبؤات للملاحظات
الجديدة. - النماذج الإحصائية الخطية المطبقة ، ص 289 ، الإصدار الرابع .
اختبار
العلاقة الخطية المتعددة مع عوامل تضخم التباين (VIF)
إذا كان بإمكانك تحديد
المتغيرات التي تتأثر بتعدد الخطوط وقوة الارتباط ، فأنت في طريقك إلى تحديد ما
إذا كنت بحاجة إلى إصلاحه. لحسن الحظ ، يوجد اختبار بسيط للغاية لتقييم
العلاقة الخطية المتعددة في نموذج الانحدار الخاص بك. يحدد عامل تضخم التباين (VIF) الارتباط بين المتغيرات
المستقلة وقوة هذا الارتباط.
يحسب البرنامج الإحصائي
VIF لكل
متغير مستقل. تبدأ VIFs من 1 وليس لها حد أعلى. تشير القيمة 1 إلى عدم وجود
ارتباط بين هذا المتغير المستقل وأي متغير آخر. تشير VIFs بين 1 و 5 إلى أن هناك علاقة
معتدلة ، لكنها ليست شديدة بما يكفي لتبرير اتخاذ تدابير تصحيحية. تمثل VIFs الأكبر من 5 مستويات حرجة من
العلاقات الخطية المتعددة حيث يتم تقدير المعاملات بشكل سيئ ، وتكون القيم p موضع شك.
استخدم VIFs لتحديد الارتباطات بين
المتغيرات وتحديد قوة العلاقات. يمكن لمعظم البرامج الإحصائية عرض
VIFs لك. يعد تقييم
VIFs مهمًا
بشكل خاص للدراسات القائمة على الملاحظة لأن هذه الدراسات أكثر عرضة لوجود علاقة
خطية متعددة.
مثال
متعدد الخطية: التنبؤ بكثافة العظام في عظم الفخذ
يستخدم مثال الانحدار هذا
مجموعة فرعية من المتغيرات التي جمعتها للتجربة. في هذا المثال ، سأوضح لك
كيفية اكتشاف العلاقة الخطية المتعددة وكذلك توضيح آثارها. سأوضح لك أيضًا كيفية إزالة
العلاقة الخطية المتعددة الهيكلية. يمكنك تنزيل ملف بيانات CSV: MulticollinearityExample .
سأستخدم تحليل الانحدار
لنمذجة العلاقة بين المتغيرات المستقلة (النشاط البدني ونسبة الدهون في الجسم
والوزن والتفاعل بين الوزن ودهون الجسم) والمتغير التابع (كثافة المعادن في عظم
عنق الفخذ).
فيما يلي نتائج الانحدار:
تظهر هذه النتائج أن الوزن
والنشاط والتفاعل بينهما ذات دلالة إحصائية. نسبة الدهون في الجسم ليست
ذات دلالة إحصائية. ومع ذلك ، تشير VIFs إلى أن نموذجنا له علاقة
خطية متعددة شديدة لبعض المتغيرات المستقلة.
لاحظ أن النشاط يحتوي على
VIF بالقرب
من 1 ، مما يدل على أن العلاقة الخطية المتعددة لا تؤثر عليه ويمكننا الوثوق بهذا
المعامل والقيمة
p دون أي إجراء آخر. ومع ذلك ، فإن المعاملات
والقيم p للمصطلحات الأخرى مشكوك فيها.
بالإضافة إلى ذلك ، فإن بعض
العلاقات الخطية المتعددة في نموذجنا على الأقل هي النوع الهيكلي. لقد قمنا بتضمين مصطلح
التفاعل بين دهون الجسم * الوزن. من الواضح أن هناك ارتباطًا بين مصطلح التفاعل
وكل من مصطلحات التأثير الرئيسية. تعكس VIFs هذه العلاقات.
لدي خدعة رائعة لأريكها. هناك طريقة لإزالة هذا النوع
من الخط الخطي الهيكلي بسرعة وسهولة!
توسيط
المتغيرات المستقلة لتقليل التعددية الخطية الهيكلية
في نموذجنا ، يكون مصطلح
التفاعل مسؤولًا جزئيًا على الأقل عن قيم VIF العالية. تنتج كل من المصطلحات ذات
الترتيب الأعلى وشروط التفاعل علاقة خطية متعددة لأن هذه المصطلحات تتضمن
التأثيرات الرئيسية. يُعد توسيط المتغيرات طريقة بسيطة لتقليل
العلاقة الخطية الهيكلية المتعددة.
يُعرف توسيط المتغيرات أيضًا
بتوحيد المتغيرات عن طريق طرح المتوسط. تتضمن هذه العملية حساب المتوسط لكل متغير
مستقل مستمر ثم طرح المتوسط من جميع القيم المرصودة لهذا المتغير. ثم ، استخدم هذه المتغيرات
المركزية في نموذجك. توفر معظم البرامج الإحصائية ميزة ملاءمة
نموذجك باستخدام متغيرات قياسية .
هناك طرق أخرى للتوحيد القياسي ، لكن ميزة طرح المتوسط فقط هي أن تفسير
المعاملات يظل كما هو. تستمر المعاملات في تمثيل متوسط التغيير في
المتغير التابع نظرًا لتغير وحدة واحدة في المتغير المستقل.
في ورقة العمل ، قمت بتضمين
المتغيرات المستقلة المركزية في الأعمدة مع إضافة S إلى أسماء المتغيرات.
الانحدار
مع المتغيرات المركزية
دعونا نلائم النموذج نفسه
ولكن باستخدام المتغيرات المستقلة المركزية.
الفرق الأكثر وضوحا هو أن
VIFs كلها
وصول إلى القيم المرضية ؛ جميعها أقل من 5. بإزالة الخطية المتعددة
الهيكلية ، يمكننا أن نرى أن هناك بعض الخطية المتعددة في بياناتنا ، ولكنها ليست
شديدة بما يكفي لتبرير المزيد من الإجراءات التصحيحية.
نتج عن إزالة الهيكلية
المتعددة الخطية اختلافات ملحوظة أخرى في المخرجات التي سنبحث عنها.
مقارنة
نماذج الانحدار للكشف عن تأثيرات العلاقة الخطية المتعددة
يمكننا مقارنة نسختين من نفس
النموذج ، إحداهما ذات علاقة خطية متعددة عالية والأخرى بدونها. هذه المقارنة تسلط الضوء على
آثارها.
أول متغير مستقل سننظر إليه
هو النشاط. كان هذا المتغير هو الوحيد الذي لا يمتلك علاقة
خطية متعددة تقريبًا في النموذج الأول. قارن بين معاملات النشاط والقيم p بين النموذجين وستلاحظ أنهما
متماثلان (المعامل = 0.000022 ، قيمة p = 0.003). يوضح هذا كيف أن المتغيرات المرتبطة بشدة هي
فقط التي تتأثر بمشاكلها.
لنلقِ نظرة على المتغيرات
التي تحتوي على VIFs عالية في النموذج الأول. يقيس الخطأ المعياري للمعامل
دقة التقديرات. تشير القيم المنخفضة إلى تقديرات أكثر دقة. الأخطاء القياسية في النموذج
الثاني أقل لكل من نسبة الدهون والوزن. بالإضافة إلى ذلك ، تعتبر النسبة المئوية
للدهون مهمة في النموذج الثاني على الرغم من أنها لم تكن في النموذج الأول. ليس ذلك فحسب ، بل تغيرت
علامة النسبة المئوية للدهون من إيجابي إلى سلبي!
تعد الدقة المنخفضة
والعلامات المبدلة ونقص الأهمية الإحصائية من المشكلات النموذجية المرتبطة
بالخطوات المتعددة الخطية.
الآن ، ألق نظرة على ملخص
جداول النموذج لكلا الطرازين. ستلاحظ أن الخطأ القياسي
للانحدار (S) و R-squared و R-squared المعدل و R-squared المتنبأ به كلها متطابقة. كما ذكرت سابقًا ، لا تؤثر
العلاقات الخطية المتعددة على التنبؤات أو جودة الملاءمة. إذا كنت ترغب فقط في عمل
تنبؤات ، فإن النموذج ذو الخطية المتعددة الشديدة يكون جيدًا تمامًا!
كيفية
التعامل مع العلاقات الخطية المتعددة
لقد أوضحت كيف توجد مجموعة
متنوعة من المواقف التي لا تحتاج إلى التعامل معها. قد لا تكون العلاقة الخطية
المتعددة شديدة ، وقد لا تؤثر على المتغيرات التي تهتم بها كثيرًا ، أو ربما تحتاج
فقط إلى عمل تنبؤات. أو ربما تكون مجرد علاقة خطية متعددة هيكلية
يمكنك التخلص منها بتوسيط المتغيرات.
ولكن ، ماذا لو كان لديك
علاقة خطية متعددة في بياناتك ووجدت أنه يجب عليك التعامل معها؟ ماذا تفعل بعد ذلك؟ لسوء الحظ ، قد يكون من
الصعب حل هذا الوضع. هناك العديد من الطرق التي يمكنك تجربتها ، لكن
لكل منها بعض العيوب. ستحتاج إلى استخدام معرفتك في مجال الموضوع
والعامل في أهداف دراستك لاختيار الحل الذي يوفر أفضل مزيج من المزايا والعيوب.
تشمل الحلول المحتملة ما يلي:
o قم
بإزالة بعض المتغيرات المستقلة شديدة الارتباط.
o ادمج
المتغيرات المستقلة خطيًا ، مثل جمعها معًا.
o قم
بإجراء تحليل مصمم للمتغيرات شديدة الارتباط ، مثل تحليل المكونات الرئيسية أو
انحدار المربعات الصغرى الجزئي.
عندما تفكر في حل ، تذكر أن
كل هذه لها جوانب سلبية. إذا كان بإمكانك قبول معاملات أقل دقة ، أو
نموذج انحدار ذي مربع
R مرتفع ولكن بالكاد أي متغيرات ذات
دلالة إحصائية ، فقد يكون عدم فعل أي شيء بشأن العلاقة الخطية المتعددة هو الحل
الأفضل.
لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا
ليست هناك تعليقات:
إرسال تعليق