بحث هذه المدونة الإلكترونية

الأربعاء، 26 أغسطس 2020

ما هو الانحدار اللوجستي؟




الانحدار اللوجستي هو تحليل الانحدار المناسب لإجراء عندما يكون المتغير التابع ثنائي التفرع (ثنائي). مثل جميع تحليلات الانحدار ، فإن الانحدار اللوجستي هو تحليل تنبؤي. يستخدم الانحدار اللوجستي لوصف البيانات وشرح العلاقة بين متغير ثنائي تابع واحد ومتغير واحد أو أكثر من المتغيرات المستقلة الاسمية أو الترتيبية أو الفاصلة أو على مستوى النسبة.

في بعض الأحيان يصعب تفسير الانحدار اللوجستي ؛ تتيح لك أداة Intellectus Statistics بسهولة إجراء التحليل ، ثم تفسر الإخراج بلغة إنجليزية بسيطة.

أنواع الأسئلة التي يمكن أن يجيب عليها الانحدار اللوجستي الثنائي
كيف تتغير احتمالية الإصابة بسرطان الرئة (نعم مقابل لا) لكل رطل إضافي يعاني الشخص من زيادة الوزن ولكل علبة سجائر يدخنها يوميًا؟

هل يؤثر وزن الجسم والسعرات الحرارية وتناول الدهون والعمر على احتمال الإصابة بنوبة قلبية (نعم مقابل لا)؟

الافتراضات الرئيسية للانحدار اللوجستي الثنائي
يجب أن يكون المتغير التابع ثنائي التفرع في الطبيعة (على سبيل المثال ، الوجود مقابل الغائب).
يجب ألا يكون هناك قيم متطرفة في البيانات ، والتي يمكن تقييمها عن طريق تحويل المتنبئين المستمر إلى درجات موحدة ، وإزالة القيم التي تقل عن -3.29 أو أكبر من 3.29.
يجب ألا يكون هناك ارتباط كبير (علاقة خطية متعددة) بين المتنبئين. يمكن تقييم ذلك من خلال مصفوفة الارتباط بين المتنبئين. يقترح Tabachnick and Fidell (2013) أنه نظرًا لأن معاملات الارتباط الطويلة بين المتغيرات المستقلة أقل من 0.90 ، فقد تم استيفاء الافتراض.
في مركز تحليل الانحدار اللوجستي توجد مهمة تقدير احتمالات تسجيل حدث ما. رياضيًا ، يقدر الانحدار اللوجستي وظيفة الانحدار الخطي المتعددة المحددة على النحو التالي:

لوجيت (ع)

لأني = 1 ... ن.

تجهيز.  عند اختيار نموذج لتحليل الانحدار اللوجستي ، هناك اعتبار آخر مهم وهو ملاءمة النموذج. ستؤدي إضافة متغيرات مستقلة إلى نموذج الانحدار اللوجستي دائمًا إلى زيادة مقدار التباين الموضح في احتمالات السجل (يتم التعبير عنها عادةً كـ R²). ومع ذلك ، فإن إضافة المزيد والمزيد من المتغيرات إلى النموذج يمكن أن يؤدي إلى زيادة التخصيص ، مما يقلل من قابلية تعميم النموذج بما يتجاوز البيانات التي يتناسب معها النموذج.

الإبلاغ عن R 2 . تم تطوير العديد من قيم pseudo-R 2 للانحدار اللوجستي الثنائي. يجب تفسيرها بحذر شديد نظرًا لوجود العديد من المشكلات الحسابية التي تجعلها مرتفعة أو منخفضة بشكل مصطنع. النهج الأفضل هو تقديم أي من جودة اختبارات الملاءمة المتاحة ؛ Hosmer-Lemeshow هو مقياس شائع الاستخدام لمدى ملاءمة الملاءمة بناءً على اختبار Chi-square.
ما هو الانحدار الخطي المتعدد؟
الانحدار الخطي المتعدد هو الشكل الأكثر شيوعًا لتحليل الانحدار الخطي. كتحليل تنبؤي ، يتم استخدام الانحدار الخطي المتعدد لشرح العلاقة بين متغير تابع واحد مستمر ومتغيرين مستقلين أو أكثر. يمكن أن تكون المتغيرات المستقلة مستمرة أو فئوية (مشفرة وهمية حسب الاقتضاء).

تم الرد على أمثلة على الأسئلة:

·       هل تتنبأ درجات العمر ونسبة الذكاء بمعدل GPA بشكل فعال؟
·       هل الوزن والطول والعمر يفسرون التباين في مستويات الكوليسترول؟

الافتراضات:

·       يجب توزيع بقايا الانحدار بشكل طبيعي.
·       يفترض وجود علاقة خطية بين المتغير التابع والمتغيرات المستقلة.
·       تكون المخلفات متجانسة الشكل ومستطيلة الشكل تقريبًا.

يفترض عدم وجود علاقة خطية متعددة في النموذج ، مما يعني أن المتغيرات المستقلة ليست شديدة الارتباط.

في مركز تحليل الانحدار الخطي المتعدد ، توجد مهمة ملاءمة خط واحد من خلال مخطط مبعثر. وبشكل أكثر تحديدًا ، يلائم الانحدار الخطي المتعدد خطًا عبر مساحة متعددة الأبعاد لنقاط البيانات. أبسط شكل يحتوي على متغير تابع واحد ومتغيرين مستقلين. يمكن أيضًا الإشارة إلى المتغير التابع باسم متغير النتيجة أو الانحدار. يمكن أيضًا الإشارة إلى المتغيرات المستقلة باسم متغيرات التوقع أو الانحدار.

هناك 3 استخدامات رئيسية لتحليل الانحدار الخطي المتعدد. أولاً ، يمكن استخدامه لتحديد قوة تأثير المتغيرات المستقلة على متغير تابع.

ثانيًا ، يمكن استخدامه للتنبؤ بتأثيرات أو آثار التغييرات. بمعنى أن تحليل الانحدار الخطي المتعدد يساعدنا على فهم مدى تغير المتغير التابع عندما نغير المتغيرات المستقلة. على سبيل المثال ، يمكن أن يخبرك الانحدار الخطي المتعدد عن مقدار الزيادة المتوقعة (أو النقصان) في المعدل التراكمي لكل نقطة زيادة (أو نقصان) في معدل الذكاء.

ثالثًا ، يتنبأ تحليل الانحدار الخطي المتعدد بالاتجاهات والقيم المستقبلية. يمكن استخدام تحليل الانحدار الخطي المتعدد للحصول على تقديرات النقاط. قد يكون السؤال كمثال "ماذا سيكون سعر الذهب بعد 6 أشهر من الآن؟"

عند اختيار النموذج لتحليل الانحدار الخطي المتعدد ، هناك اعتبار آخر مهم وهو ملاءمة النموذج. ستؤدي إضافة متغيرات مستقلة إلى نموذج الانحدار الخطي المتعدد دائمًا إلى زيادة مقدار التباين الموضح في المتغير التابع (المعبر عنه عادةً بـ R²). لذلك ، فإن إضافة عدد كبير جدًا من المتغيرات المستقلة دون أي مبرر نظري قد يؤدي إلى نموذج مناسب جدًا.

* يرجى الاتصال بالرقم 8622-437-877 لطلب عرض أسعار بناءً على تفاصيل بحثك ، أو إرسال بريد إلكتروني إلى Info@StatisticsSolutions.com .


فهم المعلومات المتبادلة النقطية في الإحصاء
مقدمة
مصطلح المعلومات المتبادلة مستمد من مجال نظرية المعلوماتنظرية المعلومات مشغولة بتقدير المعلوماتعلى سبيل المثال ، المفهوم المركزي في هذا المجال هو الإنتروبيا ، والذي ناقشناه من قبل .
إذا بحثت في google عن مصطلح "المعلومات المتبادلة" ، فستصل إلى بعض الصفحات التي إذا فهمتها ، فربما لن تكون هناك حاجة لك للبحث عنها في Google في المقام الأولفمثلا:
لا يقتصر على المتغيرات العشوائية ذات القيمة الحقيقية والاعتماد الخطي مثل معامل الارتباط ، والمعلومات المتبادلة (MI) أكثر عمومية وتحدد مدى اختلاف التوزيع المشترك للزوج (X ، Y) عن ناتج التوزيعات الهامشية لـ X و Y. MI هي القيمة المتوقعة للمعلومات المتبادلة النقطية (PMI).
مما يجعل قراءته منطقية في البداية فقط لأولئك الذين لا يحتاجون إلى قراءتهإنه الدافع الرئيسي لهذا المنشور: توفير حدس واضح وراء مصطلح المعلومات المتبادلة والمعادلات ، للجميعفي نهاية هذه الصفحة ، ستفهم ما يقيسه مقياس المعلومات المتبادلة بالفعل ، وكيف يجب عليك تفسيرهنبدأ بالمفهوم الأسهل للاحتمال الشرطي ونعمل في طريقنا إلى مفهوم المعلومات المتبادلة التبادلية.

احتمال مشروط
إذا كنت تعرف أن نتيجة النرد العادل المكون من ستة جوانب أكبر من 4 ، فإن احتمال أن تكون 5 هو 1/2 بينما إذا كنت لا تعرف أن النتيجة أكبر من 4 ، فسيظل الاحتمال 1 / 6لذا فإن حقيقة أنك تعلم أن النتيجة أكبر من 4 أحدثت فرقًا كبيرًا بالنسبة لك في هذه الحالةلكن ما هو حجم الاختلاف؟ نريد تحديد حجم هذا الاختلاف مقارنة بالقول ، أنت تعلم أن نتيجة لفة القوالب أكبر من 2 ، أو لا تعرف شيئًا عن هذا الأمر.
في المثال أعلاه ، استخدمنا بشكل ضمني معادلة الاحتمال الشرطي\ frac {P (A \ cap B)} {P (B)}مع كون الحدث "أكبر من 4" ، بكون الحدث "النتيجة تساوي 5" ، أ \ غطاء بويعني حدوث كل من A و B في وقت واحد.
المعلومات المتبادلة Pointwise
هذه "الأحداث" أعلاه مجرد متغيرات عشوائية: ماذا يمكن أن يحدث؟ ما هو احتمال كل من النتائج المحتملة؟ إذا أشرنا إلى تلك المتغيرات العشوائية كـ x و y ، فإن صيغة المعلومات النقطية وثيقة الصلة جدًا بتلك الخاصة بالاحتمال الشرطيالرابط بين الاحتمال الشرطي والمعلومات المتبادلة هو المحرك الرئيسي لفهم هذا الموضوعصيغة المعلومات النقطية هي
  
نسيان عامل السجل لمدة ثانيةدعونا ندلك هذه الصيغة:
  
دعونا نركز على التعبير الأخيركما ترى ، إنه الاحتمال الشرطي لـ Y إذا كان X مرة \ frac {1} {p (x)}إذا كان Y و X مستقلين ، فلا معنى للضرب (سيكون صفرًا في شيء ما). ولكن إذا كان الاحتمال الشرطي أكبر من الصفر ، ص (y \ vert x)> 0 ،فهناك معنى لعملية الضربما مدى "أهمية" الحدث س = س؟ إذا كان الفوسفور (س = س) = 1الحدث X = x ليس مهمًا حقًا ، أليس كذلك؟ فكر في نرد يلف دائمًا نفس الرقم ؛ لا جدوى من النظر فيهولكن ، إذا كان الحدث س = سنادرًا إلى حد ما ، فإن p (x) منخفضة \ frac {1} {p (x)}نسبيًا ← مرتفعة نسبيًا ← ص (ص \ فيرت س)تصبح قيمة أكثر أهمية من حيث المعلوماتهذه هي الملاحظة الأولى فيما يتعلق بصيغة مؤشر مديري المشتريات.
نحن في منتصف الطريق تقريبا.
مثال عملي وبعض الحدس الإضافي
في هذا الكود ، نقوم بسحب بعض بيانات ETF من موقع yahoo ، من أجل TLT (سندات الخزانة الأمريكية) و SPY (أسهم S&P 500 الأمريكية). نقوم بإنشاء سلسلتين من العائدات اليومية لهذين المؤشرين.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

library(quantmod)
library(magrittr)
k <- 10
end<- format(Sys.Date(),"%Y-%m-%d")
start<-format(Sys.Date() - (k*365),"%Y-%m-%d")
symetf = c('TLT', 'SPY')
l <- length(symetf)
w0 <- NULL
for (i in 1:l){
  dat0 = getSymbols(symetf[i], src="yahoo", from=start, to=end,
                    auto.assign = F, warnings = FALSE, symbol.lookup = F)
  w1 <- dailyReturn(dat0)
  w0 <- cbind(w0,w1)
}
time <- as.Date(substr(index(w0),1,10))
w0 <- as.matrix(w0)*100
colnames(w0) <- symetf
> tail(w0,3)
                 TLT         SPY
2020-01-22 0.3513343  0.01207606
2020-01-23 0.7001964  0.11468733
2020-01-24 0.8088548 -0.88930785
الآن دعنا نحدد المتغيرات العشوائية لديناسيكون X: "عائدات TLT أقل من 5٪ كميًا". سيكون المتغير العشوائي Y: "عائدات SPY أقل من 5٪ كميًا" ، لذلك متغيرين عشوائيين ذي حدين.
الآن ، استنادًا إلى صيغة المعلومات المتبادلة النقطية ، نحسب مقياس PMI:
1
2
3
4
5
6
7
8
9
10
11

alpha <- 0.05
y <- w0[,"SPY"] < quantile(w0[,"SPY"], prob= alpha) %>% as.numeric
x <- w0[,"TLT"] < quantile(w0[,"TLT"], prob= alpha) %>% as.numeric
p_x <- sum(x)/TT
p_y <- sum(y)/TT
p_xy <- (x[y==1] %>% sum)/TT
(p_ab/p_b)/p_a
[1] 0.3167045
log2((p_ab/p_b)/p_a)
[1] -1.658791
مقياس PMI حوالي -1.65ماذا بحق الجحيم يعني ذلك؟
لا يقتصر قياس المعلومات المتبادلة بالنقطة على النطاق [0،1]. لذا نوضح هنا كيفية تفسير صفر أو موجب أو ، كما هو الحال في حالتنا ، عددًا سالبًاالحالة التي يكون فيها PMI = 0 تافهةيحدث للسجل (1) = 0 وهذا يعني أن ص (س ، ص) = ص (س) ص (ص)ما يخبرنا أن x و y مستقلانإذا كان الرقم موجبًا ، فهذا يعني أن الحدثين يتشاركان في تردد أعلى مما نتوقعه إذا كانا حدثين مستقلينلماذا ا؟ لأنه ص (y \ vert x) \ times \ frac {1} {p (x)}(أو ما يعادله ص (س \ فيرت ص) \ مرات \ فارك {1} {ص (ص)}) أكبر من 1 (إذا كان أصغر من 1 ، يكون السجل سالبًا). في حالتنا ، الرقم أقل من واحد ، مما ف (ص \ فيرت س) <ف (س)يعني أننا نرى المزيد من X = x مما نراه إذا كان X = x.
دعونا نتحدث عن الأرقام لجعلها أكثر واقعيةالاحتمالات الفردية هي p_x = p_y = تقريبًا 5٪ (حسب البناء هنا). إذا كانت الأحداث / المتغيرات مستقلة ، نتوقع أن نرى كلاهما يحدث في وقت واحد حوالي 0.05 ^ 2 = 0.25٪ من الوقتوبدلاً من ذلك ، نرى أن هذه الأحداث تحدث بشكل متزامن فقط بنسبة 0.08٪ فقط من الوقتلذلك نرى هذا الحدث المشترك ما يقرب من ثلث ما نتوقعه نسبيًا لأن الأحداث مستقلة (تقريبًا 0.08 / 0.25). هذا الرقم 0.316 هو ما يستمر في عامل السجل وينتجنا بالرقم السالب. → من الناحية العملية ، فهذا يعني أن عدد المرات التي يمر فيها كل من الأسهم والسندات بيوم سيء (أقل من 5 ٪ من الكمية) ، أقل بكثير مقارنةً بأيامهم السيئة بشكل فردي
> p_xy *100
[1] 0.07952286


(p_ab/p_b)/p_a
[1] 0.3167045


log2((p_ab/p_b)/p_a)
[1] -1.658791

لذا فإن رؤية يوم سيء لأحد هؤلاء لا يجلب يومًا سيئًا للآخر ، بل على العكسوهو أمر منطقي بالنظر إلى حجة الكتاب المدرسي عن السندات كتحوط ضد سوق الأسهم.
ملخص
يمكن فهم المعلومات المتبادلة النقطية على أنها احتمالية مشروطة مقيسة.
تمثل المعلومات المتبادلة النقطية مقياسًا كميًا لمدى زيادة أو تقليل احتمالية حدوث الحدثين معًا ، نظرًا لاحتمالاتهما الفردية ، وفيما يتعلق بالحالة التي يكون فيها الاثنان مستقلين تمامًا.
لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...