بحث هذه المدونة الإلكترونية

الخميس، 20 أغسطس 2020

توافق السياق في تحليل البيانات



تنشأ جميع البيانات في سياق معين وغالبًا نتيجة طرح سؤال محددكل هذا جيد وجيد حتى نحاول استخدام نفس البيانات للإجابة على سؤال مختلف في سياق مختلف . عندما تقوم بمطابقة مجموعة بيانات موجودة بسؤال جديد ، عليك أن تسأل عما إذا كان السياق الأصلي الذي تم فيه جمع البيانات متوافقًا مع السؤال الجديد والسياق الجديدإذا كان هناك توافق السياقفغالبًا ما يكون من المعقول المضي قدمًاإذا لم يكن الأمر كذلك ، فيجب عليك إما التوقف أو التوصل إلى بعض المبادئ أو الافتراضات الإحصائية التي تجعل السياقين متوافقينغالبًا ما يفعل محللو البيانات الجيدون ذلك في رؤوسهم بسرعة وقد لا يدركون حتى أنهم يفعلون ذلكومع ذلك ، أعتقد أن الاعتراف الصريح بهذه المهمة مهم للتأكد من أن تحليلات البيانات يمكن أن توفر إجابات واضحة واستنتاجات مفيدة.
يتزايد فهم توافق السياق مع استمرار علم البيانات وتحليل مجموعات البيانات الحالية في الانطلاقتأتي جميع مجموعات البيانات الحالية من مكان ما ومن المهم للمحلل معرفة مكان ذلك وما إذا كان متوافقًا مع المكان الذي يتجه إليهإذا كان هناك عدم توافق بين السياقين ، وهو ما يحدث دائمًا تقريبًا في تجربتي ، فمن المحتمل أن يؤدي أي افتراض أو مبدأ إحصائي يتم استدعاؤه إلى عدم اليقينفي النتائج النهائيةيجب على الأقل نقل عدم اليقين هذا للجمهور ، إذا لم يتم النظر فيه رسميًا في التحليلفي بعض الحالات ، سيكون السياق الأصلي للبيانات وسياق التحليل الجديد غير متوافقين لدرجة أنه لا يستحق استخدام البيانات للإجابة على السؤال الجديديمكن أن يؤدي التعرف الصريح على هذه المشكلة إلى توفير الكثير من الوقت الضائع في تحليل مجموعة بيانات تكون في النهاية غير مناسبة للإجابة على سؤال معين.
أردت تقديم مثالين من عملي الخاص حيث لعب توافق السياق دورًا مهمًا.
مثال: ارتباط البيانات والاختلال المكاني
تميل بيانات تلوث الهواء إلى أن يتم جمعها في الشاشات ، والتي يمكن اعتبارها بشكل معقول مواقع نقاطيتم جمع بيانات تلوث الهواء التي تجمعها وكالة حماية البيئة الأمريكية بشكل أساسي لمراقبة الامتثال التنظيمي . الفكرة هنا (تقريبًا) هي أننا لا نريد أن يكون أي جزء من مقاطعة أو ولاية أعلى من عتبة معينة من تلوث الهواء ، ولذا فإننا نضع الشاشات بشكل استراتيجي في مواقع معينة ونراقب قيمها فيما يتعلق بمعايير جودة الهواءيجوز للمراقبينتوفير قياسات تمثيلية لمستويات تلوث الهواء في المنطقة العامة المحيطة بالشاشة ، ولكن مدى تمثيلها يعتمد على الملوث المحدد الذي يتم قياسه وطبيعة مصادر التلوث في المنطقةفي نهاية المطاف ، بالنسبة لرصد الامتثال ، لا يهم حقًا مدى تمثيل الشاشات لأن التجاوز في موقع واحد لا يزال يمثل مشكلة (اللوائح لديها طرق لتخفيف القيم الكبيرة العابرة
تميل البيانات الصحية إلى القياس على مستوى إجمالي ، لا سيما عندما تأتي من مصادر إداريةقد نعرف التعداد اليومي للوفيات أو الاستشفاء في مقاطعة أو مقاطعة أو رمز بريديلا يمكن ربط البيانات الصحية ببيانات تلوث الهواء بسبب عدم تطابق السياق: يتم قياس البيانات الصحية مساحيًا (تعداد الأشخاص الذين يعيشون داخل حدود سياسية معينة) ويتم قياس بيانات التلوث في مواقع محددة ، لذلك هناك عدم توافق في مقياس القياس المكانيلا يمكننا ربط هذه بمصادر البيانات معًا إلا إذا قمنا بأحد الإجراءات التالية:
1.    افترض أن قيم المراقبة تمثل تعرض السكان في المقاطعة بأكملها
2.    تطوير نموذج يمكنه عمل تنبؤات لمستويات التلوث في جميع النقاط في المقاطعة ثم أخذ متوسط ​​هذه القيم كممثل لمتوسط ​​مستويات المقاطعة
هذه المشكلة معروفة جيدًا في الإحصاء المكاني ويشار إليها على أنها اختلال مكاني أو تغيير في الدعم . إن عدم محاذاة بيانات التلوث والصحة هو عدم تطابق السياق هنا وينشأ بسبب مخططات القياس المختلفة التي نستخدمها لكل نوع من البياناتنتيجة لذلك ، يجب أن نستدعي إما افتراضًا أو نموذجًا إحصائيًا لربط الاثنين معًا.
من السهل افتراض التمثيل التمثيلي لأنه لا يتطلب أي عمل إضافي ، ولكن يمكن أن يؤدي إلى عدم يقين غير معروف في المشكلة إذا كانت قيم التلوث لا تمثل تعرض السكانإذا كان الملوث ذو طبيعة إقليمية ومتجانس مكانيًا ، فقد يكون الافتراض معقولًاولكن إذا كان هناك الكثير من مصادر التلوث المحلية المفرطة التي تؤدي إلى عدم التجانس المكاني ، فلن يصمد الافتراضيعتبر نهج النمذجة الإحصائية مزيدًا من العمل ، ولكنه مباشر (من حيث المبدأ) وقد يوفر القدرة على وصف عدم اليقين الذي قدمته النمذجة بشكل صريحفي كلتا الحالتين ، هناك سعر إحصائي يجب دفعه لربط مجموعات البيانات معًا.
يعد ربط البيانات مكانًا شائعًا لمواجهة حالات عدم تطابق السياق لأنه نادرًا ما يتم جمع مجموعات بيانات مختلفة مع مجموعات البيانات الأخرى في الاعتبارلذلك ، يجب إيلاء اهتمام دقيق للسياقات التي تم فيها جمع كل مجموعة بيانات وما هي الافتراضات أو النمذجة التي يجب القيام بها لتحقيق توافق السياق.
مثال: أزمة أمانة عمان الكبرى
طريقة شائعة للتحقيق في الارتباطات الحادة أو قصيرة المدى بين مستويات تلوث الهواء والنتائج الصحية من خلال تحليل السلاسل الزمنيةالفكرة العامة هي أن تأخذ سلسلة زمنية من مستويات تلوث الهواء ، عادةً من مراقب وكالة حماية البيئة ، ثم تربطها بسلسلة زمنية لبعض النتائج الصحية (غالبًا الموت) في مجموعة من السكان محل الاهتمامالجزء الصعب ، بالطبع ، هو التكيف مع مجموعة متنوعة من العوامل التي قد تربك العلاقة بين تلوث الهواء والنتائج الصحيةفي حين أن بعض العوامل يمكن قياسها وتعديلها بشكل مباشر (مثل درجة الحرارة والرطوبة) ، إلا أن هناك عوامل أخرى لا يتم قياسها ويجب علينا إيجاد وكيل معقول لضبطها.
في أواخر التسعينيات من القرن الماضي ، بدأ الباحثون في استخدام نماذج مضافة عامة لحساب المربكات الزمنية غير المقاسة في نماذج السلاسل الزمنية لتلوث الهواءباستخدام GAMs ، يمكنك تضمين وظائف سلسة للوقت نفسه من أجل التكيف مع أي عوامل متغيرة بمرور الوقت (بسلاسة) قد تربك العلاقة بين تلوث الهواء والصحةلم يكن حلاً مثاليًا ، لكنه كان حلاً معقولًا ومرنًا للغايةلم يضر أن كان هناك بالفعل تطبيق لطيف لبرنامج S-PLUS يمكن تشغيله بسهولة على البيانات الموجودةبحلول عام 2000 ، كان معظم الباحثين قد وحدوا معايير استخدام نهج أمانة عمان الكبرى في دراسات السلاسل الزمنية لتلوث الهواء.
في عام 2002 ، اكتشف المحققون في جامعة جونز هوبكنز مشكلة في برنامج GAM فيما يتعلق بمعيار التقارب الافتراضيكانت المشكلة هي أن معيار التقارب الافتراضي المستخدم لتحديد ما إذا كانت خوارزمية التجهيز الخلفي المستخدمة لتناسب النموذج قد تم ضبطها على 0.0001 ، والتي كانت أكثر من كافية لمعظم تطبيقات GAM. كان التطبيق النموذجي لـ GAM هو تجانس مخطط التشتت للنظر في اللاخطية المحتملة في العلاقة بين النتيجة والمتنبئومع ذلك ، في النماذج التي كانت فيها المصطلحات اللامعلمية شديدة الترابط (حالة يشار إليها باسم "التقاء") ، لم يكن المعيار الافتراضي صارمًا بدرجة كافية.
كانت المشكلة الأساسية هنا هي التحول غير المكتشف في السياق فيما يتعلق ببرنامج GAM. في الاستخدام السابق لـ GAMs ، كان معيار التقارب الافتراضي جيدًا على الأرجح لأنه لم تكن هناك تبعيات قوية بين مختلف المكونات الأكثر سلاسة في النموذج والعلاقات التي يتم نمذجتها لم يكن لها خصائص السلاسل الزمنيةومع ذلك ، عندما تم استخدام نفس برنامج GAM في سياق مختلف تمامًا ، وهو سياق لم يتوقعه المؤلفون الأصليون على الأرجح ، فجأة كان معيار التقارب نفسه غير كافٍكانت بيئة التقاء منخفضة لتحليلات GAM السابقة غير متوافقة مع بيئة التقاء عالية لتحليل السلاسل الزمنية لتلوث الهواءالدرس هنا هو أن البرنامج المستخدم في سياق مختلف تم تطويره منه هو في الأساس برنامج جديدومثل أي برنامج جديد ، فإنه يتطلب الاختبار والتحقق من الصحة.

ملخص
تعتبر تحولات السياق مهمة للغاية للتعرف عليها لأنها غالبًا ما تحدد ما إذا كانت التحليلات التي تجريها صحيحة أم لامن المهم بشكل خاص مناقشتها في تطبيقات علوم البيانات هنا غالبًا ما تكون البيانات موجودة مسبقًا ولكن يتم تطبيقها على مشكلة أو سؤال جديديمكن أن تكون المنهجيات والنهج التحليلية المعقولة تمامًا في سياق واحد غير مناسبة أو حتى خاطئة في سياق مختلفأخيرًا ، أي افتراضات أو نماذج مطبقة لتحقيق توافق السياق يمكن أن يكون لها تأثير على النتائج النهائية ، عادة في شكل زيادة عدم اليقينلا ينبغي نسيان أوجه عدم اليقين الإضافية هذه في النهاية ، بل يجب نقلها للجمهور أو تضمينها رسميًا في التحليل.



لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...