تنشأ جميع البيانات في سياق معين وغالبًا نتيجة طرح سؤال محدد. كل هذا جيد وجيد حتى نحاول استخدام نفس البيانات للإجابة على
سؤال مختلف في سياق مختلف . عندما تقوم بمطابقة مجموعة بيانات موجودة بسؤال جديد ، عليك أن
تسأل عما إذا كان السياق الأصلي الذي تم فيه جمع البيانات متوافقًا مع السؤال
الجديد والسياق الجديد. إذا كان هناك توافق السياقفغالبًا
ما يكون من المعقول المضي قدمًا. إذا لم يكن الأمر كذلك ، فيجب عليك إما التوقف أو التوصل إلى
بعض المبادئ أو الافتراضات الإحصائية التي تجعل السياقين متوافقين. غالبًا ما يفعل محللو البيانات الجيدون ذلك في رؤوسهم بسرعة
وقد لا يدركون حتى أنهم يفعلون ذلك. ومع ذلك ، أعتقد أن الاعتراف الصريح بهذه المهمة مهم للتأكد من
أن تحليلات البيانات يمكن أن توفر إجابات واضحة واستنتاجات مفيدة.
يتزايد فهم توافق السياق مع استمرار علم البيانات وتحليل
مجموعات البيانات الحالية في الانطلاق. تأتي جميع مجموعات البيانات الحالية من مكان ما ومن المهم
للمحلل معرفة مكان ذلك وما إذا كان متوافقًا مع المكان الذي يتجه إليه. إذا كان هناك عدم توافق بين السياقين ، وهو ما يحدث دائمًا
تقريبًا في تجربتي ، فمن المحتمل أن يؤدي أي افتراض أو مبدأ إحصائي يتم استدعاؤه
إلى عدم اليقينفي
النتائج النهائية. يجب على الأقل نقل عدم اليقين هذا للجمهور ، إذا لم يتم النظر
فيه رسميًا في التحليل. في بعض الحالات ، سيكون السياق الأصلي للبيانات وسياق التحليل
الجديد غير متوافقين لدرجة أنه لا يستحق استخدام البيانات للإجابة على السؤال
الجديد. يمكن أن يؤدي التعرف الصريح على هذه المشكلة إلى توفير الكثير
من الوقت الضائع في تحليل مجموعة بيانات تكون في النهاية غير مناسبة للإجابة على
سؤال معين.
أردت تقديم مثالين من عملي الخاص حيث لعب توافق السياق دورًا
مهمًا.
مثال: ارتباط
البيانات والاختلال المكاني
تميل بيانات تلوث الهواء إلى أن يتم جمعها في الشاشات ، والتي
يمكن اعتبارها بشكل معقول مواقع نقاط. يتم جمع بيانات تلوث الهواء التي تجمعها وكالة حماية البيئة
الأمريكية بشكل أساسي لمراقبة الامتثال التنظيمي . الفكرة هنا (تقريبًا) هي أننا لا نريد أن يكون أي جزء من
مقاطعة أو ولاية أعلى من عتبة معينة من تلوث الهواء ، ولذا فإننا نضع الشاشات بشكل
استراتيجي في مواقع معينة ونراقب قيمها فيما يتعلق بمعايير جودة الهواء. يجوز للمراقبينتوفير قياسات تمثيلية لمستويات تلوث الهواء في
المنطقة العامة المحيطة بالشاشة ، ولكن مدى تمثيلها يعتمد على الملوث المحدد الذي
يتم قياسه وطبيعة مصادر التلوث في المنطقة. في نهاية المطاف ، بالنسبة لرصد الامتثال ، لا يهم حقًا مدى
تمثيل الشاشات لأن التجاوز في موقع واحد لا يزال يمثل مشكلة (اللوائح لديها طرق
لتخفيف القيم الكبيرة العابرة
تميل البيانات الصحية إلى القياس على مستوى إجمالي ، لا سيما
عندما تأتي من مصادر إدارية. قد نعرف التعداد اليومي للوفيات أو الاستشفاء في مقاطعة أو
مقاطعة أو رمز بريدي. لا يمكن ربط البيانات الصحية ببيانات تلوث الهواء بسبب عدم
تطابق السياق: يتم قياس البيانات الصحية مساحيًا (تعداد الأشخاص الذين يعيشون داخل
حدود سياسية معينة) ويتم قياس بيانات التلوث في مواقع محددة ، لذلك هناك عدم توافق
في مقياس القياس المكاني . لا يمكننا ربط هذه بمصادر البيانات معًا إلا إذا قمنا بأحد
الإجراءات التالية:
1. افترض أن قيم المراقبة تمثل تعرض السكان في المقاطعة بأكملها
2. تطوير نموذج يمكنه عمل تنبؤات لمستويات التلوث في جميع النقاط في المقاطعة
ثم أخذ متوسط هذه القيم كممثل لمتوسط مستويات المقاطعة
هذه المشكلة معروفة جيدًا في الإحصاء المكاني ويشار إليها على
أنها اختلال مكاني أو تغيير في الدعم . إن عدم محاذاة بيانات التلوث والصحة هو عدم تطابق السياق هنا
وينشأ بسبب مخططات القياس المختلفة التي نستخدمها لكل نوع من البيانات. نتيجة لذلك ، يجب أن نستدعي إما افتراضًا أو نموذجًا إحصائيًا
لربط الاثنين معًا.
من السهل افتراض التمثيل التمثيلي لأنه لا يتطلب أي عمل إضافي
، ولكن يمكن أن يؤدي إلى عدم يقين غير معروف في المشكلة إذا كانت قيم التلوث لا تمثل تعرض السكان. إذا كان الملوث ذو طبيعة إقليمية ومتجانس مكانيًا ، فقد يكون
الافتراض معقولًا. ولكن إذا كان هناك الكثير من مصادر التلوث المحلية المفرطة
التي تؤدي إلى عدم التجانس المكاني ، فلن يصمد الافتراض. يعتبر نهج النمذجة الإحصائية مزيدًا من العمل ، ولكنه مباشر
(من حيث المبدأ) وقد يوفر القدرة على وصف عدم اليقين الذي قدمته النمذجة بشكل صريح. في كلتا الحالتين ، هناك سعر إحصائي يجب دفعه لربط مجموعات
البيانات معًا.
يعد ربط البيانات مكانًا شائعًا لمواجهة حالات عدم تطابق
السياق لأنه نادرًا ما يتم جمع مجموعات بيانات مختلفة مع مجموعات البيانات الأخرى
في الاعتبار. لذلك ، يجب إيلاء اهتمام دقيق للسياقات التي تم فيها جمع كل
مجموعة بيانات وما هي الافتراضات أو النمذجة التي يجب القيام بها لتحقيق توافق
السياق.
مثال: أزمة أمانة
عمان الكبرى
طريقة شائعة للتحقيق في الارتباطات الحادة أو قصيرة المدى بين
مستويات تلوث الهواء والنتائج الصحية من خلال تحليل السلاسل الزمنية. الفكرة العامة هي أن تأخذ سلسلة زمنية من مستويات تلوث الهواء
، عادةً من مراقب وكالة حماية البيئة ، ثم تربطها بسلسلة زمنية لبعض النتائج
الصحية (غالبًا الموت) في مجموعة من السكان محل الاهتمام. الجزء الصعب ، بالطبع ، هو التكيف مع مجموعة متنوعة من العوامل
التي قد تربك العلاقة بين تلوث الهواء والنتائج الصحية. في حين أن بعض العوامل يمكن قياسها وتعديلها بشكل مباشر (مثل
درجة الحرارة والرطوبة) ، إلا أن هناك عوامل أخرى لا يتم قياسها ويجب علينا إيجاد
وكيل معقول لضبطها.
في أواخر التسعينيات من القرن الماضي ، بدأ الباحثون في
استخدام نماذج
مضافة عامة لحساب المربكات الزمنية غير المقاسة في نماذج السلاسل الزمنية
لتلوث الهواء. باستخدام GAMs ، يمكنك تضمين وظائف سلسة للوقت نفسه من أجل
التكيف مع أي عوامل متغيرة بمرور الوقت (بسلاسة) قد تربك العلاقة بين تلوث الهواء
والصحة. لم يكن حلاً مثاليًا ، لكنه كان حلاً معقولًا ومرنًا للغاية. لم يضر أن كان هناك بالفعل تطبيق لطيف لبرنامج S-PLUS يمكن تشغيله بسهولة على البيانات الموجودة. بحلول عام 2000 ، كان معظم الباحثين قد وحدوا معايير استخدام
نهج أمانة عمان الكبرى في دراسات السلاسل الزمنية لتلوث الهواء.
في عام 2002 ، اكتشف المحققون في جامعة جونز هوبكنز مشكلة في
برنامج GAM فيما يتعلق بمعيار التقارب الافتراضي. كانت المشكلة هي أن معيار التقارب الافتراضي المستخدم لتحديد
ما إذا كانت خوارزمية التجهيز الخلفي المستخدمة لتناسب النموذج قد تم ضبطها على
0.0001 ، والتي كانت أكثر من كافية لمعظم تطبيقات
GAM. كان التطبيق النموذجي لـ GAM هو تجانس مخطط التشتت للنظر في اللاخطية المحتملة في العلاقة
بين النتيجة والمتنبئ. ومع ذلك ، في النماذج التي كانت فيها المصطلحات اللامعلمية
شديدة الترابط (حالة يشار إليها باسم "التقاء") ، لم يكن المعيار
الافتراضي صارمًا بدرجة كافية.
كانت المشكلة الأساسية هنا هي التحول غير المكتشف في السياق
فيما يتعلق ببرنامج GAM. في الاستخدام السابق لـ
GAMs ، كان معيار
التقارب الافتراضي جيدًا على الأرجح لأنه لم تكن هناك تبعيات قوية بين مختلف
المكونات الأكثر سلاسة في النموذج والعلاقات التي يتم نمذجتها لم يكن لها خصائص
السلاسل الزمنية. ومع ذلك ، عندما تم استخدام نفس برنامج
GAM في سياق مختلف تمامًا ، وهو سياق لم
يتوقعه المؤلفون الأصليون على الأرجح ، فجأة كان معيار التقارب نفسه غير كافٍ. كانت بيئة التقاء منخفضة لتحليلات
GAM السابقة غير متوافقة مع بيئة التقاء
عالية لتحليل السلاسل الزمنية لتلوث الهواء. الدرس هنا هو أن البرنامج المستخدم في سياق مختلف تم تطويره
منه هو في الأساس برنامج جديد. ومثل أي برنامج جديد ، فإنه يتطلب الاختبار والتحقق من الصحة.
ملخص
تعتبر تحولات السياق مهمة للغاية للتعرف عليها لأنها غالبًا ما
تحدد ما إذا كانت التحليلات التي تجريها صحيحة أم لا. من المهم بشكل خاص مناقشتها في تطبيقات علوم البيانات هنا
غالبًا ما تكون البيانات موجودة مسبقًا ولكن يتم تطبيقها على مشكلة أو سؤال جديد. يمكن أن تكون المنهجيات والنهج التحليلية المعقولة تمامًا في
سياق واحد غير مناسبة أو حتى خاطئة في سياق مختلف. أخيرًا ، أي افتراضات أو نماذج مطبقة لتحقيق توافق السياق يمكن
أن يكون لها تأثير على النتائج النهائية ، عادة في شكل زيادة عدم اليقين. لا ينبغي نسيان أوجه عدم اليقين الإضافية هذه في النهاية ، بل
يجب نقلها للجمهور أو تضمينها رسميًا في التحليل.
لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا
ليست هناك تعليقات:
إرسال تعليق