بحث هذه المدونة الإلكترونية

الخميس، 20 أغسطس 2020

دور الموارد في تحليل البيانات



عند التعرف على تحليل البيانات في المدرسة ، لا تسمع كثيرًا عن الدور الذي تلعبه الموارد - الوقت والمال والتكنولوجيا - في تطوير التحليل. غالبًا ما تتم هذه المحادثة "في الردهة" عند التحدث إلى كبار أعضاء هيئة التدريس أو الموجهين. لكن الموارد المتاحة تلعب دورًا مهمًا في تحديد ما يمكن عمله مع سؤال ومجموعة بيانات معينة. من المغري التفكير في أن الموقف ثنائي - إما أن يكون لديك موارد كافية لإجراء التحليل "الصحيح" ، أو أنك ببساطة لا تقوم بالتحليل. ولكن في العالم الحقيقي ، هناك عدد غير قليل من درجات اللون الرمادي بين نقطتي النهاية هاتين. هناك العديد من المواقف في تحليل البيانات حيث لا يكون النهج الأمثل ممكنًا ، ولكن من المهم مع ذلك إجراء نوع من التحليل. وهكذا ،
يجب أن تتعامل جميع التحليلات مع القيود المفروضة على الوقت والتكنولوجيا والتي غالبًا ما تشكل الخطة لما يمكن القيام به. على سبيل المثال ، قد يتم تقييد تعقيد النموذج الإحصائي المستخدم من خلال قوة الحوسبة المتاحة للمحلل ، والقدرة على شراء المزيد من قوة الحوسبة ، والوقت المتاح لتشغيل محاكاة سلسلة ماركوف المعقدة مونت كارلو. سيكون التحليل المطلوب غدًا مختلفًا عن التحليل المطلوب الأسبوع المقبل. ومع ذلك ، فإن الشيء الوحيد المختلف بينهما هو الوقت المتاح للقيام بالعمل.

الموارد الرئيسية للوقت والمال والتكنولوجيا لها تأثيرات مختلفة على كيفية إكمال تحليل البيانات في النهاية:
الوقت . عادة ما يكون الوقت بمثابة أكبر قيد ومن الواضح أنه مرتبط بالمال. ومع ذلك ، حتى لو كان المال وفيرًا ، فلا يمكنه شراء المزيد من الوقت إذا لم يكن متاحًا. غالبًا ما تتضمن التحليلات المعقدة العديد من القطع المنفصلة ، ويجب التحقق من صحة البيانات المعقدة والتحقق منها والاستفسار عنها قبل أن يكون المرء واثقًا من النتائج. كل هذا يستغرق وقتًا وقلة الوقت يؤدي إلى تقليل كل هذه الأشياء. وبالمثل ، قد تتطلب بعض التحليلات وقتًا لعدة أشخاص ، إذا لم يستطع شخص واحد إدراج كل ذلك في جدوله الزمني. إذا لم يتوفر العديد من الأشخاص حاليًا ، فسيؤدي ذلك إلى تغيير طبيعة التحليل الذي تم إجراؤه.
التكنولوجيا . أستخدم كلمة "التكنولوجيا" على نطاق واسع للإشارة إلى كل من موارد الحوسبة و "الموارد" الإحصائية. قد تكون بعض النماذج مثالية أكثر من غيرها ، لكن خصائص مجموعة البيانات (مثل حجمها) قد تمنع تطبيقها. قد يتم إجراء تحليلات أفضل باستخدام قوة حوسبة أكبر ، ولكن القيود المفروضة على قوة الحوسبة المتاحة ستحدد النماذج التي تصبح مناسبة ومقدار العمل الإضافي الذي يتم إنجازه. قد ترتبط القيود التكنولوجية أيضًا بالجمهور الذي سيتلقى التحليل. اعتمادًا على مدى تطور الجمهور ، يمكن للمرء ضبط التكنولوجيا المطبقة لإجراء التحليل.
التقريبات
ربما تكون أقدم أداة يمتلكها الإحصائيون في صندوق أدواتهم للتعامل مع قيود الموارد هي التقريب . غالبًا ما يكون من السهل تدوين الحل الدقيق أو المثالي لمشكلة ما ولكن العبء الحسابي يجعل من الصعب حساب هذا الحل. على سبيل المثال ، تتطلب العديد من حسابات بايز حساب تكاملات معقدة عالية الأبعاد كانت مستحيلة قبل اختراع الكمبيوتر الرقمي. بالنسبة للحلول المعقدة غير الخطية ، تتمثل الحيلة الكلاسيكية في استخدام تقريب خطي وربما دمجها مع افتراض حول الحالة الطبيعية المقاربة.
في معظم الحالات التي كان الحساب فيها صعبًا ، لجأ الإحصائيون إما إلى التقريبات (المقاربة) ، واستبدال الحسابات الصعبة بافتراضات (مشكوك فيها أحيانًا) ، أو اختاروا طرقًا مختلفة. النقطة الأساسية هي أن الواقع القاسي لقيود موارد العالم الحقيقي فرض نهجًا مختلفًا لتحليل البيانات. في حين أنه قد يكون من غير المرضي استخدام نهج دون المستوى الأمثل ، فقد يكون من غير المرضي أيضًا عدم تحليل البيانات على الإطلاق.
مع نمو قوة الحوسبة في القرن الماضي ، كنا نحل ببطء محل تلك الافتراضات القديمة بالحسابات. ليست هناك حاجة إلى الوضع الطبيعي المقارب إذا كان بإمكاننا حساب حل أقل تقييدًا باستخدام جهاز كمبيوتر قوي. مثال بسيط على ذلك هو اختبار التقليب المكون من عينتين والذي يكون بنفس قوة اختبار t القياسي ولكن بدون أي افتراضات توزيع. تكمن المشكلة بالطبع في أن تلك الافتراضات القديمة لا تموت بسهولة ، وحتى اليوم قد يكون من المرهق صياغة حل عندما تكون الصيغة في متناول اليد.
النمذجة الهرمية الأرخص
يتضمن أحد الأمثلة من عملي الخاص النمذجة الهرمية لتلوث الهواء وبيانات السلاسل الزمنية الصحية. في أوائل العقد الأول من القرن الحادي والعشرين ، كنا نبحث في البيانات الوطنية حول معدل الوفيات وتلوث الهواء في الولايات المتحدة ، وكان لدينا بيانات يومية عن الوفيات والتلوث (والعديد من المتغيرات المشتركة الأخرى) في 100 مدينة أمريكية كبرى تغطي فترة زمنية تبلغ حوالي 14 عامًا. من أجل الاستخدام الفعال لمجموعة البيانات الضخمة هذه ، كان الهدف هو استخدام نموذج هرمي لتقدير كل من الارتباط "الوطني" بين تلوث الهواء والوفيات ، بالإضافة إلى التقديرات الخاصة بالمدينة التي اقترضت القوة عبر المدن. لقد كان نهجًا مألوفًا يعمل بشكل جيد في مجموعات البيانات الأصغر.
لكن في ذلك الوقت ، لم يكن لدينا جهاز كمبيوتر يمكنه بالفعل حساب التقدير من النموذج (أو في حالتنا ، التوزيعات اللاحقة). لذلك لم يكن النموذج "الصحيح" خيارًا. ما انتهينا إليه هو استخدام تقريب عادي لاحتمالية بواسون ، مبررة بالعينات الكبيرة إلى حد ما التي كانت لدينا ، والتي سمحت بنموذج عادي - عادي من مرحلتين يمكن حسابه دون الحاجة إلى تحميل جميع البيانات في الذاكرة ( في أبسط الحالات يمكن أن يتم ذلك في شكل مغلق). حتى يومنا هذا ، هذا هو النهج القياسي لنمذجة بيانات السلاسل الزمنية متعددة المواقع الخاصة بتلوث الهواء والصحة لأنها سريعة ورخيصة وسهلة الفهم.
الجدارة بالثقة
في النهاية ، يمكن أن تؤثر قيود الموارد على مدى موثوقية التحليل. في تحليل جدير بالثقة ، غالبًا ما يتم دعم ما يتم تقديمه كتحليل بالعديد من الحقائق والتفاصيل التي لم يتم تقديمها. تم إجراء هذه التحليلات الأخرى ، لكن المحلل قرر (على الأرجح استنادًا إلى سرد معين للبيانات) أنها لا تفي بعتبة العرض. ومع ذلك ، إذا طلب أي شخص هذه التفاصيل ، فهي متاحة بسهولة. مع قدر أكبر من الموارد، ومجموع كل من الأشياء التي يمكن القيام به هو أكبر، وبالتالي تعطينا الأمل في أن الأمور تركت التراجع هي متعامد على ما تم إنجازه.
ومع ذلك ، مع موارد أقل ، هناك نتيجتان على الأقل. أولاً ، من المحتمل أنه يمكن عمل أشياء أقل بالبيانات. عدد أقل من عمليات التحقق من البيانات ، والتحقق من افتراضات النموذج ، والتحقق من التقارب ، والتحقق من صحة النموذج ، وما إلى ذلك. وهذا يزيد من عدد الأشياء التي تم التراجع عنها ويزيد من احتمالية تأثيرها على النتائج النهائية (المعروضة). ثانيًا ، قد تتطلب أنواع معينة من التحليل وقتًا أو قوة حوسبية أكبر مما هو متاح. من أجل تقديم أي تحليل على الإطلاق ، قد نحتاج إلى اللجوء إلى منهجية تقريبية أو "أرخص". هذه الأساليب ليست بالضرورة غير صحيحة ، لكنها قد تؤدي إلى نتائج أكثر ضوضاء أو دون المستوى الأمثل. ومع ذلك ، فإن مختلف الأطراف الأخرى المشاركة في التحليل ، مثل الجمهور أو الراعي، قد يفضلون إجراء أي تحليل ، بغض النظر عن الوضع الأمثل ، على عدم وجود تحليل. أحيانًا يكون السؤال نفسه غامضًا أو خشنًا بعض الشيء ، لذا فلا بأس إذا كان التحليل الذي يتماشى معه "سريعًا وقذرًا". ومع ذلك ، يتعين على المحللين رسم خط فاصل بين ما هو تحليل معقول وما هو غير ذلك ، في ضوء الموارد المتاحة.
على الرغم من أن قيود الموارد يمكن أن تضعف مصداقية التحليل ، إلا أن استخدام التقريبات في بعض الأحيان للتعامل مع قيود الموارد يمكن أن يؤدي إلى فوائد. في المثال أعلاه فيما يتعلق بنمذجة تلوث الهواء والوفيات ، جعل التقريب الذي استخدمناه ملاءمة النماذج للبيانات سريعًا جدًا. تتيح فائدة رخص الحساب في هذه الحالة للمحلل التنقل عبر العديد من النماذج المختلفة لفحص متانة النتائج إلى عوامل مربكة مختلفة وإجراء تحليلات حساسية مهمة. إذا استغرق كل نموذج أيامًا لحسابه ، فقد تستقر على نموذج واحد مناسب. بعبارة أخرى ، من الممكن أن تؤدي قيود الموارد إلى تحليل ، رغم تقريبي ، إلا أنه في الواقع أكثر موثوقية من التحليل الأمثل.
وظيفة المحلل
تتمثل مهمة محلل البيانات في إدارة الموارد المتاحة للتحليل وإنتاج أفضل تحليل ممكن وفقًا للقيود الحالية. قد لا يعود توفر الموارد إلى المحلل وحده ، ولكن المهمة مع ذلك هي التعرف على ما هو متاح ، وتحديد ما إذا كانت الموارد كافية لإكمال تحليل معقول ، وإذا لم يكن الأمر كذلك ، فاطلب المزيد من أولئك الذين يمكنهم توفيرها. لقد رأيت العديد من تحليلات البيانات تنحرف نتيجة عدم التوافق في فهم الموارد المتاحة مقابل الموارد المطلوبة.
يمكن لمحلل البيانات الجيد تقليل فرصة عدم التطابق الإجمالي وسيقوم باستمرار بتقييم احتياجات الموارد للتحليل في المستقبل. إذا بدا أن هناك انحرافًا كبيرًا بين ما كان متوقعًا وحقيقة التحليل ، فيجب على المحلل التواصل مع الآخرين المعنيين (المستفيد أو ربما خبير الموضوع) إما للحصول على المزيد من الموارد أو تعديل خطة تحليل البيانات. يتطلب التفاوض بشأن موارد إضافية أو خطة تحليلية معدلة أن يكون للمحلل علاقة جيدة مع مختلف الأطراف المعنية.




لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...