بحث هذه المدونة الإلكترونية

الأربعاء، 26 أغسطس 2020

إحصائيات درجات تشابه التسلسل

إحصائيات درجات تشابه التسلسل

المقدمة
   لتقييم ما إذا كانت محاذاة معينة تشكل دليلاً على التنادد ، من المفيد معرفة مدى قوة المحاذاة التي يمكن توقعها من الصدفة وحدها. في هذا السياق ، يمكن أن تعني "الصدفة" مقارنة (1) متواليات حقيقية ولكن غير متماثلة ؛ (2) تسلسلات حقيقية يتم خلطها للحفاظ على الخصائص التركيبية [1-3] ؛ أو (3) التسلسلات التي يتم إنشاؤها عشوائيًا بناءً على نموذج تسلسل الحمض النووي أو البروتين. تستخدم النتائج الإحصائية التحليلية دائمًا آخر تعريفات الصدفة هذه ، في حين أن النتائج التجريبية القائمة على المحاكاة وملاءمة المنحنى قد تستخدم أيًا من التعريفات.
 إحصائيات مقارنة التسلسل العالمي
   لسوء الحظ ، حتى في ظل أبسط النماذج العشوائية وأنظمة التسجيل ، لا يُعرف سوى القليل جدًا عن التوزيع العشوائي لدرجات المحاذاة العالمية المثلى [4] . يمكن أن توفر تجارب مونت كارلو نتائج توزيع تقريبية لبعض أنظمة التسجيل المحددة وتركيبات التسلسل [5] ، ولكن لا يمكن تعميمها بسهولة. لذلك ، فإن إحدى الطرق القليلة المتاحة لتقييم الأهمية الإحصائية لمحاذاة عالمية معينة هي إنشاء العديد من أزواج التسلسل العشوائي بالطول والتركيب المناسبين ، وحساب درجة المحاذاة المثلى لكل [1،3]. في حين أنه من الممكن بعد ذلك التعبير عن درجة الفائدة من حيث الانحرافات المعيارية عن المتوسط ، فمن الخطأ افتراض أن التوزيع ذي الصلة طبيعي وتحويل هذه القيمة Z إلى قيمة P ؛ سلوك الذيل لدرجات المحاذاة العالمية غير معروف. أكثر ما يمكن للمرء أن يقوله بشكل موثوق هو أنه إذا كانت 100 محاذاة عشوائية لها درجة أقل من محاذاة الاهتمام ، فمن المحتمل أن تكون القيمة P المعنية أقل من 0.01. هناك مأزق آخر يجب تجنبه وهو المبالغة في أهمية النتيجة الموجودة بين الاختبارات المتعددة. عندما يتم إنشاء العديد من المحاذاة ، على سبيل المثال في البحث في قاعدة البيانات ، يجب استبعاد أهمية الأفضل وفقًا لذلك. محاذاة مع P.- القيمة 0.0001 في سياق تجربة واحدة يمكن أن تعطى P -value 0.1 فقط إذا تم اختيارها كأفضل 1000 تجربة مستقلة.
 إحصائيات مقارنة التسلسل المحلي
   لحسن الحظ ، فإن إحصاءات درجات الاصطفافات المحلية ، على عكس تلك الخاصة بالمحاذاة العالمية ، مفهومة جيدًا. هذا صحيح بشكل خاص بالنسبة للتحالفات المحلية التي تفتقر إلى الفجوات ، والتي سننظر فيها أولاً. كانت هذه المحاذاة هي بالضبط تلك التي سعت إليها برامج البحث الأصلية في قاعدة بيانات بلاست [6] .
   المحاذاة المحلية بدون فجوات تتكون ببساطة من زوج من مقاطع متساوية الطول ، يتم مقارنة مقطع واحد من كل من التسلسلين. سيجد تعديل خوارزميات Smith-Waterman [7] أو خوارزميات البائعين [8] جميع أزواج القطاعات التي لا يمكن تحسين نتائجها بالتمديد أو التشذيب. وتسمى هذه أزواج المقاطع عالية الدرجات أو HSPs.
   لتحليل مدى احتمال ظهور درجة عن طريق الصدفة ، هناك حاجة إلى نموذج من التسلسلات العشوائية. بالنسبة للبروتينات ، يختار أبسط نموذج بقايا الأحماض الأمينية في تسلسل بشكل مستقل ، مع احتمالات خلفية محددة للمخلفات المختلفة. بالإضافة إلى ذلك ، يجب أن تكون النتيجة المتوقعة لمحاذاة زوج عشوائي من الأحماض الأمينية سلبية. إذا لم يكن هذا هو الحال ، فإن المحاذاة الطويلة تميل إلى الحصول على درجة عالية بشكل مستقل عما إذا كانت المقاطع المحاذية مرتبطة ببعضها البعض ، وستنهار النظرية الإحصائية.
   مثلما يميل مجموع عدد كبير من المتغيرات العشوائية المستقلة الموزعة بشكل متماثل (iid) إلى التوزيع الطبيعي ، فإن الحد الأقصى لعدد كبير من متغيرات iid العشوائية يميل إلى توزيع القيمة القصوى [9]. (سوف نتجاهل النقاط الفنية العديدة المطلوبة لجعل هذا البيان صارمًا.) في دراسة محاذاة التسلسل المحلي المثلى ، نتعامل بشكل أساسي مع الحالة الأخيرة [10،11] . في حدود أطوال التسلسل الكبيرة بما فيه الكفاية m و n ، تتميز إحصائيات درجات HSP بمعلمتين ، K و lambda . معظم ببساطة، العدد المتوقع شركائنا HSPs مع درجة على الأقل S يعطى عن طريق الصيغة




نحن نسمي هذا E -value لدرجة S .
   هذه الصيغة منطقية للغاية. مضاعفة طول أي تسلسل يجب أن يضاعف عدد HSPs التي تحصل على درجة معينة. أيضًا ، لكي يحصل HSP على النتيجة 2x ، يجب أن يحصل على النتيجة × مرتين على التوالي ، لذلك يتوقع المرء أن ينخفض E بشكل كبير مع النتيجة. يمكن اعتبار المعلمات K و lambda كمقاييس طبيعية لحجم مساحة البحث ونظام التسجيل على التوالي.
 عشرات بت
   النتائج الأولية ليس لها معنى يذكر بدون معرفة مفصلة بنظام التسجيل المستخدم ، أو ببساطة أكثر من معلماتها الإحصائية K و lambda . ما لم يتم فهم نظام التسجيل ، فإن الاستشهاد بالنتيجة الأولية وحدها يشبه الاستشهاد بمسافة دون تحديد أقدام أو أمتار أو سنوات ضوئية. من خلال تسوية النتيجة الأولية باستخدام الصيغة ،




يحصل المرء على "درجة بت" S ' ، والتي تحتوي على مجموعة قياسية من الوحدات. إن القيمة E المقابلة لدرجة بت معينة هي ببساطة أن




درجات البت تستوعب الجوهر الإحصائي لنظام التسجيل المستخدم ، بحيث لحساب الأهمية يحتاج المرء إلى معرفة حجم مساحة البحث فقط بالإضافة إلى ذلك.
 قيم ف
   يتم وصف عدد HSPs العشوائية ذات الدرجة> = S بواسطة توزيع Poisson [10،11] . هذا يعني أن احتمال العثور بالضبط على HSPs بدرجة> = S يتم الحصول عليه من




حيث E هي القيمة E لـ S المعطاة بواسطة المعادلة (1) أعلاه. على وجه التحديد فرصة العثور الصفر شركائنا HSPs مع النتيجة => S هي ه -E ، وبالتالي فإن احتمال العثور على واحدة على الأقل هذا هو HSP




هذا هو P -value المرتبطة النتيجة S . على سبيل المثال ، إذا كان المرء يتوقع العثور على ثلاثة HSPs بدرجة> = S.، واحتمال العثور على واحد على الأقل هو 0.95. تُبلغ برامج BLAST عن قيمة E بدلاً من P -values لأنه من الأسهل فهم الفرق بين ، على سبيل المثال ، E -value من 5 و 10 من P -value من 0.993 و 0.99995. ومع ذلك ، عندما تكون E <0.01 ، تكون P -values و E -value متطابقة تقريبًا.
 عمليات البحث في قاعدة البيانات
   و E -value من المعادلة (1) ينطبق على المقارنة بين اثنين من البروتينات ذات أطوال م و ن . كيف يقيم المرء أهمية المحاذاة التي تنشأ من مقارنة بروتين بطول m بقاعدة بيانات تحتوي على العديد من البروتينات المختلفة ، بأطوال متفاوتة؟ هناك من يرى أن جميع البروتينات الموجودة في قاعدة البيانات هي بداهة على قدم المساواة من المرجح أن تكون ذات صلة الاستعلام. هذا يعني أن قيمة E منخفضة لمحاذاة تتضمن تسلسل قاعدة بيانات قصير يجب أن تحمل نفس الوزن مثل قيمة E منخفضة لمحاذاة تتضمن تسلسل قاعدة بيانات طويل. لحساب "البحث في قاعدة البيانات" ه-القيمة ، يقوم المرء ببساطة بضرب القيمة E للمقارنة الزوجية بعدد التسلسلات في قاعدة البيانات. تأخذ الإصدارات الحديثة من برامج مقارنة البروتين FASTA [12] هذا النهج [13] .
   وجهة نظر بديلة هي أن الاستعلام بداهة من المرجح أن يكون مرتبطًا بتسلسل طويل أكثر من تسلسل قصير ، لأن التسلسلات الطويلة غالبًا ما تتكون من عدة مجالات مختلفة. إذا افترضنا أن فرصة الارتباط المسبق تتناسب مع طول التسلسل ، فيجب ضرب القيمة E الزوجية التي تتضمن تسلسل قاعدة بيانات بطول n بـ N / n ، حيث Nهو الطول الإجمالي لقاعدة البيانات في المخلفات. دراسة المعادلة (1)، وهذا يمكن أن يتحقق ببساطة عن طريق التعامل مع قاعدة البيانات كما في تسلسل واحد طويل من طول N . تأخذ برامج بلاست [6 ، 14 ، 15] هذا النهج لحساب قيمة قاعدة البيانات الإلكترونية . لاحظ أنه بالنسبة لمقارنات تسلسل الحمض النووي ، فإن طول سجلات قاعدة البيانات تعسفي إلى حد كبير ، وبالتالي فهذه هي الطريقة الوحيدة التي يمكن الدفاع عنها حقًا لتقدير الأهمية الإحصائية.
 إحصائيات محاذاة فجوات
   الإحصاءات التي تم تطويرها أعلاه لها أساس نظري متين فقط للمحاذاة المحلية التي لا يسمح بوجود فجوات. ومع ذلك ، تشير العديد من التجارب الحسابية [14-21] وبعض النتائج التحليلية [22] بقوة إلى أن نفس النظرية تنطبق أيضًا على محاذاة الفجوات. بالنسبة للمحاذاة غير المحددة ، يمكن حساب المعلمات الإحصائية ، باستخدام الصيغ التحليلية ، من درجات الاستبدال وترددات المخلفات الخلفية للتسلسلات التي تتم مقارنتها. بالنسبة للمحاذاة ذات الفجوات ، يجب تقدير هذه المعلمات من خلال مقارنة واسعة النطاق للتسلسلات "العشوائية".
   بعض برامج البحث في قواعد البيانات ، مثل FASTA [12] أو تطبيق مختلف لخوارزمية Smith-Waterman [7]، ينتج نتائج محاذاة محلية مثالية لمقارنة تسلسل الاستعلام بكل تسلسل في قاعدة البيانات. تتضمن معظم هذه الدرجات متواليات غير مرتبطة ، وبالتالي يمكن استخدامها لتقدير لامدا و K [17 ، 21] . يتجنب هذا النهج مصطنعة نموذج التسلسل العشوائي عن طريق استخدام متواليات حقيقية ، مع هيكلها الداخلي والارتباطات المصاحبة لها ، ولكن يجب أن تواجه مشكلة استبعاد درجات التقدير من أزواج التسلسلات ذات الصلة. تحقق برامج بلاست الكثير من سرعتها من خلال تجنب حساب درجات المحاذاة المثلى للجميع باستثناء عدد قليل من التسلسلات غير ذات الصلة. لذلك يجب أن يعتمد على التقدير المسبق للمعلمات lambda و K.، لمجموعة مختارة من مصفوفات الاستبدال وتكاليف الفجوة. يمكن إجراء هذا التقدير باستخدام متواليات حقيقية ، ولكنه اعتمد بدلاً من ذلك على نموذج تسلسل عشوائي [14] ، والذي يبدو أنه يعطي نتائج دقيقة إلى حد ما [21] .
 تأثيرات الحافة
   تميل الإحصاءات الموضحة أعلاه إلى أن تكون متحفظة إلى حد ما بالنسبة للتسلسلات القصيرة. النظرية التي تدعم هذه الإحصائيات هي نظرية مقاربة ، والتي تفترض أن المحاذاة المحلية المثلى يمكن أن تبدأ بأي زوج من المخلفات المتوافقة. ومع ذلك ، يجب أن يكون للمحاذاة عالية الدرجات بعض الطول ، وبالتالي لا يمكن أن تبدأ بالقرب من نهاية أي من التسلسلين اللذين تتم مقارنتهما. ويمكن تصحيح "تأثير الحافة" بحساب "الطول الفعال" للتتابعات [14] ؛ تقوم برامج بلاست بتنفيذ مثل هذا التصحيح. بالنسبة للتتابعات الأطول من حوالي 200 وحدة بنائية ، عادةً ما يكون تصحيح تأثير الحافة ضئيلًا.
 عشرات اختيار الاستبدال
   تعتمد النتائج التي ينتجها برنامج المحاذاة المحلي بشدة على الدرجات التي يستخدمها. لا يوجد نظام تسجيل فردي هو الأفضل لجميع الأغراض ، ويمكن أن يؤدي فهم النظرية الأساسية لدرجات المحاذاة المحلية إلى تحسين حساسية تحليلات التسلسل. كما في السابق ، تم تطوير النظرية بالكامل فقط للنتائج المستخدمة للعثور على محاذاة محلية غير معطلة ، لذلك نبدأ بهذه الحالة.
   تم وصف عدد كبير من درجات استبدال الأحماض الأمينية المختلفة ، بناءً على مجموعة متنوعة من الأسباب المنطقية ، [23-36] . ومع ذلك ، يمكن كتابة الدرجات الخاصة بأي مصفوفة إحلال ذات درجة متوقعة سالبة بشكل فريد في الشكل


حيث تكون q ij ، التي تسمى الترددات المستهدفة ، أرقام موجبة مجموعها 1 ، و p iهي ترددات خلفية لبقايا مختلفة ، ولامدا ثابت موجب [10،31] . ل امدا هنا مطابق ل امدا من المعادلة (1).
   ضرب جميع الدرجات في مصفوفة الاستبدال بثابت موجب لا يغير جوهرها: المحاذاة التي كانت مثالية باستخدام الدرجات الأصلية تظل مثالية. مثل هذا الضرب يغير المعلمة lambda ولكن ليس الترددات المستهدفة q ij . وبالتالي ، حتى عامل التحجيم الثابت ، يتم تحديد كل مصفوفة إحلال بشكل فريد من خلال الترددات المستهدفة. هذه الترددات لها أهمية خاصة [10،31] :
من الأفضل تمييز فئة معينة من المحاذاة عن الصدفة من خلال مصفوفة الاستبدال التي تميز الترددات المستهدفة للفئة.

للتوضيح ، يمكن للمرء أن يميز مجموعة من المحاذاة التي تمثل مناطق البروتين المتجانسة من خلال التردد الذي يتم فيه محاذاة كل زوج محتمل من البقايا. إذا ظهر فالين في التسلسل الأول والليوسين في الثاني في 1٪ من جميع مواضع المحاذاة ، فإن التردد المستهدف لـ (فالين ، ليسين) هو 0.01. الطريقة الأكثر مباشرة لإنشاء مصفوفات إحلال مناسبة لمقارنة التسلسل المحلي هي تقدير ترددات الهدف والخلفية ، وحساب درجات احتمالات اللوغاريتم المقابلة للصيغة (6). لا يمكن اشتقاق هذه الترددات بشكل عام من المبادئ الأولى ، ويتطلب تقديرها مدخلات تجريبية.
 مصفوفتا استبدال الأحماض الأمينية PAM و BLOSUM
   في حين أن جميع مصفوفات الاستبدال تكون ضمنيًا من شكل احتمالات لوغاريتمية ، فإن أول بناء صريح باستخدام الصيغة (6) كان بواسطة دايهوف وزملاء العمل [24 ، 25] . من دراسة بدائل البقايا الملحوظة في البروتينات وثيقة الصلة ، قاموا ببناء نموذج PAM (لـ "الطفرة المقبولة بالنقطة") للتطور الجزيئي. واحد "PAM" يتوافق مع متوسط التغيير في 1٪ من جميع مواضع الأحماض الأمينية. بعد 100 PAMs من التطور ، لن تتغير كل بقايا: بعضها قد تحور عدة مرات ، وربما يعود إلى حالته الأصلية ، والبعض الآخر لا يتغير على الإطلاق. وبالتالي من الممكن التعرف على البروتينات المتماثلة المفصولة بأكثر من 100 PAMs. لاحظ أنه لا يوجد تطابق عام بين مسافة PAM والوقت التطوري ، حيث تتطور عائلات البروتين المختلفة بمعدلات مختلفة.
   باستخدام نموذج PAM ، يمكن حساب الترددات المستهدفة ومصفوفة الاستبدال المقابلة لأي مسافة تطورية معينة. عند مقارنة تسلسلين ، لا يُعرف بشكل عام مسبقًا ما هي المسافة التطورية التي ستميز أي تشابه قد يتشاركان فيه. ومع ذلك ، من السهل نسبيًا العثور على متواليات وثيقة الصلة حتى المصفوفات غير المثالية ، لذلك كان الاتجاه هو استخدام المصفوفات المصممة لأوجه التشابه البعيدة إلى حد ما. لسنوات عديدة ، كانت المصفوفة الأكثر استخدامًا هي PAM-250 ، لأنها كانت الوحيدة التي نشرها دايهوف.
   تم انتقاد شكليات دايهوف لحساب الترددات المستهدفة [27]، وكانت هناك جهود عديدة لتحديث أرقامها باستخدام كميات هائلة من بيانات تسلسل البروتين المشتق التي تم إنشاؤها منذ عملها [33 ، 35] . لا تختلف مصفوفات PAM الجديدة هذه كثيرًا عن المصفوفات الأصلية [37] .
   نهج بديل لتقدير الترددات المستهدفة ، ومصفوفات لوغاريتمات الاحتمالات المقابلة ، تم تطويره بواسطة Henikoff & Henikoff [34] . يفحصون محاذاة متعددة لمناطق بروتينية مترابطة بشكل مباشر ، بدلاً من الاستقراء من التسلسلات وثيقة الصلة. ومن مزايا هذا النهج أنه يقترب أكثر من الملاحظة ؛ العيب هو أنه لا ينتج عنه نموذج تطوري. عدد من الاختبارات [13،37] تشير إلى أن مصفوفات "BLOSUM" التي تنتجها هذه الطريقة تتفوق عمومًا على مصفوفات PAM لاكتشاف العلاقات البيولوجية.
 مصفوفات استبدال الحمض النووي
   بينما ناقشنا مصفوفات الاستبدال فقط في سياق مقارنة تسلسل البروتين ، تنتقل جميع المشكلات الرئيسية إلى مقارنة تسلسل الحمض النووي. أحد التحذيرات هو أنه عند تسلسل ترميز الفائدة للبروتين ، فمن الأفضل دائمًا مقارنة ترجمات البروتين بدلاً من مقارنة تسلسل الحمض النووي مباشرة. والسبب هو أنه بعد قدر ضئيل من التغيير التطوري ، فإن متواليات الحمض النووي ، عند مقارنتها باستخدام درجات استبدال النيوكليوتيدات البسيطة ، تحتوي على معلومات أقل لاستنتاج التماثل من تلك الموجودة في تسلسل البروتين المشفر [32] .
   ومع ذلك ، في بعض الأحيان ، قد يرغب المرء في مقارنة تسلسلات الحمض النووي غير المشفرة ، وعند هذه النقطة يتم تطبيق نفس نهج الاحتمالات اللوغاريتمية كما كان من قبل. إن النموذج التطوري الذي تكون فيه جميع النيوكليوتيدات مشتركة بشكل متساوٍ وجميع طفرات الاستبدال متساوية في احتمالية إنتاج درجات مختلفة فقط للمطابقات وعدم التطابق [32] . نموذج أكثر تعقيدًا ، حيث تكون الانتقالات أكثر احتمالية من عمليات الاستقلاب ، ينتج عنها درجات "عدم تطابق" مختلفة للتحولات والاستعراضات [32] . ستعتمد أفضل الدرجات للاستخدام على ما إذا كان المرء يبحث عن تسلسلات متباينة نسبيًا أو ذات صلة وثيقة [32] .
 عشرات الفجوة
   تطورنا النظري فيما يتعلق بأفضل المصفوفات التي تم إنشاؤها باستخدام المعادلة (6) للأسف غير صالح بمجرد إدخال الفجوات ودرجات الفجوة المرتبطة بها ، ولا تتوفر نظرية عامة أخرى لتحل محلها. ومع ذلك ، إذا كانت درجات الفجوة المستخدمة كبيرة بما فيه الكفاية ، فيمكن للمرء أن يتوقع أن درجات الاستبدال المثلى لتطبيق معين لن تتغير بشكل كبير. في الممارسة العملية ، تم تطبيق نفس درجات الاستبدال بشكل مثمر على المحاذاة المحلية مع وبدون وجود فجوات. تم اختيار درجات الفجوة المناسبة على مر السنين عن طريق التجربة والخطأ [13]، وستحتوي معظم برامج المحاذاة على مجموعة افتراضية من درجات الفجوات لتتماشى مع مجموعة افتراضية من درجات الاستبدال. إذا كان المستخدم يرغب في استخدام مجموعة مختلفة من درجات الاستبدال ، فلا يوجد ضمان بأن نفس درجات الفجوة ستظل مناسبة. لا يمكن إعطاء توجيه نظري واضح ، ولكن "درجات الفجوة الصغيرة " [38-41] ، مع وجود عقوبة كبيرة لفتح فجوة وأخرى أصغر بكثير لتوسيعها ، أثبتت عمومًا أنها من بين الأكثر فعالية.
 مناطق تسلسل منخفضة التعقيد
   هناك حالة واحدة متكررة حيث تنقسم النماذج العشوائية وبالتالي الإحصائيات التي نوقشت هنا. يحدث ما يصل إلى ربع جميع المخلفات في تسلسل البروتين داخل المناطق ذات تكوين الأحماض الأمينية شديدة التحيز. قد تحقق محاذاة منطقتين ذات تركيبة منحازة مماثلة درجات عالية جدًا لا تدين فعليًا بأي شيء لترتيب البقايا ولكنها ترجع بدلاً من ذلك إلى تكوين القطعة. إن محاذاة هذه المناطق "منخفضة التعقيد" ليس لها معنى يذكر في أي حال: نظرًا لأن هذه المناطق تنشأ على الأرجح عن طريق الانزلاق الجيني ، فإن المراسلات البقايا الفردية التي تفرضها المحاذاة غير صالحة. في حين أنه من الجدير بالذكر أن بروتينين يحتويان على مناطق متشابهة منخفضة التعقيد ، فمن الأفضل استبعادهما عند بناء المحاذاة [42-44] . تستخدم برامج بلاست خوارزمية SEG[43] لتصفية البروتينات في المناطق منخفضة التعقيد قبل إجراء بحث في قاعدة البيانات.



إجراء التحليلات بشكل منفصل للرجال والنساء
هل تريد إجراء تحليلاتك بشكل منفصل للرجال والنساء في مجموعة البيانات الخاصة بك؟ أو ربما هناك متغير آخر تريد مقارنته مثل كبار السن مقابل الشباب. يمكنك تقسيم مجموعة بيانات SPSS كاملة للحصول على مخرجات تظهر النتائج للرجال والنساء بشكل منفصل. للقيام بذلك ، انتقل إلى: 

البيانات -> تقسيم الملف -> تحديد مقارنة المجموعات -> قم بتمييز متغير المقارنة الخاص بك وأضف إلى "المجموعات القائمة على القائمة" -> انقر فوق موافق


عند تحديد اختبارك للتشغيل ، تأكد من عدم  تضمين المتغير الذي تقسمه في قائمة المتغيرات المشتركة. في مثالنا ، سترى أن نتائج جدول ANOVA تم تقسيمها بنجاح للذكور والإناث:

قم بتعيين قيمة للخلايا الفارغة
هل لديك أي مساحات فارغة في مجموعة البيانات الخاصة بك تحتاج إلى أخذها في الاعتبار في تحليلك؟ على سبيل المثال ، ربما تم إعطاء المشاركين استبيانًا ووضع علامة في المربع ليقول "نعم". المربع غير المحدد يتوافق مع "لا" ، ولكنه يترك مساحة فارغة في مجموعة البيانات الخاصة بك. أسهل طريقة للقيام بذلك هي إنشاء متغير جديد للتحليل.

على سبيل المثال ، قل الاستطلاع الذي سأل عما إذا كان المشارك يعاني من الربو. في مجموعة البيانات الخاصة بنا ، تم إعطاء كل من فحص "نعم" للإصابة بالربو قيمة 1. كل شخص لم يبلغ عن إصابته بالربو تتم الإشارة إليه بمسافة فارغة. من أجل إجراء تحليل ، قررنا تخصيص القيمة 0 لهؤلاء المشاركين. نقوم بإنشاء متغير جديد ، asthma_new.

على سبيل المثال:
احسب asthma_new = 0.
إذا كان (الربو = 1) asthma_new = 1.
نفذ - اعدم.




قم دائمًا بإنشاء ملف رئيسي
من المهم دائمًا ، خاصةً مع بيانات البحث ، إنشاء ملف رئيسي. يوصى بشدة أيضًا بحفظ مجموعة البيانات الخاصة بك تحت أسماء ملفات مختلفة قبل إجراء أي تعديلات كبيرة على مجموعة البيانات الخاصة بك. قد يجد بعض الأفراد أن برنامج SPSS لا يمكنه التراجع عن بعض التعديلات أو حفظ عملك بشكل صحيح. تعد SPSS طريقة سهلة وفعالة للغاية لتحليل بياناتك ، لكننا لا نريدك أن تقضي ساعات في الترميز وتجد أنه يجب إعادة تنفيذها.


لطلب تحليل احصائي التواصل عبر الواتس اب اضغط هنا

ليست هناك تعليقات:

إرسال تعليق

مجالات الإرشاد النفسي المدرسي

  مجالات الإرشاد النفسي المدرسي   مقدمة: هناك العديد من مجالات الخدمة النفسية المتنوعة، فمنها إرشاد الأطفال، وإرشاد المراهقين، وإرشاد ...