يستخدم علماء الأحياء على
نطاق واسع الارتباط كمقياس للتكاثر. على وجه التحديد ، يقومون
بتحديد قابلية التكاثر من خلال الارتباط بين القياسات التي تم الحصول عليها من
التجارب المكررة. على سبيل المثال ، تنص وثيقة معايير بيانات ENCODE
A R نموذجي 2 (بيرسون) ارتباط التعبير
الجيني (RPKM) بين اثنين من مكررات البيولوجية، التي يتم
الكشف عنها في كل العينات باستخدام RPKM أو التهم القراءة، يجب أن يكون بين 0،92-0،98. يجب تكرار التجارب ذات
الارتباطات البيولوجية التي تقل عن 0.9 أو شرحها.
ومع ذلك ، ولأسباب سأشرحها
هنا ، فإن الارتباط ليس بالضرورة مفيدًا فيما يتعلق بإمكانية التكاثر. النتائج الرياضية الموضحة
أدناه ليست تفاصيل نظرية غير منطقية ، وسيساعدك فهمها في تقييم التقنيات الجديدة
والإجراءات التجريبية وطرق الحساب.
افترض أنك قمت بجمع بيانات
من تجربة
x 1 ، x 2 ، ... ، x n
وتريد تحديد ما إذا كانت
التجربة الثانية تكرر هذه النتائج. من أجل البساطة ، نمثل البيانات من التجربة
الثانية على أنها إضافة غير متحيزة (متوسطات إلى 0) وخطأ قياس مستقل إحصائيًا d إلى الأول:
ص 1 = س 1 + د 1 ، ص 2 = س 2 + د 2 ، ... ص ن = س ن + د ن .
بالنسبة لنا للمطالبة
بإمكانية التكاثر ، نريد الاختلافات
د 1 = ص 1 - س 1 ، د 2 = ص 2 - س 2 ، ... ، د ن = ص ن - س ن
لتكون "صغيرة". لإعطاء هذا بعض السياق ،
تخيل أن x و y عبارة عن قياسات تعبير جيني للمقياس
اللوغاريتمي (الأساس 2) مما يعني أن d تمثل تغييرات أضعاف السجل. إذا كان لهذه الاختلافات
انحراف معياري قدره 1 ، فهذا يعني أن تغييرات الطيات 2 هي نموذجية بين التكرارات. إذا كانت تجربة الاستنساخ
التي أجريناها تنتج قياسات أكبر بمرتين أو ضعف حجم النسخة الأصلية ، فلن أدعي أن
القياسات مستنسخة. ومع ذلك ، كما اتضح ، فإن قابلية التكاثر
الرهيبة هذه يمكن أن تؤدي إلى ارتباطات أعلى من 0.92.
قد يبدو هذا مفاجئًا بالنسبة
لشخص يعتمد تعريفه للارتباط على الاستخدام الشائع الحالي للغة ، ولكن بالنسبة لشخص
يعتمده على الرياضيات ، فهو ليس كذلك. لرؤية هذا ، لاحظ أن التعريف الرياضي للارتباط
يخبرنا أنه نظرًا لأن d و x مستقلان:
يخبرنا هذا أن الارتباط يلخص
تباين d بالنسبة إلى متغير x . بسبب النطاق الواسع لقيم
التعبير الجيني التي نلاحظها في الممارسة العملية ، يمكن بسهولة أن يكون الانحراف المعياري لـ x كبيرًا مثل 3 (التباين هو 9). هذا يعني أننا نتوقع أن نرى
ارتباطات تصل إلى 1 / sqrt (1+ 1 ⁄ 9 ) = 0.95 ،
على الرغم من عدم وجود إمكانية التكاثر عند مقارنة x بـ y .
لاحظ أن استخدام ارتباط
سبيرمان لا يصلح هذه المشكلة. يخبرنا ارتباط سبيرمان بالرقم 1 أنه تم الحفاظ على رتبتي x و y ، لكن لا تلخص الاختلافات الفعلية. ترجع المشكلة إلى حقيقة أننا
نهتم بتنوع d وأن الارتباط ، بيرسون أو سبيرمان ، لا يقدم
ملخصًا مثاليًا. في حين أن الارتباط يتعلق بالحفاظ على الرتب ،
فإن الملخص الأكثر ملاءمة للتكاثر هو المسافة بين x و y والتي ترتبط بالانحراف
المعياري للاختلافات d . أمر R بسيط للغاية يمكنك استخدامه
لإنشاء إحصائية الملخص هو:
الجذر التربيعي (يعني (د ^ 2))
أو النسخة القوية:
الوسيط (القيمة المطلقة (د)) ## اضرب في 1.4826 لتقدير غير
متحيز لـ sd
صحيح
لكن ألا ترتبط الارتباطات
والمسافات ارتباطًا مباشرًا؟ نوعا ما ، وهذا في الواقع يثير مشكلة أخرى. إذا تم توحيد x و y للحصول على متوسط 0
وانحراف معياري 1 ، إذن ، نعم ، يرتبط الارتباط والمسافة ارتباطًا مباشرًا:
ومع ذلك ، إذا كان لدى x و y قيم متوسطة مختلفة بدلاً من ذلك ،
مما قد يضع موضع تساؤل حول إمكانية التكاثر ، فإن المسافة تكون حساسة لهذه المشكلة
بينما الارتباط ليس كذلك. إذا كان الانحراف المعياري هو 1 ، فإن الصيغة
هي:
بمجرد اعتبار الوحدات
(الانحرافات المعيارية تختلف عن 1) تصبح العلاقة أكثر تعقيدًا. ميزتان للمسافة يجب أن تكون
على دراية بهما:
1.
هو في نفس وحدات البيانات ،
في حين أن الارتباطات ليس لها وحدات مما يجعل من الصعب تفسير واختيار العتبات ، و
2.
تمثل المسافة التحيز
(الاختلافات في المتوسط) ، في حين أن الارتباط لا.
تتعلق النقطة الأخيرة المهمة
باستخدام الارتباط مع البيانات غير الطبيعية تقريبًا. ينبع التفسير المفيد
للارتباط كإحصاء موجز من التقريب العادي ثنائي المتغير: لكل وحدة زيادة قياسية في
المتغير الأول ، زاد المتغير الثاني من الوحدات القياسية r ، مع الارتباط r . ملخص هذا هنا . ومع ذلك ، عندما تكون
البيانات غير طبيعية ، لم يعد هذا التفسير صحيحًا. علاوة على ذلك ، يمكن أن
تؤدي توزيعات الذيل الثقيلة ، الشائعة في علم الجينوم ، إلى عدم الاستقرار. فيما يلي مثال على البيانات
غير المترابطة مع إضافة مدببة واحدة تؤدي إلى ارتباطات قريبة من 1. هذا شائع جدًا
مع بيانات RNAseq.
لطلب تحليل
احصائي التواصل عبر الواتسب اضغط
هنا
ليست هناك تعليقات:
إرسال تعليق