- كريستوفر فيرجسون
- ترجمة: أسماء سليمان البسام
- تحرير: ريم الطيار
إن تقييم الطلاب للتدريس هو من أحد طقوس الحياة الجامعية في نهاية كل فصل دراسي، وكجزءٍ من المسؤولية تجاه الطلاب فإنهم يقومون بتقييم المقرر الدراسي، و مدى رضاهم عن المقرر، وتقييم قدرة الأستاذ في الفصل الدراسي، يستطيع الطلاب من خلال تقييمهم لعملية التدريس أوما يرمز له باختصار (SETs)، التأثير بعوامل كثيرة منها تثبيت العقود المؤقتة، أو التأثير في قرارات الترقية وحتى الزيادات السنوية، تتفاوت أهمية التقييمات من مدرسة إلى مدرسة حيث تميل جامعات وكليات الفنون الحرة الصغيرة إلى تقدير التدريس أكثر من المدارس الحكومية الكبرى حيث يكون البحث والمنح أكثر أهمية، وشهدت السنوات الأخيرة عددًا هائلًا من الانتقادات لتقييم الطلاب من جانب الأكاديميين الذين يتأثر عملهم بها، وتميل معارضاتهم إلى فئتين رئيسيتين:
أولًا: إن الطلاب غير مؤهلين لتقييم الأستاذة، وبالتالي لا يمكن قياس فاعلية التدريس من خلال هذه التقييمات.
ثانيًا: عادة ما تكون تقييمات الطلاب متحيزة ضد النساء والأقليات العرقية.
كما هو الحال مع العديد من القضايا الانفعالية الحساسة، غالبًا ما يتم الحكم على تقييمات الطلاب بحماس وعصبية جوفاء، لكن هل الأدلة واضحة ضدهم؟
تُبين انتقادات أعضاء هيئة التدريس لتقييمات الطلاب للعملية التعليمية عن تضارب واضح في المصالح، فقد خضعت في الآونة الأخيرة موثوقية بيانات العلوم الاجتماعية للتدقيق؛ نظرًا للصورة الإيجابية الزائفة التي تدفعها إلى حد كبير تحيزات الباحث، إذ تعتبر أنها ليست بالمشكلة البسيطة، وعلى الرغم من ذلك هل من أدلة تدعم مخاوف أعضاء هيئة التدريس؟
يعبر العديد من النقاد بيقين تام حول انعدام قيمة آراء الطلاب، أو الطبيعة المتحيزة لديهم؛ على سبيل المثال، أصدرت مؤخرًا الجمعية الأمريكية لعلم الاجتماع بيانًا يشير إلى أن تقييمات الطلاب وحدها “ضعيفة الصلة” بالمقاييس الأخرى للتعلم، وكما أنها لا صلة لها “بحرمان أعضاء هيئة التدريس من الفئات المهمشة بشكل منهجي”-خاصةً النساء والأقليات العرقية-ولكن هل البيانات المتوفرة تدعم مثل هذه الادعاءات؟
يبدو أن العديد من منتقدي تقييم الطلاب للتدريس قد استخدموا تحيز الاقتباس، أي أنهم يستشهدون فقط بالأدلة التي تدعم مزاعمهم، ويهملون الاستشهاد بالأدلة الأخرى التي لا تتفق معها، فهذه من الممارسات العلمية الضعيفة، ويمكن القول إنها ممارسات غير أخلاقية، ومع ذلك تظل هذه الممارسات شائعة حتى بين المنظمات المناصرة المهنية عندما تتبنى مواقف سياسية، المسألة الأخرى هي التغيير في نقاط الهدف، أي يطلب النقاد مستوى عال من الأدلة للاعتراف بصلاحية آراء الطلاب، لكنهم لا يطبقون نفس المعايير عند دراسات التحيز.
هل يعكس تقييم الطلاب للتدريس تعلم الطلاب؟
تقاس صلاحية التقييم من خلال معاملات الارتباط بين (SETs) والنتائج، مثل: درجات الطلاب أو الاختبارات القياسية، تقيس أحجام تأثير الارتباط قوة الرابطة بين هذه المتغيرات، أو الدرجة التي تساعدنا على معرفة نتيجة إحداهما لتوقع النتيجة الأخرى، وتتراوح أحجام تأثير الارتباط من 0 الى 1.0 ، حيث 0 يعني عدم وجود ارتباط، بينما الارتباط مثالي عند 1.0، فعدد اللوز الذي تأكله شخصيًا كل عام و هطول المطر في منطقتك قد يكون ارتباطه قريبًا من الصفر، في حين أن الارتباط بين استهلاك الزرنيخ، وانخفاض معدل ضربات القلب قد يكون قريبًا من 1.0 (قلوب القتلى لا تدق على الإطلاق)، معظم الارتباطات الاجتماعية في العلوم الاجتماعية لا تتجاوز 0.2.
تشير الدراسات إلى أن عوامل التعلم الذاتي في الواقع ترتبط بنتائج، مثل: درجات الطلاب، مع الارتباطات في نطاق 0.2-0.5، وهو ليس بالأمر السيء، يعتقد العلماء أن معظم نتائج العلوم الاجتماعية صحيحة بناءً على معاملات تأثير أصغر بكثير، من المؤكد أن الكثير من معتقدات العلوم الاجتماعية القائمة على الارتباطات الضعيفة (أقل من 0.20) أن تكون إيجابية كاذبة، خاصة عند النظر إلى أزمة التكرار لكن الدليل على صدق تقييم الطلاب للتدريس على الأرجح أنه في المنطقة الآمنة، مع أخذ النطاق المتوسط لحجم التأثير، قد نقول إن حوالي 15% من التفاوت في تقييم الطلاب للتدريس يُمثل تعلم الطلاب، يوضح ذلك أن هناك العديد من العوامل الأخرى التي تؤثر على تقييم الطلاب للتدريس، في الواقع إن الأبحاث أشارت إلى عوامل أخرى يمكن التنبؤ بها، مثل: قابلية المدرس، وشخصيته التي تؤثر على تقييم الطلاب، ولكن في عالم القياس الشيء الذي يمكن أن يتنبأ به بنسبة 15% من شكل النتيجة ليس بالشيء ذي القيمة، وأيضًا تشير البيانات إلى أن تقييم الطلاب للتدريس يرتبط بقوة بأدوات تقييم القياس الأخرى -وكما يبدو أن أعضاء هيئة التدريس يفضلونها- مثل: مراجعة الأقران.
تقييم الطلاب للتدريس يعكس تعلم الطلاب ولكنه يعكس أيضًا مجموعة من الأمور الأخرى، في الواقع ربما كان من الأفضل التفكير في ذلك على أنها شيء أقرب إلى استطلاعات الرأي، وقياس نسبة الرضا التي يشكل التعلم جزءًا منها، ومع ذلك ففكرة أن هذه التقييمات لا تعكس على الإطلاق جودة تعلم الطلاب أو أنها تفعل ذلك بشكل أقل جودة من الأساليب الأخرى لا يبدو أنها مدعومة جيدًا بالبيانات.
هل تقييم الطلاب للتدريس متحيز؟
القضية الأخرى في هذه المقالة هي التحيز، وجدت أن الأدلة هنا متناقضة وغير منسجمة، تعتمد بعض الانتقادات الموجهة لتقييمات الطلاب جزئيًا على الدراسات المأخوذة من موقع (RateMyProfessors.com) وهو موقع مراجعة، يسمح لطلاب الجامعات والجامعات بتعيين تصنيفات لأساتذة وحرم المؤسسات الأمريكية والكندية والمملكة المتحدة، بدلًا من تقييمات الطلاب الفعلية للتدريس.
إن تعميم نتائج موقع (RateMyProfessors.com) على كافة تقييمات الطلاب للتدريس المصممة بشكل احترافي هو حمق، نحن بحاجة إلى توخي الحذر هنا، الدراسات التي تبحث الاختلافات في تقييم الطلاب للتدريس استنادًا للجنس أو العرق تظهر نتائج مختلطة، وتجد بعض الدراسات اختلافات جماعية في المتوسط بناءً على الجنس أو العرق، ومع ذلك فإن بعضهم ليس كذلك، يلخص التحليل الشمولي لدراسات التحيز بين الجنسين إلى أن “النتائج التي تشير لتقييم الطلاب للتدريس تبدو فعالة، ولها استخدام عملي خال من التحيز ضد المرأة إلى حد كبير، وتكون أكثر فعالية عند تنفيذها باستخدام استراتيجيات التشاور”، في هذه المقالة كان حجم تأثير التحيز بين الجنسين صفرًا تقريبًا، بالتأكيد حجم التأثير أقل بكثير مما يدعم صدق وصحة تقييم الطلاب للتدريس، إن مقالة واحدة -وحتى التحليل الشمولي- ليس نهاية هذه القصة، فقد وجدت دراسات فردية أخرى أدلة على وجود تحيز أكبر من التي وجدت في التحليل الشمولي، على الرغم من وجود أحجام تأثير بشكل عام أصغر من تلك المستخدمة في تقييم صدق الطلاب للتدريس، يميل المنتقدون لتقييم الطلاب للتدريس إلى تجاهل النتائج التي لا تدعم آراءهم والتناقضات في الأدلة عند إثارة دعوى التحيز.
تدعم بعض الدراسات حجة بعض اختلافات المتوسط، بينما لم تجد الدراسات الأخرى هذه الاختلافات في المتوسط، العديد من المقالات النقدية لتقييم الطلاب للتدريس تفشل في الاعتراف بذلك.
أنا بشكل عام أفضل التفسيرات المحافظة لحجم التأثير، ومع ذلك لا يمكننا تفسير أحجام التأثير في النطاق من 0.2الى 0.5 كدليل ضعيف على صدق تقييم الطلاب للتدريس وتفسير الأحجام الأقل تأثيرًا في نفس الوقف كدليل كافي للتحيز، والقيام بذلك يعني تحيزًا مؤكدًا واضحًا، مما يشير إلى أن بيانات البحث نفسها ليست ذات صلة، مجرد ستار يستخدم لإخفاء الآراء الشخصية تحت غطاء العلم.
أفضل طريقة لإثبات التحيز (من عدمه) تجريبيًا
حتى وإن وجدت اختلافات المتوسط بين المجموعات، فهذا ليس بحد ذاته دليلًا على التحيز، يمكن أن يشير متوسط الاختلافات إلى التحيز أو قد يشير إلى اختلافات حقيقة بين المجموعات، بالنظر إلى الاختلافات المتوسطة، عند العثور عليها قد تبدو صغيرة جدًا فلا تكون ذات مغزى كبير، بمعنى آخر إذا تم اكتشاف اختلافات بسيطة بين مجموعة X ومجموعة Y حول تقييم الطلاب في بعض الأبحاث فلا ينبغي أن نستنتج أن المجموعة X أفضل في التدريس من المجموعة Y ، ولا أن الطلاب متحيزون بشكل خاص ضد المجموعة Y، فبعض التأثيرات صغيرة جدًا بحيث لا يمكن تفسيرها على أنها ذات معنى عمليًا.
للإشارة للتحيز ستحتاج الدراسات إلى إظهار أنه لا توجد اختلافات لمجموعة المتوسط فحسب، لكن اختلافات مجموعة المتوسط لا تتوافق مع اختلافات المجموعة المتوسطة المماثلة في متغير النتائج (مثل نتائج تعلم الطلاب)، هذا يعني أن إذا كانت المجموعة X لديها عدد من تقييم الطلاب للتدريس أعلى من المجموعة Y، ولكن نتائج تعلم الطلاب أعلى أيضًا للمجموعة X من المجموعة Y وصحة التنبؤ، لتقييم الطلاب للتدريس هي نفسها لكلتا المجموعتين ولا يوجد تحيز، هذا يعني أنه لا يوجد أي تحيز، بكل بساطة معظم الدراسات المتاحة حاليًا، أو حتى تلك التي تظهر أدلة على اختلافات المتوسط بشكل عام لا تأخذ البيانات إلى الخطوة التالية التي قد تكون مطلوبة لتقديم مثل هذه الحجج، هناك استثناءات ولكن الاتجاه العام لم يكن واضحًا، ولم يتم تقييم مجريات البيانات الحالية في ظل ظروف العلم المفتوح والصريح، إن احتمالية تحقيق نتائج إيجابية خاطئة مرتفع جدًا خاصة في مثل هذا الموضوع ذو القيمة العاطفية.
لتصميم سلسلة فعالة من الأسئلة لتقييم الطلاب للتدريس، يمكن للمسؤولين تطوير مجموعة من العناصر الممكنة، ومعرفة أفضل تنبؤ لتعلم الطلاب، ويفضل قياسه من خلال نوع من فحص المحتوى الموحد لكل تخصص، ثم فحص العناصر للتأكد من صحة تشابهها عبر الجنس والمجموعات العرقية ذات الصلة، قد يستغرق هذا جزء من الوقت، ولكن التطوير الفعال لتقييم الطلاب التدريس ليس بعيدًا عن المستحيل، ومن المحتمل أن تتفاوت جودة تقييم الطلاب للتدريس من مؤسسة الى مؤسسة، إن الحصول على جودة عالية لتقييم الطلاب للتدريس أمر يستحق الجهد وجدير بالاهتمام.
ومع ذلك فإن العديد من الحجج الحالية ضد صحة تقييم الطلاب للتدريس، أو التي ترميها بالتحيز المحتمل للبيانات المحتملة تفشل في تقديم عرض شامل للأدلة المتعارضة والمتناقضة في كثير من الأحيان.
علاوة على ذلك ونظرًا لأزمة التكرار الحالية في العلوم الاجتماعية، ومصفوفة متزايدة من المعتقدات التي وجد أنها ترجع لنتائج إيجابية خاطئة، فإن التقييمات لتقييم الطلاب للتدريس من قبل أعضاء هيئة التدريس فيها تضارب واضح في المصالح كمجموعة ناضجة لتحيز النشر، وقضايا التحيز الأخرى، وبالتالي فمن الضروري أن يتبنى البحث المستقبلي مبادئ عملية مفتوحة مثل: التسجيل المسبق، لتقليل احتمالية حدوث تأثيرات توقعيه للباحث لخلق نتائج إيجابية خاطئة.
الخاتمة
في الوقت الحاضر، ربما لا تدعم الأدلة الرفض الإجمالي لتقييم الطلاب للتدريس باعتباره غير صحيح، كما لا تشير الآجلة بوضوح إلى أنه متحيز ككل (ولا تبرأها تمامًا من ذلك)، هناك حاجة للبحث أكثر وأفضل ويمكن أن تشير في المستقبل إلى بعض القضايا الحقيقة، ومع ذلك فإن أعضاء هيئة التدريس من ضمن حقوقهم على المستوى المؤسسي، السعي لتطوير تقييم الطلاب للتدريس باستخدام عملية تجريبية صارمة، واستخدام التسجيل المسبق وإمكانيات رصد التحيزات، ويجب فحصها بعناية واستخدام مقاييس واضحة للنتائج التي تشكل دليلًا مهما.
على سبيل المثال: احتمال حدوث نتائج إيجابية خاطئة بأحجام تأثير أقل من r = 0.10 مرتفع جدًا، وقد لا يكون هذا دليلا كافيًا سواء للتحقق من صحته، أو دليلاً على التحيز، حتى لو كان ذا دلالة إحصائية، في هذه الأثناء سيكون من الأفضل لأعضاء هيئة التدريس أن يكونوا حذرين في ادعاءاتهم حول طريقة تقييم الطلاب للتدريس.