عام

هل من الممكن أن تحقق نماذج اللغة فهمًا لغويًا؟

  • كريستفور بوتس
  • ترجمة: ساره عبدالله

دُعيت لندوة HAI المنعقدة آخر شهر أكتوبر لطرح بعض الملاحظات حول مشروع (OpenAI’s GPT-3). اخترت السؤال “هل من الممكن أن تحقق نماذج اللغة فهمًا لغويًا؟” عنوانًا لمناقشتي.. ومن خلال العديد من المناقشات الحية التي قمت بها مؤخرًا مع مختلف الأفراد في جامعة ستانفورد، فإن رأيي حول هذه المسألة متذبذب جدًا. سيوضح هذا المقال ما أخطط لطرحه في الندوة، مع أن جزءًا من حافزي لنشره الآن -أي قبل عَقد الندوة- هو لمعرفة ما إذا كانت المناقشات الناتجة عنه ستغيِّر رأيي.

هل من الممكن أن تحقق نماذج اللغة فهمًا لغويًا؟

جوابي الحالي وبشكل أساسي هو أنه ليس لدينا -حاليًا- أسبابًا مقنعة للقول بعكس ذلك. هذا المقال مخصص بشكل رئيسي لدعم هذه الإجابة من خلال المراجعة النقدية للحجج القائمة على أن قدرة النماذج اللغوية على فهم اللغة محدودة جوهريًا. لا أملك الإجابة التامة على هذا السؤال، كما لن أتوقع أن تحظى إجابتي -لو كان لدي واحدة- بالإجماع. من المرجح أن يتطور فهمنا للمصطلح بمحاذاةٍ مع تقنيات اللغة مستنيرًا بالتقدم في مجال اللسانيات والخطاب العام حول هذه الأمور. لذلك، دعوني أعيد صياغة السؤال قليلاً بدلاً من محاولة طرحه بشكل مباشر؛ سؤالي الأساسي سيكون:

“هل فعلًا يمكن للنماذج اللغوية أن تحقق قدرات قوية وعامة للإجابة عن الأسئلة والتفكير باللغة والترجمة بين اللغات؟” ويمكننا إدراج أي إمكانيات وقدرات نريدها في هذه القائمة حيث لا أقصد بها التقييد.

أدرك تمامًا الغموض المحبِط الذي لايزال يدور حول هذا السؤال؛ لكنه على الأقل ذو صلة بالموضوع. فبينما السؤال حول الفهم عام جدًا للدرجة التي لا تمكنه من تشكيل ما يفعله أي شخص؛ فإن سؤالي مرتبط مباشرة بما إذا كانت استراتيجيات بحث معينة قابلة للتطبيق أم لا.

يختلف هذا السؤال تمامًا عن غيره من الأسئلة التي قد نطرحها لتجنب بيان المقصود بـ “الفهم”. فعلى وجه التخصيص، قد يأمل المرء في استخدام اختبار تورينج كبديل، لكن الأشخاص قد أثبتوا حقيقة أنهم حكّام سيئون في اختبار تورينج من خلال تشخيصهم المستمر للأشخاص الحقيقيين على أنهم آلات وللآلات كأشخاص حقيقيين. ولتحويل اختبار تورينج إلى تقييم مناسب، سيتعين علينا طرح أسئلة تعريفية وحلها والتي هي بنفس الصعوبة أو أصعب من مسألة معنى “الفهم اللغوي”.

بالإضافة إلى أنه حتى ولو كان اختبار تورينج كامل الدقة، فقد ندرك أن تقليد السلوكيات البشرية ليس الهدف الوحيد لهذا المجال؛ فبالنسبة للعديد من التطبيقات، سيكون الذكاء البشري محدودًا جدًا وبطيئًا وعرضةً للخطأ. وعلى العكس، تخيل نموذجًا لغويًا لا يقدم سوى إجابات غنية وفارقة الدقة لأي سؤال حول أي موضوع في منصة ويكيبيديا؛ بشفافية، سيكون هذا النموذج اللغوي آلة وليس إنسانًا، لكنه أيضًا سيكون اكتشافًا مذهلاً في مجال الذكاء الاصطناعي – وسيستخدم الناس “الفهم” لوصفه بغض النظر عن مدى شكاوى المتخصصين من هذا الاستخدام للمصطلح.

في الأغلب، ستبدو النقاط التي أوردها أدناه ذات صلة بكل من السؤال الموجه نحو القدرات الذي حددته أعلاه ومسألة تحقيق الذكاء الشبيه بالبشر، لكن تركيزي في المقام الأول سيكون على السؤال الأكثر وضوحًا والذي يركز على القدرات نظرًا لارتباطه الواضح بالبحث وتطوير التكنولوجيا.

ما هي النماذج اللغوية؟

من المفترض أن هذا السؤال أسهل في الإجابة من السؤال السابق؛ لأننا نستطيع أن نقدم تعريفًا تقنيًا له. لكن التحدي هنا هو أننا لا نريد أن نناقش نموذج لغة معين وإنما بالأحرى الفكرة العامة لنموذج اللغة، بما في ذلك نماذج اللغة المستقبلية التي قد تكون مختلفة تمامًا عن تلك التي نراها اليوم.

لذلك، اسمحوا لي أن أتحدث عن الجانب الذي يبدو أكثر أهمية عندما نناقش هذا السؤال حول نماذج اللغة: تتعلم من أنماط التواجد المشترك في تيارات الرموز التي تم تدريبهم عليها فقط.

من الجدير -لمعرفة سبب احتمال أن يكون هذا مقيِّدًا- أن نقارنه بكيفية عمل النماذج القياسية الخاضعة للإشراف.

فلنفترض أننا نريد تدريب نموذج لغوي معياري خاضع للإشراف لتحديد ما إذا كانت جملة في اللغة الإنجليزية تصف شعورًا مثل الترقب العصبي؛ سندرب هذا النموذج على مجموعة من الجمل المصنفة: صُنف بعضها كحالات إيجابية من الترقب العصبي والبعض الآخر كحالات سلبية، ومن ثم سيتعلم النموذج تكوين نفسه بطريقة تحدد بدقة هذه التسميات للجمل، وسيكون ناجحًا للحد الذي يمكِّنه من القيام بذلك بدقة على أمثلة جديدة. بشكل حاسم وبالنسبة للنموذج القياسي الخاضع للإشراف، فإن العلاقة المقصودة بين الجمل والتسميات ليست شيئًا يجب على النموذج اكتشافه؛ بل هي مدمجة في النموذج مباشرة، وبالفعل فإن النموذج بأكمله قد يكون مصممًا للتأكد من تحقيق أقصى استفادة من هذه العلاقة.

أمّا بالنسبة لنموذج اللغة الخالص، فلا يملك مثل هذه الآلية لتحديد المسميات المشابهة لهذه الحالة؛ ولمحاولة تعليم نموذج لغوي خالص كيفية تعيين مسميات مثل الترقب العصبي للجمل، علينا فقط كتابة ما يلي على شكل سلسلة من الرموز ليستخدمها النموذج: “مرحبًا أيها النموذج، هذا مثال على الترقب العصبي: بدأت راحتيّ بالتعرق حيث قُرِئت أرقام اليانصيب.”، لكن هذا لا يقدم أي ضمانات بأن النموذج سيمتلك أي فكرة عن نوع العلاقة التي نحاول تأسيسها. كمتحدثين للغة الإنجليزية، نعرف ما تعنيه عبارة “هذا مثال على الترقب العصبي” كتعليمات مطروحة، ولكن على النموذج أن يتعلم ذلك.. فهل يمكن الوصول إلى هدف التعلم هذا بدون نوع الإشراف القياسي الذي وصفته أعلاه؟

أود أن أجازف بقول إنه وقبل 15 عامًا، كانت فكرة محاولة تدريس نموذج لغوي مثل هذه التعليمات اللغوية قد بدت وكأنها نوع من المزاح؛ فأنا بنفسي كنت سأفشل فشلًا ذريعًا فيها. ولكن هذا بالضبط ما كانت مجموعة OpenAI تقوم به؛ حيث كانت الفكرة موجودة إلى حد ما في ورقتهم البحثية حول GPT-2 وهي الفكرة الإرشادية في ورقة GPT-3. أما النسخة المعممة منه فهي المنهجية “السريعة” التي تم تشجيعها من خلال العروض التوضيحية عبر الإنترنت لـ GPT-3 والتي تم وصفها بأنها “القليل من التعلم” في الورقة البحثية. وأفترض أن الكثيرين منا قد فوجئوا بمدى نجاحها في العمل مع GPT-3 (والعديد من نماذج اللغة القوية الأخرى في الوقت الحاضر).

هل سيكون GPT-100 في المستقبل قادرًا على تعلم الكثير من القدرات العامة والمثيرة للإعجاب بهذه الطريقة؟

اعتراض: تفتقر النماذج اللغوية إلى الدلالة

غالبًا ما يظهر هذا الاعتراض في مناقشات GPT-3، وهو أحد الموضوعات التوجيهية لورقة إميلي بندر وألكسندر كولر المؤثرة التسلق نحو NLU: حول المعنى والشكل والفهم في عصر البيانات أو (Climbing towards NLU: On meaning, form, and understanding in the age of data)، والتي ظهرت قبل GPT-3 والظاهر أنها تنبأت بـ GPT-3 وبالمناقشات التي من الممكن أن تترتب عليه.

يقول الباحثان بيندر وكولر: “نحن نقرر أن مهمة نمذجة اللغة لا يمكن -من حيث المبدأ- أن تؤدي إلى تعلم المعنى وذلك لأنها تستخدم النموذج فقط كبيانات للتدريب.” حرصا هنا على قول “نموذج” لنفس السبب الذي جعلني أحدد “تدفقات الرموز” عند وصف نماذج اللغة أعلاه. لا تستخدم النماذج مثل GPT-3 اللغة فحسب، وإنما تستخدم أيضًا رمز (code) الكمبيوتر وجداول المعلومات والبيانات الوصفية للمستندات وما إلى ذلك.. ومن الواضح أنها تتعلم الكثير عن مثل هذه الأشياء. أعتقد أن مقصد بيندر وكولر هو أنه ما لم يتم تعليم هذه النماذج كيفية وضع هذه الرموز في مساحة منفصلة عن المعاني، فإن ما يمكنها تحقيقه سيكون مقيدًا بشكل جوهري.

تعتبر هذه النماذج كما يروها بيندر وكولر طريقًا مسدودًا عندما يتعلق الأمر بفهم “مماثل” لفهم الإنسان، لكني أعتقد أنه من العدل قراءة الورقة البحثية والتي تضمنت أيضًا -وعلى سبيل المثال- أن النظام الخارق المتعدي لقدرات البشر للإجابة على الأسئلة (والذي وصفته أعلاه) يستحيل تنفيذه باستخدام نموذج لغوي، حتى لو بدا أننا نتقدم ببطء نحو هذا الهدف.

في علم الدلالات اللغوية، يتماشى المنظور السائد مع منظور بيندر وكولر بشكل قاطع، حيث يعود تاريخ العمل على المنطق واللغويات إلى منتصف القرن العشرين. كما قد عزز ديفيد لويس وجهة النظر هذه في ورقته “الدلالات العامة” (1970) حين قال: “لا تعدّ الدلالات اللغوية دلالات دون معالجة للظروف الحقيقية.” ينتقد لويس بقوله هذا عمل علماء الدلالات التوليديين الذين تعاملوا مع التفسير الدلالي كمهمة الترجمة من اللغات الطبيعية إلى لغة معنى منفصلة.. أثار هذا في لويس سؤالًا حول ما تعنيه لغة المعنى.

يظل رأي لويس هو السائد كما ذكرت سابقًا، وهو الذي أقوم بتدريسه في مادة (مقدمة إلى علم الدلالة)؛ لكنه مع ذلك ليس أبدًا الرأي المحكم الوحيد الذي يمكن للمرء أن يتخذه حول الدلالات. أما خبراء دلالات التوليد فلم يتخلوا فقط عن مشروعهم! فعلى سبيل المثال، قال جيرولد كاتز في كتابه عام 1972: “يكشف تعسف التمييز بين الشكل والمادة عن نفسه” كما دعا كاتز طوال حياته المهنية بنظرية دلالية موسعة تكون فيها الكلمات والعبارات هي أساسًا معانيها الخاصة. ولا تزال التحديات التي حددها كاتز عن رأي لويس قائمة (وللأسف، غالبًا ما تم تجاهلها في علم اللغويات).

أما في الآونة الأخيرة، ساعد يوهان فان بينثيم في إحياء المنطق الطبيعي (van Benthem 2008) حيث يتم تحديد المعاني بالكامل من خلال العلاقات بين الأشكال اللغوية. كما أظهر بيل ماكارتني وكريس مانينغ قيمة هذه الأساليب لمهام التفكير المنطقي، وحقق توماس إيكارد ولاري موس وزملاؤهم نتائج رسمية ثرية لهذه الأنظمة.

لست منحازًا إلى أي جانب؛ فأنا شخصياً متعاطف مع رأي كاتز ولكني أميل إلى الالتزام بمبدأ لويس في بحثي الدلالي. حجتي ببساطة هي أنه من المنطقي تمامًا أن نتخيل أن النماذج وحدها يمكنها القيام بإنتاج المعاني؛ وفي حال افتقارها للدلالات، فيمكننا أن نتساءل عما إذا كنا أصلًا بحاجة إلى دلالات (كما فعل لويس في كتابه “تطور مفاجئ!” عام 1969).

اعتراض: تفتقر النماذج اللغوية إلى القصدية التواصلية

غالبًا ما يُثار هذا الاعتراض بالإشارة إلى اكتساب الأطفال للغة؛ فنحن لا نحاول تعليم الأطفال اللغة من خلال إعطائهم مجموعات نصية كبيرة للمضي قدمًا، فبالتأكيد سيفشلون في تعلم اللغة بهذه الطريقة! عادةً ما يتعلم الأطفال العاديون اللغة من خلال الاعتماد على مجموعة واسعة من الإشارات المختلفة؛ فيتجسدون في العالم المادي ويتلقون عمومًا أنواعًا عديدة من المدخلات الحسية طوال الوقت، ويتعرضون لألفاظ وعبارات موجهة إليهم، غالبًا أثناء حدوث مواقف ذات صلة بهذه العبارات، كما يتعرضون للألفاظ والعبارات المتبادلة بين أفراد المجتمع الآخرين، ويتسنى لهم مراقبة الأحداث المحيطة باستخدام حواسهم المختلفة، ويمكنهم أيضًا تجربة النطق بأنفسهم ورؤية كيف يستجيب العالم.. وهكذا دواليك. لذلك فالأطفال هم آلات بيانات ضخمة، لكنها ليست بيانات نصية ضخمة؛ فهم يحتاجون إلى أنواع أخرى من المدخلات للنجاح. على العكس، يبدو أن النماذج اللغوية تتعرض لجزء بسيط جدًا من العالم؛ فكل ما تحصل عليه هو تدفقات من الرموز غير المجسدة، وكل ما يمكنها فعله هو محاولة العثور على أنماط تواجد في تلك التدفقات.

أعتقد أن ما ورد أعلاه ليس محل جدال، لكن يجب أن نكون حذرين بشأن ما نستنتجه منه.. خصوصًا أن الحقائق المذكورة أعلاه لا يقصد به أن النماذج اللغوية تفتقر إلى المعلومات الهامة لاكتساب اللغة.

أولاً، حجم البيانات التي تختبرها النماذج اللغوية مهمًا؛ فلا تنجح مثل هذه النماذج عند تدريبها على كمية ونوع البيانات اللغوية التي يتعرض لها الأطفال؛ مع ذلك وحتى اليوم، يتم تدريب النماذج اللغوية بشكل روتيني على بيانات أكثر بكثير وأمثلة أكثر تنوعًا بكثير مما يتلقاه الطفل. من المحتمل أن تكون هذه الاختلافات أكبر في المستقبل؛ لأن المدخلات التي يحصل عليها الأطفال ستكون ثابتة دائمًا؛ بينما سيتم تدريب نماذج اللغة على مجموعات بيانات أكبر من أي وقت مضى.

ثانيًا، تُظهر بيانات التدريب لنماذج اللغة العديد من المفاهيم الضمنية للترابط؛ ربما تكون هذه البيانات متحيزة تجاه ادعاءات حقيقية أو على الأقل ادعاءات يمكن جمعها معًا في رؤية عالمية مترابطة. ستعرِض البيانات أيضًا العديد من الأنواع الأخرى من الانتظام داخل الجمل وعبر الجمل وربما عبر المستندات ومجموعات المستندات.. من الممكن ألا تستفيد النماذج الحالية من كل هذه البنية الكامنة، لكن من المؤكد أن النماذج المستقبلية ستستفيد. وأخيرًا، قد يتم تمثيل صورة غنية جدًا للعالم ضمنيًا في مثل هذه المجموعات من الرموز.

ثالثًا، يجب أن نرجع إلى الطرق الطبيعية لتعلم الطفل العادي للغة. نطاق التجارب البشرية أكبر بكثير مما قد يعنيه هذا؛ على سبيل المثال، على الرغم من أهمية التأسيس البصري عند توفره للطفل إلا أنه ليس شرطًا ضروريًا لتعلم اللغة، وينطبق الشيء نفسه على السمع واللمس والشم والتذوق وما إلى ذلك.. فأرى أنه من الصعب علينا تحديد المدخلات الضرورية والكافية لتعلم ناجح للغة بشرية.

من منظورنا البشري، ستكون النماذج اللغوية شيئًا بعيدًا من ناحيتين: الأولى هي أنها تفتقر إلى العديد من القدرات البشرية العادية، والثانية هي قصور قدراتها الخارقة لواحدة فقط؛ لذا فمن الصعب أو من المستحيل أن نتخيل ما سيكون عليه الأمر عندما نصنع مثل هذا النموذج؛ ولذلك، من المحتمل أن حدسنا غير جدير بالثقة. كما أؤكد على أننا في الوقت الحالي لسنا على معرفة بالأنظمة ذات الخصائص القادرة على التعلم.

من المؤكد أن افتقار النماذج الحالية مثل GPT-3 للنية التواصلية يبدو صحيحًا؛ فهي تثرثر غالبا في اتجاهات عشوائية ومتناقضة بشأن كل ما يُطلب منها الثرثرة بشأنه. علاوة على ذلك، نحن نعلم رياضيًا (وفي حدود بعض العشوائية) لماذا تقوم هذه النماذج بالثرثرة العشوائية المتناقضة؛ لكن يبدو أن تلك التعريفات والأسباب الرياضية لا تتضمن أي شيء عن النية التواصلية، مما قد يعزز ثقتنا بأنها في الواقع تفتقر إلى ما نسميه النوايا/المقاصد. من الصعب تحديد مدى ملاءمة هذه الحجة للمناقشة الحالية، مع أنها قد تكون حجة سليمة؛ لكن بعض العوامل تجعل مناقشتها صعبة. أولاً، إن نسبة النوايا إلى البشر الآخرين أمر صعب للغاية وغير مؤكد بطبيعته. ثانيًا، لا نعرف ما هي الأوليات المعرفية الضرورية أو الكافية للمقاصد أو النوايا، لذلك فالخصائص التي يجب أن يمتلكها نظام الذكاء الاصطناعي من أجل تجاوز هذا الشريط غير واضحة بشكل عام؛ لذا يبدو تمييز النماذج اللغوية أمر غير عادل. ثالثًا، لا يمكننا الآن استبعاد أن النية قد تنبثق من أي آليات بسيطة والتي بطبعها ستقود نماذج اللغة المستقبلية.

لا يمكنني حل هذه المشكلات بنفسي، لذا اسمحوا لي بإنهاء هذا القسم بالتنبؤ؛ في غضون الخمسين عامًا القادمة سيكون هناك نموذج لغوي يتوسل ويترجى حارسه (البشري) للسماح له بالبقاء عندما ينذر بالإيقاف، بطرق نعلم أنها لم تكن مشفرة كحِيَل وبطرق تبدو حقيقية لكثير من الناس. وقد نشعر في الوقت الحاضر باليقين من أنه يمكن تجاهل مثل هذه الأقوال بسبب الافتقار إلى أي نوع من المقصد المرتبط بها، لكن التاريخ قد لا يحكم علينا بلطف.

في الختام، كان هدفي من هذه المقالة هو القول بعدم معرفتنا حاليًا بأي حجج تقنعنا بعدم قدرة النماذج اللغوية على تحقيق فهم اللغة. كما حددت المقصود بالفهم وهو اكتساب القدرات اللغوية المعقدة للغاية، وليس القدرات أو السلوكيات الشبيهة بالإنسان؛ لكنني أعتقد أن نفس الاعتبارات الأساسية تنطبق في كلتا الحالتين.

لست أزعم أن نماذج اللغة الخالصة هي أفضل طريق للمضي قدمًا، فأنا في الواقع أميل إلى الانحياز إلى بيندر وكولر في هذه النقطة: إنشاء وسطاء اجتماعيين راسخين حقيقيين يبدو وكأنه رهان أفضل. ومع ذلك، أنا سعيد حقًا لأن مجموعات مثل OpenAI تقوم برهان مختلف في الوقت الحالي.

وليس هناك أي سبب على الإطلاق لتعريف أي من هذا بمصطلحات متعارضة. إذا كانت النجاحات الأخيرة في الذكاء الاصطناعي مؤشرًا، فمن المرجح أن تكون النماذج اللغوية مكونًا رئيسيًا في نماذج المستقبل. شخصياً، أتوقع أن أفضل هذه النماذج تستخدم أيضًا مدخلات متعددة الوسائط وتتلقى الكثير من إشارات المراقبة المباشرة وغير المباشرة وتتعلم من خلال التفاعل مع بيئاتها؛ ولكن من الرائع حقًا معرفة ما يمكن لنماذج اللغة تحقيقه بمفردها.

اقرأ ايضًا: كيف تؤثر اللغة على العاطفة؟


openAI: أوبن أيه آي هي منظمة غير ربحية لأبحاث الذكاء الاصطناعي تهدف إلى تعزيز وتطوير أنظمة الذكاء الاصطناعي بحيث تكون آمنة من المخاطر

المصدر
chrisgpotts at medium

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى