تاريخ النشر: 18 مايو 2022. تاريخ التحديث: 25 ديسمبر 2024

تحويل المحولات: عائلة GPT والاتجاهات الأخرى في الذكاء الاصطناعي ومعالجة اللغات الطبيعية

جلسة استشارية مجانية في مجال الذكاء الاصطناعي

احصل على تقدير مجاني للخدمة

أخبرنا عن مشروعك - وسنتصل بك بعرض سعر مخصص

ما لا يقل عن أربعة مشاريع معالجة لغة طبيعية مفتوحة المصدر تستغل شبكات عصبية هائلة تتحدى حاليًا مشروع البرمجة اللغوية العصبية التجاري الكبير الوحيد: GPT-3 من OpenAI.

تهدف المبادرات مفتوحة المصدر إلى إضفاء الطابع الديمقراطي على الذكاء الاصطناعي وتعزيز تطوره. كل هذه المشاريع مبنية على محولات: نوع خاص من الشبكات العصبية التي أثبتت أنها الأكثر كفاءة في العمل مع هياكل اللغة البشرية.

ما هي المحولات ولماذا تعتبر التطورات الأخيرة في مشهدها مهمة جدًا؟

ما هي المحولات في معالجة اللغات الطبيعية؟

في طريقهم الطويل نحو النجاح، جرب الباحثون شبكات عصبية مختلفة لمعالجة اللغة الطبيعية. أخيرًا، توصلوا إلى نموذجين يعتمدان إما على الشبكات العصبية التلافيفية (CNN) أو الشبكات العصبية المتكررة (RNN) مع الاهتمام.

في مثال لمهمة الترجمة، الفرق بين الاثنين هو كما يلي. على الرغم من أن كلا النوعين يأخذان في الاعتبار ما تعلموه حول جملة معينة من ترجمة الكلمات السابقة فيها، إلا أنهم سيتابعون الكلمة التالية في الصف باستخدام أساليب مختلفة.

ستقوم شبكة CNN بمعالجة كل كلمة في الجملة في سلاسل متوازية، في حين أن شبكة RNN مع الاهتمام ستتأكد من وزن كل كلمة سابقة في الجملة فيما يتعلق بتأثيرها على معنى الكلمة التالية، وبالتالي التعامل مع الكلمات واحدة تلو الأخرى. لا تحل شبكة CNN مشكلة العثور على المعنى الصحيح لكل كلمة بشكل مثالي، ولكنها يمكن أن تعمل بشكل أسرع؛ تنتج RNN نتائج أكثر صحة ولكنها تعمل ببطء.

باختصار، المحول هو مزيج من الاثنين معا. ويستخدم تقنية الانتباه لتقييم التأثير المتبادل للكلمات المفردة في الجملة على بعضها البعض. من ناحية أخرى، فهو يعمل بشكل أسرع بفضل "المواضيع" المتعددة: أزواج مما يسمى بأجهزة التشفير وأجهزة فك التشفير التي تساعد على التعلم، وتطبيق ما تم تعلمه، ونشر المعرفة التي تم الحصول عليها إلى التكرار التالي.

ماذا يمكن أن تفعل المحولات؟

وبصرف النظر عن الترجمة، يمكن للمحولات التنبؤ بالكلمة التي سيتم استخدامها بعد ذلك في الجملة، وبالتالي توليد جمل كاملة من الكلام البشري.

وهذا يسمح لنا باستخدامها لأغراض مختلفة.

يمكن استخدام قدرات إنشاء محتوى Transformers لتصميم روبوتات دردشة أفضل، وكتابة محتوى الويب، وتحرير أيدي موظفي الدعم الفني. تقترن حالة الاستخدام الأخيرة بمهارة المحولات في البحث عن المعلومات التي تعد بمجموعة واسعة من التطبيقات في الحياة الواقعية.

وبصرف النظر عن اللغات البشرية البحتة، فإن بعض المحولات قادرة على التعامل مع لغات البرمجة وحتى إنشاء نصوص برمجية لنماذج التعلم العميق الأخرى. تتيح مهارات البرمجة والقدرة على فهم الكلام البشري للمحولات أن تصبح مطوري الواجهة الأمامية. ويمكن إطلاعهم بنفس الطريقة التي يتبعها المطور البشري وسيتوصلون إلى تخطيط ويب.

وكجزء من تجربة أخرى، تم دمج المحولات في برنامج Excel وتمكنت من ملء الخلايا الفارغة في جدول بيانات يتنبأ بالقيم بناءً على البيانات الموجودة في نفس جدول البيانات. سيسمح لنا ذلك باستبدال وظائف Excel الضخمة بصيغة محول واحدة فقط تحاكي سلوك خوارزمية كاملة.

في المستقبل، قد تحل المحولات محل مهندسي عمليات التنمية البشرية حيث يجب أن يكونوا قادرين على تكوين الأنظمة وتوفير البنى التحتية بأنفسهم.

يبدو وكأنه نجاح باهر! في الواقع، جلب عام 2022 بعض التحديثات الملهمة في هذا المجال.

أداء المحولات والموارد المطلوبة

أصبح تقليد الفن الإنساني لمعالجة اللغة حالة تنافسية للغاية.

قياس النجاح ليس بالأمر الواضح. في الواقع، الفائز هو الأسرع والأكثر دقة. ولكن يمكنك تحقيق سرعة ودقة عالية من خلال مزيج من عاملين رئيسيين:

بنية الشبكة العصبية الخاصة بك؛ على الرغم من أن بنية المحولات هي المهيمنة حاليًا؛
عدد المعلمات في شبكتك العصبية.

مع الأخير نفهم عدد روابط بين العقد في الشبكة. وليس لهذا الرقم بالضرورة علاقة خطية بعدد العقد، وهو ما يمثل حجم الشبكة.

والأهم من ذلك، بالنسبة للشركات ومجموعات البحث والأفراد، فإن العوامل الرئيسية التي تؤثر على نجاح أطفالهم هي - على ما يبدو - حجم الاستثمار المتاح لهم، وحجم بيانات التدريب، والوصول إلى المواهب البشرية لتطوير المهارات. نموذج.

أقوى مشاريع الذكاء الاصطناعي في العالم

بالنظر إلى العوامل المذكورة أعلاه، دعونا نلقي نظرة على من يقود مسابقة الذكاء الاصطناعي.

جي بي تي-3

OpenAI جي بي تي-3 كان (المحول التوليدي المدرب مسبقًا) هو الرائد في السباق. يحتوي على 175 مليار معلمة ويمكنه تعلم مهام جديدة متعلقة باللغة من تلقاء نفسه. يمكنه أن يفعل أكثر من مجرد الترجمة: أحد تطبيقاته المهمة هو الإجابة على الأسئلة وتصنيف المعلومات.

تم تدريبه على 570 جيجابايت من البيانات النظيفة من 45 تيرابايت من البيانات المنسقة، وهو عدد كبير. عيبه الرئيسي هو أن OpenAI لا يسمح بالوصول المجاني إلى النموذج لاستخدامه، ولا إلى الكود الخاص به لتحسينه. إنه يقدم فقط واجهة برمجة تطبيقات تجارية للحصول على نتائج النموذج. وبالتالي، لا يمكن إلا للباحثين في OpenAI المساهمة في هذا المشروع.

مثل كثيرين آخرين، GPT-3 "يتحدث" اللغة الإنجليزية فقط.

وو داو 2.0.

بالمعنى الكمي، وو داو 2.0. يتفوق على GPT-3 لأنه تم تدريبه على 1.2 تيرابايت من البيانات النصية الصينية، و2.5 تيرابايت من البيانات النصية الصينية الرسومات البيانات و1.2 تيرابايت من البيانات النصية باللغة الإنجليزية. كما أن لديها 1.75 تريليون معلمة، أي 10 مرات أكثر من GPT-3.

وو داو 2.0. يمكنه العمل في أوضاع الوسائط المختلفة وحتى تصميم الهياكل ثلاثية الأبعاد. تم الإعلان عنه كمصدر مفتوح ولم يصل بعد إلى GitHub لسبب ما.

ميتاسيك/OPT-175B

غالبًا ما واجهت شركة Meta، المعروفة سابقًا باسم Facebook، اتهامات بإخفاء نتائج بحثية مهمة كان من الممكن أن تساهم بها البشرية. إن محاولتهم الأخيرة لجعل نماذج المحولات متاحة بشكل أكبر قد تساعدهم في إصلاح سمعتهم المدمرة.

كما يوحي اسمه، يحتوي المحول على 175 مليار معلمة. لقد تم إنشاؤه كنسخة من GPT-3 ليتناسب مع أدائه وقدرته.

ميزة أخرى لـ Metaseq هي ذلك مستودع جيثب الخاص به تستضيف نماذج ذات معلمات أقل مما يسمح للعلماء بضبطها لمهام محددة فقط وتجنب تكاليف الصيانة والتدريب المرتفعة المرتبطة بنماذج المحولات الأكبر حجمًا.

ومع ذلك، فهو ليس مفتوح المصدر تمامًا: يقتصر الوصول على مجموعات البحث ويجب أن يتم طلبه من قبلهم وموافقة Meta على أساس كل حالة على حدة.

افتح جي بي تي-X

من المؤسف دائمًا أن ينشأ مشروع علمي بسبب الخوف من الضياع، وليس بسبب وجود ما يكفي من الإلهام له. وهذا هو الحال مع مشروع جي بي تي-X: تم رعايته في أوروبا وتم تصنيفه كاستجابة لـ GPT-3 وأداة لترسيخ "السيادة الرقمية" لأوروبا. يعد معهد فراونهوفر الألماني المحرك الرئيسي لتطويره، بدعم من شركائه في التعاون طويل الأمد من الصناعة والمجتمع الأكاديمي الألماني والأوروبي.

بدأ GPT-X مؤخرًا ولا يوجد الكثير من المعلومات حول مدى تقدمه.

جي بي تي-J وجي بي تي-NEO

إليثر آي هي مجموعة بحثية مستقلة تسعى إلى تحقيق هدف إضفاء الطابع الديمقراطي على الذكاء الاصطناعي. إنهم يقدمون نموذجين أصغر: GPT-X مع 60 مليار معلمة وGPT-NEO مع 6 مليارات فقط. ومن الغريب أن GPT-X يتفوق على GPT-3 في مهام البرمجة وهو جيد تمامًا في سرد القصص واسترجاع المعلومات والترجمة، مما يجعله آلة مثالية لروبوتات الدردشة.

محول جوجل سويتش

كان من الصعب تحديد الأسماء التي يجب إدراجها في هذه القائمة وأيها لا، ولكن من المؤكد أن جوجل تستحق الذكر، على الأقل لسببين.

الأول هو أن عملاق الإنترنت جعل محوله مفتوح المصدر.

والثاني هو أن محول التبديل أعطيت بنية جديدة. لديها شبكات عصبية متداخلة في طبقات شبكتها العصبية الرئيسية. وهذا يسمح بتعزيز أدائها دون زيادة مقدار القوة الحسابية اللازمة.

يحتوي محول المحول على 1.600 مليار معلمة. ومع ذلك، لم يسمح له بالتغلب على GPT-3 في الدقة والمرونة بعد؛ على الأرجح، بسبب قلة تدريب Switch Transformer.

خاتمة

وبالمناسبة، يعد التدريب مسألة ملحة في هذا المجال: فقد استخدم الباحثون بالفعل جميع النصوص الإنجليزية المتوفرة في هذا العالم! ربما يحتاجون إلى اتباع مثال وو داو والتحول إلى لغات أخرى قريبًا.

هناك مشكلة أخرى وهي المشكلة التي تناولها Switch Transformer بالفعل: المزيد من معلمات الشبكة مع حسابات أقل. يؤدي تشغيل الشبكات العصبية إلى انبعاث ثاني أكسيد الكربون بكميات كبيرة. ولذلك، يجب أن يظل الأداء الأفضل هو الهدف الرئيسي ليس فقط لأسباب تجارية، ولكن أيضًا لأسباب بيئية.

ويصبح هذا ممكنًا بفضل المشاريع مفتوحة المصدر: فهي تزود هذا المجال البحثي بالأدمغة (البشرية) الجديدة والمعرفة والأفكار الجديدة.

يحتاج الذكاء الاصطناعي ومعالجة اللغة الطبيعية إلى الإلهام من الممارسة. في AI Superior، نتابع التحديثات ونتطلع إلى تنفيذ نتائج المشاريع مفتوحة المصدر لعملائنا في الصناعة واحتياجاتهم. نحن ندعوك للاستفادة من خبرتنا في الذكاء الاصطناعي ومعالجة اللغة الطبيعية لأي حالة استخدام، بدءًا من المتاجر عبر الإنترنت وأبحاث التسويق وحتى الصناعات الهندسية الداعمة.

دعونا نعمل معا!