تحميل لدينا الذكاء الاصطناعي في الأعمال | تقرير الاتجاهات العالمية 2023 والبقاء في الطليعة!
تاريخ النشر: ٢٥ ديسمبر ٢٠٢٦

التعلم الآلي في الأجهزة: دليل 2026 لمسرعات الذكاء الاصطناعي

جلسة استشارية مجانية في مجال الذكاء الاصطناعي
احصل على تقدير مجاني للخدمة
أخبرنا عن مشروعك - وسنتصل بك بعرض سعر مخصص

ملخص سريع: يشمل التعلم الآلي في الأجهزة معالجات متخصصة (وحدات معالجة الرسومات، ووحدات معالجة الموتر، ومصفوفات البوابات المنطقية القابلة للبرمجة، والدوائر المتكاملة الخاصة بالتطبيقات) وتقنيات تحسين تُسرّع تدريب نماذج الذكاء الاصطناعي واستنتاجها. تُتيح التطورات في الأجهزة حسابات موفرة للطاقة من خلال تحسينات على مستوى النظام مثل تقنية تغيير تردد الجهد الديناميكي (DVFS)، التي تُقلل طاقة استنتاج نماذج اللغة بنسبة تصل إلى 30%، والتكميم الدقيق إلى مستويات 4 بت مع الحفاظ على الدقة. يُؤدي التقاء تصميم الأجهزة وخوارزميات التعلم الآلي إلى إنشاء نهج تصميم مشترك يُقلل من نقل البيانات، ويُحسّن الأداء، ويجعل نشر الذكاء الاصطناعي ممكنًا على نطاق واسع، بدءًا من أجهزة TinyML وصولًا إلى نماذج اللغة الكبيرة.

لقد أحدث التعلم الآلي تحولاً جذرياً في جميع الصناعات الرئيسية، لكن الخوارزميات التي تتصدر عناوين الأخبار ما كانت لتوجد لولا البنية التحتية المادية التي تعمل تحتها. فبينما يركز علماء البيانات على بنى النماذج وتقنيات التدريب، يعمل مهندسو الأجهزة على حل تحديات بالغة التعقيد: كيفية معالجة مليارات المعاملات بكفاءة، وكيفية خفض استهلاك الطاقة دون المساس بالدقة، وكيفية جعل الذكاء الاصطناعي متاحاً من الأجهزة الطرفية إلى مراكز البيانات.

يشمل مجال الأجهزة المستخدمة في التعلم الآلي أنواعًا متعددة من المعالجات، لكل منها نقاط قوة مميزة. تهيمن وحدات معالجة الرسومات على مهام التدريب. توفر وحدات معالجة الموترات أداءً مُحسَّنًا من جوجل. توفر مصفوفات البوابات القابلة للبرمجة الميدانية مرونةً عالية. أما الدوائر المتكاملة المصممة خصيصًا للتطبيقات، فتوفر أقصى كفاءة للمهام المخصصة.

لكن الأمر المهم هو أن اختيار الأجهزة الخاطئة قد يُعيق مسار التعلم الآلي بأكمله، ويُهدر الطاقة، ويستنزف الميزانيات. إن فهم كيفية عمل هذه التقنيات، وموازناتها، وأساليب التحسين الناشئة، هو ما يُحدد نجاح مشاريع الذكاء الاصطناعي أو تعثرها.

لماذا تُعدّ الأجهزة مهمة لأداء التعلّم الآلي

لقد ازدادت نماذج التعلم الآلي تعقيدًا بشكلٍ هائل. تحتوي نماذج اللغة الضخمة الآن على مئات المليارات من المعاملات، مما يتطلب قدرة حاسوبية لا تستطيع المعالجات القياسية توفيرها بكفاءة. ولا يقتصر عنق الزجاجة على سرعة العمليات الحسابية فحسب، بل يشمل أيضًا نقل البيانات.

بحسب بحثٍ نُشر على موقع arXiv، فإن استهلاك الطاقة والأداء يتأثران بشكلٍ متزايد بسلوك نظام الذاكرة أكثر من سرعة الحساب بحد ذاتها. وفي كثير من الحالات، يستهلك نقل البيانات بين الذاكرة ووحدات المعالجة طاقةً أكبر من الطاقة التي تستهلكها العمليات الحسابية الفعلية.

يُعالج تسريع الأجهزة ثلاثة قيود أساسية: السرعة، وكفاءة الطاقة، وقابلية التوسع. تُنفذ المعالجات المتخصصة العمليات المتوازية بسرعة تفوق سرعة وحدات المعالجة المركزية بمراحل. وتُقلل التحسينات على مستوى النظام استهلاك الطاقة بشكل ملحوظ. كما أن البنى الحديثة قابلة للتوسع عبر بيئات الحوسبة الموزعة.

يعمل المعهد الوطني للمعايير والتكنولوجيا (NIST) على تطوير أساليب عامة لتدريب الشبكات العصبية على منصات الأجهزة الناشئة المتنوعة، مع مراعاة خصائص الضوضاء الواقعية. ويُقر هذا البحث بأن الأجهزة ليست مجرد ركيزة سلبية، بل تُساهم بشكل فعّال في تحديد ما هو ممكن حسابيًا.

قم ببناء برامج تعلم الآلة باستخدام الذكاء الاصطناعي المتفوق

متفوقة الذكاء الاصطناعي تُطوّر الشركة برمجيات ذكاء اصطناعي مُخصصة، تشمل نماذج التعلّم الآلي، وتطبيقات الذكاء الاصطناعي، وتطبيقات الويب والهواتف المحمولة، ومنتجات برمجية مُخصصة. يدعم فريقها المشاريع بدءًا من مرحلة الاكتشاف ومراجعة البيانات وصولًا إلى تطوير الحد الأدنى من المنتج القابل للتطبيق، والتكامل، وتقييم النتائج.

بالنسبة لفرق الأجهزة، يمكن أن يدعم هذا تحليل بيانات المستشعرات، واكتشاف العيوب، والصيانة التنبؤية، ومراقبة الأداء، أو أدوات الذكاء الاصطناعي المبنية حول بيانات الجهاز والإنتاج.

هل تحتاج إلى بناء نظام تعلم آلي يعتمد على بياناتك؟

يمكن أن تساعدك تقنية الذكاء الاصطناعي المتفوقة في:

  • بناء حلول مخصصة للتعلم الآلي
  • تطوير أدوات التحليل التنبؤي
  • اختبار الأفكار من خلال تطوير نموذج إثبات المفهوم أو المنتج الأولي القابل للتطبيق
  • دمج الذكاء الاصطناعي في الأنظمة الحالية

👉 تواصل مع شركة AI Superior لمناقشة مشروعك.

وحدات معالجة الرسومات: أدوات التعلم الآلي الأساسية

أحدثت وحدات معالجة الرسومات ثورة في مجال التعلم العميق من خلال توفير آلاف النوى المُحسّنة للعمليات المتوازية. صُممت هذه الوحدات في الأصل لعرض الرسومات، وتتوافق بنيتها تمامًا مع عمليات ضرب المصفوفات التي تُهيمن على حسابات الشبكات العصبية.

تُقدّم وحدات معالجة الرسومات الحديثة أداءً يُقاس بوحدة تيرافلوب (تريليونات عمليات الفاصلة العائمة في الثانية). وتوثّق شركة Epoch AI مواصفات الأداء لأكثر من 170 مُسرّعًا للذكاء الاصطناعي بمستويات دقة مختلفة، بما في ذلك FP32 وFP16 وINT8.

ما هي الميزة؟ تتولى وحدات معالجة الرسومات (GPUs) عمليات التدريب والاستدلال لأي بنية نموذجية تقريبًا. توفر أطر عمل مثل PyTorch وTensorFlow دعمًا متطورًا لوحدات معالجة الرسومات. كما يقدم مزودو الخدمات السحابية وحدات معالجة رسومات بأسعار متفاوتة. ويتميز النظام البيئي للتطوير بقوته، مع مكتبات واسعة النطاق وموارد مجتمعية غنية.

مع ذلك، توجد تحديات. تستهلك وحدات معالجة الرسومات طاقة كبيرة، تتراوح عادةً بين 300 و500 واط لكل بطاقة. كما تتطلب إدارة حرارية دقيقة. وبالنسبة لأحمال العمل الاستدلالية واسعة النطاق، فإن تصميمها متعدد الأغراض يعني دفع ثمن قدرات لا تحتاجها مهام محددة.

ميزات معمارية لوحدة معالجة الرسومات تُمكّن من معالجة التعلم الآلي عالية الأداء

 

وحدات معالجة الموترات: السيليكون المخصص من جوجل

طورت جوجل وحدات معالجة الموتر (TPUs) خصيصًا لأحمال عمل الشبكات العصبية، مع تحسين كل جانب من جوانب التصميم لعمليات الموتر. على عكس وحدات معالجة الرسومات (GPUs)، فإن وحدات معالجة الموتر ليست مُسرّعات للأغراض العامة، بل هي مصممة حصريًا لاستنتاج وتدريب التعلم الآلي.

تتفوق وحدات معالجة الموتر (TPUs) في عمليات ضرب المصفوفات والالتفاف التي تهيمن على التعلم العميق. يقلل تصميمها من الدقة إلى الحد الأدنى المطلوب للنماذج، باستخدام أعداد صحيحة 8 بت للاستدلال وأعداد عشرية 16 بت للتدريب. هذا التخفيض في الدقة يحسن بشكل كبير من الإنتاجية وكفاءة استهلاك الطاقة.

تُعدّ التحسينات في الأداء كبيرة. توفر وحدات معالجة الموتر (TPUs) استدلالًا أسرع لنماذج مثل BERT وResNet مقارنةً بوحدات معالجة الرسومات (GPUs) الحالية، مع استهلاك طاقة أقل لكل عملية. يوفر Google Cloud إمكانية الوصول إلى وحدات معالجة الموتر، مما يجعل هذه التقنية متاحة خارج نطاق البنية التحتية الداخلية لشركة Google.

لكن وحدات معالجة Tensor (TPUs) تأتي مع بعض القيود. فهي مُحسّنة للعمل مع TensorFlow، على الرغم من توسع دعمها لأطر عمل أخرى. كما أن استخدام رقائق سيليكون مُخصصة يعني مرونة أقل، إذ تُسرّع وحدات معالجة Tensor أنواعًا مُحددة من العمليات، بينما لا تستفيد أحمال العمل خارج هذا النطاق إلا بشكل طفيف. ويقتصر توفرها على Google Cloud، على عكس نظام GPU الأوسع.

الدوائر المتكاملة القابلة للبرمجة (FPGAs) والدوائر المتكاملة الخاصة بالتطبيقات (ASICs): مناهج الأجهزة المتخصصة

توفر مصفوفات البوابات المنطقية القابلة للبرمجة الميدانية حلاً وسطاً: فهي أجهزة قابلة لإعادة التكوين بعد التصنيع. يقوم المطورون ببرمجة هذه المصفوفات لتنفيذ دوائر منطقية مخصصة مُحسَّنة لعمليات تعلم آلي محددة. تتيح هذه المرونة تجربة بنى جديدة وتطوير نماذج أولية سريعة.

توثق أبحاث معهد مهندسي الكهرباء والإلكترونيات (IEEE) بنى FPGA للتعلم العميق، وتستكشف كيفية تعامل هذه المنصات مع الشبكات ذات متطلبات الدقة المتفاوتة. يمكن لـ FPGAs تنفيذ العمليات الحسابية ذات الدقة المختلطة، باستخدام عروض بت مختلفة للطبقات المختلفة لتحقيق التوازن بين الدقة والأداء.

تمثل الدوائر المتكاملة الخاصة بالتطبيقات (ASICs) النقيض تمامًا: رقائق ذات وظائف ثابتة مصممة لغرض واحد. بمجرد تصنيعها، لا يمكن تغيير منطقها. لكن هذا التخصص يحقق أقصى قدر من الكفاءة. إذ تُزيل الدوائر المتكاملة الخاصة بالتطبيقات الدوائر غير الضرورية، وتقلل استهلاك الطاقة، وتزيد الإنتاجية إلى أقصى حد لعبء العمل المستهدف.

تستخدم الشركات التي تُطوّر رقائق الذكاء الاصطناعي المُخصصة عادةً مصفوفات البوابات المنطقية القابلة للبرمجة (FPGAs) في مرحلة النماذج الأولية، ثم تنتقل إلى الدوائر المتكاملة الخاصة بالتطبيقات (ASICs) في مرحلة الإنتاج. صحيح أن تكلفة التطوير أعلى، إلا أن الدوائر المتكاملة الخاصة بالتطبيقات ذات الإنتاج الضخم تُقدّم أداءً لا يُضاهى من حيث استهلاك الطاقة والتكلفة.

نوع الجهازالمرونةكفاءة الطاقةتكلفة التطويرأفضل حالة استخدام
وحدات معالجة الرسوماتعاليمعتدلقليلالتدريب، الاستدلال العام
وحدات معالجة الطاقة (TPUs)معتدلعاليمنخفض (الوصول إلى السحابة)أحمال عمل TensorFlow على نطاق واسع
FPGAsمرتفع جداًعاليمعتدلخوارزميات مخصصة، نماذج أولية
الدوائر المتكاملة الخاصة بالتطبيقاتلا أحدأعلى مستوىمرتفع جداًمهام محددة ذات حجم كبير

كفاءة الطاقة: حدود التحسين الحاسمة

أصبح استهلاك الطاقة أحد أكبر المعوقات أمام نشر الذكاء الاصطناعي. فتدريب نماذج اللغة الضخمة قد يستهلك ميغاواط/ساعة من الكهرباء، بينما تواجه مراكز البيانات التي تُشغّل أحمال عمل الاستدلال تكاليف طاقة باهظة. وتُضيف الأجهزة الطرفية تحديًا آخر لأنها غالبًا ما تحتاج إلى العمل ضمن ميزانيات ضئيلة من الميلي واط.

قلل استهلاك الطاقة باستخدام تقنية DVFS

يمكن لتقنية تغيير الجهد والتردد الديناميكي، أو DVFS، أن تقلل من طاقة استدلال LLM عن طريق ضبط جهد المعالج وسرعة الساعة بناءً على متطلبات عبء العمل.

خلال العمليات الأقل كثافة، يستهلك النظام طاقة أقل دون تغيير النموذج نفسه. وتشير الأبحاث إلى أن هذا النهج يمكن أن يقلل طاقة الاستدلال بما يصل إلى 30%.

دمج تحسين الأجهزة والبرامج

لا تقتصر كفاءة الطاقة على مشكلة الأجهزة فقط. بل يمكن لأساليب على مستوى النظام، مثل دمج تقنية تغيير تردد الجهد الديناميكي مع تجميع الاستدلال، أن تقلل من استهلاك الطاقة بشكل أكبر.

تُظهر هذه الأساليب أن كفاءة الذكاء الاصطناعي تعتمد على تحسين الأجهزة والبرامج معًا، وليس بشكل منفصل.

استخدم التكميم لتقليل متطلبات الحوسبة

يُعدّ التكميم تقنية مهمة أخرى. إذ يُمكن لتقليل دقة النموذج من 32 بت إلى 4 بت الحفاظ على الأداء في العديد من مهام فهم اللغة مع تقليل استخدام الذاكرة، واحتياجات النطاق الترددي، والحسابات.

وهذا يجعل النماذج أخف وزناً وأسهل في التشغيل، خاصة عندما تكون الكفاءة بنفس أهمية الدقة.

تحسين لأجهزة TinyML

تتطلب أنظمة TinyML التي تعمل على وحدات التحكم الدقيقة تصميمًا أكثر دقة. قد لا تحتوي هذه الأجهزة إلا على كيلوبايتات قليلة من ذاكرة الوصول العشوائي (RAM)، لذا فإن كل عملية ذاكرة مهمة.

تُقلل البنى المتخصصة من نقل البيانات عن طريق الاحتفاظ بالنتائج الوسيطة في السجلات بدلاً من الكتابة المستمرة إلى الذاكرة. وهذا يُساعد الشبكات العصبية على العمل على أجهزة صغيرة جدًا ومنخفضة الطاقة.

التعلم الآلي المُراعي للأجهزة: نهج التصميم المشترك

لا تتعامل أنظمة التعلم الآلي الأكثر فعالية مع الأجهزة والخوارزميات كجوانب منفصلة. فالتعلم الآلي المُراعي للأجهزة يأخذ في الاعتبار القيود الحسابية أثناء تصميم النموذج، مما يُنشئ بنىً تتوافق بكفاءة مع المعالجات المتاحة.

يمكن أن تتضمن عملية البحث عن بنية الشبكات العصبية مقاييس الأجهزة كأهداف للتحسين. فبدلاً من تقليل فقدان الدقة فقط، توازن خوارزميات البحث بين أداء النموذج وزمن الاستجابة واستهلاك الطاقة وحجم الذاكرة المستخدمة على الأجهزة المستهدفة.

تعمل تقنيات التقليم والضغط على إزالة المعاملات والوصلات الزائدة، مما يُنتج نماذج أصغر حجماً تتناسب مع الذاكرة المحدودة وتُنفذ بشكل أسرع. وتُقر هذه الأساليب بأن العديد من أوزان الشبكة العصبية تُساهم بشكل طفيف في التنبؤات، ويمكن حذفها دون فقدان كبير في الدقة.

تُدرّب تقنية تقطير المعرفة نماذج "طالبة" مُصغّرة لمحاكاة نماذج "معلمة" أكبر، ناقلةً التمثيلات المُتعلّمة إلى بنى أكثر ملاءمة لأجهزة النشر. تُمكّن هذه التقنية النماذج المُتطورة المُطوّرة على بنية تحتية تدريبية قوية من العمل بكفاءة على الأجهزة ذات الموارد المحدودة.

يقوم قسم التعلم الآلي بجامعة كارنيجي ميلون بإجراء أبحاث حول تحديات التصميم المشترك للأجهزة والبرامج، ويستكشف كيف يمكن للابتكارات الخوارزمية والتطورات المعمارية أن تكمل بعضها البعض.

اختيار الأجهزة المناسبة لأعباء عمل التعلم الآلي الخاصة بك

يتطلب اختيار الأجهزة فهم متطلبات محددة: التدريب مقابل الاستدلال، والمعالجة الدفعية مقابل المعالجة في الوقت الحقيقي، والنشر السحابي مقابل النشر على الحافة، وقيود الميزانية.

يتطلب تدريب النماذج الكبيرة أقصى قدرة حاسوبية وسعة ذاكرة. ولا تزال وحدات معالجة الرسومات (GPUs) الخيار الأمثل لمعظم المؤسسات، مع توفر تكوينات متعددة لوحدات معالجة الرسومات للتدريب الموزع. كما يوفر مزودو الخدمات السحابية إمكانية الوصول المرن إلى وحدات معالجة الرسومات دون الحاجة إلى نفقات رأسمالية.

تُعطي أحمال عمل الاستدلال الأولوية لزمن الاستجابة والإنتاجية وكفاءة الطاقة على حساب سرعة التدريب الخام. تتفوق وحدات معالجة الموتر (TPUs) في الاستدلال عالي الحجم عند استخدام أطر عمل متوافقة. تُعد الدوائر المتكاملة الخاصة بالتطبيقات (ASICs) خيارًا مناسبًا لعمليات النشر واسعة النطاق لنماذج محددة. أما مصفوفات البوابات المنطقية القابلة للبرمجة (FPGAs) فهي مناسبة للسيناريوهات التي تتطلب زمن استجابة منخفضًا ومعالجة مسبقة مخصصة.

يُضيف النشر على الحافة قيودًا إضافية: ميزانيات الطاقة المقاسة بالواط أو الميلي واط، والتبريد المحدود، والحساسية للتكلفة. وتُعالج مُسرّعات الاستدلال المتخصصة ووحدات التحكم الدقيقة المزودة بامتدادات الشبكات العصبية هذه المتطلبات.

بصراحة: تبدأ معظم المشاريع باستخدام وحدات معالجة الرسومات (GPUs) لأن النظام البيئي لهذه الوحدات ناضج ومرن. يصبح استخدام الأجهزة المتخصصة جذابًا بمجرد تحديد أحمال العمل بدقة ونشرها على نطاق واسع، حيث تبرر فوائد التحسين التعقيد الإضافي.

الاتجاهات الناشئة والتوجهات المستقبلية

تحاكي بنى الحوسبة العصبية الشبكات العصبية البيولوجية، باستخدام الخلايا العصبية النبضية والمعالجة القائمة على الأحداث. تعد هذه الأنظمة بتحسينات هائلة في كفاءة الطاقة لبعض المهام، على الرغم من أنها لا تزال في مراحل تجريبية إلى حد كبير.

تُقلل الحوسبة داخل الذاكرة من حركة البيانات عن طريق إجراء العمليات الحسابية في مكان وجود البيانات، بدلاً من نقل القيم بين الذاكرة والمعالجات. وتُنفذ أساليب الحوسبة التناظرية ضرب المصفوفات باستخدام الخصائص الفيزيائية للدوائر، مما قد يُحقق كفاءة طاقة أفضل بكثير.

تموّل المؤسسة الوطنية للعلوم الأبحاث من خلال برامج مثل مبادرة الفضاء الإلكتروني الآمن والموثوق، والتي تشمل أمن الأجهزة لأنظمة التعلم الآلي. ومع توسع نطاق استخدام الذكاء الاصطناعي، تزداد أهمية حماية النماذج والبيانات من الهجمات على مستوى الأجهزة.

تستخدم الشبكات العصبية الضوئية الضوء بدلاً من الكهرباء لإجراء العمليات الحسابية، مستفيدةً من مزايا السرعة وعرض النطاق الترددي للأنظمة البصرية. ورغم أن هذا النهج لا يزال في مراحله الأولى، إلا أنه قد يُحدث ثورة في البنية التحتية للذكاء الاصطناعي على نطاق واسع.

الأسئلة الشائعة

ما الفرق بين متطلبات أجهزة التدريب والاستدلال في مجال التعلم الآلي؟

يتطلب التدريب أقصى قدرة حاسوبية، وسعة ذاكرة كبيرة، وحسابات عالية الدقة لتحديث مليارات المعلمات عبر خوارزمية الانتشار العكسي. أما الاستدلال فيستخدم أوزانًا ثابتة للنموذج، ويعطي الأولوية لانخفاض زمن الاستجابة وكفاءة استهلاك الطاقة، وغالبًا ما يعمل بدقة منخفضة مثل التكميم 8 بت أو 4 بت. عادةً ما يتم التدريب في مراكز البيانات المزودة بوحدات معالجة رسومية قوية، بينما يُنشر الاستدلال عبر أجهزة متنوعة، بدءًا من خوادم الحوسبة السحابية وصولًا إلى أجهزة الحافة.

هل تستطيع وحدات المعالجة المركزية التعامل مع أحمال عمل التعلم الآلي بكفاءة؟

تُعدّ وحدات المعالجة المركزية (CPU) مناسبة للنماذج الصغيرة، والنماذج الأولية، والاستدلال على النماذج ذات المتطلبات الحسابية المتواضعة. إلا أن بنيتها للمعالجة التسلسلية تجعلها أبطأ بكثير من وحدات معالجة الرسومات (GPU) في تدريب الشبكات العصبية. مع ذلك، تتفوق وحدات المعالجة المركزية في المعالجة المسبقة، وتحميل البيانات، وإدارة مهام التدريب الموزعة. تتضمن وحدات المعالجة المركزية الحديثة امتدادات متجهة تُحسّن أداء التعلم الآلي، لكنها لا تُضاهي المُسرّعات المتخصصة في أحمال العمل الإنتاجية.

كم تبلغ تكلفة أجهزة التعلم الآلي؟

تبدأ أسعار وحدات معالجة الرسومات (GPU) الاستهلاكية المناسبة للأبحاث من حوالي $500 إلى 1500. أما وحدات معالجة الرسومات المخصصة للمؤسسات لتدريب الإنتاج، فتتراوح تكلفتها بين $10000 و30000 لكل بطاقة. وتتراوح تكلفة استخدام وحدات معالجة الرسومات السحابية من $0.50 إلى $8+ في الساعة، وذلك حسب مستوى الأداء. ويبدأ سعر الوصول إلى وحدات معالجة Tensor Processing Unit (TPU) عبر Google Cloud من حوالي $1.35 في الساعة. عادةً ما تنفق المؤسسات ما بين $50000 و500000+ على بنية التعلم الآلي لأنظمة الإنتاج الجادة، مع العلم أن النشر السحابي يوزع التكاليف على مدى فترة زمنية أطول.

ما هو نظام DVFS وكيف يحسن كفاءة الطاقة في التعلم الآلي؟

تُعدّل تقنية تغيير الجهد والتردد الديناميكي جهد المعالج وسرعة الساعة بناءً على متطلبات الحساب. أثناء العمليات الأقل كثافة، يعمل المعالج بسرعة أقل وجهد منخفض، مما يقلل استهلاك الطاقة. تُظهر الأبحاث أن هذه التقنية قادرة على خفض طاقة استدلال نموذج التعلم الخطي (LLM) بما يصل إلى 30% دون تعديل معلمات النموذج، مما يجعلها تحسينًا شفافًا لا يتطلب أي تغييرات على النماذج المدربة أو كود التطبيق.

هل ينبغي للشركات الناشئة الاستثمار في رقائق الذكاء الاصطناعي المصممة خصيصًا أم استخدام وحدات معالجة الرسومات الموجودة؟

ينبغي لمعظم الشركات الناشئة استخدام وحدات معالجة الرسومات الحالية أو مسرعات الحوسبة السحابية. تتطلب الرقائق المصممة خصيصًا ملايين الدولارات من تكاليف التطوير، وتستغرق من 18 إلى 24 شهرًا من التصميم إلى الإنتاج. توفر وحدات معالجة الرسومات مرونةً في تطوير النماذج وتغيير حالات الاستخدام. لا تُجدي الرقائق المصممة خصيصًا نفعًا إلا عند نشرها على نطاق واسع جدًا مع أحمال عمل مستقرة ومحددة جيدًا، حيث تتجاوز عوائد التحسين تكاليف التطوير - عادةً بعد تحقيق ملاءمة المنتج للسوق وقاعدة مستخدمين كبيرة.

ما هو دور وحدات FPGA في البنية التحتية الحديثة للتعلم الآلي؟

تؤدي معالجات FPGA ثلاثة أدوار رئيسية: تصميم نماذج أولية لبنى مخصصة قبل البدء بإنتاج دوائر ASIC، وتنفيذ مسارات معالجة مسبقة أو لاحقة متخصصة إلى جانب المعالجات القياسية، وتوفير استدلال منخفض التأخير للتطبيقات التي تُعدّ فيها أجزاء من الثانية بالغة الأهمية. تستخدم مايكروسوفت وأمازون معالجات FPGA في البنية التحتية السحابية لتسريع أحمال عمل محددة. مع ذلك، تتطلب معالجات FPGA معرفة برمجية متخصصة، وعادةً ما يكون أداؤها الخام أقل من معالجات GPU في الشبكات العصبية القياسية.

كيف يؤثر التكميم على دقة النموذج؟

يُقلل التكميم من الدقة العددية من 32 بت (نقطة عائمة) إلى عرض بتات أقل. تُشير الأبحاث إلى أن دقة 4 بت تحافظ على الدقة في العديد من مهام فهم اللغة. يختلف التأثير باختلاف بنية النموذج، ومنهجية التدريب، وتعقيد المهمة. يُعد التكميم بعد التدريب أبسط أنواع التكميم، ولكنه قد يُؤدي إلى فقدان دقة تتراوح بين 1 و2%. أما التدريب المُراعي للتكميم فيُحافظ على الدقة الكاملة أثناء التدريب مع محاكاة تأثيرات التكميم، وعادةً ما يُحافظ على الدقة في حدود 0.5% من خطوط الأساس ذات الدقة الكاملة.

خاتمة

تطورت أجهزة التعلم الآلي من مجرد بطاقات رسومات مُعاد استخدامها إلى منظومة متنوعة من المعالجات المتخصصة، كل منها مُحسَّن لجوانب مختلفة من مسار الذكاء الاصطناعي. إن فهم هذه الخيارات - نقاط قوتها، وقيودها، وحالات استخدامها المناسبة - هو ما يحدد نجاح المشروع.

لا يقتصر التحدي على تطوير رقائق أسرع فحسب، بل يشمل التصميم المشترك بين البرمجيات والأجهزة الذي يراعي الخوارزميات والبنية معًا. كما يشمل كفاءة استهلاك الطاقة التي تجعل الذكاء الاصطناعي مستدامًا على نطاق واسع، وسهولة الوصول التي تتيح إمكانيات التعلم الآلي المتقدمة للأجهزة الطرفية والبيئات ذات الموارد المحدودة.

ينبغي للمؤسسات التي تُنشئ أنظمة التعلم الآلي اليوم أن تبدأ ببنية تحتية مُثبتة لوحدات معالجة الرسومات، وأن تُراقب بدقة أي اختناقات في الأداء، وأن تُفكر في استخدام أجهزة متخصصة عندما تستقر أحمال العمل وتتضح فوائد التحسين. ويستمر مشهد الأجهزة في التطور بوتيرة سريعة، مع ظهور بنى وتقنيات جديدة باستمرار.

هل أنت مستعد لتحسين بنية التعلم الآلي لديك؟ قيّم أحمال العمل، وقِس الأداء الحالي واستهلاك الطاقة، وحدد نقاط الضعف قبل الاستثمار في أجهزة متخصصة. يعتمد الاختيار الأمثل كليًا على المتطلبات المحددة، وهذه المتطلبات تتطور مع نضوج النماذج وحالات الاستخدام.

دعونا نعمل معا!
arArabic
انتقل إلى أعلى