تحميل لدينا الذكاء الاصطناعي في الأعمال | تقرير الاتجاهات العالمية 2023 والبقاء في الطليعة!
تاريخ النشر: ٢٦ فبراير ٢٠٢٦

التعلم الآلي في الهجمات الخصومية: دليل 2026

جلسة استشارية مجانية في مجال الذكاء الاصطناعي
احصل على تقدير مجاني للخدمة
أخبرنا عن مشروعك - وسنتصل بك بعرض سعر مخصص

ملخص سريع: يشير مصطلح "التعلم الآلي في الهجمات الخصومية" إلى محاولات متعمدة للتلاعب بأنظمة الذكاء الاصطناعي من خلال استغلال الثغرات الأمنية في بيانات التدريب أو معالجة المدخلات. يقوم المهاجمون بتصميم مدخلات خاصة - تُسمى الأمثلة الخصومية - تُؤدي إلى قيام النماذج بتوقعات خاطئة، غالبًا بتغييرات غير ملحوظة. تُشكل هذه الهجمات مخاطر أمنية جسيمة على مختلف التطبيقات، بدءًا من المركبات ذاتية القيادة وصولًا إلى التشخيص الطبي، مما يستلزم استراتيجيات دفاعية قوية وبحوثًا مستمرة.

أصبحت أنظمة الذكاء الاصطناعي منتشرة في كل مكان الآن. فهي توافق على طلبات القروض، وتشخص الأمراض، وتصفّي الرسائل غير المرغوب فيها، بل وتوجه المركبات ذاتية القيادة في الشوارع المزدحمة.

 

لكن الأمر المهم هو أن هذه الأنظمة تعاني من نقطة ضعف خطيرة. إذ يمكن للمهاجمين خداعها بتلاعبات دقيقة لا يلاحظها البشر.

هذا هو جوهر التعلم الآلي التنافسي. إنه دراسة كيفية استغلال الجهات الخبيثة للثغرات الأمنية في نماذج الذكاء الاصطناعي، والأهم من ذلك، كيفية عمل باحثي الأمن على الدفاع ضد هذه الهجمات. وكما أوضح المعهد الوطني للمعايير والتكنولوجيا (NIST) في تقريره لعام 2025 بعنوان "الذكاء الاصطناعي الجدير بالثقة والمسؤول"، فإن أنظمة الذكاء الاصطناعي تشهد انتشارًا متسارعًا على مستوى العالم، مما يجعل معالجة الثغرات الأمنية أمرًا بالغ الأهمية.

يشرح هذا الدليل كل شيء بدءًا من أنواع الهجمات الأساسية وصولًا إلى أحدث آليات الدفاع. وبصراحة، لم يعد فهم الهجمات المعادية أمرًا اختياريًا، بل أصبح أساسيًا لبناء أنظمة ذكاء اصطناعي لا تنهار عند محاولة التلاعب بها.

ما هو التعلم الآلي التنافسي؟

يقع التعلم الآلي التنافسي عند تقاطع الذكاء الاصطناعي والأمن السيبراني. ووفقًا لشركة IBM، فهو فن خداع أنظمة الذكاء الاصطناعي، وهو مجال يشمل كلاً من الجهات الفاعلة الخبيثة والباحثين ذوي النوايا الحسنة الذين يكشفون عن الثغرات الأمنية.

بخلاف الهجمات الإلكترونية التقليدية التي تستغل أخطاء البرامج أو أخطاء التكوين، تستهدف الهجمات المعادية الطريقة الأساسية التي تتعلم بها نماذج التعلم الآلي وتتخذ القرارات.

إليك كيفية عملها: تتعلم نماذج التعلم الآلي الأنماط من بيانات التدريب. وهي مُحسَّنة لتحقيق أداء جيد على بيانات مشابهة لما رأته سابقًا. يستغل المهاجمون هذا الأمر من خلال تصميم مدخلات مُخصصة لخداع النموذج - مدخلات تبدو طبيعية للبشر ولكنها تتسبب في ارتكاب الذكاء الاصطناعي أخطاءً كارثية.

أثبت باحثون في معهد ماساتشوستس للتكنولوجيا أنه كلما استُخدمت تقنيات التعلّم الآلي لمنع الأنشطة غير القانونية، وكان هناك حافز اقتصادي، فإن الخصوم سيحاولون التحايل على الحماية. وهذا يخلق سباق تسلح مستمر بين المهاجمين والمدافعين.

الهجمات المعادية مقابل الهجمات الإلكترونية التقليدية

تستغل الهجمات الإلكترونية التقليدية ثغرات في التنفيذ: مثل تجاوز سعة المخزن المؤقت، وحقن SQL، وكلمات المرور الضعيفة. إصلاح الخلل، وتحديث النظام، وبذلك تُحل المشكلة.

تختلف الهجمات الخصومية اختلافاً جوهرياً، فهي تستغل الخصائص الرياضية لخوارزميات التعلم الآلي نفسها. حتى نظام الذكاء الاصطناعي المُنفذ بشكل مثالي والخالي من الأخطاء يظل عرضة للاختراق، لأن الثغرة تكمن في كيفية معالجة النموذج للمعلومات.

فكّر في الأمر بهذه الطريقة: الهجوم التقليدي يقتحم المنزل عبر نافذة مكسورة. أما الهجوم العدائي فيقنع المنزل بأن اللص هو في الواقع صاحب المنزل.

كيف تعمل الهجمات المعادية

إن المبدأ الأساسي وراء الهجمات الخصومية بسيط بشكل مدهش: إيجاد الاتجاه في مساحة الإدخال الذي يغير مخرجات النموذج إلى أقصى حد، ثم دفع الإدخال في ذلك الاتجاه.

تستطيع معظم نماذج تصنيف الصور إخراج إما الفئة المتوقعة فقط أو توزيعات الاحتمالات الكاملة. فإذا أخرج النموذج "99.9% طائرة، 0.1% قطة"، فإن تغييرًا طفيفًا في المدخلات قد يُغير هذا التوقع بشكل جذري.

يحقق الخصوم ذلك من خلال تقنيات التحسين. فهم يتعاملون مع نموذج التعلم الآلي كدالة رياضية ويستخدمون أساليب تعتمد على التدرج لإيجاد المدخلات التي تزيد من خطأ التنبؤ إلى أقصى حد.

وفقًا لبحث أجراه معهد ماساتشوستس للتكنولوجيا، قام المهاجمون بتطوير أنظمة آلية يمكنها إخفاء البرامج الضارة على مدى العديد من التجارب، باستخدام الذكاء الاصطناعي نفسه لتحسين عملية التهرب.

شرح الأمثلة العدائية

الأمثلة الخصومية هي مدخلات مصممة خصيصًا لإحداث تصنيف خاطئ. وتصفها OpenAI بأنها "أوهام بصرية للآلات".“

الجزء المخيف؟ هذه التعديلات غالباً ما تكون غير محسوسة للبشر. أضف كمية ضئيلة من التشويش المحسوب بدقة إلى صورة باندا، وفجأةً يرى مصنف الصور المتطور قرد جيبون بثقة 99%.

في عام 2020، طور باحثون من مختبر علوم الحاسوب والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا نظام TextFooler، وهو نظام نجح في مهاجمة نماذج معالجة اللغة الطبيعية، بما في ذلك نموذج BERT. وقد تمكن هذا النظام من خداع النماذج المستهدفة بدقة تتراوح بين أكثر من 90% وأقل من 20%، وذلك عن طريق تغيير 10% فقط من الكلمات في النص المعطى.

تُطبَّق الأمثلة المُضلِّلة عبر وسائط مختلفة - الصور، والنصوص، والصوت، وحتى الأشياء المادية. وقد أظهر الباحثون أن وضع بضع ملصقات صغيرة على الأرض عند تقاطع طرق يمكن أن يتسبب في اتخاذ السيارات ذاتية القيادة قرارات غير طبيعية وانحرافها إلى مسارات المرور القادمة.

أنواع الهجمات الخصومية على التعلم الآلي

تتخذ الهجمات المعادية أشكالاً متعددة، لكل منها أهداف وقدرات ونماذج تهديد مختلفة. يساعد فهم هذه التصنيفات فرق الأمن على تحديد أولويات الدفاعات.

هجمات المراوغة

تُعدّ هجمات التهرب الفئة الأكثر شيوعاً والأكثر دراسة. في هذه الهجمات، يتلاعب المهاجمون بمدخلات وقت الاختبار لتجنب الكشف أو التسبب في تصنيف خاطئ.

لا يقوم المهاجم بتعديل بيانات التدريب أو بنية النموذج. بل يقوم ببساطة بإنشاء مدخلات خبيثة يقوم النموذج المدرب بتصنيفها بشكل خاطئ.

ومن الأمثلة الواقعية ما يلي:

  • مرشحات البريد العشوائي التي يمكن خداعها عن طريق استبدال الكلمات المختارة بعناية
  • برامج ضارة تُعدّل شفرتها للتهرب من اكتشاف برامج مكافحة الفيروسات
  • أنظمة التعرف على الوجوه التي يتم خداعها بواسطة نظارات أو مساحيق تجميل معادية
  • إشارات التوقف المزودة بملصقات، والتي تخطئ المركبات ذاتية القيادة في قراءتها على أنها إشارات تحديد السرعة.

 

بحسب بحث نُشر على موقع arXiv، تختلف قابلية نقل الهجمات اختلافًا كبيرًا بين البنى المختلفة. فعند اختبار أمثلة معادية مُولّدة على ResNet-18 مقابل نماذج أخرى، تُظهر معدلات النجاح أنماطًا مثيرة للاهتمام: 100.0% مقابل ResNet-18 نفسه (بالطبع)، و46.2% مقابل نماذج VGG-16، و38.7% مقابل DenseNet-121، و32.1% مقابل MobileNetV2.

وبالمثل، تحقق الهجمات التي تم إنشاؤها بواسطة VGG-16 نجاحًا بنسبة 100.0% على VGG-16، و41.3% على ResNet-18، و35.9% على DenseNet-121، و28% على MobileNetV2.

هجمات التسمم

تستهدف هجمات التسميم مرحلة التدريب. يقوم المهاجمون بحقن بيانات ضارة في مجموعة التدريب، مما يؤدي إلى إفساد النموذج قبل نشره.

وهذا أمر خطير بشكل خاص لأن النموذج المسموم يبدو أنه يعمل بشكل طبيعي على معظم المدخلات ولكنه يفشل بشكل كارثي عند المحفزات التي يختارها المهاجم.

يكمن التحدي في هجمات التسميم في أنها تتطلب الوصول إلى مسار التدريب. ولكن في عصر مجموعات البيانات المُجمّعة من مصادر جماعية وبائعي البيانات الخارجيين، فإن ذلك ليس بالصعوبة التي تبدو عليها.

تؤكد الأبحاث التي أجراها مختبر لينكولن التابع لمعهد ماساتشوستس للتكنولوجيا أن القيود المفروضة على كيفية تلاعب المهاجمين ببيانات التدريب والاختبار تجعل هذه المشكلات قابلة للحل. ويشمل هذا المجال تخصصات متعددة، منها كشف البريد العشوائي، وكشف الاختراقات، والتلاعب بتحسين محركات البحث.

هجمات استخراج النماذج

أحيانًا لا يكون الهدف هو خداع النموذج، بل سرقته. تقوم هجمات استخراج النموذج باستعلام نظام التعلم الآلي بشكل متكرر، ثم تستخدم الاستجابات لبناء نموذج بديل يحاكي النموذج الأصلي.

بمجرد حصول المهاجم على نموذج بديل، يمكنه اختبار أمثلة معادية محليًا قبل نشرها ضد النظام الحقيقي. وهذا يقلل بشكل كبير من تكلفة الهجمات اللاحقة وإمكانية اكتشافها.

تُعد خدمات التعلم الآلي القائمة على الحوسبة السحابية عرضة للخطر بشكل خاص لأنها تكشف عن واجهات برمجة تطبيقات التنبؤ التي يمكن للمهاجمين الاستعلام عنها على نطاق واسع.

هجمات الباب الخلفي

تُدخل هجمات الباب الخلفي مُحفزات خفية في النماذج. يعمل النموذج بشكل طبيعي مع المدخلات العادية، ولكنه يُنتج مخرجات يتحكم بها المهاجم عند اكتشافه للمُحفز.

تخيل نظامًا للتعرف على الوجوه يعمل بشكل مثالي باستثناء عندما يرتدي شخص ما نمطًا معينًا من الملصقات - فحينها يتعرف عليه دائمًا كمستخدم مصرح له.

وتثير هذه الهجمات قلقاً بالغاً، لا سيما بالنسبة للنماذج التي تم تدريبها على بيانات غير موثوقة أو تم نشرها من مستودعات نماذج تابعة لجهات خارجية.

نوع الهجوممرحلة الهجومهدف المهاجممثال من العالم الحقيقي 
التهربوقت الاختبارالتسبب في تصنيف خاطئ لمدخلات محددةبرامج خبيثة تخدع المركبات ذاتية القيادة
تسمموقت التدريبإفساد النموذج أثناء التعلمإدخال بيانات مصنفة بشكل خاطئ في مجموعات التدريب
استخراج النموذجوقت الاختباروظائف ومعايير نموذج السرقةاستنساخ واجهات برمجة تطبيقات التعلم الآلي التجارية من خلال الاستعلامات
الباب الخلفيوقت التدريبأضف محفزات مخفية لاستغلالها لاحقًانماذج لا تفشل إلا عند اختيار المهاجم للمحفزات

أساليب وتقنيات الهجوم

لقد طور مجتمع أبحاث التعلم الآلي العدائي العديد من خوارزميات الهجوم، ولكل منها قدرات ومتطلبات مختلفة.

هجمات الصندوق الأبيض

تفترض هجمات الصندوق الأبيض أن لدى الخصم معرفة كاملة بالنموذج المستهدف: البنية، والمعلمات، وبيانات التدريب، وكل شيء.

قد يبدو هذا غير واقعي، ولكنه في الواقع سيناريو شائع. تستخدم العديد من المؤسسات نماذج مفتوحة المصدر، وحتى الأنظمة الاحتكارية غالباً ما تكشف من خلال تنبؤاتها عن معلومات كافية لتمكين هجمات النماذج البديلة.

تشمل طرق الصندوق الأبيض الشائعة طريقة إشارة التدرج السريع (FGSM)، والتي تقوم بإنشاء أمثلة معادية من خلال اتخاذ خطوة تدرج واحدة في الاتجاه الذي يزيد الخسارة إلى أقصى حد.

تعتمد الهجمات الأكثر تطوراً، مثل خوارزمية التدرج المتوقع (PGD)، على تحسين التعديلات المعادية بشكل متكرر عبر خطوات متعددة. وقد أظهرت الأبحاث التي أجريت عام 2017 أن التدريب المعادي القائم على خوارزمية التدرج المتوقع يُنتج نماذج أكثر مقاومة للهجمات.

هجمات الصندوق الأسود

تُنفذ هجمات الصندوق الأسود دون معرفة النموذج الداخلي. لا يستطيع المهاجم سوى الاستعلام عن النموذج ومراقبة مخرجاته.

تستغل هذه الهجمات في كثير من الأحيان خاصية قابلية النقل، حيث أن الأمثلة المُصممة خصيصًا لنموذج معين غالبًا ما تخدع نماذج أخرى مُدربة على بيانات مماثلة. يستطيع المهاجم تدريب نموذج بديل خاص به، وتوليد أمثلة مُضادة له، ثم نقل تلك الأمثلة إلى النظام المستهدف.

تعتبر هجمات الصندوق الأسود أكثر واقعية بالنسبة لمعظم سيناريوهات التهديد، ولكنها تتطلب عمومًا المزيد من الاستعلامات وتحقق معدلات نجاح أقل من أساليب الصندوق الأبيض.

الهجمات العدائية المادية

إن الأمثلة على الخصوم الرقميين شيء، أما الهجمات المادية التي تنجح في العالم الحقيقي فهي مستوى آخر تماماً.

لقد أثبت الباحثون وجود أجسام معادية مادية: نظارات مصممة خصيصًا لخداع التعرف على الوجوه، وقمصان عليها أنماط تجعل الناس "غير مرئيين" لأجهزة الكشف عن الأجسام، وإشارات مرور معدلة بملصقات تسيء المركبات ذاتية القيادة قراءتها.

تواجه الهجمات المادية قيودًا إضافية، إذ تتغير زوايا الرؤية، وتتباين الإضاءة، وتُضيف الكاميرات تشويشًا. لكن حقيقة أن التشويشات المُخربة قادرة على الصمود أمام هذه التحولات تجعلها مصدر قلق بالغ لتطبيقات الذكاء الاصطناعي في العالم الحقيقي.

استكشف أبحاث الهجمات المعادية باستخدام الذكاء الاصطناعي المتفوق

يمكن أن تصبح أنظمة التعلم الآلي عرضة للخطر عندما تتعرض النماذج لمدخلات تم التلاعب بها، أو أمثلة معادية، أو بيانات مصممة للتأثير على دقة التنبؤ. متفوقة الذكاء الاصطناعي بإمكانهم دعم الفرق البحثية التي تُجري أبحاثًا حول الهجمات المعادية، ومتانة النماذج، واختبارات أمان الذكاء الاصطناعي. تشمل أعمالهم الاستشارات في مجال الذكاء الاصطناعي، والتعلم الآلي، وعلم البيانات، وتطوير برمجيات الذكاء الاصطناعي، وتطوير نماذج إثبات المفهوم، وتقييم النماذج.

يمكن أن تساعدك تقنية الذكاء الاصطناعي المتفوقة في:

  • تحديد سيناريوهات الاختبار العدائي
  • مراجعة مجموعات البيانات وهياكل النماذج
  • تقييم سلوك النموذج في ظل ظروف معادية
  • بناء نماذج أمنية لإثبات المفهوم
  • دعم سير عمل اختبار متانة نماذج الذكاء الاصطناعي
  • تخطيط دمجها في أنظمة الذكاء الاصطناعي الحالية
  • دعم تطوير نماذج الذكاء الاصطناعي الآمنة

بالنسبة لأبحاث الهجمات المعادية، قد ينطبق هذا على اختبار متانة النموذج، والكشف عن الأمثلة المعادية، وتحليل أمن الذكاء الاصطناعي، واستراتيجيات التعلم الآلي الدفاعية.

تحدث مع الذكاء الاصطناعي المتفوق حول نطاق المشروع.

أمثلة على هجمات من العالم الحقيقي

لا تقتصر الهجمات المعادية على كونها مجرد فضول أكاديمي، بل تم إثباتها ضد أنظمة الإنتاج عبر مجالات متعددة.

هجمات المركبات ذاتية القيادة

أظهر باحثون من جامعة كاليفورنيا في بيركلي أن وضع ملصقات صغيرة على إشارات التوقف قد يتسبب في تصنيف أنظمة الرؤية في المركبات ذاتية القيادة لها خطأً على أنها إشارات تحديد السرعة. والعواقب وخيمة، فبضعة دولارات من الملصقات قد تتسبب في حوادث مرورية.

وقد نجحت هجمات مماثلة في خداع أنظمة الكشف عن المسارات، مما تسبب في انحراف المركبات التجريبية إلى المسارات المعاكسة عند وضع علامات معادية على الطرق.

التهرب من التعرف على الوجه

يمكن للنظارات وأنماط المكياج المُعدّلة أن تخدع أنظمة التعرّف على الوجوه، بينما تبدو طبيعية نسبيًا للبشر. وتنجح هذه الهجمات حتى مع تغيّر الإضاءة وزوايا الرؤية.

يمكن أن تتسبب الهجمات الأكثر تطوراً في حدوث خطأ في تحديد الهوية المستهدف - مما يجعل النظام يتعرف على الشخص (أ) على أنه الشخص (ب)، مما قد يمنح وصولاً غير مصرح به إلى المناطق الآمنة.

التلاعب بالتشخيص الطبي

أظهرت الدراسات أن التغييرات الطفيفة في الصور الطبية قد تخدع أنظمة الذكاء الاصطناعي التشخيصية. فبإمكان جهة معادية إضافة تشويش إلى صور الرنين المغناطيسي، مما قد يؤدي إلى عدم اكتشاف الأورام أو تصنيف الأنسجة السليمة على أنها خبيثة.

إن المخاطر هنا حرفياً مسألة حياة أو موت، مما يجعل الدفاعات القوية أمراً بالغ الأهمية لنشر الذكاء الاصطناعي الطبي.

التهرب من البريد العشوائي والبرامج الضارة

يقوم المهاجمون بشكل روتيني بتعديل رسائل البريد الإلكتروني العشوائية وعينات البرامج الضارة لتجنب الكشف عنهم. ويستخدمون أنظمة الذكاء الاصطناعي الخاصة بهم لتحسين عملية التهرب، مما يخلق سباق تسلح آلي.

وفقًا لبحث أجراه معهد ماساتشوستس للتكنولوجيا، قام المهاجمون بتطوير برامج آلية تقوم تلقائيًا بتمويه البرامج الضارة من خلال الاختبار المتكرر ضد أنظمة الكشف.

كيفية الدفاع ضد الهجمات المعادية

لا يزال التصدي للهجمات المعادية يمثل تحديًا بحثيًا مستمرًا. لا يوجد نظام دفاعي واحد يوفر حماية كاملة، لكن اتباع نهج متعدد الطبقات يرفع مستوى التحدي أمام المهاجمين بشكل ملحوظ.

التدريب على المواجهة

إن آلية الدفاع الأكثر فعالية التي تم تحديدها حتى الآن هي التدريب العدائي - أي زيادة مجموعة التدريب بأمثلة معادية وتصنيفاتها الصحيحة.

يتعلم النموذج تصنيف المدخلات العادية والمدخلات المعادية بشكل صحيح. وقد أظهرت الأبحاث أن النماذج المدربة باستخدام أمثلة معادية من نوع PGD تصبح أكثر مقاومة للهجمات بشكل ملحوظ.

أما عيوبه؟ فالتدريب على أساليب الخصومة مكلف حسابيًا وقد يقلل من دقة النتائج على الأمثلة النظيفة. كما أنه لا يتمتع بالمتانة إلا ضد أنواع الهجمات التي تُشاهد أثناء التدريب.

تحويل المدخلات والكشف عنها

تتضمن استراتيجية دفاعية أخرى اكتشاف أو إزالة الاضطرابات المعادية قبل وصولها إلى النموذج.

تشمل التقنيات ما يلي:

  • معالجة مسبقة للصور تزيل الضوضاء عالية التردد
  • ضغط JPEG الذي يقضي على التشوهات الطفيفة
  • الكشف عن الشذوذ الإحصائي في المدخلات
  • أساليب التجميع التي تتحقق من صحة التنبؤات عبر نماذج متعددة

ومع ذلك، يمكن للمهاجمين المتكيفين في كثير من الأحيان التحايل على هذه الدفاعات عن طريق ابتكار اضطرابات تنجو من التحولات.

التكميم الدفاعي

غالباً ما تجعل عملية التكميم القياسية بعد التدريب النماذج أكثر عرضة للهجمات الخصومية بسبب تأثير تضخيم الخطأ. في المقابل، يمكن للتكميم الدفاعي (DQ) - وهي تقنية متخصصة تتحكم في ثابت ليبشيتز - تحسين المتانة ضد الاضطرابات الخصومية مع الحفاظ على الكفاءة الحسابية.

يحد التكميم من قدرة المهاجم على توليد اضطرابات معادية دقيقة، مما يجعل الهجمات أقل فعالية دون أن يؤدي ذلك إلى تدهور كبير في أداء النموذج على البيانات النظيفة.

الدفاعات المعتمدة

توفر بعض الأساليب الحديثة ضمانات موثوقة للمتانة - براهين رياضية تثبت أن تنبؤ النموذج لن يتغير لأي اضطراب ضمن حدود محددة.

تُضحي هذه الأساليب بالدقة مقابل أمان قابل للإثبات. وهي ليست عملية بعد للتطبيقات واسعة النطاق، لكنها تمثل اتجاهاً بحثياً هاماً.

نموذج المجموعة والتنوع

إن استخدام نماذج متعددة ومتنوعة واشتراط الإجماع يُصعّب الهجمات. فإذا لم تنتقل الأمثلة المُضللة بسلاسة بين النماذج، يتعين على المهاجم خداع جميع أعضاء المجموعة في آن واحد.

يعمل هذا بشكل أفضل عندما يستخدم أعضاء المجموعة بنى مختلفة أو إجراءات تدريب أو معالجة مسبقة للمدخلات - حيث أن زيادة التنوع تقلل من قابلية النقل.

استراتيجية الدفاعفعاليةالتكلفة الحسابيةالقيود 
التدريب على المواجهةمرتفع بسبب الهجمات المعروفةمستوى عالٍ جدًا (3-10 أضعاف وقت التدريب)مقاوم فقط لأنواع الهجمات المدربة
تحويل المدخلاتمعتدلمنخفض إلى متوسطيمكن للهجمات التكيفية أن تعوض
التكميم الدفاعيمتوسط إلى مرتفع (عند استخدام DQ الخاضع للتحكم بواسطة ليبشيتز) تكلفة حسابية منخفضةقد يؤدي ذلك إلى تقليل دقة النموذج
الدفاعات المعتمدةمضمون ضمن الحدودمرتفع جداًمفاضلة كبيرة في الدقة
مجموعة نماذجمتوسط إلى مرتفععالي (طرازات متعددة)زيادة تعقيد عملية النشر

تحدي إخفاء التدرج اللوني

غالباً ما اعتمدت محاولات الدفاع المبكرة على إخفاء التدرج - مما يجعل حساب التدرجات أو استخدامها أكثر صعوبة بالنسبة للمهاجمين.

ستضيف وسائل الدفاع ضوضاء، أو تستخدم عمليات غير قابلة للتفاضل، أو تحجب معلومات التدرج التي يحتاجها المهاجمون لتوليد أمثلة معادية.

تكمن المشكلة في أن تقنية إخفاء التدرج توفر أمانًا زائفًا. فقد أظهرت أبحاث OpenAI أن هذه الدفاعات تفشل أمام الهجمات التكيفية. إذ يمكن للمهاجمين تقريب التدرجات، أو استخدام نماذج بديلة، أو ببساطة تجربة تغييرات عشوائية حتى ينجح أحدها.

يُقرّ مجتمع الأمن الآن بأنّ إخفاء التدرج غير كافٍ. يجب أن تجعل الدفاعات الفعّالة النموذج قويًا في مواجهة التشويشات المعادية، لا أن تخفي فقط مسار إحداثها.

لماذا الدفاع صعب للغاية

تُعدّ مقاومة الهجمات الخصومية أصعب بكثير من مشاكل الأمن التقليدية. وهناك عدة عوامل تُفسّر ذلك:

  • مساحة الهجوم هائلة: في مجال الأمن التقليدي، يحمي المدافعون نقاط دخول محددة - منافذ الشبكة، ونقاط نهاية واجهة برمجة التطبيقات، ونماذج تسجيل الدخول. أما مع التعلم الآلي المعادي، فإن كل مدخل محتمل يمثل ثغرة أمنية محتملة.
  • الاضطرابات الصغيرة مهمة: تتجاهل أنظمة الأمان عادةً الاختلافات الطفيفة في المدخلات. لكن الهجمات المعادية تستغل حقيقة أن نماذج التعلم الآلي حساسة للتغيرات غير الملحوظة.
  • نموذج التهديد غير واضح: ما هي القيود التي يجب أن نفترضها على المهاجمين؟ هل هي قيود رقمية فقط أم مادية؟ هل هي قيود الصندوق الأبيض أم الصندوق الأسود؟ تؤدي الافتراضات المختلفة إلى دفاعات مختلفة.
  • هناك توتر متأصل بين الدقة والمتانة: غالباً ما تكون النماذج التي تحقق أفضل أداء على البيانات النظيفة هي الأكثر عرضة للأمثلة الخصومية. وعادةً ما يؤدي جعل النماذج قوية إلى تدهور دقتها على البيانات النظيفة.

وفقًا لبحث موسع نُشر على موقع arXiv يغطي الهجمات عبر دورة حياة التعلم الآلي، فإن هذا لا يزال يمثل تحديًا مفتوحًا يتطلب تعاونًا متعدد التخصصات مستمرًا.

سباق التسلح المستمر في مجال التعلم الآلي العدائي بين المهاجمين الذين يطورون تقنيات استغلال جديدة والمدافعين الذين يبنون نماذج وأنظمة كشف أكثر قوة.

 

التطبيقات الصناعية والاعتبارات الأمنية

تواجه الصناعات المختلفة تحديات فريدة في مجال التعلم الآلي العدائي بناءً على سياقات النشر ونماذج التهديد الخاصة بها.

الأمن الإلكتروني

تُعزز تقنيات التعلم الآلي أنظمة الأمن السيبراني الحديثة: كشف الاختراقات، وتصنيف البرامج الضارة، وكشف التصيد الاحتيالي، وكشف الحالات الشاذة.

يستخدم باحثون في معهد ماساتشوستس للتكنولوجيا، يعملون على تطوير ذكاء اصطناعي عدائي، الذكاء الاصطناعي لمحاكاة سلوك المهاجمين وأنماط اتخاذ قراراتهم. تعالج هذه الأنظمة المعرفة السيبرانية، وتخطط لخطوات الهجوم، وتتخذ قرارات مدروسة ضمن حملات الهجوم، مستخدمةً الذكاء الاصطناعي بشكل أساسي لاكتشاف ثغرات الذكاء الاصطناعي قبل أن يكتشفها المهاجمون.

تُمثل الهجمات المُعادية على مُصنفات الأمان تهديدًا وجوديًا. فإذا تمكن المُهاجمون من التهرب من الكشف بشكل موثوق، فإن البنية التحتية الأمنية بأكملها ستنهار.

الأنظمة الذاتية

تعتمد السيارات ذاتية القيادة والطائرات المسيّرة والروبوتات بشكل كبير على تقنيات الرؤية الحاسوبية والتعلم الآلي. وقد تتسبب الهجمات المادية المعادية على هذه الأنظمة في وقوع حوادث أو أضرار مادية أو خسائر في الأرواح.

يُضيف العالم المادي قيودًا وفرصًا للمهاجمين. يجب أن تصمد التشويشات أمام ضوضاء الكاميرا والظروف المتغيرة، ولكن يمكن تنفيذ هجمات ناجحة على نطاق واسع من خلال الأجسام المادية.

الرعاية الصحية والتصوير الطبي

يتوسع التشخيص المدعوم بالذكاء الاصطناعي بسرعة. وقد تتسبب الهجمات المعادية على أنظمة التصوير الطبي في تشخيص خاطئ، إما عن طريق إغفال أمراض حقيقية أو التسبب في نتائج إيجابية خاطئة تؤدي إلى علاجات غير ضرورية.

يُقدّم المجال الطبي تحديات فريدة: مخاطر عالية للغاية، ومتطلبات تنظيمية، والحاجة إلى قابلية التفسير والثقة.

الخدمات المالية

تستخدم البنوك تقنيات التعلم الآلي لكشف الاحتيال، والموافقة على القروض، وخوارزميات التداول، وتقييم المخاطر. وقد تُمكّن الهجمات الإلكترونية من الاحتيال المالي، والتلاعب بالأسواق، أو التمييز ضد الفئات المحمية.

إن الحافز الاقتصادي للهجمات هائل، مما يجعل أنظمة التعلم الآلي المالية أهدافًا رئيسية للخصوم المتطورين.

اتجاهات البحث والتوقعات المستقبلية

يستمر مجال التعلم الآلي التنافسي في التطور بسرعة، وتظهر فيه عدة اتجاهات بحثية واعدة.

الفهم النظري

يسعى الباحثون إلى فهم سبب وجود الأمثلة المعادية في المقام الأول. هل هي أساسية للتعلم الآلي عالي الأبعاد، أم أنها من مخلفات البنى الحالية؟

من شأن الأسس النظرية الأفضل أن توجه تطوير الدفاع وتساعد في تحديد فئات النماذج القوية بطبيعتها.

تدريب قوي وقابل للتطوير

تتسم أساليب التدريب الحالية للهجمات الخصومية باستهلاكها الكبير للموارد الحاسوبية، كما أنها لا تتناسب مع النماذج ومجموعات البيانات الضخمة. وقد يُسهم البحث في تطوير أساليب تدريب أكثر كفاءة وفعالية في جعل أنظمة الدفاع قابلة للتطبيق العملي في الواقع.

الكشف بدون تصنيف

تركز بعض المناهج على اكتشاف الأمثلة المعادية دون الحاجة بالضرورة إلى الدفاع ضدها. فإذا استطاع النظام تحديد المدخلات المشبوهة بدقة، فإنه يستطيع رفضها أو الإشارة إليها لمراجعتها من قبل المختصين.

وقد استكشفت الأبحاث استخدام إحصاءات المشاهد الطبيعية وغيرها من الخصائص التوزيعية للتمييز بين المدخلات المعادية والمدخلات المشروعة.

الدفاعات على مستوى الأجهزة

يبحث بعض الباحثين في آليات الأمان القائمة على الأجهزة والمصممة خصيصًا لاستنتاج التعلم الآلي. ويمكن للمعالجات المتخصصة تنفيذ تحويلات قوية أو حسابات معتمدة على مستوى الأجهزة.

أفضل الممارسات لنشر أنظمة التعلم الآلي الآمنة

ينبغي على المؤسسات التي تستخدم التعلم الآلي في بيئات معادية اتباع أفضل الممارسات الأمنية التالية:

  • نمذجة التهديدات: حدد سيناريوهات هجوم واقعية تتناسب مع سياق النشر المحدد. ما هي صلاحيات الوصول المتاحة للمهاجمين؟ وما هي أهدافهم؟ هذا يوجه أولويات الدفاع.
  • الدفاع المتعمق: استخدم آليات دفاع متعددة. لا تعتمد على أسلوب واحد فقط، بل اجمع بين التدريب على أساليب الخصوم، والتحقق من صحة المدخلات، وأساليب التجميع، والمراقبة.
  • التقييم المستمر: تتطور التهديدات المعادية باستمرار. لذا، اختبر النماذج المنشورة بانتظام في مواجهة أساليب الهجوم الجديدة وقم بتحديث الدفاعات وفقًا لذلك.
  • المراقبة والتسجيل: قم بتطبيق تسجيل شامل لمدخلات ومخرجات النموذج. يمكن أن يكشف اكتشاف الشذوذ في أنماط التنبؤ عن الهجمات الجارية.
  • الإشراف البشري: في القرارات المصيرية، يجب إبقاء العنصر البشري على اطلاع. ينبغي للذكاء الاصطناعي أن يساعد في عملية اتخاذ القرار البشري، لا أن يحل محله تماماً في المواقف التنافسية.
  • الشفافية والإفصاح: عندما تفشل النماذج بسبب الهجمات المعادية، يجب توثيق التجربة ومشاركتها. ويستفيد مجتمع الأمن من الثغرات الأمنية التي يتم الكشف عنها.

دور التنظيم والمعايير

كما أبرز المعهد الوطني للمعايير والتكنولوجيا في تقريره لعام 2025 حول الذكاء الاصطناعي الجدير بالثقة والمسؤول، فإن التبني المتسارع لأنظمة الذكاء الاصطناعي يتطلب الاهتمام بالأمن والمتانة.

بدأت الهيئات الحكومية وهيئات وضع المعايير في تطوير أطر عمل لأمن الذكاء الاصطناعي. وقد نشر معهد مهندسي الكهرباء والإلكترونيات (IEEE) العديد من المعايير التقنية المتعلقة بالتشويشات المعادية ونقاط الضعف في تفسير الشبكات العصبية.

من المرجح أن تظهر أطر تنظيمية تتطلب اختبار متانة الخصوم قبل نشر التعلم الآلي في التطبيقات الحرجة - على غرار كيفية خضوع البرامج الحساسة للسلامة لاختبارات صارمة اليوم.

الأسئلة الشائعة

ما هو التعلم الآلي التنافسي؟

يُعدّ التعلّم الآلي المُعادي مجالًا يدرس الهجمات على أنظمة الذكاء الاصطناعي وسبل الدفاع ضدّها. ويشمل هذا المجال كلاً من الجهات الخبيثة التي تخدع نماذج التعلّم الآلي، وباحثي الأمن الذين يكشفون الثغرات الأمنية لتعزيز متانتها. ويتناول هذا المجال كيفية تلاعب المُعادين ببيانات التدريب أو مُدخلات الاختبار لتقليل أداء الذكاء الاصطناعي أو التسبب في أخطاء مُحددة.

كيف تختلف الهجمات المعادية عن الهجمات الإلكترونية التقليدية؟

تستغل الهجمات الإلكترونية التقليدية ثغرات التنفيذ مثل تجاوز سعة المخزن المؤقت أو كلمات المرور الضعيفة. أما الهجمات المعادية فتستغل الخصائص الرياضية الأساسية لخوارزميات التعلم الآلي نفسها، حتى أن الأنظمة المصممة بدقة وخالية من الأخطاء تظل عرضة للاختراق. وبينما يُسهم إصلاح التعليمات البرمجية في حل الهجمات التقليدية، فإن تعزيز مقاومة الهجمات المعادية يتطلب إعادة النظر في بنية النموذج وإجراءات التدريب واستراتيجيات النشر.

هل يمكن تطبيق الأمثلة العدائية في العالم المادي؟

نعم، يمكن تصميم نماذج معادية لتعمل في البيئات المادية رغم اختلاف الإضاءة وزوايا الرؤية وتشويش الكاميرا. وقد أثبت الباحثون فعالية نماذج معادية مادية، منها ملصقات تخدع أنظمة رصد إشارات التوقف في المركبات ذاتية القيادة، ونظارات تتجنب التعرف على الوجوه، ورقع تجعل الأشخاص غير مرئيين لأجهزة كشف الأجسام. وتواجه الهجمات المادية قيودًا إضافية، لكنها تظل فعالة.

ما هو التدريب القائم على المواجهة، وما مدى فعاليته؟

يُعزز التدريب المُضاد مجموعة بيانات التدريب بأمثلة مُضادة وتصنيفاتها الصحيحة، مما يُعلّم النماذج تصنيف المدخلات العادية والمُضادة على حدٍ سواء. وهو حاليًا آلية الدفاع الأكثر فعالية، إذ يُحسّن بشكلٍ كبير من متانة النموذج ضد الهجمات. مع ذلك، فإنه يزيد التكلفة الحسابية من 3 إلى 10 أضعاف، وقد يُقلل من الدقة على البيانات النظيفة، ولا يُوفر سوى متانة ضد أنواع الهجمات التي تُشاهد أثناء التدريب.

هل توجد أي وسائل دفاع مضمونة ضد الهجمات المعادية؟

توفر أنظمة الحماية المعتمدة ضمانات رياضية بأن التنبؤات لن تتغير عند حدوث اضطرابات ضمن حدود معينة. توفر هذه الأساليب أمانًا مثبتًا، لكنها تتطلب حاليًا تنازلات كبيرة في الدقة وموارد حاسوبية ضخمة، مما يحد من تطبيقها العملي. لا يوجد نظام حماية يوفر حماية كاملة ضد جميع الهجمات المحتملة، فالأمان القوي يتطلب أنظمة حماية متعددة الطبقات وتقييمًا مستمرًا.

كيف يقوم المهاجمون بإنشاء أمثلة معادية؟

يستخدم المهاجمون تقنيات التحسين لإيجاد المدخلات التي تزيد من أخطاء التنبؤ. في هجمات الصندوق الأبيض التي تتيح الوصول الكامل إلى النموذج، يحسبون التدرجات التي توضح أي تغييرات المدخلات تؤثر بشكل أكبر على المخرجات، ثم يقومون بتغيير المدخلات في تلك الاتجاهات. أما مهاجمو الصندوق الأسود الذين لا يملكون وصولاً داخلياً، فيستعلمون من النموذج بشكل متكرر، ويدربون نماذج بديلة، ويستغلون قابلية نقل الأمثلة المعادية بين النماذج المختلفة.

ما هي القطاعات الأكثر عرضة للهجمات المعادية؟

تواجه القطاعات التي تعتمد على تطبيقات التعلم الآلي عالية المخاطر، والتي توفر حوافز اقتصادية قوية للمهاجمين، أكبر المخاطر. وتُعدّ المركبات ذاتية القيادة (ذات الأهمية البالغة للسلامة)، والرعاية الصحية (التشخيص الطبي)، والخدمات المالية (كشف الاحتيال والتداول)، والأمن السيبراني (البرمجيات الخبيثة وكشف الاختراقات) من أكثر القطاعات عرضةً للخطر. لذا، ينبغي على أي تطبيق يُمكن للمهاجمين من خلاله التربح من خداع أنظمة الذكاء الاصطناعي، تطبيق تدابير تعزيزية ضد الهجمات.

خاتمة

يمثل التعلم الآلي في الهجمات المعادية أحد أهم التحديات الأمنية التي تواجه نشر الذكاء الاصطناعي اليوم.

مع تزايد أهمية المهام التي تضطلع بها أنظمة الذكاء الاصطناعي - من التشخيص الطبي إلى القيادة الذاتية وصولاً إلى اتخاذ القرارات المالية - تزداد دوافع الخصوم لاستغلال نقاط الضعف. وتتزايد المخاطر.

لكن الحقيقة هي: لا يوجد حل سحري. لا يوجد نظام دفاعي واحد يجعل النماذج قوية تمامًا. سيستمر سباق التسلح بين المهاجمين والمدافعين، مما يدفع الابتكار لدى كلا الجانبين.

ما الذي يمكن للمؤسسات فعله؟ ابدأ بنمذجة التهديدات لفهم سيناريوهات الهجوم الواقعية في سياقك المحدد. طبّق دفاعات متعددة الطبقات تجمع بين التدريب على مواجهة الهجمات، والتحقق من صحة المدخلات، والمراقبة. اختبر النماذج المنشورة باستمرار في مواجهة أساليب الهجوم المتطورة.

والأهم من ذلك، يجب إدراك أن القدرة على مواجهة الهجمات لم تعد خياراً، بل أصبحت شرطاً أساسياً لأنظمة الذكاء الاصطناعي الجديرة بالثقة.

يواصل مجتمع البحث العلمي إحراز تقدم ملحوظ، من خلال تطوير أساليب تدريب أفضل، وتقنيات كشف محسّنة، وفهم نظري أعمق. وتعمل هيئات وضع المعايير والجهات التنظيمية على تطوير أطر عمل لنشر الذكاء الاصطناعي بشكل آمن.

يتعين على المؤسسات التي تستخدم تقنيات التعلم الآلي أن تأخذ التهديدات المعادية على محمل الجد الآن. قيّم نقاط ضعف نماذجك، وطبّق وسائل الحماية المناسبة لنموذج التهديد الخاص بك، وابقَ على اطلاع دائم بأحدث أساليب الهجوم والدفاع.

يعتمد مستقبل أمن الذكاء الاصطناعي على التعاون بين الباحثين والممارسين وصناع السياسات. ويُعدّ فهم التعلّم الآلي المُعادي الخطوة الأولى نحو بناء أنظمة ذكاء اصطناعي يُمكننا الوثوق بها فعلاً في بيئات معادية.

دعونا نعمل معا!
arArabic
انتقل إلى أعلى