تحميل لدينا الذكاء الاصطناعي في الأعمال | تقرير الاتجاهات العالمية 2023 والبقاء في الطليعة!

أفضل نماذج الرؤية الحاسوبية الرائدة 

جلسة استشارية مجانية في مجال الذكاء الاصطناعي
احصل على تقدير مجاني للخدمة
أخبرنا عن مشروعك - وسنتصل بك بعرض سعر مخصص

هل تساءلت يومًا كيف يفتح هاتفك بوجهك، أو كيف تعرف التطبيقات محتوى الصورة بدقة؟ هذا هو سحر نماذج الرؤية الحاسوبية - الأدوات التي تساعد الآلات على "رؤية" الصور وفهمها كما نفعل نحن. على مر السنين، قطعت الرؤية الحاسوبية أشواطًا هائلة، بفضل إصدار نماذج قوية وفعّالة. أثرت هذه الاكتشافات على كل شيء، من الرعاية الصحية إلى السيارات ذاتية القيادة. على سبيل المثال، أحدثت نماذج مثل AlexNet وResNet ثورة في تصنيف الصور. جعلت R-CNN وخلفاؤها من اكتشاف الأجسام أكثر ذكاءً، بينما غيّرت U-Net قواعد تجزئة الصور الطبية.

في هذا الدليل، سنتناول الأنواع المختلفة من نماذج الرؤية الحاسوبية وما يجعل كل منها مميزًا - بكل بساطة.

نماذج مخصصة لتحديات العالم الحقيقي: نهج AI Superior في الرؤية الحاسوبية

متفوقة الذكاء الاصطناعي رائدة في مجال الذكاء الاصطناعي. شركتنا قادرة على تكييف نماذج الرؤية الحاسوبية، بدءًا من الشبكات العصبية التلافيفية (CNN) ووصولًا إلى المحولات، لتطبيقات واقعية عالية التخصص. 

سواءً كان الأمر يتعلق بتجزئة الأنسجة الدهنية والعضلية باستخدام فحوصات الرنين المغناطيسي لمركز طب العيون، أو نشر نظام فوري للكشف عن الكتابة على الجدران للبلديات، فإننا نضمن أن يكون كل حل مصممًا خصيصًا ودقيقًا وقابلًا للتطوير. وقد حسّنت أداة الكشف عن أضرار الطرق لدينا، المدعومة بتقنية التعلم العميق، مراقبة البنية التحتية، بينما وفّر نظام الكشف عن الحطام المعتمد على الطائرات المسيّرة أكثر من 320 ساعة عمل شهريًا لمدينة بأكملها. ومن قصص النجاح الأخرى حل أتمتة التعرف الضوئي على الحروف (OCR) الذي قلّص أخطاء إدخال البيانات إلى النصف، مما زاد الكفاءة بشكل كبير.

نهج AI Superior يركز دائمًا على العميل. فنحن لا نبني أنظمة ذكاء اصطناعي متطورة فحسب، بل نرشد عملاءنا أيضًا من خلال التدريب والتكامل السلس مع سير عملهم الحالي. إذا كنت ترغب في دمج أحدث التطورات في مجال الذكاء الاصطناعي في عملك، فنحن هنا لمساعدتك. دع AI Superior تطوّر وتنشر أدوات الرؤية الحاسوبية التي يحتاجها مشروعك لنجاحه.

والآن، لنتحدث عن نماذج الرؤية الحاسوبية. ما هي أنواعها، وكيف تختلف؟ لنلقِ نظرة على كلٍّ منها خطوةً بخطوة:

1. YOLO (أنت تنظر مرة واحدة فقط)

YOLO هي عائلة من نماذج الكشف عن الأجسام في الوقت الفعلي، تتميز بسرعتها وكفاءتها. قدّم جوزيف ريدمون وآخرون YOLO، وهي تعالج الصور في تمريرة واحدة عبر شبكة عصبية ملتوية (CNN)، وتتنبأ بالصناديق الحدودية واحتمالات الفئات في آنٍ واحد. بفضل بنيتها خفيفة الوزن وقدرتها على تحقيق معدلات إطارات عالية، فهي مثالية لأجهزة الحافة وتطبيقات الوقت الفعلي مثل مراقبة الفيديو والقيادة الذاتية. توازن أحدث الإصدارات، مثل YOLOv12، بين السرعة والدقة، محققةً ما يصل إلى 150 إطارًا في الثانية للشبكات الأصغر، مع متوسط دقة متوسط (mAP) يبلغ حوالي 63% على مجموعات بيانات COCO.

خصائص النموذج:

  • هندسة خفيفة الوزن مُحسّنة لأجهزة الحافة
  • اكتشاف الكائنات في الوقت الفعلي بسرعة تصل إلى 150 إطارًا في الثانية
  • الكشف في مرحلة واحدة لمعالجة أسرع
  • خريطة جيدة إلى حد ما لـ 63% على مجموعة بيانات COCO
  • يدعم اكتشاف الكائنات وتقسيمها وتصنيفها

نطاق الاستخدام:

  • المركبات ذاتية القيادة لاكتشاف المشاة والعقبات
  • مراقبة الفيديو للمراقبة في الوقت الحقيقي
  • الطائرات بدون طيار والروبوتات للملاحة وتتبع الأشياء
  • أجهزة إنترنت الأشياء للتطبيقات ذات زمن الوصول المنخفض
  • تجارة التجزئة لأنظمة الدفع الآلي

2. شبكة VGGNet

شبكة VGGNet، التي طورتها مجموعة الهندسة البصرية بجامعة أكسفورد، هي شبكة عصبية التفافية تتميز ببساطتها وعمقها. باستخدام مرشحات التفافية صغيرة 3×3 مكدسة في هياكل عميقة (تصل إلى 19 طبقة)، تتفوق VGGNet في مهام تصنيف الصور. يسمح هيكلها الموحد بالتقاط أنماط معقدة، مما يجعلها معيارًا للتعلم بالنقل. ومع ذلك، فإن عدد معاملاتها العالي يجعلها كثيفة الاستخدام للحوسبة، مما يحد من استخدامها على الأجهزة محدودة الموارد.

خصائص النموذج:

  • هندسة عميقة تصل إلى 19 طبقة
  • مرشحات التفافية صغيرة 3×3 من أجل البساطة
  • عدد كبير من المعلمات يتطلب موارد حسابية كبيرة
  • أداء قوي في تصنيف الصور
  • يستخدم على نطاق واسع للتعلم بالتحويل

نطاق الاستخدام:

  • تصنيف الصور لمجموعات البيانات واسعة النطاق مثل ImageNet
  • نقل التعلم لمهام الرؤية المخصصة
  • التصوير الطبي لتصنيف الأمراض
  • البحث الأكاديمي للمقارنة المرجعية
  • أنظمة استرجاع الصور القائمة على المحتوى

3. محول سوين

يقدم مُحوِّل سوين بنية مُحوِّل هرمية ذات نوافذ مُزاحة، مما يُتيح نمذجة فعّالة للبيانات المرئية على مُستويات مُختلفة. وعلى عكس شبكات CNN التقليدية، يستخدم هذا المُحوِّل آليات التركيز الذاتي ضمن نوافذ محلية، مما يُقلل من التعقيد الحسابي مع الحفاظ على دقة عالية. ويتفوق على العديد من النماذج القائمة على شبكات CNN في تصنيف الصور، وكشف الأجسام، والتجزئة، مما يجعله خيارًا مُتعدد الاستخدامات لمهام الرؤية الحاسوبية الحديثة.

خصائص النموذج:

  • محول هرمي مع انتباه نافذة محولة
  • التوسع الفعال لمهام الرؤية المتعددة
  • دقة عالية في معايير ImageNet وCOCO
  • تعقيد حسابي أقل مقارنة بـ ViTs القياسية
  • يدعم تصنيف الصور واكتشافها وتقسيمها

نطاق الاستخدام:

  • تصنيف الصور للتطبيقات عالية الدقة
  • اكتشاف الكائنات في المشاهد المعقدة
  • التجزئة الدلالية للتخطيط الحضري
  • القيادة الذاتية لفهم المشهد
  • الزراعة الدقيقة لمراقبة المحاصيل

4. شبكة EfficientNet

يحقق نظام EfficientNet، الذي طورته جوجل، دقةً فائقةً باستخدام معلمات أقل، وذلك من خلال قياس عمق الشبكة وعرضها ودقتها بشكل منهجي باستخدام معامل مركب. كفاءته العالية تجعله مناسبًا لكلٍ من الخوادم عالية الأداء والأجهزة محدودة الموارد مثل الهواتف المحمولة. توفر إصداراته، مثل EfficientNet-B0 إلى B7، مرونةً تناسب مختلف الميزانيات الحسابية، وتتفوق في تصنيف الصور ومهام تعلم النقل.

خصائص النموذج:

  • القياس المركب للعمق والعرض والدقة
  • دقة عالية مع عدد أقل من المعلمات
  • المتغيرات (B0-B7) لقيود الموارد المختلفة
  • مُحسّن للأجهزة المحمولة والمدمجة
  • أداء قوي في التعلم الانتقالي

نطاق الاستخدام:

  • تطبيقات الهاتف المحمول لتصنيف الصور على الجهاز
  • الأنظمة المضمنة للمعالجة في الوقت الفعلي
  • التصوير الطبي لأدوات التشخيص
  • الأتمتة الصناعية لمراقبة الجودة
  • مهام تصنيف الصور للأغراض العامة

5. ديتكترون 2

Detectron2، الذي طورته أبحاث الذكاء الاصطناعي في فيسبوك (FAIR)، هو مكتبة معيارية وقابلة للتطوير لاكتشاف الكائنات وتجزئة البيانات. تُطبّق المكتبة خوارزميات متطورة مثل Faster R-CNN وMask R-CNN وRetinaNet، مما يُتيح إمكانية تخصيص عالية للتطبيقات البحثية والصناعية. يضمن تكاملها مع PyTorch المرونة، مما يجعلها الخيار الأمثل للمهام التي تتطلب كشفًا وتجزئة دقيقين، مثل المركبات ذاتية القيادة والتصوير الطبي.

خصائص النموذج:

  • مكتبة معيارية تدعم خوارزميات الكشف المتعددة
  • تنفيذ R-CNN أسرع، وقناع R-CNN، وRetinaNet
  • إمكانية تخصيص عالية للبحث والإنتاج
  • التكامل السلس مع PyTorch
  • دقة عالية في الكشف والتجزئة

نطاق الاستخدام:

  • المركبات ذاتية القيادة لاكتشاف الأشياء
  • التصوير الطبي لتقسيم الأعضاء والأورام
  • الروبوتات لتتبع الأشياء المعقدة
  • البحث الصناعي عن حلول الرؤية المخصصة
  • الزراعة الدقيقة لتحليل صحة النبات

6. دينو

DINO، الذي طورته شركة Meta AI، هو نموذج تعلم ذاتي الإشراف يُحقق تمثيلات بصرية قوية دون بيانات مُصنّفة. من خلال تعزيز الاتساق بين المشاهد المُعزّزة للصورة نفسها، يتعلم DINO ميزات تُنافس النماذج المُصنّفة في مهام مثل تصنيف الصور وكشف الأجسام. قدرته على العمل مع مجموعات بيانات غير مُصنّفة تجعله فعالاً من حيث التكلفة للتطبيقات التي تندر فيها البيانات المُصنّفة.

خصائص النموذج:

  • التعلم الذاتي للإشراف على التمثيلات القوية
  • لا يوجد متطلب لمجموعات البيانات المُسمّاة
  • أداء عالي في تصنيف الصور والكشف عنها
  • فعّالة مع محولات الرؤية (ViTs)
  • فعّال من حيث التكلفة للبيئات التي تعاني من ندرة البيانات

نطاق الاستخدام:

  • تصنيف الصور باستخدام بيانات محدودة مُسمّاة
  • اكتشاف الأشياء في إعدادات البحث
  • التصوير الطبي للكشف عن الأمراض النادرة
  • المراقبة البيئية باستخدام صور الأقمار الصناعية
  • وسائل التواصل الاجتماعي لتحليل المحتوى

7. كليب

يربط برنامج CLIP (التدريب المسبق على اللغة والصورة التبايني)، الذي طورته شركة OpenAI، البيانات المرئية والنصية من خلال التعلم التبايني. يتعلم البرنامج محاذاة الصور مع أوصافها النصية المقابلة، مما يتيح تصنيفًا دقيقًا ومهامًا متعددة الوسائط مثل ترجمة الصور. تجعل إمكانيات CLIP متعددة الوسائط مثالية للتطبيقات التي تتطلب فهمًا بصريًا ولغويًا، مثل البحث المرئي وتعديل المحتوى.

خصائص النموذج:

  • نموذج متعدد الوسائط يدمج الرؤية واللغة
  • قدرات تصنيف اللقطة الصفرية
  • أداء عالي في الاسترجاع عبر الوسائط
  • تم تدريبه على مجموعات بيانات الصور والنصوص واسعة النطاق
  • متعدد الاستخدامات لمهام الرؤية واللغة

نطاق الاستخدام:

  • البحث البصري في منصات التجارة الإلكترونية
  • إدارة المحتوى على وسائل التواصل الاجتماعي
  • ترجمة الصور لأدوات إمكانية الوصول
  • روبوتات الدردشة متعددة الوسائط لخدمة العملاء
  • أدوات تعليمية للتعلم البصري

8. شبكة ريسنت

أحدثت شبكة ResNet (الشبكة المتبقية)، التي طورتها مايكروسوفت للأبحاث، ثورةً في مجال التعلم العميق من خلال تقديمها وصلات متبقية تتيح تدريب شبكات عميقة جدًا (تصل إلى 152 طبقة) دون التعرض لتلاشي التدرجات. ومن خلال تعلم الدوال المتبقية باستخدام وصلات التخطي، تحقق ResNet دقة عالية في تصنيف الصور، وتُشكل أساسًا للعديد من مهام الرؤية الحاسوبية. وتجعلها متانتها وتعدد استخداماتها عنصرًا أساسيًا في كل من التطبيقات البحثية والصناعية.

خصائص النموذج:

  • هندسة عميقة تصل إلى 152 طبقة
  • الاتصالات المتبقية للتخفيف من التدرجات المتلاشية
  • دقة عالية في تصنيف الصور على ImageNet
  • العمود الفقري متعدد الاستخدامات للكشف والتجزئة
  • مكثف حسابيًا ولكن مُحسَّن على نطاق واسع

نطاق الاستخدام:

  • تصنيف الصور لمجموعات البيانات واسعة النطاق
  • اكتشاف الكائنات وتقسيمها كعمود فقري
  • التصوير الطبي للتصنيف التشخيصي
  • أنظمة التعرف على الوجه
  • الأتمتة الصناعية لاكتشاف العيوب

9. Inception (جوجل نت)

إنسيبشن، المعروفة أيضًا باسم جوجل نت، هي شبكة عصبية ملتوية عميقة طورتها جوجل، وتتميز بوحدات "إنسيبشن" المبتكرة التي تعالج أحجام مرشحات متعددة بالتوازي لالتقاط سمات متنوعة. وقد قُدِّمت هذه الشبكة، الفائزة بتحدي إيماج نت لعام ٢٠١٤، بدقة عالية في تصنيف الصور بمعلمات أقل من الشبكات المعاصرة مثل VGGNet، مما يجعلها أكثر كفاءة حسابيًا. توازن بنيتها بين العمق والعرض، مما يتيح استخراج السمات بفعالية لمجموعات البيانات المعقدة. وقد أثر تصميم إنسيبشن على النماذج اللاحقة، ولا يزال خيارًا شائعًا للتعلم بالنقل، وركيزةً أساسيةً لمهام الكشف.

خصائص النموذج:

  • وحدات Inception مع التفافات متوازية
  • دقة عالية مع عدد معلمات أقل
  • الحوسبة الفعالة مقارنة بالشبكات الأعمق
  • أداء قوي في تصنيف ImageNet
  • مناسب للتعلم بالنقل والاستخدام الأساسي

نطاق الاستخدام:

  • تصنيف الصور لمجموعات البيانات واسعة النطاق
  • نقل التعلم لتطبيقات الرؤية المخصصة
  • اكتشاف الكائنات كعنصر أساسي لاستخراج الميزات
  • التصوير الطبي للمهام التشخيصية
  • أنظمة المراقبة لتحليل المشهد

10. موبايل نت

MobileNet، التي طورتها جوجل، هي عائلة من الشبكات العصبية التلافيفية خفيفة الوزن، مصممة للبيئات محدودة الموارد، مثل الأجهزة المحمولة والمدمجة. تستخدم هذه الشبكات تلافيف قابلة للفصل بعمق لتقليل التعقيد الحسابي مع الحفاظ على دقة معقولة، مما يجعلها مثالية للتطبيقات على الأجهزة. توفر إصدارات مثل MobileNetV2 وV3 أداءً محسّنًا مع معلمات أقل، محققةً دقة تصل إلى 75% من الدرجة الأولى على ImageNet مع زمن انتقال منخفض. كفاءتها وقابليتها للتكيف تجعلها الخيار الأمثل لمهام الرؤية الفورية على الأجهزة منخفضة الطاقة.

خصائص النموذج:

  • هندسة خفيفة الوزن مع التفافات منفصلة بعمق
  • مُحسّن للأجهزة المحمولة والمدمجة
  • المتغيرات (V1-V3) ذات الكفاءة والدقة المحسنة
  • دقة تصل إلى 75% من الدرجة الأولى على ImageNet
  • زمن انتقال منخفض للتطبيقات في الوقت الفعلي

نطاق الاستخدام:

  • تطبيقات الهاتف المحمول لتصنيف الصور على الجهاز
  • الأنظمة المضمنة لإنترنت الأشياء والحوسبة الحافة
  • الكشف عن الكائنات في الوقت الحقيقي في الأجهزة القابلة للارتداء
  • الواقع المعزز للتعرف على الميزات
  • البيع بالتجزئة لتحديد المنتج داخل المتجر

11. ديب فيس

DeepFace، الذي طورته أبحاث الذكاء الاصطناعي في فيسبوك، هو نموذج تعلم عميق مصمم للتعرف على الوجوه، محققًا دقة تضاهي دقة البشر في تحديد الوجوه. يستخدم شبكة عصبية ملتوية من تسع طبقات مُدربة على مجموعة بيانات ضخمة من صور الوجوه، باستخدام تقنية محاذاة ثلاثية الأبعاد لتطبيع اتجاهات الوجه. يتميز DeepFace ببراعة في استخراج ملامح الوجه ومقارنتها عبر الصور، مما يجعله فعالًا للغاية في التحقق من الهوية. أداؤه القوي في بيئات غير مقيدة، مثل الإضاءة أو الزوايا المتغيرة، جعله معيارًا في أبحاث وتطبيقات التعرف على الوجوه.

خصائص النموذج:

  • شبكة CNN ذات تسع طبقات مع محاذاة وجه ثلاثية الأبعاد
  • دقة عالية وأداء يقترب من مستوى الإنسان
  • تم تدريبه على مجموعات بيانات صور الوجه واسعة النطاق
  • قوي في مواجهة التغيرات في الإضاءة والوضعية
  • مُحسّن للتحقق من الوجه والتعرف عليه

نطاق الاستخدام:

  • أنظمة الأمن للمصادقة البيومترية
  • وسائل التواصل الاجتماعي لوضع علامات تلقائية على الوجوه
  • المراقبة لتحديد هوية الأفراد في الحشود
  • التحكم في الوصول في المباني الذكية
  • إنفاذ القانون لتحديد هوية المشتبه بهم

12. فيس نت

FaceNet، الذي طورته جوجل، هو نموذج تعلم عميق للتعرف على الوجوه، يستخدم دالة فقدان ثلاثية لتعلم تضمين مُدمج ذي 128 بُعدًا لكل وجه. من خلال ربط الوجوه في مساحة عالية الأبعاد، حيث تكون الوجوه المتشابهة أقرب إلى بعضها البعض، يحقق FaceNet أداءً متطورًا في التحقق من الوجوه وتجميعها. بنيته، القائمة على شبكة CNN عميقة، عالية الكفاءة وقابلة للتطوير، مما يُتيح التعرف الفوري على الوجوه في مجموعات بيانات متنوعة. تتميز تضمينات FaceNet بتعدد استخداماتها، حيث تدعم تطبيقات متنوعة، بدءًا من مصادقة الأجهزة المحمولة ووصولًا إلى إدارة الهوية واسعة النطاق.

خصائص النموذج:

  • يستخدم خسارة ثلاثية للتضمينات المدمجة للوجه
  • متجهات الميزات ذات 128 بُعدًا للوجوه
  • دقة عالية في التحقق من الوجوه والتجميع
  • قابلة للتطوير لمجموعات البيانات الكبيرة
  • فعالة للمعالجة في الوقت الحقيقي

نطاق الاستخدام:

  • مصادقة الجهاز المحمول عبر فتح الوجه
  • أنظمة إدارة هوية المؤسسة
  • تنظيم الصور لتجميع الوجوه
  • البيع بالتجزئة لتجارب العملاء الشخصية
  • أمن المطارات لمراقبة جوازات السفر آليًا

13. شبكة R-CNN سريعة

Fast R-CNN، الذي طوره روس جيرشيك، هو نموذج متقدم لكشف الأجسام يُحسّن من سابقه، R-CNN، من خلال دمج اقتراح المنطقة وتصنيفها في شبكة عصبية تلافيفية واحدة. يستخدم هذا النموذج طبقة تجميع مناطق الاهتمام (RoI) لاستخراج خرائط معالم ثابتة الحجم من المناطق المقترحة، مما يُسرّع بشكل كبير من التدريب والاستدلال مع الحفاظ على دقة عالية. يُحقق Fast R-CNN أداءً قويًا على مجموعات بيانات مثل PASCAL VOC، بدقة متوسطة (mAP) تبلغ حوالي 66%، مما يجعله نموذجًا أساسيًا لأطر عمل كشف الأجسام الحديثة مثل Detectron2.

خصائص النموذج:

  • شبكة CNN أحادية المرحلة مع تجميع منطقة الاهتمام لتحقيق الكفاءة
  • تم تحسين السرعة عبر R-CNN من خلال مشاركة الميزات التلافيفية
  • دقة عالية مع mAP من ~66% على PASCAL VOC
  • يدعم اكتشاف الكائنات والتصنيف القائم على المنطقة
  • يتطلب مقترحات منطقة خارجية (على سبيل المثال، البحث الانتقائي)

نطاق الاستخدام:

  • اكتشاف الأجسام في المركبات ذاتية القيادة
  • أنظمة المراقبة لتحديد الكائنات في مقاطع الفيديو
  • الروبوتات للإدراك البيئي
  • الأتمتة الصناعية للكشف عن عيوب التصنيع
  • البحث الأكاديمي لخوارزميات الكشف عن النماذج الأولية

14. تشيكسنت

CheXNet، الذي طوره باحثون من جامعة ستانفورد، هو نموذج تعلم عميق قائم على بنية DenseNet ذات 121 طبقة، مصمم خصيصًا للكشف عن أمراض الصدر من صور الأشعة السينية للصدر. بتدريبه على مجموعة بيانات ChestX-ray14 واسعة النطاق، يحقق أداءً يُضاهي أداء أخصائي الأشعة في تحديد حالات مثل الالتهاب الرئوي، بدرجة F1 تبلغ حوالي 0.435 للكشف عن الالتهاب الرئوي. إن قدرة CheXNet على تصنيف أمراض متعددة تجعله أداة فعّالة للتشخيص الآلي في مجال الرعاية الصحية، وخاصةً في البيئات محدودة الموارد.

خصائص النموذج:

  • هندسة DenseNet المكونة من 121 طبقة
  • تم التدريب على مجموعة بيانات ChestX-ray14 لـ 14 مرضًا صدريًا
  • دقة على مستوى أخصائي الأشعة للكشف عن الالتهاب الرئوي
  • يدعم التصنيف متعدد العلامات
  • مكثف حسابيًا ولكنه فعال في التصوير الطبي

نطاق الاستخدام:

  • التشخيص الآلي لأشعة الصدر في المستشفيات
  • فحص أمراض الصدر في العيادات النائية
  • الطب عن بعد للكشف السريع عن الأمراض
  • البحث الطبي لتحليل مجموعات بيانات الأشعة السينية واسعة النطاق
  • الصحة العامة لمراقبة انتشار الأمراض

15. RetinaNet (تكييف التصوير الطبي)

RetinaNet، الذي طُوّر في الأصل بواسطة قسم أبحاث الذكاء الاصطناعي في فيسبوك، هو نموذج أحادي المرحلة للكشف عن الأجسام، وقد تم تكييفه لتطبيقات الرعاية الصحية، وخاصةً في مهام التصوير الطبي مثل الكشف عن التشوهات في فحوصات التصوير المقطعي المحوسب أو التصوير بالرنين المغناطيسي. يستخدم هذا النموذج دالة فقدان البؤرة لمعالجة اختلال التوازن بين الفئات، مما يُتيح الكشف الدقيق عن الآفات الصغيرة أو النادرة. في مجال الرعاية الصحية، يتمتع RetinaNet بحساسية عالية (مثل ~90% للكشف عن الآفات في صور الرنين المغناطيسي للدماغ)، مما يجعله قيّمًا للمهام التي تتطلب تحديدًا دقيقًا للتشوهات في الصور الطبية المعقدة.

خصائص النموذج:

  • كاشف أحادي المرحلة مع فقدان البؤرة لعدم توازن الفئة
  • حساسية عالية لاكتشاف الأشياء الصغيرة أو النادرة
  • مُكيَّف للتصوير الطبي مع ضبط دقيق لمجموعات البيانات مثل LUNA16
  • يدعم تحديد موقع الصندوق المحدد وتصنيفه
  • يوازن بين السرعة والدقة للاستخدام السريري

نطاق الاستخدام:

  • الكشف عن الأورام أو الآفات في فحوصات التصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي
  • فحص عقيدات الرئة في فحوصات التصوير المقطعي المحوسب بجرعات منخفضة
  • التحليل الآلي لصور الشبكية لاعتلال الشبكية السكري
  • سير عمل الأشعة لتحديد أولويات الحالات العاجلة
  • البحث الطبي لشرح مجموعات بيانات التصوير

16. SSD (كاشف متعدد الصناديق أحادي اللقطة)

طُوِّرَ نموذج الكشف عن الأجسام SSD، الذي قدّمه وي ليو وآخرون عام ٢٠١٦، وهو نموذج أحادي المرحلة للكشف عن الأجسام، مُصمَّم لتحقيق السرعة والكفاءة. يُلغي هذا النموذج الحاجة إلى شبكة اقتراح مناطق منفصلة، وذلك من خلال إجراء الكشف على مقاييس متعددة باستخدام خرائط معالم من طبقات التفافية مختلفة. يُحقق نموذج الكشف عن الأجسام SSD توازنًا جيدًا بين الدقة والأداء الفوري، مما يجعله مناسبًا للبيئات محدودة الموارد.

خصائص النموذج:

  • هندسة أحادية المرحلة للكشف السريع
  • خرائط ميزات متعددة المقاييس لاكتشاف الأشياء ذات الأحجام المختلفة
  • يستخدم المربعات الافتراضية (مشابهة لمربعات المرساة)
  • خفيف الوزن مقارنة بأجهزة الكشف ذات المرحلتين مثل Faster R-CNN
  • تم تدريبه على مجموعات البيانات مثل COCO وPASCAL VOC

نطاق الاستخدام:

  • الكشف عن الكائنات في الوقت الحقيقي في الأنظمة المضمنة
  • تطبيقات الهاتف المحمول للواقع المعزز
  • المراقبة والرصد الأمني
  • الأتمتة الصناعية لاكتشاف العيوب

17. يو-نت

شبكة U-Net، التي اقترحها أولاف رونبرغر وآخرون عام ٢٠١٥، هي شبكة عصبية ملتوية مصممة لتجزئة الصور، وخاصةً في التصوير الطبي الحيوي. تتميز بنيتها على شكل حرف U بمسار انكماش لالتقاط السياق ومسار توسعي لتحديد المواقع بدقة، مع وصلات تخطي للحفاظ على التفاصيل المكانية. تُستخدم شبكة U-Net على نطاق واسع في مهام التجزئة على مستوى البكسل نظرًا لكفاءتها ودقتها.

خصائص النموذج:

  • هندسة التشفير وفك التشفير المتماثلة
  • تخطي الاتصالات بين المسارات المتعاقدة والتوسعية
  • خفيف الوزن مع معلمات أقل
  • مُصمم لمجموعات البيانات الصغيرة مع زيادة البيانات
  • أداء عالي في تقسيم الصور الطبية

نطاق الاستخدام:

  • تقسيم الصور الطبية (على سبيل المثال، التصوير بالرنين المغناطيسي، والتصوير المقطعي المحوسب)
  • صور الأقمار الصناعية لرسم خرائط استخدام الأراضي
  • القيادة الذاتية لتقسيم الطرق والمسارات
  • التطبيقات الصناعية لتحليل عيوب السطح

18. ViT (محول الرؤية)

مُحوِّل الرؤية (Vision Transformer (ViT))، الذي قدّمه أليكسي دوسوفيتسكي وآخرون عام ٢٠٢٠، يُكيِّف بنية المُحوِّل المُستقاة من معالجة اللغة الطبيعية لتصنيف الصور. يُقسِّم الصور إلى رقع، ويُعاملها كرموز، ثم يُعالجها عبر طبقات المُحوِّل. يتفوق ViT في مجموعات البيانات واسعة النطاق، مُتفوِّقًا على شبكات CNN التقليدية عند تدريبه مُسبقًا على مجموعات بيانات ضخمة مثل ImageNet-21k أو JFT-300M.

خصائص النموذج:

  • الهندسة المعمارية القائمة على المحولات مع الاهتمام الذاتي
  • تصحيحات الصور كرموز إدخال
  • المتغيرات: ViT-Base، ViT-Large، ViT-Huge
  • مكثف حسابيًا، ويتطلب تدريبًا مسبقًا كبيرًا
  • دقة عالية على ImageNet مع البيانات واسعة النطاق

نطاق الاستخدام:

  • تصنيف الصور على مجموعات البيانات الكبيرة
  • نقل التعلم لمهام الرؤية
  • التطبيقات متعددة الوسائط (على سبيل المثال، نماذج الرؤية واللغة)
  • البحث في هياكل الرؤية القابلة للتطوير

19. قناع R-CNN

قناع R-CNN، الذي قدّمه كايمينغ هي وآخرون عام ٢٠١٧، يُوسّع نطاق Faster R-CNN ليُجري تجزئةً للمثيلات بالإضافة إلى كشف الأجسام. يتنبأ القناع بأقنعة الأجسام بكسلًا بكسلًا أثناء كشفها وتصنيفها، مما يجعله أداةً فعّالة للمهام التي تتطلب حدودًا دقيقة للأجسام. وقد جعله تعدد استخداماته معيارًا في مهام الرؤية المعقدة.

خصائص النموذج:

  • هندسة ذات مرحلتين مع شبكة اقتراح المنطقة (RPN)
  • إضافة فرع التنبؤ بالقناع إلى Faster R-CNN
  • يستخدم RoIAlign لمحاذاة الميزات بدقة
  • مكثف حسابيًا ولكنه دقيق للغاية
  • تم تدريبه على COCO للكشف والتجزئة

نطاق الاستخدام:

  • تقسيم الحالات للمركبات ذاتية القيادة
  • تقدير وضعية الإنسان واكتشاف النقاط الرئيسية
  • التصوير الطبي لتجزئة الأعضاء
  • الروبوتات للتلاعب بالأشياء

20. شبكة R-CNN أسرع

شبكة R-CNN الأسرع، التي قدّمها شاوتشينغ رين وآخرون عام ٢٠١٥، هي نموذج ثنائي المراحل لكشف الأجسام، وقد حسّن السرعة والدقة بشكل ملحوظ مقارنةً بسابقاتها (R-CNN، Fast R-CNN). تدمج هذه الشبكة شبكة اقتراح المناطق (RPN) مع شبكة الكشف، مما يتيح تدريبًا شاملاً واقتراحات مناطق فعّالة. مهّدت شبكة R-CNN الأسرع الطريق لنماذج كشف وتجزئة متقدمة، متوازنةً بين الدقة والتكلفة الحسابية.

خصائص النموذج:

  • هندسة من مرحلتين: RPN لمقترحات المنطقة، متبوعة بالتصنيف والانحدار في المربع المحدد
  • يستخدم صناديق المرساة لمقاييس الكائنات المتنوعة ونسب العرض إلى الارتفاع
  • شبكة CNN الأساسية (على سبيل المثال، ResNet، VGG) لاستخراج الميزات
  • تجميع منطقة الاهتمام (RoI) لمحاذاة الميزات
  • تم تدريبه على مجموعات البيانات مثل COCO وPASCAL VOC

نطاق الاستخدام:

  • اكتشاف الأجسام في أنظمة القيادة الذاتية
  • المراقبة لتحديد هوية الأشياء أو الأشخاص
  • البيع بالتجزئة لاكتشاف المنتجات وإدارة المخزون
  • البحث والتطوير لأطر الكشف المتقدمة

خاتمة

قد تبدو نماذج الرؤية الحاسوبية وكأنها أدوات متطورة (وهي كذلك)، لكنها في الواقع جزء لا يتجزأ من حياتنا اليومية، إذ تُشغّل الأدوات والتطبيقات التي نستخدمها دون أن نلاحظ. من التعرّف على حيوانك الأليف في الصور إلى مساعدة الأطباء على قراءة الفحوصات الطبية بشكل أسرع، تُنجز هذه النماذج أعمالًا مبهرة خلف الكواليس.

سواءً كان الأمر يتعلق بتصنيف الصور، أو تحديد الأجسام آنيًا، أو تقسيم المشاهد بكسلًا تلو الآخر، أو حتى فهم الصور من خلال اللغة، فإن تنوع النماذج المتاحة يعني وجود نموذج واحد لكل مهمة تقريبًا. والتكنولوجيا في تطور مستمر. صُممت نماذج الوقت الفعلي مثل YOLO وSSD للسرعة، وهي مثالية لمجالات مثل المراقبة أو الروبوتات. في الوقت نفسه، تدفع Vision Transformers (ViTs) وEfficientNet حدود الأداء، ويقدم Detectron2 مجموعة أدوات متكاملة لمهام الكشف والتجزئة. هناك أيضًا DINO، الذي يستكشف التعلم الذاتي الإشراف - نماذج تعليمية بدون بيانات مُصنّفة. ويتقدم CLIP من OpenAI خطوةً أبعد من خلال ربط الصور والنصوص، مما يفتح الباب أمام أنظمة أكثر ذكاءً.

مع استمرار تقدم الأبحاث - مع التعلم الذاتي الإشراف، والمحولات، وأدوات مثل CLIP - يبدو مستقبل الرؤية الحاسوبية أذكى وأسرع وأكثر كفاءة من أي وقت مضى. لذا، سواء كنت فضوليًا فحسب أو تخطط للتعمق في هذا المجال بنفسك، فإن معرفة أساسيات هذه النماذج نقطة انطلاق ممتازة.

دعونا نعمل معا!
الاشتراك في النشرة الإخبارية

ابق على اطلاع بآخر التحديثات والعروض الحصرية لدينا من خلال الاشتراك في النشرة الإخبارية لدينا.

arArabic
انتقل إلى أعلى