تتمحور الرؤية الحاسوبية حول تعليم أجهزة الكمبيوتر رؤية العالم كما نراه نحن. وتهدف إلى محاكاة النظام البصري البشري، مما يُمكّن الآلات من النظر إلى الصور أو مقاطع الفيديو الرقمية وفهم ما تراه فعليًا. لكن الأمر لا يقتصر على التقاط الصور فحسب، بل يشمل أيضًا تفسيرها واتخاذ قرارات ذكية بناءً عليها. وهذا ما يجعل الرؤية الحاسوبية قوية جدًا في تطبيقات العالم الحقيقي، مثل السيارات ذاتية القيادة، والتعرف على الوجوه، والتصوير الطبي، وغيرها الكثير. في هذه المقالة، سنشرح بالتفصيل الخوارزميات الأساسية التي تُمكّن من ذلك. بدءًا من التقنيات البسيطة، مثل اكتشاف الحواف والميزات، وصولًا إلى الأدوات الأكثر تقدمًا لاكتشاف الكائنات، وتجزئة الصور، وحتى توليد صور جديدة، سنشرح كيفية عملها بطريقة سهلة الفهم - دون الحاجة إلى شهادة دكتوراه.
تصميم خوارزميات الرؤية الحاسوبية للأعمال: نهج AI Superior
متفوقة الذكاء الاصطناعي - شركة تكنولوجيا تركز على الاستفادة من أحدث تقنيات التعلم الآلي وخوارزميات الرؤية الحاسوبية - بدءًا من التقنيات التقليدية مثل تحويل هوف إلى الهندسة المعمارية الحديثة مثل محولات الرؤية.
تغطي خدماتنا للرؤية الحاسوبية طيفًا واسعًا من القدرات، بما في ذلك تحليل الفيديو، وكشف الأجسام، وتجزئة الصور، وتصنيفها. تكمن إحدى نقاط قوتنا الرئيسية في تكييف الخوارزميات المعقدة مع احتياجات العمل المحددة. على سبيل المثال، طورنا نظامًا قائمًا على التعلم العميق للكشف عن أضرار الطرق، مما ساعد الحكومات المحلية على تبسيط مراقبة البنية التحتية وصيانتها. في قطاع البناء، يمكن لحلنا، الذي يعمل بالطائرات المسيرة، تحديد 25 نوعًا مختلفًا من الحطام باستخدام نماذج كشف الأجسام القائمة على YOLO، مما يوفر للعملاء أكثر من 320 ساعة عمل شهريًا. كما قمنا ببناء نظام التعرف الضوئي على الحروف (OCR) لعميل من الشركات، مما قلل بشكل كبير من أخطاء إدخال البيانات يدويًا بنسبة 50% من خلال تقنيات التعرف الدقيق على النصوص.
أنظمتنا القابلة للتطوير والتكيف مصممة لتتطور مع احتياجات العمل، سواءً كان ذلك التعرف على الوجوه لأغراض الأمن، أو تصنيف الصور السياقية للتجارة الإلكترونية، أو التحليل العاطفي لفهم رؤى العملاء. في AI Superior، لا نكتفي بتطبيق الخوارزميات فحسب، بل نحولها إلى أدوات عملية تُحدث فرقًا. اتصل بنا اليوم ودعنا نعمل على تطوير حلول رؤية كمبيوترية مصممة خصيصًا لعملك.
لنتعمق في خوارزميات الرؤية الحاسوبية - ما أنواعها المتاحة، وما الفرق بينها؟ إليك شرحًا تفصيليًا لكل منها:
1. اكتشاف الحافة (كاني، سوبل)
تحدد خوارزميات كشف الحواف حدود أو خطوط الأجسام في الصورة من خلال رصد تغيرات ملحوظة في كثافة البكسل. يستخدم مُشغّل سوبل أساليب قائمة على التدرج اللوني لإبراز الحواف من خلال حساب تغيرات الكثافة في الاتجاهين الأفقي والرأسي، مما يجعله بسيطًا ولكنه حساس للضوضاء. أما كاشف الحواف كاني، وهو نهج أكثر تطورًا، فيُطبّق تقليل الضوضاء، وحساب التدرج اللوني، والكبت غير الأقصى، وتتبع الحواف لإنتاج حواف دقيقة ومتصلة، مما يجعله معيارًا أساسيًا لمهام كشف الحواف.
المميزات الرئيسية:
- Sobel: اكتشاف الحافة البسيط القائم على التدرج
- كاني: عملية متعددة المراحل مع تنعيم الضوضاء وتتبع الحافة
- حساسية عالية لتغيرات الكثافة
- إنتاج خرائط الحافة الثنائية
- تقلل Canny من الإيجابيات الكاذبة من خلال القمع غير الأقصى
نطاق الاستخدام:
- معالجة الصور مسبقًا لاكتشاف الكائنات
- تحليل الشكل في التفتيش الصناعي
- اكتشاف المسار في المركبات ذاتية القيادة
- التصوير الطبي للكشف عن حدود الأعضاء
- الروبوتات لرسم خرائط البيئة
2. تحديد العتبة (طريقة أوتسو)
تُحوّل تقنية تحديد العتبات الصور الرمادية إلى صور ثنائية (أبيض وأسود) عن طريق تحديد عتبة سطوع، ما يفصل المقدمة عن الخلفية. تُؤتمت طريقة أوتسو هذه العملية باختيار عتبة مثالية تُقلل التباين داخل الفئة، مما يُعظم الفصل بين فئات البكسل. هذا يجعلها فعّالة للغاية في تقسيم الصور ذات توزيعات شدة مُختلفة، مثل النصوص أو المسوحات الطبية، مع أنها قد تُواجه صعوبة في الإضاءة غير المُتساوية.
المميزات الرئيسية:
- اختيار العتبة التلقائي عبر طريقة أوتسو
- تحويل الصور ذات التدرج الرمادي إلى صور ثنائية
- كفاءة حسابية
- حساس لتغيرات الإضاءة
- الأفضل لمخططات الكثافة ثنائية النمط
نطاق الاستخدام:
- مسح المستندات لاستخراج النص
- التصوير الطبي لعزل المناطق ذات الاهتمام
- مراقبة الجودة الصناعية للكشف عن العيوب
- إزالة الخلفية في التصوير الفوتوغرافي
- المعالجة المسبقة لأنظمة الرؤية الآلية
3. العمليات المورفولوجية (التآكل، التمدد)
تُعالج العمليات الشكلية الأشكال في الصور الثنائية أو الرمادية لتحسين أو تنظيف المناطق المُجزأة. يُقلص التآكل المناطق البيضاء (في المقدمة)، مما يُزيل الضوضاء الطفيفة أو يُفصل الهياكل الرقيقة. يُوسّع التمدد المناطق البيضاء، مما يُملأ الفجوات أو يربط المكونات القريبة. تُستخدم هذه العمليات غالبًا معًا (مثل الفتح أو الإغلاق)، وهي بالغة الأهمية لتحسين تجزئة الصور في البيئات الصاخبة.
المميزات الرئيسية:
- يؤدي التآكل إلى إزالة الضوضاء الصغيرة وتخفيف الهياكل
- التمدد يملأ الفجوات ويوسع المناطق
- يدعم الصور الثنائية والصور ذات التدرج الرمادي
- قابلة للتخصيص بدرجة كبيرة مع عناصر الهيكلة
- سريع وبسيط حسابيًا
نطاق الاستخدام:
- تقليل الضوضاء في تقسيم الصورة الثنائية
- عد الخلايا في المجهر الطبي
- تحسين شكل الأشياء في الأتمتة الصناعية
- تعزيز بصمات الأصابع في القياسات الحيوية
- تنظيف النصوص في التعرف الضوئي على الحروف (OCR)
4. معادلة الهيستوغرام
يُحسّن معادلة الهيستوغرام تباين الصورة بإعادة توزيع قيم شدة البكسل للاستفادة من كامل نطاق مستويات السطوع. وبتمديد الهيستوغرام لشدة البكسل، يُصبح وضوح التفاصيل في المناطق المظلمة أو المعرضة للضوء أكثر وضوحًا. تُعدّ هذه الخوارزمية مفيدة بشكل خاص لتحسين الصور منخفضة التباين، مثل المسوحات الطبية أو لقطات المراقبة، ولكنها قد تُضخّم التشويش في بعض الحالات.
المميزات الرئيسية:
- يعزز التباين عن طريق إعادة توزيع الكثافة
- يعمل على الصور ذات التدرج الرمادي والملونة
- خفيف الوزن حسابيًا
- تحسين الرؤية في المناطق ذات التباين المنخفض
- قد يزيد الضوضاء في المناطق الموحدة
نطاق الاستخدام:
- التصوير الطبي لتحسين تصور الأنسجة
- المراقبة لتحسين لقطات الإضاءة المنخفضة
- صور الأقمار الصناعية لتحليل التضاريس
- التصوير الفوتوغرافي لمرحلة ما بعد المعالجة
- المعالجة المسبقة لخوارزميات اكتشاف الميزات
5. SIFT (تحويل الميزة الثابتة للمقياس)
يكتشف SIFT ويصف النقاط الرئيسية في الصورة، مع الحفاظ على ثباتها عبر تغيرات التدرج والدوران والإضاءة. ويحدد السمات المميزة من خلال تحليل القيم المتطرفة في مساحة التدرج، ويحسب أوصافًا دقيقة للمطابقة. إن ثبات SIFT تجاه التحويلات يجعله مثاليًا لمهام مثل التعرف على الكائنات، ودمج الصور، وإعادة البناء ثلاثي الأبعاد، على الرغم من أنه يتطلب جهدًا حسابيًا مكثفًا مقارنةً بالطرق الأحدث.
المميزات الرئيسية:
- المقياس والدوران وثبات الإضاءة
- يكتشف النقاط الرئيسية المميزة باستخدام أوصاف قوية
- دقة مطابقة عالية عبر التحولات
- مكثف حسابيًا
- حاصل على براءة اختراع، مما يحد من الاستخدام التجاري دون ترخيص
نطاق الاستخدام:
- خياطة الصور للتصوير البانورامي
- التعرف على الأشياء في الواقع المعزز
- إعادة بناء المشهد ثلاثي الأبعاد في الروبوتات
- قياس المسافة البصرية في الملاحة الذاتية
- استرجاع الصور بناءً على المحتوى
6. SURF (ميزات قوية مُسرّعة)
SURF هو بديل أسرع لـ SIFT، مصمم للتطبيقات الفورية. يكتشف النقاط الرئيسية باستخدام نهج قائم على مصفوفة هيسيان، ويُولّد واصفات بتعقيد حسابي أقل. مع الحفاظ على متانة SURF في التعامل مع التدرج والدوران، تجعله سرعته مناسبًا لمهام مثل تتبع الحركة والتعرف على الكائنات في البيئات محدودة الموارد، مع أنه قد يكون أقل دقة من SIFT في بعض السيناريوهات.
المميزات الرئيسية:
- أسرع من SIFT مع الكشف القائم على Hessian
- قوي لتغيرات الحجم والدوران
- حساب الوصف الفعال
- أقل دقة قليلاً من SIFT
- حاصل على براءة اختراع، ويتطلب ترخيصًا للاستخدام التجاري
نطاق الاستخدام:
- تتبع الحركة في الوقت الحقيقي في الروبوتات
- التعرف على الكائنات في تطبيقات الهاتف المحمول
- تثبيت الفيديو في الأجهزة الاستهلاكية
- الواقع المعزز لمطابقة الميزات
- المركبات ذاتية القيادة للملاحة البصرية
7. ORB (موجهة بسرعة ومختصرة ومدورة)
يجمع ORB بين كشف النقاط الرئيسية السريع (FAST) وواصفات BRIEF، مُضيفًا ثباتًا في الاتجاه لإنشاء بديل سريع وفعال لـ SIFT وSURF. صُمم ORB لتطبيقات الوقت الفعلي، وهو خفيف الوزن وخالٍ من حقوق الملكية، مما يجعله مثاليًا للأنظمة المدمجة والمشاريع مفتوحة المصدر. على الرغم من أنه أقل متانة في مواجهة التحويلات الشديدة، إلا أن سرعته وبساطته تجعلانه شائعًا لمهام مثل SLAM ومطابقة الصور.
المميزات الرئيسية:
- يجمع بين الكشف السريع والوصف المختصر
- ثبات الاتجاه لمتانة الدوران
- سريع للغاية وخفيف الوزن
- خالية من حقوق الملكية، صديقة للمصدر المفتوح
- أقل قوة في مواجهة التغييرات على نطاق واسع من SIFT/SURF
نطاق الاستخدام:
- التوطين والرسم الخرائطي المتزامن (SLAM) في الروبوتات
- مطابقة الصور في الوقت الفعلي في الأجهزة المحمولة
- الواقع المعزز لتتبع الميزات
- قياس المسافة البصرية في الطائرات بدون طيار
- أنظمة الرؤية المضمنة منخفضة الطاقة
8. كاشف زاوية هاريس
يحدد كاشف زوايا هاريس الزوايا في الصورة، وهي سمات ثابتة مفيدة للتتبع أو المطابقة. يحلل تغيرات الكثافة في محيط البكسل للكشف عن نقاط ذات اختلافات كبيرة في جميع الاتجاهات. على الرغم من قدمه وضعف كفاءته مقارنةً بالطرق الحديثة مثل SIFT، إلا أن بساطته وسرعته تجعله فعالاً في التطبيقات التي تتطلب كشفًا أساسيًا للسمات، مثل تقدير الحركة.
المميزات الرئيسية:
- يكتشف الزوايا باستخدام اختلافات الكثافة
- حسابيًا بسيط وسريع
- قوية إلى دورات وترجمات صغيرة
- حساسة للضوضاء وتغيرات الحجم
- لا يوجد توليد للوصف، مما يتطلب معالجة إضافية
نطاق الاستخدام:
- تقدير الحركة في معالجة الفيديو
- تتبع الميزات في الروبوتات
- محاذاة الصورة للفسيفساء
- إعادة بناء ثلاثية الأبعاد في الرسومات الحاسوبية
- التفتيش الصناعي للقياسات القائمة على الزاوية
9. HOG (مدرج توزيع التدرجات الموجهة)
يصف HOG أشكال الأجسام من خلال تحليل توزيع اتجاهات الحواف (التدرجات) في بقع الصور الموضعية. ويُنشئ مُخططات توزيعية لاتجاهات التدرجات، مما يجعله فعالاً في اكتشاف الأجسام المُهيكلة، مثل المشاة أو المركبات. ويُستخدم HOG على نطاق واسع في أنظمة الكشف المبكر عن الأجسام، وهو فعال حسابيًا، ولكنه أقل فعالية مع الأجسام المُعقدة أو القابلة للتشوه، مُقارنةً بأساليب التعلم العميق.
المميزات الرئيسية:
- يلتقط الشكل عبر مخططات توزيع الألوان ذات الاتجاه المتدرج
- قوي في مواجهة الإضاءة والتشوهات الصغيرة
- كفاءة حسابية
- الأفضل للأشياء المنظمة مثل البشر أو المركبات
- غالبًا ما يتم إقرانها مع SVM للتصنيف
نطاق الاستخدام:
- اكتشاف المشاة في المركبات ذاتية القيادة
- اكتشاف المركبات في مراقبة حركة المرور
- التعرف على الإيماءات في التفاعل بين الإنسان والحاسوب
- المراقبة لتحليل الحشود
- المعالجة المسبقة لخطوط أنابيب الكشف عن الكائنات التقليدية
10. فيولا جونز
خوارزمية فيولا-جونز هي طريقة رائدة لاكتشاف الوجوه، تستخدم خصائص شبيهة بخوارزمية هار، ومجموعة من المصنفات لتحقيق أداء فوري. تمسح الخوارزمية الصور على مقاييس متعددة، وتستبعد بسرعة المناطق غير المخصصة للوجوه، مع تحسين دقة الكشف. جعلتها سرعتها ودقتها حجر الأساس في أنظمة اكتشاف الوجوه المبكرة، مثل كاشف الوجوه في OpenCV، على الرغم من أنها تواجه صعوبة في التعامل مع الوجوه غير الأمامية أو الخلفيات المعقدة.
المميزات الرئيسية:
- يستخدم ميزات مشابهة لـ Haar للكشف السريع
- تصنيف متتالي للكفاءة
- الأداء في الوقت الفعلي على الأجهزة منخفضة الطاقة
- الأفضل لاكتشاف الوجه الأمامي
- حساسة لتغيرات الوضعية والإضاءة
نطاق الاستخدام:
- كشف الوجه في الكاميرات الرقمية
- المراقبة في الوقت الحقيقي للتعرف على الوجه
- التحكم في الوصول في أنظمة الأمن
- وسائل التواصل الاجتماعي لوضع علامات تلقائية على الوجوه
- التفاعل بين الإنسان والحاسوب لتتبع النظرة
11. البحث الانتقائي (اقتراح المنطقة)
يُولّد البحث الانتقائي مقترحات مناطقية عن طريق تجميع وحدات البكسل هرميًا بناءً على تشابه اللون والملمس والحجم. يُستخدم هذا البحث في أطر عمل الكشف المبكر عن الكائنات، مثل R-CNN، حيث يقترح مواقع محتملة للكائنات، والتي تُصنّف بعد ذلك بواسطة شبكة عصبية. على الرغم من أنه أبطأ من نماذج الكشف الشاملة الحديثة، إلا أن قدرته على إنتاج مقترحات عالية الجودة تجعله قيّمًا للأبحاث والتطبيقات التي تتطلب تحديدًا دقيقًا للمواقع.
المميزات الرئيسية:
- التجميع الهرمي لمقترحات المناطق
- يأخذ بعين الاعتبار إشارات اللون والملمس والحجم
- إنتاج مرشحين للأشياء عالية الجودة
- مكثف حسابيًا
- تُستخدم في خطوط أنابيب الكشف ذات المرحلتين
نطاق الاستخدام:
- اكتشاف الكائنات في الأنظمة القائمة على R-CNN
- تقسيم الصور لأغراض البحث
- التفتيش الصناعي لتحديد الأجزاء
- التصوير الطبي لاقتراح مناطق الاهتمام
- تحليل المحتوى في محركات البحث المرئية
12. خوارزمية مستجمعات المياه
تُعامل خوارزمية مستجمعات المياه الصورة كخريطة طبوغرافية، حيث تُمثل كثافات البكسل الارتفاعات، وتُقسّمها إلى مناطق عن طريق "غمر" الأحواض بالعلامات. تُتقن هذه الخوارزمية فصل الأجسام المتلامسة أو المتداخلة، مثل الخلايا في الصور المجهرية، ولكنها تتطلب وضع العلامات بدقة لتجنب الإفراط في التجزئة. أسلوبها البديهي يجعلها شائعة الاستخدام في مهام التجزئة المعقدة.
المميزات الرئيسية:
- صور مقطعية عبر الفيضانات الطبوغرافية
- فعالة لفصل الأشياء المتلامسة
- يتطلب علامات لتوجيه التجزئة
- عرضة للتجزئة المفرطة دون ضبط
- يدعم الصور ذات التدرج الرمادي والملونة
نطاق الاستخدام:
- تقسيم الخلايا في المجهر الطبي
- عد الكائنات في التصوير الزراعي
- التفتيش الصناعي لفصل المكونات
- صور الأقمار الصناعية لتقسيم قطع الأراضي
- تحليل المستندات لفصل مناطق النص
13. قطع الرسم البياني
تُصوغ Graph Cuts عملية تقسيم الصورة كمسألة تحسين رسم بياني، حيث تُمثل البكسلات العقد، والحواف أوجه تشابه البكسل. تُقلل هذه الطريقة من دالة الطاقة المستخدمة لـ"قص" الرسم البياني، ما يُفصل المقدمة عن الخلفية. تُنتج هذه الطريقة تقسيمات عالية الجودة، خاصةً للأجسام ذات الحدود الواضحة، ولكنها مكلفة حسابيًا للصور الكبيرة، مما يجعلها أكثر ملاءمة للمعالجة دون اتصال بالإنترنت.
المميزات الرئيسية:
- التجزئة القائمة على الطاقة من خلال تحسين الرسم البياني
- دقة عالية لحدود واضحة للأشياء
- مكثف حسابيًا
- يتطلب نقاط البذور للتهيئة
- مقاومة للضوضاء مع الضبط المناسب
نطاق الاستخدام:
- التصوير الطبي لتجزئة الأعضاء
- تحرير الصور لاستخراج المقدمة
- تقسيم الفيديو لتتبع الكائنات
- التفتيش الصناعي لعزل العيوب بدقة
- البحث عن معايير خوارزميات التجزئة
14. جرابكت
GrabCut هي خوارزمية تجزئة تفاعلية تُحسّن إطارًا حدوديًا يُوفره المستخدم لعزل كائن باستخدام قصّات الرسوم البيانية والتحسين التكراري. تُنمذج GrabCut المقدمة والخلفية باستخدام نماذج خليط غاوس، وتُحدّثها لتحسين الدقة. GrabCut سهل الاستخدام وفعّال لتحرير الصور، مع أنه يتطلب بعض الإدخال اليدوي وقد يواجه بعض الصعوبات مع الخلفيات المعقدة.
المميزات الرئيسية:
- التجزئة التفاعلية مع مربع تحديد المستخدم
- يستخدم قطع الرسم البياني ونماذج الخليط الغاوسي
- يقوم بتحسين التجزئة بشكل متكرر
- سهل الاستخدام ولكنه يتطلب الإدخال اليدوي
- حساس للخلفيات المعقدة
نطاق الاستخدام:
- تحرير الصور لإزالة الخلفية
- التصوير الطبي لتجزئة الأعضاء شبه التلقائية
- الواقع المعزز لاستخراج الكائنات
- التجارة الإلكترونية لعزل صورة المنتج
- تحرير الفيديو لفصل المقدمة
15. الشبكات العصبية التلافيفية (CNNs)
الشبكات العصبية التلافيفية (CNNs) هي أساس الرؤية الحاسوبية الحديثة، حيث تستخدم طبقات تلافيفية لاستخراج سمات مكانية كالحواف والقوام والأنماط من الصور. تتفوق هذه الشبكات في مهام مثل التصنيف والكشف والتجزئة من خلال تعلم تمثيلات السمات الهرمية. تتميز الشبكات العصبية التلافيفية بدقة عالية، ولكنها تتطلب موارد حاسوبية كبيرة ومجموعات بيانات كبيرة مُصنّفة للتدريب، مما يجعلها مثالية للتطبيقات المعقدة والغنية بالبيانات.
المميزات الرئيسية:
- استخراج الميزات الهرمية عبر التلافيف
- يدعم التصنيف والكشف والتجزئة
- دقة عالية مع هياكل عميقة
- يتطلب مجموعات بيانات كبيرة وقوة حسابية
- نقل التعلم للمهام المخصصة
نطاق الاستخدام:
- تصنيف الصور في المركبات ذاتية القيادة
- كشف الأشياء في أنظمة المراقبة
- التصوير الطبي لتشخيص الأمراض
- التعرف على الوجه في أنظمة الأمن
- الواقع المعزز لفهم المشهد
16. RNNs / LSTMs (للتسلسلات)
صُممت الشبكات العصبية المتكررة (RNNs) وشبكات الذاكرة طويلة المدى (LSTM) للبيانات المتسلسلة، مثل مقاطع الفيديو أو صور السلاسل الزمنية. تحتفظ هذه الشبكات بذاكرة الإطارات السابقة، ملتقطةً التبعيات الزمنية لمهام مثل التعرف على الحركة أو ترجمة الفيديو. على الرغم من كفاءتها في تحليل الفيديو، إلا أنها تتطلب جهدًا حاسوبيًا مكثفًا وأقل فعالية للصور الثابتة مقارنةً بشبكات CNN.
المميزات الرئيسية:
- يلتقط التبعيات الزمنية في التسلسلات
- تخفف LSTMs من مشاكل التلاشي التدريجي
- مناسب لبيانات الفيديو والتسلسل الزمني
- معقدة حسابيًا
- غالبًا ما يتم دمجها مع شبكات CNN لاستخراج الميزات
نطاق الاستخدام:
- التعرف على الفعل في المراقبة بالفيديو
- ترجمة الفيديو لتسهيل الوصول
- التنبؤ بالحركة في القيادة الذاتية
- التعرف على الإيماءات في التفاعل بين الإنسان والحاسوب
- تحليل الفيديو الطبي للمراقبة الجراحية
17. النماذج المعتمدة على المحولات (ViT، DETR)
تستخدم النماذج القائمة على المحولات، مثل محول الرؤية (ViT) ومحول الكشف (DETR)، آليات الانتباه لنمذجة العلاقات الشاملة في الصور أو التسلسلات. يُقسّم ViT الصور إلى رقع، ويُعاملها كرموز لمعالجة المحول، مُتفوقًا في التصنيف. أما DETR، فتُطبّق المحولات على كشف الأجسام، مُستغنيةً عن مقترحات المناطق للكشف الشامل. تُوفّر هذه النماذج دقة عالية، لكنها تتطلب موارد حاسوبية كبيرة.
المميزات الرئيسية:
- آليات الاهتمام بالسياق العالمي
- ViT: تصنيف الصور بناءً على الرقعة
- DETR: الكشف عن الكائنات من البداية إلى النهاية
- دقة عالية مع مجموعات البيانات الكبيرة
- مكثف حسابيًا
نطاق الاستخدام:
- تصنيف الصور في التشخيص الطبي
- اكتشاف الأجسام في المركبات ذاتية القيادة
- التجزئة الدلالية للتخطيط الحضري
- تحليل الفيديو للتعرف على الفعل
- البحث لتطوير نماذج الرؤية
18. تحويل هوف
تحويل هوف هو تقنية لاستخراج السمات تُستخدم للكشف عن الأشكال البارامترية، مثل الخطوط والدوائر والقطع الناقص، في الصور. يحوّل هذا التحويل نقاط الحواف إلى فضاء معاملات، ويحدد الأشكال من خلال إيجاد قمم في مصفوفة مُراكم. يُستخدم تحويل هوف على نطاق واسع لمتانته في مواجهة الضوضاء والانسدادات الجزئية، وهو يتطلب الكثير من العمليات الحسابية، ولكنه فعال في تطبيقات مثل اكتشاف المسارات أو التعرف على الأشكال، وخاصةً في البيئات المُهيكلة.
المميزات الرئيسية:
- يكتشف الأشكال المعلمية مثل الخطوط والدوائر
- مقاومة للضوضاء والانسدادات الجزئية
- يستخدم مساحة المعلمات للتصويت على الشكل
- مكثف حسابيًا
- يتطلب صورًا تم اكتشافها على الحافة كمدخلات
نطاق الاستخدام:
- اكتشاف المسار في المركبات ذاتية القيادة
- التعرف على الأشكال في التفتيش الصناعي
- تحليل المستندات للكشف عن الجدول أو السطر
- التصوير الطبي للكشف عن الهياكل الدائرية
- الروبوتات لرسم خرائط البيئة
خاتمة
قد تبدو خوارزميات الرؤية الحاسوبية مجرد مصطلحات تقنية معقدة، لكنها في جوهرها مجرد أدوات ذكية تساعد الآلات على فهم ما تراه. سواء كان ذلك اكتشاف حواف شكل ما، أو تتبع حركة في مقطع فيديو، أو التعرف على وجه مألوف، فإن كل خوارزمية تلعب دورًا محددًا في تعليم أجهزة الكمبيوتر كيفية "النظر" إلى العالم وفهمه. هذه الخوارزميات هي اللبنات الأساسية وراء العديد من الأشياء التي نعتبرها الآن أمرًا مسلمًا به - مثل فتح هاتفك بوجهك، والحصول على فلاتر مخصصة على وسائل التواصل الاجتماعي، أو الأطباء الذين يستخدمون الذكاء الاصطناعي لتحليل الأشعة السينية بشكل أسرع وأكثر دقة. مع تطور التكنولوجيا، تتطور أيضًا إمكانية حل مشاكل العالم الحقيقي بطرق أذكى وأسرع وأكثر إنسانية. لذا، سواء كنت مجرد فضولي، أو تعمل على مشروعك الأول، أو تتعمق في الذكاء الاصطناعي، فإن فهم هذه الخوارزميات الأساسية هو مكان رائع لبدء رحلتك في مجال الرؤية الحاسوبية.