تاريخ النشر: 20 ديسمبر 2026

التعرف على الصور للمكفوفين: أدوات وتقنيات الذكاء الاصطناعي 2026

جلسة استشارية مجانية في مجال الذكاء الاصطناعي

احصل على تقدير مجاني للخدمة

أخبرنا عن مشروعك - وسنتصل بك بعرض سعر مخصص

ملخص سريع: تستخدم تقنية التعرف على الصور للمكفوفين أنظمة مدعومة بالذكاء الاصطناعي لتحديد الأشياء، وقراءة النصوص، ووصف المحيط من خلال التغذية الراجعة الصوتية. ووفقًا لبيانات منظمة الصحة العالمية، يعاني ما لا يقل عن 2.2 مليار شخص حول العالم من ضعف في الرؤية القريبة أو البعيدة، مع إمكانية الوقاية من مليار حالة على الأقل أو عدم معالجتها حتى الآن. وتشير تقديرات المؤسسة الأمريكية للمكفوفين إلى أن أكثر من 25 مليون شخص في الولايات المتحدة يعانون من فقدان البصر، بينما تشير الأبحاث إلى أن حوالي 0.51 من سكان العالم يعانون من ضعف شديد في البصر أو العمى. وتستفيد التطبيقات الحديثة مثل Seeing AI وBe My Eyes وEnvision من التعلم الآلي لتحقيق معدلات دقة تتراوح بين 50 و95 في التعرف على الأشياء، على الرغم من أن المستخدمين يتحملون معدلات خطأ تصل إلى 40 قبل تغيير الطريقة.

تُشكّل المعلومات المرئية الطريقة التي يتفاعل بها معظم الناس مع العالم. ولكن ماذا يحدث عندما تُغلق هذه القناة؟

أحدثت تقنية رؤية الحاسوب ثورة في الأدوات المساعدة للأشخاص المكفوفين وضعاف البصر. إذ تحوّل هذه الأنظمة البيانات المرئية إلى أوصاف صوتية، مما يتيح الوصول إلى كل شيء بدءًا من ملصقات المنتجات وصولًا إلى تعابير الوجه.

هذه التقنية ليست مثالية. تُظهر الأبحاث المتعلقة بأنظمة التعرف على الأشياء أن دقتها تختلف باختلاف نوع الشيء والظروف المحيطة، ويتفاوت أداؤها بين الفئات المختلفة. ومع ذلك، ووفقًا لأبحاث موثوقة، فإن المستخدمين سيتحملون معدلات خطأ في التعرف تصل إلى 40% قبل التخلي عن الأداة تمامًا.

إن عتبة التسامح هذه مهمة لأنها تحدد ما يجعل التكنولوجيا المساعدة مفيدة بالفعل مقابل كونها مثيرة للإعجاب من الناحية التقنية.

كيف تعمل تقنية التعرف على الصور للمساعدة البصرية

تجمع هذه الأنظمة بين ثلاثة مكونات أساسية: التقاط الصور، وخوارزميات المعالجة، وإخراج الصوت.

تلتقط الكاميرا (غالباً ما تكون كاميرا هاتف ذكي أو جهاز قابل للارتداء) المشهد المرئي. تقوم نماذج التعلم الآلي بتحليل الصورة، وتحديد الأشياء أو النصوص أو الأشخاص. ثم يحول النظام النتائج إلى كلام مُصنّع أو ردود فعل لمسية.

تستخدم معظم التطبيقات الحديثة الشبكات العصبية الالتفافية المدربة على ملايين الصور المصنفة. يتيح هذا التدريب للخوارزميات التعرف على الأشياء الشائعة حتى في ظل ظروف إضاءة أو زوايا مختلفة.

لكن الأمر المهم هو أن دقة التعرف تعتمد بشكل كبير على ما يتم التعرف عليه. وقد أظهرت الأبحاث التي أجريت على خوارزميات التعرف القائمة على SURF تباينًا في الدقة عبر فئات الأشياء المختلفة.

لا تزال الفجوة بين الأداء المعياري وسهولة الاستخدام العملي هي التحدي الرئيسي. فظروف المختبر لا تحاكي المطابخ المزدحمة أو المتاجر ذات الإضاءة الخافتة.

حوّل البيانات المرئية إلى برامج ذكاء اصطناعي باستخدام AI Superior

متفوقة الذكاء الاصطناعي تساعد الشركات على تحويل أفكار التعرف على الصور إلى برامج عملية. ويمكن أن تشمل خدماتها في مجال رؤية الحاسوب تحليل الصور، واكتشاف الأجسام، وتجزئة الصور، والتعرف الضوئي على الأحرف، والتصنيف، وذلك حسب احتياجات المشروع.

بالنسبة لأدوات تسهيل الوصول للمستخدمين المكفوفين، يمكن أن يدعم هذا التعرف على الأشياء، وفهم المشهد، وقراءة النصوص، أو ميزات المساعدة البصرية الأخرى المدمجة في تطبيق أو جهاز متصل.

هل تحتاج إلى تقنية التعرف على الصور لتحسين إمكانية الوصول؟

يمكن أن تساعدك تقنية الذكاء الاصطناعي المتفوقة في:

بناء أدوات رؤية حاسوبية مخصصة
اكتشاف ووصف الأشياء في الصور
اختبار الأفكار من خلال تطوير نموذج إثبات المفهوم أو المنتج الأولي القابل للتطبيق
دمج الذكاء الاصطناعي في التطبيقات أو الأجهزة

👉 تواصل مع شركة AI Superior لمناقشة مشروعك.

تطبيقات رائدة تُحدث تحولاً في الاستقلالية اليومية

برزت العديد من المنصات كجهات رائدة في هذا المجال.

رؤية الذكاء الاصطناعي

يُتيح تطبيق مايكروسوفت المجاني سرد العالم من خلال كاميرا الهاتف الذكي. وهو يتعامل مع النصوص القصيرة والمستندات والمنتجات عبر الرموز الشريطية والتعرف على الأشخاص والمشاهد والألوان والعملات.

يقوم التطبيق بمعالجة معظم مهام التعرف على الجهاز نفسه، مما يعني أوقات استجابة أسرع وعدم الاعتماد على الإنترنت للميزات الأساسية.

كُنْ عَينَي

تتبنى هذه المنصة نهجاً مختلفاً، حيث تربط المستخدمين بمتطوعين مبصرين عبر مكالمات فيديو مباشرة. وعندما يعجز الذكاء الاصطناعي عن حل مشكلة ما، يتدخل الذكاء البشري.

تجمع الخدمة بين التعرف الآلي على الصور والمساعدة البشرية، مما يخلق نظامًا احتياطيًا عندما تصل التكنولوجيا إلى حدودها.

إنفيجن إيه آي

تقدم شركة Envision تطبيقات للهواتف المحمولة والنظارات الذكية. تعمل هذه التقنية على تحويل المعلومات المرئية إلى كلام، وتشمل قراءة النصوص، ووصف المشاهد، واكتشاف الأشياء، والتعرف على الألوان.

تتيح إصدارات النظارات الذكية التشغيل بدون استخدام اليدين، وهو أمر ذو قيمة خاصة عند التنقل أو القيام بمهام متعددة.

لوك آوت من جوجل

يركز إدخال جوجل على ثلاثة أوضاع أساسية: الاستكشاف (لفهم المحيط)، والتسوق (لتحديد المنتج)، والقراءة السريعة (لالتقاط النصوص).

يتكامل التطبيق مع مساعد جوجل، مما يتيح عمليات المسح والتعرف على الهوية التي تتم عبر الأوامر الصوتية.

البحوث المتقدمة ومعايير الدقة الناشئة

أظهرت الأبحاث الحديثة حول نماذج الكشف عن الأجسام معدلات دقة عالية على مجموعات البيانات الخاضعة للتحكم - وهي قفزة كبيرة مقارنة بالأنظمة السابقة.

مع ذلك، لا تُجسّد مجموعات البيانات المُتحكّم بها متغيرات العالم الحقيقي. فتغيرات الإضاءة، والحجب الجزئي، والزوايا غير المعتادة، والخلفيات المزدحمة، كلها عوامل تُؤدي إلى تدهور الأداء.

لهذا السبب، أصبح تقبّل المستخدمين للأخطاء هو المقياس العملي للنجاح. وقد أظهرت الأبحاث في مجال سلوك المستخدمين أن المستخدمين المكفوفين يطورون استراتيجيات متطورة للتعامل مع حالات فشل التعرف.

يقومون بمقارنة النتائج مع الحواس الأخرى. ويعيدون صياغة الأشياء أو يعدلون الإضاءة. ويتعلمون فئات الأشياء التي يتعامل معها النظام بشكل موثوق ويتجنبونها بالنسبة للفئات الأخرى.

خيارات الأجهزة التي تتجاوز الهواتف الذكية

بينما يعتمد معظم المستخدمين على كاميرات الهواتف الذكية، فإن الأجهزة المخصصة توسع الإمكانيات.

تُزوّد النظارات الذكية من راي بان ميتا وإنفيجن بكاميرات مثبتة على مستوى العين، مما يتيح مسحًا طبيعيًا بنظرة العين. وتُعدّ هذه الميزة، التي تُتيح استخدام اليدين دون الحاجة إلى حمل الأشياء أو استخدام عصا بيضاء، مهمةً للغاية.

تُعدّ صعوبات الحركة والعوائق التي تقع على مستوى الرأس من المشاكل الشائعة التي يواجهها المكفوفون الذين يستخدمون وسائل المساعدة التقليدية على الحركة. ويمكن للكاميرات القابلة للارتداء أن ترصد العوائق التي لا تستطيع وسائل المساعدة التقليدية رصدها.

تشمل الأجهزة المتخصصة الماسحات الضوئية المحمولة لتقنية التعرف الضوئي على الأحرف (OCR) للمستندات، وأجهزة تحديد الأشياء المستقلة. كما تتوفر أنظمة الوسم بتقنية الاتصال قريب المدى (NFC) لوسم الأغراض الشخصية.

القيود العملية واستراتيجيات المستخدم

بصراحة: هذه الأنظمة تفشل بشكل منتظم.

يؤدي صغر حجم النص، وضعف التباين، ووجود أشياء غير مألوفة، ومشاهد معقدة، إلى حدوث أخطاء. وقد أظهرت الأبحاث أن المستخدمين طوروا حلولاً بديلة واسعة النطاق، مثل طلب المساعدة البشرية، أو استخدام تطبيقات متعددة للتحقق، أو الاستغناء عن الأدوات الرقمية لصالح بدائل ملموسة.

يمثل حد تحمل الخطأ 40% نقطة التحول التي تصبح عندها الحلول البديلة أكثر إرهاقًا من الفائدة المقدمة.

السياق مهم للغاية. يقبل المستخدمون معدلات خطأ أعلى في المهام ذات المخاطر المنخفضة (تحديد لون القميص) مقارنة بالمهام الحاسمة (قراءة ملصقات الأدوية).

اعتبارات التكلفة وإمكانية الوصول

توفر التطبيقات الأساسية من مايكروسوفت وجوجل وBe My Eyes وصولاً مجانياً إلى ميزات التعرف الأساسية. وهذا يُسهّل الوصول بشكل كبير مقارنةً بتقنيات المساعدة السابقة.

تُضيف الباقات المميزة ميزات مثل المعالجة السحابية غير المحدودة، ونماذج الذكاء الاصطناعي المتقدمة، أو الدعم ذي الأولوية. وتختلف تكلفة معدات الكاميرات المستخدمة في الأبحاث باختلاف المواصفات، على الرغم من أن الهواتف الذكية المخصصة للمستهلكين مزودة بكاميرات عالية الجودة.

تتفاوت أسعار النظارات الذكية بشكل كبير. لذا، يُرجى مراجعة مواقع الشركات المصنعة للاطلاع على الأسعار الحالية، حيث تتطور الموديلات والميزات بسرعة.

نوع التكنولوجيا	نطاق التكلفة النموذجي	حالة الاستخدام الأساسية
تطبيقات الهواتف الذكية	مجاناً – $10 شهرياً	التعرف العام على الأشياء والنصوص
النظارات الذكية	تحقق من المواقع الرسمية	التنقل والمسح الضوئي بدون استخدام اليدين
الماسحات الضوئية المحمولة	يختلف حسب الطراز	التعرف الضوئي على المستندات وقراءتها
أنظمة الوسم بتقنية NFC	يختلف حسب الطراز	تحديد هوية العناصر الشخصية

دور التعرف الضوئي على الأحرف في المساعدة البصرية

لا يزال التعرف الضوئي على الأحرف أحد أكثر مكونات أنظمة التعرف على الصور موثوقية بالنسبة للمستخدمين المكفوفين.

وفقًا للمؤسسة الأمريكية للمكفوفين، تحقق تقنية التعرف الضوئي على الأحرف دقة عالية مع النصوص المستقيمة، لكن الأداء ينخفض بشكل كبير مع الأعمدة المختلطة أو المخططات أو الرسوم البيانية أو الرسومات.

تستخدم التطبيقات الحديثة تقنية التعرف الضوئي على الأحرف (OCR) القائمة على الشبكات العصبية، والتي تدعم لغات متعددة، والكتابة اليدوية، وأنواع الخطوط المختلفة. ويمكن لهذه الأنظمة معالجة كل شيء بدءًا من قوائم المطاعم وحتى لافتات الشوارع.

أقل من 10% من الأفراد المكفوفين قانونيًا الذين تبلغ أعمارهم 21 عامًا أو أقل يستخدمون طريقة برايل كوسيلة القراءة الأساسية، مما يجعل مخرجات التعرف الضوئي على الحروف الصوتية أمرًا بالغ الأهمية للوصول إلى النصوص.

التكامل مع قارئات الشاشة والمساعدين الصوتيين

لا تعمل تطبيقات التعرف على الصور بمعزل عن غيرها، بل تتكامل مع أنظمة الوصول الأوسع نطاقاً.

توفر برامج قراءة الشاشة مثل VoiceOver (لنظام iOS) وTalkBack (لنظام Android) طبقة واجهة الصوت. وتتيح المساعدات الصوتية التشغيل بدون استخدام اليدين. وتوفر الخدمات السحابية قوة معالجة لمهام التعرف المعقدة.

يُتيح هذا التكامل إنشاء سير عمل حيث يمكن للمستخدمين تصوير كائن ما، والتعرف عليه عبر الذكاء الاصطناعي، وسماع النتيجة من خلال قارئ الشاشة، وإصدار أوامر المتابعة صوتيًا - كل ذلك دون لمس الجهاز.

الأسئلة الشائعة

ما مدى دقة تقنية التعرف على الصور بالنسبة للمكفوفين؟

تتراوح الدقة بين 50 و95% حسب نوع الجسم والظروف. وتشير الأبحاث إلى أن المستخدمين يتحملون معدلات خطأ تصل إلى 40% قبل تغيير الطريقة.

هل تطبيقات التعرف على الصور مجانية للمستخدمين المكفوفين؟

توفر منصات رئيسية مثل Seeing AI وBe My Eyes وGoogle Lookout باقات أساسية مجانية تتضمن ميزات التعرف الرئيسية. أما الاشتراكات المميزة والأجهزة المتخصصة فتتطلب تكاليف إضافية، لكن الوظائف الأساسية تظل متاحة مجاناً.

هل يمكن لتقنية التعرف على الصور تحديد وجوه الأشخاص؟

نعم، تتضمن العديد من التطبيقات ميزات التعرف على الوجه التي يمكنها تحديد جهات الاتصال المحفوظة أو وصف سمات الوجه مثل العمر وتعبير الوجه. وتتيح إعدادات الخصوصية للمستخدمين التحكم في هذه الوظيفة.

ما الفرق بين التعرف بواسطة الذكاء الاصطناعي والمساعدة التطوعية؟

تعالج تقنيات الذكاء الاصطناعي الصور تلقائيًا باستخدام خوارزميات، مما يوفر نتائج فورية ولكن مع بعض الأخطاء أحيانًا. تربط خدمات المتطوعين مثل "كن عيني" المستخدمين بمساعدين مبصرين عبر الفيديو لإنجاز المهام المعقدة التي لا يستطيع الذكاء الاصطناعي التعامل معها بكفاءة.

هل تعمل هذه الأنظمة دون اتصال بالإنترنت؟

تُجري بعض التطبيقات، مثل Seeing AI، عمليات التعرف على الصور مباشرةً على الجهاز، وتعمل دون الحاجة إلى اتصال بالإنترنت. أما الأنظمة السحابية فتتطلب الوصول إلى الشبكة، ولكنها عادةً ما توفر إمكانيات تعرّف أكثر تطوراً.

كيف يتعامل المستخدمون المكفوفون مع أخطاء التعرف؟

أظهرت الأبحاث المتعلقة بسلوك المستخدم أن المستخدمين المكفوفين يطورون استراتيجيات تشمل الربط بين الحواس الأخرى، وإعادة صياغة الأشياء، وضبط الإضاءة، ومعرفة فئات الأشياء التي يتعامل معها نظامهم المفضل بشكل أفضل.

هل يمكن لتقنية التعرف على الصور قراءة الكتابة اليدوية؟

تتعامل تقنية التعرف الضوئي على الحروف الحديثة القائمة على الشبكات العصبية مع النصوص المطبوعة والمكتوبة بخط اليد، إلا أن دقتها تختلف باختلاف وضوح الخط. فالكتابة الواضحة والمتباعدة بشكل جيد تعطي نتائج أفضل من الكتابة المتصلة أو المزخرفة.

المضي قدماً بتقنية المساعدة البصرية

تطورت تقنية التعرف على الصور للمكفوفين من مختبرات الأبحاث إلى أدوات يومية. لكن هذه التقنية ليست مثالية، إذ لا تزال هناك فجوات كبيرة بين الأداء المعياري والموثوقية العملية.

تُقدّر المؤسسة الأمريكية للمكفوفين أن أكثر من 25 مليون شخص في الولايات المتحدة يعانون من فقدان البصر، بينما تشير الأبحاث إلى أن حوالي 0.51% من سكان العالم يعانون من ضعف شديد في البصر أو العمى. وتُتيح هذه الأدوات مكاسب ملموسة في الاستقلالية.

ما هو الحل الأمثل؟ جرّب تطبيقات متعددة. تختلف قدرات التعرّف باختلاف المنصات، وتتناسب الأدوات المختلفة مع مهام مختلفة. ما يُجدي نفعًا في مسح الرموز الشريطية قد لا يُناسب وصف المشهد.

حمّل تطبيق Seeing AI أو Lookout اليوم واختبر خاصية التعرف على الأشياء في بيئات متنوعة. افهم القيود إلى جانب الإمكانيات. ابنِ مسارات عمل تجمع بين التكنولوجيا والحواس والاستراتيجيات الأخرى.

تستمر تقنية المساعدة البصرية في التطور. تتحسن النماذج. تصغر الأجهزة. يتعمق التكامل. تتقلص الفجوة بين دقة المختبر والأداء في العالم الحقيقي تدريجياً.

بالنسبة للأفراد المكفوفين وضعاف البصر، فإن كل نقطة مئوية من تحسين الدقة تترجم إلى استقلالية أكبر وإمكانية وصول أوسع.

دعونا نعمل معا!