تاريخ النشر: 20 ديسمبر 2026

التعرف على الصور في مجال الأغذية: دليل التعلم العميق 2026

جلسة استشارية مجانية في مجال الذكاء الاصطناعي

احصل على تقدير مجاني للخدمة

أخبرنا عن مشروعك - وسنتصل بك بعرض سعر مخصص

ملخص سريع: تستخدم تقنية التعرف على صور الطعام التعلم العميق والشبكات العصبية الالتفافية لتحديد الأطباق والمكونات وأحجام الحصص تلقائيًا من الصور. تشير الأبحاث إلى أن 66.71% من أنظمة التعرف على الطعام تستخدم حاليًا الشبكات العصبية العميقة، محققةً معدلات دقة اختبار تتجاوز 97.5%. تُمكّن هذه الأنظمة من تتبع النظام الغذائي وتحليل القيمة الغذائية وتطبيقات المطاعم الذكية بشكل آلي، وذلك من خلال التدريب على مجموعات بيانات ضخمة تضم عشرات الآلاف من صور الطعام المصنفة.

يتزايد عبء الأمراض المرتبطة بالنظام الغذائي عالميًا، مما يجعل المراقبة الغذائية الدقيقة أكثر أهمية من أي وقت مضى. ويُعدّ تسجيل الطعام يدويًا عرضةً للتحيز في استرجاع المعلومات والأخطاء، مما يُعيق تتبع الحالة الغذائية للأشخاص الذين يعانون من أمراض مزمنة كالسمنة وارتفاع ضغط الدم والسكري.

لكن هنا يأتي دور التكنولوجيا. فقد تطورت أنظمة التعرف على صور الطعام بشكل كبير، وانتقلت من أساليب التعلم الآلي التقليدية إلى نماذج التعلم العميق المتطورة التي يمكنها تحديد الأطباق، واكتشاف المكونات، وتقدير أحجام الحصص - كل ذلك من صورة واحدة.

اكتسب مجال الحوسبة الغذائية أهمية بالغة بفضل التطورات في مجال رؤية الحاسوب والانتشار الواسع للهواتف الذكية. توفر هذه التقنيات إمكانات واعدة لاسترجاع المعلومات في الوقت الفعلي من صور الطعام، مما يتيح تسجيلًا رقميًا فعالًا للطعام، ومطاعم ذكية، وتقييمًا آليًا للنظام الغذائي.

كيف تعمل تقنية التعرف على صور الطعام فعلياً

تعمل أنظمة التعرف على الطعام عبر عدة مراحل متميزة: المعالجة المسبقة للصور، واستخلاص الميزات، والتصنيف، وفي كثير من الحالات، تقدير حجم الحصة. وتُعد الشبكة العصبية الالتفافية (CNN) التقنية الأساسية التي تُشغل الأنظمة الحديثة، وهي نوع من بنية التعلم العميق المصممة خصيصًا للبيانات المرئية.

تُظهر الأبحاث أن 66.71% من الدراسات التي شملها الاستطلاع حول التعرف على الأطعمة تستخدم الآن ميزات بصرية من الشبكات العصبية العميقة. وبالمثل، استخدمت جميع الدراسات التي شملها الاستطلاع متغيرات الشبكات العصبية التلافيفية للتعرف على المكونات، مما يُشير إلى تحول واضح عن أساليب رؤية الحاسوب التقليدية.

تبدأ العملية عادةً بمعالجة الصور مسبقًا. تُخفّض دقة صور التدريب إلى دقة ثابتة، وتشير الأبحاث إلى أن دقة 512 × 512 بكسل شائعة الاستخدام في تطبيقات التغذية على الأجهزة المحمولة. يضمن هذا التوحيد اتساق أبعاد الإدخال ويقلل من العبء الحسابي على الأجهزة المحمولة.

الشبكات العصبية التلافيفية العميقة قيد التشغيل

أصبحت بنية الشبكة العصبية التلافيفية العميقة (DCNN) المعيارَ الأمثلَ لمهام التعرف المعقدة على الطعام. وتحقق أحدث أنظمة التعرف على الطعام في عام 2026، والمبنية على نماذج الرؤية الكبيرة متعددة الوسائط (LVMs)، معدلات دقة تتجاوز 97.5%.

يتطلب تدريب هذه النماذج موارد حاسوبية كبيرة. وعادةً ما تتطلب أنظمة البحث موارد حاسوبية كبيرة، بما في ذلك وحدات معالجة رسومية متعددة، لمعالجة مجموعات بيانات التدريب بكفاءة.

تتبع عملية التدريب بروتوكولًا قياسيًا للتعلم الآلي. تُقسّم الصور عشوائيًا إلى مجموعتي تدريب واختبار بنسبة 3:1. في إحدى الدراسات الموثقة حول التعرف على الطعام الكوري، قُسّمت الصور إلى 69,000 صورة تدريبية و23,000 صورة اختبارية، وهو حجم ضروري لتحقيق أداء قوي عبر أنواع الطعام المختلفة وأساليب التقديم المتنوعة.

مقارنة أساليب التعرف ودقتها

لا تُقدّم جميع أساليب التعلّم الآلي أداءً متساوياً في مهام التعرّف على الطعام. تُظهر المصنّفات التقليدية دقةً أقل بكثير مقارنةً ببدائل التعلّم العميق.

أسلوب التصنيف	معدل الدقة	الخصائص الرئيسية
خوارزمية أقرب جار (KNN)	70%	تصنيف بسيط قائم على المسافة
آلة المتجهات الداعمة (SVM)	57%	النهج التقليدي القائم على النواة
آلة المتجهات الداعمة الخطية (11 فئة)	78%	مجموعة محدودة من فئات الطعام
نماذج الشبكات العصبية التلافيفية العميقة	أعلى من 97.5%	بنية التعلم العميق الحديثة

الفجوة في الأداء كبيرة. فبينما يحقق خوارزمية KNN دقة 70% ويُظهر خوارزمية SVM أداءً أقل، تحقق الشبكات العصبية التلافيفية العميقة دقة تتجاوز 95%، مما يُوضح سبب تحول الصناعة بشكل كبير نحو أساليب الشبكات العصبية.

إن الفرق بين دقة 70% و97.5% ليس مجرد فرق نظري. ففي تطبيقات تتبع النظام الغذائي، يمثل هذا الفرق فارقاً جوهرياً بين تسجيل معظم الوجبات بدقة وبين تفويت ما يقارب ثلثها، مما قد يقوض الغاية الأساسية من المراقبة الآلية للتغذية.

تطوير تقنية التعرف على الصور باستخدام الذكاء الاصطناعي المتفوق

متفوقة الذكاء الاصطناعي تُطوّر الشركة أدوات رؤية حاسوبية لتحليل الصور، واكتشاف الأجسام، وتقسيمها، والتعرف الضوئي على الأحرف، وتصنيفها. ويمكن بناء هذه الأنظمة حول مجموعات بيانات محددة واحتياجات العمل بدلاً من استخدام إعداد عام.

بالنسبة للمشاريع المتعلقة بالأغذية، يمكن أن يدعم هذا التعرف على المنتج، وتصنيف المواد الغذائية، وفحص التغليف، ومراجعة الجودة المرئية، أو عمليات فرز الصور.

هل تحتاج إلى تقنية التعرف على الصور لبيانات الطعام؟

يمكن أن تساعدك تقنية الذكاء الاصطناعي المتفوقة في:

أدوات التعرف على صور الطعام في المباني
اكتشاف وتصنيف العناصر في الصور
اختبار النماذج من خلال إثبات المفهوم أو العمل على الحد الأدنى من المنتج القابل للتطبيق
دمج الذكاء الاصطناعي في سير العمل اليومي

👉 تواصل مع شركة AI Superior لمناقشة مشروعك.

تصنيف المجموعات الغذائية وتقدير الحصص

لا تقتصر الأنظمة الحديثة على تحديد الأطباق الفردية فحسب، بل تصنف الأطعمة إلى مجموعات غذائية أوسع وتقدر أحجام الحصص، وكلاهما أمر بالغ الأهمية للتقييم الغذائي الدقيق.

حققت الأبحاث التي أجريت على تصنيف المجموعات الغذائية وتقدير حجم الحصص باستخدام نماذج الشبكات العصبية التلافيفية (CNN) معدلات دقة تقارب 80% لكلا المهمتين. قارنت الدراسة بين عدة بنى، ووجدت أن ResNet-18 حققت دقة 60% فقط بدون معالجة مسبقة، بينما وصلت MobileNet-v2 إلى دقة 80% مع استخدام تقنيات معالجة الصور المناسبة.

تُبرز هذه النتيجة حقيقةً مهمة: المعالجة المسبقة تُحدث فرقًا كبيرًا. إذ يمكن أن يُظهر نفس التصميم الأساسي تباينًا في الدقة يصل إلى 20 نقطة مئوية اعتمادًا على كيفية إعداد الصور المدخلة.

التعامل مع تعقيدات العالم الحقيقي

لا يُترجم أداء المختبر دائمًا إلى سيناريوهات واقعية. ما هو التحدي الأكبر؟ تحتوي معظم الوجبات على أصناف طعام متعددة، وليس على صور طبق واحد كما ركزت عليه العديد من مجموعات البيانات المبكرة.

تم تطوير العديد من مجموعات بيانات الطعام التي تغطي المأكولات الغربية والمتوسطية والصينية، لكنها غالباً ما تعالج مشكلة تصنيف عنصر واحد فقط. ولمعالجة هذه الفجوة، قام الباحثون بتطوير مجموعات بيانات واسعة النطاق تحتوي على عدة عناصر غذائية في الصورة الواحدة.

تم تطوير مجموعات بيانات واسعة النطاق لمشاهد الطعام تحتوي على أكثر من 21000 صورة عبر مئات من فئات الطعام لمعالجة تحديات الكشف عن الأطعمة متعددة العناصر، حيث حققت نماذج الكشف عن الكائنات نتائج تنافسية.

تطبيقات وحالات استخدام واقعية

تُساهم تقنية التعرف على صور الطعام في دعم مجموعة متنامية من التطبيقات العملية في قطاعات الصحة والضيافة والمستهلكين.

التقييم الغذائي الآلي

يستخدم مقدمو الرعاية الصحية وباحثو التغذية أنظمة التعرف على الأطعمة القائمة على الصور (IBFRS) لتقييم النظام الغذائي. تقلل هذه الأنظمة من عبء تسجيل الطعام يدويًا مع تحسين الدقة بما يتجاوز طرق التذكر التقليدية.

تكمن أهمية هذه الحلول في قدرتها على تعزيز أنماط غذائية صحية، والعمل كإجراء وقائي ضد الأمراض المزمنة، بما فيها السمنة. ومن خلال رصد ما يتناوله الناس فعلياً - بدلاً مما يتذكرونه - توفر هذه الأنظمة بيانات أكثر موثوقية للتدخل والمتابعة.

تطبيقات الصحة المحمولة

تدمج تطبيقات الهواتف الذكية واجهات برمجة تطبيقات التعرف على الطعام لتوفير تتبع سلس للتغذية. يقوم المستخدمون بالتقاط صورة لوجبتهم، ويعرض النظام الأطعمة التي تم التعرف عليها بالإضافة إلى معلومات غذائية تشمل السعرات الحرارية والمغذيات الكبرى والصغرى.

تجمع بعض المنصات بين تقنية التعرف على الصور ومعالجة اللغة الطبيعية، مما يسمح للمستخدمين بتسجيل وجباتهم عبر الصور أو الأوصاف الصوتية أو النصوص. يتيح هذا النهج متعدد الوسائط تلبية تفضيلات المستخدمين المختلفة والظروف التي لا يكون فيها التصوير عمليًا.

المطاعم الذكية ومتاجر التجزئة

تستخدم شركات خدمات الطعام التجارية تقنية التعرف على الأشياء لإدارة المخزون، وأنظمة الدفع الآلي، وتحليل بيانات العملاء. ومن خلال تحديد الأطباق على الأطباق أو في عربات التسوق، يمكن لهذه الأنظمة تبسيط العمليات وجمع البيانات حول أنماط الاستهلاك.

متطلبات مجموعة البيانات وتدريب النموذج

يتطلب بناء نماذج فعالة للتعرف على الأطعمة مجموعات بيانات واسعة النطاق وعالية الجودة. ويؤثر حجم بيانات التدريب وتنوعها بشكل مباشر على أداء النموذج وقدرته على التعميم.

تشير تقارير القطاع إلى أن التدريب الفعال يتطلب عشرات الآلاف من الصور المصنفة كحد أدنى. ولا تزال نسبة 3:1 بين التدريب والاختبار ممارسة شائعة، مما يضمن تقييم النماذج على بيانات لم ترها أثناء التدريب.

جودة الصورة والمعالجة المسبقة

تؤثر تقنيات المعالجة المسبقة بشكل كبير على دقة النموذج. وتشمل الأساليب الشائعة تغيير الحجم إلى أبعاد ثابتة، وتطبيع قيم البكسل، وزيادة البيانات من خلال التدوير والقلب، وتعديلات مساحة اللون.

تُحقق الدقة الثابتة البالغة 512 × 512 بكسل توازناً بين كفاءة الحوسبة وتوفير تفاصيل كافية لتطبيقات الهواتف المحمولة. وتُحسّن الدقة الأعلى من دقة التعرف، لكنها تزيد من وقت المعالجة ومتطلبات الذاكرة، وهو أمر بالغ الأهمية عند استخدام الهواتف الذكية.

التحديات والقيود

على الرغم من التقدم الملحوظ، إلا أن تقنية التعرف على صور الطعام تواجه العديد من التحديات المستمرة التي تحد من أدائها في العالم الحقيقي.

يشكل التشابه البصري بين الأطباق عقبة كبيرة. فالعديد من الأطعمة تبدو متطابقة تقريباً رغم اختلاف مكوناتها أو طرق تحضيرها. ولا يزال التمييز بين الأرز الأبيض وأرز القرنبيط، أو اكتشاف الفرق بين الجبن كامل الدسم والجبن قليل الدسم في صورة فوتوغرافية، أمراً صعباً حتى بالنسبة للعارضات الماهرات.
يُعقّد الحجب والرؤية الجزئية عملية التعرف على الأطعمة في الأطباق المتعددة. فعندما تتداخل الأطعمة على الطبق أو تبدو مخفية جزئيًا، تنخفض دقة الكشف بشكل ملحوظ. ويُعدّ هذا الأمر إشكاليًا بشكل خاص في الوجبات المعقدة التي تتداخل فيها المكونات.
يتطلب التنوع الغذائي الثقافي والإقليمي تغطية واسعة النطاق لمجموعات البيانات. غالبًا ما تفشل النماذج المدربة بشكل أساسي على المطبخ الغربي عند تقديم أطباق آسيوية أو أفريقية أو لاتينية. يتطلب بناء أنظمة التعرف العالمية حقًا بيانات تدريب تمثيلية عبر جميع التقاليد الغذائية.
تُضفي ظروف الإضاءة وزوايا الكاميرا وجودة الصورة تنوعًا يجب على العارضين التعامل معه بكفاءة. يختلف تصوير الطعام الاحترافي اختلافًا جذريًا عن الصور الملتقطة على عجل بالهواتف الذكية في إضاءة المطاعم الخافتة.

مستقبل تكنولوجيا التعرف على الطعام

وبالنظر إلى المستقبل، هناك العديد من الاتجاهات التي تشكل تطور أنظمة التعرف على صور الطعام.

يجمع التكامل متعدد الوسائط بين التعرف البصري ومصادر البيانات الأخرى. توفر الأوصاف النصية، والإدخال الصوتي، وبيانات الموقع، والطوابع الزمنية معلومات سياقية تُحسّن دقة التعرف. فعندما يعرف النظام أنك في تايلاند وقت الغداء، يمكنه إعطاء الأولوية للأطباق التايلاندية في توقعاته.

تهدف التطورات في تقدير حصص الطعام في الوقت الفعلي إلى تجاوز مجرد التصنيف إلى قياس دقيق للحجم. وتُظهر التقنيات التي تستخدم مستشعرات العمق والكاميرات المجسمة والأجسام المرجعية إمكانات واعدة لحساب أحجام التقديم الفعلية بدلاً من الحصص العامة.

ستستفيد التوصيات الغذائية الشخصية من أنظمة التعرف لتقديم إرشادات غذائية مصممة خصيصًا. من خلال تتبع ما يتناوله الشخص فعليًا بمرور الوقت، يمكن للتطبيقات تحديد النواقص الغذائية، واقتراح بدائل صحية، وتكييف التوصيات مع التفضيلات الفردية والأهداف الصحية.

يُتيح نشر الحوسبة الطرفية معالجة التعرف مباشرةً على الأجهزة المحمولة بدلاً من الاعتماد على خوادم السحابة. وهذا يقلل من زمن الاستجابة، ويحمي الخصوصية، ويتيح العمل دون اتصال بالإنترنت، وهو أمر بالغ الأهمية للمستخدمين الذين يهتمون بمشاركة البيانات أو يفتقرون إلى اتصال إنترنت موثوق.

الأسئلة الشائعة

ما مدى دقة تقنية التعرف على صور الطعام في عام 2026؟

تحقق نماذج التعلم العميق الحديثة معدلات دقة تتجاوز 97.5% عند تصنيف الأطعمة إلى فئات محددة. ويختلف الأداء تبعًا لحجم مجموعة البيانات، ومدى تعقيد الطعام، وجودة الصورة. وقد أشارت بعض الدراسات إلى أن الطرق التقليدية مثل SVM تحقق دقة 57%، بينما تحقق مصنفات KNN دقة تقارب 70%، مما يدل على تفوق الأساليب القائمة على الشبكات العصبية التلافيفية (CNN).

ما الفرق بين اكتشاف الطعام والتعرف على الطعام؟

يكشف نظام التعرف على الطعام عن وجود الطعام في الصورة ويحدد موقعه، وغالبًا ما يرسم مربعات حول عدة أصناف. أما نظام التعرف على الطعام فيتجاوز ذلك بتصنيف الأطباق أو المكونات الموجودة. وتؤدي العديد من الأنظمة الحديثة كلا المهمتين: الكشف عن جميع الأطعمة في المشهد، ثم التعرف على كل صنف على حدة.

ما هي مجموعات البيانات المستخدمة لتدريب نماذج التعرف على الطعام؟

يتطلب التدريب مجموعات بيانات ضخمة تضم آلاف الصور المصنفة. تشمل مجموعات بيانات البحث مجموعات تحتوي على عشرات الآلاف من صور التدريب والاختبار لأنواع محددة من المأكولات، مثل الدراسات التي تضم 69000 صورة تدريب و23000 صورة اختبار للتعرف على الطعام الكوري. تغطي مجموعات البيانات الشاملة مئات فئات الطعام مع عشرات الآلاف من الأمثلة. عادةً ما يتم تقليل دقة الصور إلى 512 × 512 بكسل لتطبيقات الجوال، ويتم تقسيمها بنسبة 3:1 بين التدريب والاختبار.

كيف تستخدم تطبيقات الهاتف المحمول تقنية التعرف على الطعام؟

تدمج تطبيقات الهواتف الذكية تقنية التعرف على الطعام عبر واجهات برمجة التطبيقات (APIs) التي تعالج الصور المرفوعة باستخدام نماذج التعلم العميق السحابية. وتُجري بعض التطبيقات معالجة الصور على الجهاز نفسه باستخدام شبكات عصبية مُحسّنة مثل MobileNet-v2، التي تُوازن بين الدقة والكفاءة الحسابية. يقوم المستخدمون بتصوير وجباتهم، ويتعرف النظام على الأطعمة ويُعيد البيانات الغذائية، بما في ذلك السعرات الحرارية والمغذيات الكبرى وتقديرات حجم الحصة.

ما هي التحديات الرئيسية في مجال التعرف على صور الطعام؟

تشمل التحديات الرئيسية التمييز بين الأطباق المتشابهة بصريًا، ومعالجة مشكلة التداخل عند تداخل الأطعمة، وإدارة مطابخ ثقافية متنوعة، والحفاظ على الأداء في ظل ظروف إضاءة وزوايا تصوير مختلفة. ولا تزال مشاهد الأطباق المتعددة ذات المكونات الكثيرة تمثل تحديًا خاصًا. ويخضع تسجيل الطعام يدويًا لتحيز الاستذكار والأخطاء، مما يحفز البحث عن حلول آلية، إلا أن أنظمة التعرف لا تزال تواجه صعوبة في التعامل مع عروض الوجبات المعقدة في العالم الحقيقي.

ما هي أفضل بنى التعلم العميق المستخدمة في التعرف على الطعام؟

تهيمن الشبكات العصبية الالتفافية (CNNs) على هذا المجال، حيث استخدمت 66.7% من الدراسات التي تم مسحها ميزات الشبكات العصبية العميقة. تشمل البنى المحددة التي أظهرت أداءً قويًا شبكات CNNs العميقة التي حققت دقة تزيد عن 97.5%، وMobileNet-v2 (80% مع المعالجة المسبقة)، وYOLOv12 أو RT-DETR v3 للكشف عن أنواع متعددة من الأطعمة. يحقق ResNet-18 دقة 60% بدون معالجة مسبقة، ولكنه يتحسن بشكل ملحوظ مع إعداد الصور بشكل صحيح. يعتمد اختيار البنية على متطلبات الدقة، وقيود السرعة، وبيئة النشر.

خاتمة

تطورت تقنية التعرف على صور الطعام من مجرد أبحاث تجريبية إلى تقنية عملية تدعم تقييم النظام الغذائي، وتطبيقات الصحة المتنقلة، وخدمات الطعام التجارية. وقد ساهمت أساليب التعلم العميق، ولا سيما الشبكات العصبية الالتفافية، في رفع دقة التعرف إلى ما يزيد عن 97.5% مع تحقيق أوقات تعرف شبه فورية.

يُعدّ التحوّل نحو الشبكات العصبية حاسماً، إذ تعتمد 66.71% من الأنظمة الحالية على ميزات التعلّم العميق، متخليةً تماماً عن المصنّفات التقليدية التي تكافح لتجاوز دقة 70%. ومع احتواء مجموعات بيانات التدريب الآن على عشرات الآلاف من الصور، وهياكل النماذج المُحسّنة لتحقيق الدقة العالية وسهولة الاستخدام على الأجهزة المحمولة، فقد بلغت هذه التقنية مرحلةً من الفائدة الحقيقية.

لا تزال هناك تحديات. فمشاهد الأطباق المتعددة، والتنوع الثقافي في الطعام، وتقدير الكميات بدقة، كلها عوامل تحدّ من الأداء في الواقع العملي. لكن المسار واضح: فتقنية التعرف على الطعام تتحسن باستمرار من خلال مجموعات بيانات أكبر، وبنى أفضل، وتكامل متعدد الوسائط.

بالنسبة للمطورين الذين يبنون تطبيقات التغذية، أو منصات خدمات الطعام، أو أدوات البحث الغذائي، فقد تحول دمج إمكانيات التعرف على الصور من تحسين اختياري إلى ميزة أساسية. فالتقنية تعمل، والبنية التحتية متوفرة، وتوقعات المستخدمين تطالب بها الآن.

دعونا نعمل معا!