نموذج هجين لتعزيز التعرف على الصور متعددة الفئات

ملخص البحث

في الوقت الحاضر ، يتزايد حجم البيانات الرقمية بسرعة كبيرة خاصة مجموعات بيانات الصور. والسبب وراء هذه الزيادة هو التطور السريع للتقنيات والمنصات الرقمية مثل Facebook و Instagram وما إلى ذلك. ومن وجهة النظر هذه ، بدأ الباحثون في بناء تطبيقات تعتمد على استخدام نماذج تصنيف الصور. استخدمت هذه النماذج التقنيات التقليدية أو تقنيات التعلم العميق لتصنيف الصور متعددة الطبقات. استنتج معظم الباحثين في مجال تصنيف الصور أن هناك مشاكل مختلفة مثل التصنيف الخاطئ للأشياء وانخفاض قيمة معدل الدقة في حالة استخدام العديد من الفئات التي تم العثور عليها كنتيجة لمرحلة التصنيف. التركيز على المشكلة الأساسية هو التعرف على عدد كبير من الصور لفئات مختلفة بمعدل دقة مرتفع. اقترحت هذه الورقة نموذجًا محسنًا في التعرف على الصور متعددة الفئات. يجمع هذا النموذج بين التقنيات التقليدية وتقنيات التعلم العميق حيث يتم دمج ناقل ميزات هذه التقنيات (VGG16 + HOG + SURF) أو (ResNet50 + HOG + SURF) في متجه ميزة واحد للتصنيف. تُستخدم طريقة الضبط الدقيق لإجراء التصنيف بواسطة نواقل الميزات المدمجة لطبقات التصنيف في ResNet50. تعد VGG16 و ResNet50 أمثلة على الشبكات العميقة المدربة مسبقًا بينما يعد الرسم البياني للتدرجات الموجهة (HOG) والميزات القوية السريعة (SURF) أمثلة على التقنيات التقليدية. توفر النتائج التجريبية للنموذج المقدم في هذه الورقة تحسينًا من خلال معدل دقة ممتاز عند استخدام ناقل ميزة مدمج لـ (ResNet50 + HOG + SURF) والذي وصل إلى 98.9٪ للتعرف على مجموعة بيانات سيفار -10.

الكلمات المفتاحيه

لتعرف على الصور ، استخراج الميزات ، SURF ، HOG ، التعلم العميق ، الشبكة العصبية التلافيفية (CNN) ، نقل التعلم ، VGG16 ، ResNet50 ، Cifar-10

جميع الحقوق محفوظة ©شيماء سيد أحمد عبدالقادر