كيفية حل المشاكل الشائعة في التعرف على الصور

المقدمة

تعاني معظم مشاكل التصنيف المتعلقة بالتعرف على الصور من مشاكل معروفة ومعروفة. على سبيل المثال ، في كثير من الأحيان لن يكون هناك ما يكفي من البيانات لتدريب نظام التصنيف بشكل صحيح ، وقد تحتوي البيانات على بعض الفئات الممثلة تمثيلا ناقصا ، والأكثر شيوعًا ، أن العمل مع البيانات غير الموثقة سيعني العمل مع البيانات ذات العلامات الضعيفة.

البيانات هي المفتاح الذي يحدد ما إذا كانت جهودك ستفشل أم ستنجح. لا تحتاج هذه الأنظمة إلى بيانات أكثر من البشر لتعلم وتمييز الفئات المختلفة ، بل تحتاج إلى آلاف المرات للقيام بهذه المهمة.

يعتمد التعلم العميق على كميات هائلة من البيانات عالية الجودة للتنبؤ بالاتجاهات وأنماط السلوك المستقبلية. يجب أن تكون مجموعات البيانات ممثلة للفئات التي نعتزم التنبؤ بها ، وإلا فسيقوم النظام بتعميم توزيع الفئات المنحرفة ، وسيؤدي التحيز إلى تدمير النموذج الخاص بك.

هذه المشاكل عادة سوف تشترك في قضية مشتركة ؛ القدرة على إيجاد واستخراج وتخزين كميات كبيرة من البيانات ، وعلى المستوى الثاني ، تنظيف وتنسيق ومعالجة تلك البيانات.

بينما يمكننا زيادة طاقة الحوسبة وسعة تخزين البيانات ، فإن جهازًا واحدًا لن يواجه فرصة عند تشغيل شبكة عصبية معقدة وكبيرة الحجم مقابل مجموعة بيانات كبيرة. قد لا يحتوي على مساحة كافية ، وعلى الأرجح ، لن يكون لديه طاقة حسابية كافية لتشغيل نظام التصنيف. سيتطلب أيضًا الوصول إلى الحوسبة المتوازية / الموزعة من خلال الموارد السحابية ، وفهم كيفية تشغيل المجموعات المعقدة وتنظيمها وتعيينها.

ومع ذلك ، فإن امتلاك ما يكفي من البيانات والقدرة على المعالجة لا يكفيان لمنع هذه المشاكل.

في هذا المنشور ، سوف نستكشف ونناقش التقنيات المختلفة التي يمكن أن تعالج المشاكل التي تنشأ عند العمل مع مجموعات البيانات الصغيرة ، وكيفية تخفيف اختلال التوازن في الصف ، وكيفية الحيلولة دون المبالغة في التركيب.

نقل التعلم

قد تكون البيانات هي الفحم الجديد ، نقلاً عن نيل لورنس ، ونعلم أن خوارزميات التعليم العميق تحتاج إلى مجموعات كبيرة من البيانات ذات العلامات لتدريب شبكة كاملة من البداية ، لكننا غالباً ما نفشل في فهم مقدار البيانات التي تعنيها تمامًا. قد يكون العثور على كمية البيانات التي تلبي احتياجاتك مصدرًا لا نهاية له للإحباط ، ولكن هناك بعض التقنيات ، مثل زيادة البيانات أو نقل التعلم ، والتي ستوفر لك الكثير من الطاقة والوقت للعثور على بيانات لنموذجك.

يُعد نقل التعلم طريقة شائعة وقوية للغاية يمكن تلخيصها باختصار كعملية للتعلم من نموذج تم تدريبه مسبقًا تم توجيهه بواسطة مجموعة بيانات أكبر. وهذا يعني الاستفادة من نموذج موجود وتغييره ليناسب أهدافك الخاصة. تتضمن هذه الطريقة فصل الطبقات القليلة الأخيرة من نموذج تم تدريبه مسبقًا وإعادة تدريبهم باستخدام مجموعة البيانات الصغيرة الخاصة بك. لديها المزايا التالية:

  • يخلق نموذجًا جديدًا على طراز أقدم مع كفاءة مثبتة لمهام تصنيف الصور. على سبيل المثال ، يمكن بناء نموذج على بنية CNN مثل Inception-v3 (CNN طورته Google) وتم تدريبه مسبقًا على ImageNet ؛
  • فهو يقلل من وقت التدريب حيث يتيح إعادة استخدام المعلمات لتحقيق أداء قد يستغرق أسابيع.

بيانات غير متوازنة

غالبًا ما تكون نسبة مجموعة من التسميات داخل مجموعة بيانات مقابل المجموعات الأخرى غير متوازنة ، وغالبًا ما تكون مجموعة الأقلية هذه من التسميات هي مجموعة من الفئات التي نهتم بها بالتحديد بسبب ندرتها. على سبيل المثال ، لنفترض أن لدينا مشكلة في التصنيف الثنائي ، حيث تمثل الفئة X 95٪ من البيانات بينما تمثل الفئة Y الأخرى٪ 5. وبالتالي ، يكون النموذج أكثر حساسية للفئة X وأقل حساسية للفئة Y. حيث يصل المصنف إلى دقة 95٪ ، فإنه سيتنبأ بالفصل X بشكل أساسي في كل مرة.

بوضوح دقة هنا ليست التهديف المناسب. في هذه الحالة ، يجب أن نفكر في تكلفة الأخطاء والدقة والاستدعاء. تتمثل نقطة الانطلاق المعقولة في تمثيل ثنائي الأبعاد لأنواع مختلفة من الأخطاء ، بمعنى آخر ، مصفوفة ارتباك. في سياق نتيجة تصنيفنا ، يمكن وصفه كطريقة لتوضيح التسميات الفعلية مقابل التنبؤ بالتسمية ، كما هو موضح في الرسم البياني أدناه.

من خلال تخزين الرقم لكل تسمية للإيجابيات الحقيقية والإيجابيات الخاطئة والسلبيات الحقيقية والإيجابيات الخاطئة المكتسبة من تنبؤات النموذج ، يمكننا تقدير الأداء لكل تسمية باستخدام الاستدعاء والدقة. يتم تعريف الدقة كنسبة:

يتم تعريف الاستدعاء كنسبة:

سيؤدي التذكر و / أو الدقة إلى الكشف عن مشكلة أساسية ، ولكن لن يتم حلها. ومع ذلك ، هناك طرق مختلفة للتخفيف من المشاكل المرتبطة اختلال ملحوظ في توزيع الفئات:

  • عن طريق تعيين معاملات مميزة لكل تسمية ؛
  • عن طريق إعادة تشكيل مجموعة البيانات الأصلية ، إما عن طريق الاستيلاء على فئة الأقلية و / أو أخذ عينات أقلية من فئة الأغلبية. ومع ذلك ، يمكن أن يكون الإفراط في العرض أكثر ملاءمة لأن حدود التصنيف ستكون أكثر صرامة وستضع مجموعات البيانات الصغيرة تحيزًا ؛
  • من خلال تطبيق طريقة SMOTE (تقنية الإفراط في استيعاب الأقليات الاصطناعية) والتي تخفف من هذه المشكلة تكرار بيانات الطبقات الأقل تواتراً. تطبق هذه الطريقة نفس الأفكار الكامنة وراء زيادة البيانات وتجعل من الممكن إنشاء عينات تركيبية جديدة عن طريق الاستيفاء بين الحالات المجاورة من فئة الأقلية.

الإفراط في تركيب

كما نعلم نموذجنا يتعلم / يعمم الميزات الرئيسية على مجموعة من البيانات من خلال backpropagation وتقليل وظيفة التكلفة. تسمى كل خطوة للأمام والخلف بالعصر ، ومع كل عصر يتم تدريب النموذج وتعديل الأوزان لتقليل تكلفة الأخطاء. لاختبار دقة النموذج ، هناك قاعدة شائعة تتمثل في تقسيم مجموعة البيانات إلى مجموعة التدريب ومجموعة التحقق من الصحة.

يتم استخدام مجموعة التدريب لضبط وإنشاء النموذج الذي يجسد اقتراحًا يستند إلى الأنماط الأساسية في مجموعة التدريب ، وتختبر مجموعة التحقق من الصحة كفاءة النموذج والتحقق منه بناءً على عينات غير مرئية.

وإن كان التغيير في خطأ التحقق من الصحة لحالة حقيقية يميل إلى إظهار المزيد من القفزات والهبوط:

في نهاية كل حقبة ، نقوم باختبار النموذج باستخدام مجموعة التحقق من الصحة ، وفي مرحلة ما يبدأ النموذج في حفظ الميزات الموجودة في مجموعة التدريب ، بينما يزداد خطأ التكلفة ودقة العينات في مجموعة التحقق من الصحة. عندما نصل إلى هذه المرحلة ، يكون النموذج ملائمًا.

سيكون تحديد حجم الشبكة وتعقيدها سببًا محددًا للتركيب الزائد. البُنى المعقدة أكثر عرضة للتركيب الزائد لكن هناك بعض الاستراتيجيات لمنعها:

  • رفع عدد العينات في مجموعة التدريب ؛ إذا تم تدريب الشبكة على المزيد من الحالات الحقيقية ، فستعمم بشكل أفضل ؛
  • يعد إيقاف التعرية الخلفية عند حدوث التجاوز خيارًا آخر ، والذي يعني التحقق من وظيفة التكلفة ودقة التحقق من الصحة لكل فترة.
  • يعد تطبيق طريقة التنظيم خيارًا شائعًا آخر لتجنب التحايل.

L2 التنظيم

L2 التنظيم هو طريقة يمكن استخدامها لتقليل تعقيد نموذج عن طريق تعيين قيد لأوزان فردية أكبر. من خلال وضع قيود جزائية ، فإننا نقوم بتقليل اعتماد نموذجنا على بيانات التدريب.

أوقع

يعد Dropout خيارًا شائعًا أيضًا للتسوية ، حيث يتم استخدامه على الوحدات المخفية من الطبقات العليا ، بحيث ينتهي بنا الأمر بنيات مختلفة لكل حقبة. في الأساس ، يقوم النظام باختيار الخلايا العصبية بشكل عشوائي لإزالتها أثناء التدريب. نتيجة لذلك ، من خلال إعادة قياس الأوزان باستمرار ، تُجبر الشبكة على تعلم أنماط أكثر عمومية من البيانات.

خاتمة

كما رأينا هناك طرق وأساليب مختلفة مختلفة لحل مشاكل التصنيف الأكثر شيوعًا في التعرف على الصور ، ولكل منها فوائدها وعيوبها المحتملة. هناك مشكلات مثل البيانات غير المتوازنة والإفراط في التزويد ، وفي كثير من الأحيان لن تتوفر بيانات كافية ، لكن كما أوضحنا أنه يمكن التخفيف من آثارها بتعلم النقل وطرق أخذ العينات وتقنيات التنظيم.

هذا مجال نواصل استكشافه بينما نقوم بتطوير تقنية Imaginize للتعرف على الصور الخاصة بنا. تم تصميم ميزة المنتج الجديدة هذه لمساعدة عملاء التجارة الإلكترونية لدينا على تحسين تصنيف منتجاتهم ووضع علامات عليها وإيجادها من خلال القدرة على التعرف على الألوان والفئات والتعرف عليها تلقائيًا.