GAN - كيفية قياس أداء GAN؟

الصورة بواسطة داود مايكي

في GANs ، تقيس الوظيفة الموضوعية للمولد والمميّز عادةً مدى أدائه مقارنةً بالخصم. على سبيل المثال ، نقيس مدى قيام المولد بخداع أداة التمييز. ليس قياسًا جيدًا في قياس جودة الصورة أو تنوعها. كجزء من سلسلة GAN ، نلقي نظرة على مسافة Inception Score و Fréchet Inception Distance حول كيفية مقارنة النتائج من طرز GAN المختلفة.

درجة البداية (IS)

يستخدم IS معيارين في قياس أداء GAN:

  • جودة الصور التي تم إنشاؤها ، و
  • تنوعها.

الانتروبيا يمكن أن ينظر إليها على أنها عشوائية. إذا كانت قيمة المتغير العشوائي x قابلة للتنبؤ بها بدرجة كبيرة ، يكون لها إنتروبيا منخفضة. على العكس من ذلك ، إذا كان لا يمكن التنبؤ بها للغاية ، فإن الانتروبيا عالية. على سبيل المثال ، في الشكل أدناه ، لدينا توزيعات الاحتمال p (x). يحتوي p2 على إنتروبيا أعلى من p1 لأن p2 له توزيع أكثر اتساقًا وبالتالي أقل قابلية للتنبؤ به حول ماهية x.

في GAN ، نريد أن يكون الاحتمال الشرطي P (y | x) قابلاً للتنبؤ بدرجة كبيرة (الانتروبيا المنخفضة). بمعنى إعطاء صورة ، يجب أن نعرف نوع الكائن بسهولة. لذلك نحن نستخدم شبكة Inception لتصنيف الصور التي تم إنشاؤها وتوقع P (y | x) - حيث y هي التسمية و x هي البيانات التي تم إنشاؤها. هذا يعكس جودة الصور. بعد ذلك نحتاج إلى قياس تنوع الصور.

P (y) هو الاحتمال الهامشي المحسوب على النحو التالي:

إذا كانت الصور التي تم إنشاؤها متنوعة ، يجب أن يكون توزيع البيانات لـ y منتظمًا (إنتروبيا عالية).

الشكل أدناه يتصور هذا المفهوم.

للجمع بين هذين المعيارين ، نحسب اختلاف KL ونستخدم المعادلة أدناه لحساب IS.

أحد أوجه القصور في IS هو أنه يمكن أن يشوه الأداء إذا كان يولد صورة واحدة فقط لكل فصل. ستظل p (y) موحدة على الرغم من أن التنوع منخفض

فريتش مسافة البدء (FID)

في FID ، نستخدم شبكة Inception لاستخراج الميزات من طبقة متوسطة. ثم نقوم بتصميم نموذج توزيع البيانات لهذه الميزات باستخدام توزيع غاوسي متعدد المتغيرات مع متوسط ​​µ والتغاير Σ. يتم حساب FID بين الصور الحقيقية x والصور التي تم إنشاؤها g على النحو التالي:

حيث Tr يلخص كل العناصر القطرية.

انخفاض قيم FID تعني جودة الصورة وتنوعها.

FID حساس لطي الوضع. كما هو موضح أدناه ، تزداد المسافة مع محاكاة الأوضاع المفقودة.

المصدر تحدد درجة FID الأقل نموذجًا أفضل.

FID أكثر قوة للضوضاء من IS. إذا كان النموذج ينتج صورة واحدة فقط لكل فصل ، فستكون المسافة عالية. لذلك FID هو قياس أفضل لتنوع الصورة. FID لديه بعض التحيز عالية نوعا ما ولكن التباين المنخفض. من خلال حساب FID بين مجموعة بيانات التدريب ومجموعة بيانات الاختبار ، يجب أن نتوقع أن يكون FID صفرًا لأن كليهما صور حقيقية. ومع ذلك ، تشغيل الاختبار مع دفعات مختلفة من عينة التدريب لا يظهر أي صفر FID.

مصدر

أيضًا ، يعتمد كل من FID و IS على استخراج الميزة (وجود أو عدم وجود ميزات). هل سيكون للمولد نفس الدرجة إذا لم يتم الحفاظ على العلاقة المكانية؟

الدقة ، أذكر و F1 النتيجة

إذا كانت الصور التي تم إنشاؤها تشبه الصور الحقيقية في المتوسط ​​، تكون الدقة عالية. يشير الاستدعاء العالي إلى أن المولد يمكنه إنشاء أي عينة موجودة في مجموعة بيانات التدريب. درجة F1 هي المتوسط ​​التوافقي للدقة والتذكر.

في ورقة بحث Google Brain "هل تم إنشاء GANs على قدم المساواة" ، يتم إنشاء تجربة لعبة مع مجموعة بيانات من المثلثات لقياس الدقة واستدعاء نماذج GAN المختلفة.

مصدر

يمكن لمجموعة البيانات هذه أن تقيس أداء طراز GAN المختلف. يمكننا استخدامه لقياس مزايا وظائف التكلفة المختلفة. على سبيل المثال ، هل ستنجح الوظيفة الجديدة في إنتاج مثلث عالي الجودة بتغطية جيدة؟

مرجع

تقنيات محسنة لتدريب GANs

هل تم إنشاء GANs على قدم المساواة؟ دراسة واسعة النطاق

شبكات GAN المدربة من خلال قاعدة تحديث ذات نطاقين زمنيين تتلاقى مع توازن ناش محلي