سجل الائتمان مع تعلم الآلة

درجة الائتمان عبارة عن تعبير رقمي يقيس الجدارة الائتمانية للأشخاص. عادة ما تستخدمه البنوك كوسيلة لدعم اتخاذ القرارات بشأن طلبات الائتمان. في هذه المدونة ، سأتحدث عن كيفية تطوير سجل أداء قياسي باستخدام Python (Pandas ، Sklearn) ، وهو الشكل الأكثر شيوعًا وأبسط طريقة لتسجيل الائتمان ، لقياس الجدارة الائتمانية للعملاء.

الدافع المشروع

في الوقت الحاضر ، تعد الجدارة الائتمانية مهمة جدًا للجميع نظرًا لأنها تعتبر مؤشراً لمدى إمكانية الاعتماد على الفرد. في المواقف المختلفة ، يتعين على موردي الخدمات تقييم تاريخ ائتمان العملاء أولاً ، ثم تحديد ما إذا كانوا سيقدمون الخدمة أم لا. ومع ذلك ، يستغرق التحقق من المحافظ الشخصية بالكامل وإنشاء تقرير ائتمان يدويًا وقتًا طويلاً. وبالتالي ، يتم تطوير درجة الائتمان وتطبيقها لهذا الغرض لأنها موفرة للوقت وسهلة الفهم.

وتسمى عملية توليد درجة الائتمان تسجيل الائتمان. يتم تطبيقه على نطاق واسع في العديد من الصناعات وخاصة في القطاع المصرفي. عادة ما تستخدمه البنوك لتحديد من الذي يجب أن يحصل على الائتمان ، ومقدار الائتمان الذي يجب أن يتلقوه ، والاستراتيجية التشغيلية التي يمكن اتخاذها لتقليل مخاطر الائتمان. بشكل عام ، يحتوي على قسمين رئيسيين:

  • بناء النموذج الإحصائي
  • تطبيق نموذج إحصائي لتعيين درجة إلى طلب ائتمان أو حساب ائتمان حالي

هنا سوف أعرض طريقة تسجيل الائتمان الأكثر شعبية تسمى بطاقة الأداء. هناك سببان رئيسيان لكون بطاقة الأداء هي الشكل الأكثر شيوعًا لتسجيل النقاط. أولاً ، من السهل التفسير للأشخاص الذين ليس لديهم خلفية وتجربة ذات صلة مثل العملاء. ثانيًا ، عملية تطوير بطاقة النتائج قياسية ومفهومة على نطاق واسع ، مما يعني أنه لا يتعين على الشركات إنفاق الكثير من المال عليها. ويرد سجل نتائج العينة أدناه. سأتحدث عن كيفية استخدامها لاحقا.

الشكل 1 - مثال سجل النتائج

استكشاف البيانات وهندسة المعالم

الآن سأقدم بعض التفاصيل حول كيفية تطوير بطاقة النتائج. مجموعة البيانات التي استخدمتها هنا هي من Kaggle المنافسة. يتم سرد المعلومات التفصيلية في الشكل 2. المتغير الأول هو المتغير المستهدف ، وهو المتغير القاطع الثنائي. وبقية المتغيرات هي الميزات.

الشكل 2 قاموس البيانات

بعد اكتساب نظرة ثاقبة حول مجموعة البيانات ، أبدأ في تطبيق بعض أساليب هندسة الميزات عليها. أولاً ، أتحقق من كل ميزة إذا كانت تحتوي على قيم مفقودة ، ثم أدرج القيم المفقودة بمتوسط.

بعد ذلك ، أفعل العلاج الغريب. بشكل عام ، تعتمد الأساليب المستخدمة في القيم المتطرفة على نوع القيم المتطرفة. على سبيل المثال ، إذا كانت النتيجة الخارجية ناتجة عن خطأ ميكانيكي أو مشاكل أثناء القياس ، فيمكن معالجتها على أنها بيانات مفقودة. في مجموعة البيانات هذه ، هناك بعض القيمة الكبيرة للغاية ، لكنها كلها قيم معقولة. وبالتالي ، يمكنني تطبيق الترميز العلوي والسفلي للتعامل معها. في الشكل 3 ، يمكنك أن ترى بعد تطبيق الترميز الأعلى ، يكون توزيع الميزة أكثر طبيعية.

الشكل 3 المعاملة الخارجية مع الترميز الأعلى

وفقًا لنموذج سجل النتائج الموضح في الشكل 1 ، من الواضح أنه يجب تجميع كل ميزة في سمات مختلفة (أو مجموعات). هناك بعض الأسباب لتجميع الميزات.

  • اكتسب نظرة ثاقبة حول سمات العلاقات الخاصة بالميزة والأداء.
  • تطبيق النماذج الخطية على التبعيات غير الخطية.
  • فهم أعمق لسلوكيات تنبؤات المخاطر ، والتي يمكن أن تساعد في تطوير استراتيجيات أفضل لإدارة المحافظ.

Binning هو الطريقة المناسبة المستخدمة لهذا الغرض. بعد العلاج ، أقوم بتعيين كل قيمة للسمة التي يجب أن تكون بها ، مما يعني أيضًا أن كل القيم الرقمية يتم تحويلها إلى فئة. هنا مثال لنتيجة binning.

الشكل -4 تجميع ميزة

بعد تجميع كل الميزات ، اكتمال هندسة الميزات. الخطوة التالية هي حساب وزن الأدلة لكل سمة وقيمة المعلومات لكل الخصائص (أو الميزة). كما ذكر من قبل ، لقد استخدمت binning لتحويل كل القيمة الرقمية إلى قاطع. ومع ذلك ، لا يمكننا ملائمة النموذج مع هذه القيم الفئوية ، لذلك يتعين علينا تعيين بعض القيم الرقمية لهذه المجموعات. الغرض من وزن الدليل (WoE) هو تحديد قيمة فريدة لكل مجموعة من المتغيرات الفئوية. تقيس قيمة المعلومات (IV) القدرة التنبؤية للخاصية ، والتي تُستخدم لاختيار الميزة. ويرد صيغة WoE و IV أدناه. هنا تعني كلمة "جيد" أن العميل ليس لديه جنوح خطير أو أن المتغير المستهدف يساوي 0 ، و "سيئ" يعني أن العميل سيكون لديه جنوح خطير أو أن المتغير المستهدف يساوي 1.

عادة ، يتم إنتاج تقارير تحليل الخصائص للحصول على WoE و IV. هنا أقوم بتحديد وظيفة في بيثون لإنشاء التقارير تلقائيًا. كمثال ، يظهر تقرير تحليل الخصائص لـ "العمر" في الشكل 5.

الشكل 5 تقرير تحليل الخصائص ل

ثم أقوم بعمل مخطط شريطي لمقارنة الرابع لجميع الميزات. في المخطط الشريطي ، يمكنك رؤية آخر ميزتين "NumberOfOpenCreditLinesAndLoans" و "NumberRealEstateLoansOrLines" تحتويان على معدل منخفض للغاية ، لذا اخترت هنا ثمانية ميزات أخرى لتركيب النماذج.

الشكل -6 القدرة التنبؤية لكل سمة

تركيب نموذج وحساب نقطة سجل الأداء

بعد اختيار الميزة ، أقوم باستبدال السمات بـ WoE المطابق. حتى الآن ، أحصل على مجموعة البيانات المناسبة للتدريب النموذجي. النموذج المستخدم لتطوير بطاقة النتائج هو الانحدار اللوجستي ، وهو نموذج شائع للتصنيف الثنائي. يمكنني تطبيق التحقق من الصحة عبر الشبكة والبحث لضبط المعلمات. ثم ، أستخدم مجموعة بيانات الاختبار للتحقق من دقة التنبؤ للنموذج. نظرًا لأن Kaggle لن يعطي قيمًا للمتغير المستهدف ، يتعين علي إرسال النتيجة على الإنترنت للحصول على الدقة. لإظهار تأثير معالجة البيانات ، أقوم بتدريب النموذج باستخدام البيانات الأولية والبيانات المعالجة. بناءً على النتيجة التي قدمتها Kaggle ، تم تحسين الدقة من 0.693956 إلى 0.800946 بعد معالجة البيانات.

الخطوة الأخيرة هي حساب نقطة تسجيل النتائج لكل سمة وإصدار بطاقة النتائج النهائية. يمكن حساب النتيجة لكل سمة مع الصيغة:

النتيجة = (β × WoE + α / n) × العامل + الإزاحة / n

أين:
β - معامل الانحدار اللوجستي للخصائص التي تحتوي على السمة المحددة
α - اعتراض الانحدار اللوجستي
WoE - قيمة وزن الدليل للسمة المحددة
n - عدد الخصائص المدرجة في النموذج
عامل ، إزاحة - تحجيم المعلمة

المعلمات الأربعة الأولى التي تم حسابها بالفعل هي الجزء السابق. يتم استخدام الصيغ التالية لحساب عامل والإزاحة.

  • عامل = pdo / Ln (2)
  • الإزاحة = النتيجة - (عامل × ln (الصعاب))

هنا ، يعني pdo النقاط لمضاعفة الاحتمالات وتم حساب المعدل السيئ بالفعل في تقارير تحليل الخصائص أعلاه. إذا كان سجل النتائج لديه احتمالات 50: 1 في 600 نقطة و pdo من 20 (احتمالات مضاعفة كل 20 نقطة) ، فإن العامل والإزاحة سيكون:
العامل = 20 / Ln (2) = 28.85
الإزاحة = 600- 28.85 × Ln (50) = 487.14

عند الانتهاء من جميع الحسابات ، تتم عملية تطوير بطاقة النتائج. يظهر جزء من بطاقة النتائج في الشكل 7.

الشكل -7 سجل النتائج النهائية مع جزء من الخصائص

عندما يكون لديك عملاء جدد قادمون ، تحتاج فقط إلى العثور على السمة الصحيحة في كل الخصائص وفقًا للبيانات والحصول على النتيجة. يمكن حساب درجة الائتمان النهائية على أنها مجموع نقاط كل الخصائص. على سبيل المثال ، لدى البنك مقدم طلب جديد للحصول على بطاقة ائتمان تبلغ من العمر 45 عامًا ، ونسبة الدين 0.5 ودخل شهري قدره 5000 دولار. يجب أن تكون درجة الائتمان: 53 + 55 + 57 = 165.

لتطوير بطاقة تسجيل أكثر دقة ، يجب على الناس عادة التفكير في مواقف أكثر. على سبيل المثال ، هناك بعض الأفراد الذين تم تحديدهم على أنهم "سيئون" في السكان ولكن تمت الموافقة على طلبهم ، بينما سيكون هناك بعض الأشخاص "الجيدين" الذين تم رفضهم. وبالتالي ، من المفترض أن يتم رفض الاستدلال في عملية التطوير. لا أقوم بهذا الجزء لأنه يتطلب مجموعة بيانات الحالات المرفوضة التي لا أمتلكها في بياناتي. إذا كنت تريد معرفة المزيد عن هذا الجزء ، فإنني أوصيك بشدة أن تقرأ بطاقات تسجيل مخاطر الائتمان - تطوير وتنفيذ نظام تسجيل الائتمان الذكي الذي كتبه نعيم صديقي.

إذا كنت مهتمًا بعملي أو لديك بعض المشاكل حوله ، فلا تتردد في الاتصال بي. في هذه الأثناء ، إذا كنت تريد معرفة المزيد حول ما يتعلمه الطلاب من دورات علم بيانات WeCloudData ، فراجع هذا الموقع الإلكتروني:

www.weclouddata.com