AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Οικονομικών Επιστημών / School of Economics Τμήμα Οικονομικής Επιστήμης / Department of Economics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Integration of machine learning and econometric approaches for loan performance analysis: a comparative study

Alternative Title :	Ολοκλήρωση των προσεγγίσεων μηχανικής μάθησης και οικονομετρικών τεχνικών για την ανάλυση της απόδοσης δανείων: μια συγκριτική μελέτη

Creator :	Giannakopoulos, Dimitrios Γιαννακόπουλος, Δημήτριος

Contributor :	Dendramis, Yiannis (Επιβλέπων καθηγητής) Tzavalis, Elias (Εξεταστής) Pagratis, Spyridon (Εξεταστής) Athens University of Economics and Business, Department of Economics (Degree granting institution)

Type :	Text

Extent :	71p.

Language :	en

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11344

Abstract :	Assessing credit risk through machine learning typically involves the application of classification algorithms to distinguish between reliable and unreliable customers based on historical data. This thesis delves into the application through extensive literature review of machine learning techniques for credit risk assessment within the banking sector, highlighting the shift from traditional statistical methods to advanced AI-driven algorithms due to their efficiency in handling complex datasets. In extension, the research applies various machine learning models, including logistic regression, decision trees, and random forests, to an unbalanced dataset to assess their impact on predicting loan defaults, AND also explores the use of SMOTE for dataset balancing, aiming to improve model performance in predicting financial outcomes In the analysis of imbalanced datasets, tree-based methodologies demonstrate a marginal superiority over logistic regression as ordinal classifiers. However, logistic regression distinguishes itself with superior discriminative power, as evidenced by higher Area Under the Curve (AUC) score values, across both balanced and imbalanced datasets. Η αξιολόγηση του πιστωτικού κινδύνου μέσω της μηχανικής μάθησης συνήθως περιλαμβάνει την εφαρμογή αλγορίθμων ταξινόμησης για να διακρίνει μεταξύ αξιόπιστων και μη αξιόπιστων πελατών βάσει ιστορικών δεδομένων. Αυτή η εργασία εμβαθύνει στην εφαρμογή μέσω εκτενούς ανασκόπησης της βιβλιογραφίας των τεχνικών μηχανικής μάθησης για την αξιολόγηση του πιστωτικού κινδύνου εντός του τραπεζικού τομέα, τονίζοντας τη μετάβαση από τις παραδοσιακές στατιστικές μεθόδους σε προηγμένους αλγορίθμους που βασίζονται στην τεχνητή νοημοσύνη λόγω της αποδοτικότητάς τους στη διαχείριση περίπλοκων και μεγάλων συνόλων δεδομένων. Επιπλέον, η έρευνα εφαρμόζει εμπειρικά διάφορα μοντέλα μηχανικής μάθησης, συμπεριλαμβανομένων της λογιστικής παλινδρόμησης, των δέντρων αποφάσεων και των Random Forests, σε ένα μη ισορροπημένο σύνολο δεδομένων με σκοπό να αξιολογήσει την επίδρασή τους στην πρόβλεψη των δανείων και της αθέτησης πληρωμών αυτών. Επίσης εξερευνά τη χρήση της SMOTE (Synthetic Minority Oversampling Technique) τεχνικής για την ισορροπία των συνόλων δεδομένων, με στόχο τη βελτίωση της απόδοσης των μοντέλων στην πρόβλεψη αποτελεσμάτων. Στην ανάλυση των μη ισορροπημένων συνόλων δεδομένων, οι μεθοδολογίες βασισμένες σε δέντρα επιδεικνύουν μια οριακή υπεροχή έναντι της λογιστικής παλινδρόμησης ως κατατακτηρίων ταξινομητών. Ωστόσο, η λογιστική παλινδρόμηση διακρίνεται με ανώτερη διακριτική ικανότητα, όπως φαίνεται από τις υψηλότερες τιμές σκορ που λαμβάνει η Area Under the Curve (AUC), και στα ισορροπημένα και στα μη ισορροπημένα σύνολα δεδομένων.

Abstract :

Assessing credit risk through machine learning typically involves the application of classification algorithms to distinguish between reliable and unreliable customers based on historical data. This thesis delves into the application through extensive literature review of machine learning techniques for credit risk assessment within the banking sector, highlighting the shift from traditional statistical methods to advanced AI-driven algorithms due to their efficiency in handling complex datasets. In extension, the research applies various machine learning models, including logistic regression, decision trees, and random forests, to an unbalanced dataset to assess their impact on predicting loan defaults, AND also explores the use of SMOTE for dataset balancing, aiming to improve model performance in predicting financial outcomes In the analysis of imbalanced datasets, tree-based methodologies demonstrate a marginal superiority over logistic regression as ordinal classifiers. However, logistic regression distinguishes itself with superior discriminative power, as evidenced by higher Area Under the Curve (AUC) score values, across both balanced and imbalanced datasets.
Η αξιολόγηση του πιστωτικού κινδύνου μέσω της μηχανικής μάθησης συνήθως περιλαμβάνει την εφαρμογή αλγορίθμων ταξινόμησης για να διακρίνει μεταξύ αξιόπιστων και μη αξιόπιστων πελατών βάσει ιστορικών δεδομένων. Αυτή η εργασία εμβαθύνει στην εφαρμογή μέσω εκτενούς ανασκόπησης της βιβλιογραφίας των τεχνικών μηχανικής μάθησης για την αξιολόγηση του πιστωτικού κινδύνου εντός του τραπεζικού τομέα, τονίζοντας τη μετάβαση από τις παραδοσιακές στατιστικές μεθόδους σε προηγμένους αλγορίθμους που βασίζονται στην τεχνητή νοημοσύνη λόγω της αποδοτικότητάς τους στη διαχείριση περίπλοκων και μεγάλων συνόλων δεδομένων. Επιπλέον, η έρευνα εφαρμόζει εμπειρικά διάφορα μοντέλα μηχανικής μάθησης, συμπεριλαμβανομένων της λογιστικής παλινδρόμησης, των δέντρων αποφάσεων και των Random Forests, σε ένα μη ισορροπημένο σύνολο δεδομένων με σκοπό να αξιολογήσει την επίδρασή τους στην πρόβλεψη των δανείων και της αθέτησης πληρωμών αυτών. Επίσης εξερευνά τη χρήση της SMOTE (Synthetic Minority Oversampling Technique) τεχνικής για την ισορροπία των συνόλων δεδομένων, με στόχο τη βελτίωση της απόδοσης των μοντέλων στην πρόβλεψη αποτελεσμάτων. Στην ανάλυση των μη ισορροπημένων συνόλων δεδομένων, οι μεθοδολογίες βασισμένες σε δέντρα επιδεικνύουν μια οριακή υπεροχή έναντι της λογιστικής παλινδρόμησης ως κατατακτηρίων ταξινομητών. Ωστόσο, η λογιστική παλινδρόμηση διακρίνεται με ανώτερη διακριτική ικανότητα, όπως φαίνεται από τις υψηλότερες τιμές σκορ που λαμβάνει η Area Under the Curve (AUC), και στα ισορροπημένα και στα μη ισορροπημένα σύνολα δεδομένων.

Subject :	Credit risk Machine learning (ML) Imbalanced data Classification algorithms Πιστωτικός κίνδυνος Μηχανική μάθηση Μη ισορροπημένα δεδομένα Αλγόριθμοι ταξινόμησης

Date Available :	2024-04-07 22:51:36

Date Issued :	29-03-2024

Date Submitted :	2024-04-07 22:51:36

Access Rights :	Free access

Licence :

File: Giannakopoulos_2024.pdf

Type: application/pdf

Login