Περίληψη : | Σε αυτή την διπλωματική εργασία ασχοληθήκαμε με την επιλογή μεταβλητών και την πρόβλεψη της χρεοκοπίας επιχειρήσεων με την χρήση μηχανικής μάθησης. Το σύνολο δεδομένων αφορούσε Πολωνικές επιχειρήσεις. Οι αλγόριθμοι που εφαρμόσαμε για την επιλογή μεταβλητών ήταν ο LASSO και ο γ-OMP. Οι αλγόριθμοι που εφαρμόσαμε για την πρόβλεψη της χρεοκοπίας ήταν το Τυχαίο Δάσος, ο SVM και η λογιστική παλινδρόμηση. Πραγματοποιήσαμε συντονισμό των παραμέτρων των αλγορίθμων μέσω διασταυρούμενης επικύρωσης. Τα αποτελέσματα της πρόβλεψης τα αξιολογήσαμε με την χρήση του AUC. Το καλύτερο μοντέλο προέκυψε από τον συνδυασμό του γ-OMP και του Τυχαίου δάσους με μέσο AUC 0,862. Στη συνέχεια, συγκρίναμε τα αποτελέσματα του γ-OMP και του LASSO και εξετάσαμε τις μεταβλητές που είχαν επιλεγεί από τον κάθε αλγόριθμο. Τέλος, εφαρμόσαμε στο σύνολο των δεδομένων το καλύτερο μοντέλο, όπως αυτό προέκυψε από την διασταυρούμενη επικύρωση και εξετάσαμε με την χρήση διαγραμμάτων ICE την επίδραση της κάθε μεταβλητής. In this master thesis we have dealt with variable selection and prediction of business bankruptcy using machine learning algorithms. The dataset was about Polish Companies. The algorithms we applied for variable selection were LASSO and γ-OMP. The algorithms we applied for predicting bankruptcy were Random Forest, SVM and logistic regression. We performed tuning of the algorithm parameters through cross-validation. We evaluated the prediction results using AUC. The best model was obtained by combining γ-OMP and Random Forest with an AUC of 0.862. Then we compared the results of γ-OMP and LASSO and examined the variables selected by each algorithm. Finally, we applied the best model to the whole dataset as derived from cross-validation and examined the effect of each variable using ICE plots.
|
---|