Περίληψη : | In this thesis, we had to face a classification problem. The main idea is that we have data from a bank, and we want to predict if a customer will proceed with an electronic transaction or not. This thesis aims to give the best solution for this binary problem. First, we proceed to a pre-processing where we delete some columns, transform some data into dummies, etc. After that, we selected to proceed with some advanced feature selection with Lasso and PCA. For these methods, we try various algorithms such as Logistic Regression, Linear Discriminant Analysis, Support Vector Machines (with SVC linear, Polynomial Kernel, Gaussian Kernel, Sigmoid Kernel), Gaussian Naïve Bayes, Decision Tree, Extra Tree, Random Forest, K-nearest neighbors, AdaBoost, Gradient Boosting, XGBoost and we compared their evaluation performance. Finally, when we test our methods with simulated data, we conclude that the best approach is Lasso feature selection and the Support Vector Classifier with Linear Kernel, which has the best evaluation metrics. Σε αυτή τη διατριβή, έπρεπε να αντιμετωπίσουμε ένα πρόβλημα ταξινόμησης. Η κύρια ιδέα είναι ότι έχουμε δεδομένα από μια τράπεζα και θέλουμε να προβλέψουμε εάν ένας πελάτης θα προχωρήσει σε μια ηλεκτρονική συναλλαγή ή όχι. Η παρούσα διπλωματική εργασία έχει ως στόχο να δώσει την καλύτερη λύση για αυτό το δυαδικό πρόβλημα. Αρχικά, προχωρήσαμε σε μια προ επεξεργασία όπου διαγράψαμε κάποιες στήλες, μετατρέψαμε κάποια δεδομένα σε ψευδομεταβλητές κ.λπ. Έπειτα επιλέξαμε να προχωρήσουμε σε κάποια προηγμένη επιλογή μεταβλητών με Lasso και PCA. Για αυτές τις μεθόδους, δοκιμάσαμε διάφορους αλγόριθμους όπως Logistic Regression, Linear Discriminant Analysis, Support Vector Machines (με SVC linear, Polynomial Kernel, Gaussian Kernel, Sigmoid Kernel), Gaussian Naïve Bayes, Decision tree, Extra tree, Random Forest, K- nearest Neighbors, AdaBoost, Gradient Boosting, XGBoost και συγκρίναμε τα μέτρα απόδοσης τους. Τέλος, όταν δοκιμάσαμε τις μεθόδους μας με προσομοιωμένα δεδομένα, καταλήξαμε στο συμπέρασμα ότι η καλύτερη προσέγγιση είναι η επιλογή της μεθόδου Lasso και ο αλγόριθμος SVM με γραμμικό ταξινομητή , που έχει τα καλύτερα μέτρα αξιολόγησης.
|
---|