Abstract : | Η παρούσα διπλωματική εργασία με τίτλο “Machine Learning Algorithms for Consumer Analytics” έχει ως στόχο την εξερεύνηση των μεθόδων, με τις οποίες μπορούν να χρησιμοποιηθούν οι αλγόριθμοι κατηγοριοποίησης προκειμένου να προβλέψουν την καταναλωτική συμπεριφορά, την υλοποίηση των παραπάνω αλγορίθμων και την συγκριτική τους αξιολόγηση. Ειδικότερα, γίνεται μια σύντομη περίληψη των διάφορων πεδίων την μηχανικής μάθησης και στη συνέχεια αναλύεται περισσότερο η κατηγοριοποίηση και τα μέτρα αξιολόγησης των αντίστοιχων μοντέλων. Έπειτα, γίνεται μια περιγραφή των αλγόριθμων που θα χρησιμοποιηθούν στην διπλωματική, οι οποίοι είναι η Λογιστική Παλινδρόμηση, K-Κοντινότεροι-Γείτονες, Μηχανές Διανυσμάτων Υποστήριξης, Naive Bayes, Δέντρα αποφάσεων, Τυχαία Δάση, AdaBoost και GradientBoosting. Στο επόμενο στάδιο, γίνεται μια σύνοψη των τρόπων που μπορούν να χρησιμοποιηθούν μοντέλα μηχανικής μάθησης για την πρόβλεψης της καταναλωτικής συμπεριφοράς. Αναλύονται σε μεγαλύτερο βάθος οι περιπτώσεις της πρόβλεψης διαδικτυακής συμπεριφοράς ενός καταναλωτή και της χρήσης μοντέλων για την πρόβλεψη πελατών που θα εγκαταλείψουν τις υπηρεσίες μιας επιχείρησης. Στην συνέχεια χρησιμοποιούνται δύο διαφορετικά σύνολα δεδομένων για την εκπαίδευση και την αξιολόγηση των προβλέψεων των αλγόριθμων που αναφέρθηκαν παραπάνω. Για την δημιουργία των μοντέλων, αρχικά έγινε εξερευνητική ανάλυση στα δεδομένα, έπειτα προεπεξεργασία των δεδομένων, στην συνέχεια επεξεργασία και επιλογή των χαρακτηριστικών και τέλος ρύθμιση των παραμέτρων των μοντέλων προκειμένου να αυξηθεί η απόδοση τους. Τα μέτρα αξιολόγησης των μοντέλων ήταν η ορθότητα, ακρίβεια, ανάκληση και f1-score και με βάση αυτά έγινε η συγκριτική αξιολόγηση των μοντέλων όπου και για τα δύο σύνολα δεδομένων καταλληλότερος αλγόριθμος κρίθηκε ο GradientBoosting, καθώς είχε την υψηλότερη απόδοση. This dissertation titled “Machine Learning Algorithms for Consumer Analytics” aims at analyzing the methods, that classification algorithms can be used in order to predict consumer behavior, train those algorithms and compare their performance. A brief summary of the various machine learning fields is provided and then a more detailed analysis is conducted regarding classification and classification metrics. Then the following algorithms, that are going to be used in this dissertation, are described in detail : Logistic Regression, K-Nearest-Neighbors, Support Vector Machines, Naive Bayes. Decision Trees, Random Forests, AdaBoost, GradientBoosting. Next, there is an overview of the various methods that machine learning models can be used in order to predict consumer behavior. A more detailed analysis is conducted for the cases of predicting online shoppers behavior and predicting customer churn, then two different datasets are used in order to train and evaluate the above algorithms. In order to create those models the following steps where followed : exploratory analysis, data preprocessing, feature engineering, feature selection and hyperparameters optimization. The metrics used in order to evaluate and rank the models performance are accuracy, precision, recall and f1-score, with GradientBoosting ending up as the most suitable model for both datasets, since it achieved the highest performance.
|
---|