Περίληψη : | Στην παρούσα διπλωματική εργασία έγιναν πειραματισμοί με μοντέλα μηχανικής μάθησης (machine learning) και μοντέλα βαθιάς μάθησης (deep learning) για δύο προβλήματα κατηγοριοποίησης. Τα πειράματα διεξήχθησαν σε ένα σύνολο δεδομένων, που μας παρείχε η Workable, τα οποία περιέχουν αγγελίες εταιρειών. Ο βασικός μας στόχος είναι να κατηγοριοποιήσουμε τις αγγελίες με βάση το χρώμα του κολάρου (collar color) και με τις απαιτήσεις της εργασίας. Πρώτα ορίσαμε ως βάση τον αλγόριθμο μηχανικής μάθησης XGBoost και αποδείξαμε ότι αντλώντας πληροφορία από τα δεδομένα στα οποία δεν έχει γίνει επισημείωση, οδηγούμαστε σε εντυπωσιακά αποτελέσματα. Χρησιμοποιώντας αρχιτεκτονικές βαθιάς μάθησης, οι οποίες περιλαμβάνουν ποικίλες προσεγγίσεις των Συνελικτικών Νευρωνικών Δικτύων (CNNs) και των Ανατροφοδοτούμενων Νευρωνικών Δικτύων (RNNs) ξεπεράσαμε την καλύτερη μας τεχνολογία. Τέλος, χρησιμοποιούμε το μοντέλο BERT και παραθέτουμε τα αποτελέσματα των πειραμάτων στο σύνολο των δεδομένων της Workable. In this thesis we experiment with machine learning and deep learning models for two binary classification tasks. The experiments were performed on a dataset, provided by Workable, which contains job postings. Our main goal is to classify the job postings according to their collar color and level of requirements. First, we set the baseline usingthe machine learning algorithm XGBoost and we prove that extracting information from data that have not been annotated, leads to impressive results. Then by using deep learning architectures, which include variations of CNN and RNN models, we surpass our baseline. Finally we experiment with BERT, a model that achieves state-of-the-art results on various tasks, and we show how it performs on Workable’s dataset.
|
---|