Συλλογές
Τίτλος Hedge detection: an application on the wikipedia corpus
Δημιουργός Agapiou, Marios, Αγαπίου, Μάριος
Συντελεστής Athens University of Economics and Business, Department of Management Science and Technology
Spinellis, Diomidis
Chatziantoniou, Damianos
Louridas, Panagiotis
Τύπος Text
Φυσική περιγραφή 58p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8952
Περίληψη The purpose of this thesis is to develop a system that automatically detects hedges in Wikipedia articles, using weasel tags. The motivation behind this research project was to tackle the issue of ambiguity in Wikipedia articles, which could lead to the promo-tion of misleading information to the reader. This paper provides the general over-view of this task, including the extraction of the data, the classification methods that were used, as well as the evaluation metrics employed to examine the overall perfor-mance of these methods. In this thesis we experimented with machine and deep learn-ing models to apply the text classification. We implemented Support Vector Machine and XGBoost classifiers, and developed neural networks, such as Convolutional Neu-ral Networks (CNNs) and Recurrent Neural Networks (RNNs) with Long short-term memory (LSTM) architecture to complete this task. We then evaluated these systems against the best performing systems from previous studies that focus on this issue. Overall, we achieved notable results on our dataset, surpassing most hedge detection systems from previous studies, and thus proving the effectiveness of our methods.
Σκοπός αυτής της διατριβής είναι να αναπτυχθεί ένα σύστημα που ανιχνεύει αυτόματα αμφισημίες σε άρθρα της Βικιπαίδειας, χρησιμοποιώντας ετικέτες weasel. Το κίνητρο πίσω από αυτό το ερευνητικό έργο ήταν να αντιμετωπιστεί το θέμα της ασάφειας στα άρθρα της Βικιπαίδειας, που θα μπορούσε να οδηγήσει στην προώθηση παραπλανητικών πληροφοριών στον αναγνώστη. Το παρόν έγγραφο παρέχει τη γενική επισκόπηση αυτού του έργου, συμπεριλαμβανομένης της εξαγωγής των δεδομένων, των μεθόδων κατηγοριοποίησης που χρησιμοποιήθηκαν, καθώς και των μετρήσεων αξιολόγησης που εφαρμόστηκαν για την εξέταση της συνολικής απόδοσης αυτών των μεθόδων. Σε αυτή τη διατριβή πειραματιστήκαμε με μοντέλα τόσο μηχανικής όσο και βαθιάς Μάθησης για να εφαρμόσουμε την ταξινόμηση κειμένου. Υλοποιήσαμε Support Vector Machine και XGBoost ταξινομητές, και αναπτύξαμε νευρωνικά δίκτυα, όπως τα Convolutional Neural Networks (CNNs) και τα Reccurent Neural Networks (RNNs) με αρχιτεκτονική Long short-term memory (LSTM) για την ολοκλήρωση αυτής της εργασίας. Στη συνέχεια, αξιολογούμε αυτά τα συστήματά συγκριτικά με τα καλύτερα συστήματα από προηγούμενες μελέτες που εστιάζουν σε αυτό το ζήτημα. Συνολικά, πετύχαμε αξιοσημείωτα αποτελέσματα, ξεπερνώντας τα περισσότερα συστήματα ανίχνευσης αμφισημιών από προηγούμενες μελέτες, αποδεικνύοντας έτσι την αποτελεσματικότητα των μεθόδων μας.
Λέξη κλειδί Επεξεργασία φυσικής γλώσσας
Deep learning
Hedge detection
Natural language processing
Βαθιά μάθηση
Ανίχνευση αμφισημιών
Διαθέσιμο από 2021-11-26 17:28:49
Ημερομηνία έκδοσης 2020
Ημερομηνία κατάθεσης 2021-11-26 17:28:49
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/