Abstract : | This thesis aims to examine toxicity used in parliamentary discourse. The goals of this task are 3: i) to create an exhaustive list of all toxicity/offensive language/ abusive language definitions for better recollection and future work on the subject ii) to examine if toxicity exists in Greek parliamentary discourse and what type we can find and iii) to examine whether the financial crisis of 2008 can affect the levels of toxicity. For the first goal, a literature review of papers was made and all definitions to our knowledge were collected. For the second and the third goal, several NLP methods were implored. Greek parliamentary proceedings were used as the dataset for our research as well as an annotated dataset which consisted of Greek tweets. The annotated dataset was used to fine-tune a Multinomial NB classifier to find toxicity in our discourse and then examine words that may be used in toxic context. From this process the words horrible, sycophant, criminal, and incompetent were selected. The word illegal immigrant was also examined for its possible toxic usage. Finally, words descriptive for ideology were compared for their similarity with fascism, considering that fascism is a taboo ideology and thus this could be another indicator for toxicity. Η μεταπτυχιακή αυτή εργασία είναι μια απόπειρα να διερευνηθεί η τοξικότητα στον κοινοβουλευτικό λόγο. Οι στόχοι της εργασίας είναι τρεις: Πρώτον να δημιουργηθεί μια εξαντλητική λίστα με ορισμούς που αφορούν την τοξική/επιθετική/κακοποιητική γλώσσα, δεύτερον να εξεταστεί αν υφίσταται τοξικότητα στο ελληνικό κοινοβούλιο και τί είδους τοξικότητα μπορούμε να ανακαλύψουμε και τρίτον εαν η οικονομική κρίση του 2008 μπορεί να επηρεάσει τα επίπεδα της τοξικότητας. Για τον πρώτο στόχο πραγματοποιήθηκε μια βιβλιογραφική έρευνα και συλλέχθηκαν όλοι οι ορισμοί που αφορούν τους προαναφερθέντες όρους. Για τον δεύτερο και τον τρίτο στόχο αξιοποιήθηκαν μέθοδοι του τομέα της Επεξεργασίας Φυσικής Γλώσσας. Συγκεκριμένα αναλύθηκαν κοινοβουλευτικές ομιλίες από το 1989 μέχρι το 2019 και αξιοποιήθηκε παράλληλα ένα corpus δεδομένων συλλογής ελληνικών tweet, το οποίο είχε υποστεί επεξεργασία για να δηλωθούν ποια tweet έχουν επιθετική γλώσσα και ποια όχι. Μέσω αυτού και αξιοποιώντας έναν Multinomial Naïve Bayes ταξινομητή προκειμένουν να βρεθούν τοξικές ομιλίες. Στη συνέχεια από τις ομιλίες που χαρακτηρίστηκαν από τον ταξινομητή ως τοξικές, αναζητήθηκαν λέξεις για να μελετηθεί η γλωσσική τους χρήση. Οι λέξεις που βρέθηκαν ήταν τέσσερις: άθλιος, συκοφάντης, ανίκανος και εγκληματίας. Μελετήθηκε επίσης διεξοδικά η λέξη λαθρομετανάστης και η πιθανότητα να χρησιμοποιηθεί από τους ομιλητές τοξικά. Τέλος έγινε μια απόπειρα να εξεταστεί αν οι ομιλητές ταυτίζουν λέξεις που περιγράφουν ιδεολογίες με την λέξη «φασισμός» ως μια πιθανή τοξική ρητορική τεχνική.
|
---|