Abstract : | Το έργο της παρούσας διπλωματικής εργασίας ήταν να δημιουργήσει πλήρη και κατάλληλα θέματα για tweets που αφορούν μάρκες. Μετά τη διερεύνηση των διαθέσιμων δεδομένων που μοιράστηκαν από την Paloservices, οδηγηθήκαμε σε πολύτιμα συμπεράσματα σχετικά με συγκεκριμένες τάσεις σε κανάλια και μάρκες. Η πρωταρχική ανάγκη που προέκυψε από την εταιρεία ήταν η ανάδειξη θεμάτων που προσφέρουν μεγαλύτερη ακρίβεια και διορατικότητα για κάθε μάρκα. Έχοντας ένα σύνολο δεδομένων που περιελάμβανε κυρίως tweets στα ελληνικά, το συναίσθημα του καθενος tweet (θετικό, αρνητικό και ουδέτερο), μια ετικέτα για κάθε tweet καθώς και από ποιο κανάλι προήλθε, σε ποια μάρκα αναφέρεται και την ημερομηνία δημιουργίας του. Έπρεπε να δημιουργήσουμε ένα νέο χαρακτηριστικό που να οδηγεί σε πιο λεπτομερή θέματα. Για πολλές μάρκες, τα διαθέσιμα tweets ήταν έως και τριών ετών, γεγονός που οδηγούσε σε πολύ γενικά και μη ερμηνεύσιμα θέματα. Θεωρήσαμε ότι ο χρόνος είναι σημαντικός παράγοντας για τη βελτιστοποίηση των αποτελεσμάτων, οπότε τον λάβαμε υπόψιν στη μοντελοποίηση. Επισης, εκτιμήσαμε ότι θα ηταν ενδιαφέρον να χρησιμοποιήσουμε το συναίσθημα ως έναν ακόμη παράγοντα του νέου χαρακτηριστικού για να μελετήσουμε πώς κινείται όσον αφορά το χρόνο. Έτσι, έχοντας δημιουργήσει έναν τύπο στον οποίο αξιοποιήσαμε το συναίσθημα και τον χρόνο, ήταν σαφές ότι η καμπύλη του συναισθήματος, καθώς εξελισσόταν, είχε σημεία αλλαγής. Σε αυτό το σημείο, εφαρμόσαμε αλγόριθμους για τον εντοπισμό των σημείων αλλαγής. Ως εκ τούτου, υποθέτουμε ότι θα προκύψουν πιο λεπτομερή θέματα με σημασιολογική εξήγηση μεταξύ των σημείων αλλαγής, εφαρμόζοντας μοντελοποίηση θεμάτων λίγες ημέρες πριν από τη μεταβολή του συναισθήματος, προκειμένου να διερευνήσουμε τους λόγους για τους οποίους το συναίσθημα αλλάζει. The task of this thesis was to create the most complete and appropriate topics for tweets concerning brands. After exploring the available data (Exploratory Data Analysis-EDA) shared by Paloservices, we were led to valuable conclusions about specific trends in channels and brands. The primary need that emerged from the company was to highlight topics that offer greater accuracy and insight for each brand. Having a dataset that included, mainly tweets in Greek, the sentiment of each tweet (positive, negative, and neutral), a tag for each tweet as well as which channel it came from, which brand it refers to, and the date of its creation. We needed to create a new feature leading to more fine-grained topics. For many brands, the available tweets were up to three years old, which led to very general and incoherent topics. We thought it was helpful to use the timeline, so we also took time into account as a factor for the new feature. It was insightful to use the sentiment as another factor of the new feature to study how it moves concerning time. So, having created a formula in which we exploited emotion and time, it was clear that the emotion curve, as it evolved, had change points. At this point, we implemented algorithms to identify the change points. Therefore, more fine-grained topics will be obtained by semantic explanation between change points, applying topic modeling a few days before the sentiment change to explore why the sentiment changes.
|
---|