Abstract : | Υπόβαθρο: Η αυξανόμενη δημοτικότητα του Instagram καθιστά αναγκαία την κατανόηση των παραγόντων που επηρεάζουν την απόδοση των αναρτήσεων. Σε αντίθεση με άλλες μελέτες που επικεντρώνονται σε βασικά χαρακτηριστικά όπως τα likes και τα σχόλια, αυτή η έρευνα εξετάζει συνδυαστικά αυτά τα χαρακτηριστικά μαζί με οπτικά στοιχεία, όπως η παρουσία προσώπου σε μια εικόνα ή βίντεο. Επιπλέον, ενώ η παραδοσιακή βιβλιογραφία συνήθως χρησιμοποιεί μοντέλα παλινδρόμησης για να εκτιμήσει την απόδοση, αυτή η μελέτη αντιμετωπίζει το πρόβλημα ως μια δυαδική ταξινόμηση, προβλέποντας αν μια ανάρτηση στο Instagram θα είναι "δημοφιλής" ή "μη δημοφιλής".Σκοπός: Στόχος αυτής της διπλωματικής είναι η πρόβλεψη της δημοφιλίας των αναρτήσεων στο Instagram, αξιοποιώντας μεταδεδομένα όπως το κείμενο, τα hashtags, τα likes και τα σχόλια, καθώς και το οπτικό περιεχόμενο μιας ανάρτησης. Η έρευνα επικεντρώνεται στις αναρτήσεις της εταιρείας καλλυντικών "Rare Beauty".Μέθοδοι: Το σύνολο των δεδομένων που χρησιμοποιήθηκε στην έρευνα αποτελείται από 640 αναρτήσεις στο Instagram, οι οποίες συλλέχθηκαν από τον λογαριασμό της εταιρείας "Rare Beauty". Για την πρόβλεψη της δημοφιλίας, χρησιμοποιήθηκαν αλγόριθμοι μηχανικής μάθησης, όπως το Random Forest και το Gradient Boosting. Κατά την διαδικασία ανάλυσης των δεδομένων, δημιουργήθηκαν νέες μεταβλητές, όπως το συναίσθημα που δημιουργεί το κειμένου μιας ανάρτησης καθώς και η παρουσία προσώπων στις εικόνες και τα βίντεο, με τη χρήση προχωρημένων μοντέλων όπως το VGG16 και το MTCNN.Αποτελέσματα: Το Gradient Boosting αποδείχθηκε το πιο αποτελεσματικό μοντέλο με ακρίβεια περίπου 80%, επιδεικνύοντας ικανότητα στην πρόβλεψη της δημοφιλίας των αναρτήσεων. Το Random Forest πέτυχε ακρίβεια 75%, ενώ η Λογιστική Παλινδρόμηση είχε αρκετά χαμηλότερη ακρίβεια στο 55%, λόγω της έλλειψης γραμμικών σχέσεων μεταξύ των μεταβλητών. Κύριες μεταβλητές της μελέτης, όπως ο αριθμός των προβολών και το μήκος του κειμένου της λεζάντας, συνέβαλαν σημαντικά στην ακρίβεια του μοντέλου.Συμπεράσματα: Η μελέτη καταλήγει στο συμπέρασμα ότι ο συνδυασμός μεταδεδομένων και οπτικού περιεχομένου μπορεί να προβλέψει επιτυχώς τη δημοφιλία των αναρτήσεων στο Instagram. Το μοντέλο Gradient Boosting αποδείχθηκε το πιο ισχυρό εργαλείο πρόβλεψης, ξεπερνώντας άλλους αλγορίθμους μηχανικής μάθησης. Background: The increasing popularity of Instagram has made it essential to understand the factors contributing to a post’s performance. In contrast to other studies that focus primarily on basic features such as likes and comments, this emphasizes the combined analysis of these factors along with visual features such as the presence of a face in an image or video. Also, traditional literature works have estimating performance using regression models, but this study approaches the problem as a binary classification task, predicting whether an Instagram post will be “popular” or “unpopular”.Objective: The objective of this thesis is to predict the popularity of Instagram posts using metadata such as captions, hashtags, likes and comments along with visual content. The study focuses on posts from the beauty brand “Rare Beauty”. Methods: The dataset used in this study consists of 640 Instagram posts scraped from the “Rare Beauty” account. A combination of Random Forest and Gradient Boosting classifiers is applied to predict post popularity based on a range of key metadata and visual content of each post. Feature engineering process, enhance the dataset by adding variables such as sentiment of the text and face detection using advanced models like VGG16 and MTCNN.Results: Gradient Boosting outperformed other models with an accuracy of nearly 80%, indicating ability to predict post popularity. Random Forest achieved 75% accuracy, while Logistic Regression showed a significantly lower accuracy at 55%, which attributed to the lack of linear relationships between the independent variables and the target variable. Key features such as the view count and the text length of the caption contributed to the model’s effectiveness.Conclusions: The study concludes that a combination of post metadata and visual content can successfully predict the popularity of Instagram posts. The Gradient Boosting model proves to be a strong predictive tool for this purpose, outperforming other machine learning algorithms.
|
---|