Περίληψη : | Ο στόχος της μεθόδου Sentiment Analysis στον χρηματοοικονομικό τομέα, ουσιαστικά αναφέρεται στην ποσοτικοποίησστη και την ανάλυση του συναισθήματος το οποίο εξάγεται από χρηματοοικονομικά κείμενα, για διαφορετικούς σκοπούς όπως οι επενδύσεις, η κερδοφορία μιας εταιρείας κ.λπ. Στην εποχή του μεγάλου όγκου δεδομένων (big data), η ανάπτυξη διαφόρων τύπων κειμένων με χρηματοοικονομικό περιεχόμενο αποτελεί μια μεγάλη πρόκληση για τις περισσότερες εταιρείες ή οργανισμούς που προσπαθούν να αντλήσουν αξία από αυτά. Τα κείμενα αποτελούν αδόμητα δεδομένα και επομένως είναι δύσκολο να επεξεργαστούν και να αναλυθούν. Ωστόσο, είναι πολύ σημαντικό για τις εταιρείες να αναπτύξουν κάποια εργαλεία ώστε να μπορούν να λαμβάνουν καλύτερες οικονομικές αποφάσεις χρησιμοποιώντας τον τεράστιο όγκο των οικονομικών κειμένων στο Διαδίκτυο. Σε αυτή τη διατριβή, προσπαθούμε να εξαγάγουμε το συναίσθημα για συγκεκριμένες οντότητες (Entity based Sentiment Analysis) από διάφορα οικονομικά κείμενα με τη βοήθεια αλγορίθμων μηχανικής μάθησης. Χρησιμοποιούμε ταξινομητές όπως Random Forest, Bagging, Gradient Boosting και Voting και με βάση τα αποτελέσματα ο ταξινομητής Voting αποδίδει καλύτερα από τους άλλους. The objective of Sentiment Analysis in the finance sector, essentially involves quantifying, exploiting and analyzing sentiment from financial texts, for different purposes like investments, profitability of a company etc. In the era of big data, the growth of various types of texts with financial content is extremely challenging for most firms or organizations which try to extract value out of them. Texts are unstructured data and thus it is difficult to process and analyze. However, it is very important for the companies to develop some tools and be able to get better financial decisions using the huge amount of financial texts in the web. In this thesis, we try to extract the sentiment for specific entities from various financial texts with the help of machine learning algorithms. We use classifiers like random forest, bagging, gradient, boosting and voting and based on the results the voting classifier performs better than the others.
|
---|