Περίληψη : | Για αυτή την εργασία, εξερευνούμε πιθανές υλοποιήσεις για να αναπτυχθεί ένας μηχανισμός ανίχνευσης παρόμοιων σετ Ερωτήσεων/Απαντήσεων. Αυτή η διαδικασία αναφέρεται ως Σημασιολογική Αναζήτηση Ομοιοτήτων (Semantic Search Similarity). Σκοπός είναι να καθοριστεί το καλύτερο μοντέλο για αυτό το πρόβλημα και να προσφερθεί ως μία υπηρεσία Επιχειρησιακής νοημοσύνης. Η εξέλιξη της τεχνολογίας σε αυτή την περιοχή, που αποτελεί και μέρος ενός γενικότερου προβλήματος στη Επεξεργασία Φυσικής Γλώσσας το οποίο λέγεται Εξαγωγή Συμπεράσματος (Natural Language Inference), έχει σημειώσει σημαντική πρόοδο. Τα νεώτερα μοντέλα νευρωνικών δικτύων βαθιάς μάθησης συνδυάζουν επιτηρούμενη και και μη επιτηρούμενη μάθηση για να παράγουν διανυσματικές αναπαραστάσεις κειμένων συλλαμβάνοντας σημασιολογικό περιεχόμενο. Τα δύο καλύτερα μοντέλα που προέκυψαν μετά τα πειράματα στα δεδομένα που παραχωρήθηκαν από την Helvia Technologies, θα δοκιμαστούν σε περιβάλλον παραγωγής. Τα δικά μας πειράματα έδειξαν πως τα προεκπαιδευμένα νευρωνικά δίκτυα USE & SentenceBert κατάφεραν να εξάγουν σημασιολογικές ομοιότητες μεταξύ των σετ σε αντίθεση με τα μοντέλα αναφοράς. Τέλος, προτείνεται η αξιολόγηση αυτού του συστήματος μέσω μιας Human in the Loop προσέγγισης όπου οι άνθρωποι αξιολογούν την απόδοση αυτού. Δηλαδή, κατά πόσο αντιστοιχούν στην πραγματικότητα οι προτάσεις του εργαλείου περί όμοιων σετ, όπως επίσης από το κατά πόσο γρηγορότερη γίνεται η διαδικασία ομαδοποίησης. In this thesis, we are tasked to explore possible implementations to develop a mechanism for detecting similar Question Answering sets (intents). This is also referred as Semantic Search Similarity. The goal is to determine which is the best model fitted for this situation and deploy it as a service for Business Intelligence (BI) purposes. Advances in this area, which is a part of a general concept called Natural Language Inference, have been substantial. Latest neural network models combine both unsupervised and supervised knowledge to produce context aware vector representation of documents. The two most prominent models, according to bibliography, Universal Sentence Encoder (USE) and SentenceBERT are evaluated on an annotated dataset provided by Helvia Technologies. The results indicate that these pretrained models are able to detect semantically related sets where better than the baseline models. Finally we introduce a Human in the Loop evaluation system where the company’s personnel is asked to test the proposed best models and see if this serves as a useful tool in reducing the processing time of manually merging similar sets.
|
---|