Περίληψη : | Στη σημερινή εποχή ο όγκος των δεδομένων αυξάνεται συνεχώς όσο ποτέ άλλοτε. 'Ενα µεγάλο μέρος αυτών των δεδομένων είναι δομημένο σε μορφή πίνακα. Πολλές φορές η διάσταση των πινάκων είναι εκτενής, περιλαμβάνοντας πληροφορίες που δεν ενδιαφέρουν τον αναγνώστη. Δεδομένου ότι οι επιχειρήσεις αποσκοπούν στην εξοικονόμηση χρόνου και πόρων, υπάρχει η επιτακτική ανάγκη να αυτοματοποιηθούν όσες περισσότερες διαδικασίες είναι εφικτό. Σκοπός της παρούσας διπλωματικής εργασίας είναι η παραγωγή περιλήψεων γραμμένων σε φυσική γλώσσα όπου παρέχουν στον χρήστη την πληροφορία που αναζητά. Για την παραγωγή των περιλήψεων εκπαιδεύτηκαν τρία μοντέλα σε δύο διαφορετικά datasets που υιοθετούν την αρχιτεκτονική των Transformers [Vas+17]. Συγκεκριμένα από την οικογένεια των Τ5 [Raf+19] επιλέχθηκαν το T5-small και το Τ5-base. Το τρίτο μοντέλο που χρησιμοποιήθηκε είναι το Bart-base [Lew+19]. Για την εκπαίδευση των μοντέλων, επιλέχθηκαν τα datasets ToTTo [Par+20] και QTSumm [Zha+23]. Στόχος του πρώτου είναι η παραγωγή µιας πρότασης η οποία περιλαμβάνει πληροφορία που περιέχεται σε υποδεδειγμένα κελιά. Αυτό έχει ως αποτέλεσμα να μειώνεται ο όγκος των περιττών πληροφοριών. Σκοπός του δεύτερου είναι η παραγωγή περιλήψεων μίας παραγράφου που απαντούν στο ερώτημα του χρήστη. Τα ερωτήματα μπορεί να περιλαμβάνουν απλές στοχευμένες περιλήψεις των πινάκων, συγκρίσεις μεταξύ τιμών, κα. Καθώς τα μοντέλα δέχονται τα δεδοµένα σε μορφή κειμένου, οι πίνακες πριν δοθούν στα μοντέλα µετασχηµατίστηϰαν χρησιμοποιώντας τη μέϑοδο των Chen et al. [Che+22]. ΄Όσον αφορά το ΤοΤΤο, τα ευρήματα υποδηλώνουν ότι οι παραλλαγές του Τ5 είναι ικανές να παράξουν πολύ καλές περιλήψεις για πίνακες που προέρχονται από την κατηγορία "Mixed Martial Arts Record", ενώ το Bart-base υπερτερεί στη δημιουργία περιλήψεων για πίνακες που εμπίπτουν στην κατηγορία "Demographics". Συνολικά, τα τρία μοντέλα ξεπέρασαν το benchmark. Συνεχίζοντας µε το QTSumm, τα αποτελέσματα φαίνεται να είναι παρόμοια µε αυτά του benchmark. Συγκριτικά µε το ΤοΤΤο, η απόδοση είναι χαμηλότερη, γεγονός που δεν προκαλεί εντύπωση καθώς το κείμενο που παράγεται είναι μεγαλύτερο σε έκταση και απαιτεί αυξημένο επίπεδο λογικής σκέψης. The term Table-to-Text refers to the process of converting information from structured tables into natural language text. This can be achieved by converting the tables to a text format and then using a sequence-to-sequence (seq2seq) model, which predicts the next token based on the context of the input and the previously generated tokens. On the spectrum of this project three transformer-based models are used, namely T5-small, T5-base [Raf+19] and Bart-base [Lew+19]. All models are trained on the ToTTo [Par+20] and QTSumm [Zha+23] datasets with the aim to generate targeted summaries that include the requested information. Regarding ToTTo, the models are evaluated not only across the entire test set but also within the top 5 most popular domains. The findings suggest that the T5 variations exhibit strong performance in generating summaries for tables sourced from the Mixed Martial Arts Record category whereas the strength of the Bart-base model lies in generating summaries for tables within the domain of Demographics. Overall, the three models outperformed the benchmark. Concerning QTSumm, the models exhibited a similar level of performance to the benchmark across a wide range of metrics. The performance is relatively lower compared to ToTTo, which was anticipated given that QTSumm presents a more demanding task that requires more advanced reasoning abilities.
|
---|