Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Large pre-trained language model for contractual and regulatory text

Εναλλακτικός τίτλος :	Μεγάλα προ-εκπαιδευμένα γλωσσικά μοντέλα για συµβατικά και κανονιστιϰά νοµικά κείµενα

Δημιουργός :	Λέγκας, Σωτήριος Legkas, Sotirios

Συντελεστής :	Malakasiotis, Prodromos (Επιβλέπων καθηγητής) Markakis, Evangelos (Εξεταστής) Vassalos, Vasilios (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	56p.

Γλώσσα :	en

Αναγνωριστικό :	https://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10775

Περίληψη :	Η ανάλυση πολλαπλών ϰαι ιδιαίτερα εϰτενών νοµιϰών εγγράφων απαιτεί πολύωρη ενασχόληση αυτών που τα χρησιµοποιούν. Για το λόγο αυτό, πολλές νεοφυείς επιχειρήσεις δραστηριοποιούνται στον ϰλάδο της τεχνητής νοηµοσύνης (ΤΝ) παρέχοντας ανάλυση ϰειµένων µέσω τεχνιϰών βαϑιάς µάϑησης, που εξάγουν χρήσιµες πληροφορίες από τα έγγραφα. Οι νεοφυείς επιχειρήσεις πρέπει να προσαρµόσουν την τεχνολογία τους ανάλογα µε τις τάσεις των γλωσσιϰών µοντέλων (ΓΜ) δισεϰατοµµυρίων παραµέτρων. Ωστόσο, η ανάπτυξη µεγάλων µοντέλων είναι δύσϰολη εξαιτίας των υψηλών απαιτήσεων σε υπολογιστιϰούς πόρους ϰαι των οιϰονοµιϰών συνεπειών από την ανάπτυξη ϰαι την ενσωµάτωση τους σε µία εφορµογή. Η παρούσα µελέτη παρέχει σηµαντιϰές πληροφορίες σχετιϰάµε το προαναφερϑέν πρόβληµα, ϰαϑώς αϰολουϑεί τα βήµατα του τµήµατος έρευνας ϰαι ανάπτυξης µιας νεοφυούς επιχείρησης, εξειδιϰευµένης στην εφαρµογή τεχνολογίας ΤΝ µε τεχνιϰές βαϑιάς µάϑησης σε νοµιϰά ϰείµενα. Αϰολουϑώντας την µελέτη του Χαλϰίδη ϰ.ά., 2020, που έδειξε ότι τα προεϰπαιδευµένα µοντέλα στον συγϰεϰριµένο τοµέα των νοµιϰών ϰειµένων αποδίδουν ϰαλύτερα σε διάφορες νοµιϰές διεργασίες επεξεργασίας φυσιϰής γλώσσας (ΕΦΓ), προ-εϰπαιδεύουµε από την αρχή πολλαπλές παραλλαγές ενός πολυγλωσσιϰού ΓΜ σε νοµιϰά ϰείµενα µε βάση την αρχιτεϰτονιϰή του µοντέλου RoBERTa. Τα ϰείµενα που χρησιµοποιήϑηϰαν αποτελούνται από συµβατιϰά ϰαι ϰανονιστιϰά νοµιϰά ϰείµενα σε δέϰα διαφορετιϰές γλώσσες. Στόχος είναι η εϰ νέου χρήση των προ-εϰπαιδευµένων µοντέλων ως ραχοϰοϰαλιά οποιουδήποτε µοντέλου στο µέλλον για την εϰπαίδευση πολλαπλών ταξινοµητών που µας ενδιαφέρουν, µε περιορισµένα δεδοµένα εϰπαίδευσης σε σύγϰριση µε εϰείνα που απαιτούνται για να έχουν ίση απόδοση µε ένα µη προ-εϰπαιδευµένο µοντέλο. Τέλος, η απόδοση των µοντέλων έχει ωςσηµεία αναφοράς 5 νοµιϰές διεργασίες ΕΦΓ, οι οποίες αποτελούνται από δηµόσια ϰαι ιδιωτιϰά σύνολα δεδοµένων. Τα σύνολα δεδοµένων απαρτίζονται απο 3 αγγλιϰά ϰαι 2 πολυγλωσσιϰά σύνολα διαφόρων τύπων διεργασιών (ταξινόµηση εγγράφων/προτάσεων, συµπερασµατολογία φυσιϰής γλώσσας ϰαι εξαγωγή οντοτήτων). Τα αποτελέσµατα έδειξαν ότι τα µεγαλύτερα µοντέλα που εϰπαιδεύτηϰαν σε δεδοµένα συγϰεϰριµένου τοµέα ϰειµένων αποδίδουν ϰαλύτερα από τα µιϰρότερα µοντελα ϰαι ότι τα µοντέλα C-XLM µας ξεπερνούν σε απόδοση τα αντίστοιχα µοντέλα XLM-R που έχουν εϰπαιδευτεί σε δεδοµένα ϰειµένων γενιϰής φύσεως, παρόλο που χρησιµοποιούν µιϰρότερο λεξιλόγιο ϰαι έχουν προ-εϰπαιδευτεί για λιγότερα βήµατα. Επιπλέον, τα µιϰρότερα µοντέλα που εϰπαιδεύτηϰαν στον τοµέα νοµιϰών εγγράφων επιτυγχάνουν ανταγωνιστιϰά αποτελέσµατα έναντι µεγαλύτερων γενιϰών µοντέλων. Εν ϰαταϰλείδι, η προ-εϰπαίδευση ενός αρϰετά µεγάλου ΓΜ για διεργασίες συσχετιζόµενες µε συµβάσεις ϰαι ϰανονιστιϰά νοµιϰά ϰείµενα επιτυγχάνει ϰορυφαία αποτελέσµατα ταξινόµησης σε σύγϰριση µε µιϰρότερα ϰαι µη εξειδιϰευµένα στον τοµέα µοντέλα. The excessive amount and length of legal documents create difficulties in analysis by humans. For that reason, many start-ups operate on the artificial intelligence (AI) field providing text analytics through deep learning techniques that extract useful insightsfrom documents. Start-ups have to adapt their technology accordingly to the trends of billion-parameter-sized Language Models (LMs). However, challenges arise due to high computational resources and economic consequences for the development and deployment for such large models. This work provides important insights on the aforementioned problem, as it follows the steps of the R&D group of a modern legal-tech start-up. FollowingChalkidis et al., 2020, who showed that domain-specific models in legal corpora perform better in several legal NLP tasks, we pre-train from scratch multiple variants of a domainspecific multi-lingual LM based on RoBERTa architecture. The corpus that was used is consisted by contractual and regulatory legal text in ten different languages. The goal is to re-use the pre-trained models as the backbone of any model in the future to train multiple classifiers of interest with limited training data compared to those needed to have equal performance with a non pre-trained model. Finally, the performance of themodels is benchmarked across 5 down-stream legal NLP tasks, which comprise both publicly available and private datasets covering both English and multi-lingual datasets and several task types (document/sentence classification, natural language inference, and entity extraction). The results suggest that larger domain-specific models outperform smaller ones and that our domain-specific C-XLM models outperform their corresponding generic XLM-R models, even though they use smaller vocabulary and are pre-trained for fewer steps. Lastly, smaller domain-specific models achieve competitive results against larger generic models. Concluding, pre-training a reasonably large LM for contract and regulatory related tasks obtain top-notch classification results compared to smaller and less domain-specific models.

Περίληψη :

Η ανάλυση πολλαπλών ϰαι ιδιαίτερα εϰτενών νοµιϰών εγγράφων απαιτεί πολύωρη ενασχόληση αυτών που τα χρησιµοποιούν. Για το λόγο αυτό, πολλές νεοφυείς επιχειρήσεις δραστηριοποιούνται στον ϰλάδο της τεχνητής νοηµοσύνης (ΤΝ) παρέχοντας ανάλυση ϰειµένων µέσω τεχνιϰών βαϑιάς µάϑησης, που εξάγουν χρήσιµες πληροφορίες από τα έγγραφα. Οι νεοφυείς επιχειρήσεις πρέπει να προσαρµόσουν την τεχνολογία τους ανάλογα µε τις τάσεις των γλωσσιϰών µοντέλων (ΓΜ) δισεϰατοµµυρίων παραµέτρων. Ωστόσο, η ανάπτυξη µεγάλων µοντέλων είναι δύσϰολη εξαιτίας των υψηλών απαιτήσεων σε υπολογιστιϰούς πόρους ϰαι των οιϰονοµιϰών συνεπειών από την ανάπτυξη ϰαι την ενσωµάτωση τους σε µία εφορµογή. Η παρούσα µελέτη παρέχει σηµαντιϰές πληροφορίες σχετιϰάµε το προαναφερϑέν πρόβληµα, ϰαϑώς αϰολουϑεί τα βήµατα του τµήµατος έρευνας ϰαι ανάπτυξης µιας νεοφυούς επιχείρησης, εξειδιϰευµένης στην εφαρµογή τεχνολογίας ΤΝ µε τεχνιϰές βαϑιάς µάϑησης σε νοµιϰά ϰείµενα. Αϰολουϑώντας την µελέτη του Χαλϰίδη ϰ.ά., 2020, που έδειξε ότι τα προεϰπαιδευµένα µοντέλα στον συγϰεϰριµένο τοµέα των νοµιϰών ϰειµένων αποδίδουν ϰαλύτερα σε διάφορες νοµιϰές διεργασίες επεξεργασίας φυσιϰής γλώσσας (ΕΦΓ), προ-εϰπαιδεύουµε από την αρχή πολλαπλές παραλλαγές ενός πολυγλωσσιϰού ΓΜ σε νοµιϰά ϰείµενα µε βάση την αρχιτεϰτονιϰή του µοντέλου RoBERTa. Τα ϰείµενα που χρησιµοποιήϑηϰαν αποτελούνται από συµβατιϰά ϰαι ϰανονιστιϰά νοµιϰά ϰείµενα σε δέϰα διαφορετιϰές γλώσσες. Στόχος είναι η εϰ νέου χρήση των προ-εϰπαιδευµένων µοντέλων ως ραχοϰοϰαλιά οποιουδήποτε µοντέλου στο µέλλον για την εϰπαίδευση πολλαπλών ταξινοµητών που µας ενδιαφέρουν, µε περιορισµένα δεδοµένα εϰπαίδευσης σε σύγϰριση µε εϰείνα που απαιτούνται για να έχουν ίση απόδοση µε ένα µη προ-εϰπαιδευµένο µοντέλο. Τέλος, η απόδοση των µοντέλων έχει ωςσηµεία αναφοράς 5 νοµιϰές διεργασίες ΕΦΓ, οι οποίες αποτελούνται από δηµόσια ϰαι ιδιωτιϰά σύνολα δεδοµένων. Τα σύνολα δεδοµένων απαρτίζονται απο 3 αγγλιϰά ϰαι 2 πολυγλωσσιϰά σύνολα διαφόρων τύπων διεργασιών (ταξινόµηση εγγράφων/προτάσεων, συµπερασµατολογία φυσιϰής γλώσσας ϰαι εξαγωγή οντοτήτων). Τα αποτελέσµατα έδειξαν ότι τα µεγαλύτερα µοντέλα που εϰπαιδεύτηϰαν σε δεδοµένα συγϰεϰριµένου τοµέα ϰειµένων αποδίδουν ϰαλύτερα από τα µιϰρότερα µοντελα ϰαι ότι τα µοντέλα C-XLM µας ξεπερνούν σε απόδοση τα αντίστοιχα µοντέλα XLM-R που έχουν εϰπαιδευτεί σε δεδοµένα ϰειµένων γενιϰής φύσεως, παρόλο που χρησιµοποιούν µιϰρότερο λεξιλόγιο ϰαι έχουν προ-εϰπαιδευτεί για λιγότερα βήµατα. Επιπλέον, τα µιϰρότερα µοντέλα που εϰπαιδεύτηϰαν στον τοµέα νοµιϰών εγγράφων επιτυγχάνουν ανταγωνιστιϰά αποτελέσµατα έναντι µεγαλύτερων γενιϰών µοντέλων. Εν ϰαταϰλείδι, η προ-εϰπαίδευση ενός αρϰετά µεγάλου ΓΜ για διεργασίες συσχετιζόµενες µε συµβάσεις ϰαι ϰανονιστιϰά νοµιϰά ϰείµενα επιτυγχάνει ϰορυφαία αποτελέσµατα ταξινόµησης σε σύγϰριση µε µιϰρότερα ϰαι µη εξειδιϰευµένα στον τοµέα µοντέλα.
The excessive amount and length of legal documents create difficulties in analysis by humans. For that reason, many start-ups operate on the artificial intelligence (AI) field providing text analytics through deep learning techniques that extract useful insightsfrom documents. Start-ups have to adapt their technology accordingly to the trends of billion-parameter-sized Language Models (LMs). However, challenges arise due to high computational resources and economic consequences for the development and deployment for such large models. This work provides important insights on the aforementioned problem, as it follows the steps of the R&D group of a modern legal-tech start-up. FollowingChalkidis et al., 2020, who showed that domain-specific models in legal corpora perform better in several legal NLP tasks, we pre-train from scratch multiple variants of a domainspecific multi-lingual LM based on RoBERTa architecture. The corpus that was used is consisted by contractual and regulatory legal text in ten different languages. The goal is to re-use the pre-trained models as the backbone of any model in the future to train multiple classifiers of interest with limited training data compared to those needed to have equal performance with a non pre-trained model. Finally, the performance of themodels is benchmarked across 5 down-stream legal NLP tasks, which comprise both publicly available and private datasets covering both English and multi-lingual datasets and several task types (document/sentence classification, natural language inference, and entity extraction). The results suggest that larger domain-specific models outperform smaller ones and that our domain-specific C-XLM models outperform their corresponding generic XLM-R models, even though they use smaller vocabulary and are pre-trained for fewer steps. Lastly, smaller domain-specific models achieve competitive results against larger generic models. Concluding, pre-training a reasonably large LM for contract and regulatory related tasks obtain top-notch classification results compared to smaller and less domain-specific models.

Λέξη κλειδί :	Επεξεργασία φυσικής γλώσσας Γλωσσικά μοντέλα Νομικά κείμενα Πολύγλωσσα μοντέλα Natural Language Processing (NLP) Large language model Legal documents Multilingual models BERT-RoBERTa

Ημερομηνία έκδοσης :	01-10-2022

Ημερομηνία κατάθεσης :	20-10-2023

Ημερομηνία αποδοχής :	20-10-2023

Άδεια χρήσης :

Αρχείο: Legkas_2022.pdf

Τύπος: application/pdf

Είσοδος