Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Compressing and accelerating the inference of transformer-based models
Εναλλακτικός τίτλος	Συμπίεση και επιτάχυνση της εξαγωγής συμπερασμάτων σε μοντέλα που βασίζονται σε μετασχηματιστές
Δημιουργός	Μαρούδας, Στυλιανός, Maroudas, Stylianos
Συντελεστής	Athens University of Economics and Business, Department of Informatics Markakis, Evangelos Vassalos, Vasilios Malakasiotis, Prodromos
Τύπος	Text
Φυσική περιγραφή	60p.
Γλώσσα	en
Αναγνωριστικό	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10032
Περίληψη	The era of pre-training and fine-tuning enormous Language Models has made it possible for businesses to solve complex language problems with ease. However, when it comes to their deployment, their massive storage requirements create the need for high computational resources, which subsequently impose undesired economic consequences. This challenge can be dealt by model compression. In this work, we first present the three most popular model compression techniques, namely, pruning, quantization and knowledge distillation, as well as their application on transformer-based models. We then develop Gradual Compression, a task-specific compression pipeline that combines all the aforementioned techniques to produce more efficient (lighter and faster) models that are easier to deploy into production, without sacrificing a lot of their original performance. We first evaluate our proposed compression pipeline on 5 different down-stream tasks, ranging from document, to sentence and token classification. We then provide additional evidence that compressing a model is much more effective than pre-training and fine-tuning a smaller one from scratch. Finally, we argue that when a gradual instead of a more "direct" compression approach is adopted, the compression/performance trade-off significantly improves. Η εποχή της προεϰπαίδευσης (pre-training) ϰαι προσαρμογής (fine-tuning) τεράστιων γλωσσιϰών μοντέλων έδωσε την δυνατότητα στις επιχειρήσεις να μπορούν να επιλύουν πολύπλοϰα γλωσσιϰά προβλήματα με ευϰολία. Ωστόσο, όσον αφορά την εγϰατάσταση αυτών των μοντέλων (deployment), οι ογϰώδεις απαιτήσεις για την αποϑήϰευσή τους αυξάνουν την ανάγϰη υπολογιστιϰών πόρων σε μεγάλο βαϑμό, με άμεσο επαϰόλουϑο την επιβολή ανεπιϑύμητων οιϰονομιϰών συνεπειών. Η πρόϰληση αυτή μπορεί να αντιμετωπιστεί με τη συμπίεση μοντέλων. Στην παρούσα εργασία, πρώτα παρουσιάζονται οι τρεις πιο δημοφιλείς τεχνιϰές συμπίεσης μοντέλων, δηλαδή το ϰλάδεμα (pruning), η ϰβαντοποίηση (quantization) ϰαι η διύλιση γνώσης (knowledge distillation), ϰαϑώς ϰαι η εφαρμογή τους σε μοντέλα που βασίζονται σε μετασχηματιστές (transformers). Στη συνέχεια, αναπτύσσουμε τη Σταδιαϰή Συμπίεση, έναν ειδιϰών-προβλημάτων (task specific) αγωγό (pipeline) συμπίεσης που συνδυάζει όλες τις προαναφερϑείσες τεχνιϰές, για την δημιουργία πιο αποτελεσματιϰών (ελαφρύτερων ϰαι ταχύτερων) μοντέλων που εγϰαϑίστανται ευϰολότερα στην παραγωγή, χωρίς να ϑυσιάζεται πολύ από την αρχιϰή τους απόδοση. Αρχιϰά αξιολογούμε τον προτεινόμενο αγωγό συμπίεσης σε 5 διαφορετιϰά προβλήματα (down-stream tasks), που ϰυμαίνονται από την ϰατηγοριοποίηση εγγράφων, έως την ϰατηγοριοποίηση προτάσεων ϰαι συμβόλων (tokens). Στη συνέχεια, παρέχουμε πρόσϑετες αποδείξεις για το ότι η συμπίεση μοντέλων είναι πολύ πιο αποτελεσματιϰή από την εξαρχής (from-scratch) προεϰπαίδευση ϰαι προσαρμογή μιϰρότερων μοντέλων. Τέλος, υποστηρίζουμε ότι όταν υιοϑετείται μία σταδιαϰή αντί για μία πιο «άμεση» προσέγγιση συμπίεσης, η αντιστάϑμιση συμπίεσης/απόδοσης μπορεί να βελτιωϑεί σημαντιϰά.
Λέξη κλειδί	Βαθιά μάθηση Μετασχηματιστές Συμπίεση Natural Language Processing (NLP) Deep learning Transformers Compression Επεξεργασία φυσικής γλώσσας
Διαθέσιμο από	2023-02-12 12:08:40
Ημερομηνία έκδοσης	29-12-2022
Ημερομηνία κατάθεσης	2023-02-12 12:08:40
Δικαιώματα χρήσης	Free access
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/