Συλλογές | |
---|---|
Τίτλος |
Compressing and accelerating the inference of transformer-based models |
Εναλλακτικός τίτλος |
Συμπίεση και επιτάχυνση της εξαγωγής συμπερασμάτων σε μοντέλα που βασίζονται σε μετασχηματιστές |
Δημιουργός |
Μαρούδας, Στυλιανός, Maroudas, Stylianos |
Συντελεστής |
Athens University of Economics and Business, Department of Informatics Markakis, Evangelos Vassalos, Vasilios Malakasiotis, Prodromos |
Τύπος |
Text |
Φυσική περιγραφή |
60p. |
Γλώσσα |
en |
Αναγνωριστικό |
http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10032 |
Περίληψη |
The era of pre-training and fine-tuning enormous Language Models has made it possible for businesses to solve complex language problems with ease. However, when it comes to their deployment, their massive storage requirements create the need for high computational resources, which subsequently impose undesired economic consequences. This challenge can be dealt by model compression. In this work, we first present the three most popular model compression techniques, namely, pruning, quantization and knowledge distillation, as well as their application on transformer-based models. We then develop Gradual Compression, a task-specific compression pipeline that combines all the aforementioned techniques to produce more efficient (lighter and faster) models that are easier to deploy into production, without sacrificing a lot of their original performance. We first evaluate our proposed compression pipeline on 5 different down-stream tasks, ranging from document, to sentence and token classification. We then provide additional evidence that compressing a model is much more effective than pre-training and fine-tuning a smaller one from scratch. Finally, we argue that when a gradual instead of a more "direct" compression approach is adopted, the compression/performance trade-off significantly improves. Η εποχή της προεϰπαίδευσης (pre-training) ϰαι προσαρμογής (fine-tuning) τεράστιων γλωσσιϰών μοντέλων έδωσε την δυνατότητα στις επιχειρήσεις να μπορούν να επιλύουν πολύπλοϰα γλωσσιϰά προβλήματα με ευϰολία. Ωστόσο, όσον αφορά την εγϰατάσταση αυτών των μοντέλων (deployment), οι ογϰώδεις απαιτήσεις για την αποϑήϰευσή τους αυξάνουν την ανάγϰη υπολογιστιϰών πόρων σε μεγάλο βαϑμό, με άμεσο επαϰόλουϑο την επιβολή ανεπιϑύμητων οιϰονομιϰών συνεπειών. Η πρόϰληση αυτή μπορεί να αντιμετωπιστεί με τη συμπίεση μοντέλων. Στην παρούσα εργασία, πρώτα παρουσιάζονται οι τρεις πιο δημοφιλείς τεχνιϰές συμπίεσης μοντέλων, δηλαδή το ϰλάδεμα (pruning), η ϰβαντοποίηση (quantization) ϰαι η διύλιση γνώσης (knowledge distillation), ϰαϑώς ϰαι η εφαρμογή τους σε μοντέλα που βασίζονται σε μετασχηματιστές (transformers). Στη συνέχεια, αναπτύσσουμε τη Σταδιαϰή Συμπίεση, έναν ειδιϰών-προβλημάτων (task specific) αγωγό (pipeline) συμπίεσης που συνδυάζει όλες τις προαναφερϑείσες τεχνιϰές, για την δημιουργία πιο αποτελεσματιϰών (ελαφρύτερων ϰαι ταχύτερων) μοντέλων που εγϰαϑίστανται ευϰολότερα στην παραγωγή, χωρίς να ϑυσιάζεται πολύ από την αρχιϰή τους απόδοση. Αρχιϰά αξιολογούμε τον προτεινόμενο αγωγό συμπίεσης σε 5 διαφορετιϰά προβλήματα (down-stream tasks), που ϰυμαίνονται από την ϰατηγοριοποίηση εγγράφων, έως την ϰατηγοριοποίηση προτάσεων ϰαι συμβόλων (tokens). Στη συνέχεια, παρέχουμε πρόσϑετες αποδείξεις για το ότι η συμπίεση μοντέλων είναι πολύ πιο αποτελεσματιϰή από την εξαρχής (from-scratch) προεϰπαίδευση ϰαι προσαρμογή μιϰρότερων μοντέλων. Τέλος, υποστηρίζουμε ότι όταν υιοϑετείται μία σταδιαϰή αντί για μία πιο «άμεση» προσέγγιση συμπίεσης, η αντιστάϑμιση συμπίεσης/απόδοσης μπορεί να βελτιωϑεί σημαντιϰά. |
Λέξη κλειδί |
Βαθιά μάθηση Μετασχηματιστές Συμπίεση Natural Language Processing (NLP) Deep learning Transformers Compression Επεξεργασία φυσικής γλώσσας |
Διαθέσιμο από |
2023-02-12 12:08:40 |
Ημερομηνία έκδοσης |
29-12-2022 |
Ημερομηνία κατάθεσης |
2023-02-12 12:08:40 |
Δικαιώματα χρήσης |
Free access |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |