Συλλογές | |
---|---|
Τίτλος |
Cross-lingual adaptation in automatic speech recognition |
Εναλλακτικός τίτλος |
Πολυγλωσσική προσέγγιση στην αυτόματη αναγνώριση ήχου |
Δημιουργός |
Γκούζιας, Θωμάς, Gkouzias, Thomas |
Συντελεστής |
Vassalos, Vasilios Athens University of Economics and Business, Department of Informatics Androutsopoulos, Ion Malakasiotis, Prodromos |
Τύπος |
Text |
Φυσική περιγραφή |
52p. |
Γλώσσα |
en |
Αναγνωριστικό |
http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9038 |
Περίληψη |
Automatic speech recognition is a complex task in Natural Language Processing, and whilehumans do it effortlessly, machines have a harder time with it. Nowadays, the advent ofartificial intelligence and neural networks have improved our ability to tackle tasks likespeech recognition. Nevertheless, a serious disadvantage of such a task, is the difficultyof finding appropriate and sufficient data. In this thesis, we seek a solution to this issuefor Greek speech recognition systems, by exploring whether a cross-lingual approach canimprove these very systems. To achieve this, we exploit transfer learning, and particularlya powerful pre-trained model called wav2vec 2.0 XLSR. Trained on fifty-three languagesother than Greek, it serves as an effective way to observe if "knowledge" of foreign speechcan be used to help speech recognition systems with the Greek language. We also examinehow data availability affects our models, even when following a transfer learning strategy. Η αυτόματη αναγνώριση ήχου είναι ένα πολύπλοκο πρόβλημα της ΕπεξεργασίαςΦυσικής Γλώσσας, και ενώ οι άνθρωποι το αντιμετωπίζουν με ευκολία, οι υπολογιστέςδυσκολεύονται. Τη σήμερον ημέρα, ο ερχομός της τεχνητής νοημοσύνης και τωννευρωνικών δικτύων έχει βελτιώσει την ικανότητα μας να επιλύουμε προβλήματα όπωςη αναγνώριση ήχου. Παρ’ όλα αυτά, ένα σοβαρό μειονέκτημα ενός τέτοιουπροβλήματος είναι η δυσκολία εύρεσης κατάλληλων και επαρκών δεδομένων. Σε αυτήτη διπλωματική εργασία, αναζητούμε μία λύση σε αυτό το ζήτημα εστιάζοντας σεσυστήματα αναγνώρισης Ελληνικού λόγου, εξερευνώντας το αν μια πολυγλωσσικήπροσέγγιση μπορεί να τα καλυτερεύσει. Για να το πετύχουμε αυτό, εκμεταλλευόμαστετη μεταφερόμενη μάθηση (transfer learning), και συγκεκριμένα ένα ισχυρόπροεκπαιδευμένο μοντέλο που ονομάζεται wav2vec 2.0 XLSR. Όνταςπροεκπαιδευμένο σε πενήντα τρεις γλώσσες, μη συμπεριλαμβανομένων τωνΕλληνικών, αποτελεί έναν αποτελεσματικό τρόπο να διαπιστώσουμε εάν η «γνώση»ξενόγλωσσου λόγου μπορεί να χρησιμοποιηθεί ώστε να βελτιωθούν μοντέλαφτιαγμένα για να αναγνωρίζουν Ελληνικό λόγο. Επιπλέον, εξετάζουμε το πως ηδιαθεσιμότητα δεδομένων επηρεάζει τα μοντέλα μας, ακόμα και όταν αξιοποιείταικάποια τεχνική μεταφερόμενης μάθησης. |
Λέξη κλειδί |
Πολυγλωσσική προσέγγιση Μεταφερόμενη μάθηση Automatic speech recognition Natural language processing Cross-lingual approach Transfer learning Αυτόματη αναγνώριση ήχου Επεξεργασία φυσικής γλώσσας |
Διαθέσιμο από |
2022-01-10 22:47:39 |
Ημερομηνία έκδοσης |
12/04/2021 |
Ημερομηνία κατάθεσης |
2022-01-10 22:47:39 |
Δικαιώματα χρήσης |
Free access |
Άδεια χρήσης |
https://creativecommons.org/licenses/by/4.0/ |