Συλλογές
Τίτλος Leveraging polynomial interactions for synthetic speech detection
Εναλλακτικός τίτλος Χρήση πολυωνυμικών αλληλεπιδράσεων για ανίχνευση συνθετικής ομιλίας
Δημιουργός Ψάλτης, Στυλιανός, Psaltis, Stylianos
Συντελεστής Athens University of Economics and Business, Department of Informatics
Toumpis, Stavros
Androutsopoulos, Ion
Stafylakis, Themos
Τύπος Text
Φυσική περιγραφή 80p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11807
Περίληψη The rapid advancement of digital audio technologies has brought new challenges in verifying the authenticity of audio messages. This thesis presents a novel method for detecting spoofed audio files using polynomial networks, which offer improved pattern recognition and classification. Unlike the often opaque nature of deep neural networks—potentially a critical vulnerability in the future—polynomial networks provide greater transparency, allowing for a clearer understanding of the decision-making process. By leveraging polynomial interactions, this approach enhances both the accuracy of spoofed audio detection and the interpretability of the model’s behavior, contributing to more reliable audio authentication systems. Additionally, the ASVspoof challenges, which aim to accelerate research against audio spoofing, are incorporated into the dissertation and contribute to the development of this innovative approach through polynomial models.
Η εξάπλωση των ψηφιακών τεχνολογιών ήχου έχει δημιουργήσει σημαντικές προκλήσεις στην επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων. Η παρούσα διατριβή προτείνει µία καινοτόμο προσέγγιση για την ανίχνευση παραποιημένων ηχητικών αρχείων, βασισμένη σε πολυωνυμία δίκτυα, τα οποία προσφέρουν ενισχυμένη αναγνώριση προτύπων και ταξινόμηση. Σε αντίθεση µε την αδιαφανή φύση των βαθιών νευρωνικών δικτύων, που ενδέχεται να αποτελέσουν αχίλλειο πτέρνα στο μέλλον, τα πολυωνυμία δίκτυα προσφέρουν μεγαλύτερη διαφάνεια, επιτρέποντας βαθύτερη κατανόηση της διαδικασίας λήψης αποφάσεων του μοντέλου. Αυτή η προσέγγιση επιδιώκει τη βελτίωση τόσο της ανίχνευσης παραποιημένων ηχητικών δεδομένων όσο και της ερµηνευσιµότητας του μοντέλου, εξασφαλίζοντας πιο αξιόπιστα συστήματα πιστοποίησης ήχου. Επιπλέον, οι διαγωνισμοί ASVspoof, οι οποίοι αποσκοπούν στην επιτάχυνση της έρευνας κατά της παραποίησης ήχου, λαμβάνονται υπόψιν στη παρούσα διατριβή και συμβάλλουν στην ανάπτυξη αυτής της καινοτόμου προσέγγισης µέσω πολυωνυμιών αλληλεπιδράσεων για την επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων.
Λέξη κλειδί Συνθετικά δεδομένα
Συνθετική φωνή
Πολυωνυμικά μοντέλα
Νευρωνικά δίκτυα
παραποίηση ήχου
Neural Networks (NN)
Synthetic speech
Polynomial models
Data augmentation
Audio spoofing
Διαθέσιμο από 2024-12-20 12:25:16
Ημερομηνία έκδοσης 20-12-2024
Ημερομηνία κατάθεσης 2024-12-20 12:25:16
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/