PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :Leveraging polynomial interactions for synthetic speech detection
Alternative Title :Χρήση πολυωνυμικών αλληλεπιδράσεων για ανίχνευση συνθετικής ομιλίας
Creator :Ψάλτης, Στυλιανός
Psaltis, Stylianos
Contributor :Stafylakis, Themos (Επιβλέπων καθηγητής)
Androutsopoulos, Ion (Εξεταστής)
Toumpis, Stavros (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)
Type :Text
Notes :Η εργασία περιέχει παράρτημα σε GitHub Repository όπου αναγράφεται ο κώδικας που χρησιμοποιήθηκε για τα πειράματα της παρούσας διπλωματικής.
Extent :80p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11807
Abstract :Η εξάπλωση των ψηφιακών τεχνολογιών ήχου έχει δημιουργήσει σημαντικές προκλήσεις στην επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων. Η παρούσα διατριβή προτείνει µία καινοτόμο προσέγγιση για την ανίχνευση παραποιημένων ηχητικών αρχείων, βασισμένη σε πολυωνυμία δίκτυα, τα οποία προσφέρουν ενισχυμένη αναγνώριση προτύπων και ταξινόμηση. Σε αντίθεση µε την αδιαφανή φύση των βαθιών νευρωνικών δικτύων, που ενδέχεται να αποτελέσουν αχίλλειο πτέρνα στο μέλλον, τα πολυωνυμία δίκτυα προσφέρουν μεγαλύτερη διαφάνεια, επιτρέποντας βαθύτερη κατανόηση της διαδικασίας λήψης αποφάσεων του μοντέλου. Αυτή η προσέγγιση επιδιώκει τη βελτίωση τόσο της ανίχνευσης παραποιημένων ηχητικών δεδομένων όσο και της ερµηνευσιµότητας του μοντέλου, εξασφαλίζοντας πιο αξιόπιστα συστήματα πιστοποίησης ήχου. Επιπλέον, οι διαγωνισμοί ASVspoof, οι οποίοι αποσκοπούν στην επιτάχυνση της έρευνας κατά της παραποίησης ήχου, λαμβάνονται υπόψιν στη παρούσα διατριβή και συμβάλλουν στην ανάπτυξη αυτής της καινοτόμου προσέγγισης µέσω πολυωνυμιών αλληλεπιδράσεων για την επαλήθευση της αυθεντικότητας των ηχητικών μηνυμάτων.
The rapid advancement of digital audio technologies has brought new challenges in verifying the authenticity of audio messages. This thesis presents a novel method for detecting spoofed audio files using polynomial networks, which offer improved pattern recognition and classification. Unlike the often opaque nature of deep neural networks—potentially a critical vulnerability in the future—polynomial networks provide greater transparency, allowing for a clearer understanding of the decision-making process. By leveraging polynomial interactions, this approach enhances both the accuracy of spoofed audio detection and the interpretability of the model’s behavior, contributing to more reliable audio authentication systems. Additionally, the ASVspoof challenges, which aim to accelerate research against audio spoofing, are incorporated into the dissertation and contribute to the development of this innovative approach through polynomial models.
Subject :Νευρωνικά δίκτυα
Συνθετική φωνή
Πολυωνυμικά μοντέλα
Συνθετικά δεδομένα
παραποίηση ήχου
Neural Networks (NN)
Synthetic speech
Polynomial models
Data augmentation
Audio spoofing
Date Available :2024-12-20 12:25:16
Date Issued :20-12-2024
Date Submitted :2024-12-20 12:25:16
Access Rights :Free access
Licence :

File: Psaltis_2024.pdf

Type: application/pdf