Συλλογές
Τίτλος Optimizing two-stage nearest neighbor search for scalable multi-table vector retrieval
Εναλλακτικός τίτλος Βελτιστοποίηση αναζήτησης δύο σταδίων του πλησιέστερου γείτονα για κλιμακούμενη ανάκτηση διανυσμάτων από πολλαπλούς πίνακες
Δημιουργός Δημόπουλος, Βασίλειος, Dimopoulos, Vasileios
Συντελεστής Androutsopoulos, Ion
Vassalos, Vasilios
Athens University of Economics and Business, Department of Informatics
Kotidis, Yannis
Τύπος Text
Φυσική περιγραφή 85p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11761
Περίληψη This thesis explores the problem of Two Stage Vector Retrieval (TSVRP), that describes the efficient approximate nearest neighbor (ANN) search in two-stage retrieval systems. The process involves finding nearest neighbors in two separate datasets, where the results of the first stage are used as queries in the second stage. Traditional approaches, while effective, can be computationally expensive due to independent searches at each stage. We propose two novel methods to improve the efficiency and speed of this process. The first method optimizes the second stage by leveraging the results of prior searches to reduce redundant computations and take advantage of data locality. The second method employs a partitioning strategy to divide the data into smaller, manageable subsets, focusing searches within specific partitions to reduce the overall computational cost. Our results demonstrate that the first method achieves significant efficiency improvements while maintaining high accuracy, making it suitable for applications where precision is critical. The second method offers a faster alternative for scenarios where speed is prioritized over exact accuracy. These approaches provide flexible solutions for optimizing ANN search in multi-stage systems.
Η παρούσα διπλωματική εργασία εξετάζει το πρόβλημα που της Ανάκτησης Διανυσμάτων Δύο Σταδίων (Two Stage Vector Retrieval Problem − T SV RP), που περιγράφει την αποδοτική προσέγγιση πλησιέστερων γειτόνων (ΑΝΝ) σε συστήματα ανάκτησης δύο σταδίων. Η διαδικασία περιλαμβάνει την εύρεση πλησιέστερων γειτόνων σε δύο ξεχωριστά σύνολα δεδομένων, όπου τα αποτελέσματα του πρώτου σταδίου χρησιμοποιούνται ως ερωτήματα στο δεύτερο στάδιο. Οι παραδοσιακές μέθοδοι, αν και αποτελεσματικές, μπορεί να είναι υπολογιστικά απαιτητικές λόγω ανεξάρτητων αναζητήσεων σε κάθε στάδιο. Προτείνουμε δύο νέες μεθόδους για τη βελτίωση της αποδοτικότητας και της ταχύτητας αυτής της διαδικασίας. Η πρώτη μέθοδος βελτιστοποιεί το δεύτερο στάδιο, αξιοποιώντας τα αποτελέσματα προηγούμενων αναζητήσεων για τη μείωση περιττών υπολογισμών και την αξιοποίηση της τοπικότητας των δεδομένων. Η δεύτερη μέθοδος χρησιμοποιεί μια στρατηγική κατακερματισμού, διαιρώντας τα δεδομένα σε μικρότερα, διαχειρίσιμα υποσύνολα και εστιάζοντας την αναζήτηση σε συγκεκριμένες περιοχές, μειώνοντας το συνολικό υπολογιστικό κόστος. Τα αποτελέσματά μας δείχνουν ότι η πρώτη μέθοδος προσφέρει σημαντική βελτίωση της αποδοτικότητας διατηρώντας υψηλή ακρίβεια, καθιστώντας την κατάλληλη για εφαρμογές που απαιτούν ακρίβεια. Η δεύτερη μέθοδος αποτελεί ταχύτερη εναλλακτική για περιπτώσεις όπου η ταχύτητα έχει μεγαλύτερη σημασία από την απόλυτη ακρίβεια. Οι μέθοδοι αυτές παρέχουν ευέλικτες λύσεις για τη βελτιστοποίηση της αναζήτησης ΑΝΝ σε συστήματα πολλαπλών σταδίων.
Λέξη κλειδί Nearest neighbor search
Approximate search
Two-stage retrieval
Scalability
Κλιμακωσιμότητα
Vector retrieval
Αναζήτηση πλησιέστερου γείτονα
Προσεγγιστική αναζήτηση
Ανάκτηση δύο σταδίων
Ανάκτηση διανυσμάτων
Διαθέσιμο από 2024-12-05 13:45:55
Ημερομηνία έκδοσης 26-11-2024
Ημερομηνία κατάθεσης 2024-12-05 13:45:55
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/