Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Διοίκησης Επιχειρήσεων / School of Business Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας / Department of Management Science and Technology Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Θεωρητική τεκμηρίωση αλγορίθμων μηχανικής μάθησης για τη χρήση τους στην αυτόματη αναγνώριση και κατάταξη παραστατικών
Δημιουργός	Νεστερούλης, Μιχαήλ
Συντελεστής	Φραϊδάκη, Κατερίνα Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας Πουλούδη, Νάνσυ Πουλυμενάκου, Αγγελική
Τύπος	Text
Φυσική περιγραφή	45σ.
Γλώσσα	el
Αναγνωριστικό	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7410
Περίληψη	Σε αυτή την εργασία παρουσιάζεται η προσπάθεια αυτόματης αναγνώρισης και κατηγοριοποίησης παραστατικών, με βάση τις πληροφορίες που υπάρχουν διαθέσιμες από την πολυετή δράση της εταιρίας Information Systems Impact στην ηλεκτρονική ανταλλαγή εγγράφων και δομημένης πληροφορίας (EDI), με το συνολικό αριθμό των παραστατικών να ξεπερνούν τα 40 εκατομμύρια. Οι ήδη υπάρχοντες μηχανισμοί αναγνώρισης εγγράφων που χρησιμοποιήθηκαν, αποτελούν Human – Driven διαδικασίες κατά τις οποίες τα στοιχεία ενός παραστατικού αναγνωρίζονται με τη χρήση του χώρου. Η κάθε μία από τις παραπάνω Human – Driven διαδικασίες περιλαμβάνει τις μορφές αξιών και ημερομηνιών, το διαχωρισμό του εκάστοτε παραστατικού σε 3 περιοχές (Κεφαλίδα, Γραμμές και Συνολικές αξίες) και το σύνολο πεδίων που την αποτελούν που υπάρχουν σε αυτές τις περιοχές.Στο παραπάνω σύνολο των πληροφοριών, δημιουργήθηκε ένας μηχανισμός για τη συλλογή των δεδομένων, χρησιμοποιήθηκε Computer Vision για το διαχωρισμό των περιοχών των παραστατικών και text classification για την κατηγοριοποίηση των λέξεων που υπάρχουν σε κάθε περιοχή, πάνω στις οποίες εφαρμόστηκαν τεχνικές επεξεργασίας κειμένων. Τέλος, χρησιμοποιήθηκαν και δένδρα απόφασης για την κατηγοριοποίηση του παραστατικού. Το σύνολο των χαρακτηριστικών που εξάχθηκαν, χωρίστηκε σε ένα σύνολο εκπαίδευσης και ένα σύνολο ελέγχου. Το σύνολο εκπαίδευσης χρησιμοποιήθηκε για την εκπαίδευση του δένδρου απόφασης και το σύνολο ελέγχου για την τελική αναγνώριση και κατηγοριοποίηση του παραστατικού.Τα αποτελέσματα θα ελεγχθούν με βάση την εμπειρία των χρηστών πάνω στις παραπάνω διαδικασίες. This paper presents the attempt to automatically identify and categorize documents based on information available from the multi-year action of Information Systems Impact in electronic document exchange and structured information (EDI), with a total number of documents exceeding 40 million. The existing document recognition mechanisms that were used, are Human - Driven processes in which the elements of a document are identified using coordinates.Each of the above-mentioned Human-Driven processes includes the formats of values and dates, the separation of each document into 3 areas (Header, Lines and Footer) and the set of fields that are present in these areas.In the above set of information, a mechanism was created for data collection, Computer Vision was used to separate the document areas and text classification to categorize the words in each area on which text editing techniques were applied. Finally, decision trees were used to categorize the documents. The set of exported features was divided into training set and a test set. The training set was used to train the decision tree and the test set for the final identification and categorization of the document.The results were tested based on user experience on the above procedures.
Λέξη κλειδί	Μηχανική μάθηση Παραστατικά Κατηγοριοποίηση Machine learning Invoices Classification
Διαθέσιμο από	2019-11-08 19:44:13
Ημερομηνία έκδοσης	2019
Ημερομηνία κατάθεσης	2019-11-08 19:44:13
Δικαιώματα χρήσης	Free access
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/