Η ελληνική γλώσσα διαθέτει σήμερα επτά εκατομμύρια μοναδικές λέξεις

Η ελληνική γλώσσα διαθέτει σήμερα περίπου επτά εκατομμύρια μοναδικές λέξεις! Πρόκειται για αποτέλεσμα «εξόρυξης», όχι βεβαίως με σκαπάνη ή εκρηκτικά, αλλά με τις εκρηκτικές τεχνολογικές εφαρμογές της τεχνητής νοημοσύνης και της εξόρυξης δεδομένων (data mining).

Για να βρεθεί ο συγκεκριμένος αριθμός λέξεων χρησιμοποιήθηκαν καινοτόμες μέθοδοι τεχνητής νοημοσύνης, όπως για παράδειγμα βαθιά νευρωνικά δίκτυα (υπολογιστικά δίκτυα που μιμούνται τους βιολογικούς νευρώνες) πάνω σε κείμενα από 170 εκατ. ιστοσελίδες. Ο αριθμός των επτά εκατ. δεν αφορά ρίζες, αλλά διαφορετικές λέξεις (π.χ. «άνθρωπος» και «άνθρωποι» είναι δύο διαφορετικές λέξεις).

Δράστης αυτής της γλωσσικής ψηφιακής ανασκαφής είναι η ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών (ΟΠΑ), στο πλαίσιο έργου το οποίο υλοποιήθηκε για λογαριασμό της Εθνικής Βιβλιοθήκης με χρηματοδότηση του Ιδρύματος Νιάρχου. «Συμβάλλαμε στην παραγωγή καινοτομικών ψηφιακών γλωσσολογικών πόρων για την ελληνική γλώσσα, όπως το λεξικό που, από όσο γνωρίζουμε, είναι το μεγαλύτερο σε ψηφιακή μορφή. Ταυτόχρονα, καθώς στηρίζεται στο σύνολο του πρόσφατου περιεχομένου του Διαδικτύου, αποδίδει ουσιαστικά την τρέχουσα μορφή της γλώσσας. Για παράδειγμα, υπάρχουν καινοφανείς λέξεις όπως “θερμογαλβανισμένη” ή “ενταλματοποιηθέντα”, οι οποίες πιθανότατα δεν υπάρχουν στα παραδοσιακά λεξικά αλλά παράγονται από την πρόσφατη εξέλιξη της γλώσσας», λέει στην «Κ» ο καθηγητής Μιχάλης Βαζιργιάννης, ο οποίος διευθύνει την ερευνητική ομάδα. Στο έργο συνεισέφεραν οι συνεργάτες της ομάδας Π. Μελαδιανός και Σ. Ούτσιος. Ο κ. Βαζιργιάννης βρίσκεται από το 2013 με σχέση παράλληλης απασχόλησης στη Γαλλία, έχει θέση διακεκριμένου καθηγητή στο Πολυτεχνείο του Παρισιού (Ecole Polytechnique), όπου διευθύνει την ομάδα Επιστήμης Δεδομένων (Data Science and Mining).

Ο καθηγητής Μιχάλης Βαζιργιάννης διευθύνει την ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του ΟΠΑ.

Η ομάδα Εξόρυξης Δεδομένων του ΟΠΑ προχώρησε και σε ενθέσεις ελληνικών λέξεων (word embeddings), οι οποίες υπολογίζουν την ομοιότητα μεταξύ λέξεων στο σημασιολογικό επίπεδο. «Για παράδειγμα η λέξη “Ελλάδα” και “Αθήνα” είναι σημασιολογικά συναφείς γιατί συνυπάρχουν συχνά σε πολλά κείμενα. Με αυτόν τον τρόπο επιτυγχάνεται καλύτερη απόδοση σε λειτουργίες αναζήτησης σε κείμενα, όπως για παράδειγμα σε μηχανές αναζήτησης στο Διαδίκτυο», εξηγεί ο κ. Βαζιργιάννης.

Το έργο της ομάδας είναι πολυσχιδές και με διεθνείς διακρίσεις, με πιο πρόσφατο το βραβείο καλύτερης δημοσίευσης, που κατέκτησε στο διεθνές συνέδριο τεχνητής νοημοσύνης IJCAI 2018, ένα από τα κυριότερα σε διεθνές επίπεδο. Η δημοσίευσή τους με θέμα την «ομοιότητα γραφημάτων στηριγμένη στον εκφυλισμό» (στην οποία συμμετέχουν οι συνεργάτες δρ Ι. Νικολέντζος, Σ. Λημνιός και Π. Μελαδιανός) πήρε το βραβείο διακεκριμένης δημοσίευσης σε σύνολο 700 δημοσιεύσεων που έγιναν αποδεκτές στο συνέδριο (υποβλήθηκαν πάνω από 4.500 εργασίες). «Ζούμε στην εποχή των γραφημάτων. Η τεχνητή νοημοσύνη στηρίζεται σημαντικά στη χρήση γραφημάτων τα οποία κάνουν εφικτή την αποδοτική αναπαράσταση πολλαπλών μορφών πληροφορίας: δίκτυα κοινωνικά, αλλά και ηλεκτρικά, συγκοινωνιακά, βιολογικά. Για παράδειγμα σε ένα κοινωνικό δίκτυο (π.χ. Facebook) οι χρήστες είναι οι κόμβοι του γραφήματος και οι ακμές/συνδέσεις αναπαριστούν σχέσεις (π.χ. φιλίας) μεταξύ τους», λέει ο κ. Βαζιργιάννης, η ομάδα του οποίου έχει επινοήσει τη μέθοδο Graph of Words, δηλαδή αναπαράσταση κειμένων μέσω γραφημάτων.

Πολλαπλές εφαρμογές

«Η καινοτομική μέθοδος που παρουσιάσαμε στο συνέδριο IJCAI έχει πολλαπλές εφαρμογές. Για παράδειγμα μπορεί να αξιοποιηθεί για την πρόβλεψη απάτης σε δίκτυα πληρωμών, καταγράφοντας ύποπτες συναλλαγές και διακλαδώσεις. Σε αυτό το σημείο έδειξαν ιδιαίτερο ενδιαφέρον οι διεθνείς εταιρείες κοινωνικών δικτύων στα οποία μπορεί να γίνει και μεταφορά χρημάτων χωρίς διαμεσολάβηση τραπεζών, όπου και μπορούν να παρατηρηθούν φαινόμενα απάτης. Επίσης, η μέθοδός μας μπορεί να αξιοποιηθεί σε εφαρμογές μελέτης κοινοτήτων σε κοινωνικά δίκτυα, πρόβλεψης λειτουργικότητας πρωτεϊνών σε βιολογικά δεδομένα και ούτω καθεξής», εξηγεί ο κ. Βαζιργιάννης. Η ερευνητική ομάδα επεκτείνει τη δουλειά της σε περιβάλλον βαθιών νευρωνικών δικτύων (Deep Learning) με στόχο την αξιοποίηση μεγάλων ποσοτήτων δεδομένων για την εξαγωγή κρυμμένων σχέσεων και μορφών γνώσης. Το μέλλον προδιαγράφεται συναρπαστικό.


Δημοσιεύτηκε

σε

από

Ετικέτες: