Rada Mihalcea’s work in Computational Linguistics (in Greek)

Illustration of how the three key concepts relate in the Topic Map standard. These are topic, association and occurrence.

Image via Wikipedia

Η Rada Mihalcea είναι Ρουμάνα (αν και δεν είμαι σίγουρος για την καταγωγή της, αφού το όνομά της μπορεί κάλλιστα να είναι ελληνικό, π.χ. …Μιράντα Μιχαλτσέα). Γλωσσολόγος-πληροφορικός με PhD, διδάσκει στο Πανεπιστήμιο του Βορείου Τέξας Πληροφορική Γλωσσολογία (φυσικών γλωσσών). Είναι προφανές ότι η διάνοιά της είναι κορυφαίου επιπέδου, αλλά δεν υστερεί καθόλου ούτε και σε… εμφάνιση, όπως δείχνει η φωτογραφία στην ιστοσελίδα της, και άλλη μία εδώ (scroll λίγο πιο κάτω, στο κειμενάκι με τίτλο «Helping Computers Help Us«).

Τα τελευταία χρόνια, διεξάγεται ένας τιτάνιος παγκόσμιος αγώνας μέσω έρευνας Πανεπιστημίων (και ορισμένων εταιρειών) για την συστηματική ενοποίηση των γλωσσικών και εννοιολογικών δομών πλανήτη, με το συνδυασμό (1) Πληροφορικής Γλωσσολογίας (computational linguistics), Προγραμματισμού για Φυσική Γλώσσα (Natural Language Programming ή «NLP«), ενοποιημένων «οντολογιών» και εννοιολογικών λεξιλογίων (ontologies , wordnets), κλπ.

Ο στόχος αυτής της πολύμορφης παγκόσμιας έρευνας είναι πολυδιάστατος. Mία όψη του βοηθάει την κατανόηση μεταξύ ανθρώπινων γλωσσών, από την άποψη του τελικού χρήστη (π.χ. αυτόματη ή ημι-αυτόματη Μετάφραση, προχωρημένες μορφές λεξικογραφίας). Μία άλλη του όψη επιτρέπει στις μηχανές (δηλαδή στους υπολογιστές) να «κατανοήσουν» ανθρώπινα κείμενα, π.χ. μέσω αντιστοίχισης των ανθρώπινων κειμένων με συστήματατα προτάσεων της Μαθηματικής Λογικής ή με εννοιολογικές δομές (semantic nets, Conceptual Graphs, Topic Maps, κλπ) έτσι ώστε να μπορέσουν οι υπολογιστές (με τη σειρά τους) να βοηθήσουν πιο αποτελεσματικά τους ανθρώπους να ενοποιήσουν τις Πλημμύρες της Πληροφορίας του πλανήτη, π.χ. στο δύσβατο και πολύπλοκο νέο τομέα της Βιοπληροφορικής (Bioinformatics ) για την πληρέστερη κατανόηση του DNA. Κορυφαία φωτεινή στιγμή της Βιοπληροφορικής υπήρξε η ανακάλυψη από τον David Searls (έναν πληροφορικό που έγινε βιολόγος) της «Γραμματικής του DNA«, η οποία ονομάζεται «String Variable Grammar» (γραμματική μεταβλητών συμβολοσειρών) και είναι εξίσου πολύπλοκη με την… ανθρώπινη αλλά με το πρόσθετο χαρακτηριστικό του ότι περιλαμβάνει αντικαταστάσεις «λέξεων» με άλλες, που έχουν μεταβλητό μέγεθος. Η ανακάλυψη της String Variable Grammar έγινε μέσω της γλώσσας προγραμματισμού PROLOG (PROgramming in LOGic), με την οποία ασχολούμαι πολλά χρόνια , π.χ. χρησιμοποιώντας την για το πρώτο Ευρωπαϊκό λεξικό με hypertext, το HyperLEX .

Conceptual graph for A Cat sitting on the Mat (graph 1)

Κορυφαία φωτεινή στιγμή της Πληροφορικής Γλωσσολογίας υπήρξε η δημόσια εμφάνιση (δωρεάν διατιθέμενων) εργαλείων και πόρων όπως το Wordnet , το OpenCYC , και οι «προτεινόμενες Οντολογίες Κορυφής» (Suggested Upper Ontology, SUO / SUMO ). Για τα Βαλκάνια (και την Ελληνική γλώσσα) η Ευρωπαϊκή Ένωση ξεκίνησε προ ετών το (αντίστοιχο του αγγλικού Wordnet) «Balkanet » του Πανεπιστημίου της Πάτρας, που περιλαμβάνει το Greek Wordnet (στα πλαίσια του ευρωπαϊκού EuroWordNet και του παγκόσμιου Global WordNet ). Κάθε WordNet είναι ένα τεράστιο λεξικό που περιέχει συνώνυμα και αντίθετα όλων των λέξεων, μαζί με άλλες ιδιότητές τους, διευκολύνοντας την αλληλο-σύνδεση εννοιών σε κείμενα ή τη μετατροπή τους σε προτάσεις Λογικής Πρώτου Βαθμού (First Order Logic ).

Ε, λοιπόν η πολύ σημαντική δουλειά της Rada Mihalcea είναι η έρευνα και ανάπτυξη εργαλείων λογισμικού που είναι (π.χ.) σε θέση να μαθαίνουν αυτομάτως τις κρυμμένες εννοιολογικές δομές και διασυνδέσεις μέσα σε ανθρώπινα κείμενα, πολλαπλών πηγών και γλωσσών ταυτόχρονα. Εργαλεία τα οποία ξεκαθαρίζουν αυτομάτως τις «αμφιλεγόμενες ερμηνείες» λέξεων ή όρων (disambiguation), λύνοντας μόνα τους το πρόβλημα του ΠΟΙΑ συγκεκριμμένη ερμηνεία μιας λέξης είναι η σωστή, για τη λογική ανάλυση και «μηχανική κατανόηση» (ή π.χ. μετάφραση) ενός ανθρώπινου κειμένου.

Στην Ελλάδα η ανάπτυξη αυτού του νέου επιστημονικού τομέα έχει μείνει πολύ πίσω. Ακόμη δεν τελείωσε το ελληνικό Wordnet, και τα περισσότερα Πανεπιστήμια δεν έχουν καν την αναγκαία υποδομή για να παρακολουθήσουν τις ραγδαίες διεθνείς εξελίξεις, με φωτεινές εξαιρέσεις το Πανεπιστήμιο της Πάτρας και την εταιρεία Neurolingo (θυγατρική της Neurosoft) που διαθέτει στην αγορά τον πρώτο Ελληνικό «Θησαυρό Λέξεων» και άλλα πρακτικά εργαλεία (για το Microsoft Office, κλπ).

Η Rada Mihalcea διαθέτει στις ιστοσελίδες της (για δωρεάν download) πολλά είδη πρωτοποριακού λογισμικού, εννοιολογικά λεξιλόγια και corpus (μαζικά γλωσσικά δεδομένα για χρήση από λογισμικό φυσικής γλώσσας). Αν σας ενδιαφέρει να δοκιμάστε πρακτικά μερικά από τα δημιουργήματά της διατίθενται για δωρεάν για download στην ακόλουθη ιστοσελίδα: http://www.cs.unt.edu/~rada/downloads.html#semcor.
Σε αυτή την ιστοσελίδα περιλαμβάνονται (για download) τα εξής:

  • SenseLearner: All-Words Word Sense Disambiguation Tool
  • FrameNet – WordNet verb sense mapping
  • Open Mind Word Expert Sense Tagged Data
  • Resources for Word Alignment
  • SemCor (Texts semantically annotated with WordNet senses)
  • Text Filtering (Evaluation software for text filtering systems)
  • Annotated questions (annotations for about 5,500 questions used in an analysis of information requests)

Τέλος, ανάμεσα στους πολλούς στόχους της έρευνας που κάνει η Rada Mihalcea, είναι η πρακτική αξιοποίηση των αποτελεσμάτων αυτής της έρευνας για την άμεση, εύκολη επικοινωνία μεταξύ ανθρώπων σε κάθε γωνιά της γης, δηλαδή (με τα δικά της λόγια, στα αγγλικα):

Helping Computers Help Us

Dr. Rada Mihalcea«Being able to understand another language is nothing to be taken lightly. Anyone who has ventured into a foreign country without speaking the language will attest to the difficulties that can arise when wild gesticulation attempts to replace language in requesting a vegetarian dish or enquiring about the arrival of the next train.

Thanks to the world wide web, similar angst can arise in written communication from the comfort of your own room or even a mobile device. A product has been out in Japan for several months and is about to hit the shelves in the U.S. What do the Japanese customers think of it? The reviews are right there, on the web – but the fact that the pages are likely to be in Japanese is of little help to the vast majority of potential American customers. In a commendable move, MIT is making all of their course materials available for free on the web though the Open CourseWare project. However, the impact of wonderful education resources such as these would be even more pervasive if those who do not speak (actually, read) English could use the resources. These examples hint at nothing less than the concept of universal communication – borderless communication between people, regardless of the language they speak».

Related articles

Zemanta Pixie

.

3 comments

  1. Απλά να συμπληρώσω οτι στην Ελλάδα δεν έχουμε μείνει και τόσο πίσω στον ερευνητικό αυτό χώρο, όπως ίσως πιστεύει το ευρύ κοινό. Χαρακτηριστικό παράδειγμα, που θα ήθελα να προσθέσω στις φωτεινές εξαιρέσεις, είναι το τμήμα Πληροφορικής του Ο.Π.Α. το οποίο διαθέτει πολλές ερευνητικές ομάδες με μόνιμα ενεργή παρουσία σε διεθνή συνέδρια και περιοδικά με κριτές σε σχετικούς ερευνητικούς τομείς.

    Χαρακτηριστικά, η ομάδα εξόρυξης γνώσης από βάσεις δεδομένων και τον παγκόσμιο ιστό (http://www.db-net.aueb.gr) έχει δημοσιεύσει στο παρελθόν παρεμφερείς τεχνικές με αυτές της Rada, και σε πολλές περιπτώσεις αποδοτικότερες.

    Οφείλω να συμφωνήσω όμως ότι απουσιάζει το lobbying της Ελληνικής έρευνας (i.e. με έδρα την Ελλάδα) στον υπόλοιπο διεθνή χώρο, στοιχείο που κρατάει την έρευνα των Ελληνικών πανεπιστημίων στην αφάνεια.

    Φιλικά,
    ΓΤ

  2. χίλια συγνώμη που ανακάλυψα το ενδιαφέρον σχόλιό σας… έξη μήνες μετά!
    (ΑΝ είναι δυνατόν…)

    Εν πάσει περιπτώσει, πρόκειται για το Οικονομικό Πανεπιστήμιο Αθηνών, το τμήμα έρευνας στον τομέα της Εξόρυξης Πληροφορίας:
    http://www.db-net.aueb.gr/
    που μόλις είδα και αξίζει ιδιαίτερη προσοχή.

Σχολιάστε

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s