To Semantic Web καλπάζει, η Ελλάδα δεν χαμπαριάζει, το ΚΚΕ αρνείται το Κατύν και η Γη τη Wikipedia κατεβάζει!

Sidewinder showing Wikipedia
Image by Mark Birbeck via Flickr

Ξεκίνησα ένα νέο blog για το Semantic Web, το «Ontologies«:

Το πρώτο ποστ στο νέο αυτό blog δίνει εκτενείς πληροφορίες και συνδέσμους για να κατεβάσετε πλήρεις Semantic εκδόσεις της Wikipedia (κι άλλες… λιχουδιές) αν έχετε χώρο σε σκληρό δίσκο:

(Κατέβασα ήδη ΟΛΗ τη Wikipedia, σε δύο μορφές μάλιστα…)

Το 2009 δεν θα είναι μόνο ένα «έτος κρίσης» αλλά και ένα έτος Αναγέννησης στη Γνώση, που άρχισε να ενοποιείται τώρα, διεθνώς, από την αλματώδη ανάπτυξη του Σημασιολογικού Ιστού (Semantic Web). Πρόκειται για ένα Κοσμοϊστορικό Γεγονός, εξίσου σημαντικό (ίσως) με τη χιλιοειπωμένη και… τελειωμένη (σχεδόν) τώρα πια «Πληροφορική Επανάσταση«:

  • Η ΠΛΗΡΟΦΟΡΙΚΗ Επανάσταση τελείωσε. (ε, σχεδόν…)

  • Η Επανάσταση της ΓΝΩΣΗΣ (σχεδόν) ξεκίνησε. (ω, ναι…)

Θα… ξηγηθώ και Γαλλιστί, ώστε να εμπεδωθεί:

  • La révolution INFORMATIQUE est terminé.
  • La révolution du SAVOIR a commencé…

Το είπα και Γαλλικά, επειδή η Γαλλική λέξη «informatique» ηχεί σχεδόν… ποιητικά! :) Αντίθετα, στα Αγγλικά η ίδια λέξη… ξεπέφτει, είτε στο… ξενέρωτο (και εννοιολογικά ψιλο-άσχετο) «Computer Science«, είτε στοαταίριαστο «Informatics», μια σπάνια λέξη που υπάρχει μόνο θεωρητικά (δηλαδή στα λεξικά) αλλά δεν χρησιμοποιείται στην πράξη – από κόσμο με μητρική γλώσσα την Αγγλική.

κλικ στo σκίτσο για… εισαγωγή στο Semantic Web

Πάμε λοιπόν και στο ψητό (που… χωρίς αυτό θα ήταν άνοστο και το ποστ):

There is Good News and Bad News… (hehe)

1) First, the Good News:

  • Μπορείτε τώρα να κατεβάσετε τη Wikipedia, ΟΛΗ!
    (You can now download
    Wikipedia, in its ENTIRETY!)

Ω, ναι! Το συνολικό μέγεθος της Wikipedia (όταν… με το καλό κατεβεί) θα είναι ένα… υγιέστατο μωράκι, εξήντα-έξη (66) GigaBytes (wow)! Αλλά….

  • Dont worry! – Ευτυχώς κατεβαίνει συμπιεσμένη, σε μόνο 9Gb (download file-size), δηλαδή ψιλοπράματα, ελάχιστα παραπάνω από 1 double  DVD.
  • Download it here:

2) Now the BAD News (for some people): :) Συνέχεια ανάγνωσης

Zemanta semantic plugin for non-English bloggers!

Blog better using Zemanta

Image by chucks via Flickr

Summary: This blog-post explains to people blogging in languages other than English, how to use «Zemanta« (a Semantic plugin).

-What is «Zemanta»?

Zemanta is a tiny Firefox plugin that works for almost any type of blog, automatically generating tags, links and images with a certain Semantic relevance to your blog-posts (every time you save them).

Zemanta works for WordPress, blogspot, and other types of blogs.

Consult Zemanta’s main site:

Unfortunately, Zemanta only works for English posts, at the moment. However, as a registered tester of Zemanta’s API, I wrote a message in the Zemanta developer’s forum, with some ideas about using Zemanta in other languages. Here is how:

Zemanta’s results will be in English, but a part of them is useful (in other languages) anyway: E.g. Images. Also tags and categories are BEST done in English, since today there is fusion of information all over the planet and ever-improving quality in automatic translation. So a blogger writing about issues that concern the whole world, should use international (English) tags and categories, to be searchable by international audiences. The only negative thing (but not totally) is that links to other blog-posts (generated by Zemanta) will also be in English, but these are not totally rejectable: Maybe some of them are also relevant and desirable (I certainly use a lot of them, even in Greek posts).

There is a simple way for any non-English blogger to use Zemanta already, even without foreign language extensions, while writing NON-English posts. Here is the procedure:

  1. Write your non-English post as a «private post», keeping Zemanta switched OFF. Do NOT put a title to it yet. Save it.
  2. Copy this (entire) text to Google’s automatic translation service, e.g. using my own site, which also includees babelfish / Yahoo automatic translation:
  3. Translate automatically your (non-Engllish) text into English. Then, copy-and-paste the translation to a NEW BLOG POST, intended as a final (public) post in your blog.
  4. Switch ON Zemanta, to get semantic information attached to your post.
  5. Switch OFF Zemanta, delete your text (taking care not to delete LINKS if you do need them). Go back now to your original (non-English) private blog-post, copy-and-paste it into the new post (the one you are about to publish). Adjust the title of this post and press «Publish».
  6. VOILA: -You have used Zemanta successfully, in a Non-English post! :)

In (5) one further possibility is to hand-edit the English automatic translation, to publish your post a second time, this time also in English. The drawback here is that -usually- the translations are of bad quality, a kind of «pigeon-English»; quite often so bad that you have to re-translate your text from scratch! However, the quality is already improving and some types of text get better translated than others (automatically).

  • NOTE: If you are a software developer, it is possible to use clever and simple programming calls to Google’s new «translation API» to translate (almost any) blog-post into English temporarily generating semantic results from Zemanta. Clever use of Google’s Translation API by the Zemanta developer(s) can certainly make it work automatically in other languages, making my… wise advice (here) obsolete! :)

      Reblog this post [with Zemanta]

      Improving Automatic Translation Software, using Human text-corrections in Automatic Translation

      Pyramid showing comparative depths of intermediary representation, interlingual machine translation at the peak, followed by transfer-based, then direct translation.Image via Wikipedia

      A few years ago (2003-2004) I made a detailed proposal to several Greek I.T. companies: The proposal was to «improve the performance of automatic translation software» through additional «boot-strapping code» in Prolog, which could learn from the mistakes of Automatic Translation by creating automatic generalizations in NLP (Natural Language Processing) using ILP (Inductive Logic programming).

      Fed with human corrections, the proposed software would continually compare human corrections with automatic translation mistakes, so that it would learn (using A.I. techniques such as ILP) how to correct the latter, improving (the final outcome of) Automatic Translation, with time.

      The human text-corrections could be stored in a so-called «Translation Memory System» (such as Trados), while the main NLP/ILP program could be a plugin or extension for already-existing Automatic Translation Software (such as SysTran).

      Unfortunately, there wasn’t a single Greek I.T. company, willing to risk (my proposed salary of) 10-15 thousand euros (spread over a period of 6 to 12 months) to try out this simple and (in my humble opinion) powerful software-idea. Only one Greek company  (software importers and software developers themselves) told me they might be interested, but that… they would need to see a working software demo of the idea, first! Well, I replied that the proposed initial phase of 6 to 12 months (for which I requested a decent salary) was precisely intended to cover this development phase, to arrive at an «alpha-phase software» implementing the idea. If I could support myself without their help during these few months, I wouldn’t ask for their assistance in the first place! -Instead, I would probably try to sell the «already working demo», or start (once again in life) an I.T. company to distribute the product. But I couldn’t live without any income, during the proposed «initial phase». Well, they immediately lost all interest in the idea, as a result; they wanted to do business with zero risks, zero investment and… zero innovation!
      -Ah well, since they were a Greek company, I was not -in the least bit- surprised;
      always expecting the worst in Greece:

      • During the last 3 years, more than 5000 colleagues of mine, Greek I.T. professionals, researchers and scientists have left Greece, emigrating to… saner countries, seeking high-tech jobs; they left because of the extreme narrow-mindedness, imbecility, corruption and complacency that predominate over here:

      • Greece is an entire country of -largely- useless, narrow-minded people, most of them living in their own Closed Little World, envying and demeaning each other. Of course, there ARE noteworthy exceptions -typically among those who live (or have lived) elsewhere.

      • Nevertheless, my proposed «automatic learning software» would be profitable in Greek language automatic translation, since (1) Greek is a relatively rare language, that most A.I./NLP developers do not understand, and (2) there is simply zero competition (for high-tech Greek language software innovations), in a country overwhelmed by so much unbelievable amounts of stupidity, backward-thinking mentality and sheer technological incompetence. Any Greek company willing to invest in this simple idea would become quickly successful, in the Greek language translation market, since my own translation skills in Greek (as well as English) are adequate for the project. The success of the project depends on two types of skill, ideally simultaneous: (1) all the necessary software development skills, and (2) perfect knowledge of at least two languages, for the first language-pair to work properly.

      In fact, I wouldn’t even dream of implementing this innovation (in «only 6 to 12 months») for languages I don’t understand, such as German: My idea is guaranteed to produce good results only for Greek-to-English translations (and vice-versa), which is why (to my utmost… disgust) I approached Greek companies (rather than foreign) in the first place. After a while, E-mail sent to companies all over the world was either ignored, or answered with polite replies like «no thanks, we’ re not interested in Greek at the moment».

      • Well, if you happen to be an I.T. company or a Greek investor of… rare open-mindedness, just send me an e-mail, to, and I’ll be glad to explain it further.

      • After the initial alpha-phase, my estimate is another short period (of about six months) to produce a final, fully debugged, nicely packaged shop-ready software product, probably marketed with a nice title like «Automatic Translation Intelligent Companion» (etc).
      • However, when your profits-per-month begin to exceed significantly the cost of my salary, I’d be pleased to get a small percentage of your profits, without any salary (a negotiable, modest percentage, somewhere between 15 and 25% of your net income from the proposed product);
      • offering you unlimited support, as well.
      Related articles


      HyperLOGIC R&D, η εταιρεία του λεξικού HyperLEX (HyperLogic R&D, the company behind HyperLEX)

      English summary (update): This Greek post tells the story of «HyperLOGIC R&D«, a small Greek company that produced (in 1991) the first HyperText-based intelligent dictionary software in the world (with embedded speech), a program called «HyperLEX» (discontinued in 1998). It was developed in Prolog and pure Assembly language. Although an MS-DOS program, it had a lightning-fast Graphic Environment, with multiple mouse-controlled resizable windows, a special editor-window (for source- and target- texts in translation) and intelligent Morphological / Spell-checking capabilities, etc. Initially, I started «HyperLOGIC R&D» aiming to achieve a «horizontal structure» company with many creative profit-sharing participants. However, this vision of «collective business activity» was not fully implemented, due to various practical difficulties (in Greece).

      Posted by

      Η επόμενη σκαναρισμένη εικόνα είναι μία σελίδα του προγράμματος (φυλλαδίου) παρουσίασης καινοτομιών προϊόντων μιας Κοινοτικής έκθεσης στο Ζάππειο, το Μάρτιο του 1993, με τίτλο «Γλωσσομάθεια και Ευρωπαϊκός Πολιτισμός»: Συνέχεια ανάγνωσης

      Rada Mihalcea’s work in Computational Linguistics (in Greek)

      Illustration of how the three key concepts relate in the Topic Map standard. These are topic, association and occurrence.

      Image via Wikipedia

      Η Rada Mihalcea είναι Ρουμάνα (αν και δεν είμαι σίγουρος για την καταγωγή της, αφού το όνομά της μπορεί κάλλιστα να είναι ελληνικό, π.χ. …Μιράντα Μιχαλτσέα). Γλωσσολόγος-πληροφορικός με PhD, διδάσκει στο Πανεπιστήμιο του Βορείου Τέξας Πληροφορική Γλωσσολογία (φυσικών γλωσσών). Είναι προφανές ότι η διάνοιά της είναι κορυφαίου επιπέδου, αλλά δεν υστερεί καθόλου ούτε και σε… εμφάνιση, όπως δείχνει η φωτογραφία στην ιστοσελίδα της, και άλλη μία εδώ (scroll λίγο πιο κάτω, στο κειμενάκι με τίτλο «Helping Computers Help Us«).

      Τα τελευταία χρόνια, διεξάγεται ένας τιτάνιος παγκόσμιος αγώνας μέσω έρευνας Πανεπιστημίων (και ορισμένων εταιρειών) για την συστηματική ενοποίηση των γλωσσικών και εννοιολογικών δομών πλανήτη, με το συνδυασμό (1) Πληροφορικής Γλωσσολογίας (computational linguistics), Προγραμματισμού για Φυσική Γλώσσα (Natural Language Programming ή «NLP«), ενοποιημένων «οντολογιών» και εννοιολογικών λεξιλογίων (ontologies , wordnets), κλπ.

      Ο στόχος αυτής της πολύμορφης παγκόσμιας έρευνας είναι πολυδιάστατος. Mία όψη του βοηθάει την κατανόηση μεταξύ ανθρώπινων γλωσσών, από την άποψη του τελικού χρήστη (π.χ. αυτόματη ή ημι-αυτόματη Μετάφραση, προχωρημένες μορφές λεξικογραφίας). Μία άλλη του όψη επιτρέπει στις μηχανές (δηλαδή στους υπολογιστές) να «κατανοήσουν» ανθρώπινα κείμενα, π.χ. μέσω αντιστοίχισης των ανθρώπινων κειμένων με συστήματατα προτάσεων της Μαθηματικής Λογικής ή με εννοιολογικές δομές (semantic nets, Conceptual Graphs, Topic Maps, κλπ) έτσι ώστε να μπορέσουν οι υπολογιστές (με τη σειρά τους) να βοηθήσουν πιο αποτελεσματικά τους ανθρώπους να ενοποιήσουν τις Πλημμύρες της Πληροφορίας του πλανήτη, π.χ. στο δύσβατο και πολύπλοκο νέο τομέα της Βιοπληροφορικής (Bioinformatics ) για την πληρέστερη κατανόηση του DNA. Κορυφαία φωτεινή στιγμή της Βιοπληροφορικής υπήρξε η ανακάλυψη από τον David Searls (έναν πληροφορικό που έγινε βιολόγος) της «Γραμματικής του DNA«, η οποία ονομάζεται «String Variable Grammar» (γραμματική μεταβλητών συμβολοσειρών) και είναι εξίσου πολύπλοκη με την… ανθρώπινη αλλά με το πρόσθετο χαρακτηριστικό του ότι περιλαμβάνει αντικαταστάσεις «λέξεων» με άλλες, που έχουν μεταβλητό μέγεθος. Η ανακάλυψη της String Variable Grammar έγινε μέσω της γλώσσας προγραμματισμού PROLOG (PROgramming in LOGic), με την οποία ασχολούμαι πολλά χρόνια , π.χ. χρησιμοποιώντας την για το πρώτο Ευρωπαϊκό λεξικό με hypertext, το HyperLEX .

      Conceptual graph for A Cat sitting on the Mat (graph 1)

      Κορυφαία φωτεινή στιγμή της Πληροφορικής Γλωσσολογίας υπήρξε η δημόσια εμφάνιση (δωρεάν διατιθέμενων) εργαλείων και πόρων όπως το Wordnet , το OpenCYC , και οι «προτεινόμενες Οντολογίες Κορυφής» (Suggested Upper Ontology, SUO / SUMO ). Για τα Βαλκάνια (και την Ελληνική γλώσσα) η Ευρωπαϊκή Ένωση ξεκίνησε προ ετών το (αντίστοιχο του αγγλικού Wordnet) «Balkanet » του Πανεπιστημίου της Πάτρας, που περιλαμβάνει το Greek Wordnet (στα πλαίσια του ευρωπαϊκού EuroWordNet και του παγκόσμιου Global WordNet ). Κάθε WordNet είναι ένα τεράστιο λεξικό που περιέχει συνώνυμα και αντίθετα όλων των λέξεων, μαζί με άλλες ιδιότητές τους, διευκολύνοντας την αλληλο-σύνδεση εννοιών σε κείμενα ή τη μετατροπή τους σε προτάσεις Λογικής Πρώτου Βαθμού (First Order Logic ).

      Ε, λοιπόν η πολύ σημαντική δουλειά της Rada Mihalcea είναι η έρευνα και ανάπτυξη εργαλείων λογισμικού που είναι (π.χ.) σε θέση να μαθαίνουν αυτομάτως τις κρυμμένες εννοιολογικές δομές και διασυνδέσεις μέσα σε ανθρώπινα κείμενα, πολλαπλών πηγών και γλωσσών ταυτόχρονα. Εργαλεία τα οποία ξεκαθαρίζουν αυτομάτως τις «αμφιλεγόμενες ερμηνείες» λέξεων ή όρων (disambiguation), λύνοντας μόνα τους το πρόβλημα του ΠΟΙΑ συγκεκριμμένη ερμηνεία μιας λέξης είναι η σωστή, για τη λογική ανάλυση και «μηχανική κατανόηση» (ή π.χ. μετάφραση) ενός ανθρώπινου κειμένου.

      Στην Ελλάδα η ανάπτυξη αυτού του νέου επιστημονικού τομέα έχει μείνει πολύ πίσω. Ακόμη δεν τελείωσε το ελληνικό Wordnet, και τα περισσότερα Πανεπιστήμια δεν έχουν καν την αναγκαία υποδομή για να παρακολουθήσουν τις ραγδαίες διεθνείς εξελίξεις, με φωτεινές εξαιρέσεις το Πανεπιστήμιο της Πάτρας και την εταιρεία Neurolingo (θυγατρική της Neurosoft) που διαθέτει στην αγορά τον πρώτο Ελληνικό «Θησαυρό Λέξεων» και άλλα πρακτικά εργαλεία (για το Microsoft Office, κλπ).

      Η Rada Mihalcea διαθέτει στις ιστοσελίδες της (για δωρεάν download) πολλά είδη πρωτοποριακού λογισμικού, εννοιολογικά λεξιλόγια και corpus (μαζικά γλωσσικά δεδομένα για χρήση από λογισμικό φυσικής γλώσσας). Αν σας ενδιαφέρει να δοκιμάστε πρακτικά μερικά από τα δημιουργήματά της διατίθενται για δωρεάν για download στην ακόλουθη ιστοσελίδα:
      Σε αυτή την ιστοσελίδα περιλαμβάνονται (για download) τα εξής:

      • SenseLearner: All-Words Word Sense Disambiguation Tool
      • FrameNet – WordNet verb sense mapping
      • Open Mind Word Expert Sense Tagged Data
      • Resources for Word Alignment
      • SemCor (Texts semantically annotated with WordNet senses)
      • Text Filtering (Evaluation software for text filtering systems)
      • Annotated questions (annotations for about 5,500 questions used in an analysis of information requests)

      Τέλος, ανάμεσα στους πολλούς στόχους της έρευνας που κάνει η Rada Mihalcea, είναι η πρακτική αξιοποίηση των αποτελεσμάτων αυτής της έρευνας για την άμεση, εύκολη επικοινωνία μεταξύ ανθρώπων σε κάθε γωνιά της γης, δηλαδή (με τα δικά της λόγια, στα αγγλικα):

      Helping Computers Help Us

      Dr. Rada Mihalcea«Being able to understand another language is nothing to be taken lightly. Anyone who has ventured into a foreign country without speaking the language will attest to the difficulties that can arise when wild gesticulation attempts to replace language in requesting a vegetarian dish or enquiring about the arrival of the next train.

      Thanks to the world wide web, similar angst can arise in written communication from the comfort of your own room or even a mobile device. A product has been out in Japan for several months and is about to hit the shelves in the U.S. What do the Japanese customers think of it? The reviews are right there, on the web – but the fact that the pages are likely to be in Japanese is of little help to the vast majority of potential American customers. In a commendable move, MIT is making all of their course materials available for free on the web though the Open CourseWare project. However, the impact of wonderful education resources such as these would be even more pervasive if those who do not speak (actually, read) English could use the resources. These examples hint at nothing less than the concept of universal communication – borderless communication between people, regardless of the language they speak».

      Related articles

      Zemanta Pixie