Improving Automatic Translation Software, using Human text-corrections in Automatic Translation

Pyramid showing comparative depths of intermediary representation, interlingual machine translation at the peak, followed by transfer-based, then direct translation.Image via Wikipedia

A few years ago (2003-2004) I made a detailed proposal to several Greek I.T. companies: The proposal was to «improve the performance of automatic translation software» through additional «boot-strapping code» in Prolog, which could learn from the mistakes of Automatic Translation by creating automatic generalizations in NLP (Natural Language Processing) using ILP (Inductive Logic programming).

Fed with human corrections, the proposed software would continually compare human corrections with automatic translation mistakes, so that it would learn (using A.I. techniques such as ILP) how to correct the latter, improving (the final outcome of) Automatic Translation, with time.

The human text-corrections could be stored in a so-called «Translation Memory System» (such as Trados), while the main NLP/ILP program could be a plugin or extension for already-existing Automatic Translation Software (such as SysTran).

Unfortunately, there wasn’t a single Greek I.T. company, willing to risk (my proposed salary of) 10-15 thousand euros (spread over a period of 6 to 12 months) to try out this simple and (in my humble opinion) powerful software-idea. Only one Greek company  (software importers and software developers themselves) told me they might be interested, but that… they would need to see a working software demo of the idea, first! Well, I replied that the proposed initial phase of 6 to 12 months (for which I requested a decent salary) was precisely intended to cover this development phase, to arrive at an «alpha-phase software» implementing the idea. If I could support myself without their help during these few months, I wouldn’t ask for their assistance in the first place! -Instead, I would probably try to sell the «already working demo», or start (once again in life) an I.T. company to distribute the product. But I couldn’t live without any income, during the proposed «initial phase». Well, they immediately lost all interest in the idea, as a result; they wanted to do business with zero risks, zero investment and… zero innovation!
-Ah well, since they were a Greek company, I was not -in the least bit- surprised;
always expecting the worst in Greece:

  • During the last 3 years, more than 5000 colleagues of mine, Greek I.T. professionals, researchers and scientists have left Greece, emigrating to… saner countries, seeking high-tech jobs; they left because of the extreme narrow-mindedness, imbecility, corruption and complacency that predominate over here:

  • Greece is an entire country of -largely- useless, narrow-minded people, most of them living in their own Closed Little World, envying and demeaning each other. Of course, there ARE noteworthy exceptions -typically among those who live (or have lived) elsewhere.

  • Nevertheless, my proposed «automatic learning software» would be profitable in Greek language automatic translation, since (1) Greek is a relatively rare language, that most A.I./NLP developers do not understand, and (2) there is simply zero competition (for high-tech Greek language software innovations), in a country overwhelmed by so much unbelievable amounts of stupidity, backward-thinking mentality and sheer technological incompetence. Any Greek company willing to invest in this simple idea would become quickly successful, in the Greek language translation market, since my own translation skills in Greek (as well as English) are adequate for the project. The success of the project depends on two types of skill, ideally simultaneous: (1) all the necessary software development skills, and (2) perfect knowledge of at least two languages, for the first language-pair to work properly.

In fact, I wouldn’t even dream of implementing this innovation (in «only 6 to 12 months») for languages I don’t understand, such as German: My idea is guaranteed to produce good results only for Greek-to-English translations (and vice-versa), which is why (to my utmost… disgust) I approached Greek companies (rather than foreign) in the first place. After a while, E-mail sent to companies all over the world was either ignored, or answered with polite replies like «no thanks, we’ re not interested in Greek at the moment».

  • Well, if you happen to be an I.T. company or a Greek investor of… rare open-mindedness, just send me an e-mail, to omadeon@hotmail.com, and I’ll be glad to explain it further.

  • After the initial alpha-phase, my estimate is another short period (of about six months) to produce a final, fully debugged, nicely packaged shop-ready software product, probably marketed with a nice title like «Automatic Translation Intelligent Companion» (etc).
  • However, when your profits-per-month begin to exceed significantly the cost of my salary, I’d be pleased to get a small percentage of your profits, without any salary (a negotiable, modest percentage, somewhere between 15 and 25% of your net income from the proposed product);
  • offering you unlimited support, as well.
Related articles

.

14 comments

  1. Καλή Χρονιά, και… καλή τύχη στη δική σου ειλικρινή προσπάθεια, φίλε Παπαιωάννου, να… διορθώσεις τα στραβά μέσα στο δικό σου πολιτικό χώρο. Εμένα δεν μου πέφτει λόγος, έχω προσπαθήσει κι εγώ να βγάλω άπειρα… φίδια από τρύπες, με αποτέλεσμα να… αποπειραθούν να με φάνε (όλα μαζί εξίσου)!

    Δυστυχώς, όμως, ενώ… γλύτωσα από τα φίδια, κινδυνεύω να πέσω ο ίδιος μέσα στην τρύπα (από όπου τα έδιωξα).

    Γι’ αυτό το λόγο, και επειδή θέλω δυστυχώς πάαααλι να βγάλω ελληνικά φίδια από ελληνικές τρύπες, το ιστολόγιο αυτό θα έχει στο άμεσο μέλλον εκτός από αγγλόφωνα ποστ ΚΑΙ ορισμένα σημαντικά ελληνόφωνα. Κακά τα ψέμματα, δεν μπορώ να αποφύγω να αναφερθώ και στα… φίδια, μερικές φορές!🙂

  2. ti perimenes re file na pas se mia eteria kai xoris polles erotisis na sou dosoun kai lefta kai doulia? prepi na apodi3is prota oti auta pou les mporis na ta kanis. den sou ftaine oloi oi ellines kai katigoras tin ellada

  3. @palkcv

    ti perimenes re file na pas se mia eteria kai xoris polles erotisis

    Δηλαδή ρε φίλε, εσύ ξέρεις ΤΙ ερωτήσεις απάντησα και τι επικοινωνίες έγιναν;

    …na sou dosoun kai lefta kai doulia? prepi na apodi3is prota oti auta pou les mporis na ta kanis.

    E, έχω βαρεθεί να αποδεικνύω συνέχεια ΤΙ μπορώ να κάνω. Οποιος θέλει μπορεί να το ελέγξει, μέσω δημόσιων site και CV και project.

    Στη βρωμοχώρα, όμως, ΔΕΝ κρίνεσαι με βάση όσα ΠΡΑΓΜΑΤΙΚΑ έχεις κάνει ή μπορείς να κάνεις, αλλά με βάση την ΑΓΝΟΙΑ στο μυαλό του άλλου γύρω από αυτά που έχεις κάνει ή μπορείς να κάνεις (ή ολόκληρων τομέων που αγνοούνται).

    den sou ftaine oloi oi ellines kai katigoras tin ellada

    E.. όχι, δεν μου φταίνε ΟΛΟΙ οι Ελληνες. Μου φταίνε ΜΟΝΟ εκείνοι που (ακολουθώντας το αξίωμα «Ισχύς μου η μείωση του άλλου») ενδιαφέρονται μόνο να αμυνθούν σε όσους «κατηγοράνε την Ελλάδα», λες και δεν είναι προφανής η καφρίλα της κατεστημένης νοοτροπίας στη χώρα, καθώς και της υπνωτισμένης πλειοψηφίας που την ακολουθεί…

    Για την ιδέα αυτή δεν μίλησα (δημόσια) κάπου 4 χρόνια.
    Για κάποιον που ξέρει τον τομέα (NLP) δεν πρόκειται για κάτι τόσο δύσκολο. Ακόμη και οι συνοπτικές απλουστευμένες προτάσεις αυτού του ποστ είναι ήδη αρκετές, το θέμα είναι να εκτιμηθεί ο κόπος που απαιτείται. Και με απλή κατάστρωση σχεδίου το τελευταίο επίσης μπορεί να εκτιμηθεί.

    Αλλά… ξέχασα. Οι Ελληνικές εταιρείες έχουν καλομάθει να δουλεύουν με… μηδενικό ρίσκο, ενώ οι ραγιάδες υπάλληλοι πρέπει να εξακολουθούν να αποδεικνύουν ότι ο ήλιος ανατέλλει από την ανατολή ή να επενδύουν εξάμηνα χρηματοδοτημένα από πλούσιους μπαμπάδες (αφού οι εργοδότες δεν ρισκάρουν τίποτα)…

  4. αν και έχεις κάποιο δίκιο να κατηγορείς την εταιρία ότι δεν ήθελε ρίσκο, φαίνεται πως αδυνατείς να το δεις ΚΑΙ από τη δικιά τους σκοπιά

    αν δηλαδή ΔΕΝ σου έβγαινε το a-version, αυτοί τι θα είχαν στα χέρια τους πέρα από την τρύπα των 10-15 χιλιάδων ευρώ που θα τους είχε κοστίσει η (αποτυχημένη) δουλειά σου;;;

    σε κάθε περίπτωση το ότι φτύνεις όλη τη χώρα με τον σκαιότατο αυτό τρόπο επειδή δεν σου έκατσαν οι εταιρίες που δοκίμασες είναι επιεικώς απαράδεκτο

  5. @George
    Δεν ξέρω πόσες φορές θα χρειαστεί να το ξαναπώ, το ρητό του Οδυσσέα Ελύτη: «ΖΟΥΜΕ ΑΠΟ ΤΙΣ ΕΞΑΙΡΕΣΕΙΣ, ΟΧΙ ΑΠΟ ΤΟΥΣ ΚΑΝΟΝΕΣ»…

    Αυτή τη στιγμή ΚΑΙ εγώ από τις εξαιρέσεις ζω. Πριν δύο μέρες είχα ένα ατύχημα, έπεσα κάτω και έσπασε η οθόνη ενός πολύ ακριβού κινητού (το οποίο μου το έκανε δώρο ένας φίλος και συνεργάτης επιχειρηματίας με ΑΝΟΙΧΤΟ ΜΥΑΛΟ – από αυτούς που παραπονιέμαι ότι είναι ελάχιστοι στην Ελλάδα). Ταυτόχρονα, επειδή κρατούσα ένα φορητό σκληρό δίσκο στο χέρι, υπέστη ισχυρότατο χτύπημα και έπαψε να δουλεύει. Ο δίσκος περιείχε 150 Gb ΕΠΑΓΓΕΛΜΑΤΙΚΟ ΥΛΙΚΟ, περίπου 9000 pdf research papers, software που είναι το περισσότερο αναντικατάστατο (παρά μόνο με πολύ κόπο), π.χ. ΔΥΟ compilers που μου έκαναν ΔΩΡΟ (λόγω δουλειάς) κάποιες ξένες εταιρείες (LPA Prolog 4.7 και Visual Prolog) και πολλά άλλα.

    Αν δούλευα για μία εταιρεία με τα δικά σου μυαλά, George, πιθανότατα θα αδιαφορούσε και θα μου έριχνε και το φταίξιμο επειδή έπεσα και χτύπησα. Ομως το αντίθετο συμβαίνει. Οι δύο Ελληνες επιχειρηματίες με τους οποίους συνεργάζομαι έχουν δείξει και δείχνουν πολλή κατανόηση για τέτοιου είδους ανθρώπινα προβλήματα και θα συνεχίσουν μάλιστα να το κάνουν, ΣΤΟ ΒΑΘΜΟ ΠΟΥ ΜΠΟΡΟΥΝ.

    Το θέμα είναι ότι στη συντριπτική πλειοψηφία τους, οι κάτοικοι αυτής της χώρας, είναι σε ΕΝΤΕΛΩΣ ΛΑΘΟΣ ΔΡΟΜΟ. Και φυσικά σε λάθος δρόμο είναι και οι επιχειρηματίες της, για πολλούς λόγους που έχουν πολλές φορές αναλυθεί από πάρα πολύ κόσμο σε πολλά άλλα δημοσιεύματα. Π.χ. σήμερα ο πρόεδρος του ΣΕΒ, αν δεν απατώμαι, είναι σεσημασμένος ηγέτης Καρτέλ Γάλακτος. Οι παρατυπίες του θα έπρεπε να τιμωρούνται ΠΑΡΑ ΠΟΛΥ αυστηρά. ΚΑΝΕΙΣ δεν τιμωρείται. Οι απατεώνες θριαμβεύουν παντού στην Ελλάδα. Η συμφωνία για τον ΟΤΕ μου φαίνεται ΠΟΛΥ ύποπτη. Σχεδόν όλοι μας υποψιαζόμαστε κάποιες μίζες, σε αυτή την ιστορία, γιατί ακόμη και Γερμανοί ειδικοί παραδέχτηκαν ότι η συμφωνία είναι ΑΣΥΜΦΟΡΗ ΓΙΑ ΤΗ ΧΩΡΑ. Οπότε…. ΤΙ ΜΟΥ ΛΕΣ ΤΩΡΑ;

    Το θέμα είναι, ότι το timing της απάντησής σου (αλλά και το πάρα πολύ λανθασμένο περιεχόμενό της – αν το αναλύσουμε βαθιά) ήρθε σε μία πολύ «περίεργη στιγμή», μια στιγμή κατά την οποία η Ελλάδα πρόκειται πια να ΧΑΣΕΙ ΤΟ ΤΡΑΙΝΟ της ανάπτυξης Τεχνολογίας για τον Σημασιολογικό Ιστό (Semantic Web). Τα ποστ γύρω από αυτό το θέμα είναι εδώ:
    https://omadeon.wordpress.com/category/Semantic-Web

    ΠΟΛΛΗ ανασφάλεια ρε παιδί μου, για τα 10-15 χιλιάδες ευρουλάκια, μου εκφράζεις. ΣΙΓΑ ΤΟ ΠΟΣΟ. ΕΝΑΣ ΚΑΦΕΣ είναι για μία εύρωστη εταιρεία στο χώρο. ΣΙΓΑ το πρόβλημα «μην τυχόν και αποτύχει η ιδέα». ΣΙΓΑ το πρόβλημα να βρεθούν 2-3 ειδικοί να την ΤΣΕΚΑΡΟΥΝ ότι όντως δουλεύει.

    Στο μεταξύ…
    ΕΚΑΤΟ ΕΚΑΤΟΜΜΥΡΙΑ ΔΟΛΛΑΡΙΑ έριξαν επενδυτές «υψηλού ρίσκου» σε μία πρωτοβουλία με ΑΜΦΙΒΟΛΗ ΕΠΙΤΥΧΙΑ στο διαδίκτυο: το νέο Σημασιολογικό site «Twine» του κ. Nova Spivack
    http://www.twine.com
    Στο οποίο έγινα αποδεκτός (μετά από αίτηση) σαν beta-tester.

    Εκείνο που δεν σου πέρασε ΚΑΝ από το μυαλό είναι ότι θα μπορούσα να κυνηγήσω την ιδέα αυτού του ποστ, ιδιαίτερα τώρα, σε πολλές άλλες χώρες και άλλες εταιρείες. Ομως, μετά από ένα σημείο, ενδιαφέρομαι να μπορέσω να την υλοποιήσω με δικές μου δυνάμεις. Και ΣΥΝΑΙΤΕΡΙΚΑ….

    Ομως, το ότι ζούμε σε βρωμοχώρα είναι ανεξάρτητο των προθέσεών μου.

  6. δεν μου απαντάς επί της ουσίας

    ωστόσο θα απαντήσω εγώ σε κάτι που έγραψες

    όχι δεν θα σου καταλόγιζα ευθύνη που έπεσες

    αλλά που δεν είχες backup των ΤΟΣΟ σημαντικών δεδομένων του δίσκου που έσπασε

    αν 10-15 χιλιάδες «ευρουλάκια» είναι «σιγά τον ποσό» βάλτα από την τσέπη σου ή πάρε δάνειο ή ζήτα τα από άτομα που ξέρουν τι μπορείς να κάνεις, στήνοντας μια επιχείρηση που όταν πετύχει η δουλειά σου θα γίνει γίγαντας, απλό δεν είναι; γιατί σώνει και καλά να ρισκάρει μια εταιρία που δεν σε γνωρίζει, και όταν δεν το κάνει να τους χλευάζεις κιόλας;

    όσο εκφράζουν αυτοί την ελληνική κακοδαιμονία ως εταιρία, άλλο τόσο την εκφράζεις κι εσύ ως άτομο, με το εγωκεντρικό ύφος που γράφεις

    καλή τύχη στις προσπάθειές σου

  7. Υ.Γ. Στην πραγματικότητα, η ιδέα αυτού του ποστ έχει ΗΔΗ μπεί σε ένα δρόμο ή πλάνο υλοποίησης, απλώς… τρέχουμε (και δεν προλαβαίνουμε) για ένα σωρό άλλα, απολύτως παρεμφερή θέματα, που αφορούν Ανάλυση Φυσικής γλώσσας σε σχέση με τις ΑΜΕΣΕΣ προταιρεότητες για το Semantic Web.

    Mε αυτή την ευκαιρία, δίνω μερικούς συνδέσμους:
    http://www.trueknowledge.com
    http://del.icio.us/omadeon/SemanticWeb+NLP

    Υπάρχουν και εκατοντάδες ιδιωτικοί σύνδεσμοι, μερικοί θα προστεθούν αργότερα. Ακολουθεί ίσως εκλαϊκευτικό ποστ για τον ΑΠΛΟ ΧΡΗΣΤΗ του web που θέλειε να εκμεταλλευτεί την ΕΠΑΝΑΣΤΑΣΗ ΠΟΥ ΣΥΝΤΕΛΕΙΤΑΙ αυτές τις μέρες και παραμένει ΑΓΝΩΣΤΗ στην Ελλάδα (σε αρκετό βαθμό).

  8. αν 10-15 χιλιάδες “ευρουλάκια” είναι “σιγά τον ποσό” βάλτα από την τσέπη σου ή πάρε δάνειο ή ζήτα τα από άτομα που ξέρουν τι μπορείς να κάνεις, στήνοντας μια επιχείρηση που όταν πετύχει η δουλειά σου θα γίνει γίγαντας, απλό δεν είναι; γιατί σώνει και καλά να ρισκάρει μια εταιρία που δεν σε γνωρίζει, και όταν δεν το κάνει να τους χλευάζεις κιόλας;

    ΟΛΑ λάθος. Απαντήσεις ΕΠΙ ΤΗΣ ΟΥΣΙΑΣ

    1) ΟΧΙ, για μένα εκείνη την εποχή 10-15 χιλιάδες ευρώ ήταν ΑΠΛΗΣΙΑΣΤΑ (και λόγω διαφόρων απατών και αδικιών) χρώσταγα κιόλας. Και σήμερα δεν μπορώ να πώ ότι βρίσκονται εύκολα.

    ΔΕΝ ΜΠΟΡΕΙΣ ΝΑ ΣΥΓΚΡΙΝΕΙΣ την οικονομική δύναμη μεγάλης εταιρeίας με εκείνη ενός απλού ατόμου (κι εκείνη την εποχή στα όρια της φτώχειας)

    απλό δεν είναι;

    ΟΧΙ. Το μόνο απλό είναι η ξεφτίλα της ΝΟΟΤΡΟΠΙΑΣ που δεν επενδύει ΤΙΠΟΤΕ ΣΤΗΝ ΕΡΕΥΝΑ, ουσιαστικά.

    ΚΑΛΑ κάνω και χλευάζω τη νοοτροπία και τη χώρα σαν ΣΥΝΟΛΟ, διότι σήμερα, ΥΣΤΕΡΟΥΜΕ ΚΡΑΥΓΑΛΕΑ σε τομείς όπου Βαλκανικοί γείτονες τώρα διαπρέπουν (Βουλγαρία και Τουρκία).

    Π.χ. σήμερα ΔΕΝ ΥΠΑΡΧΕΙ ΑΝΤΙΣΤΟΙΧΟ ΕΛΛΗΝΙΚΟ ΠΡΟϊΟΝ με το «Wordnet» που κάποτε ήταν να υλοποιηθεί αλλά… χάθηκε μυστηριωδώς (αφού φυσικά κάποια Ευρωπαϊκά κονδύλια χάθηκαν σε κάποιες τσέπες). Και χωρίς να υπάρχει ουσιαστική δουλειά στον τομέα του Natural Language Programming στην Ελλάδα, Semantic web = ΓΙΟΚ (επίσης)…

    Εκείνο που δεν κατάλαβες είναι η ΓΕΝΙΚΟΤΕΡΗ κριτική που αφορά το ΣΥΝΟΛΟ των παρόμοιων περιπτώσεων όπου ΑΚΟΜΗ ΚΙ ΕΣΥ το θεωρείς αυτονόητο να «μην επενδύσουν μην τυχόν και τα χάσουν» (τα 10-15 χιλιάδες ευρώ).

    Εθνικιστής ΚΑΙ φιλελεύθερος φαίνεσαι…

    υ.γ. ο σκληρός δίσκος έπεσε τη ΣΤΙΓΜΗ που μεταφερόταν για να γίνει backup (under Murphy’s Law, the EXACT worst moment).

  9. γιατί σώνει και καλά να ρισκάρει μια εταιρία που δεν σε γνωρίζει, και όταν δεν το κάνει να τους χλευάζεις κιόλας;

    1) Γιατί η εταιρεία αυτή (όπως και άλλες) ΓΕΝΙΚΑ δεν ρισκάρειε, και (ενώ έχει τόσο το προσωπικό, όσο και τη δυνατότητα) ΔΕΝ ΕΠΕΝΔΥΣΕ ΤΙΠΟΤΕ ΣΤΗΝ ΕΡΕΥΝΑ, παρά μόνο «για τα μάτια» (της Ε.Ε. και των κονδυλίων της)

    2) Γιατί η εταιρεία με ΗΞΕΡΕ, δηλαδή π.χ. ήξερε ΤΟΥΛΑΧΙΣΤΟΝ αυτό εδώ
    http://www.omadeon.com/sourcecode/hyperlex.html
    (επιτυχημένο προϊόν μου που ΓΝΩΡΙΖΕ ΗΔΗ απο πολύ πριν)

    3) Γιατί μερικές δεκάδες χιλιάδες ευρώ το χρόνο για έρευνα ΠΡΕΠΕΙ να διατίθενται. Και όμως στην Ελλάδα το ποσοστό που πάει στην έρευνα είναι ΑΠΑΡΑΔΕΚΤΑ χαμηλό.

    4) Γιατί μία ΑΛΛΗ εταιρεία στη θέση της, σε άλλη χώρα, θα ανάθετε αμέσως σε δικά της στελέχη ή σε στελέχη συνεργαζόμενων οργανισμών να συζητήσουν την ιδέα. Εγώ μίλησα μόνο με ΠΡΩΗΝ ερευνητή (NLP) που εκτελούσε χρέη… πωλητή ή οργανωτή/διευθυντή πωλήσεων. Αποκτάς ντοκτορά στην Ελλάδα και καταντάς…. πωλητής στο τέλος (πολλές φορές)

    5) Γιατί θα μπορούσε να συζητήσει διαφορετικούς όρους, ίσως με πιο λίγο ρίσκο, π.χ. δουλειά σε συνεργασία με δικούς της ανθρώπους, που να δούν ΑΠΟ ΤΟΝ ΠΡΩΤΟ ΜΗΝΑ αν η ιδέα που πρότεινα στέκει.

    όσο εκφράζουν αυτοί την ελληνική κακοδαιμονία ως εταιρία, άλλο τόσο την εκφράζεις κι εσύ ως άτομο, με το εγωκεντρικό ύφος που γράφεις

    Εκφράζω τη θετική πλευρά της ΚΑΙΝΟΤΟΜΙΑΣ και όχι της κακοδαιμονίας.

Σχολιάστε

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s