CUIL – μια νέα μηχανή αναζήτησης που ξεπερνάει το Google

Employees of Google...Image by Getty Images via Daylife

Χθες -Δευτέρα 28 Ιουλίου 2008- άνοιξε η νέα μηχανή αναζήτησης «CUIL» (www.cuil.com), πολύ ισχυρότερη από το google.

To cuil αποτελεί δημιούργημα μιας ομάδας πρώην μηχανικών του Google (με φωτογραφίες και βιογραφικά εδώ), όπου πρωταγωνιστεί η Anna Patterson, μία μηχανικός λογισμικού που σχεδίασε (και πούλησε το 2006 στο Google) την καινοτομική μηχανή αναζήτησης «Recall«.

  • Για την υλοποίηση του cuil επενδύθηκαν 33 εκατομμύρια δολλάρια venture capital, αλλά κόστισε πολύ λιγότερο από το google: Λόγω καινοτομικών τρόπων λειτουργίας δεν χρειάζεται παρά μικρό μέρος του αντίστοιχου εξοπλισμού σε hardware.
  • Στην Κέλτικη (ιρλανδική) γλώσσα, «cuil» σημαίνει «Γνώση».

Το cuil βασίζεται σε ένα νέο ευρετήριο με πάνω από 121 δισεκατομμύρια ιστοσελίδες, πολύ μεγαλύτερο από το αντίστοιχο του google, αλλά και σε καλύτερους αλγόριθμους αναζήτησης. Επίσης παρουσιάζει τα αποτελέσματά του με μακράν καλύτερο τρόπο. Δοκιμάστε το, κάνοντας κλικ στην εικόνα:

Η δική μου εντύπωση από τις χθεσινές δοκιμές είναι πολύ θετική, αλλά -φυσικά- δεν σταματώ να χρησιμοποιώ και το google, καθώς και τις εξής «Σημασιολογικές» Μηχανές Αναζήτησης:

www.ask.com

www.hakia.com

  • Υπήρξα και -ιδιαίτερα ενθουσιώδης- registered beta-tester της έξυπνης μηχανής αναζήτησης «Powerset«, αλλά όταν άκουσα ότι πουλήθηκε στη Microsoft… ξενέρωσα, σταματώντας να την τεστάρω!😉
Zemanta Pixie

18 comments

  1. Ηλίθιες φάτσες πράγματι, έλα όμως που τελικά παρά τις δημοσκοπήσεις, ο κύριος με το επίθετο που παραπέμπει σε κατεψυγμένες τηγανητές πατάτες μπορεί να κερδίσει… (Όπως ο Bush Sr τον Δουκάκη το 1988).

    Κελτικά ε;

    Πάρτε και ολίγο Eire στο βίδεο από κάτω με την ευκαιρία των εγκαινίων της νέας μηχανής αναζήτησης!

  2. Να υποθέσω ότι δεν έχει τίποτα ευρετηριασμένο σε ελληνικά; Απογοήτευση… Ξεκίνησα με κάτι δύσκολο άκηδος, πήγα σε κάτι ευκολότερο μικρό ημερολόγιο συνόρων, κατέληξα σε κάτι trivial καραμανλής
    Μηδέν αποτέλεσμα παντού και δεν έχω χρόνο για faqs

  3. Γειά σας προσφιλέστατοι!

    Σταίζημπο, το κόλπο είναι να χρησιμοποιήσεις εισαγωγικά για κάθετι Ελληνικό.

    Πολσμάνεν, ΕΤΣΙ είναι, δυστυχώς…
    Ευχαρισθώμεν και δια το βίδεο!

  4. @Stazybo
    Πιστεύω είναι θέμα χρόνου να μπουν περισσότερες Ελληνικές σελίδες. Λέω μάλιστα να τους στείλω κανένα μέηλ περί αυτού.

    Οπωσδήποτε όμως; δεν είναι δεδομένο ότι κάθε καινοτομία από τώρα και στο εξής παντού θα περιλαμβάνει ΚΑΙ Ελληνικά.
    Αρκεί να σκεφτούμε την ξεφτίλα να μην υπάρχει ούτε καν ένα Ελληνικό wordnet που να συνδεθεί με έξυπνο κώδικα π..χ. semantic. Κι αυτή η ξεφτίλα είναι ΑΠΟΚΛΕΙΣΤΙΚΑ ελληνικό φταίξιμο, γιατί ήταν Ελληνική υποχρέωση που αναλάβαμε, που η Ε.Ε. τη χρηματοδότησε, και που τίποτε δεν έγινε στο τέλος.

  5. Υ.Γ. Παρεμπιπτόντως (Stazybo Horn), αν πρόσεξες, η νέα αυτή μηχανή _βασίζεται_ στην Ανάλυση Περιεχομένων (κάθε) Σελίδας, προκειμένου να αποδώσει καλύτερα (λένε) από τον γκούγκλη. Ε, λοιπόν, ΤΙ ΣΤΟ ΚΑΛΟ ΑΝΑΛΥΣΗ να κάνει, για τα περιεχόμενα μιας γλώσσας ΤΡΙΤΟΚΟΣΜΙΚΗΣ ΠΛΕΟΝ, που δεν έχει ΚΑΝ ένα εντελώς δικό της Εννοιολογικό υπόβαθρο (με wordnet και με όλα τα συναφή). Μέχρι τώρα, τη σκαπουλάραμε μέσω επιφανειακής (και μόνο) «localisation». Τώρα όμως τη βάψαμε για τα καλά, χωρίς Ελληνικό (αυτόνομο) υπόβαθρο για το Σημασιολογικό Ιστό.

    Παρόλ’ αυτά (και για να μη γκρινιάζω συνεχώς για την Ελλάδα) πέρυσι Ελληνες κέρδισαν το πρώτο βραβείο σε σημαντικό διεθνή διαγωνισμό γλώσσας Assembly, και προσωπικά εκεί προσανατολίζομαι επίσης, δηλαδή στο να φτιάξω Parsers και Lexical analysers που δουλεύουν σε καθαρή Assembly, για να στείλουν στα ύψη την ταχύτητα της (όποιας) «έξυπνης» ή σημασιολογικής διαδικασίας. Στο τέλος μπορεί βέβαια να με φτάσουν (οι χαραμοφάηδες των Ελληνικών εταιρειών) στο να φτιάξω ένα Greek wordnet (κλπ) εντελώς από την αρχή, μέσω διαφόρων τρυκ που βασίζονται σε συνεπαγωγές από ξένα knowledge bases. Κάτι που οι Ελληνες «ειδικοί στη γλώσσα» _έπρεπε_ να είχαν κάνει από την αρχή, αντί να τρώνε τα λεφτά της Ε.Ε. και να… κάαααθονται!🙂

  6. Δεν γνωρίζω καθόλου σε τί αναφέρεσαι, όταν μιλάς για χρήματα της ΕΕ, ελληνικά wordnet και τα συναφή (δε θα με πείραζε αν με διαφώτιζες περισσότερο, ακόμη και προσωπικά, γιατί, αν κάτι έχω βαρεθεί στη μπλογκόσφαιρα, είναι τα μισόλογα, τα υποννοούμενα, κι όλα αυτά που υποτίθεται ότι όλοι πρέπει να γνωρίζουμε από το έτος 0 μετά Arpanet). Έχω την εντύπωση ότι όπως και το google πρόκειται για IR τεχνολογία, άντε μ’ ένα κομματάκι semantics, αν εντάξουμε τα συνώνυμα -κυρίως- σ’ αυτήν την κατηγορία. Σίγουρα, πολύ πολύ μακριά, πώς να το τονίσω, orthogonal με αυτό που εγώ γνωρίζω ως semantic web (vision)…

  7. «Σταίζημπο, το κόλπο είναι να χρησιμοποιήσεις εισαγωγικά για κάθετι Ελληνικό»

    Γιώργο, το δοκίμασα και με ελληνικά και με αγγλικά εισαγωγικά και δεν δίνει αποτέλεσμα.

    «Ε, λοιπόν, ΤΙ ΣΤΟ ΚΑΛΟ ΑΝΑΛΥΣΗ να κάνει, για τα περιεχόμενα μιας γλώσσας ΤΡΙΤΟΚΟΣΜΙΚΗΣ ΠΛΕΟΝ, που δεν έχει ΚΑΝ ένα εντελώς δικό της Εννοιολογικό υπόβαθρο (με wordnet και με όλα τα συναφή). Μέχρι τώρα, τη σκαπουλάραμε μέσω επιφανειακής (και μόνο) “localisation”. Τώρα όμως τη βάψαμε για τα καλά, χωρίς Ελληνικό (αυτόνομο) υπόβαθρο για το Σημασιολογικό Ιστό.»

    Για το παραπάνω θα ήθελα και εγώ αν γινότανε μια καλύτερη (πιο γήινη🙂 ) επεξήγηση.

  8. @Πάρη, θα σου κάνω μια πραγματικα΄μη-τεχνική εξήγηση, ίσως και να ακολουθήσει ποστ με εκλαϊκευτικό σκοπό. Παρασύρθηκα κάπως λόγω του ότι ήμουν στη μέση μιας συναφούς δουλειάς.
    (σε λίγο… )

    @Stazybo Horn,
    Το θέμα είναι απλό. Το ελληνικό Wordnet ξεκίνησε -κάποτε- σαν τμήμα του «BALKANET», χρηματοδοτούμενο έργο της Ε.Ε. για όλες τις βαλκανικές γλώσσες, για να αποκτήσουν η καθεμία το δικό της Wordnet. Κάπου στην πορεία, το έργο «κόλλησε», τα λεφτά πήγαν σε κάποιες εταιρείες που ΜΑΛΛΟΝ δεν έκαναν τίποτε ουσιαστικό (από όσα γνωρίζω) και… πέπλος μυστηρίου καλύπτει το θέμα από τότε. Μάλιστα, ΔΕΝ ΞΕΡΕΙ ΚΑΝΕΙΣ τι απέγινε το ελληνικό Wordnet, ούτε καν ο αγαπητός μπλόγκερ – καθηγητής πληροφορικής κ. Γρηγόρης Μέντζας (από τους καλούς – και μάλιστα… καλύτερούς μου στο θέμα κατά πολύ).

    Τώρα, ΠΟΙΑ εταιρεία έκανε, ΤΙ ακριβώς, δεν με πολυενδιαφέρει. Οπως λέει και η διαφήμιση για τη.. .θεραπεία της φαλάκρας, «το αποτέλεσμα μετράει». Και το αποτέλεσμα, για κάθε σκοπό (πρακτικό) είναι απλούστατα μηδέν, με εύλογες συνέπειες…

    Το πόσο μακρυά ή όχι από το Semantic Web είναι όσα κάνει η νέα μηχανή CUIL («κούλ» – σε προφορά) ΔΕΝ το γνωρίζω, φυσικά. Υποθέτω όμως, ότι επιδίδεται σε ανάλυση Φυσικής Γλώσσας μέσα από κάποια οντολογικά και λεξικογραφικά δεδομένα, που… απλούστατα για την Ελληνική γλώσσα είναι ανύπαρκτα (ακόμη).

    Δεν μιλάμε για κάτι εύκολο, αφού η πιο στοιχειώδης ανάλυση κειμένων μπορεί να είναι εξαιρετικά πολύπλοκη, αν πρόκειται να μπορεί να χειριστεί ΟΠΟΙΟΔΗΠΟΤΕ κείμενο ιστοσελίδας. Τουλάχιστον εγώ αυτά κατάλαβα (και μαθαίνω κι άλλα κάθε στιγμή, για το CUIL).

    Εκ των υστέρων, Σταίηζημπο, δεν θα εκπλαγώ καθόλου αν στην περίπτωση των Ελληνικών σελίδων η απόδωση του CUIL δεν είναι καθόλου ανώτερη από εκείνη του Γκούγκλή (που ΔΕΝ χρησιμοποιεί καμία Γλωσσική Τεχνολογία ακόμη). Απλώς θα κάνουν για τα Ελληνικό Ο,ΤΙ ακριβώς έκανε το γκουγκλ, και τίποτε παραπάνω (οπότε μην περιμένεις ευνοΪκές συγκρίσεις της CUIL με τo Google, στα Ελληνικά).

    @Πάρη, επανέρχομαι προσπαθώντας να εκπληρώσω τα όσα υποσχέθηκα, τώρα. Το wordnet δεν είναι ένα απλό «λεξικό συνωνύμων». Εκτός από συνώνυμα, αντίθετα, Heteronyms και άλλα στοιχεία, έχει πλέον ενοποιηθεί με πιο σύνθετες δομές εννοιών (οντολογίες) όπως η SUMO και η CYC, οι οποίες το κατέστησαν εξαιρετικά ισχυρότερο. Η γλωσσική τεχνολογία που προέκυψε, με αυτές τις μεθόδους, για την Αγγλική γλώσσα (και για ελάχιστες άλλες διαδεδομένες όπως η Γαλλική και η Γερμανική) είναι πολύ προχωρημένη, τώρα πια. Τα ελληνικά πάσχουν, είναι ακόμη στο επίπεδο ΜΗΔΕΝ, αφού (εκτός από το μυστηριωδώς εξαφανισμένο Ελληνικό Wordnet)…
    1) Δεν υπάρχει κώδικας και λεξιλόγια (σε δημόσια πρόσβαση τουλάχιστον) για στοιχειώδη μορφολογική και γραμματική επεξεργασία Ελληνικών κειμένων.
    2) Δεν υπάρχουν παρά ελάχιστες 100% Ελληνικές οντολογίες, εκτός μερικών που προέκυψαν από αυτόματη μετάφραση ξένων οντολογιών. Αυτό έχει τους κανόνες του, και βέβαια ΓΙΝΕΤΑΙ, δηλαδή είναι εφικτό, αλλά μόνο με περιορισμένο βαθμό επιτυχίας -πάντα- αφού καμία απόλυτη συμφωνία δεν αναμένεται ανάμεσα σε Ελληνικό και Αγγλικό εννοιολογικό σύμπαν, ακόμη και σε καθημερινά θέματα που συναντάμε όταν π.χ. μεταφράζουμε.

    Η πλήρης ανυπαρξία πάντως του Ελληνικού NLP (natural language processing) δεν εμπόδισε ένα (πολύ μικρό) αριθμό αξιόλογων Ελλήνων ερευνητών, απ’το να κάνουν μεταπτυχιακές εργασίες (κλπ.) στην Πληροφορική επεξεργασία της Ελληνικής γλώσσας. Ισως όμως να μην είναι καθόλου τυχαίο, ότι οι ΣΗΜΑΝΤΙΚΟΤΕΡΟΙ εξ αυτών τώρα δουλεύουν στην Αμερική, συνήθως για τη Microsoft, ενώ πέπλο μυστηρίου καλύπτει ΚΑΙ το τι ακριβώς κάνει (ή θέλει να κάνει) για όλα αυτά, η Μικρο-μαλακή εταιρεία…

    Πιθανολογώ ότι έγιναν συμφωνίες που δεν ανακοινώθηκαν, π.χ. μεταξύ κυβέρνησης και Microsoft ή πανεπιστημίων και της ίδιας, κλπ, με στόχο σε κάποια μελλοντική στιγμή να έχει η Microsoft αποκλειστικότητα στην τεχνογνωσία για τα Ελληνικά από την άποψη της Πληροφορικής Γλωσσολογίας. (Αυτό δεν είναι βεβαιότητα αλλά ΠΙΘΑΝΟΤΗΤΑ ή απλή εικασία).

    Στο μεταξύ, ας ΜΗΝ εκπλαγούμε όταν -αυτή τη φορά- όχι απλά «δεν προλάβαμε το τραίνο», αλλά… έχουμε πεταχτεί σε ένα βάλτο πολύ μακρυά και από τον πλησιέστερο «σταθμό επιβίβασης»!…

    Υ.Γ. Πάρη, στη δεύτερη παράγραφό μου που παραθέτεις (ως… ακατανόητη) απλώς επισημαίνω το γεγονός ότι η μέχρι-τώρα ανάπτυξη εργαλείων για την Ελληνική γλώσσα περιοριζόταν σε πολύ στοιχειώδη θέματα όπως π.χ. διόρθωση ορθογραφίας ή μετάφραση των οδηγιών και των μενού σε διάφορα λογισμικά. Αλλά αυτό είναι κάτι επιφανειακό, δεν αρκεί για να καλύψει τις ανάγκες της γλώσσας μας μέσα στον κόσμο που έρχεται, της έξυπνης επεξεργασίας Γλωσσικών δεδομένων. Η Ελλάδα καλόμαθε να παίρνει πάντα, κάθετι ΕΤΟΙΜΟ, ετοιμοπαράδοτο λογισμικό από το εξωτερικό, χωρίς καμία δική της προσπάθεια (πλην ορισμένων τομέων όπως λογιστικά πακέτα, που λαμβάνουν υπ΄όψη τους Ελληνικές ιδιαιτερότητες π.χ. στη φορολογία). Αλλά οι περισσότερες άλλες χώρες ΕΠΕΝΔΥΣΑΝ χρήματα και ανάθεσαν σε σοβαρούς ανθρώπους να δημιουργήσουν υποδομές για τις δικές τους γλώσσες. Χωρίς αυτές τις υποδομές, μία ανθρώπινη γλώσσα είναι για την εποχή που έρχεται πολύ αναπηρωμένη μέχρι και καταδικασμένη να στερείται των σημαντικότερων εξελίξεων…

  9. Υ.Γ.2
    Μια φίλη μου χθες είχε επίσης πρόβλημα με ορισμένες ερωτήσεις στο CUIL στα Ελληνικά, αλλά το ξεπέρασε βάζοντας εισαγωγικά. Σήμερα παρατήρησα ότι (μάλλον συμπτωματικά) δεν έπεσα καν πάνω σε ελληνικές φράσεις ή λέξεις που να μην ξέρει το CUIL. Βέβαια δεν έβαλα «Καραμανλής» ακόμη, αλλά… «Οδυσσέας Ελύτης», οπότε ίσως λόγω του γεγονότος ότι ο Καραμανλής είναι… ΠΟΛΥ ΥΠΟΔΕΕΣΤΕΡΟΣ του Ελύτη (χεχε) να ….μην του έχει δώσει και πολλή σημασία ΑΚΟΜΗ, το CUIL. Πάντως αναμένεται να συμπληρώσει σύντομα τις ελλείψεις του σε ελληνικό Indexing…

    (αστειεύτηκα βέβαια, με το θέμα Καραμανλής και Ελύτης. ΓΕΓΟΝΟΣ είναι ότι ΕΧΕΤΕ ΔΙΚΙΟ, πάντως, γιατί μόλις προ ολίγου έβαλα τη λέξη Καραμανλής και δεν πήρα καμία απολύτως απάντηση)…

  10. Νομίζω πως άρχισα να καταλαβαίνω. Και γενικά τι σημαίνει το σημασιολογικό που αναφέρεις και σε άλλα ποστς.

    Πάντως είχα αποτελέσματα με το «Οδυσσέας Ελύτης» και χωρίς εισαγωγικά.

  11. Δοκιμάζοντας ορισμένα keywords που γνωρίζω καλά τι αποτελέσματα βγάζουν, έβγαλε άσχετα. Χρειάζεται μήνες βελτίωσης.

  12. @Abravanel
    Μάλλον υποθέτω ότι αμέλησαν εντελώς ορισμένες γλώσσες, όπως τα Ελληνικά, προσπαθώντας να προλάβουν την ανακοινωμένη από πριν ημερομηνία έναρξης.

    Το ότι ορισμένα γνωστά keywords δεν έβγαλαν αποτελέσματα δεν συνεπάγεται απαραίτητα ότι θα χρειαστεί και πολύς χρόνος για να βγάλουν αποτελέσματα. Η χωρητικότητα των indexes της νέας μηχανής είναι πολλαπλάσια του google. Αν αρχίσει να καταγράφει Ελληνικές ιστοσελίδες, σε ελάχιστες μέρες ή εβδομάδες θα κάνει Ο,ΤΙ κάνει και το google. Το πρόβλημα όμως είναι ότι χωρίς περισσότερα γλωσσολογικά στοιχεία για τα Ελληνικά, δύσκολα θα ξεπεράσει το google.

    Τη μηχανή αυτή την δοκίμασα χθες το βράδυ εκτενώς μαζί με μία φίλη (που επικοινωνούσαμε μέσω Skype). Οι δικές της εντυπώσεις ήταν άριστες, μάλιστα θυμήθηκε και κάποια παλιά μηχανή αναζήτησης (που μου διαφεύγει το όνομά της αυτή τη στιγμή αλλά θα επανέλθω) η οποία ήταν πολύ καλύτερη από το google στην παρουσίαση και ανάλυση αποτελεσμάτων. Με αγγλικές λέξεις δεν έχει απολύτως κανένα πρόβλημα, σε όσα δοκίμασα. Για τα ελληνικά πάω πάσσο…

  13. Η μηχανή αναζήτησης που δε θυμάται ο Omadeon, είναι η Northern Light. Ορίστε και μερικά στοιχεία για αυτή τη μηχανή αναζήτησης http://www.salientmarketing.com/seo-resources/search-engine-history/northern-light.html
    Η παρουσίαση των αποτελεσμάτων της Cuil μου θύμισε την παρουσίαση της Northern Light.

  14. Δοκίμασα και με ελληνικές λέξεις και με αγγλικές… Λυπάμαι, αλλά προς το παρόν τα αποτελέσματα που δίνει είναι κουκουρούκου. Όταν δίνω το όνομα μιας εταιρείας, θέλω να μου βγάλει το site της εταιρείας πρώτα, όχι ό,τι spam χρησιμοποιεί το όνομά της για να βγει πρώτη μούρη.

  15. @Αιρετικέ
    Αυτά παθαίνει όποιος… τρέχει να προλάβει (και δεν προλαβαίνει) προ-αναγγελθείσες «προθεσμίες έναρξης για το κοινό», δηλαδή αυτό νομίζω ότι έπαθαν οι δημιουργοί του CUIL (Anna Paterson κ.ά.) Δηλαδή… για να τηρήσουν όσα είπαν (ας μην ξεχνάμε και τους επενδυτές που τσόνταραν 33 ΕΚΑΤΟΜΜΥΡΙΑ ΔΟΛΛΑΡΙΑ στη νέα μηχανή αναζήτησης) στην προαναγγελθείσα ημέρα (28 Ιουλίου 2008) πρόλαβαν μεν, αλλά τα σκάτωσαν δε…. (σε πολλά αλλά ΟΧΙ σε όλα).

    Πάντως η τεχνολογία της νέας μηχανής είναι σαφώς ανώτερη από το google και πιστεύω ότι είναι απλώς θέμα χρόνου να το ξεπεράσει…. ή και να… αγοραστεί από αυτό(!!!), χμ…αν δεν αγοραστεί π.χ. από τη Microsoft όπωςη άλλη καινοτομική μηχανή με Φυσική Γλώσσα, η Powerset
    http://www.powerset.com

    Πάντως ο τρόπος που τεστάρεις τη μηχανή είναι λάθος. ΔΕΝ θα σου βγάλει τίποτε συγκεκριμμένα ανώτερο από άλλες μηχανής αν απλώς βάζεις λέξεις / keywords χωρίς δομή. Βάλε καμμιά ερώτηση σε ΦΥΣΙΚΗ ΓΛΩΣΣΑ και… τα ξαναλέμε (αν και ορισμένες φορές κάνει πατάτες ΚΑΙ εκεί, άλλες φορές κάνει παπάδες)!

  16. -H powerset είναι εκπληκτική όσον αφορά την wikipedia.
    H κατηγοριοποίηση των αποτελεσμάτων είναι εξαιρετική.
    -Η cuil χρησιμοποιεί διαφορετική φιλοσοφία. Επίσης είναι λογικό να δυσκολεύεται ακόμη με ελληνικά αποτελέσματα.(καμιά μηχανή δεν ήρθε και «διάβαζε» όλες τις γλώσσες.
    Πιστεύω στην χρήση διαφορετικών μηχανών ανάλογα με το είδος της αναζήτησης. Ακόμη και για καθαρά αισθητικούς λόγους.
    Και με την ευκολία των σύγχρονων browser να έχεις συγκεντρωμένες όσες γουστάρεις,μόλις ένα κλικ μακριά, αδυνατώ να πιστέψω πως κάποιοι (και μιλάμε πάντα για τον μέσο χρήστη) δεν ξέρουν τίποτα άλλο παρά την google.
    Ετσι για πλάκα αναφέρω αυτές που έχω ενσωματώσει στους browsers μου kαι αναλόγα με το τι ψάχνω επιλέγω και την καταλληλότερη:
    google, yahoo, about.com, Answers.com,Live, Ebay, Wikkipedia (eng και gr), Cuil,BBC,IMDB,Yahoo answers,Lonely plannet, Searchme, powerset
    (κι ας ψάξει κάποιος για την Κρήτη στο google και στο Yahoo, κι αφήστε εμένα να έχω τα πάντα στο πιάτο ψάχνοντας με την μηχανή του Lonely plannet) :))
    Υ.Γ
    και για πολύ πιο εξειδικευμένες αναζητήσεις υπάρχουν πολύ πιο εξειδικευμένες μηχανές.Που βάζουν κάτω όλες τις γνωστές…

  17. @ironfist72
    Χαίρομαι με όσα αναφέρεις.

    Είναι φυσικά πολύ νωρίς για να απορριφθεί εντελώς η Cuil, επειδή προς το παρόν δυσκολεύεται στα Ελληνικά ή επειδή βγάζει κάποια άλλα περιστασιακά ελαττώματα.

    Χρησιμοποιώ κι εγώ μια ευρεία γκάμα εργαλείων και μηχανών αναζήτησης, αφού άλλωστε με ενδιαφέρει και επαγγελματικά το Semantic Web και η αναζήτηση σε φυσική γλώσσα.

    Τις τελευταίες μέρες όμως έχω πήξει στη δουλειά με κάτι άλλο, τους αλγορίθμους scheduling, κλπ. και permutations. Με ενδιαφέρει η εισαγωγή permutations indexes σε parsers ώστε να μπορέσουν να εξάγουν αυτομάτως κανόνες μετατροπών από μία γραμματική δομή σε άλλη, βλέποντας τις αλλαγές στα δεδομένα σαν εφαρμογή μεταθέσεων βάσει permutations. Πολύ βολικό θα ήταν να μπορούμε από το permutation index μιας συγκεκριμμένης permutation να μπορούμε να εξάγουμε την ίδια την permutation, ώστε να απλουστεύσουμε και τους κανόνες του parser με αριθμητικές μεθόδους και να τους κάνουμε πλήρως αντιστρέψιμους.

    Κανονικά δεν θα το έγραφα εδώ γιατί είναι 99% άσχετο. Αλλά… το θέμα είναι συναρπαστικό. Φαντάσου ένα παρσεράκι που δεν λειτουργεί με γραμματική ανάλυση αλλά με εντοπισμό της βέλτιστης σειράς αντιστοιχιών (με μεταθέσεις) ανάμεσα στις προτάσεις που δέχεται και σε προτάσεις μιας άλλης γλώσσας.

    Χρησιμοποιώντας τότε ένα «παράλληλο corpus» με πάρα πολλές μεταφρασμένες προτάσεις από τη μία γλώσσα στην άλλη, μπορούμε (στην ουσία) να αλιεύσουμε και την ίδια τη γραμματική της κάθε μίας, σε σχέση με την άλλη, σαν ένα σύνολο κανόνων (1) permutations, (2) combinations (3) insert/delete operations, που εφαρμόζεται σε κάθε επιπεδο.
    Κάποιο σχετικό ποστ θα κάνω στο άλλο μπλογκ, γιατί έγραψα κάτι κώδικες Assembly για παραγωγή permutations (και «επόμενης στη σειρά» permutation) χωρίς καθόλου recursion. Εχει προγραμματιστικό ενδιαφέρον και είναι πανγρήγορες ρουτίνες.

    Βρήκα πολλά για όλα αυτά, αλλά τίποτε μέχρι στιγμής που να είναι εντελώς το ίδιο με την προηγούμενη ιδέα. Αν πάρει το μάτι σου τίποτα… σφύρα μου!🙂

Σχολιάστε

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s