Νέα υποσελίδα: Βιβλιοθήκη
- bill1961
- συντονιστής<br>(03/2008 ως τώρα)
- Δημοσιεύσεις: 1024
- Εγγραφή: 10 Μάιος 2005 11:51 pm
- Τοποθεσία: Ηγουμενίτσα
Re: Νέα υποσελίδα: Βιβλιοθήκη
-
- More than 150 posts user.
- Δημοσιεύσεις: 733
- Εγγραφή: 20 Νοέμ 2015 11:17 pm
Re: Νέα υποσελίδα: Βιβλιοθήκη
- socrates
- More than 150 posts user.
- Δημοσιεύσεις: 438
- Εγγραφή: 21 Οκτ 2006 11:31 pm
- Τοποθεσία: the other side of nowhere
Re: Νέα υποσελίδα: Βιβλιοθήκη
Κατέβασα στην τύχη το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936).pdf 24 σελίδες, και είδα ότι δεν είναι searchable. Πήγα στο menu >> view >> tools >> Text Recognition AA In This File όπου άνοιξε ένα μικρό παράθυρο που μου είπε ότι η Primary OCR Language ήταν English UK. Έκανα κλικ στο Edit και άλλαξα τη γλώσσα σε Greek. Πάτησα τα δύο ΟΚ που μου ζήτησε και σε 2-3 λεπτά το PDF έγινε searchable στα ελληνικά!
Είναι μάλλον όπως είπε ο Κώστας πιο πάνω δυνατή η αναζήτηση μόνο στο μονοτονικό σύστημα, αλλά καλά τα καταφέρνει το Adobe που έχω, ούτε ξέρω ποια έκδοση είναι.
Θα ήθελα να ρωτήσω, αν παίρνει τόσο λίγο χρόνο η μετατροπή, γιατί δεν τα κάνουμε όλα searchable πριν τα ανεβάσουμε(?), νομίζω θα βοηθούσε πολύ οποιονδήποτε ερευνητή.
Ευχαριστώ
- peloponnisios
- More than 150 posts user.
- Δημοσιεύσεις: 159
- Εγγραφή: 14 Αύγ 2012 03:38 am
Re: Νέα υποσελίδα: Βιβλιοθήκη
Στο παραπάνω παράδειγμα βλέπουμε ότι αναγνωρίζει μεν ελληνικά (μονοτονικό), ακόμα και τα μικρά γράμματα, αλλά δεν βρίσκει όλες τις περιπτώσεις της ίδιας λέξης. Αυτό είναι αναμενόμενο, το είχα γράψει, ίσως λόγω γραμματοσειράς που δεν είναι ευανάγνωστη για το πρόγραμμα. Επίσης, αναζήτηση για λατινικούς χαρακτήρες:
Και εδώ βλέπουμε το συμπλήρωμα Ιουλίου 1921 της Victor όπου αναγνωρίζονται οι λατινικοί χαρακτήρες αλλά επίσης δεν εντοπίζεται η δεύτερη εμφάνιση της ίδιας λέξης, πιθανότατα λόγω του κακοτυπωμένου "s" αφού αν ψάξω για "Val" η δεύτερη εμφάνιση της λέξης προκύπτει πλέον στα αποτελέσματα.
Δυστυχώς αυτά είναι κάποια από τα προβλήματα του OCR όταν έχει να κάνει με δυσανάγνωστες γραμματοσειρές, κακή τύπωση, κ.λπ. Δεν είναι τέλεια μέθοδος, ειδικά σε παλιά κείμενα που μας ενδιαφέρουν εδώ και θέλει και μια φαντασία από τη μεριά αυτού που ψάχνει, όπως με το val-/vals που έγραψα πριν. Μια άλλη δυσκολία είναι όταν είναι πολλές γλώσσες στο κείμενο. Δεν έχω βρει ακόμα ένα πρόγραμμα που να λειτουργεί ταυτόχρονα και εξίσου καλά για πολυτονικά Ελληνικά, Αγγλικά και Γαλλικά, που είναι οι πιο απαραίτητες γλώσσες για αυτά τα ντοκουμέντα. Αν ξέρεις εσύ ή κάποιος άλλος, πολύ θα μας βοηθούσε να το μάθουμε. Για μονοτονικό είναι οκ, το πολυτονικό μας δυσκολεύει.
- peloponnisios
- More than 150 posts user.
- Δημοσιεύσεις: 159
- Εγγραφή: 14 Αύγ 2012 03:38 am
Re: Νέα υποσελίδα: Βιβλιοθήκη
Νομίζω πως αυτό που περιγράφεις είναι κάτι άλλο. Δηλαδή σαν να λες στο πρόγραμμα να μην ψάχνει στα Αγγλικά, αλλά στα Ελληνικά. Όμως το pdf είναι ήδη έτοιμο να δεχτεί αναζήτηση και στις δύο γλώσσες με Edit/Find (Ctrl/Cmd+F). Μου φαίνεται ότι με το παραπάνω απλώς κάνεις ρύθμιση του πού ψάχνει το πρόγραμμα. Για δες μήπως υπάρχει κάπου ρύθμιση για να ψάχνει σε οποιαδήποτε γλώσσα. Πάντως σε εμένα δεν χρειάστηκε ποτέ να κάνω τέτοια ρύθμιση. Απλώς πατάω Ctrl+F και ψάχνω...socrates έγραψε: ↑13 Μάιος 2020 12:03 pm Πήγα στο menu >> view >> tools >> Text Recognition AA In This File όπου άνοιξε ένα μικρό παράθυρο που μου είπε ότι η Primary OCR Language ήταν English UK. Έκανα κλικ στο Edit και άλλαξα τη γλώσσα σε Greek. Πάτησα τα δύο ΟΚ που μου ζήτησε και σε 2-3 λεπτά το PDF έγινε searchable στα ελληνικά!
- socrates
- More than 150 posts user.
- Δημοσιεύσεις: 438
- Εγγραφή: 21 Οκτ 2006 11:31 pm
- Τοποθεσία: the other side of nowhere
Re: Νέα υποσελίδα: Βιβλιοθήκη
Μου έκανε εντύπωση που άλλαξε το αρχείο μου ταχύτατα από αγγλικά σε ελληνικά. Αλλά με ποιο πρόγραμμα γίνεται τέτοια μετατροπή ώστε να είναι έτοιμα τα αρχεία για επιλογή γλώσσας? Και είναι χρονοβόρο?
Εγώ δουλεύω στα windows 10 και είδα το λογισμικό μου. Είναι Adobe Acrobat Pro XI-πολύ καλό μου φαίνεται, και χωρίς πολλά προβλήματα, απλά με τσαντίζει μερικές φορές γιατί εκτυπώνω ένα pdf από το word με μία φωτογραφία για background στο κείμενό μου και αντί για μία μου τη σπάει σε 50-100 φωτογραφίες thumbnails που γεμίζουν τη σελίδα.
Τώρα για την ερώτησή σου, αν καταλαβαίνω καλά, ψάχνεις πάντα με ελληνικό πληκτρολόγιο(?)
Από γλώσσες τα windows 10 μου δίνουν πάμπολλες επιλογές και τα έχω ρυθμισμένα συνήθως με κύρια γλώσσα την αγγλική και δευτερεύουσα την ελληνική, και χρησιμοποιώ και τις δύο εξ ίσου χωρίς πρόβλημα.
Γύρισα τη γλώσσα του αρχείου ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) πάλι σε αγγλικά και πληκτρολογώ και με λατινικούς και με ελληνικούς χαρακτήρες, μα δεν βρίσκει τίποτα.
Μετά την ξαναγύρισα σε γαλλικά αλλά πάλι το ίδιο αποτέλεσμα, δεν βρίσκει τίποτα.
Οπότε συμπεραίνω ότι εφ' όσον το αρχικό ντοκουμέντο είναι τυπωμένο στα ελληνικά, με λατινικούς χαρακτήρες οποιασδήποτε γλώσσας δεν πρόκειται να εύρει κάτι. Είναι σωστό αυτό ή πάλι δεν καταλαβαίνω?
Πάντως γα μένα επειδή έχω δίγλωσσο εγκατεστημένο σύστημα εξ αρχής και συνήθως στα αγγλικά σαν προτίμηση, πρέπει οπωσδήποτε να αλλάξω το OCR στα ελληνικά αν θέλω να κάνω αναζήτηση σε αυτού του είδους τα αρχεία.
Το καλό θα ήταν να αναγνωρίζει και γερμανικά/γαλλικά όπως λες, αλλά το βλέπω πολύπλοκο σαν θέμα.
Έχω βρεί το μπελά μου με οπτική αναγνώριση άσχημα και στο παρελθόν, όταν προσπαθούσα να ψηφιοποιήσω παλιές τυπωμένες ή ακόμα και χειρόγραφες παρτιτούρες, στο αστείο σημείο που ήταν πιο σύντομο να γράψω την παρτιτούρα από την αρχή σε κάποιο μοντέρνο πρόγραμμα, παρά να κάνω editing και να διορθώνω τα λάθη του οπτικού αποτελέσματος που λάβαινα από τέτοια προγράμματα, αλλά ακούω πως βελτιώνονται συνέχεια.
Για να γυρίσω στο πρόβλημα των pdf, άφησα τη γλώσσα όπως ήταν στα γαλλικά και άνοιξα ένα pdf που προσπαθούσα να φτιάξω πριν 11 χρόνια μα δεν τα κατάφερνα (δεν είχα το Adobe Acrobat Pro XI τότε). Τσέκαρα πάλι τη γλώσσα, παράμεινε στα γαλλικά στο αρχείο που άνοιξα. Το αρχείο είναι μία συλλογή βρετανικών μελωδιών για σόλο φλάουτο και τότε προσπαθούσα απλά να μεταφράσω τους τίτλους στα ελληνικά για μία επιμέλεια που μου είχε ζητηθεί και να μπορεί η αναζήτηση να τους βρίσκει και στις δύο γλώσσες. Δεν κατάφερα τίποτα τότε και σκέφτηκα πως μάλλον δεν είναι δυνατόν και το παράτησα. Σήμερα μετέφρασα βιαστικά τους 14 πρώτους τίτλους και ένωσα τα δύο pdf σε ένα.
Βλέπω με μεγάλη χαρά πως η αναζήτηση στο νέο αρχείο δουλεύει και στα αγγλικά και στα ελληνικά ταυτόχρονα, ενώ η καθορισμένη OCR γλώσσα του αρχείου παραμένει η γαλλική. Πως γίνεται αυτό, και γιατί δεν μπορώ να το κάνω με το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) ? Το μόνο που υποθέτω είναι πως έχει να κάνει κάτι με την ποιότητα εκτύπωσης (?)
Βάζω το αρχείο μου συνημμένο να το τσεκάρεις αν έχεις λίγο χρόνο και μετά το σβήνεις αφού δεν αφορά αυτή τη θεματική ενότητα που συζητούμε.
Ευχαριστώ και τα λέμε.
- peloponnisios
- More than 150 posts user.
- Δημοσιεύσεις: 159
- Εγγραφή: 14 Αύγ 2012 03:38 am
Re: Νέα υποσελίδα: Βιβλιοθήκη
Όχι, δεν είναι χρονοβόρο. Τους καταλόγους Columbia και Orthophonic τους "προετοίμασα" για εύρεση όρων με το πράγματι πολύ καλό Acrobat XI Pro που έχεις κι εσύ, το γράφω και στις σημειώσεις των αντίστοιχων pdf στη Βιβλιοθήκη. Δεν θα έλεγα ότι γίνεται μετατροπή, όπως γράφεις. Ουσιαστικά λέμε στο πρόγραμμα να κάνει οπτική αναγνώριση χαρακτήρων, το OCR δηλαδή (Optical Character Recognition). Eν προκειμένω για ελληνικά και αγγλικά αλλά για την ακρίβεια για ελληνικό και λατινικό αλφάβητο αφού αν ψάξεις για b, c, d, κ.λπ. το πρόγραμμα θα βρει το χαρακτήρα ανεξάρτητα από τη γλώσσα που χρησιμοποιείται στο κείμενο.
Αν εκτυπώνεις pdf μέσα από το Word, τότε το Acrobat δεν παίζει κανένα ρόλο. Είναι θέμα του Word και θα πρέπει να υπάρχει ανάλογη ρύθμιση ώστε η εικόνα που διαλέγεις για φόντο να απλώνεται σε όλο το πλάτος του χαρτιού.socrates έγραψε: ↑14 Μάιος 2020 10:43 amΕίναι Adobe Acrobat Pro XI-πολύ καλό μου φαίνεται, και χωρίς πολλά προβλήματα, απλά με τσαντίζει μερικές φορές γιατί εκτυπώνω ένα pdf από το word με μία φωτογραφία για background στο κείμενό μου και αντί για μία μου τη σπάει σε 50-100 φωτογραφίες thumbnails που γεμίζουν τη σελίδα.
Όχι, ψάχνω είτε με ελληνικό είτε με αγγλικό πληκτρολόγιο. Ανάλογα τι γλώσσες έχει το pdf και τι ψάχνω. Σημειωτέον, τα συμπληρώματα Victor νομίζω έχουν OCR μόνο για αγγλικά/λατινικό αλφάβητο. Επειδή ήταν πολλά, προτίμησα για ευκολία το OCR που έχει το λογισμικό του σκάνερ το οποίο όμως ήταν μόνο για Αγγλικά. Δεν θεωρώ ότι είναι μεγάλο ζήτημα. Αν βρω χρόνο μπορεί να τα κάνω στο μέλλον και για εύρεση στα ελληνικά. Άλλωστε, επειδή πρόκειται για συμπληρώματα που κυκλοφόρησαν στις ΗΠΑ, είναι δίγλωσσα. Εκτός των άλλων, όπως θα κατάλαβαν όσοι τα μελέτησαν λίγο, τα συμπληρώματα φαίνεται να κυκλοφόρησαν σε ένα ενιαίο πολύγλωσσο έντυπο (όπως τα έντυπα οδηγιών που βρίσκουμε π.χ. σε ηλεκτρικές συσκευές). Ίσως επειδή μπορεί να απευθύνονταν στους διανομείς και όχι στο κοινό. Έτσι, συνήθως η πρώτη σελίδα αριστερά και η τελευταία σελίδα δεξιά είναι αντίστοιχα η τελευταία και η πρώτη για συμπληρώματα που αφορούν άλλες γλώσσες. Επομένως, θα ήταν δύσκολο να προσαρμόζω κάθε φορά το OCR και γι' αυτές τις γλώσσες. Θα πει κανείς, δεν είναι απαραίτητο, αλλά επειδή εμμέσως ίσως να έχει ενδιαφέρον για κάποιους, αποφάσισα να μείνω αρχικά με το λατινικό αλφάβητο και αργότερα βλέπουμε.
Ναι, κάτι κάνεις λάθος. Δεν θα έπρεπε να έχεις πρόβλημα γιατί έχεις σύγχρονες εκδόσεις σε λογισμικό/λειτουργικό. Σόρρυ, από μακριά δεν μπορώ να κάνω πολλά. Ειδικά αυτό το "γύρισα τη γλώσσα του αρχείου σε αγγλικά" δεν μου βγάζει πολύ νόημα. Το pdf είναι αυτό που είναι και το πρόγραμμα δεν το νοιάζει ποια γλώσσα απεικονίζεται. Αν έχει γίνει OCR για ελληνικό και λατινικό αλφάβητο (που έχει γίνει) θα έπρεπε απλά να κάνεις αναζήτηση με Ctrl+F και να δουλεύει. Τα υπόλοιπα βήματα δεν είναι σχετικά με την αναζήτηση.socrates έγραψε: ↑14 Μάιος 2020 10:43 amΓύρισα τη γλώσσα του αρχείου ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) πάλι σε αγγλικά και πληκτρολογώ και με λατινικούς και με ελληνικούς χαρακτήρες, μα δεν βρίσκει τίποτα.
Μετά την ξαναγύρισα σε γαλλικά αλλά πάλι το ίδιο αποτέλεσμα, δεν βρίσκει τίποτα.
Οπότε συμπεραίνω ότι εφ' όσον το αρχικό ντοκουμέντο είναι τυπωμένο στα ελληνικά, με λατινικούς χαρακτήρες οποιασδήποτε γλώσσας δεν πρόκειται να εύρει κάτι. Είναι σωστό αυτό ή πάλι δεν καταλαβαίνω?
Δεν είναι δύσκολο να έχει OCR για Γερμανικά και άλλες γλώσσες. Απλώς δεν χρειάστηκε γιατί τα Γερμανικά εμφανίζονται μόνο στα συμπληρώματα Victor και μόνο εμμέσως. Δεν μας αφορούν άμεσα, όπως είπα, αν και έχει την πλάκα του να βλέπεις τι άκουγε την ίδια εποχή το μη ελληνόφωνο κοινό. Αν κάποιος κατάλογος είχε Γαλλικά ή Γερμανικά ή άλλη γλώσσα σαν κύρια, ναι, θα κάναμε το αντίστοιχο OCR. Αλλιώς, ποιος ο λόγος; Τι θα βρίσκει;
Σ' έχασα λίγο, δεν κατάλαβα. Εφόσον βρίσκεις αποτελέσματα σε Αγγλικά και Ελληνικά, τα Γαλλικά γιατί είναι καθορισμένη γλώσσα; Και γιατί να θες να κάνεις το ίδιο με Orthophonic; Αυτός ο κατάλογος έχει Ελληνικά κυρίως και δευτερευόντως Αγγλικά. Γαλλικά δεν έχει στο κείμενο, οπότε τι θα αναζητήσεις σε αυτή τη γλώσσα; Σόρρυ αν δεν καταλαβαίνω. Δεν είμαι ειδικός, το 'χω πει και στα πρώτα μηνύματα εδώ. Ψάχνοντας πάω κι εγώ. Αν καταλαβαίνει κανείς καλύτερα, ας μας πει.socrates έγραψε: ↑14 Μάιος 2020 10:43 amΒλέπω με μεγάλη χαρά πως η αναζήτηση στο νέο αρχείο δουλεύει και στα αγγλικά και στα ελληνικά ταυτόχρονα, ενώ η καθορισμένη OCR γλώσσα του αρχείου παραμένει η γαλλική. Πως γίνεται αυτό, και γιατί δεν μπορώ να το κάνω με το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) ? Το μόνο που υποθέτω είναι πως έχει να κάνει κάτι με την ποιότητα εκτύπωσης (?)
Με χαρά να τσεκάρω αλλά δεν κατάλαβα τι να τσεκάρω. Αν έχει OCR;