MyBlog

Dienstag, 10. März 2009

nochmal OCR

Nachdem ich kürzlich hier meinen Erfahrungsbericht mit einem Texterkennungsprogramm am Arbeitsplatz hinterlassen hatte, möchte ich kurz meine Erfahrung aus dem privaten Bereich schildern.

Ganz unvermutet ergab es sich, dass ich zwei alte, zerknickte Fotokopien "verwerten" wollte. So kam es, dass ich nach dem entsprechenden Programm auf meinem mit dem Scanner erhaltenen Datenträger suchte. Da ich in der Firma das Vorgängermodell von meinem Scanner habe, vermutete ich, dass das Softwarepaket dazu ähnlich sei. Das allerdings war ein Irrtum. Das Scanprogramm bringt zwar eine Texterkennung mit, diese ist aber nur sehr rudimentär. Es nutzt einzig und allein den Windows-Editor für den Output, folglich war das Ergebnis katastrophal.

Die Erleuchtung ergab sich für mich, als ich mein MS-Office-Paket näher untersuchte. Im Allgemeinen nutze ich Word, Excel und OneNote, nun konnte ich aber feststellen, dass eine Komponente "Microsoft Office Document Imaging" dabei ist. Flugs ausprobiert und überzeugt! Im Schwarz-Weiß-Modus klappen die Kommunikation mit dem Scanner und automatisch folgende Texterkennung ganz hervorragend. Eine Funktion, den Text direkt an Word zu senden, ist auch dabei. Und selbstverständlich das übliche Copy & Paste. Sehr schön finde ich auch, dass, wie schon mit den anderen Office-Programmen ausprobiert, weitere Sprachen einzubinden sind, sogar zweisprachig gemixter Text wurde ohne Probleme erkannt. Einzige Probleme gab es mit Worten, in denen ein Akzent (´oder`) vorkam und der Buchstabenfolge "il". Alles Andere war fehlerfrei.

Im Farbmodus verabschiedete sich das Programm während des Scannens jedes Mal. (Irgendeinen Fehler muss es ja haben...) Das war allerdings nicht weiter problematisch, ich habe einfach "normal" gescannt und die tif-Datei dann geladen. Wieder war die Texterkennung hervorragend.

Summa summarum gefällt mir das Document Imaging noch besser als das kürzlich erwähnte Omni Page 4.0.

Labels:

Links zu diesem Post:

Link erstellen

<< Startseite