Fraktur-OCR
Fraktur-OCR mit Abbyy Finereader XIX ®
Mit freundlicher Genehmigung von ABBYY®-Europe stellen wir Ihnen auf dieser Seite beispielhaft einige Erkennungsergebnisse der neuen OCR Software für
Frakturschriften „ ABBYY Finereader XIX ™ “ vor. Aus diversen Buch-Digitalisierungen, die bei german-dataservice projektiert sind, wurden jeweils zwei
beliebige Seiten entnommen.Nacharbeiten sind bei manchen Vorlagen zwar immer noch notwendig, diese lassen sich aber durch statistische Methoden
und die von german-dataservice vorbereitete Wortdatenbank mit 1,5 Millionen Einträgen aus dem 19.Jahrhundert großenteils bereinigen.
Hier unsere Testergebnisse: (Ausnahmslos ohne Vor- oder Nacharbeiten):
Alle 32 Testdateien als Word-Datei zusammengefasst
01-Das-Reich-der-Erfindungen
02-Das-Reich-der-Erfindungen
03-Pierers-Lexikon 04-Pierers-Lexikon
05-Brockhaus-Conversationslexicon
06-Brockhaus-Conversationslexicon
07-Spruchwörterbuch
08-Spruchwörterbuch
09-Löfflers-illustr.Kochbuch
10-Löfflers-illustr.Kochbuch
10-Löfflers-illustr.Kochbuch 11-Hauslexikon 12-Hauslexikon
13-Fliegende-Blätter 14-Fliegende-Blätter 15-Nürnberg
16-Nürnberg 17-Brehms-Tierleben 18-Brehms-Tierleben
19-Brockhaus-Bilderlexikon 20-Brockhaus-Bilderlexikon
21-Brockhaus-Bilderlexikon 22-Brockhaus-Bilderlexikon
23-Kürschner-Universal-Lexikon 24-Kürschner-Universal-Lexikon
25-Geschichte-des-deutschen-Volkes 26-Geschichte-des-deutschen-Volkes
27-Helmolt-Weltgeschichte 28-Helmolt-Weltgeschichte
29-Brockhaus-Lexicon-1830 30-Brockhaus-Lexicon-1830
31-Meyers-Conversationslexicon-1874 32-Meyers-Conversationslexicon-1874
Die OCR von normalen Schriften ist mit neuester Software drastisch
verbessert worden. Es gibt kaum noch Erkennungsfehler.
Bei Fraktur-OCR (Finereader XIX) hat sich mangels Nachfrage nicht
viel getan. Eigene Testreihen haben aber ergeben, dass die
Scan-Qualität eine entscheidende Rolle spielt. Dies könnten Sie
anhand eines eindrucksvollen Beispiels selbst überprüfen:
Ein A-B-Vergleich zwischen einem öffentlich zugänglichen Digitalisat
aus Toronto (gehostet beim Internet-Archiv) und einer
hochaufgelösten Version, gescannt von german-dataservice zeigt, dass
bei mittelmäßigen Scans die Fehlerquote zehnmal höher ist, als bei
hochwertigen.
Hier die Links:
www.german-digital.de/mosen-toronto.pdf (646 MB, Text under image)
www.german-digital.de/mosen-toronto.rtf (0,38 MB, Erkennungsfehler
farbig markiert, keinerlei Korrekturen vorgenommen)
www.german-digital.de/mosen-gds.pdf (595 MB, Text under image)
www.german-digital.de/mosen-gds.rtf (0,32 MB, Erkennungsfehler
farbig markiert, keinerlei Korrekturen vorgenommen)