ARPA Software > PaperIn Verarbeitungskonzept

Fraktur Schrifterkennung

PaperIn aus dem Sortiment der arpa Web-Publikationswerkzeuge

Die Frakturschrifterkennung ist keine triviale Angelegenheit; die Schrifttypen variieren im Laufe der Zeit von Gutenberg bis um 1930, in Deutschland stellenweise sogar bis 1960.  http://de.wikipedia.org/wiki/Spezial:Suche/Fraktur_%28Schrift). Im Laufe der Zeit wurden viele verschiedene Schrifttypen entwickelt wie die Schwabacher oder firmeneigene Schriften vom Diedrichs Verlag, usw. Grosse Schwierigkeiten bereitet die Erkennung gedruckter Texte, welche vor der Zeit der Linotype-Setzmaschinen geduckt wurden. Der PaperIn Book Editor von arpa erkennt die meisten Schrifttypen ohne spezielles Training, insbesondere die Schriften, die im Zeitraum von 1850 bis 1940 gedruckt wurden. Die Schrifterkennung von arpa weist in der Regel 99.5 % und mehr richtig erkannte Buchstaben auf. Der Schriftwechsel von Fraktur- zu Lateintypen innerhalb des Textes wird problemlos erkannt. Auch eignet sich der Editor für die alten lateinischen Texte, welche noch mit dem langen „s“ erstellt worden sind; vorkommend speziell in der französischen und englischen Literatur.

Die Verarbeitung von mehrsprachigen Texten innerhalb einer Seite, resp. Zeile ist problemlos. Das Editieren von griechischen und hebräischen Texten ist im Programm eingebaut. Die Erkennung von hebräischen Texten ist in Vorbereitung.

Auch ist es möglich mit dem PaperIn Book Editor Handschriften zu transkribieren; somit können auch alte Handschriften wie Bücher durchsucht werden.

Der PaperIn Book Editor hat weitere grosse Vorteile: Korrekturen können aufgrund einer statistischen Erhebung der Wörter generell durchgeführt werden. Grosse Volumina können damit rasch auf Fehler untersucht und korrigiert werden.

Texte, welche mit dem PaperIn Book Editor bearbeitet wurden, können mit einer übergelagerten XML-Struktur versehen werden. Dateien lassen sich in verschiedene Formate exportieren: TXT, RTF, XML, PDF, PDF A; auch können zusätzliche Metadaten im Batchprozess rationell herausgefiltert werden.

Die Übergabe der mittels PaperIn Book erstellten Dateien in den arpa eigenen Index ermöglicht, ohne weitere Strukturierung, komplexe Suchvorgänge abzuwickeln. Es können z.B. Begriffe mit Personen oder Regionen kombiniert werden. Beispiele finden Sie auf der Webseite www.arpa.ch

Gerne beantworten wir Ihre Fragen telephonisch:
arpa Data GmbH Schweiz, Taomir Ebersold,  ++41 44 709 0990,
arpa Data GmbH Deutschland, Franz Roberg,  ++49 2582 669360

Für Tests stehen wir Ihnen gerne zur Verfügung. Melden Sie sich bitte unter info@arpa.ch