Image for Statistikbasierter Loesungsansatz fur die Fehlerkorrektur in OCR-Systemen : Auf Grundlage der n-Gramm Haufigkeitstabellen von Wolfgang Schoenpflug

Statistikbasierter Loesungsansatz fur die Fehlerkorrektur in OCR-Systemen : Auf Grundlage der n-Gramm Haufigkeitstabellen von Wolfgang Schoenpflug

See all formats and editions

Studienarbeit aus dem Jahr 2010 im Fachbereich Informatik - Internet, neue Technologien, einseitig bedruckt, Note: 2,0, UniversitA¤t zu KA¶ln (Sprachliche Informationsverarbeitung), Veranstaltung: Angewandte Linguistische Datenverarbeitung, Sprache: Deutsch, Anmerkungen: Knappe, sprachlich und optisch gute Darstellung. , Abstract: Die vorliegende Verschriftlichung ist eine Hauptseminararbeit fAr die Lehrveranstaltung a€zAngewandte linguistische Datenverarbeitunga€œ und beschA¤ftigt sich mit den Erkennungsfehlern, die wA¤hrend einer Texterkennung (OCR) entstehen kA¶nnen.

Solche Fehler kA¶nnen die Unterschlagung einiger Buchstaben innerhalb eines Wortes, die falsche Reihenfolge der Zeichen in einer Zeichenkette oder solche sein, die den Sinn des Satzes durch Fehlinformationen entstellen.

In der Texterkennungstechnik werden heutzutage mehrere Methoden und Verfahren angewendet, um diesen Problemen entgegenzuwirken, die sich in ihrer Effizienz, Schnelligkeit, Korrektheit und Bedienerfreundlichkeit stark unterscheiden.

Diese Arbeit wird sich deshalb nur auf den statistikbasierten LA¶sungsansatz wenden, dessen Grundlage die aufgestellten Mono-, Di-, Tri- und n-Gramm Tabellen von Wolfgang SchA¶npflug bilden.

Es wird erst auf die typischen OCR-Fehler und ihre Ursachen eingegangen, um danach die HA¤ufigkeitstabellen von Wolfgang SchA¶npflug auf ihren Aufbau hin zu analysieren.

In Kapitel 2 geht es um den LA¶sungsansatz mit den HA¤ufigkeitstabellen, ihre Implementierung, Form der Darstellung und Vorgehensweise.

Die Diskussion Aber eine Internationalisierung des Verfahrens und die mA¶gliche Erweiterbarkeit schlieAYt die Arbeit ab. Zur Lektüre werden zur leichten Verständlichkeit Grundkenntnisse in der Programmiersprache Java und ihren Funktionen vorausgesetzt.

Die Überlegungen für bestimmte Lösungsrealisierungen nehmen Bezug auf einige Java-spezifische Datenstrukturen und in Java bekannten Algorithmen.

Read More
Title Unavailable: Out of Print
Product Details
Grin Publishing
3640731263 / 9783640731268
Paperback / softback
29/10/2010
Germany
36 pages
140 x 216 mm, 54 grams
General (US: Trade) Learn More