OCR-Programme

OCR-Software

OCR:
– Optical Character Recognition => optische Texterkennung
– Programme: Textbridge, OmniPage, Recognita
– OCR ist das automatische Erfassen und Einlesen eines Textes mit Hilfe eines Scanners

– mittlerweile kann man Texte mit geeigneter Hardeware- und Softwareausstattung erfassen, ohne
sie mühsam von Hand einzutippen
– mit Texterkennungssoftware und Scannern können sie problemlos in Zeichen umgewandelt werden
und sind somit schneller weiterverarbeitbar
– ein eingelesener Text, kann nach dem Erkennungs- und Übersetzungsvorgang durch das OCR-Programm
als Doku oder Textblock vorliegen und beliebig nachbearbeitet (editiert) werden
– heute werden hauptsächlich 2 Erkennungsmethoden unterschieden und eingesetzt:

– Rasterpunktverfahren (template matching = Mustererkennung)
– im Computerspeicher muss ein Musterzeichensatz vorliegen
– dort ist jedes Zeichen innerhalb einer Matrix als definierte „Punktwolke“ abgebildet
– diese Muster werden während des Erkennungsvorgangs wie Schablonen über jedes gescannte Zeichen gelegt und bei großer Übereinstimmung in das entsprechende Zeichen übersetzt
– Nachteil: – für jede Schriftart muß eine eigener Musterzeichensatz geladen sein, damit eine
exakte Zuordnung erfolgen kann.
– Probleme bereiten diese OCR-Systeme im Erkennen unsauberer oder leicht schräg gescannter Vorlagen; trifft auch auf Dokus mit versch. Schriftgrößen und Zeichen-attribute (fett, kursiv usw.) zu

– Vorteil: – Auflösung und Zeichenmuster sehr fein
– relativ gute Erkennungsergebnisse
– schneller
– Umrissverfahren (pattern recognition = Merkmalanalyse)
– überwiegend benutzte Methode (Omnifont-Methode)
– die zu erkennenden Zeichen werden nach charakteristischen Merkmalen, wie z.B. Kurven,
Kreisen, vertikalen und horizontalen Linien untersucht
– dadurch ist es möglich, alle Schriftarten, -größen und -attributen anhand einer geladenen
Tabelle zu erkennen bzw. zu berechnen
– Hardwareanforderungen: eine gute Auflösung des Scanners und die Möglichkeit, Kontrast und
Helligkeit über einen möglichst weiten Bereich einstellen zu können.

Wichtig:
– 300 dpi reicht für die Texterfassung aus
– schwarz auf weiß
– muss gerade gescannt werden
– Qualität muß stimmen
– Helligkeit/Kontrast
– meist benutztes Format: RTF = Rich Text Format

Bewertung: 
0
Bisher keine Bewertung