Bevor wir näher auf die Möglichkeiten von OCR eingehen, möchten wir erklären, wofür der Begriff OCR steht. OCR bedeutet „Optical Character Recognition“, was so viel heißt, wie optische Zeichenerkennung bzw. Texterkennung.

Es handelt sich dabei um eine Softwaretechnologie, welche die Umwandlung von Dokumenten unterschiedlicher Art ermöglicht.

Hierzu gehören beispielsweise Scans von Papierdokumenten, PDF-Dateien oder digitalen Bildern, die mit Hilfe von OCR-Software in bearbeitbare und durchsuchbare Dateien umgewandelt werden.

In Archiven warten eine Menge an Dokumenten auf ihre Digitalisierung mit OCR

Wie ist die Funktionsweise von OCR?

Die Funktionsweise von OCR ist recht komplex und es würde den Rahmen dieses Beitrages sprengen, hier in die Tiefe einzusteigen. Man kann OCR vereinfacht wie folgt erklären:

Wenn Du ein Dokument mit Textpassagen einscannst, kann dieses Dokument als sogenannte Rastergrafik (JPEG, PNG) oder PDF auf deinem Rechner abgespeichert. Diese Rastergrafik kann mit Hilfe der OCR-Technologie nun auf Zeichenstrukturen durchsucht werden.

Hierbei wird die Zusammensetzung der unterschiedlichen Pixel erkannt und daraus werden in mehreren Schritten, Zeichen bzw. Wörter und Sätze gefunden, die dann in einem Format abgespeichert werden, welches die weitere Bearbeitung dieser Zeichen als Text ermöglicht.

Moderne OCR-Lösungen, wie von Klippa, bauen auf dem sogenannten Machine Learning auf und nutzten Methoden der Künstlichen Intelligenz, um so eine noch höhere Automatisierungsrate zu ermöglichen. Diese neuen Lösungen sind nicht ausschließlich auf Regeln aufgebaut, sondern entwickeln sich sukzessive mit den Aufgabenstellungen.

Wo wird OCR eingesetzt?

Die OCR-Software kommt immer dann zum Einsatz, wenn digitale Dokumente vorliegen, welche Textpassagen beinhalten, die aber nicht im Textformat abgespeichert sind. Es gilt, mit Hilfe von OCR, diese Textpassagen in bearbeitbaren Text umzuwandeln.

Im Dokumentenmanagement findet OCR eine weite Verbreitung. Viele Archive haben tausende von Dokumenten, die nicht digitalisiert sind. Es gilt zum einen diese Dokumente in ein digitales Format zu bringen und zum anderen darum, dass man die Dokumente indizieren kann und auch eine Volltextsuche im Idealfall realisiert wird.

Beim sogenannten „Indizieren“ werden dem Dokument Suchbegriffe zugeordnet. Dieses geschieht entweder manuell oder aber automatisch. Bei der automatisierten Indizierung, erkennt die Software welche Begriffe sich als Suchbegriffe eignen und speichert diese für eine spätere Suche ab.

Bei ähnlich oder gleich aufgebauten Dokumenten ist dieses in der Regel problemlos möglich. Bei im Aufbau sehr unterschiedlichen Dokumenten, werden meist Konventionen vereinbart, welche eine automatische Indizierung ermöglichen. Auch die Methoden der KI, in moderenen OCR-Lösungen, entfalten hier ihr Potential.

Die Volltextsuche listet dem Suchenden alle relevanten, digitalisierten Dokumente, welche bei der Suche einen „Hit“ auf den Suchbegriff haben.

Die Volltextsuche wird also mit Hilfe der OCR-Software erst möglich, da die reine Indizierung sich immer auf die wichtigsten Schlüsselbegriffe beschränkt, eine Volltextsuche hingegen aber beliebige Textpassagen finden wird.

Was zeichnet eine gute OCR-Software aus?

Eine gute OCR-Software zeichnet sich durch eine ergonomisch einwandfreie Bedienung aus, ist schnell, flexibel, verfügt über ein API oder andere Schnittstelle und erzielt eine hohe Erkennungsrate. Sie erkennt idealerweise auch handgeschriebenen Text und kann diesen in editierbaren und durchsuchbaren Text problemlos umwandeln.

Sie ist unterschiedlichen Anforderungen gewachsen, nutzt Methoden der Künstlichen Intelligenz bzw. des Machine Learnings und findet beispielsweise Verwendung in großen Archiven, bei Unternehmen, die ihre Prozesse in hohem Maße digital aufgestellt haben, aber auch bei kleineren Unternehmen, die mit immer wiederkehrenden Routinen zu tun haben und dabei auf digitale Lösungen setzen.

Zum Einsatz kommen solche Lösungen beispielsweise in großen Unternehmen, im Einzelhandel bei Banken, der Tourismusindustrie, Anwaltskanzleien oder im Gesundheitswesen, um nur einige der Branchen zu nennen, die in hohem Maße OCR-Lösungen einsetzen.

Über den Autor

Raimund Hahn

Raimund Hahn ist Diplom-Informatiker und hat an der Hochschule RheinMain, allgemeine Informatik studiert.

Nach dem Studium war er 16 Jahre in der Softwarebranche tätig und hat während dieser Zeit seine ersten Unternehmen gegründet. Sein analytisches Vorgehen beim Beurteilen von Projekten und sein profundes Wissen im Aufbau und der Analyse komplexer Strukturen wissen Unternehmer sehr zu schätzen.

Raimund Hahn gründete viele Unternehmen in unterschiedlichen Branchen, die er zum Teil auch selbst geleitet oder beraten hat. Bis heute wurden von ihm mehr als 100 Publikationen im Bereich ITK veröffentlicht.