Texterkennung

Zuletzt aktualisiert: 22.01.2024

Eine Bezeichnung aus der Informationstechnologie ist Texterkennung. Die automatisierte Texterkennung beziehungsweise automatische Schriftzügeerkennung innerhalb von Bildnissen bezeichnet es. Die automatische Texterkennung basierte Original auf augenscheinlicher Anzeichenerkennung. Vermehrt durch nervliche Netzwerke ersetzt wird diese Methode. Sie verarbeiten ganze Linien statt individueller Signets.

Grundsätzliches

Texterkennung ist deshalb nötig, weil optische Einlesegeräte als Resultat lediglich Pixelgrafiken bieten können, d. h. in Linien und Scharten angeordnete Stellen variabler Farbgebung. Texterkennung bezeichnet dabei die Aufgabenstellung, die so dargestellten Lettern als solche zu bemerken, d. h. zu erkennen und ihnen den Zahlenwert zuzuordnen, der ihnen nach gewöhnlicher Textcodierung zukommt. Im deutschem Sprachgebiet häufig als Formulierungsvariante benutzt werden automatische Texterkennung und OCR. OCR bezieht in praktischer Sicht sich allerdings einzig auf das Teilgebiet der Musterungsvergleiche von separierten Bildstücken als Bewerber zur Feststellung von Einzelvorzeichen. Eine weltweite Gefügeerkennung geht diesem OCR-Prozess voraus, in der zuerst Absätze von grafischen Bestandteilen unterschieden die Liniestrukturen festgestellt und letztlich Einzelvorzeichen abgetrennt werden. Ein linguistischer Rahmen kann bei dem Entscheid über größere Rechenvorschriften beachtet werden, welches Signum vorliegt.

Zumal entworfene Typen wurden Original zur selbsttätiger Texterkennung konstruiert. Sie wurden beispielsweise für das Bedrucken von Scheckformblättern benutzt. Dass die individuellen Vorzeichen von einem OCR-Lesegerät rasch und ohne starke Rechenaufwendung unterschieden werden konnten, waren diese Schriften so eingerichtet. Die Schrift zeichnet so sich. OCR-A durch einander insbesondere unähnliche Vorzeichen, insbesondere bei den Zahlen, aus. OCR-B ähnelt mehr einer serifenlosen, nicht-proportionalen Schrift, während . OCR-H handgeschriebenen Zahlen und Versalbuchstaben nachgearbeitet wurde.

Das gestiegene Leistungsvermögen zeitgemäßer Rechner und verbesserte Berechnungsverfahren erlauben mittlerweile ebenfalls die Feststellung von konventionellen Druckerschriftarten bis weg zu Schreibweisen. wenn allerdings Lesbarsein durch Leute nicht erstrangig ist, werden typografisch und erkennungstechnisch leichter handhabbare Balkencodes benutzt.

Die Translation individueller Buchstaben umfasst moderne Texterkennung mittlerweile mehr als reine OCR, das heißt. Techniken der Kontextanalyse werden zusätzlich. Intelligent Character Recognition . , hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse richtiggestellt werden können. So kann ein Anzeichen, das tatsächlich als 8 festgestellt wurde, zu einem Bachelor korrektioniert werden, wenn es innerhalb eines Begriffs steht. Statt 8aum Baum wird somit wiedererkannt, jedoch gemacht werden sollte eine Wandlung von 8te, somit ein alphanumerisches Zusammenspiel nicht. Wird im Gebiet industrieller Texterkennungssysteme daher von OCR / ICR-Systemen geredet. Allerdings ausfließen sind die Begrenzungen des OCR-Begriffes, weil um technische Entwicklungen stärker veräußern zu können dienen OCR und ICR außerdem als Marketingvorstellungen. Unter diese Gattung fällt ebenfalls Intelligent Word Recognition. Jene Herangehensweise versucht die Problemstellung bei der Feststellung von Fließschriften aufzulösen, bei der die Einzelvorzeichen nicht deutlich separiert und daher nicht über gewöhnliche OCR-Methoden festgestellt werden können.

Bei der Schreibweiseerkennung auf Sensorbildschirmen oder Vorlagen benutzt wird ein grundlegend anderes Vorgehen der Texterkennung. Vektorbasierte Musterungen entweder ‚ offline ‘ als komplettes Datenwort oder ‚ online ‘ mit ergänzender Auswertung des Eingabestroms werden da aufbereitet.

Bei der zwangsläufigen Weiterverarbeitung des Posteingangs riesiger Unternehmen ergibt eine Spielart der Texterkennung sich zum Beispiel. Das Katalogisieren der Nachweise ist eine Aufgabe. Allerdings genügt es die grobschlächtigen Eigenschaften, beispielsweise das charakteristische Schema von Formblättern, Firmenemblemen etc., zu bemerken bisweilen, der Content braucht dafür nicht stets untersucht zu werden. Wie bei der OCR erfolgt die Klassifizierung kategorischer Textorten über eine Musterungserkennung. Sie bezieht sich allerdings weltweit auf das ganze Blättchen oder definierte Plätze anstelle individueller Lettern.

Verfahren

Eine Abbilderdatei ist Ansatzpunkt. Sie wird von der Grundlage per Abtaster, Digitalfoto oder Filmkamera produziert. : erfolgt die Texterkennung selber dreistufenartig.

Bogenerkennung und Untergliederungserkennung

In relevante Gebiete und irrelevante Gebiete unterteilt wird die Abbilderdatei.

Fehlerbehebung auf Pixelniveaus

Durch ihre Nachbarschaftsrelationen zu benachbarten Bildpunkten können die Rüdepixel korrektioniert werden. Ausgelöscht werden einzelne Bildpunkte. Hinzugefügt werden können fehlende Bildpunkte. Die Sensitivität erhöht dadurch sich bei einem reinlichen Musterungsvergleich. Heftig angewiesen vom Gegensatz der Dokumentvorlage ist dies.

Musterungsvergleich Mapping

Produziert werden Rohdigitalisate, mit Musterungen in einem Datenbanksystem konkurriert werden die Pixelmusterungen der Textgebiete.

Fehlerbehebung Kennzeichenebene

Mit Diktionären abgewogen sowie nach linguistischen und statistischen Verfahrensweisen hinsichtlich ihrer wahrscheinlichen Versehenfreiheit beurteilt werden die Rohdigitalisate. Der Text wird in Abhängigkeitsverhältnis von dieser Beurteilung vorgegeben oder sonst einer neuerlichen Seitenansichtenerkennung oder Musterungserkennung mit veränderten Kenngrößen zugeleitet.

Fehlerbehebung auf Wortebene

Anhand weltweiter Charakterzüge mit Diktionären parallelisiert wird Fließschrift, bei der die Einzelvorzeichen nicht gegenseitig abgetrennt festgestellt werden können. Da die Verwechslungsoptionen zunehmen, verringert die Trefferdeutlichkeit sich mit dem vermehrten Umfang des eingebundenen Wörterverzeichnisses. Definierte Feldfelder mit beschränkten Auskunftmöglichkeiten, beispielsweise handgeschriebene Postadressen auf Briefkuverts sind Einsatzfelder.

Manuelle Fehlerbehebung

Eine besondere Modalität zur händischer Korrektion nicht zuverlässig bekannter Schilde bieten viele Programme des Weiteren.

Kodierung in das Auflageformat

Ein Dokument wird im unkompliziertestem Falle in einer definierten Form wie UTF-8 hergestellt. Die Auflage kann pro nach Aufgabe außerdem in ein Datenbanksystem oder als PDF-Datei geschehen. Den Text mit Layout-Information speichern spezialisierte Ausgabeformen wie die XML-basierten Formen ALTO und PAGE oder hOCR, eine HTML-Variante.

Unter anderem mehrere Faktore bestimmen die Güte der Texterkennung:

  • Güte der Seitenansichtenerkennung, .
  • Ausmaß und Güte der Muster-Datenbank, .
  • Größe und Güte der Diktionäre, .
  • Güte der Rechenvorschriften zur Fehlerbehebung, .
  • Fülle, Kontrarietät, Schema und Schrift des Originals, .
  • Aufhebung und Niveau der Abbilderdatei.

Siehe Fehlschreibungen lässt die Menge der unbemerkten Irrtümer in einer Dokumentation sich einschätzen. Während Texte Überschüsse enthalten und deshalb eine stärkere Fehlerdichte zulassen, erfordern Anzahllisten, wie zum Beispiel Rufnummern, ein mehrfaches Korrektionslesen.

Riesenerfolge durch nervliche Netzwerke

Künstliche nervliche Netze erzielten in aktuellster Zeitlang bei Handschriftverwendungen häufig schönere Resultate als konkurrierende Lernverfahrensweisen. Die rekurrenten beziehungsweise tiefgründigen vorwärtsgerichteten nervlicher Netze des Forschungsteams von Jürgen Schmidhuber am Schweizer KI Laboratorium IDSIA gewannen zwischen 2009 und 2012 eine Reihe von acht globalen Wettkämpfen in den Fachgebieten Musterungserkennung. Ihre rekurrenten LSTM-Netzwerke gewannen speziell drei Contests zur zusammenhängender Schreibarterkennung bei der 2009 Intl. Conf. on Document Analysis and Recognition, ohne eingebautes a priori-Wissen über die drei unterschiedlichen zu lernenden Einzelsprachen. Gleichzeitige Unterteilung und Feststellung erlernten die LSTM-Netze. Die ersten weltweiten Wettkämpfe, die durch waren dies ebenfalls. Deep Learning . oder durch rekurrente Stellnetze erhalten wurden.

Bedeutsam für Schriftenerkennung sind ebenfalls tiefe vorwärtsgerichtete Netze wie Kunihiko Fukushimas Konvolutionsstellnetz der 1980er Jahre heutzutage erneut. Über gegenseitige Konvolutionsstellungen und Flecke von Nervenzellen verfügen sie. Sie stehen untereinander im Konkurrenz. Den 1989 bereits fein beliebten backpropagation wendete Yann LeCuns Mannschaft von der New York University Berechnungsverfahren auf solche Netzwerke an. Für die Wettbewerbsstellungen verwenden moderne Ausführungen sogenanntes max-pooling. Man krönt zum Schluss das tiefe Stellnetz durch mehrere komplett vernetzte Neuronenschichten. 2010 durch Scherer und Arbeitskollegen eingebracht wurden schnelle GPU-Implementierungen dieser Zusammensetzung. Zahlreiche Wettkämpfe zur Feststellung von Schrift und anderen Musterungen gewannen sie seitdem. Die ersten Verfahrensweisen waren gPU-basierte max-pooling Konvolutionsstellnetze außerdem, die die handgeschriebenen Zahlzeichen des MNIST Maßstabes so fein bemerken konnten wie Leute.

Eine Tendenz, die klassische zeichenweise Texterkennung durch zeilenweise Texterkennung mittels nervlicher Netzwerke zu remplacieren gibt ebenfalls bei gedrucktem Text es. In den Programmen OCRopus und Tesseract verwendet wird diese Methode.

Anwendungen

  • Wiederumgewinn von Textinformierung aus Abbilderdateien, um diese mit Unterstützung eines Textverarbeitungsprogramms auch zu verarbeiten oder elektronisch durchsuchbar zu wirken .
  • Feststellung von bedeutsamen Eigenschaften zur stumpfsinniger oder elektronischen Ansortierung eines Dokumentes .
  • Eine erweiterte Vollständigsuche in Datenbanksystemen oder Document-Management-Systemen, um außerdem PDFs und Bildnisse durchforsten zu können.
  • Feststellung von Charakteristiken zur Anmeldung und allenfalls Verfolgungsjagd von Objekten .
  • Eine formatierte Dokumentation wird Es erstellt. Dies nahekommt der Dokumentvorlage bezüglich Textanordnung, Bildanordnung und Tabellenanordnung tunlichst.
  • Es eingescannte Texte über Rechner und Braillelinie wird Blindenhilfen: Für Blinde durch die Texterkennung machbar.

OCR-Software

Proprietäre Softwareanwendung

  • BIT-Alpha von B. I. T. Bureau Ingénieur Tomasi .
  • FineReader von ABBYY .
  • FormPro von OCR Methoden .
  • KADMOS best OCR / ICR .
  • OCRKit für Mac OS und iOS .
  • Omnidiener von Kofax .
  • Readiris von Image Recognition Integrated Systems Group, seit 2013 zu Canon .
  • NSOCR von Nicomsoft .
  • ARGUS Script von Planet IS GmbH .
  • Screenworm für Mac OS von Funchip .
  • Transkribus

Als Nebenposition in proprietärer Softwareanwendung: .

  • Acrobat Text Capture in Adobe Acrobat von Adobe Inc.
  • Corel OCR-Trace in CorelDRAW von Corel .
  • Microsoft OneNote 2010 .
  • Microsoft 365, Word ab Fassung 2013 .
  • ExactScan Pro für Mac OS .
  • PDF-XChange Viewer .

Cloudbasiert:

  • ABBYY Cloud OCR .
  • Google Cloud Vision .
  • Microsoft Azure Computer Vision API .
  • OCR.space Online OCR .
  • TextScan Online OCR .

Freie Softwareanwendung

  • GT Text
  • OCRopus und die davon abgeleiteten Programme Kraken und Calamari .
  • GOCR
  • CuneiForm
  • Ocrad
  • Tesseract
  • OCRFeeder
  • dpScreenOCR
  • OCR4all
  • OCR-D

    👉 Dir gefällt dieser Beitrag?
    Success! Thanks for Your Request.
    Error! Please Try Again.