CH714891A2 - Bildbearbeitung unter Verwendung von neuronalen Netzwerken. - Google Patents

Bildbearbeitung unter Verwendung von neuronalen Netzwerken. Download PDF

Info

Publication number
CH714891A2
CH714891A2 CH00502/18A CH5022018A CH714891A2 CH 714891 A2 CH714891 A2 CH 714891A2 CH 00502/18 A CH00502/18 A CH 00502/18A CH 5022018 A CH5022018 A CH 5022018A CH 714891 A2 CH714891 A2 CH 714891A2
Authority
CH
Switzerland
Prior art keywords
image
text information
pixels
image files
neural networks
Prior art date
Application number
CH00502/18A
Other languages
English (en)
Other versions
CH714891B1 (de
Inventor
Bieler Andre
Veuve Alain
Original Assignee
Parashift Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parashift Ag filed Critical Parashift Ag
Priority to CH00502/18A priority Critical patent/CH714891B1/de
Publication of CH714891A2 publication Critical patent/CH714891A2/de
Publication of CH714891B1 publication Critical patent/CH714891B1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

Anhand von synthetisch erzeugten Beispieldaten wird ein neuronales Netzwerk darauf hin trainiert, für jedes Pixel in einem potentiell verunreinigten Bild eine Vorhersage für dessen korrigierten Graustufenwert zu machen. Das neu entstandene Bild aus berechneten Graustufenwerten hat schliesslich bessere Eigenschaften für die gängigen Texterkennungsprogramme als das Ursprungsbild.

Description

Beschreibung Technisches Gebiet [0001] Die vorliegende Erfindung bezieht sich allgemein auf ein Verfahren zur automatischen Aufbesserung von Textinformationen in Bilddateien und fällt in das Gebiet der digitalen Bildbearbeitung und optischen Texterkennung.
Stand der Technik [0002] Optical Character Récognition (OCR, Optische Zeichenerkennung) ist eine Technologie die bei der digitalisierung von Dokumenten weite Verbreitung findet. Dabei wird versucht aus Bilddokumenten Textzeichen zu extrahieren, welche dann in digitaler Form weiter verwendet werden können.
[0003] Die Erkennungsrate und Genauigkeit der Textextraktion ist dabei stark von der Bildqualität abhängig. Eine Vorverarbeitung der zu untersuchenden Bildern ist ein zentraler Verarbeitungsschritt, mit dem Ziel die Qualität der Textextraktion möglichst positiv zu beeinflussen. Es gilt dabei, qualitätsmindernde Merkmale im Bild zu entfernen, ohne dabei textliche Inhalte zu verlieren.
[0004] Die verwendeten Methoden sind zahlreich und können untereinander kombiniert, oder verkettet werden. Als Beispiele sollen hier zwei Methodengruppen genannt werden: 1) Tief- und Hochpassfilter-Methoden: Diese werden zur Schärfung oder Glättung von Bildern verwendet. Tiefpassfilter reduzieren dabei kleine Störsignale durch Mittelung der Werte über einen fest definierten Bereich. Im Gegenzug werden gleichzeitig scharfe Kanten verwaschen. Umgekehrt sind Hochpassfilter dazu geeignet Kanten zu betonen, verstärken aber auch den Effekt kleinerer Verunreinigungen. 2) Schwellwertmethoden: Jedem Bildpunkt wird einer von zwei Werten zugewiesen, je nachdem ob der Bildpunkt den vorher definierten Schwellwert über-oder unterschreitet. Bei Graustufenbildern resultiert dabei ein schwarz-weisses Binärbild. Es wird zwischen globalen und adaptiven Schwellwertmethoden unterschieden, bei welchen der Schwellwert entweder über das Gesamte Bild angewendet wird, oder ob sich dieser Schwellwert dynamisch an verschiedene Bildregionen anpasst.
Nachteil [0005] Je nach Art der Bildverunreinigungen müssen mehrere Prozessschritte ausgeführt werden, die einzeln von spezifischen Parametern abhängig sind (z.B. die Grösse des Mittelungsbereichs bei Tiefpassfiltermethoden oder der Schwellwert selbst). Dabei gibt es kein Standardverfahren um optimale Ergebnisse zu finden. Die verschiedenen Methoden stehen oft in einem Zielkonflikt indem sich ein gewisser Aspekt der Bildqualität verbessert, dafür andere negative Effekte verstärkt werden. So sind z.B. bei der Rauschunterdrückung durch Tiefpassfilter die entstehenden weicheren Kanten oft unerwünscht.
Aufgabe/Vorteile [0006] Patentanspruch 1 ist eine weitere Methode digitaler Bildbearbeitung zur Verbesserung von OCR-Ergebnissen. Dabei wird ein oder mehrere Neurale Netzwerke darauf trainiert diese Aufgabe zu erfüllen. Es gibt bei der Anwendung keine Parameter festzulegen und es besteht kein intrinsischer Zielkonflikt zwischen Text-hervorhebenden- und Störeffekte-unterdrückenden Massnahmen.
[0007] Aufzählung der Figuren
Abbildung 1 zeigt eine grafische Darstellung der Methode zur Erzeugung von Trainingsdaten die zur Erstellung des Neuralen Netzwerks benötigt werden. Beim Erstellen der Beispieldaten ist darauf zu achten, dass möglichst realistische Dokumente erzeugt werden. Dies in Bezug auf die textlichen Inhalte, sowie in der Gliederung (Man sollte z.B. nicht einfach zufällige Buchstabenreihenfolgen wählen.). Im Weiteren sollen verschiedene Schriftarten und -grossen verwendet werden.
Abbildung 2 zeigt einen typischen Ausschnitt einer Beispieldatei mit Störsignalen. Um den korrigierten Graustufenwert des schwarz umrandeten Bildpunktes zu berechnen, werden die Bildpunkte rund um diesen Punkt in Betracht gezogen (umliegendes schwarz umrandetes Quadrat). Die Bildpunkte dieser Fläche aus der Bilddatei mit Störsignal wird als Eingabe in den Trainingsdaten verwendet, der Graustufenwert des eingerahmten Bildpunktes aus der Bilddatei ohne Störsignale als vorgegebener Ausgabewert (= label).
Abbildung 3 zeigt ein Beispiel für ein Label-Datei (ohne Störsignale) 1a) und Daten-Datei (mit Störsignalen) 1b) Paar. Beide Dateien haben dasselbe Format.
Beschrieb [0008] Neurale Netzwerke werden anhand von Beispieldaten trainiert um zu einem späteren Zeitpunkt Entscheidungen und Vorhersagen aufgrund neuer Daten zu treffen. Im Fall von Patentanspruch 1 besteht ein solcher Datensatz aus einer Ansammlung von Bildern, die Text enthalten.
CH 714 891 A2
Erstellen von Beispieldateien [0009] Beispiel-/Trainings-Dateien bestehen aus Daten-Dateien und Label-Dateien. Daten-Dateien sind digitale Bilder in einem Pixelgrafik-Format wie.jpeg, .png oder ähnliches und können ein beliebiges Format aufweisen. Die Label-Dateien enthalten die korrekten Graustufenwerte für jedes Pixel der Daten-Dateien. Zur Herstellung von synthetischen Trainingsdatensätzen werden erst Label-Dateien erstellt. Dies geschieht durch ein beliebiges Textverarbeitungsprogramm, sofern dieses den Export als Bitmap oder pdf unterstützen. Die Daten-Dateien sind zunächst Kopien der Label-Dateien. Ihnen werden in einem weiteren Schritt aber noch Störeffekte hinzugefügt. Ein Beispiel für ein Paar aus Label- und Daten-Datei ist in Abbildung 3a) (Label) und Abbildung 3b) (Daten) zu sehen. Es sollen möglichst verschiedene (gängige) Schrift-Arten und Grössen verwendet werden um bei der Textsäuberung später gute Resultate zu erzielen. Ebenfalls wichtig ist es, möglichst realistische Störeffekte einzuarbeiten.
Erstellen von Trainingsdatensätzen [0010] Ein Trainingsdatensatz besteht aus Daten (di... dm) und Labeln (h ... Im). Diese werden aus Daten-Dateien und Label-Dateien gewonnen. Die eigentlichen Daten sind Ausschnitte aus Daten-Dateien in einem Format von nx x ny Pixeln. Wobei wir nx= ny = 129 verwenden. nx und ny müssen nicht identisch, aber beide ungerade sein, damit es einen Zentralen Bildpunkt gibt. Das dazugehörige Label entspricht dem Pixelwert des zentralen Pixels aus demselben Ausschnitt der Label-Datei (siehe Abbildung 2).
[0011] Es gibt n Daten-Dateien (D(1)... D(n)) und n Label-Dateien (L(1)... L(n)). Die zu jeder Daten-Datei zugehörige LabelDatei hat dasselbe Format in Pixeln wie die Daten-Datei. (Format L(1)= Format D®) Daten-Dateien können unterschiedliche Formate haben (Format D(l) D®. Folgender Algorithmus generiert dann Trainingsdatensätze:
1. Wähle zufällig eine der n Label-Dateien L® und die dazugehörige Daten-Datei D®.
2. Wähle zufällig die Koordinaten p = (Xj®, yk®) eines Bildpunktes aus L®.
3. Das Label I ist dann der Wert des Bildpunktes (Xj®, yk w) in L®.
4. Das Datum d ist dann der 129 x 129 Pixel Bildausschnitt um den Bildpunkt (Xj®, yk®) aus D®, ausschliesslich des Zentralen Bildpunktes, für den es den Graustufenwert zu berechnen gilt. Das heisst, es wird in D® von p aus ein Ausschnitt von 64 Pixeln nach links, rechts, oben und unten genommen.
5. Wiederhole 1. bis 4. m-Mal
Erstellung des neuralen Netzwerks [0012] Das spezifische Design des Neuralen Netzwerks soll hier nicht vorgegeben werden, da dies je nach Anwendungsfall, verfügbarer Rechner-Rescourcen und Menge an Trainingsdaten stark variieren kann.
Anwendung des Neuralen Netzwerks [0013] Hat man nun eine neue Bilddatei B, wird für jedes Pixel (nx, ny), (mit 64 < nx < Nx - 64 und 64 < ny < Ny - 64), eine Vorhersage des Neuralen Netzwerks berechnet. Wobei Nx die totale Anzahl Pixel in x-Richtung und Ny die totale Anzahl Pixel in y-Richtung von B sind. Somit entsteht ein neues, gesäubertes Bild vom Format (Nx- 128 x Ny- 128). Das Ausgangsbild wird dabei nicht Pixel für Pixel durch die Ausgabe des Neuralen Netzwerks ersetzt, sondern es entsteht ein neues Bild ausschliesslich aus den berechneten Graustufenwerten.

Claims (5)

  1. Patentansprüche
    1. Verfahren zur automatischen Verbesserung von Textinformation in Bilddateien, gekennzeichnet durch die Verwendung von Neuralen Netzwerken.
  2. 2. Verfahren zur automatischen Verbesserung von Textinformationen in Bilddateien nach Anspruch 1, gekennzeichnet durch die Berechnung korrigierter Graustufenwerte sämtlicher Bildpunkte.
  3. 3. Verfahren zur automatischen Verbesserung von Textinformationen in Bilddateien nach Anspruch 2, gekennzeichnet dadurch, dass zur Berechnung der neuen Graustufenwerte jeweils ein quadratischer Bildausschnitt von 129x129 Pixeln um den Bildpunkt verwendet wird.
  4. 4. Verfahren zur automatischen Verbesserung von Textinformationen in Bilddateien nach Anspruch 3, gekennzeichnet durch die Verwendung von Neuralen Netzwerken zur Berechnung der korrigierten Graustufenwerte.
  5. 5. Verfahren zur automatischen Verbesserung von Textinformationen in Bilddateien nach Anspruch 4, gekennzeichnet durch die Verwendung von Neuralen Netzwerken welche mit synthetisch erzeugten Beispieldaten nach Abbildung 1 trainiert wurde.
    CH 714 891 A2
    Figure CH714891A2_C0001
    Abbildung 1: Diagramm zur Erzeugung von Trainingsdaten.
    CH 714 891 A2
    Figure CH714891A2_C0002
    Abbjidtitìg â; Zot Berechnung des BmtStufenwetses das schwur® nmrstîdétgn Piss· werden diu Wette der umliegenden Zane (grösseres schw&rses Quadrat) berücksichtigt. Zu Π lustra tiens® wecken ist die umliegende Fläche kleiner als 129 Pixel x 129 Pixel gehalten.
    CH 714 891 A2 <<<<<<<<<<< +
    ..................................................................................... ................................................................................................
    ÌWòìóì'ìoxÙwu :>XSS« \X<i<U*>T!NftyìW*.a: SWS«UM SSMMt W’!«:
    XS:i:Uox$:xb»; £>'.ύύχ'> <+ (a.) Beiäjksj ete.«;. Lab«! Dau·:
    C<<^Xt<<\WXve^ »«SiJÄWi'· < > :<<?:'</:
    WS&Äf:
    MS όχοΐ-ΛΧ'ίΰ^Λ'ϊίχ·«» \V1«SKSw.
    (h) Iseispiel Datei·. Dsìàs;
    ’\bbi khmg 3
CH00502/18A 2018-04-13 2018-04-13 Bildbearbeitung unter Verwendung von neuronalen Netzwerken. CH714891B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CH00502/18A CH714891B1 (de) 2018-04-13 2018-04-13 Bildbearbeitung unter Verwendung von neuronalen Netzwerken.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CH00502/18A CH714891B1 (de) 2018-04-13 2018-04-13 Bildbearbeitung unter Verwendung von neuronalen Netzwerken.

Publications (2)

Publication Number Publication Date
CH714891A2 true CH714891A2 (de) 2019-10-15
CH714891B1 CH714891B1 (de) 2022-05-13

Family

ID=68170565

Family Applications (1)

Application Number Title Priority Date Filing Date
CH00502/18A CH714891B1 (de) 2018-04-13 2018-04-13 Bildbearbeitung unter Verwendung von neuronalen Netzwerken.

Country Status (1)

Country Link
CH (1) CH714891B1 (de)

Also Published As

Publication number Publication date
CH714891B1 (de) 2022-05-13

Similar Documents

Publication Publication Date Title
DE3780955T2 (de) Verfahren zur automatischen spitzenerkennung im graustufenhistogramm eines digitalen bildes.
DE69329380T2 (de) Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung
DE102013210375A1 (de) Auffinden von text in natürlichen szenen
WO1996019778A1 (de) Verfahren zur trennung einer vordergrundinformation von einer hintergrundinformation in einer vorlage
DE3113555A1 (de) Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
DE19956158A1 (de) Bild-Binärisierungsverfahren auf Bereichsbasis
DE102021114287A1 (de) Mikroskopiesystem und Verfahren zum Erzeugen stilisierter Kontrastbilder
EP3287951A1 (de) Verfahren für die urheberschaftsbewertung eines gemäldes sowie eine entsprechende verwendung
DE112007000738T5 (de) Filter für Störbewegungen
DE69529015T2 (de) Schnelligkeits- und Erkennungsverbesserung für OCR mittels normalisierter Höhen-/Breitenposition
DE69324977T2 (de) Bitmap-bildsegmentierung unter anwendung eines ladungsmodells fuer pixels
DE102013224382A1 (de) Beschleunigte Objekterkennung in einem Bild
CH714891A2 (de) Bildbearbeitung unter Verwendung von neuronalen Netzwerken.
DE102015106459A1 (de) System und verfahren zur auswertung von daten
DE102021101468A1 (de) Verfahren zur Erzeugung valider Entfernungsdaten für eine Lichtlaufzeitkamera
DE202021102338U1 (de) Steuergerät zum Erzeugen von Trainingsdaten zum Trainieren eines Algorithmus des maschinellen Lernens
DE60225268T2 (de) Verfahren zum bestimmen von textfeldern in einem videobild
EP3655920B1 (de) Verfahren und vorrichtung zur bewertung von bildausschnitten für eine korrespondenzbildung
DE60030528T2 (de) Verfahren und Vorrichtung zur Farbquantelung
EP3923193B1 (de) Messung der empfindlichkeit von bildklassifikatoren gegen veränderungen des eingabebildes
DE19536170A1 (de) Ermittlung von Schwellwerten bei der Digitalisierung von Bildern durch eine Verteilungsanalyse der Informationen
DE102022209113A1 (de) Training von instanzsegmentierungsalgorithmen mit partiell annotierten bildern
EP4287066A1 (de) Bestimmen der modulgrösse eines optischen codes
DE2054547A1 (de) Musterverarbeitungssystem
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen

Legal Events

Date Code Title Description
NV New agent

Representative=s name: EUROMAIER AG, CH

PCOW Change of address of patent owner(s)

Free format text: NEW ADDRESS: HAUPTSTRASSE 134, 4450 SISSACH (CH)