LU602246B1

LU602246B1 - Ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben

Info

Publication number: LU602246B1
Application number: LU602246A
Authority: LU
Inventors: Liang Huang
Original assignee: Univ Kunming Science & Technology
Priority date: 2025-01-06
Filing date: 2025-06-25
Publication date: 2025-12-30
Also published as: CN119942200A

Abstract

Die vorliegende Erfindung bezieht sich auf das technische Gebiet der Kulturpflanzenklassifikation und insbesondere auf ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben, das Folgendes umfasst: Zählen von Stichprobeninformationen, einschließlich der Anzahl von Pixeln jeder Kategorie, der Stichprobenverteilung und der Pixelhäufigkeit der Kategorie durch die Pixelhäufigkeit jeder Kategorie, und Berechnen einer Resampling-Wahrscheinlichkeit jeder Kategorie unter Verwendung einer Softmax-Funktion als Prototyp-Formel; Auswählen einer Kategorie auf der Grundlage der Wiederabtastungswahrscheinlichkeit der Kategorie, die auf der Basis der Wiederabtastungswahrscheinlichkeit der Kategorie berechnet wird, und Erfassen eines Bildes aus einer Teilmenge von Bildern, die die Kategorie enthalten, durch zufällige gleichmäßige Abtastung; Prüfen, ob die Anzahl von Pixeln der Zielkategorie, die in dem erfassten Bild enthalten ist, einen minimalen Pixelschwellenwert erfüllt, oder andernfalls erneutes Erfassen eines Bildes aus der Teilmenge von Bildern, das die Bedingung erfüllt; Durchführen einer Datenverbesserung an den ausgewählten Bildern, um die Vielfalt und den Merkmalsraum der Proben zu erhöhen, und Eingeben dieser Daten in das Netzwerk zum Trainieren und Lernen. Die vorliegende Erfindung kann die Einschränkung der Unausgewogenheit der Proben auf die Leistung des Netzwerks wirksam lindern und die praktische Anwendung der Deep-Learning-Technologie bei der Feinklassifizierung von Pflanzen fördern.

Description

Ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichprober-U602246 für die feinkornige Klassifizierung von Pflanzen mit unausgewogenen Stichproben

Technischer Bereich

Die vorliegende Erfindung bezieht sich auf das technische Gebiet der Pflanzenklassifizierung und insbesondere auf ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen

Stichproben fiir die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben.

Technologie im Hintergrund

Die breite Anwendung von Deep-Learning-Techniken hat die rasche Entwicklung der

Kartierung der Bodenbedeckung mit hochauflösenden Fernerkundungsbildern gefördert und zu bemerkenswerten Ergebnissen geführt. Die Verteilungsfläche verschiedener

Landbedeckungstypen, wie Wald, Ackerland, städtische Flächen usw., im geografischen Raum weist jedoch erhebliche Unterschiede auf, was zu einem weit verbreiteten Ungleichgewicht der

Kategorien bei der Landbedeckungskartierung führt. Der Trainingseffekt von Deep-Learning-

Netzwerken beruht in hohem Maße auf massiven und qualitativ hochwertigen gelabelten Daten, und das Problem des Ungleichgewichts der Datenproben führt dazu, dass das Netzwerk eher dazu neigt, Merkmale der Hauptkategorie zu lernen, was die Gesamtleistung des Netzwerks in realen

Szenarien schwächt. In landwirtschaftlich genutzten Landschaften ist das Problem der unausgewogenen Stichproben ebenfalls heikel. Nehmen wir als Beispiel die Feinklassifizierung von Nutzpflanzen in Hochgebirgsregionen: Die Anbauflächen in Hochgebirgsregionen sind zersplittert und weisen unterschiedliche Morphologien auf, die Bepflanzungstypen sind reichhaltig und vielfältig, die Anbaumethoden sind flexibel, und das Problem des Ungleichgewichts der

Nutzpflanzenkategorien ist ernst. Daher ist es dringend erforderlich, wirksame Lösungen zu finden, um die Herausforderungen zu bewältigen, die sich aus der Unausgewogenheit der Stichproben bei der Feinklassifizierung von Kulturpflanzen ergeben.

Die Verteilung von Datenproben, die ein Ungleichgewicht zwischen den Kategorien aufweisen, wird als Long-Tailed-Verteilung bezeichnet, und eine große Anzahl von Studien hat sich auf die Lösungsstrategien für das Problem der Long-Tailed-Verteilung konzentriert, was die

Entwicklung von Deep-Learning-Techniken vorantreibt. Die Deep-Learning-Methoden für die

Long-Tailed-Verteilung lassen sich anhand ihrer wichtigsten technischen Merkmale in drei

Hauptkategorien einteilen: Methoden zur Modellverbesserung, Methoden zur Neugewichtung von

Kategorien und Methoden zur Informationsverbesserung. Methoden zur Modellverbesserung beruhen hauptsächlich auf der Idee des Category Rebalancing, das die Leistung durch Optimierung des Netzwerkmoduls mit umfassender Leistung verbessert. Sie erfordern jedoch ein spezielles

Moduldesign und Modelltraining in der Praxis, was mit hohen Designkosten und der Schwierigkeit verbunden ist, einen Anstieg der Modellkomplexität zu vermeiden. Zu den Methoden zur

Wiederherstellung des Gleichgewichts zwischen den Kategorien gehören Resampling und kategoriesensitive Lernmethoden, bei denen die Verteilung der Kategorien durch Anpassung der

Anzahl der Stichproben auf Stichprobenebene oder durch Anpassung der Kategoriegewichte in der

Verlustfunktion wieder ins Gleichgewicht gebracht wird. Beim herkömmlichen Training von

Deep-Learning-Netzwerken auf der Grundlage von Zufallsstichproben wird das Problem des

Ungleichgewichts der Stichproben ignoriert. Aus diesem Grund haben Forscher eine Vielzahl von

Stichprobenmethoden untersucht, um spezifische Stichprobenstrategien auf der Grundlage der

Stichprobenverteilung zu entwickeln. Shen et al. schlugen die Sampling-Methode „Class-Aware

Sampling“ vor, die sicherstellt, dass jede Klasse so weit wie möglich die gleiche

Wahrscheinlichkeit hat, in jeder Charge aufzutreten. Diese Methode führt jedoch dazu, dass die

Kopfklasse in mehreren kleinen Stapeln zu wenig gesampelt wird. In neueren Studien wurden 602246 verschiedene adaptive Sampling-Strategien vorgeschlagen, wie z. B. eine dynamische Sampling-

Rate. Wang et al. schlugen eine Dynamic Curriculum Learning (DCL)-Methode vor, um ein

Rebalancing der Kategorien durch dynamisches Sampling von Daten zu erreichen. Obwohl die oben genannten Methoden das Problem des Ungleichgewichts der Kategorien bis zu einem gewissen Grad lindern, ist es für das Modell aufgrund der begrenzten Stichprobendaten der

Minderheitenkategorie immer noch schwierig, ausreichende Merkmalsinformationen aus der

Minderheitenkategorie zu lernen. Die Informationserweiterung hingegen führt zusätzliche

Informationen in das Modelltraining ein, um die Modellleistung beim Long-Tail-Lernen zu verbessern, und umfasst hauptsächlich zwei Methoden: Migrationslernen und Datenerweiterung (DA). Bei der Methode des Migrationslernens wird Wissen aus der Quelldomäne in die

Zieldomäne übertragen und das Training des Bildmodells verbessert. Das Modell wird zunächst mit allen Long-Tailed-Beispielen trainiert und dann anhand einer ausgewogeneren

Trainingsuntermenge feinabgestimmt. Die gelernten Merkmale werden auf diese Weise schrittweise auf die Tail-Kategorien übertragen, was zu einer ausgewogeneren Leistung in allen

Kategorien führt. Die Einschränkung des Migrationslernens besteht jedoch darin, dass für eine effektive Migration eine ausreichend große Anzahl von Stichproben erforderlich ist. Die Methode der Datenerweiterung ist eine beim Training von Deep-Learning-Modellen häufig verwendete

Technik, die die Vielfalt der Datenproben erhöht und die Generalisierungsfähigkeit des Modells verbessert, indem Bilder auf Daten- und Merkmalsebene nach dem Zufallsprinzip gespiegelt, beschnitten, skaliert, farblich transformiert und andere Operationen durchgeführt werden. Ahn et al. schlugen als erstes die kategorienbezogene Datenerweiterungsmethode CUDA (CUrriculum of

Data Augmentation) vor, die die Intensität der Datenerweiterung dynamisch an den Lerngrad der

Kategorien anpasst und ein neues Paradigma für die Verarbeitung von Daten mit langschwänziger

Verteilung bereitstellt, indem sie die Datenerweiterung mit der dynamischen Anpassung des

Kategorielernens kombiniert und einen effektiven Weg zur Lösung des Problems des

Kategorienungleichgewichts bietet.

Das Problem der „Long-Tailed“-Verteilung ergibt sich aus der schwerwiegenden

Unausgewogenheit der Datenverteilung im Trainingssatz, und die Verbesserung der

Datenverteilung ist eine der intuitivsten Ideen zur Lösung des Problems. Resampling als gängige

Methode zur Bewältigung des Long-Tailed-Problems gleicht die Kategorieverteilung durch

Hinzufügen oder Subtrahieren von Datenproben aus, ohne das Training der nachfolgenden

Klassifikatoren zu beeinträchtigen, und die meisten Resampling-Methoden können flexibel an die bestehenden Long-Tailed-Bildklassifikationsmodelle angepasst werden. Die meisten Resampling-

Methoden können flexibel an die bestehenden Bildklassifizierungsmodelle angepasst werden.

Datenerweiterungstechniken hingegen verbessern die Verallgemeinerungsfähigkeit des Modells, aber wenn sie nur auf die Long-Tail-Klassifizierung angewandt werden, haben die Stichproben der

Header-Kategorie aufgrund ihrer überwiegenden Anzahl Merkmale, die die Merkmale der Tail-

Kategorie verdecken, was dazu führt, dass das Modell keine genauen Klassifizierungsgrenzen erlernen kann. In Studien wurde versucht, Resampling mit Datenerweiterung zu kombinieren, um das Long-Tail-Problem zu entschärfen. Diese Methoden sind jedoch in der Regel auf eine spezielle

Algorithmusunterstützung angewiesen, weisen eine geringe Anpassungsfähigkeit auf und lassen sich nur schwer flexibel auf unterschiedliche Aufgabenszenarien anwenden. Zu diesem Zweck schlägt die vorliegende Erfindung eine Minority Sample Enhanced Sampling (MES)-Methode für das Ungleichgewichtsproblem bei der Feinklassifikation von Kulturpflanzen vor, die die Vorteile von Kategorie-Resampling und Datenanreicherung kombiniert, um eine effiziente und vielseitig&/602246

Lösung für das tatsächliche Long-Tail-Problem zu bieten. Die MES-Methode gleicht die

Verteilung der Trainingsdaten durch intensives Resampling von spärlichen Klassenproben aus und kombiniert sie mit Datenverbesserungsoperationen, um die Verzerrung des Modells gegenüber der

Mehrheitsklasse zu verringern und die Merkmalsdarstellung der spärlichen Klassenproben zu verbessern, wodurch die Klassifizierungsleistung von Deep-Learning-Modellen bei unausgeglichenen Proben verbessert wird. Im Vergleich zu bestehenden Methoden kann das modulare Design von MES für semantische Segmentierungsnetzwerke eingesetzt werden, um die

Erkennungsleistung zu verbessern, ohne die Anzahl der Parameter zu erhôhen.

Inhalt der Erfindung

Ziel der vorliegenden Erfindung ist es, ein Verfahren zur Verbesserung der

Stichprobenbildung bei spärlichen Stichproben für die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben bereitzustellen, bei dem MES die Verteilung der Trainingsdaten ausgleicht, indem spärliche Klassenstichproben intensiv neu abgetastet und mit einer

Datenverbesserungsverarbeitung kombiniert werden, um die kognitive Verzerrung des Netzwerks gegenüber der Mehrheit der Klassen zu verringern und die Generalisierungsleistung des Modells zu verbessern. MES ist einfach zu implementieren und anpassbar und kann als generisches

Sampler-Modul für semantische Segmentierungsaufgaben in das Netzwerkmodell integriert werden. Um die Wirksamkeit von MES zu überprüfen, werden Experimente mit dem Dali-

Datensatz und dem Gersten-Fernerkundungsdatensatz durchgeführt. Die Ergebnisse zeigen, dass die Leistung von MES bei allen vier Benchmark-Netzwerken von CNN- und Transformer-

Architekturen effektiv verbessert wird. Schließlich werden seine Stabilität und Zuverlässigkeit durch eine Hyperparameter-Sensitivitätsanalyse überprüft. Die vorgeschlagene Methode kann die

Einschränkung der Unausgewogenheit der Proben auf die Netzwerkleistung wirksam lindern und die praktische Anwendung der Deep-Learning-Technologie bei der Feinklassifizierung von

Pflanzen fördern.

Um den oben genannten technischen Zweck zu verwirklichen und den oben genannten technischen Effekt zu erzielen, wird die vorliegende Erfindung durch die folgende technische

Lösung realisiert:

Ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben, das die folgenden

Schritte umfasst:

S1: Statistische Informationen über die Proben im Trainingssatz, Berechnung der Anzahl der

Probenpixel jeder Kategorie im Trainingssatz und Berechnung der Pixelhäufigkeit jeder Kategorie.

S2: Berechnen der Resampling-Wahrscheinlichkeit jeder Kategorie anhand der

Pixelhäufigkeiten jeder Kategorie unter Verwendung einer Softmax-Funktion als Prototyp-Formel, so dass die Resampling-Wahrscheinlichkeit umso höher ist, je niedriger die Pixelhäufigkeit der

Kategorie ist. Durch diesen Mechanismus erhält die spärliche Kategorie eine höhere

Wiederaufnahmewahrscheinlichkeit, was das Lernen des Netzwerks für die spärliche Kategorie verbessert.

S3: Wählen Sie eine Kategorie auf der Grundlage der berechneten

Wiederaufnahmewahrscheinlichkeit der Kategorie und nehmen Sie ein Beispielbild aus einer

Teilmenge von Bildern auf, die die Kategorie enthalten. Prüfen Sie, ob die Anzahl der Pixel, die die Zielkategorie in dem erfassten Bild enthalten, den Mindestpixelschwellenwert erfüllt, andernfalls erfassen Sie erneut Bilder aus der Bilduntergruppe, die die Bedingung erfüllen. Auf diese Weise wird sichergestellt, dass das neu abgetastete Bild eine ausreichende Anzahl von Pixeht602246 der Zielkategorie enthält, eine ineffektive oder ineffiziente Neuabtastung vermieden und die

Effizienz der spärlichen Neuabtastung von Kategorien verbessert.

S4: Die ausgewählten Bilder werden einer Datenanreicherung unterzogen, um die Vielfalt und den Merkmalsraum der Stichproben zu vergrößern, und in das Netzwerk zum Trainieren und

Lernen eingegeben.

Durch die oben genannten Schritte stellt der MES-Algorithmus sicher, dass die Stichproben der spärlichen Kategorien häufiger neu abgetastet werden, und erhôht gleichzeitig die

Stichprobenvielfalt durch DatenvergroBerung, wodurch die Fähigkeit des Netzwerks, die sparlichen Kategorien zu lernen, gestärkt und schließlich die Leistung des Modells auf dem unausgewogenen Datensatz verbessert wird.

Ferner umfasst der Schritt S1 insbesondere Folgendes:

Das MES analysiert zunächst die Häufigkeit des Auftretens jeder Kategorie, um jeder

Kategorie eine Stichprobenwahrscheinlichkeit zuzuweisen, wobei der hinteren Kategorie eine höhere Stichprobenwahrscheinlichkeit zugewiesen wird. Bei der Klassifizierungsaufgabe auf

Pixelebene sind die Instanzobjekte Pixel, und das MES zählt bei der Berechnung der

Stichprobenwahrscheinlichkeitsverteilung zunächst die Anzahl der Pixel in jeder Kategorie. Für jede Kategorie C im Datensatz kann ihre Häufigkeit Je auf der Grundlage der Anzahl der Pixel dieser Kategorie in den Stichprobenetiketten berechnet werden:

Ny HW ic p EA 0]

Ne HxW (1) wobei: (47) -Pixelkoordinaten; yer --Indikatorfunktion, die den Wert 1 annimmt, wenn die Pixelkoordinaten (47) der

Kategorie c angehören, und andernfalls O;

HxW __BildgrôBe;

Ns _Anzahl der Bilder;

C - Kategorie; (7) _pixelkoordinaten.

Ferner umfasst der Schritt S2 insbesondere:

Berechnung der Wiederholungswahrscheinlichkeit fiir jede Kategorie, wobei die

Wiederholungswahrscheinlichkeit für eine Kategorie c in Abhängigkeit von ihrer Häufigkeit Fc definiert ist: (ZT k= = LV (2) c'=1

Dabei gilt: T-Glättungsparameter;

C-Gesamtzahl der Kategorien; ¢' die ¢ -te Kategorie

Die Stichprobenverteilung wird durch die Softmax-Funktion und den angegebenen 602246

Glättungsparameter angepasst; der Parameter T steuert die Glättung der Verteilung: je höher der

Wert von T ist, desto homogener ist die Verteilung der Stichprobenwahrscheinlichkeit F , und je niedriger der Wert von T ist, desto höher ist die Wahrscheinlichkeit der Stichprobenziehung der 5 spärlichen Kategorien.

Ferner umfasst der Schritt S3:

Für jedes Beispielbild wird eine entsprechende Kategorie aus einer

Wahrscheinlichkeitsverteilung c — P, ausgewählt, und dann wird ein Bild aus einer Teilmenge von Daten, die diese Kategorie enthalten, ausgewählt. Dies kann durch einen mathematischen

Ausdruck ausgedrückt werden als:

I ~ uniform (XY, ) (3)

Wobei: !- -Stichprobenbild;

Ls -Untermenge von Stichproben im Datensatz, die die Kategorie c enthalten;

Nach der Auswahl einer Schwanz-Kategorie werden aus einer Teilmenge von Bildern, die diese Kategorie enthalten, mit Hilfe einer einheitlichen Stichprobe Stichproben genommen. Der

Zweck einer einheitlichen Stichprobe besteht darin, sicherzustellen, dass die Auswahl der

Stichproben nicht auf bestimmte Stichproben in der Teilmenge ausgerichtet ist, wodurch eine

Verzerrung bei der Stichprobenauswahl verringert wird. Dazu werden alle Bilder, die die Kategorie enthalten, nach dem Zufallsprinzip ausgewählt, anstatt wiederholt bestimmte Bilder auszuwählen, wodurch die Vielfalt der Stichproben gewährleistet wird. Nach der Auswahl der Bilder wird geprüft, ob die Anzahl der in den Bildern enthaltenen Pixel der Zielkategorie einen vorgegebenen

Mindestpixelschwellenwert erfüllt. Der Parameter P für die Mindestpixelschwelle wird verwendet, um sicherzustellen, dass die neu abgetasteten Bilder eine ausreichende Anzahl von Pixeln der

Zielkategorie enthalten. um zu vermeiden, dass zu wenige Pixel der Zielkategorie im ausgewählten

Bild enthalten sind, was zu einem ineffektiven oder ineffizienten Resampling führen würde. Wenn die Anzahl der Pixel der Zielkategorie im ausgewählten Bild nicht ausreicht, wird das Resampling der in Frage kommenden Stichproben aus der Bildteilmenge fortgesetzt. Die Sicherstellung, dass jede Neuabtastung gültig ist, verbessert die Effizienz und Effektivität der spärlichen Neuabtastung der Kategorien, so dass das Netz die Merkmale dieser Kategorien besser erlernen kann.

Darüber hinaus umfasst der Schritt S4 insbesondere Folgendes:

Durchführung einer Reihe von Datenverbesserungsoperationen, wie Drehen, Anpassen von

Helligkeit, Kontrast und Schärfe usw., am Zielbild und an den markierten Daten, um die Vielfalt der Proben und des Merkmalsraums zu erhöhen. Diese verbesserten Beispieldaten werden anschließend in Datencontainer verpackt und zum Training in das Netz eingespeist, wodurch die

Generalisierungsfähigkeit des Modells und sein Lerneffekt bei spärlichen Kategorien verbessert werden.

Die MES-Methode implementiert also ein Resampling von Bildern, die spärliche Kategorien enthalten, basierend auf der Spärlichkeit der Beispielkategorien, einschließlich des Samplings von

Pixeln der spärlichen Kategorien mit gemeinsamen Kategorien, um die Kontextinformationen in den Lerndaten des Netzwerkmodells anzureichern; und durch die Erhöhung der Anzahl der

Stichproben für das Training der spärlichen Kategorien verbessert sie die Fähigkeit des Modells/602246 die spärlichen Kategorien während des Trainingsprozesses zu erkennen.

Vorteilhafte Wirkungen der vorliegenden Erfindung:

Das Design des MES der vorliegenden Erfindung kombiniert die Funktionen eines

Datenladers und eines Samplers, um einen flexiblen Weg zum Umgang mit dem Problem des

Datenungleichgewichts als Komponente eines Deep-Learning-Rahmens zu bieten. Zunächst ermittelt das MES statistisch die Pixelhäufigkeit jeder Kategorie, indem es die Pixelmenge jeder

Kategorie von Proben im Trainingsdatensatz berechnet. Dann wird unter Verwendung der

Softmax-Funktion als Prototyp-Formel die Resampling-Wahrscheinlichkeit jeder Kategorie anhand der Pixelhäufigkeiten der Kategorieproben berechnet, so dass die Resampling-

Wahrscheinlichkeit jeder Kategorie umgekehrt proportional zu den Pixelhäufigkeiten in Form von

Myopie ist. Die MES-Methode löst das Problem der Unausgewogenheit der Stichproben, indem sie die Stichprobenverteilung während des Netzwerktrainings dynamisch anpasst, um die Leistung des Modells zu verbessern, und sie wird mit der Datenanreicherung kombiniert, um das Risiko einer Überanpassung durch Resampling zu vermeiden und die Generalisierungsleistung des

Modells zu verbessern.

Das MES der vorliegenden Erfindung stellt sicher, dass das Netzwerkmodell die Stichproben der spärlichen Kategorien nach dem Durchlaufen der Trainingsstichproben mit Hilfe eines speziellen Stichprobendesigns erneut abtastet. In der Resampling-Phase kann durch die Erhöhung der Sampling-Wahrscheinlichkeit der spärlichen Kategorien diesen Kategorien während des

Trainingsprozesses mehr Aufmerksamkeit gewidmet werden, wodurch das Problem der

Trainingsverzerrung aufgrund eines Datenungleichgewichts gemildert und die Fähigkeit des

Modells, diese Kategorien zu erkennen, verbessert wird.

Das MES der vorliegenden Erfindung erweitert den Merkmalsraum der Trainingsdaten, indem es nach der Auswahl der Beispielbilder und vor der Eingabe in das Netzwerkmodell eine zufällige Datenverbesserung (z. B. Spiegeln, Skalieren, Drehen usw.) an den Beispielbildern vornimmt, so dass das Modell während des Trainingsprozesses vielfältigere Daten sieht und die

Robustheit und Generalisierungsfähigkeit des Modells verbessert.

Das MES der vorliegenden Erfindung ist flexibel gestaltet und enthält drei einstellbare

Hyperparameter (Glättungsparameter für die Abtastwahrscheinlichkeit T, Resampling-Verhältnis

Cr, Minimum Pixel Threshold P) und einstellbare Datenanreicherungsmethoden. In der praktischen

Anwendung kann es entsprechend der spezifischen Datensatzsituation eingestellt werden, um sich an verschiedene Datensätze anzupassen und seine Effektivität und Vielseitigkeit in einem breiten

Spektrum von Anwendungsszenarien zu erhalten.

Das MES der vorliegenden Erfindung automatisiert die Logik des Resamplings und der

Datenanreicherung, wodurch das Lernen von spärlichen Stichproben durch das Netzwerk effizienter und systematischer wird; das MES erfordert keine zusätzliche Datenverarbeitung oder ein spezielles Netzwerkdesign und löst das Problem des Stichprobenungleichgewichts auf der

Datenebene als Netzwerksampler, der als Plug-and-Play-Lôsung für semantische

Segmentierungsnetzwerke eingesetzt werden kann, um die Einschränkungen des Problems des

Datenungleichgewichts für die Leistung des Netzwerks zu verringern.

Natürlich müssen bei der Umsetzung eines der Produkte der vorliegenden Erfindung nicht unbedingt alle oben beschriebenen Vorteile gleichzeitig erreicht werden.

Beschreibung der beigefügten Zeichnungen

Um die technischen Lösungen der Ausführungsformen der vorliegenden Erfindung deutlichk}/602246 zu veranschaulichen, werden im Folgenden kurz die begleitenden Zeichnungen vorgestellt, die fur die Beschreibung der Ausfithrungsformen verwendet werden müssen, und es ist offensichtlich, dass die begleitenden Zeichnungen in der folgenden Beschreibung nur einige der

Ausführungsformen der vorliegenden Erfindung sind, und für die Person mit gewöhnlichen

Kenntnissen auf dem Gebiet konnen andere begleitende Zeichnungen entsprechend diesen

Zeichnungen ohne kreative Arbeit erhalten werden.

Bild 1 zeigt ein schematisches Diagramm von manuell beschrifteten Etiketten fiir den Dali-

Datensatz;

Bild 2 zeigt ein schematisches Diagramm von Pixelstatistiken von Trainingsprobenkategorien für den Dali-Datensatz;

Bild 3 zeigt ein schematisches Diagramm von manuell beschrifteten Etiketten fir den

Gersten-Fernerkennungs-Datensatz;

Bild 4 zeigt ein schematisches Diagramm von Pixelstatistiken von Trainingsprobenkategorien für den Gersten-Fernerkennungs-Datensatz;

Bild 5 zeigt ein schematisches Diagramm der experimentellen Ergebnisse des Dali-

Datensatzes; und

Bild 6 zeigt ein schematisches Diagramm der Anderungskurve des Trainingsverlustes jeder

Methode mit Iterationsperiode;

Bild 7 ist ein schematisches Diagramm der Kurve der Veränderung des Trainingsverlustes mit der Iterationsperiode für die grüne Gemüsekategorie (Schwanzkategorie);

Bild 8 ist ein schematisches Diagramm der experimentellen Ergebnisse des Gersten-

Fernerkundungsdatensatzes;

Bild 9 ist ein schematisches Diagramm der Wiederabtastungsfrequenz der Kategorie, die verschiedenen T-Werten des Dali-Datensatzes entspricht;

Bild 10 ist ein schematisches Diagramm der Anzahl der Pixel der abgetasteten Proben, die verschiedenen a-Werten des Dali-Datensatzes (T=0,05) entsprechen;

Bild 11 zeigt ein schematisches Diagramm der Anzahl der Pixel der abgetasteten Proben (a=1), die den verschiedenen T-Werten im Dali-Datensatz entsprechen.

Detaillierte Beschreibung

Die technischen Lösungen in den Ausführungsformen der vorliegenden Erfindung werden im

Folgenden in Verbindung mit den beigefügten Zeichnungen in den Ausführungsformen der vorliegenden Erfindung klar und vollständig beschrieben, und es ist offensichtlich, dass die beschriebenen Ausführungsformen nur einen Teil der Ausführungsformen der vorliegenden

Erfindung und nicht alle Ausführungsformen darstellen. Ausgehend von den Ausführungsformen der vorliegenden Erfindung fallen alle anderen Ausführungsformen, die von einem Fachmann ohne schöpferische Arbeit erreicht werden, in den Schutzbereich der vorliegenden Erfindung.

Ausführungsform 1

Um das Problem der relativen Knappheit von Stichproben in der Schwanzklasse in den

Trainingsdaten zu lösen, wird ein Resampling-Schema für die knappen Stichproben entwickelt:

Das MES analysiert zunächst die Häufigkeit des Auftretens jeder Kategorie und weist auf diese

Weise jeder Kategorie eine Stichprobenwahrscheinlichkeit zu, wobei die Schwanzklasse eine höhere Stichprobenwahrscheinlichkeit erhält. Bei der Klassifizierungsaufgabe auf Pixelebene sind die Instanzobjekte Pixel, und das MES zählt bei der Berechnung der

Ny HW ic p EA ss (9) © Ngo HxW (1) wobei: (47) -Pixelkoordinaten; (i,7,¢) Lo

Ys” _Indikatorfunktion, die den Wert 1 annimmt, wenn die Pixelkoordinaten (47) der

Kategorie c angehören, und andernfalls O;

HxW __BildgrôBe;

Ns _Anzahl der Bilder;

C - Kategorie; (7) _pixelkoordinaten.

Die Stichprobenwahrscheinlichkeit FL einer Kategorie c ist definiert als eine Funktion ihrer

Haufigkeit Je. p- LT

Na" 9)

Dabei gilt: T-Glättungsparameter,

C-Gesamtzahl der Kategorien; ¢' die ¢ -te Kategorie

Daher haben weniger häufige Kategorien höhere Stichprobenwahrscheinlichkeiten, und die

Stichprobenverteilung wird durch die Softmax-Funktion und den angegebenen

Glattungsparameter angepasst. Der Parameter T steuert die Glattung der Verteilung: Je höher der

Wert von T ist, desto homogener ist die Verteilung der Stichprobenwahrscheinlichkeit Fe je niedriger der Wert von T ist, desto höher ist die Stichprobenwahrscheinlichkeit der spärlichen

Kategorien. Für jedes Beispielbild wird die entsprechende Kategorie aus der

Wahrscheinlichkeitsverteilung “PP ausgewählt, und dann wird ein Bild aus der Teilmenge der

Daten, die diese Kategorie enthält, entnommen. Dies kann mathematisch wie folgt ausgedrückt werden.

I ~ uniform (XY, ) (3)

Wobei: !- -Stichprobenbild;

Ls -Untermenge von Stichproben im Datensatz, die die Kategorie c enthalten;

Nach der Auswahl der Schwanzkategorien stellt die einheitliche Stichprobenmethode sicher, dass die Stichprobenauswahl nicht zu bestimmten Stichproben in der Teilmenge verzerrt ist, was dazu beiträgt, die Verzerrung bei der Stichprobenauswahl zu verringern. Gleichung (2) ermoglicht/602246 es dem Modell, Bilder, die spärliche Kategorien enthalten, auf der Grundlage der Spärlichkeit der

Stichprobenkategorien neu zu stichprobenartig auszuwählen, wodurch der Effekt einer ausgewogenen Stichprobenauswahl über alle Kategorien hinweg erzielt wird. Die Stichproben der spärlichen Kategorien koexistieren in der Regel mit mehreren Stichproben gemeinsamer

Kategorien in einem einzigen Bild, so dass bei der Neuabtastung nicht nur die Pixel der spärlichen

Kategorien, sondern auch die der gemeinsamen Kategorien abgetastet werden, was die kontextuellen Informationen in den Lerndaten des Netzwerkmodells bereichert.

Der Kerngedanke von MES besteht darin, das Modell in die Lage zu versetzen, den seltenen

Kategorien in der Trainingsmenge mehr Aufmerksamkeit zu schenken, indem es ein Resampling auf der Grundlage der Häufigkeit der seltenen Kategorien vornimmt. Der Hauptzweck des

Resamplings besteht darin, die Anzahl der Stichproben von seltenen Kategorien zu erhöhen, um die Fähigkeit des Modells zu verbessern, seltene Kategorien während des Trainingsprozesses zu erkennen. Um zu vermeiden, dass die Anzahl der Pixel der spärlichen Kategorien in dem neu abgetasteten Beispielbild zu gering ist, wird der Parameter P für die Mindestanzahl der abgetasteten Pixel eingeführt, um sicherzustellen, dass die Merkmale der neu abgetasteten

Kategorien ausreichend sind, um ungiiltiges oder ineffizientes Resampling zu vermeiden. Der entworfene Schwellenwert P ist einstellbar, um sicherzustellen, dass er flexibel auf verschiedene

Datensätze angewendet werden kann.

Um eine Uberanpassung zu vermeiden, wird beim Netztraining häufig eine

Datenverbesserung vorgenommen. Zu den häufig verwendeten Methoden der Datenverbesserung gehören zufälliges Spiegeln, Skalieren, Drehen, Beschneiden usw., die den Merkmalsraum erweitern, die Vielfalt innerhalb der Klassen erhöhen und die Generalisierungsfähigkeit des

Modells verbessern können. Die Strategie der universellen Anwendung der gleichen Intensität der

Datenverbesserung auf alle Klassen ist jedoch nicht auf Datensätze mit langem Schwanz anwendbar, da die unausgewogene Verteilung der Klassen in Datensätzen mit langem Schwanz zu

Inkonsistenzen in der Wirkung der Erweiterung des Merkmalsraums über die Klassen hinweg führt.

Aus diesem Grund führt MES-Datenanreicherungsoperationen an den neu abgetasteten

Stichproben der spärlichen Kategorien durch, um den Merkmalsraum der spärlichen Kategorien zu erweitern und die Ausgewogenheit des Merkmalsraums zu verbessern.

Im Folgenden wird der detaillierte Ablauf der Implementierung der

Stichprobenerweiterungsmethode für spärliche Stichproben beschrieben:

Algorithmus 1 MES-Algorithmus LU602246 1: i ) ; wo mt S — 4 >

Eingabe: Datensatz & = (Ay, fact wobei LEX SRE =1, om,

Anzahl der Bilder N; Glättungsparameter T, Kategorie

Mindestpixelschwelle P; Wiederabtastverhältnis a. 2: Ausgabe: Verbessertes spärliches Musterbild I 3: for m=N to (a+1)N do es Py # Ermittlung der Kategorien nach der 4:

Formel für die Stichprobenwahrscheinlichkeit (2) Ë 5. Es anitormiX, 2} # Bilder, die die Kategorie © enthalten 6: for f in D ft, = Count pixels ( E 7: “9 8: it ns = p 9: I. = Augment( fs) 10: out put I 11: else 12: continue 13: end for

Ablauf des MES-Algorithmus: 1. Initialisierung: Der MES liest zunächst den Datensatz und die zugehörigen Parameter aus der Konfigurationsdatei, um das Basisdatensatzobjekt zu erstellen. Anschließend liest er die statistischen Informationen der Trainingsmenge und berechnet die Pixelhäufigkeit Je jeder

Kategorie gemäß Formel (1). Unter Verwendung von Je und dem vorgegebenen

Glättungsparameter T wird die Stichprobenwahrscheinlichkeit Fe jeder Kategorie nach Formel (2) berechnet. 2. Gewinnung von (spärlichen Kategorie-)Stichproben: Auswahl einer Kategorie gemäß der

Wahrscheinlichkeitsverteilung £ und zufällige Auswahl eines Stichprobenbildes aus den

Stichproben, die die Kategorie enthalten, anhand der zuvor gewonnenen Stichprobenstatistiken, und Überprüfung, ob die Anzahl der Pixel der Zielkategorie in der Stichprobe den

Mindestpixelschwellenwert P erreicht. Wenn die Anzahl der Pixel den Mindestpixelschwellenwért/602246

P erreicht, wird eine zufällige Datenerweiterung des Stichprobenbildes durchgeführt und zurückgegeben; andernfalls wird versucht, eine bessere Stichprobe zu erhalten. Probe. 3. Datenverbesserung: Durchführung einer Reihe von zufälligen

Datenverbesserungsoperationen an ausgewählten Beispielbildern, einschließlich Drehung,

Anpassung von Helligkeit, Kontrast und Schärfe. Die Datenverbesserung vermeidet das Risiko einer Uberanpassung durch Resampling und verbessert die Generalisierungsfähigkeit des Modells. 4. Eingabe der bearbeiteten Beispielbilder in das Netzwerkmodell zum Trainieren.

Ausführungsform 2

In dieser Studie werden der Dali-Datensatz und der öffentlich zugängliche Gersten-

Fernerkundungsdatensatz (Barley Remote Sensing Detection Dataset, BRSD) der Ali Tianchi-

Plattform als Datenquellen verwendet, die beide durch die komplexe Anbaustruktur einer typischen Gebirgsregion in der Hochebene gekennzeichnet sind, und die Erntekategorien weisen eine langschwänzige Verteilung auf. Die Kulturen wurden durch vier Benchmark-Netzwerke,

Benchmark-Netzwerke in Kombination mit Datenerweiterung (+DA) und Benchmark-Netzwerke in Kombination mit sparse samples enhanced sampling (+MES) fein klassifiziert und verglichen, um die Effektivität der Methode der vorliegenden Erfindung vollständig zu überprüfen.

Schließlich wird der Einfluss der MRS-Hyperparametereinstellungen auf die

Klassifizierungsergebnisse durch eine Hyperparameter-Sensitivitätsstudie von MES analysiert.

Datenquelle

Dali-Datensatz

Der Dali-Datensatz wurde im Dorf Longshi in der Stadt Dali in der autonomen Präfektur Dali

Bai in der Provinz Yunnan erhoben, wo die Ackerflächen fein zersplittert und die Anbauformen zahlreich und verstreut sind. Die UAV-Bilddaten wurden am 3. August 2022 mit einer DJI

PHANTOM 4 RTK UAV-Plattform aufgenommen, die mit einem 1-Zoll-CMOS-Sensor mit

Objektiven von 8,8 mm und 24 mm Brennweite und 20 Millionen effektiven Pixeln ausgestattet ist. Die räumliche Auflösung des Orthofotobildes des Untersuchungsgebiets betrug 0,0285 m. Das

Untersuchungsgebiet wurde in einen Trainings- und einen Testsatz unterteilt, wobei die Bildgröße des Trainingssatzes 1850 x 9655 Pixel und die Bildgröße des Testsatzes 1001 x 1001 Pixel betrug.

Auf der Grundlage der Feldkartierungsdaten wurden die beiden Bilder mit der Software Labelme manuell beschriftet. Die Etiketten wurden in acht Musterkategorien eingeteilt: Mais, Reis, Sellerie, grüne Zwiebel, Bok Choy, Salat, Koriander und Hintergrundkategorien. Bei der Etikettenkarte handelt es sich um eine einkanalige Graustufenkarte mit einer Bittiefe von 8 Bit. Der gleitende

Zuschnitt erfolgt entsprechend der Größe von 512 x 512 Pixeln mit einer Uberlappung von 128

Pixeln, und der Zuschnittprozess zählt 1432 Bilder für die Trainingsmenge und 676 Bilder für die

Testmenge. Die Verteilung der Pixelstatistiken für die künstlichen Etiketten und die Kategorien der Trainingsmuster des Dali-Datensatzes sind in Bild 1 bzw. Bild 2 dargestellt.

Gersten-Fernerkundungsdatensatz

Der Gersten-Fernerkundungsdatensatz stammt aus der 2019 Ali Tianchi County Agricultural

Brain AI Challenge, und die Daten wurden auf einem Ackerland in Xingren City, Qianxinan Buy1 and Miao Autonomous Prefecture, Guizhou Province gesammelt. Der Datensatz enthält fünf Arten von Musterelementen: Hintergrund, gerôsteter Tabak, Mais, Gerste und Gebäude, und die entsprechenden Beschriftungen sind in Bild 3 dargestellt. In dem Experiment werden Bild 1 und

Bild 2 für das Training und Bild 3 für die Tests verwendet. Bild 1 und Bild 2 werden gleitend auf eine Größe von 512 x 512 Pixel zugeschnitten, und es wird keine Uberlappung eingestellt (0 Pixel

Überlappung). Während des Zuschneidevorgangs werden keine elementaren Bilder ausgesiettJ/602246 was zu 5926 Bildern führt, von denen 80 % für das Training und 20 % für die Validierung verwendet werden. Elementfreie Bilder sind beschnittene Bilder, die keine gültigen Elemente im

Originalbild und seinem beschrifteten Bild enthalten, die normalerweise im Randbereich des

Originalbildes bei rechteckigem Beschnitt auftreten, und diese Art von Bildern, die für das

Training verwendet werden, führt zu Datenredundanz. Das Testbild 3 wurde mit einer Größe von 512 x 512 Pixeln mit einer Überlappung von 128 Pixeln gleitend beschnitten, und aus dem

Beschnitt wurden 6517 Bilder gewonnen. Die Pixelverteilung der Bilder des Gersten-

Fernerkundungsdatensatzes und die Kategorien der Trainingsbeispiele sind in Bild 3 bzw. Bild 4 dargestellt.

Bewertungsmetriken

Durch die Annahme der Genauigkeit auf Pixelebene zur Bewertung der

Ernteklassifizierungsergebnisse werden im Rahmen der vorliegenden Erfindung zwei

Hauptbewertungsindizes für die semantische Segmentierung bei der

Ernteklassifizierungsgenauigkeit festgelegt, nämlich die mittlere Schnittmenge über die Union (mIoU) und der F1-Score, die nach den folgenden Formeln berechnet werden:

TP

KAT (3)

A TP

Precision = Pp (4)

TP

Recall = PEN (5)

Fl= 2x Precision x Rrcall (6)

Precision+ Rrcall

Dabei steht TP für einen wahren Fall, TN für einen wahren negativen Fall, FP für einen falsch positiven Fall, FN für einen falsch negativen Fall und mIoU und mF1 für den Durchschnitt aller

IoU- bzw. F1-Werte der Kategorie. 1 C

Macro F1==>"F1, (7)

CA wobei C die Gesamtzahl der Kategorien und Fl die Punktzahl für Kategorie Fl Kategorie ! ist.

In einem unausgewogenen Datensatz ist der mF1-Score (Macro F1) ein besserer Indikator für die Klassifizierungsleistung des Modells. mF1-Scores sind in Bezug auf Präzision und Recall der

Klassen gleich gewichtet. mF1-Scores geben jeder Kategorie das gleiche Gewicht, unabhängig von der Anzahl der Stichproben in der Kategorie. Daher spiegelt der mF1-Score die kombinierte

Leistung des Modells für jede Kategorie besser wider, insbesondere für die Kategorien mit weniger

Stichproben.

Analyse der experimentellen Ergebnisse

Um die Anwendbarkeit der Methode der vorliegenden Erfindung in semantischen Deep-

Learning-Segmentierungsnetzwerken zu validieren, werden die Ernteklassifizierungsergebnisk&/602246 von MES unter gleichen Parametern in verschiedenen Benchmark-Modellen durch experimentellen Vergleich analysiert. Die Benchmark-Modelle umfassen typische CNN-

Architektur-Netzwerke (Deeplablv3+ und SegNeXt) und typische Transformer-Architektur-

Netzwerke (SegFormer und Swin Tansformer).

Experimentelle Softwareumgebung: Windows-Betriebssystem, PyTorch 1.10.1 Deep

Learning Framework und Python3.8 Entwicklungsumgebung. Experimentelle Hardware-

Umgebung: Prozessor Intel Core 17-13700KF, Grafikkarte NVIDIA GeFrce RTX 3090,

Grafikspeicher 24G, Laufspeicher 64G. Experimentelle Parametereinstellungen: Trainingsbereich

Daten in Übereinstimmung mit der 8:2 zufälligen Teilung des Trainingssets und Validierungssets.

Die Verlustfunktion ist Cross Entropy Loss (CE). Für das Training des Netzes wurde der Adam W-

Optimierer mit einem Momentum von 0,9 verwendet, mit einer anfänglichen Lernrate von 0,00006 und einem Gewichtsabfall von 0,01. Die Größe der Trainingsmenge betrug 16, die Anzahl der

Threads 4, die Gesamtdauer der Trainingsiterationen 100 Epochen, und die optimalen mIoU-

Gewichte wurden während des Trainingsprozesses immer gespeichert. Die endgültigen Ergebnisse der Experimente werden durch den Testsatz zur Bewertung der Genauigkeit erzielt.

Experimentelle Analyse des Dali-Datensatzes

Für den Dali-Datensatz werden die folgenden MES-Hyperparameter für den Long-Tail-Grad, die Größe des Datenvolumens und die Größe der Bildeingabe verwendet: T=0,05; X#=1; P=100000.

Tabelle 1 Präzisionsbewertung der experimentellen Ergebnisse des Dali-Datensatzes

Kategorie/IoU Gesamtindikator

Methodologien Hintergrund Reis Mais Sellerie Schalotten Grüner Kopfsalat Koriander | mIoU mF1

Deeplabv3+ 94.09 97.27 94.06 87.22 93.04 6547 84.13 40.22 81.94 88.75

Deeplabv3+(DA) 93.90 96.08 93.05 8719 93.87 63.62 87.78 43.00 82.31 89.08

Deeplabv3+(MES) 94.81 97.43 95.27 86.86 93.37 66.16 87.23 48.55 83.71 90.17

SegFormer 94.56 97.14 953 85.22 91.59 58.32 79.53 41.26 80.36 87.71

SegFormer(DA) 94.98 96.79 95.43 84.70 92.20 63.77 81.92 59.73 83.69 90.48

SegFormer(MES) 95.22 97.73 95.74 86.77 93.96 69.31 83.14 53.07 84.37 90.75

Swin T 94.88 98.12 94.88 84.77 93.84 5917 85.28 53.31 83.03 89.79

Swin T(DA) 94.52 97.36 93.98 8538 94.26 6242 91.27 53.57 84.09 90.49

Swin T(MES) 94.73 97.68 9420 85.78 94.00 66.68 90.27 59.77 8539 91.51

SegNeXt 93.27 96.45 93.12 7781 91.22 4848 57.74 46.43 75.56 84.50

SegNeXt(DA) 95.01 96.70 95.34 83.98 92.95 6255 62.24 60.26 81.13 88.74

SegNeX(MES) 94.58 97.42 94.77 85.89 93.18 6127 83.11 50.55 82.60 89.50

DA steht für die Ergebnisse des Experiments zur Datenanreicherung.

Wie aus Tabelle 1 ersichtlich, können die Auswirkungen des Problems der unausgewogend/602246

Stichproben auf die Klassifizierungsergebnisse durch Datenanreicherung bis zu einem gewissen

Grad verbessert werden. Die Behandlung der Datenanreicherung kann das Lernen des Netzwerks von Pflanzenkategoriemerkmalen vertiefen und die Generalisierungsleistung des Modells verbessern. Die Methoden der vorliegenden Erfindung verbessern alle die Klassifizierungsleistung des Benchmark-Modells. Verglichen mit der Datenverbesserungsmethode allein, erzielt die

Methode der vorliegenden Erfindung mIoU-Gewinne von +1,10%, +0,68%, +1,30%, +1,47% und mF1-Gewinne von +1,09%, +0,27%, +1,08%, +0,76% für die Klassifizierung in den vier

Benchmark-Modellen, was die Gültigkeit und Allgemeinheit der Methode der vorliegenden

Erfindung bestätigt. Wie aus der loU-Leistung jeder Kategorie ersichtlich ist, ist die Verbesserung der Schwanzkategorie offensichtlich, und die Gesamtverbesserung kommt nicht nur von den

Proben der Schwanzkategorie. Bild 5 zeigt ein Beispiel für die experimentellen Ergebnisse der

Methode der vorliegenden Erfindung auf dem Dali-Datensatz. Wie aus Bild 5 ersichtlich ist, verbessert das erfindungsgemäße Verfahren den Erkennungseffekt der einzelnen Benchmark-

Modelle effektiv. Das rote Rechteck Highlights in dem Bild zeigen die Verarbeitung von jeder

Methode für den detaillierten Teil des Schwanzes Klasse, und die Methode der vorliegenden

Erfindung effektiv mildert die Kategorie Verwirrung der einzelnen Benchmark-Methode, die die

Wirksamkeit der Methode der vorliegenden Erfindung verifiziert.

Die Änderungskurve des Trainingsverlustes kann die Trainingsdynamik des Modells widerspiegeln, und Bild 6 zeigt die Änderungskurve des Trainingsverlustes mit der

Iterationsperiode jeder Methode, und die Konvergenz des Netzmodells kann anhand der

Verlustkurve beobachtet werden. Wie aus Bild 6 ersichtlich ist, zeigt die Methode der vorliegenden

Erfindung eine beschleunigte Modellkonvergenz in jedem Benchmark-Netzwerk, und die

Verluständerung ist glatter und stabiler, was die Wirksamkeit sowie die Vielseitigkeit der Methode der vorliegenden Erfindung bestätigt. Die Stichproben der Minderheitsklassen in der Long-Tailed-

Verteilung sind schwer effektiv zu trainieren und stellen normalerweise den Engpass für die

Modellkonvergenz dar. Der schnell abnehmende Verlust zeigt an, dass sich das Modell besser an die Long-Tailed-Daten anpassen und die Lerngewichte der Long-Tailed-Klassen optimieren kann.

Der Beitrag von Minderheitsklassenmerkmalen zum Verlust wird durch die Einführung eines kategorienausgeglichenen Lernmechanismus schneller erfasst. Um die Auswirkung von MES auf die Tail-Kategorien während des Netzwerktrainings zu beobachten, wird in Bild 7 am Beispiel der

Kategorie „Grünes Gemüse“ die Kurve des Trainings-IoU der Kategorie „Grünes Gemüse“ als

Funktion der Iterationsperiode dargestellt. Die Ergebnisse zeigen, dass MES es dem Netzmodell ermöglicht, die spärlichen Klassenmerkmale früher zu erlernen, und verhindert, dass das Netz die

Vorhersage der Hauptklasse zu früh anhäuft.

Experimentelle Analyse des Gersten-Fernerkundungsdatensatzes

Die vorliegende Erfindung verifiziert die Generalisierungsleistung der Methode der vorliegenden Erfindung anhand eines Gersten-Fernerkundungsdatensatzes. Unter

Berücksichtigung des langschwänzigen Schichtgrads des Datensatzes, der Größe des

Datenvolumens und der Größe des Bildeingangs werden die MES-Hyperparameter in den

Experimenten wie folgt festgelegt: t=0,1; &=0,2; p=100000. Die Ergebnisse der

Genauigkeitsbewertung sind in Tabelle 2 dargestellt.

Tabelle 2 Bewertung der Genauigkeit der experimentellen Ergebnisse des Gersten-

Fernerkundungsdatensatzes

Kategorie/IoU Gesamtindikator

Hinterg Bauwe

Methodologien Tabak Mais Gerste mloU mFl1 rund sen

Deeplabv3+ 91.58 72.26 59.95 73.19 77.08 74.81 85.21

Deeplabv3+HDA) 92.13 78.35 61.47 77.57 76.89 77.28 86.84

Deeplabv3+(MES) 92.31 80.10 60.23 77.42 78.22 77.65 87.04

SegFormer 91.59 75.24 58.42 73.54 75.98 74.95 85.27

SegFormer(DA) 74.68 72.51 58.43 75.22 75.52 74.68 85.08

SegFormer(MES) 91.38 80.99 56.84 73.83 77.06 76.02 85.89

Swin T 91.00 64.60 58.84 65.71 78.32 71.69 83.00

Swin T(DA) 90.45 66.55 52.36 68.98 72.43 70.15 81.86

Swin T(MES) 91.99 75.25 58.63 73.91 79.50 75.85 85.84

SegNeXt 92.05 69.55 57.48 74.14 77.62 74.17 84.69

SegNeXt(DA) 91.96 75.52 59.15 75.94 77.71 76.05 85.99

SegNeXt(MES) 92.30 77.88 58.72 76.45 78.92 76.86 86.49

DA bezeichnet die Ergebnisse der Datenverbesserungsexperimente.

Aus Tabelle 2 geht hervor, dass die Methode der vorliegenden Erfindung mIoU-Gewinne von +2,84 %, +1,07 %, +4,16 %, +2,69 % und mF 1-Gewinne von +1,83 %, +0,62 %, +2,84 %, +1,8 % gegenüber dem ursprünglichen Basismodell erzielt. Es ist erwähnenswert, dass die einfache stochastische Datenerweiterung bei einigen Netzwerken zu einer Verringerung der

Klassifizierungsgenauigkeit führte, und zwar bei allen Netzwerkmodellen, die auf Transformer basieren, der sich auf einen globalen Aufmerksamkeitsmechanismus stützt, um die entfernungsabhängigen Merkmale der Daten zu erfassen. Wenn jedoch die

Datenanreicherungsstrategie die Long-Tailed-Verteilung nicht angemessen berücksichtigt, können die generierten Anreicherungsproben in Richtung der Mehrheitsklasse verzerrt sein, was die

Dominanz der Mehrheitsklassenmerkmale weiter ausbaut und zu einer Verschlechterung der

Unterscheidungsfähigkeit des Modells führt. Im Vergleich dazu verfügt der Gersten-

Fernerkundungsdatensatz über mehr geeignete Stichproben und das Long-Tail-Problem ist weniger schwerwiegend. Weitere Experimente mit diesem Datensatz zeigen die Wirksamkeit und die gute Generalisierungsfähigkeit der Methode der vorliegenden Erfindung in diesem Szenario.

Bild 8 zeigt ein Beispiel für experimentelle Ergebnisse mit dem Fernerkundungsdatensatz

Barley. Wie aus dem Bild ersichtlich ist, verbessert die MES-Methode effektiv die interne

Integrität und den Grenzkontureffekt jedes Benchmark-Netzes für die Parzellenidentifizierung.

Bei der Identifizierung von Gebäuden (Schwanz-Kategorie) zeigen die Identifizierungsergebnisse der einzelnen Methoden unterschiedliche Grade des „Brezel“-Phänomens, wobei die MES-

Methode das am wenigsten ausgehöhltes Phänomen zeigt, was ein weiterer Beweis dafür ist, dass die Einführung des MES-Mechanismus die Klassifizierungsfähigkeit von spärlichen Stichproben / 602246 verbessern kann.

Hyperparametrische Empfindlichkeitsanalyse

Für die MES werden drei einstellbare Hyperparameter festgelegt, damit sie auf Datensätze mit unterschiedlichen Verteilungen angewendet werden können. Der Hyperparameter T wird verwendet, um die Glätte der Stichprobenwahrscheinlichkeitsverteilung einzustellen; der

Hyperparameter @ wird verwendet, um das Resampling-Verhältnis des MES einzustellen; und der

Hyperparameter P wird verwendet, um die Mindestanzahl von Pixeln der Sparse-Klasse zu steuern, die im Stichprobenbild des MES enthalten sind. Die vorliegende Erfindung bezieht sich auf den

Parameter, der zur Steuerung der Mindestanzahl der zurückbehaltenen Stichprobenpixel in der

Online Hard Example Mining (OHEM)-Methode verwendet wird, und legt den Standardwert

P=100000 fest. Um die Empfindlichkeit der Parameter T und ¢ in MES zu analysieren, verwendet die vorliegende Erfindung SegFormer als Benchmark-Netzwerk, um Experimente mit dem Dali-

Datensatz durchzuführen, und analysiert die Auswirkungen verschiedener Parametereinstellungen auf die Ernteklassifizierungsergebnisse durch die Steuerung von Variablen. Die experimentellen

Ergebnisse sind in den Tabellen 3 und 4 dargestellt.

Tabelle 3 Experimentelle Ergebnisse der MES-Hyperparameteranalyse von SegFormer für den Dali-Datensatz (01)

Kategorie/IoU Gesamtindikator . . . . . mFl

Hintergrund Reis Mais Sellerie Schalotten Grüner Kopfsalat Koriander | mIoU w/o 94.56 97.14 9530 85.22 91.59 5832 79.53 41.26 80.36 87.71

MES w/

MES 94.59 97.67 9495 86.11 93.37 64.09 82.69 47.11 82.57 89.41 7=0.005 w/

MES 94.73 97.45 9528 85.74 93.67 6734 80.01 47.19 82.68 89.52 7=0.01 w/

MES 95.22 97.73 95.74 86.77 93.96 69.31 83.14 53.07 84.37 90.75

T=0.05 w/ 94.87 91.63 9445 84.11 93.58 6136 79.33 54.77 81.76 89.19

MES

T=0.1 w/

MES 94.79 95.02 95.29 84.75 94.01 64.81 83.00 43.33 81.88 88.86

T=0.5

Tabelle 4 Experimentelle Ergebnisse der MES-Hyperparameteranalyse von SegFormer im

Dali-Datensatz (T=0,05)

Kategorie/IoU Gesamtindikator . . . . . mFl

Hintergrund Reis Mais Sellerie Schalotten Grüner Kopfsalat Koriander mloU w/o 94.56 97.14 9530 8522 91.59 5832 79.53 41.26 80.36 87.71

MES w/

MES 94.77 97.02 95.53 8641 93.23 6692 79.10 45.07 82.26 89.17 o=0.2 w/

MES 94.96 96.13 95.43 85.39 92.99 63.16 85.19 44.39 82.21 89.06 o=0.5 w/

MES 95.22 9773 95.74 86.77 93.96 69.31 83.14 53.07 84.37 90.75 o=l w/

MES 94.49 96.21 9486 86.10 93.01 6485 7941 52.13 82.63 89.66 o=2

Aus den Tabellen 3 und 4 geht hervor, dass der Glättungsparameter für die

Stichprobenwahrscheinlichkeit T einen signifikanten Gesamtleistungsgewinn im Intervall [0,01, 0,5] beibehalt, wenn das Wiederabtastverhidltnis &% = 1 des MES ist, und das

Wiederabtastverhältnis Œ weist ebenfalls einen stabilen Leistungsgewinn im Intervall [0,2, 2] auf, wenn der Glattungsparameter fiir die Stichprobenwahrscheinlichkeit T = 0,05 ist. Die Wahl des

Glättungsparameters für die Stichprobenwahrscheinlichkeit T und des Wiederabtastverhältnisses @ kann auf der Grundlage intuitiver Strategien rational festgelegt werden: T kann beispielsweise entsprechend dem Grad des Long-Tail angepasst werden, indem die Anzahl der wiederabgetasteté/602246

Pixel maximiert wird, während « auf der Grundlage der Größe des Datensatzes bestimmt wird.

Auf der Grundlage der Standardstrategie kônnen die Parameter innerhalb eines bestimmten

Bereichs angepasst werden, wobei die Wirksamkeit der MES erhalten bleibt. Die hyperparametrische Sensitivitätsanalyse bestätigt außerdem die Stabilität der Methode der vorliegenden Erfindung und zeigt, dass sie in praktischen Anwendungen zuverlässig und verallgemeinerbar ist.

Die Bilder 9 und 10 zeigen die Häufigkeit der Neuabtastung und die Anzahl der abgetasteten

Pixel für verschiedene Werte von T. Wie aus den Bildern ersichtlich, ist die Verteilung der

Stichprobenwahrscheinlichkeit umso steiler, je kleiner der Wert von T ist, und der MES-

Mechanismus führt dazu, dass die Verteilung der Stichprobenwahrscheinlichkeit der Stichproben der hinteren Kategorien annähernd umgekehrt proportional zur Häufigkeitsverteilung der

Stichproben ist, so dass die spärlichen Kategorien einen größeren Anteil an der Neuabtastung ausmachen. Bild 11 zeigt die Anzahl der neu abgetasteten Pixel für verschiedene Werte von a beim

Netzwerktraining. Aus Bild 11 geht hervor, dass sich die Verteilung der Trainingsproben unter dem

Einfluss von MES allmählich ausgleicht, wenn die Anzahl der neu abgetasteten Proben (Anteil der

Neuabtastung) steigt. Außerdem ist in Bild 10 (rote Balken) zu erkennen, dass die Verteilung der

Stichproben dem Gleichgewichtszustand am nächsten kommt, wenn T = 0,05 ist, während die

Klassifizierungsgenauigkeit den höchsten Wert erreicht.

Die Einstellungen der MES-Hyperparameter waren ursprünglich so konzipiert, dass sie für eine Vielzahl von Datensätzen geeignet sind. Die tatsächliche Auswahl von Hyperparametern muss jedoch möglicherweise in Verbindung mit der Stichprobenverteilung vorab analysiert werden. Auf der Grundlage dieser Studie können weitere Forschungen durchgeführt werden, um die

Analysestrategie mit dem MES-Mechanismus zu integrieren und adaptive MES-Methoden für verschiedene Datensätze und Aufgabenszenarien zu erforschen.

Zusammenfassend lässt sich sagen, dass die vorliegende Erfindung für das Problem der unausgewogenen Stichproben bei der Ernteklassifizierung eine spärliche

Stichprobenerweiterungsmethode (MES) vorschlägt, die als verallgemeinerter Sampler dient, der für semantische Segmentierungsnetzwerke einsatzbereit ist. Das Verfahren 16st das Problem der

Verzerrung der Klassifizierungspixel aufgrund des Ungleichgewichts der Stichprobe im Datensatz, indem es die Wahrscheinlichkeit des Resamplings so gestaltet, dass sie annähernd umgekehrt proportional zur Häufigkeit der Kategoriepixel ist, und kombiniert mit der

Datenanreicherungsmethode, um die Generalisierungsfähigkeit des Modells zu verbessern. Die vorliegende Erfindung nimmt die Feinklassifizierung von UAV-Fernerkundungsbildern in

Hochgebirgsregionen als Beispiel und führt Experimente an zwei Datensätzen durch. Die

Ergebnisse zeigen, dass die Methode der vorliegenden Erfindung eine bessere

Leistungsverbesserung in allen vier semantischen Segmentierungsnetzwerken (einschließlich

CNN- und Transformer-Architekturen) aufweist, ohne die Anzahl der Netzwerkparameter zu erhöhen. Verglichen mit der reinen Datenanreicherungsmethode erfordert die MES keine zusätzliche Datenverarbeitung, und der Implementierungsprozess ist einfach und effizient; das

Hyperparameterdesign der MES ist flexibel und an unterschiedliche Datensätze und

Anwendungsumgebungen anpassbar, und die Stabilität und Zuverlässigkeit der vorliegenden

Erfindung wird durch eine Hyperparameter-Sensitivitätsanalyse überprüft. In der Zukunft wird die

Erfindung weitere strengere Hyperparameter-Analyse-Experimente durchführen und mit verschiedenen Datensätzen (z. B. Satelliten-Fernerkundungsbilder) kombinieren, um die MESV602246

Methode der adaptiven Datensätze zu erreichen. Die Umsetzung der Methode der vorliegenden

Erfindung hängt nicht von einer bestimmten Netzwerkarchitektur ab und kann auf dem Gebiet der semantischen Segmentierung weit verbreitet sein, insbesondere geeignet für die Klassifizierung von Pflanzen, die Analyse von Fernerkundungsbildern und andere Anwendungsszenarien, was dazu beiträgt, die Anwendung von Deep-Learning-Technologie in der Landwirtschaft

Feinklassifizierung Aufgaben zu fôrdern.

Die oben offengelegten bevorzugten Ausführungsformen der Erfindung sind nur als Hilfe bei der Darstellung der Erfindung gedacht. Die bevorzugten Ausführungsformen sind keine erschopfende Aufzählung aller Details, noch beschränken sie die Erfindung auf die spezifischen

Ausführungsformen nur beschrieben. Offensichtlich kônnen viele Modifikationen und Variationen in Übereinstimmung mit dieser Beschreibung vorgenommen werden. Diese Ausführungsformen werden in dieser Beschreibung ausgewählt und speziell beschrieben, um die Prinzipien und praktischen Anwendungen der vorliegenden Erfindung besser zu erklären, so dass die Fachleute auf dem Gebiet, zu dem sie gehôrt, die Erfindung gut verstehen und nutzen kônnen. Die vorliegende Erfindung ist nur durch die Ansprüche und deren gesamten Umfang und Aquivalente begrenzt.

Claims

Ansprüche LU602246

1. Ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben, dadurch gekennzeichnet, dass es die folgenden Schritte umfasst: S1: statistisches Zählen von Stichprobeninformationen eines Trainingssatzes, Berechnen der Anzahl von Stichprobenpixeln jeder Kategorie im Trainingssatz und Berechnen der Pixelhäufigkeiten jeder Kategorie; S2: Berechnen einer Wiederabtastungswahrscheinlichkeit jeder Kategorie durch die Pixelhäufigkeiten jeder Kategorie unter Verwendung einer Softmax-Funktion als prototypische Formel, um die Wiederabtastungswahrscheinlichkeit jeder Kategorie zu erhalten; S3: Auswahl einer Kategorie auf der Grundlage der berechneten Neuabtastungswahrscheinlichkeit der Kategorie und Gewinnung eines Beispielbildes aus einer Teilmenge von Bildern, die die Kategorie enthalten; Prüfung, ob die Anzahl der Pixel der Zielkategorie, die in dem gewonnenen Bild enthalten sind, den Mindestpixelschwellenwert erfüllt, wenn ja, weiter mit S4, andernfalls erneute Gewinnung eines Bildes aus der Teilmenge von Bildern, das die Bedingung erfüllt; S4: Durchführen einer Datenanreicherung an den ausgewählten Bildern, um die Vielfalt und den Merkmalsraum der Proben zu vergrößern, und Eingeben in das Netzwerk zum Trainieren und Lernen.

2. Ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkörnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben nach Anspruch 1, dadurch gekennzeichnet, dass: der Schritt S1 insbesondere Folgendes umfasst: das MES analysiert zunächst die Häufigkeit des Auftretens jeder Kategorie und weist auf diese Weise jeder Kategorie eine Stichprobenwahrscheinlichkeit zu, wobei der hinteren Kategorie eine höhere Stichprobenwahrscheinlichkeit zugewiesen wird; Bei der Klassifizierungsaufgabe auf Pixelebene ist das Instanzobjekt ein Pixel, und das MES zählt zunächst die Anzahl der Pixel in jeder Kategorie, wenn es die Stichprobenwahrscheinlichkeitsverteilung berechnet; für jede Kategorie C in dem Datensatz kann ihre Häufigkeit Je auf der Grundlage der Anzahl der Pixel der Kategorie in dem Stichprobenetikett berechnet werden: Ny HW ij.c p EA ss (9) © Ngo HxW (1 ) wobei: (47) -Pixelkoordinaten; yer --Indikatorfunktion, die den Wert 1 annimmt, wenn die Pixelkoordinaten (47) der Kategorie c angehören, und andernfalls O; HxW __BildgrôBe; Ns _Anzahl der Bilder; C - Kategorie; (7) _pixelkoordinaten.

3. Ein Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für dt#J602246 feinkôrnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt S2 insbesondere umfasst: Berechnen einer Wiederholungswahrscheinlichkeit für jede Kategorie, wobei die Wiederholungswahrscheinlichkeit für eine Kategorie c als Funktion ihrer Häufigkeit definiert ist: Pe OAL, NT QD Dabei gilt: T-Glättungsparameter; C-Gesamtzahl der Kategorien; ¢' die ¢ -te Kategorie Die Stichprobenverteilung wird durch die Softmax-Funktion und den angegebenen Glattungsparameter angepasst; der Parameter T steuert die Glättung der Verteilung: je höher der Wert von T ist, desto homogener ist die Verteilung der Stichprobenwahrscheinlichkeit F , und je niedriger der Wert von T ist, desto höher ist die Wahrscheinlichkeit der Stichprobenziehung der spärlichen Kategorien.

4. Fin Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkôrnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt S3 insbesondere Folgendes umfasst: Auswählen einer entsprechenden Kategorie aus einer Wahrscheinlichkeitsverteilung c ~ P, für jedes Probenbild und anschlieBendes Abtasten eines Bildes aus einer Teilmenge von Daten, die diese Kategorie enthalten; was durch einen mathematischen Ausdruck ausgedrückt werden kann als: I ~ uniform (XY, ) (3) Wobei: !- -Stichprobenbild; Ls -Untermenge von Stichproben im Datensatz, die die Kategorie c enthalten; Nach der Auswahl einer Schwanzkategorie werden aus einer Teilmenge von Bildern, die die Kategorie enthalten, mittels gleichmäßiger Stichproben Stichproben entnommen; die gleichmäßige Stichprobe stellt sicher, dass die Auswahl der Stichproben nicht auf bestimmte spezifische Stichproben in der Teilmenge ausgerichtet ist, wodurch die Verzerrung bei der Auswahl der Stichproben verringert wird; Die gleichmäßige Probenahme umfasst: die zufällige Auswahl aus allen Bildern, die die Kategorie enthalten, und nach der Auswahl der Bilder die Prüfung, ob die Anzahl der in den Bildern enthaltenen Pixel der Zielkategorie einen vorgegebenen Mindestpixelschwellenwert erfüllt; der Mindestpixelschwellenwert-Parameter P wird verwendet, um sicherzustellen, dass die neu abgetasteten Bilder eine ausreichende Menge an Pixeln der Zielkategorie enthalten, um zu vermeiden, dass zu wenige Pixel der Zielkategorie in den ausgewählten Bildern vorhanden sind, was zu einer ineffektiven oder ineffizienten Neuabtastung führen kann; Wenn die Anzahl der Pixel der Zielkategorie im ausgewählten Bild unzureichend ist, wird die Neuabtastung der in Frage kommenden Stichproben aus der Bildteilmenge fortgesetzt, bis die Anzahl der Pixel die

Anforderung fiir S4 erfüllt; Die Sicherstellung, dass jede Neuabtastung gültig ist, verbessert dt&J602246 Effizienz und Effektivität der spärlichen Neuabtastung der Kategorien, so dass das Netz die Merkmale dieser Kategorien besser erlernen kann.

5. Fin Verfahren zur Verbesserung der Stichprobenbildung bei spärlichen Stichproben für die feinkôrnige Klassifizierung von Pflanzen mit unausgewogenen Stichproben nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt S4 insbesondere Folgendes umfasst: Durchführen einer Reihe von Datenverbesserungsoperationen an den Zielbild- und Etikettendaten, einschlieBlich, aber nicht beschränkt auf Drehen, Einstellen von Helligkeit, Kontrast und Schärfe, um die Vielfalt der Stichproben und des Merkmalsraums zu erhôhen; Diese verbesserten Beispieldaten werden anschließend in Datencontainern verpackt und in das Netzwerk zum Training eingegeben, wodurch die Generalisierungsfähigkeit des Modells und der Lerneffekt bei spärlichen Kategorien verbessert wird.