WO2023032360A1 - 画像処理装置、画像処理方法、および画像処理プログラム - Google Patents

画像処理装置、画像処理方法、および画像処理プログラム Download PDF

Info

Publication number
WO2023032360A1
WO2023032360A1 PCT/JP2022/021174 JP2022021174W WO2023032360A1 WO 2023032360 A1 WO2023032360 A1 WO 2023032360A1 JP 2022021174 W JP2022021174 W JP 2022021174W WO 2023032360 A1 WO2023032360 A1 WO 2023032360A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
additional
base
neural network
base class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2022/021174
Other languages
English (en)
French (fr)
Inventor
英樹 竹原
晋吾 木田
尹誠 楊
真季 高見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to EP22863950.6A priority Critical patent/EP4398186B1/en
Priority to CN202280055588.3A priority patent/CN117813633A/zh
Publication of WO2023032360A1 publication Critical patent/WO2023032360A1/ja
Priority to US18/588,056 priority patent/US20240212323A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to image processing technology based on machine learning.
  • CNN Convolutional Neural Network
  • Continuous learning (incremental learning or continual learning) has been proposed as a method to avoid fatal forgetting.
  • Continuous learning is a learning method in which when a new task or new data occurs, the model is not learned from the beginning, but the currently trained model is improved and learned.
  • regularization-based continuous learning in which learning is performed using regularization loss (Patent Document 1).
  • Patent Document 1 The technology described in Patent Document 1 has the problem that fatal forgetting cannot be sufficiently reduced.
  • the present invention was made in view of this situation, and its purpose is to provide an image processing technology based on machine learning that can reduce fatal forgetting.
  • an image processing apparatus provides input data based on an embedding vector output by a basic neural network that has already learned a base class and a barycentric vector of the base class.
  • a base class selection unit that selects a base class by using a base class
  • a continuous learning unit that continuously learns an additional class using an additional neural network that has already learned the base class
  • an additional class selection unit that selects an additional class based on the embedding vector output by and the centroid vector of the base class and the additional class
  • the base class selected by the base class selection unit and a classification determination unit that classifies the input data based on the added class.
  • Another aspect of this embodiment is an image processing method.
  • FIG. 1 is a configuration diagram of an image processing apparatus according to an embodiment
  • FIG. 2 is a flowchart for explaining continuous learning processing by the image processing apparatus of FIG. 1
  • 2 is a diagram illustrating the structure of a neural network model used in the basic neural network processing unit and the additional neural network processing unit in FIG. 1
  • FIG. 2 is a flowchart for explaining classification determination processing by the image processing apparatus of FIG. 1;
  • FIG. 1 is a configuration diagram of an image processing device 100 according to the embodiment.
  • the image processing apparatus 100 includes a basic neural network processing unit 10, a basic class selection unit 20, an additional neural network processing unit 30, an additional class selection unit 40, a continuous learning unit 50, a centroid derivation unit 60, a centroid vector correction unit 70, and a classification A decision unit 80 is included.
  • machine learning is performed by combining continuous learning and metric learning.
  • an image will be described as an example of input data, but input data is not limited to an image.
  • Metric learning is a technique for learning an embedding space (feature space) that considers the relationship between images (see, for example, Non-Patent Document 1).
  • Metric learning is used in various fields such as information retrieval, data classification, and image recognition. Continuous learning using regularization loss can be combined with metric learning using metric loss.
  • class incremental learning which is one type of continuous learning
  • Non-Patent Document 2 performs class incremental learning with one neural network
  • Non-Patent Document 3 performs class incremental learning using two neural networks with different learning rates, and performs classification using a combined feature space that combines the feature spaces of the two neural networks.
  • the basic neural network that has learned the basic class is not changed, but the additional neural network that has already learned the basic class and continuously learns the additional class is updated.
  • Class classification class selection
  • the input image is classified into the class with higher accuracy (shorter distance).
  • FIG. 2 is a flowchart explaining continuous learning by the image processing device 100.
  • FIG. The configuration and overall operation of continuous learning will be described with reference to FIGS. 1 and 2.
  • a neural network trained on base classes may be obtained from the network or trained using a dataset containing the base classes. It is desirable that the neural network that has already learned the base class has undergone metric learning (embedding learning) rather than class classification learning.
  • the centroid vector of the base class may be obtained from the network, the image of the base class is input to the trained neural network, the centroid of the embedding vector output from the trained neural network is obtained for each class, and the may be derived as the centroid vector of
  • the number of center-of-gravity vectors for each class is 1, but it may be more than one.
  • a neural network that has learned the basic class is set in the basic neural network processing unit 10 and the additional neural network processing unit 30 (S10).
  • the center-of-gravity vector of the base class derived using the neural network that has learned the base class is set in the base class selection unit 20 and the additional class selection unit 40 (S20).
  • the base class selection unit 20 and the additional class selection unit 40 each store the centroid vector of the base class.
  • the additional neural network processing unit 30 inputs all images of a certain additional class to the additional neural network before performing the learning session i, and Derive embedding vectors for all images.
  • the centroid derivation unit 60 derives the centroid vector of the additional class from the embedding vectors of all the images of the additional class (S40).
  • the center-of-gravity vector of the additional class here is the center-of-gravity vector before learning. Note that the center-of-gravity vectors of the additional classes are derived for all the additional classes.
  • the continuous learning unit 50 continuously learns the additional neural network using the additional training data set including the additional class as learning session i (S50).
  • the additional neural network processing unit 30 inputs all images of an additional class to the additional neural network after the learning session i, and Derive the embedding vector for all images of the class.
  • the centroid deriving unit 60 derives the centroid vector of the additional class from the embedding vectors of all the images of the additional class (S60).
  • the center-of-gravity vector of the additional class here is the center-of-gravity vector after learning. Note that the center-of-gravity vectors of the additional classes are derived for all the additional classes.
  • the additional class selection unit 40 deletes the stored centroid vector of the base class (S70).
  • the number of base class centroid vectors to be deleted is the number of additional classes added in learning session i.
  • the centroid vector of the base class to be deleted is the closest neighbor to the centroid vector of the additional class added in learning session i.
  • the centroid vector is not deleted.
  • the number of center-of-gravity vectors stored in the base class selection unit 20 and the number of center-of-gravity vectors stored in the additional class selection unit 40 can be made the same.
  • the center-of-gravity vector correction unit 70 corrects the center-of-gravity vector of the known class stored in the additional class selection unit 40 (S80).
  • the known classes include the base class and the additional classes of learning session (i-1). Additional classes in learning session i do not need to be corrected.
  • Non-Patent Document 2 For correction of the center-of-gravity vector of the learned (known) class, the method described with reference to FIG. 3 in Non-Patent Document 2 is improved and used.
  • the center-of-gravity vector correction unit 70 corrects the learned class based on the center-of-gravity vector of the class before continuous learning and the center-of-gravity vector of the class after continuous learning within a predetermined distance from the center of gravity vector of the learned class (known class). Correct the centroid vector of . Specifically, the center-of-gravity vector correction unit 70 obtains the amount of movement of the center-of-gravity vector of the class after continuous learning from the center-of-gravity vector of the class before continuous learning, and calculates the average movement amount of these movement amounts. The center-of-gravity vector correction unit 70 corrects the center-of-gravity vector of the learned class by adding the average movement amount to the center-of-gravity vector of the learned class.
  • Non-Patent Document 2 the correction is performed using the pre-learning embedding vector within the radius R of the center-of-gravity vector of the known class. The difference is that both of the centroid vectors are used for correction. In calculating the average amount of movement, using more centroid vectors is less likely to be affected by fine variations in each image. We decided to correct using both the center of gravity vector of the class before continuous learning and the center of gravity vector of the class after continuous learning.
  • the basic training dataset is a supervised dataset that includes a large number of basic classes (eg, about 100 to 1000 classes) and each class consists of a large number of images (eg, 3000 images).
  • the basic training dataset is assumed to be a sufficient amount of data to train a general classification task by itself.
  • the additional training dataset is a supervised dataset containing a small number of additional classes (e.g., 2 to 10 classes), each of which consists of a small number of images (e.g., 1 to 5).
  • a set of three images, an anchor image belonging to a certain class, a positive image belonging to the same class as the anchor image, and a negative image belonging to a class different from the anchor image, is input to the learning target neural network.
  • the reason why the minority class is set to 2 is that even if the class to be learned is 1, it is necessary to have a class that is not to be learned as a negative image.
  • the image is a minority image, but a large number of images may be used as long as the image is of a minority class.
  • FIG. 3 is a diagram explaining the structure of a neural network model used in the basic neural network processing unit 10 and the additional neural network processing unit 30.
  • FIG. A neural network is a deep neural network that contains convolutional and pooling layers and no fully connected layers. It includes ResNet-18 convolutional layers CONV-1 to CONV-5 shown in FIG. 3, followed by a global average pooling layer, which outputs a 512-dimensional embedding vector.
  • the continuous learning unit 50 adds the metric loss Lml and the regularization loss Lr to calculate the total loss L as shown in the following equation, and learns the neural network so as to minimize the total loss L.
  • L ⁇ (Lml+Lr)
  • indicates taking the sum for the input image.
  • the regularization loss Lr is the embedding vector loss Lrv for minimizing the difference between the embedding vectors before and after the learning session, which is output when the image is input to the neural network as shown in the following equation.
  • Lrv
  • V(i-1) is the embedding vector output by the neural network for learning session (i-1).
  • are symbols indicating the meaning of calculating the Frobenius norm.
  • FIG. 4 is a flowchart explaining classification determination by the image processing apparatus 100.
  • FIG. The configuration and overall operation of classification determination will be described with reference to FIGS. 1 and 4.
  • the basic neural network processing unit 10 inputs the image to be classified into the basic neural network
  • the additional neural network processing unit 30 inputs the image to be classified into the continuously learned additional neural network (S100).
  • the basic neural network processing unit 10 supplies the embedding vector of the classification target image output from the basic neural network to the basic class selection unit 20, and the additional neural network processing unit 30 supplies the classification target image output from the additional neural network.
  • the embedding vector of the image is supplied to the additional class selection unit 40 (S110).
  • the base class selection unit 20 selects a base class based on the base embedding vector output by the base neural network (S120). Specifically, the base class having the centroid vector closest to the base embedding vector is selected.
  • the additional class selection unit 40 selects an additional class based on the additional embedding vector output by the additional neural network (S130). Specifically, the additional class that has the centroid vector closest to the additional embedding vector is selected. Note that the additional class selection unit 40 does not select the base class even if the class having the centroid vector closest to the additional embedding vector is the base class.
  • the classification determination unit 80 compares the base class selected by the base class selection unit 20 and the additional class selected by the additional class selection unit 40, and selects the class with the shorter distance between the center of gravity vector and the embedding vector. , is determined as the class of the classification result of the image to be classified (S140).
  • the distance between the centroid vector and the embedding vector may be treated as the reciprocal of the probability, the degree of probability may be determined, and the class with the higher probability may be determined as the class of the classification result.
  • the additional class is selected as the class of the classification result.
  • the additional class selection unit 40 selects the centroid vector closest to the additional embedding vector regardless of whether it is the base class or the additional class.
  • the classification determination unit 80 selects the base class selected by the base class selection unit 20 as the classification result. select as a class.
  • the reason why the classification determination unit 80 selects the base class selected by the base class selection unit 20 as the class of the classification result is that the base neural network learns the base class with more data. . In other words, the classification determination unit 80 selects the classification result of the neural network that has learned with more data.
  • the various processes of the image processing apparatus 100 described above can of course be implemented as an apparatus using hardware such as a CPU and memory, and can also be stored in a ROM (Read Only Memory), flash memory, or the like. It can also be realized by software such as firmware or software such as a computer.
  • the firmware program or software program may be recorded on a computer-readable recording medium and provided, transmitted to or received from a server via a wired or wireless network, or transmitted or received as data broadcasting of terrestrial or satellite digital broadcasting. is also possible.
  • the basic neural network since the basic neural network does not continuously learn, the basic class is not forgotten. Therefore, the basic neural network can classify the basic class with high probability even as the learning session progresses. Since the basic neural network does not continuously learn additional classes, the basic neural network cannot select additional classes. You can consider studying and choose additional classes.
  • the classification result by the basic neural network that does not forget the basic class and the classification result by the additional neural network that continuously learns the additional class are evaluated, and the classification result with the higher accuracy is selected. Therefore, it is possible to improve classification accuracy while reducing fatal forgetting.
  • the additional neural network learns only the additional classes, the number of data in the additional classes is small, so there is a high possibility that the centroid vectors of the additional classes will be overfitted. Also, the correction of the center of gravity vector is likely to be excessively corrected as well. Therefore, in the training of the additional neural network, by considering the embedding vector output by the basic neural network that is learning the basic class with a large amount of data together with the additional class, the centroid vector of the additional class and the correction of the centroid vector are overfitted. It prevents large fluctuations, and overfitting for additional classes of centroid vectors and centroid vector corrections is greatly reduced.
  • the embedding space of the base neural network and the additional neural network can be maintained at the same density, and the base class can be selected.
  • the embedding space distances in the unit 20 and the additional class selection unit 40 can be handled to the same degree. It is possible to prevent bias in class selection between the base class selection unit 20 and the additional class selection unit 40.
  • the present invention can be used for image processing technology based on machine learning.
  • 10 basic neural network processing unit 20 basic class selection unit, 30 additional neural network processing unit, 40 additional class selection unit, 50 continuous learning unit, 60 centroid derivation unit, 70 centroid vector correction unit, 80 classification determination unit, 100 image processing Device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

基本クラス選択部(20)は、入力データに対して、基本クラスを学習済みの基本ニューラルネットワークが出力する埋め込みベクトルと、基本クラスの重心ベクトルとに基づいて基本クラスを選択する。継続学習部(50)は、基本クラスを学習済みの追加ニューラルネットワークを用いて追加クラスを継続学習する。追加クラス選択部(40)は、入力データに対して、継続学習された追加ニューラルネットワークが出力する埋め込みベクトルと、基本クラスおよび追加クラスの重心ベクトルとに基づいて追加クラスを選択する。分類決定部(80)は、基本クラス選択部(20)により選択された基本クラスと、追加クラス選択部(40)により選択された追加クラスとに基づいて、入力データをクラス分類する。

Description

画像処理装置、画像処理方法、および画像処理プログラム
 本発明は、機械学習に基づく画像処理技術に関する。
 人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、畳み込みニューラルネットワーク(Convolutional Neural Network(CNN))の知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータセット全体に対してCNNのパラメータの再学習が必要となる。CNNでは、新しいタスクについて学習していくにつれて、昔のタスクに対する推定精度は低下していく。このようにCNNでは連続学習を行うと新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう致命的忘却(catastrophic forgetting)が避けられない。
 致命的忘却を回避する手法として、継続学習(incremental learningまたはcontinual learning)が提案されている。継続学習とは、新しいタスクや新しいデータが発生した時に、最初からモデルを学習するのではなく、現在の学習済みのモデルを改善して学習する学習方法である。継続学習の一つの手法として正則化ベースの継続学習があり、正則化損失を利用して学習する(特許文献1)。
国際公開第2017/145852号公報
Thomas Mensink, Jakob Verbeek, Florent Perronnin, Gabriela Csurka, "Distance-Based Image Classification: Generalizing to new classes at near-zero cost", IEEE Transactions on Pattern Analysis and Machine Intelligence, Institute of Electrical and Electronics Engineers, 2013, 35 (11), pp.2624-2637. Lu Yu, Bartlomiej Twardowski, Xialei Liu, Luis Herranz, Kai Wang, Yongmei Cheng, Shangling Jui, Joost van de Weijer, "Semantic Drift Compensation for Class-Incremental Learning", 2020 Computer Vision and Pattern Recognition, pp 6982-6991. Hanbin Zhao, Yongjian Fu, Mintong Kang, Qi Tian, Fei Wu, Xi Li, "MgSvF: Multi-Grained Slow vs. Fast Framework for Few-Shot Class-Incremental Learning", arXiv:2006.15524, 2021.
 特許文献1に記載の技術では、十分に致命的忘却を低減できないという課題があった。
 本発明はこうした状況に鑑みてなされたものであり、その目的は、致命的忘却を低減することができる機械学習に基づく画像処理技術を提供することにある。
 上記課題を解決するために、本実施形態のある態様の画像処理装置は、入力データに対して、基本クラスを学習済みの基本ニューラルネットワークが出力する埋め込みベクトルと、基本クラスの重心ベクトルとに基づいて基本クラスを選択する基本クラス選択部と、基本クラスを学習済みの追加ニューラルネットワークを用いて追加クラスを継続学習する継続学習部と、前記入力データに対して、継続学習された前記追加ニューラルネットワークが出力する埋め込みベクトルと、基本クラスおよび追加クラスの重心ベクトルとに基づいて追加クラスを選択する追加クラス選択部と、前記基本クラス選択部により選択された基本クラスと、前記追加クラス選択部により選択された追加クラスとに基づいて、前記入力データをクラス分類する分類決定部とを備える。
 本実施形態の別の態様は、画像処理方法である。この方法は、入力データに対して、基本クラスを学習済みの基本ニューラルネットワークが出力する埋め込みベクトルと、基本クラスの重心ベクトルとに基づいて基本クラスを選択する基本クラス選択ステップと、基本クラスを学習済みの追加ニューラルネットワークを用いて追加クラスを継続学習する継続学習ステップと、前記入力データに対して、継続学習された前記追加ニューラルネットワークが出力する埋め込みベクトルと、基本クラスおよび追加クラスの重心ベクトルとに基づいて追加クラスを選択する追加クラス選択ステップと、前記基本クラス選択ステップにより選択された基本クラスと、前記追加クラス選択ステップにより選択された追加クラスとに基づいて、前記入力データをクラス分類する分類決定ステップとを含む。
 なお、以上の構成要素の任意の組合せ、本実施形態の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本実施形態の態様として有効である。
 本実施形態によれば、致命的忘却を低減することができる機械学習に基づく画像処理技術を提供することができる。
実施の形態に係る画像処理装置の構成図である。 図1の画像処理装置による継続学習処理を説明するフローチャートである。 図1の基本ニューラルネットワーク処理部および追加ニューラルネットワーク処理部で用いられるニューラルネットワークモデルの構造を説明する図である。 図1の画像処理装置による分類決定処理を説明するフローチャートである。
 図1は、実施の形態に係る画像処理装置100の構成図である。画像処理装置100は、基本ニューラルネットワーク処理部10、基本クラス選択部20、追加ニューラルネットワーク処理部30、追加クラス選択部40、継続学習部50、重心導出部60、重心ベクトル補正部70、および分類決定部80を含む。
 本実施の形態では、継続学習とメトリック学習を組み合わせた機械学習を行う。ここでは、入力データとして画像を例に説明するが、入力データは画像に限られない。画像間の関係性を考慮した埋め込み空間(特徴空間)を学習する手法としてメトリック学習がある(たとえば非特許文献1参照)。メトリック学習は、情報検索、データ分類、画像認識等の様々な分野で利用されている。正則化損失を利用して学習する継続学習は、メトリック損失を利用するメトリック学習と組み合わせることができる。
 本実施の形態では、継続学習の1つであるクラスインクリメンタル学習を利用する(たとえば非特許文献2、非特許文献3参照)。非特許文献2は1つのニューラルネットワークでクラスインクリメンタル学習を行う。非特許文献3は学習率の異なる2つのニューラルネットワークでクラスインクリメンタル学習を行い、2つのニューラルネットワークの特徴空間を結合した結合特徴空間で分類を行う。
 本実施の形態では、基本クラスを学習した基本ニューラルネットワークは変更せずに、基本クラスを学習済みで追加クラスを継続学習する追加ニューラルネットワークを更新する。入力画像に対して、基本ニューラルネットワークと追加ニューラルネットワークのそれぞれを用いてクラス分類(クラス選択)を行い、精度の高い(距離の近い)方のクラスに入力画像を分類する。
 図2は、画像処理装置100による継続学習を説明するフローチャートである。図1および図2を参照して継続学習の構成と全体動作について説明する。
 最初に、基本クラスを学習済みのニューラルネットワークと、そのニューラルネットワークを用いて導出された基本クラスの重心ベクトルを取得する。基本クラスを学習済みのニューラルネットワークは、ネットワークから取得してもよく、基本クラスを含むデータセットを使って学習させてもよい。基本クラスを学習済みのニューラルネットワークはクラス分類学習されているものではなく、メトリック学習(埋め込み学習)されているものが望ましい。基本クラスの重心ベクトルは、ネットワークから取得してもよく、基本クラスの画像を学習済みのニューラルネットワークに入力し、学習済みのニューラルネットワークから出力される埋め込みベクトルについてクラス毎に重心を求め、クラス毎の重心ベクトルとして導出してもよい。ここでは、クラス毎の重心ベクトルの数は1とするが、複数でもよい。
 基本クラスを学習済みのニューラルネットワークを基本ニューラルネットワーク処理部10と追加ニューラルネットワーク処理部30に設定する(S10)。
 基本クラスを学習済みのニューラルネットワークを用いて導出された基本クラスの重心ベクトルを基本クラス選択部20と追加クラス選択部40に設定する(S20)。基本クラス選択部20と追加クラス選択部40はそれぞれ基本クラスの重心ベクトルを保存する。
 次に、継続学習である学習セッションiをN回繰り返す(i=1,2,…,N)(S30)。
 まず、追加ニューラルネットワーク処理部30は、追加訓練データセットに含まれる追加クラス毎に、ある追加クラスの全ての画像を、学習セッションiを行う前の追加ニューラルネットワークに入力して、当該追加クラスの全ての画像の埋め込みベクトルを導出する。重心導出部60は、当該追加クラスの全ての画像の埋め込みベクトルから、当該追加クラスの重心ベクトルを導出する(S40)。ここでの追加クラスの重心ベクトルは学習前の重心ベクトルである。なお、追加クラスの重心ベクトルは全ての追加クラスについて導出する。
 次に、継続学習部50は、学習セッションiとして、追加クラスを含む追加訓練データセットを使って、追加ニューラルネットワークを継続学習する(S50)。
 次に、追加ニューラルネットワーク処理部30は、追加訓練データセットに含まれる追加クラス毎に、ある追加クラスの全ての画像を、学習セッションiを行った後の追加ニューラルネットワークに入力して、当該追加クラスの全ての画像の埋め込みベクトルを導出する。重心導出部60は、当該追加クラスの全ての画像の埋め込みベクトルから、当該追加クラスの重心ベクトルを導出する(S60)。ここでの追加クラスの重心ベクトルは学習後の重心ベクトルである。なお、追加クラスの重心ベクトルは全ての追加クラスについて導出する。
 次に、追加クラス選択部40は、保存している基本クラスの重心ベクトルを削除する(S70)。ここでは、削除する基本クラスの重心ベクトルの数は学習セッションiで追加される追加クラスの数であるとする。削除する基本クラスの重心ベクトルは、学習セッションiで追加される追加クラスの重心ベクトルと最近傍のものであるとする。基本クラスの重心ベクトルが全て削除された後は、重心ベクトルは削除しない。これにより、基本クラス選択部20が保存する重心ベクトルの数と追加クラス選択部40が保存する重心ベクトルの数を同一にすることができる。
 次に、重心ベクトル補正部70は、追加クラス選択部40が保存している既知のクラスの重心ベクトルを補正する(S80)。既知のクラスには、基本クラスと学習セッション(i-1)の追加クラスが含まれる。学習セッションiの追加クラスは補正する必要はない。iを1だけインクリメントし(S90)、ステップS30に戻り、i=NまでステップS40~S80を繰り返し、iがNを超えれば、終了する。
 学習済み(既知)のクラスの重心ベクトルの補正については、非特許文献2において図3を参照して説明されている方法を改良して利用する。
 重心ベクトル補正部70は、学習済みのクラス(既知のクラス)の重心ベクトルの所定距離以内にある継続学習前のクラスの重心ベクトルと継続学習後のクラスの重心ベクトルにもとづいて、学習済みのクラスの重心ベクトルを補正する。具体的には、重心ベクトル補正部70は、継続学習前のクラスの重心ベクトルから継続学習後のクラスの重心ベクトルの移動量を求め、それら移動量の平均移動量を算出する。重心ベクトル補正部70は、平均移動量を学習済みのクラスの重心ベクトルに加算することにより、学習済みのクラスの重心ベクトルを補正する。
 非特許文献2では、既知クラスの重心ベクトルの半径R以内にある学習前の埋め込みベクトルを用いて補正するが、本実施の形態では、継続学習前のクラスの重心ベクトルと継続学習後のクラスの重心ベクトルの両方を用いて補正する点が異なる。平均移動量の算出において、重心ベクトルを多く利用する方が1つ1つの画像の細かい変動に影響されないようになるため、本実施の形態では、学習済みのクラスの重心ベクトルの所定距離以内にある継続学習前のクラスの重心ベクトルと継続学習後のクラスの重心ベクトルの両方を用いて補正することにした。
 継続学習部50の構成と動作をより詳しく説明する。
 基本訓練データセットは多数の基本クラス(例えば、100から1000クラス程度)を含み、各クラスが多数画像(例えば、3000画像)で構成される教師ありデータセットである。基本訓練データセットは、一般的な分類タスクを単独で学習させるのに十分なデータ量であるとする。
 それに対して、追加訓練データセットは少数の追加クラス(例えば、2から10クラス程度)を含み、各追加クラスが少数画像(例えば、1から5枚程度)で構成される教師ありデータセットである。あるクラスに属するアンカー画像、アンカー画像と同じクラスに属するポジティブ画像、アンカー画像と異なるクラスに属するネガティブ画像の3つの画像を組にした訓練データを学習対象ニューラルネットワークに入力する。ここで、少数クラスを2としているのは、学習対象とするクラスが1であっても、ネガティブ画像として学習対象としないクラスが必要であるからである。また、ここでは、少数画像であるとするが、少数クラスであれば多数画像でもよい。
 図3は、基本ニューラルネットワーク処理部10および追加ニューラルネットワーク処理部30で用いられるニューラルネットワークモデルの構造を説明する図である。ニューラルネットワークは畳み込み層とプーリング層を含み、全結合層を含まないディープニューラルネットワークである。図3に示すResNet-18の畳み込み層であるCONV-1からCONV-5を含み、その後に、グローバル平均プーリング層を有する構成であり、512次元の埋め込みベクトルを出力する。
 継続学習部50は、メトリック損失Lmlと正則化損失Lrを加算して次式のように全体損失Lを算出し、全体損失Lを最小化するようにニューラルネットワークを学習する。
 L=Σ(Lml+Lr)
ここで、Σは入力画像に対して和を取ることを示す。
 メトリック損失としてトリプレット損失を用いる。トリプレット損失Lmlは、アンカー画像の埋め込みベクトル、ポジティブ画像の埋め込みベクトル、およびネガティブ画像の埋め込みベクトルに基づいて次式で算出される。
 Lml=dp-dn+α
ここで、dpは、アンカー画像の埋め込みベクトルとポジティブ画像間の埋め込みベクトルのユークリッド距離である。dnは、アンカー画像の埋め込みベクトルとネガティブ画像間の埋め込みベクトルのユークリッド距離である。αはオフセットである。
 正則化損失Lrは、次式のように画像をニューラルネットワークに入力した時に出力される埋め込みベクトルの学習セッション前後での差分を最小化するための埋め込みベクトル損失Lrvである。
 Lrv=||V(i)-V(i―1)||
ここで、V(i)は、学習セッションiのニューラルネットワークの出力する埋め込みベクトルである。V(i―1)は、学習セッション(i-1)のニューラルネットワークの出力する埋め込みベクトルである。||・||は、フロベニウスノルムを算出する意味を示す記号である。
 図4は、画像処理装置100による分類決定を説明するフローチャートである。図1および図4を参照して分類決定の構成と全体動作について説明する。
 基本ニューラルネットワーク処理部10は、分類対象の画像を基本ニューラルネットワークに入力し、追加ニューラルネットワーク処理部30は、分類対象の画像を継続学習された追加ニューラルネットワークに入力する(S100)。
 基本ニューラルネットワーク処理部10は、基本ニューラルネットワークから出力される分類対象の画像の埋め込みベクトルを基本クラス選択部20に供給し、追加ニューラルネットワーク処理部30は、追加ニューラルネットワークから出力される分類対象の画像の埋め込みベクトルを追加クラス選択部40に供給する(S110)。
 基本クラス選択部20は、基本ニューラルネットワークが出力した基本埋め込みベクトルに基づいて、基本クラスを選択する(S120)。具体的には、基本埋め込みベクトルと最も距離が近い重心ベクトルを有する基本クラスを選択する。
 追加クラス選択部40は、追加ニューラルネットワークが出力した追加埋め込みベクトルに基づいて、追加クラスを選択する(S130)。具体的には、追加埋め込みベクトルと最も距離が近い重心ベクトルを有する追加クラスを選択する。なお、追加クラス選択部40は、追加埋め込みベクトルと最も距離が近い重心ベクトルを有するクラスが基本クラスであった場合でも基本クラスは選択しない。
 分類決定部80は、基本クラス選択部20により選択された基本クラスと、追加クラス選択部40により選択された追加クラスとを比較して、重心ベクトルと埋め込みベクトルの距離がより近い方のクラスを、分類対象の画像の分類結果のクラスとして決定する(S140)。重心ベクトルと埋め込みベクトルの距離を逆数として確率のように扱い、確率の高低を判断し、確率の高い方のクラスを分類結果のクラスとして決定してもよい。ここで、選択された基本クラスと選択された追加クラスの間で、重心ベクトルと埋め込みベクトルの距離が同一である場合は、追加クラスの方を分類結果のクラスとして選択する。
(変形例)
 追加クラス選択部40と分類決定部80の変形例について説明する。実施の形態とは異なる動作のみを説明する。追加クラス選択部40は、追加埋め込みベクトルと最も距離が近い重心ベクトルを、基本クラスであるか追加クラスであるかに関わらず選択する。ここで、基本クラス選択部20で選択された基本クラスと追加クラス選択部40で選択された基本クラスが異なる場合、分類決定部80は基本クラス選択部20で選択された基本クラスを分類結果のクラスとして選択する。ここで、分類決定部80が基本クラス選択部20で選択された基本クラスを分類結果のクラスとして選択する理由は、基本クラスについて基本ニューラルネットワークの方がより多いデータで学習しているからである。つまり、分類決定部80は、より多くのデータで学習しているニューラルネットワークの分類結果を選択するようにする。
 以上説明した画像処理装置100の各種の処理は、CPUやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ROM(リード・オンリ・メモリ)やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。
 以上述べたように、本実施の形態の画像処理装置100によれば、基本ニューラルネットワークは継続学習しないため基本クラスを忘却しない。そのため、学習セッションが進んでも基本ニューラルネットワークは高い確率で基本クラスを分類することができる。基本ニューラルネットワークは追加クラスを継続学習しないため、基本ニューラルネットワークでは追加クラスを選択できないが、追加ニューラルネットワークは基本クラスに対して追加クラスを継続学習することで基本クラスと追加クラスの両方の特徴を考慮しながら学習し、追加クラスを選択することができる。
 本実施の形態によれば、基本クラスを忘却しない基本ニューラルネットワークによる分類結果と、追加クラスを継続学習した追加ニューラルネットワークによる分類結果とを評価して、より精度の高い方の分類結果を選択するため、致命的忘却を低減しつつ分類精度を向上させることができる。
 ここで、追加ニューラルネットワークが追加クラスのみを学習する場合、追加クラスのデータ数は少ないため、追加クラスの重心ベクトルは過剰適合になる可能性が高い。また、重心ベクトルの補正も同様に過剰に補正される可能性が高い。そのため、追加ニューラルネットワークの学習では追加クラスと共にデータ数の多い基本クラスを学習している基本ニューラルネットワークの出力する埋め込みベクトルを考慮することによって、追加クラスの重心ベクトルと重心ベクトルの補正が過剰適合により大きく変動するのを防ぎ、追加クラスの重心ベクトルと重心ベクトルの補正に対する過剰適合が大きく低減される。
 さらに、追加クラス選択部40における基本クラスと追加クラスのクラス数の合計を一定とすることで、基本ニューラルネットワークと追加ニューラルネットワークの埋め込み空間を同程度の密度に保持することができ、基本クラス選択部20と追加クラス選択部40における埋め込み空間の距離を同程度に扱うことができる。基本クラス選択部20と追加クラス選択部40の間でクラス選択の偏りが生じるのを防ぐことができる。
 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 本発明は、機械学習に基づく画像処理技術に利用できる。
 10 基本ニューラルネットワーク処理部、 20 基本クラス選択部、 30 追加ニューラルネットワーク処理部、 40 追加クラス選択部、 50 継続学習部、 60 重心導出部、 70 重心ベクトル補正部、 80 分類決定部、 100 画像処理装置。

Claims (6)

  1.  入力データに対して、基本クラスを学習済みの基本ニューラルネットワークが出力する埋め込みベクトルと、基本クラスの重心ベクトルとに基づいて基本クラスを選択する基本クラス選択部と、
     基本クラスを学習済みの追加ニューラルネットワークを用いて追加クラスを継続学習する継続学習部と、
     前記入力データに対して、継続学習された前記追加ニューラルネットワークが出力する埋め込みベクトルと、基本クラスおよび追加クラスの重心ベクトルとに基づいて追加クラスを選択する追加クラス選択部と、
     前記基本クラス選択部により選択された基本クラスと、前記追加クラス選択部により選択された追加クラスとに基づいて、前記入力データをクラス分類する分類決定部とを備えることを特徴とする画像処理装置。
  2.  前記追加ニューラルネットワークが出力する埋め込みベクトルから重心ベクトルを導出する重心導出部と、
     前記重心導出部により導出された継続学習前の重心ベクトルと継続学習後の重心ベクトルとに基づいて、継続学習前に既知のクラスの重心ベクトルを補正する重心補正部とをさらに備えることを特徴とする請求項1に記載の画像処理装置。
  3.  前記追加クラス選択部は、継続学習時の追加クラスの数だけ基本クラスの重心ベクトルを削除することを特徴とする請求項1に記載の画像処理装置。
  4.  前記追加クラス選択部が選択したクラスが基本クラスであり、前記追加クラス選択部が選択した基本クラスと、前記基本クラス選択部が選択した基本クラスが異なる場合、前記分類決定部は前記基本クラス選択部が選択した基本クラスを分類結果とする請求項1に記載の画像処理装置。
  5.  入力データに対して、基本クラスを学習済みの基本ニューラルネットワークが出力する埋め込みベクトルと、基本クラスの重心ベクトルとに基づいて基本クラスを選択する基本クラス選択ステップと、
     基本クラスを学習済みの追加ニューラルネットワークを用いて追加クラスを継続学習する継続学習ステップと、
     前記入力データに対して、継続学習された前記追加ニューラルネットワークが出力する埋め込みベクトルと、基本クラスおよび追加クラスの重心ベクトルとに基づいて追加クラスを選択する追加クラス選択ステップと、
     前記基本クラス選択ステップにより選択された基本クラスと、前記追加クラス選択ステップにより選択された追加クラスとに基づいて、前記入力データをクラス分類する分類決定ステップとを含むことを特徴とする画像処理方法。
  6.  入力データに対して、基本クラスを学習済みの基本ニューラルネットワークが出力する埋め込みベクトルと、基本クラスの重心ベクトルとに基づいて基本クラスを選択する基本クラス選択ステップと、
     基本クラスを学習済みの追加ニューラルネットワークを用いて追加クラスを継続学習する継続学習ステップと、
     前記入力データに対して、継続学習された前記追加ニューラルネットワークが出力する埋め込みベクトルと、基本クラスおよび追加クラスの重心ベクトルとに基づいて追加クラスを選択する追加クラス選択ステップと、
     前記基本クラス選択ステップにより選択された基本クラスと、前記追加クラス選択ステップにより選択された追加クラスとに基づいて、前記入力データをクラス分類する分類決定ステップとをコンピュータに実行させることを特徴とする画像処理プログラム。
PCT/JP2022/021174 2021-08-31 2022-05-24 画像処理装置、画像処理方法、および画像処理プログラム Ceased WO2023032360A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP22863950.6A EP4398186B1 (en) 2021-08-31 2022-05-24 Image processing device, image processing method, and image processing program
CN202280055588.3A CN117813633A (zh) 2021-08-31 2022-05-24 图像处理装置、图像处理方法以及图像处理程序
US18/588,056 US20240212323A1 (en) 2021-08-31 2024-02-27 Image processing apparatus, image processing method, and non-transitory computer-readable medium having image processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021140819A JP7582127B2 (ja) 2021-08-31 2021-08-31 画像処理装置、画像処理方法、および画像処理プログラム
JP2021-140819 2021-08-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/588,056 Continuation US20240212323A1 (en) 2021-08-31 2024-02-27 Image processing apparatus, image processing method, and non-transitory computer-readable medium having image processing program

Publications (1)

Publication Number Publication Date
WO2023032360A1 true WO2023032360A1 (ja) 2023-03-09

Family

ID=85411159

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/021174 Ceased WO2023032360A1 (ja) 2021-08-31 2022-05-24 画像処理装置、画像処理方法、および画像処理プログラム

Country Status (5)

Country Link
US (1) US20240212323A1 (ja)
EP (1) EP4398186B1 (ja)
JP (1) JP7582127B2 (ja)
CN (1) CN117813633A (ja)
WO (1) WO2023032360A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2025153770A (ja) * 2024-03-29 2025-10-10 クラシエ株式会社 健康管理支援システム、健康管理支援装置、健康管理支援方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056726B (zh) * 2023-07-25 2025-10-10 清华大学 一种面向消息传递神经网络的Wasserstein质心匹配层方法及产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210124993A1 (en) * 2019-10-23 2021-04-29 Adobe Inc. Classifying digital images in few-shot tasks based on neural networks trained using manifold mixup regularization and self-supervision

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210124993A1 (en) * 2019-10-23 2021-04-29 Adobe Inc. Classifying digital images in few-shot tasks based on neural networks trained using manifold mixup regularization and self-supervision

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HANBIN ZHAOYONGJIAN FUMINTONG KANGQI TIANFEI WUXI LI: "MgSvF: Multi-Grained Slow vs. Fast Framework for Few-Shot Class-Incremental Learning", ARXIV, vol. 2006, 2021, pages 15524
LU YUBARTLOMIEJ TWARDOWSKIXIALEI LIULUIS HERRANZKAI WANGYONGMEI CHENGSHANGLING JUIJOOST VAN DE WEIJER: "Semantic Drift Compensation for Class-Incremental Learning", COMPUTER VISION AND PATTERN RECOGNITION, 2020, pages 6982 - 6991
See also references of EP4398186A4
THOMAS MENSINKJAKOB VERBEEKFLORENT PERRONNINGABRIELA CSURKA: "Distance-Based Image Classification: Generalizing to new classes at near-zero cost", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS, vol. 35, no. 11, 2013, pages 2624 - 2637, XP011527040, DOI: 10.1109/TPAMI.2013.83

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2025153770A (ja) * 2024-03-29 2025-10-10 クラシエ株式会社 健康管理支援システム、健康管理支援装置、健康管理支援方法、及びプログラム
JP7812524B2 (ja) 2024-03-29 2026-02-10 クラシエ株式会社 健康管理支援システム、健康管理支援装置、健康管理支援方法、及びプログラム

Also Published As

Publication number Publication date
JP2023034530A (ja) 2023-03-13
EP4398186B1 (en) 2025-12-03
JP7582127B2 (ja) 2024-11-13
EP4398186A4 (en) 2024-12-25
US20240212323A1 (en) 2024-06-27
EP4398186A1 (en) 2024-07-10
CN117813633A (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN114387486B (zh) 基于持续学习的图像分类方法以及装置
Yoon et al. Lifelong learning with dynamically expandable networks
US11562250B2 (en) Information processing apparatus and method
US20240212323A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable medium having image processing program
US12518168B2 (en) Training and application method apparatus system and storage medium of neural network model
CN109886343B (zh) 图像分类方法及装置、设备、存储介质
WO2019045802A1 (en) LEARNING DISTANCE MEASUREMENT USING PROXY MEMBERS
CN112446487A (zh) 神经网络模型的训练和应用方法、装置、系统及存储介质
US20220044125A1 (en) Training in neural networks
CN108710948A (zh) 一种基于聚类均衡和权重矩阵优化的迁移学习方法
US11676027B2 (en) Classification using hyper-opinions
Heim et al. A learnable safety measure
WO2024024217A1 (ja) 機械学習装置、機械学習方法、および機械学習プログラム
US20240265257A1 (en) Machine learning device, machine learning method, and non-transitory computer-readable recording medium embodied thereon machine learning program
Diamant et al. De-confusing pseudo-labels in source-free domain adaptation
JP7350587B2 (ja) 能動学習装置、能動学習方法及びプログラム
CN111062406B (zh) 一种面向异构领域适应的半监督最优传输方法
JP2021047797A (ja) 機械学習装置、機械学習方法、及びプログラム
JP2024173962A (ja) 機械学習装置、推論装置、機械学習方法、および機械学習プログラム
CN118876073A (zh) 基于分布式鲁棒元强化学习的机器人运动控制方法
CN116776119A (zh) 一种抑制灾难性遗忘的方法、装置及相关介质
Hofer et al. Research Agenda for Reducing Feature Descriptor Sizes in Networked Visual-SLAM
US20260011138A1 (en) Image classification apparatus, image classification method, and non-transitory computer-readable medium having image classification program
JP7735828B2 (ja) 機械学習装置、機械学習方法、および機械学習プログラム
Gogoi et al. Perturbing the gradient for alleviating meta overfitting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22863950

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280055588.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022863950

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022863950

Country of ref document: EP

Effective date: 20240402

WWG Wipo information: grant in national office

Ref document number: 2022863950

Country of ref document: EP