JP7623745B2

JP7623745B2 - イメージングのための方法、装置およびコンピュータ読み取り可能な媒体

Info

Publication number: JP7623745B2
Application number: JP2023570254A
Authority: JP
Inventors: 雪▲梅▼ 胡; 晨曦邱; ▲凱▼ 王; 涛岳; ▲鋒▼ ▲ヤン▼; ▲紅▼兵潘
Original assignee: ナンジン・ユニバーシティ
Priority date: 2021-05-13
Filing date: 2022-05-13
Publication date: 2025-01-29
Anticipated expiration: 2042-05-13
Also published as: JP2024519349A; WO2022237891A1; US12579618B2; CN115345777A; CN115345777B; US20240233090A1; EP4325426A1; EP4325426A4

Description

本発明は、イメージングのための方法、装置およびコンピュータ読み取り可能な媒体に関し、より具体的には、超高画素のリアルタイムイメージングのための方法、装置およびコンピュータ読み取り可能な媒体に関する。

超高画素（通常、１億以上の画素を指す）を実現できる既存のイメージングの手段には、次のようなものがある。（１）従来の補間アルゴリズムまたはニューラルネットワークに基づく画像復元アルゴリズムを使用して低解像度の画像を特定の倍数まで拡大することによって、画像の解像度を高める超解像技術によって実現されるが、収集中の情報の損失により、復元された画像が平滑すぎたり、偽のテクスチャが含まれたり（特に拡大の倍数が高すぎる場合）し、最終的なイメージングの効果がよくない。（２）低解像度の部分画像を複数撮影し、それらを使用して超高画素の完全画像につなぎ合わせることにより実現されるが、このようなシステムは、通常、サイズが大きく、重量が重く、回路設計が複雑などの特点を有する。（３）シングルチップ超高画素イメージングにより実現され、このようなシステムは、単一のセンサチップで超高画素の画像を撮影できるが、読み取り速度が遅く、データ量が大きいという問題点があり、ビデオをリアルタイムで収集して伝送することができない。上記の方法はいずれも、画像ドメインの情報を直接収集するものであり、また関連するデータ量が大きいにより収集と伝送に時間がかかるため、リアルタイムのビデオ撮影は実現できない。

本発明の目的は、超高画素の画像を迅速ひいてはリアルタイムで撮影可能な方法、装置、およびコンピュータ読み取り可能な媒体を提供することである。

上記の技術的背景に存在する技術的問題を克服し、超高画素の画像に使用できる撮影および処理技術を開発するために、本発明の一態様によれば、新規な画像収集および融合技術を提案する。当該技術は、ターゲット視野に対して異なる解像度異なるビット幅の２種類の画像（例えば、高解像度低ビット幅の差分画像と低解像度高ビット幅の画像）を取得し、画像融合アルゴリズムを使用してこの２種類の画像における関心領域を融合し、当該ターゲット視野の完全画像を更新し、それによって当該ターゲット視野の鮮明な超高画素の完全画像を迅速かつ効率的に取得する。

一実施例によれば、差分画像の（フレーム内に比べる）スパース性を利用して、収集された高解像度低ビット幅の差分画像を圧縮符号化することで、画像のデータ量を大幅に削減し、読み取り速度を向上させ、伝送帯域幅を削減し、超高画素画像のリアルタイム収集を実現するのに寄与する。

一実施例によれば、畳み込みニューラルネットワークに基づく画像融合アルゴリズムを使用して、高解像度低ビット幅の差分画像と低解像度高ビット幅の画像を融合して再構築することもできる。

一実施例によれば、収集された画像に対して画像認識方法を使用することもでき、例えば、収集された画像に対して、形態特徴および／または動的特徴などに基づいて、それに含まれる関心領域を決定および識別し、関心領域の形態および動的特徴を選択的に出力する。

本発明の一態様によれば、本発明は、ターゲット視野に対して、第１解像度で撮影して数量化し、第１ビット幅を有する第１画像を取得するステップと、前記ターゲット視野に対して、第２解像度で撮影して差分処理し、第２ビット幅を有する第２画像を取得するステップであって、前記差分処理は、第２解像度で撮影された画素点に対して、前記画素点と前記画素点の隣接または近い画素点との差を数量化して、数量化された差を第２画像における対応する画素点の値として取得することを含む、ステップと、第１画像と第２画像を融合して第３画像を取得するステップとを含むイメージングのための方法を提案し、ここで、第１解像度は、第２解像度よりも低く、第１ビット幅は、第２ビット幅よりも大きい。

一実施例によれば、第１画像と第２画像を融合して第３画像を取得するステップは、画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定するステップと、第１画像のうち前記関心領域に対応する対応領域を取得するステップと、第１画像の前記対応領域を第２画像の前記関心領域と融合して第３画像を得るステップとをさらに含む。

一実施例によれば、第２解像度で撮影された画素点に対して、前記画素点と前記画素点の隣接または近い画素点との差を数量化するステップは、前記差を、選択された配列に数量化するステップを含む。

一実施例によれば、前記配列は、｛－１，０，＋１｝である。このようにして、非常に少ないビット数、つまり最も経済的なデータリソースで画像データを保存、処理、及び伝送できる。

一実施例によれば、例えば、２つの閾値を使用して画素点の値を正と負の両方向で比較するなど、前記画素点の値を５つのレベルに分けることもできる。例えば、前記配列は、｛－２，－１，０，＋１，＋２｝である。このような５つの値の配列を使う手段は、３つの値の配列を使う手段よりも識別と融合に役立ち、特に関心領域のリアルタイムで正確な識別と位置決めに役立つ。

一実施例によれば、例えば、２つの閾値を使用して画素点の値を正と負の両方向で比較するなど、前記画素点の値を４つのレベルに分けることもできる。例えば、前記配列は、｛－２，－１，０，＋１｝または｛－１，０，＋１，＋２｝である。この４つの値の配列を使用すると、画素点の値を表すために２ビットのみを使用する。

本発明の実施例によれば、第１画像に対応するターゲット視野は、第２画像に対応するターゲット視野と同じである。実際には、通常、両者の間には時間および／または空間上の違いがある。これは、２つの画像が撮影された場所と時刻にわずかな違いがあるため、２つのターゲット視野が必ずしも完全に重なり合うとは限らない。ただし、両者の互いに重なり合う領域が画像の実際の主な部分である限り、または両者とも関心領域を含んでいる限り、それらは同じまたは同等の視野であると考えることができる。即ち、撮影された時間的および／または空間上の差異が許容範囲内の視野を同一の視野とみなすことができる。

一実施例によれば、前記方法は、融合する前に、第２画像を符号化して伝送し、前記伝送の後に、第２画像を復号して融合に用いるステップをさらに含む。

一実施例によれば、第２画像は、ランレングス符号化方式を使用して符号化され、第２画像のビットシーケンスは、繰り返しデータの繰り返し回数を記録するカウントシーケンスＬと、繰り返しデータそのものを記録するデータシーケンスＤとに符号化される。

一実施例によれば、ハフマン符号を使用して前記カウントシーケンスＬを記録し、固定長符号を使用してデータシーケンスＤを記録する。

一実施例によれば、第１画像と第２画像を融合するステップは、畳み込みニューラルネットワークを使用して第１画像と第２画像を融合するステップを含む。

一実施例によれば、画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定するステップは、特定の時間範囲内に前記ターゲット視野に対して撮影された画像、または以前に保存された前記ターゲット視野に対して撮影された画像を組み合わせることによって、前記関心領域を決定するステップを含む。

一実施例によれば、前記方法は、ディープラーニングを使用して前記画像認識方法をトレーニングするステップをさらに含み、ここで、選択されたターゲット、撮影する際の空間条件、および手動のラベル付けに基づいて、ディープラーニングを使用して前記画像認識方法をトレーニングする。

一実施例によれば、前記関心領域と前記対応領域を融合して第３画像を取得するステップは、前記関心領域が特定のオブジェクトを含む場合のみ、前記関心領域と前記対応領域を融合して第３画像を取得するステップをさらに含む。

一実施例によれば、前記方法は、融合した後に、第３画像を出力するステップ、または、第３画像を用いて完全画像を更新した後に、更新された完全画像を出力するステップをさらに含む。

一実施例によれば、本発明の方法を実施するカメラまたはビデオカメラを製造することができる。

関心領域の判明と報告について、システム、特にハードウェアの機能に限定される場合、リアルタイムの画像の報告は困難になる可能性がある。有用な改良点として、本発明のカメラまたはビデオカメラは、リアルタイム性をよりよく満たすために、関心領域に特定のオブジェクトが含まれていることが判明した場合に、関心領域を抽出し、それを報告することができる。

本発明の別の態様によれば、本発明は、ターゲット視野に対して、第１解像度で撮影して数量化し、第１ビット幅を有する画像を取得し、前記ターゲット視野に対して、第２解像度で撮影して差分処理し、第２ビット幅を有する第２画像を取得するように構成される画像撮影コンポーネントであって、前記差分処理は、第２解像度で撮影された画素点に対して、前記画素点と前記画素点の隣接または近い画素点との差を数量化して、数量化された差を第２画像における対応する画素点の値として取得することを含む、画像撮影コンポーネントと、前記画像撮影コンポーネントにカップリング接続され、第１画像と第２画像を融合して第３画像を取得するように構成されるデータ処理コンポーネントとを含むイメージングのための装置をさらに提案し、ここで、第１解像度は、第２解像度よりも低く、第１ビット幅は、第２ビット幅よりも大きい。

一実施例によれば、第１画像と第２画像を融合して第３画像を取得することは、画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定することと、第１画像のうち前記関心領域に対応する対応領域を取得することと、第１画像の前記対応領域を第２画像の前記関心領域と融合して第３画像を取得することとをさらに含む。

一実施例によれば、第２解像度で撮影された画素点に対して、前記画素点と前記画素点の隣接または近い画素点との差を数量化することは、前記差を、選択された配列に数量化することを含む。

一実施例によれば、前記配列は、｛－１，０，＋１｝または｛－２，－１，０，＋１，＋２｝または｛－２，－１，０，＋１｝または｛－１，０，＋１，＋２｝である。

一実施例によれば、前記装置は、符号化コンポーネントおよび伝送コンポーネントをさらに含み、前記符号化コンポーネントは、前記画像撮影コンポーネントにカップリング接続され、融合する前に第２画像を符号化するように構成され、前記伝送コンポーネントは、前記符号化コンポーネントおよび前記データ処理コンポーネントにカップリング接続され、符号化された第２画像を前記データ処理コンポーネントに伝送するように構成され、前記データ処理コンポーネントは、符号化された第２画像を受信した後に、融合に用いるために、前記符号化された第２画像を復号するようにさらに構成される。

一実施例によれば、前記符号化コンポーネントは、ランレングス符号化方式を使用して第２画像を符号化するようにさらに構成され、第２画像のビットシーケンスを、繰り返しデータの繰り返し回数を記録するカウントシーケンスＬと、繰り返しデータそのものを記録するデータシーケンスＤとに符号化する。

一実施例によれば、前記符号化コンポーネントは、ハフマン符号を使用して前記カウントシーケンスＬを記録し、固定長符号を使用して前記データシーケンスＤを記録するようにさらに構成される。

一実施例によれば、第１画像と第２画像を融合することは、畳み込みニューラルネットワークを使用して第１画像と第２画像を融合することを含む。

一実施例によれば、画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定するステップは、特定の時間範囲内に前記ターゲット視野に対して撮影された画像、または以前に保存された前記ターゲット視野に対して撮影された画像を組み合わせて、前記関心領域を決定することを含む。

一実施例によれば、前記データ処理コンポーネントは、ディープラーニングを使用して前記画像認識方法をトレーニングするようにさらに構成され、ここで、選択されたターゲット、撮影する際の空間条件、および手動のラベル付けに基づいて、ディープラーニングを使用して前記画像認識方法をトレーニングする。

本発明の別の態様によれば、コンピュータによって実行されるとき、上述の方法を実行するプログラムコードが記録された非一時的なコンピュータ読み取り可能な媒体をさらに提案する。

本発明の技術的解決手段により、画像収集のビット数を減らすことで読み取り時間を短縮し、超高画素の差分画像のリアルタイムな読み出しを実現するのに役立ち、画像融合において畳み込みニューラルネットワーク演算を実行することにより、画像の精度と識別性を効果的に向上させ、鮮明な超高画素画像を取得することができる。また、本発明の最適化されたオンチップ圧縮符号化および復号手段により、画像データにターゲットを絞って圧縮することができ、伝送帯域幅を大幅に削減し、リアルタイムかつ高速な画像伝送を実現することができる。

本発明の実施例によるイメージングのための方法の流れを示す概略図である。本発明の実施例によるイメージングのための方法の流れを示す概略図である。本発明の実施例によるイメージングのための方法の別の流れを示す概略図である。本発明の実施例によるイメージングのための方法の別の流れを示す概略図である。本発明の実施例による畳み込みニューラルネットワークに基づく画像融合アルゴリズムのブロック図である。本発明の実施例によるイメージングのための装置の構造ブロック図である。本発明の実施例によるイメージングのための装置の例の実施形態である。本発明の実施例によるリアルタイムイメージング装置の構造ブロック図である。本発明の実施例によるリアルタイムイメージング装置の画素アレイモジュールの選択可能な画素ユニットの概略図である。本発明の実施例によるリアルタイムイメージング装置の画素アレイモジュールに使用される画素ユニットの概略図である。本発明の実施例によるリアルタイムイメージング装置の画素アレイモジュールの選択可能なアーキテクチャの概略図である。本発明の実施例によるリアルタイムイメージング装置の行／列駆動モジュールに使用されるマルチレベルシフト回路である。本発明の実施例によるリアルタイムイメージング装置の行／列デコードモジュールの選択可能な順序論理スキームの概略図である。本発明の実施例によるリアルタイムイメージング装置の行／列デコードモジュールの選択可能な組み合わせ論理スキームの概略図である。本発明の実施例によるリアルタイムイメージング装置の低解像度高ビット幅のオリジナル画像に対する読み出しモジュールの概略図である。本発明の実施例によるリアルタイムイメージング装置の高解像度低ビット幅の差分画像に対する読み出しモジュールの概略図である。本発明の実施例によるリアルタイムイメージング装置の低解像度高ビット幅のオリジナル画像と高解像度低ビット幅の差分画像に対する読み出しモジュールの概略図である。

以下、本発明による方法、装置およびコンピュータ読み取り可能な媒体を、添付の図面および具体的な実施例を参照して例示的に説明する。明らかに、説明された実施例は、本開示の実施例のすべてではなく、一部にすぎない。一般的に、図面に説明され、示された本開示の実施例のコンポーネントは、様々な異なる構成で配置および設計されてもよい。したがって、添付の図面に提供される本開示の実施例の以下の詳細な説明は、保護を求める本開示の範囲を限定することを意図するものではなく、本開示の選択された実施例を表すことを意図するものにすぎない。本開示の実施例に基づいて、当業者が創造的努力なしに得た他のすべての実施例は、本開示の保護範囲内に含まれる。

なお、以下の図では、類似する番号と表記が類似する項目を表し、したがって、ある項目が１つの図で定義されたら、後続の図ではそれ以上の定義や説明を必要としない。

図１Ａ～１Ｂは、本発明の実施例によるイメージングのための方法１００の流れを示す概略図である。当該方法１００を使用して、画像の収集、処理、および出力を実行することができる。

図１Ａに示すように、当該方法１００において、ターゲット視野に対してそれぞれ２つの画像（例えば、解像度およびビット幅が異なる２つの画像）を並行して収集（または撮影）し、即ち、図１Ａの右半分に示されるプロセスまたはチャネル（ステップＳ１０）を用いて、第１画像（例えば低解像度高ビット幅のオリジナル画像）を取得し、図１Ａの左半分に示されるプロセスまたはチャネル（ステップＳ２０）を使用して、第２画像（例えば、高解像度低ビット幅の差分画像（対応するオリジナル画像を差分処理した後に得られる））を取得する。１つの画像取得コンポーネントを使用すると、上記２種類の画像の収集は、次々に行われる。２つの画像撮影コンポーネントを使用すると、上記の２種類の画像の収集は、同時に、いわゆる並行して行われてもよい。本発明は、使用される画像撮影コンポーネントの数に制限を課さない。

次に、収集された第１画像と第２画像を融合することができる（ステップＳ３０）。実施例によれば、第１解像度および第１ビット幅で第１画像を取得することができ、第２解像度および第２ビット幅で第２画像を取得することができ、ここで、第２画像は、差分処理された差分画像であってもよい。実施例によれば、第１解像度は、第２解像度よりも低くてもよく、第１ビット幅は、第２ビット幅よりも大きくてもよく、例えば、第１解像度は、第２解像度よりもはるかに低くてもよく（例えば、１０倍以上低く）、第１ビット幅は、８ビットであってもよく、第２ビット幅は、２ビットであってもよい。この場合、相対的に言えば、低解像度高ビット幅の第１画像は、ターゲット視野の大ざっぱな情報（例えば、背景）を取得するために使用でき、高解像度低ビット幅の第２画像は、ターゲット視野の細かい情報（例えば、ターゲット視野に存在する車両）を取得するために使用でき、第１画像に含まれるデータ量が少なく、第２画像に含まれるデータ量が比較的に多い。

本発明の実施例によれば、第２画像を差分処理することができ、この差分処理は、撮影された画素点（例えば、第２解像度で撮影された第２画像における各画素点）に対して、当該画素点と当該画素点の隣接または近い画素点との差を数量化して、数量化された差を第２画像における対応する画素点の値として取得することを含む。これにより、第２ビット幅（例えば、２ビットの低ビット幅）を有する第２画像を取得する。

上記および以下の説明において、本発明は、いわゆる第１または第２解像度（または高／低解像度）および第１または第２ビット幅（または高／低ビット幅）にいかなる制限も課さなく、その意味は相対的なものであり、当業者は、有利な技術的効果を得るために必要に応じてそれらの具体的な値を設定することができる。

選択可能に、図１Ｂに示すように、第１および第２画像の収集（ステップＳ１０およびステップＳ２０）が完了した後、伝送効率を向上させるために、収集された画像を符号化する（ステップＳ１０１およびＳ２０１）ことで、この後の伝送する際（ステップＳ１０２およびＳ２０２）の伝送効率を向上する。受信側は、伝送された符号化画像を受信した後、それに対して、復号（ステップＳ１０３およびステップＳ２０３）、および画像融合（ステップＳ３０）を行い、最終的に第３画像（例えば、高解像度高ビット幅の、関心のある視野の画像）を取得する。ここで、第３画像は、ターゲット視野に対する完全画像であり、第１画像の大ざっぱな情報と第２画像の細かい情報とを含むことができる。ここで、完全画像とは、当該視野の完全な領域に対する画像（例えば、高解像度高ビット幅の画像）を指す。受信側では、１つの受信機で上記２種類の画像の符号化データを交互に受信してもよく、２つの受信機で上記２種類の画像の符号化データを別々に同時に受信してもよい。ここで、本発明は、受信方法に何ら制限を課さない。

図２Ａ～２Ｂは、本発明の実施例によるイメージングのための方法２００の別の流れを示す概略図である。方法２００は、方法１００を改良したものとみなすことができる。図２Ａおよび図２Ｂに示すように、図１Ａ～図１Ｂと同様に、当該方法２００を使用すると、２つの画像を並行してそれぞれ収集することもでき、即ち、図の右半分に示されるプロセスまたはチャネル（ステップＳ１０）を使用して、第１画像（例えば、低解像度高ビット幅のオリジナル画像）を取得し、図の左半分に示されるプロセスまたはチャネル（ステップＳ２０）を使用して、第２画像（例えば、高解像度低ビット幅の差分画像）を取得する。ここで、同一または類似するステップについては説明を省略する。

図１Ａ～１Ｂとは異なり、図２Ａおよび２Ｂにおいて、画像融合（ステップＳ３０）の前に、画像認識方法を使用して、細かい情報を含む可能性がある第２画像（および、選択可能に、図面における点線で示すように、大ざっぱな情報を含む可能性がある第１画像）における関心領域を識別する（ステップ４０）ことができる。例えば、経験的データ（例えば、異なるターゲットの形態特徴）、（例えば、以前に撮影された）１つの画像または複数の連続画像、または所定の時間範囲内に撮影された複数の画像のデータに基づいて、視野における関心のあるターゲットに対して画像認識（例えば、特定のオブジェクトに対する）と動きの特徴の検出を行う。画像認識方法は、特定のオブジェクトが存在する可能性のある画像領域を識別することだけを含んでもよく、あるいは関心領域に含まれる特定のオブジェクト（例えば、車両）を識別することを含んでもよく、または含まなくてもよいが、本発明は、具体的な画像認識方法についていかなる制限も課さない。前記画像認識方法は、画像から関心領域（または動きを伴う動き領域）を抽出できる任意の方法またはアルゴリズムであってもよい。

さらに、画像融合の前またはその後に、人工視覚やコンピュータスキャンを使用して、関心を寄せるオブジェクトの形態に関する経験的データや情報に基づいて、視野におけるオブジェクトを識別し、動的に判別することもできる。

本発明の実施例によれば、（視野の完全画像としての第３画像を取得するために）第１画像と第２画像を直接に融合することもでき、または（視野の部分画像としての第３画像を取得するために）第１画像の一部と第２画像の対応する一部を融合することもできる。例えば、第１画像と第２画像を融合することは、画像認識方法を用いて第２画像のうちターゲット視野の関心領域を決定することと、第１画像のうち関心領域に対応する対応領域を取得することと、第１画像の対応領域を第２画像の関心領域と融合して、第３画像を取得することとを含んでもよい。例えば、関心領域に特定のオブジェクトが含まれる場合（例えば、コンピュータ識別または手動識別などの方法によって、関心領域に車や人物などの特定のオブジェクトが含まれると判定された場合）のみ、当該関心領域と当該対応領域を融合して第３画像を取得してもよい。

さらに、融合した後に第３画像を出力してもよく、または、第３画像を用いて完全画像を更新した後に更新された完全画像を出力してもよい。

本発明の実施例によれば、超高画素のリアルタイムイメージングのための方法（例えば、方法１００）は、以下のステップを含んでもよい。

ステップ１（またはステップＳ１０およびステップＳ２０）：ターゲット視野に対して、撮影して数量化し、例えば、高解像度低ビット幅（例えば、２ビット）の差分画像および低解像度高ビット幅（例えば、８ビット）のオリジナル画像を取得する。収集された（即ち、撮影する際にオリジナル画像を差分処理して得られる）差分画像のビット数を減らすことによって収集の速度を向上させ、リアルタイムイメージングの効果を達成することに寄与する。本発明の実施例によれば、例えば、２ビットの３値のビット幅（例えば、｛-１，０，１｝）の差分画像を画像融合に使用して、鮮明な融合画像を取得することができる。低解像度高ビット幅のオリジナル画像の収集は、通常の市販のセンサチップを使用して実現できる。

ステップ２（または、ステップＳ１０１および／またはステップＳ２０１）：差分画像のデータのスパース性を利用して、高解像度低ビット幅の差分画像を圧縮符号化し、データの伝送帯域幅を削減し、それによってリアルタイム伝送の目的の達成に寄与する。選択可能に、必要に応じて低解像度高ビット幅のオリジナル画像を圧縮符号化することもでき、通常、低解像度高ビット幅のオリジナル画像のデータサイズは、高解像度低ビット幅の差分画像のデータサイズよりもはるかに小さい。

例えば、圧縮符号化方式は、最適化されたランレングス符号化とハフマン符号化がある。ランレングス符号化は、元のビットシーケンスを、データの繰り返し回数を記録するカウントシーケンスＬと、繰り返しデータそのものを記録するデータシーケンスＤに符号化する。一方、繰り返し回数を記録するカウントシーケンスＬについては、その数値分布が非常に不均一であるため、固定長符号による符号化方式の代わりにハフマン可変長符号化方式を使用して符号化することで、データ量をさらに削減できる。他方、繰り返しデータそのものを記録するデータシーケンスＤについて、理論的には、当該差分画像の３つの異なる値を２ビットで表現する必要があるが、ランレングス符号化のデータシーケンスＤにおいて、隣接する２つのデータが必ず等しくないため、現在のデータの次のデータの可能性は２つしかない。したがって、可能な値のより大きい方を１とし、可能な値の小さい方を０として記録する。上記の原理に基づいて符号化を行うことによって、データ量をさらに削減することができ、伝送帯域幅がリアルタイム伝送（ステップＳ１０２またはステップＳ２０２）の条件を満たすようになる。

ステップ３（またはステップＳ１０３またはステップＳ２０３）：伝送された、ステップ２で符号化された高解像度低ビット幅の差分画像（および、選択可能に、伝送された、符号化された低解像度高ビット幅のオリジナル画像）を復号する。

ステップ４（またはステップＳ３０）：（復号された）高解像度低ビット幅の差分画像と、（復号された）低解像度高ビット幅のオリジナル画像とを融合する。本発明において、畳み込みニューラルネットワークに基づく画像融合アルゴリズムを使用して、それらを融合し、再構築することができる。

本発明の実施例によれば、低解像度高ビット幅のオリジナル画像を収集する場合、撮影された視野が関心のあるターゲット視野となるが、高解像度低ビット幅の差分画像を撮影する場合、前記低解像度高ビット幅のオリジナル画像と同じ視野を使用することが理想的である。しかし、実際には、この２つの操作は必ずしも同時に実行されるとは限らず、同じ装置で実行されることさえではないため、この２つの画像の対象とする視野は、必ずしも同じであるとは限らない。本発明の解決手段の趣旨によれば、第１画像（例えば、低解像度高ビット幅のオリジナル画像）の視野が第２画像（例えば、高解像度低ビット幅の差分画像）の視野がおおかた同じである限り、後続の画像処理（例えば、２つの視野の同じ部分を保持した画像融合）を経て、本発明の方法および装置によって生成される第３画像を取得して、当該視野の完全画像または関心領域を更新することができる。言い換えれば、本発明の実施例によれば、第１画像および第２画像に対応する上記２つの視野をターゲット視野と呼ぶことができ、当該ターゲット視野を特定の時間および／または特定の空間の視野に限定することができ、時間と空間においてわずかの誤差を許容する。

本発明の実施例によれば、高解像度低ビット幅の差分画像を取得する方法としては、例えば、オリジナル画像と同じ視野で高解像度のオリジナル画像を１つ撮影し、当該高解像度のオリジナル画像における画素点に対して、当該画素点と当該画素点の隣接または近い画素点との差分を比較することであってもよい。例えば、比較結果（両者の差）は、｛よりも小さい、に等しい、よりも大きい｝の判定に基づいて、｛－１，０，＋１｝のいずれか１つに数量化できる（これを「３区間法」と呼んでもよい）。当該高解像度のオリジナル画像の複数の画素点に対して上記の操作（差分比較と数量化）を繰り返し、最終的に高解像度低ビット幅の差分画像を生成することができる。例えば、各画素点に対して、上記の操作を繰り返してもよく、または一定の間隔（例えば、隣接する２つの行／列ごとに）または可変な間隔の画素点に対して、あるいは他の方法で選択された当該視野の複数の代表的な画素点に対して上記の操作を繰り返してもよく、本発明はこれに対していかなる制限も課さない。本明細書において、上記の差分比較と数量化の処理を「差分処理」と呼んでもよい。

例えば、差分処理は、隣接する２つの画素点の値を比較すること、即ち、ある方向でのｎ＋１番目の画素とｎ番目の画素の画素点の値を比較することであってもよい。それに類似する方法で、ｎ＋２またはｎ＋３番目の画素の画素点の値をｎ番目の画素の画素点の値と比較すること、即ち、ｎ＋ｉ番目の画素（ｉ＝１，２，．．．）の画素点の値をｎ番目の画素の画素点の値と比較することもできる。このようなケースは、例えば、一般的なスクリーニング（例えば、視野内に新しいオブジェクトがあるか否かなど）のような高空間解像度を必要としない一般的な状況に特に適し、異常があるか否かを検出するために使用できる。例えば、差分比較は、２行ごとにまたは２列ごとに行うことができる。

前述したように、画素点の値を｛－１，０，＋１｝のいずれか１つに数量化する場合、画素点の値は、例えば、輝度値または色を表すその他の値であってもよく、この値が例えば、２５６個の値のうちの１つであってもよく、８つのバイナリのビットで表すことができる。画素点の値の差分比較を実行する場合、その判定は、両方の間の直接的な差のみに基づいて行うことができ、つまり、２つの画素点の値が異なる限り、差が２５６個の値のうちの１つの値にのみ対応しても（例えば、差が１の場合）、－１または１と判定し、それに応じて、差が０の場合、０と判定する。なお、例えば、２５６個の値のうちの４など、両者の差が１つの閾値以上となるように判定基準を設定することができ、当該判定基準を満たした場合、異なると判定して、それに応じて－１または１を出力してもよい。この処理方法は、例えば、高コントラスト画像のエッジの詳細を定性的に表すために使用できる。

本発明の別の実施例として、以下に説明するようなより複雑な数量化手段を使用することもできる。

例えば、５区間法を使用すると、２つの閾値、つまり閾値Ｃ１とＣ２を使用し、ここで、Ｃ１とＣ２はいずれも０よりも大きく、かつＣ２＞Ｃ１であり、
画素点の値の比較結果（差）が、＜－Ｃ２、＜－Ｃ１、基準値（例えば０）に近い区間にあり、＞Ｃ１、＞Ｃ２という条件を満たしているか否かを判定することができる。言い換えれば、比較結果がどの区間にあるかを判断し、画素点の値の比較結果にそれぞれ｛－２，－１，０，１，２｝を代入し、つまり、次のようになる。
Ｉは、数量化する前の結果（例えば、差分比較の結果、即ち、上記の差）を表す。このようにして、広い領域で画素点の値を測定できる。ただし、このような５区間法は、画素点の値の比較結果を表すために３ビットを使用する必要があり、リソースがより多くかかる。

上記の５区間法よりもわずかにリソースを節約する４区間法は、同様に、同じ２つの閾値、つまり閾値Ｃ１とＣ２を使用し、Ｃ１とＣ２はいずれも０より大きく、かつＣ２＞Ｃ１である。画素点の値の比較結果が、＜－Ｃ２、＜－Ｃ１、基準値（例えば、０）に近い区間にあり、＞Ｃ１という条件を満たしているか否かを判断することできる。言い換えれば、比較結果がどの区間にあるかを判断し、画素点の値の比較結果にそれぞれ｛－２、－１、０，１｝を代入し、次のようになる。
あるいは、画素点の値が、＜－Ｃ１、基準値（例えば、０）に近い区間にあり、＞Ｃ１、＞Ｃ２という条件を満たしているか否かを判断できる。言い換えれば、比較結果がどの区間にあるかを判断し、画素点の値の比較結果にそれぞれ｛－１，０，１，２｝を代入し、次のようになる。
ここで、Ｉは、数量化する前の結果（例えば、差分比較の結果、即ち、上記の差）を表す。このようにして、画素点の値の比較結果を表すために２ビットだけを使用する必要がある。

上記の３区間（３値）法、４区間（４値）法、および５区間（５値）法のいずれか１つに基づいて、異なるビット幅の差分画像を取得することができる。以下、本発明の添付の図面および具体的な３値の場合の実施例を参照し、本発明について詳細に説明するが、以下の実施例は単なる例示的なものであり、限定的なものではない。なお、４値または５値の場合の実施例の原理は、以下の３値の場合の実施例の原理と同じである。

本実施例において、高解像度低ビット幅（３値、｛-１，０，１｝）の差分画像と、低解像度高ビット幅（例えば、８ビット）のグレースケール画像（例えば、方法１００）に基づいて、イメージングのための方法（例えば、方法１００）を設計し、具体的なステップは、次のとおりである。

ステップ１－１（または、ステップＳ１０およびステップＳ２０）：ターゲット視野に対して撮影して数量化し、低解像度高ビット幅のグレースケール画像および高解像度低ビット幅の差分画像を取得する。例えば、低解像度高ビット幅のグレースケール画像の解像度は、高解像度低ビット幅の差分画像の解像度の１／６４であってもよく、高解像度低ビット幅の差分画像は、対応するオリジナル画像におけるそれぞれの隣接する２列の差に基づいてもよく、そのデフォルトの数量化区間は、例えば、［－２５５，－４）、［－４，４］、および（４，２５５］であってもよい。このようにして、当該数量化区間に応じて３区間法を使用して差にそれぞれ｛－１，０，１｝を代入する（即ち、これら３つの区間はそれぞれ、－１、０、１に対応する）。収集する差分画像のビット数を減らすことによって、収集速度を向上させ、リアルタイムのイメージング効果を達成することに寄与する。

ステップ１－２（またはステップＳ１０１、Ｓ１０２、および／またはステップＳ２０１、Ｓ２０２）：差分画像のスパース性を利用して、高解像度低ビット幅の差分画像を圧縮符号化し、データの伝送帯域幅を削減し、それによってリアルタイム伝送の目的を達成することに寄与する。

例えば、圧縮符号化方式は、最適化されたランレングス符号化とハフマン符号化からなる。具体的には、ランレングス符号化では、元のビットシーケンスを、データの繰り返し回数を記録するカウントシーケンスＬと、繰り返しデータそのものを記録するデータシーケンスＤに符号化する。一方、繰り返し回数を記録するカウントシーケンスＬについては、その数値分布が非常に不均一であるため、固定長符号による符号化方式の代わりにハフマン符号を使用して符号化することで、データ量をさらに削減できる。他方、繰り返しデータそのものを記録するデータシーケンスＤについては、理論的には、隣接する２つのデータが必ず等しくない。この場合、差分画像の値の可能性は３つあり、現在のデータの次のデータの可能性は、２つしかないため、データシーケンスＤにおいて、１番目のデータのみが３つの可能性を持ち、それ以降のすべてのデータには２つの可能性しかない。したがって、２ビットを使用して１番目のデータを符号化し、残りの各データはそれぞれ、１ビットで符号化することできる。

ステップ１－３（または、ステップＳ１０３および／またはＳ２０３）：受信側で、符号化された高解像度低ビット幅の差分画像を復号する。

ステップ１－４（またはステップＳ３０）：高解像度低ビット幅の差分画像と低解像度高ビット幅のグレースケール画像を融合する。

本実施例において、畳み込みニューラルネットワークに基づく画像融合アルゴリズムを使用して、両者に対して最適化した融合および再構築を実行することができる。本実施例において、入力された高解像度低ビット幅の差分画像と低解像度高ビット幅の画像のチャネルはいずれも１であり、出力された高解像度高ビット幅の画像の解像度は、入力された高解像度低ビット幅の差分画像の解像度と同じ、チャネル数が１である。

図３は、本発明の実施例による畳み込みニューラルネットワークに基づく画像融合アルゴリズムのブロック図である。当該畳み込みニューラルネットワークのネットワーク構造について、図３を参照して以下に説明する。

本発明の実施例によれば、入力された２つの画像（例えば、高解像度低ビット幅の画像と低解像度高ビット幅の画像）には解像度の違いがある場合があり、例えば、一方の画像の解像度は、他方の画像の１／６４である。この解像度の不一致の問題に対処するために、マルチスケール特徴融合ネットワークを使用して、高解像度低ビット幅の差分画像の周波数の高い情報と、低解像度高解像度の画像の周波数の低い情報を異なるスケールで融合してもよい。

図３に示すように、このマルチスケール特徴融合ネットワークは、３つの異なるブランチ、即ち、１つの超解像度ブランチと２つの差分ブランチに分けられてもよい。超解像度ブランチの入力は、低解像度高ビット幅の画像であり、出力は、対応する（例えば、８＊８倍）の高解像度高ビット幅の画像であり、また、詳細が鮮明な高解像度高ビット幅の画像を合成するために、超解像度ブランチの後半では、特徴融合結合を使用して２つの差分ブランチからの高周波成分を融合する。２つの差分ブランチの入力は、高解像度低ビット幅の差分画像であるが、本実施例において、差分画像が１つのｘ方向（つまり、列と列の間の差分比較）しかないため、２つのブランチの入力は同じであり、いずれもｘ方向の差分画像である。より良く融合するために、２つの差分ブランチはそれぞれ、ｘ方向（つまり、列と列の間の差分比較）とｙ方向（つまり、行と行の間の差分比較）の高解像度高ビット幅の差分画像を出力し、これを達成するために、２つの差分ブランチはトレーニングする際に使用する監視マップはそれぞれ、ｘ方向とｙ方向の高解像度高ビット幅の差分画像であり、２つの差分ブランチはいずれも、超解像度ブランチからの低周波成分を異なるスケールで融合し、高解像度高ビット幅の差分画像の融合をガイドするために用いる。

特徴融合結合、損失関数およびトレーニングする方法を含む各ブランチ構造の詳細を以下に紹介する。

図３を参照すると、超解像度ブランチは、２つの部分に分けることができ、第１部分では、入力された低解像度高ビット幅の画像の（例えば、８＊８倍）超解像処理を完了するとともに、異なるスケールでの特徴マップを取得し、これらの特徴マップはが差分ブランチの融合と再構築をガイドするために使用されてもよく、第２部分では、差分ブランチからの特徴マップを融合して、最終的な高解像度高ビット幅の画像の融合と再構築を完了する。超解像度ブランチでは、プログレッシブ（Ｐｒｏｇｒｅｓｓｉｖｅ）な超解像アルゴリズムを使用してもよく、例えば、２＊２アップサンプリングレイヤーを３回使用して、８＊８倍の超解像度を実現でき、アップサンプリングレイヤーは、転置畳み込みで実現される。当該ネットワークの後半では、超解像度ブランチは、２つの差分ブランチの特徴を融合して、最終的な融合と再構築を完了する。

図３を参照すると、２つの差分ブランチは構造が同じであるが、それらの監視マップが異なってもよく、パラメータを共有しなくてもよい。差分ブランチの前半は、Ｕ－ｎｅｔと類似するＵ型構造を使用してもよいが、Ｕ－ｎｅｔとは異なり、ＲＲＤＢ（Ｒｅｓｉｄｕａｌ－ｉｎ－ＲｅｓｉｄｕａｌＤｅｎｓｅＢｌｏｃｋ）を使用して基礎の畳み込み層を置き換えることもできる。最大プーリング層（Ｍａｘｐｏｏｌｉｎｇｌａｙｅｒ）をダウンサンプリング層として使用し、転置畳み込み層をアップサンプリング層として使用してもよい。ＲＲＤＢと最大プーリング層を、基本的なダウンサンプリングモジュールとして組み合わせることができ、ダウンサンプリングプロセスにおいて、２＊２ダウンサンプリングモジュールを３回使用して、異なるスケールでの４つの特徴マップ（例えば、元のスケール、１／２＊１／２倍の解像度、１／４＊１／４倍の解像度、および１／８＊１／８倍の解像度）を取得でき、これらの特徴マップが図３に示すような方式でアップサンプリングプロセスにおける特徴マップと融合される。ＲＲＤＢと転置畳み込み層を、基本的な２＊２アップサンプリングモジュールとして組み合わせ、２＊２アップサンプリングモジュールを３回使用して特徴マップを元のサイズに復元し、アップサンプリングプロセスにおいて、同じ差分ブランチのダウンサンプリングにおいて取得された特徴マップと、超解像度ブランチのアップサンプリングプロセスにおいて取得された特徴マップとを異なるスケールで融合することができる。

本発明の実施例によれば、特徴融合結合アルゴリズムには、高解像度の差分画像から高解像度の差分画像へ（ＨＲＤ－ｔｏ－ＨＲＤ）の特徴融合結合、低解像度のオリジナル画像から高解像度の差分画像へ（ＬＲＩ－ｔｏ－ＨＲＤ）の特徴融合結合、および高解像度の差分画像から低解像度のオリジナル画像へ（ＨＲＤ－ｔｏ－ＬＲＩ）の特徴融合結合という３種類の特徴融合結合が含まれ、それらは、ネットワークにおける異なる位置にそれぞれ配置され、異なる役割を果たし、各特徴結合では、特徴マップのの連結操作（Ｃｏｎｃａｔ）が実行される。ネットワーク全体の前半部分では、３つのブランチがすべてマルチスケール構造であり、この部分では、超解像度ブランチの特徴マップを２つの差分ブランチのアップサンプリング部分に融合する（ＬＲＩ－ｔｏ－ＨＲＤ特徴融合結合）とともに、同じ差分ネットワークのダウンサンプリングプロセスにおいて生成された特徴マップをアップサンプリング部分に融合する（ＨＲＤ－ｔｏ－ＨＲＤ特徴融合結合）ことができる。ネットワーク全体の後半部分では、２つの差分ブランチによって生成された特徴マップを超解像度ブランチに融合して（ＨＲＤ－ｔｏ－ＬＲＩ特徴融合結合）、最終的な融合を完了することできる。当該ネットワークでは、特徴融合結合を含む層を除き、各層の特徴マップの数は１６に設定され、特徴融合結合を含む層において、その特徴マップの数は、１６の整数倍であり、その倍数が融合された異なるブランチからの数であり、例えば、２つのブランチを融合する場合の特徴マップの数は３２である。

本発明の実施例によれば、鮮明な高解像度高ビット幅の画像と融合結果との間の最小平均二乗誤差を、超解像度ブランチの損失関数（ＭＳＥＬｏｓｓ）としてもよい。また、ｘ方向およびｙ方向の高解像度高ビット幅の差分画像と２つの差分ブランチの出力との間の最小平均二乗誤差をそれぞれ使用して２つの差分ブランチの損失関数としてもよい。したがって、総損失関数は、次の式で表すことができる。

本発明の実施例によれば、トレーニング方法に関しては、ＤＩＶ２Ｋ超解像度データセットを使用してトレーニングセットを作成できる。例えば、トレーニングする際に、畳み込みカーネルのサイズを３に設定し、Ａｄａｍアルゴリズムをオプティマイザーとして使用し、損失関数におけるハイパーパラメータβとγを０．１に設定し、学習率を１×１０^－４に設定し、２０Ｋ回のイテレーションごとに、学習率に減衰（Ｄｅｃａｙ）係数０．５を乗算し、合計１００Ｋ回のイテレーションでトレーニングし、Ｂａｔｃｈｓｉｚｅを１６に設定する。

本実施例は、差分画像に基づく画像認識が追加されたイメージングのための方法（例えば、方法２００）を提案する。差分処理を行わずにオリジナル画像に対して直接に画像認識を行うのと異なり、本実施例は、差分画像に対して直接に画像認識を行い、関心領域を識別した後、関心領域のみに対して融合する。

ステップ２－１：実施例１のステップ１－１と同じである。
ステップ２－２：実施例１のステップ１－２と同じである。
ステップ２－３：実施例１のステップ１－３と同じである。
ステップ２－４：トレーニングデータセットを構築し、生成されたトレーニングセットを使用して画像認識方法（例えば、ＹＯＬＯｖ３）をトレーニングし、トレーニングされた画像認識方法を取得する。本実施例におけるトレーニングデータセットは、公開された画像認識データセットによって生成されてもよく、あるいは手動のラベル付けによって生成されてもよい。この２つの方法は、具体的に以下のとおりである。
１）公開されたデータセットから生成：公開された画像認識データセットをダウンロードした後、ラベルに対して処理せず、ステップ２－１で設定された数量化区間に基づいて、データセットにおけるオリジナル画像（例えば、数量化されていない高解像度のオリジナル画像）に対して上記のような差分処理を行い、対応する差分画像（例えば、高解像度低ビット幅の差分画像）を取得し、データセットにおける既存のラベルと組み合わせて、ペアとなるトレーニングセットを生成する。
２）手動のラベル付けによる生成：収集された差分画像のうち関心領域に手動でラベリングしてデータペアを形成し、それによってトレーニングデータセットを構築する。
ここで、ステップ２－４は通常、事前に実行されてもよく、即ち、この方法を実施する際に、既存のトレーニングされた画像認識方法を採用してもよい。通常、ステップ２－３で高解像度低ビット幅の差分画像を取得した後、直接にステップ２－５に進む。
ステップ２－５：関心領域を識別するために、トレーニングされた画像認識方法（ステップ２－４で取得されたＹＯＬＯｖ３）を高解像度低ビット幅の差分画像に適用してもよい。
ステップ２－６：低解像度高ビット幅画像のうち、識別された関心領域に対応する対応領域を取得する（例えば、関心領域のターゲット視野における位置決めによって決定される）。
ステップ２－７：識別された関心領域と識別された対応領域を融合して、関心領域に対する融合画像（第３画像）を取得し、ここで、融合方法が実施例１のステップ１－４と同じであってもよい。例えば、当該融合画像を使用して当該視野の完全画像を更新し、更新された完全画像を取得することができる。視野において変化が発生した場合（例えば、特定のオブジェクトが現れたり、元のオブジェクトが移動したりするなど）のみ、（例えば、融合画像を使用して）当該完全画像を更新してもよい。あるいは、異なる更新率を設定し、例えば、第１画像および第２画像（視野全体の情報を含む画像）を使用して第１更新率で完全画像を更新し、融合画像を使用して第２更新率で完全画像（の更新の必要がある、または変化が発生した対応する部分）を更新してもよく、ここで、第１更新レートは、第２更新レートよりも小さくてもよく（例えば、それぞれ１ｆｐｓと３０ｆｐｓである）、本発明は、それらの具体的な値にいかなる制限も課さない。このように、最も少ないデータで完全画像を更新できる。

本実施例は、高解像度低ビット幅（例えば、３値）の差分画像と低解像度高ビット幅（例えば、８ビット）のグレースケール画像に基づいた、数量化区間を自己適応的に調整可能なイメージングのための方法の設計手段を提案する。
ステップ３－１：コードレート－数量化区間－融合品質のデータベースを構築し、即ち、既存の公開されたデータセットを使用して、コードレート－数量化区間－融合品質のデータベースを構築する。
ステップ３－２：低解像度のグレースケール画像と高解像度の差分画像を収集するための数量化区間を決定する。初期のコードレートと融合品質を設定し、例えば、低解像度のグレースケール画像の解像度は、高解像度の差分画像の１／６４に設定され、高解像度の差分画像は、その対応するオリジナル画像の隣接する２つの列の間の差に基づくように設定される。設定された初期システムビットレートと融合品質に基づいて、ステップ３－１で構築されたデータベースにおいてクエリーして対応する数量化区間を決定し、低解像度のグレースケール画像と高解像度の差分画像の収集を完成させ、それらに異なるビット幅を付与する。コードレートと融合品質は、リアルタイムで手動で調整でき、データベースにおける対応する数量化区間もそれに応じて変更される。
次に、ステップ１－１から１－４を実施してもよく、ステップ２－１から２－７を実施してもよい。

本実施例は、差分画像に基づく動き検出が追加されたイメージングのための方法（例えば、方法２００）を提案する。融合した後の画像（例えば、第３画像）に対する従来の動き検出とは異なり、本実施例の方法は、融合する前の画像（例えば、上述したように、低解像度高ビット幅の画像または第１画像、および／または高解像度低ビット幅の画像または第２画像）に対して動き検出（例えば、図２Ａ～２ＢのステップＳ４０に示される画像認識）を行う。動き領域（または関心領域）を識別した後、動き領域（または関心領域）のみに対して融合する（例えば、図２Ａ～２ＢのステップＳ３０に示される画像融合）。当該方法は、図２Ａ～２Ｂを参照して実施することができる。以下、高解像度低ビット幅の差分画像を例として、本方法の具体的なステップを説明する。

ステップ４－１：実施例１のステップ１－１と同じである。
ステップ４－２：実施例１のステップ１－２と同じである。
ステップ４－３：実施例１のステップ１－３と同じである。
ステップ４－４：フレーム間方法を使用して、隣接する２つのフレームの高解像度低ビット幅の差分画像の間の差を計算し、差分の変化のある（例えば、差分が特定の閾値条件を満たす）領域を抽出し、動き領域（例えば、座標の形式で）、即ち関心領域を取得する。
ステップ４－５：実施例２のステップ２－６から２－７と同じで、融合された動き領域を取得する。
ステップ４－６：融合された動き領域を使用して、以前に撮影されたターゲット視野の完全画像を更新し、当該完全画像における動き領域以外の領域が更新されない。
ステップ４－７：ステップ４－１～４－６を繰り返す。

本実施例は、低解像度高ビット幅（例えば、８ビット）のＲＧＢ画像と高解像度低ビット幅（例えば、３値）の差分画像に基づくイメージングのための方法を提案する。

ステップ５－１：低解像度高ビット幅のＲＧＢ画像と高解像度低ビット幅の差分画像を収集する。この例において、低解像度高ビット幅のＲＧＢ画像の解像度は、高解像度低ビット幅の差分画像の１／６４であり、高解像度低ビット幅の差分画像は、対応する元のグレースケール画像のそれぞれの隣接する２つの列の差に基づくことができ、そのデフォルトの数量化区間が（－２５５，－４）、［－４，４］、および（４，２５５）であり、対応する数量化した後の値が－１、０、および１である。収集する差分画像のビット数を減らすことによって、収集速度を向上させ、リアルタイムイメージング効果を達成することに寄与する。
ステップ５－２：実施例１のステップ１－２と同じである。
ステップ５－３：実施例１のステップ１－３と同じである。
ステップ５－４：収集された低解像度高ビット幅のＲＧＢカラー画像を組み合わせて融合する。本実施例において、畳み込みニューラルネットワークに基づく画像融合アルゴリズムを使用して、その両者に対して、最適化した融合および再構築を実行する。当該実施例において、当該畳み込みニューラルネットワークについて、入力された高解像度低ビット幅の差分画像と低解像度高ビット幅のＲＧＢ画像のチャネル数はそれぞれ１と３であり、出力された高解像度高ビット幅の画像の解像度は、入力された高解像度低ビット幅の差分画像の解像度と同じで、チャネル数が３であり、即ち、高解像度高ビット幅のＲＧＢ画像が出力される。

本発明によるリアルタイムイメージングのための装置の実施例
図４Ａは、本発明の実施例によるイメージングのための装置４００の構造ブロック図であり、図４Ｂは、本発明の実施例によるイメージングのための装置４００の例の実施形態である。

図４Ａに示すように、装置４００は、画像撮影コンポーネント４０１、データ処理コンポーネント４０２、符号化コンポーネント４０３、および伝送コンポーネント４０４を含むことができる。実施例によれば、画像撮影コンポーネント４０１は、上述のような、画像を収集する（撮影および数量化を含む）動作を実行するように構成されてもよい。データ処理コンポーネント４０２は、画像認識、画像融合、および復号などの動作を含む、データ処理に関連する動作を実行するように構成されてもよい。符号化コンポーネント４０３は、収集された画像のデータを、例えば、データ処理コンポーネント４０２または他のデータ処理装置に伝送するために符号化するように構成されてもよい。伝送コンポーネント４０４は、様々なデータを伝送するように構成されてもよく、例えば、さらなる処理のために、符号化された画像データを符号化コンポーネント４０３からデータ処理コンポーネント４０２に伝送する。装置４００に含まれる様々なコンポーネントは、例えば、制御コンポーネント（図示せず）の制御に基づいて様々な動作を実行することができる。

図４Ｂに示すように、本発明による装置（例えば、装置４００）は、リアルタイムイメージング装置デモボード４１０（画像撮影コンポーネント４０１と符号化コンポーネント４０３の組み合わせとして使用可能）と、ホストコンピュータ４１２（データ処理コンポーネント４０２として使用可能）とを含むように実施されてもよく、この両者は、イーサネットインターフェース４１４（伝送コンポーネント４０４として使用可能）を介して電気的に接続されてもよい。リアルタイムイメージング装置デモボード４１０は、リアルタイムイメージング装置４１１、ＦＰＧＡ制御ユニット４１５、およびシステム周辺チップ４１３を含むことができる。ホストコンピュータ４１２は、イーサネットインターフェース４１４を使用してリアルタイムイメージング装置デモボード４１０を配置し、リアルタイムイメージング装置デモボード４１０におけるＦＰＧＡ制御ユニット４１５およびシステム周辺チップ４１３は、配置情報に従って、運行に必要なタイミング信号および制御電圧をリアルタイムイメージング装置４１１に提供し、収集された画像データをイーサネットインターフェース４１４を介してホストコンピュータ４１２に最後に伝送して、１回の収集タスクを完了する。

図５は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の構造ブロック図である。図５に示すように、リアルタイムイメージング装置は、画素アレイモジュール、行／列駆動モジュール、行／列デコードモジュール、読み出しモジュール、及びＩ／Ｏモジュールを含むことができる。ＦＰＧＡ制御ユニット（例えば、ＦＰＧＡ制御ユニット４１５）は、Ｉ／Ｏインターフェースモジュールを介して行／列デコードモジュールを制御し、行／列駆動モジュールに動作電圧を提供するとともに、画素アレイモジュールをターゲットシーンに対して光検知を行うように制御し、最後に読み出しモジュールによって画像データを読み出す。

図６は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の画素アレイモジュールの選択可能な画素ユニットの概略図である。図６に示すように、画素アレイモジュールは、画素ユニットと画素アレイとの２つのレベルを含むことができる。画素ユニットレベルでは、プレーナシリコンプロセス製造技術に基づいて、フォトダイオード（ＰＤ）、フォトトランジスタ（ＰＴ）、電荷結合素子（ＣＣＤ）、アクティブピクセルセンサ（ＡＰＳ）など、多くのオプションがある。

図７は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の画素アレイモジュールに使用される画素ユニットの概略図である。図８は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の画素アレイモジュールの選択可能なアーキテクチャの概略図である。本発明において、図６に示される画素ユニットの１つの好ましい実施例において、図７に示される、ＣＮ２０１２１０４４２００７．Ｘにおけるデュアルトランジスタ光検出器を使用することができる。図８に示すように、画素アレイレベルは、ＮＡＮＤアーキテクチャまたはＮＯＲアーキテクチャを選択することができ、１つの好ましい実施例において、ＮＯＲアーキテクチャを使用することができる。

図９は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の行／列駆動モジュールに使用されるマルチレベルシフト回路である。図９に示すように、例として、行／列駆動モジュールは、ＣＮ２０２０１０３８４７６５．５におけるマルチレベルシフト回路を使用することができる。当該モジュールには、プリシフト正電圧信号ＶＶＰＰ、プリシフト負電圧信号ＶＶＰＮ、シフト正電圧信号ＶＰＨＶ、シフト負電圧信号ＶＮＨＶ、およびプリシフト制御信号ＶＩＮを入力する必要がある。シフト電圧出力信号ＶＯは、プリシフト制御信号ＶＩＮの制御のもとでシフト正電圧信号ＶＰＨＶまたはシフト負電圧信号ＶＮＨＶを出力し、画素アレイモジュールに駆動電圧を提供する。

本発明の実施例によれば、行／列デコードモジュールは、シフトレジスタの順序論理スキームまたはデコーダの組み合わせ論理スキームを使用することができる。図１０は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の行／列デコードモジュールの選択可能な順序論理スキームの概略図である。本実施例において、ＶｅｒｉｌｏｇＨＤＬで記述された組み合わせ論理スキームが使用される。図１１は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の行／列デコードモジュールの選択可能な組み合わせ論理スキームの概略図である。例として、１０２４ｂｉｔの順序論理スキーム（図１０）および８ビットの組み合わせ論理スキーム（図１１）を使用できる。

図１２～１４は、本発明の実施例によるリアルタイムイメージング装置（例えば、リアルタイムイメージング装置４１１）の読み出しモジュールの異なる実施形態の概略図である。読み出しモジュールは、２つのスキームとして実施され、即ち、高解像度低ビット幅の差分画像と低解像度高ビット幅のオリジナル画像に対して、読み出し回路をそれぞれ設計してもよく、高解像度低ビット幅の差分画像と低解像度高ビット幅のオリジナル画像の読み出し回路を組み合わせしてもよい。１つ目のスキームについて、既存の特許ＣＮ２０１９１１２５７２１９．９における読み出し回路（図１２に示すように）を使用して、低解像度高ビット幅のオリジナル画像を読み出すことができ、既存の特許ＣＮ２０２０１０６９７７９１．３における電流減算回路（図１３に示すように）を使用して、高解像度低ビット幅の差分画像を読み出すことができる。２つ目のスキームについて、特許ＣＮ２０１９１１２５７２１９．９における読み出し回路（図１２に示すように）を引き続いて使用して、低解像度高ビット幅のオリジナル画像を読み出す場合、アップダウンカウンタをアップカウントモードに設定し、高解像度低ビット幅の差分画像を読み出す場合、アップダウンカウンタをまずアップカウントモードに設定し、次にダウンカウントモードに設定して差分の読み出しを実現する。本発明は、新規な読み出し回路を使用し（図１４に示すように）、低解像度高ビット幅のオリジナル画像に対して動作する場合、ＤＩＲが０であり、カレントミラーＣＭ１が動作し、ＣＭ２が動作せず、ＢＬＮの電流がコンデンサＣに放電するために用いられ、コンデンサの電圧がコンパレータＣＭＰ１の基準電圧ＶＰ以下に放電されるまで、カウンタが動作し続け、コンデンサの電圧が基準電圧ＶＰ以下に放電されると、カウンタが動作を停止し、数量化結果をパラレル―シリアル変換モジュールによって送り出し、高解像度低ビット幅の差分画像に対して動作する場合、ＤＩＲが１であり、カレントミラーＣＭ１とＣＭ２が同時に動作し、ＢＬＮ－ＢＬＮ＋１の電流が、コンデンサＣに放電するために用いられ、コンパレータＣＭＰ１、ＣＭＰ２を通過した後、２ビットの数量化結果が取得され、当該結果がパラレル―シリアル変換モジュールによって送り出される。Ｉ／Ｏインターフェースモジュールは、ＥＳＤ保護機能を備えた任意のメーカーの汎用的な入力／出力インターフェースを使用することができる。

なお、本明細書における各実施例は、他の実施例との相違点に焦点を当てて段階的に説明され、各実施例間の同一部分および類似部分については互いに参照すればよい。

本出願で提供されるいくつかの実施例において、フローチャートまたはブロック図の各クロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができ、当該モジュール、プログラムセグメント、またはコードの一部には、指定された論理機能を実現するための１つまたは複数の実行可能な命令が含まれることを理解されたい。なお、代わりとしてのいくつかの実現形態において、ブロック内に示されている機能が、図面に示されている順序と異なる順序で実行される可能性がある。例えば、２つの連続するブロックは、実際には実質的に並行して実行されてもよく、係る機能に応じて逆の順序で実行されてもよい。また、ブロック図および／またはフローチャート図における各ブロック、およびブロック図および／またはフローチャート図におけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムによって実現されてもよく、または専用のハードウェアとコンピュータ命令の組み合わせによって実現されてもよいことも注意されたい。

前記機能がソフトウェア機能モジュールの形式で実現され、独立した製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記録されてもよい。この理解に基づいて、本開示の技術的手段は、本質的に、または従来の技術に貢献する一部、または当該技術的手段の一部は、ソフトウェア製品の形で具体化することができる。当該コンピュータソフトウェア製品は、記憶媒体に記録され、コンピュータデバイス（パーソナルコンピュータ、サーバー、またはネットワークデバイスなど）に本開示の各実施例に記載の方法のステップのすべてまたは一部を実行させるためのいくつかの命令を含む。前述の記憶媒体は、ＵＳＢメモリ、ポータブルハードディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスクまたは光ディスクなどの、プログラムコードを保存できる様々な媒体を含む。

なお、本明細書において、第１および第２などの関係用語は、あるエンティティまたは操作を、別のエンティティまたは操作から区別するためにのみ使用され、これらのエンティティまたは操作の間にはこのような実際の関係または順序が存在することを必ずしも要求または暗示するものではない。さらに、「含む」、「備える」という用語、またはその他のいかなる変形は、非排他的な包含をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品、またはデバイスがそれらの要素だけでなく、明示的に列挙されていない他の要素もさらに含み、あるいはそのようなプロセス、方法、物品またはデバイスの固有の要素もさらに含む。さらなる制限がない場合、「…を含む」という記述によって限定される要素は、前記要素を含むプロセス、方法、物品、またはデバイスにおいて他の同一要素が存在することを排除するものではない。

当業者にとって、本発明の上記の開示内容に基づいて、本発明の方法、装置などの解決手段、およびそれらの実施例に詳しく記載されていない詳細を合理的に理解することは困難ではない。これらの前記内容はすべて、本発明の保護範囲内に属する。

Claims

ターゲット視野に対して、第１解像度で撮影して数量化し、第１ビット幅を有する第１画像を取得するステップと、
前記ターゲット視野に対して、第２解像度で撮影して差分処理し、第２ビット幅を有する第２画像を取得するステップであって、前記差分処理は、第２解像度で撮影された画素点に対して、前記画素点と前記画素点の隣接または近い画素点との差を数量化して、数量化された差を第２画像における対応する画素点の値として取得することを含む、ステップと、
第１画像と第２画像を融合して第３画像を取得するステップとを含み、
第１解像度は、第２解像度よりも低く、第１ビット幅は、第２ビット幅よりも大きい、イメージングのための方法。
第１画像と第２画像を融合して第３画像を取得するステップは、
画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定するステップと、
第１画像のうち前記関心領域に対応する対応領域を取得するステップと、
第１画像の前記対応領域を第２画像の前記関心領域と融合して第３画像を得るステップとをさらに含む、請求項１に記載のイメージングのための方法。
融合する前に、第２画像を符号化して伝送し、前記伝送の後に、第２画像を復号して融合に用いるステップをさらに含む、請求項１に記載のイメージングのための方法。
第２画像は、ランレングス符号化方式を使用して符号化され、第２画像のビットシーケンスは、繰り返しデータの繰り返し回数を記録するカウントシーケンスＬと、繰り返しデータそのものを記録するデータシーケンスＤとに符号化される、請求項３に記載のイメージングのための方法。
ハフマン符号を使用して前記カウントシーケンスＬを記録し、固定長符号を使用して前記データシーケンスＤを記録する、請求項４に記載のイメージングのための方法。
第１画像と第２画像を融合するステップは、畳み込みニューラルネットワークを使用して第１画像と第２画像を融合するステップを含む、請求項１に記載のイメージングのための方法。
画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定するステップは、特定の時間範囲内に前記ターゲット視野に対して撮影された画像、または以前に保存された前記ターゲット視野に対して撮影された画像を組み合わせることによって、前記関心領域を決定するステップを含む、請求項２に記載のイメージングのための方法。
選択されたターゲット、撮影する際の空間条件、および手動のラベル付けに基づいて、ディープラーニングを使用して前記画像認識方法をトレーニングするステップをさらに含む、請求項２に記載のイメージングのための方法。
前記関心領域と前記対応領域を融合して第３画像を取得するステップは、前記関心領域が特定のオブジェクトを含む場合のみ、前記関心領域と前記対応領域を融合して第３画像を取得するステップをさらに含む、請求項２に記載のイメージングのための方法。
融合した後に、第３画像を出力するステップ、または、第３画像を用いて完全画像を更新した後に、更新された完全画像を出力するステップをさらに含む、請求項１に記載のイメージングのための方法。
ターゲット視野に対して、第１解像度で撮影して数量化し、第１ビット幅を有する画像を取得し、前記ターゲット視野に対して、第２解像度で撮影して差分処理し、第２ビット幅を有する第２画像を取得するように構成される画像撮影コンポーネントであって、前記差分処理は、第２解像度で撮影された画素点に対して、前記画素点と前記画素点の隣接または近い画素点との差を数量化して、数量化された差を第２画像における対応する画素点の値として取得することを含む、画像撮影コンポーネントと、
前記画像撮影コンポーネントにカップリング接続され、第１画像と第２画像を融合して第３画像を取得するように構成されるデータ処理コンポーネントとを含み、
第１解像度は、第２解像度よりも低く、第１ビット幅は、第２ビット幅よりも大きい、イメージングのための装置。
第１画像と第２画像を融合して第３画像を取得することは、
画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定することと、
第１画像のうち前記関心領域に対応する対応領域を取得することと、
第１画像の前記対応領域を第２画像の前記関心領域と融合して第３画像を得ることとをさらに含む、請求項１１に記載のイメージングのための装置。
符号化コンポーネントおよび伝送コンポーネントをさらに含み、
前記符号化コンポーネントは、前記画像撮影コンポーネントにカップリング接続され、融合する前に第２画像を符号化するように構成され、
前記伝送コンポーネントは、前記符号化コンポーネントおよび前記データ処理コンポーネントにカップリング接続され、符号化された第２画像を前記データ処理コンポーネントに伝送するように構成され、
前記データ処理コンポーネントは、符号化された第２画像を受信した後に、融合に用いるために、前記符号化された第２画像を復号するようにさらに構成される、請求項１１に記載のイメージングのための装置。
前記符号化コンポーネントは、ランレングス符号化方式を使用して第２画像を符号化するようにさらに構成され、第２画像のビットシーケンスを、繰り返しデータの繰り返し回数を記録するカウントシーケンスＬと、繰り返しデータそのものを記録するデータシーケンスＤとに符号化する、請求項１３に記載のイメージングのための装置。
前記符号化コンポーネントは、ハフマン符号を使用して前記カウントシーケンスＬを記録し、固定長符号を使用して前記データシーケンスＤを記録するようにさらに構成される、請求項１４に記載のイメージングのための装置。
第１画像と第２画像を融合することは、畳み込みニューラルネットワークを使用して第１画像と第２画像を融合することを含む、請求項１１に記載のイメージングのための装置。
画像認識方法を使用して第２画像のうち前記ターゲット視野の関心領域を決定することは、特定の時間範囲内に前記ターゲット視野に対して撮影された画像、または以前に保存された前記ターゲット視野に対して撮影された画像を組み合わせて、前記関心領域を決定することを含む、請求項１２に記載のイメージングのための装置。
前記データ処理コンポーネントは、選択されたターゲット、撮影する際の空間条件、および手動のラベル付けに基づいて、ディープラーニングを使用して前記画像認識方法をトレーニングするようにさらに構成される、請求項１２に記載のイメージングのための装置。
コンピュータによって実行されるとき、請求項１に記載の方法を実行するプログラムコードが記録された非一時的なコンピュータ読み取り可能な媒体。