WO2020137745A1

WO2020137745A1 - 画像処理装置、画像処理システム、画像処理方法、プログラム

Info

Publication number: WO2020137745A1
Application number: PCT/JP2019/049623
Authority: WO
Inventors: 深山嵜; 大介古川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-12-28
Filing date: 2019-12-18
Publication date: 2020-07-02
Anticipated expiration: 2021-06-28
Also published as: EP3903681A4; EP3903681A1; CN113164145A; EP3903681B1; JP6716765B1; JP2020109614A; US12086992B2; CN113164145B; US20210295523A1

Abstract

本発明に係る画像処理装置は、対象物を含む第一の三次元画像データを構成する二次元画像データにおける複数の画素を、学習された分類器により、第一のクラス群に分類する第一の分類手段と、前記第一の分類手段による分類結果に基づいて、前記対象物を含む第二の三次元画像データにおける複数の画素を、前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類手段とを備える。　本発明に係る画像処理装置によれば、ユーザが画素情報を与える負担を軽減し、高精度に領域を抽出することができる。

Description

画像処理装置、画像処理システム、画像処理方法、プログラム

　本明細書の開示は画像処理装置、画像処理システム、画像処理方法、プログラムに関する。

　画像処理技術の一つに、セグメンテーションがある。セグメンテーションとは、画像中に存在する注目領域と注目領域以外の領域を区別する処理のことであり、領域抽出、領域分割、画像分割などとも呼ばれる。これまでに、多くのセグメンテーション手法が提案されているが、近年では、非特許文献１に開示されているような、注目領域や注目領域以外の領域に関する画素情報を与えることで、高精度にセグメンテーションする方法が提案されている。

Ｙ．　Ｂｏｙｋｏｖ，　ａｎｄ　Ｇ．　Ｆｕｎｋａ－Ｌｅａ，　"Ｇｒａｐｈ　Ｃｕｔｓ　ａｎｄ　Ｅｆｆｉｃｉｅｎｔ　Ｎ－Ｄ　Ｉｍａｇｅ　Ｓｅｇｍｅｎｔａｔｉｏｎ，"　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　７０（２），１０９－１３１，２００６．

　しかしながら、非特許文献１に記載の手法によるセグメンテーションを行う場合、前述の画素情報をユーザがあらかじめ与えなければならないため、ユーザの負担を強いる場合がある。本発明は、ユーザによる画素情報を与える負担を軽減し、高精度に領域を抽出することのできる画像処理装置を提供することを目的とする。

　本発明に係る画像処理装置は、対象物を含む第一の三次元画像データを構成する二次元画像データにおける複数の画素を、学習された分類器により、第一のクラス群に分類する第一の分類手段と、前記第一の分類手段による分類結果に基づいて、前記対象物を含む第二の三次元画像データにおける複数の画素を、前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類手段と、
を有する。

　本発明に係る画像処理装置によれば、ユーザが画素情報を与える負担を軽減し、高精度に領域を抽出することができる。

第一の実施形態に係る画像処理装置の構成の一例を示す図第一の実施形態に係る画像処理装置のハードウェア構成の一例を示す図第一の実施形態に係る画像処理装置の処理手順の一例を示すフローチャート第一の実施形態に係る画像の一例を説明する図第一の実施形態に係る画像の一例を説明する図第一の実施形態に係る画像の一例を説明する図第一の実施形態に係る画像の一例を説明する図第一の実施形態に係る第一の分類部の処理の一例を説明する図第一の実施形態に係る第一の分類部の教示データの一例を説明する図第一の実施形態に係る第一の分類部の教示データの一例を説明する図第一の実施形態に係る第一の分類部の出力の一例を説明する図第一の実施形態に係る第一の分類部の出力の一例を説明する図第二の実施形態に係る画像処理装置の処理手順の一例を示すフローチャート第二の実施形態に係る画像の一例を説明する図第二の実施形態に係る画像の一例を説明する図第二の実施形態に係る画像の一例を説明する図第二の実施形態に係る画像の一例を説明する図

　以下、添付図面に従って本明細書の開示の画像処理装置の実施形態について説明する。対象とする画像データは、三次元画像データを出力するモダリティで撮像された画像データであれば、ＭＲＩ（核磁気共鳴画像装置）や、超音波診断装置、Ｘ線コンピュータ断層撮像装置など、何れのモダリティで撮像された画像データでもよい。以下の実施形態に係る画像処理装置では、Ｘ線コンピュータ断層撮像（Ｘ線ＣＴ）装置で撮影された医用画像データを処理する例を説明する。

　［第一の実施形態］
　本実施形態に係る画像処理装置は、対象物を含む空間的な三次元画像データ（三次元断層画像）を構成する二次元画像データ（スライス）の夫々に対し、二次元のセグメンテーション法により注目領域を大まかに抽出（粗抽出）する。なお対象物は、例えば被検体をさす。以降、空間的な三次元画像データを三次元画像データと記載する。この二次元のセグメンテーション法では、入力された二次元画像データに対応する注目領域の二次元の粗抽出画像が得られる。そして二次元の粗抽出画像を積層もしくは補間処理や統合処理をすることで三次元の粗抽出画像を得る。ここで積層は二つ以上の粗抽出画像を連続的な画像とする処理を指す。統合処理は、二つ以上の粗抽出画像間の重複領域をひとつにまとめる処理のことを指す。そして、三次元画像データと二次元のセグメンテーション法により取得された三次元の粗抽出画像とに基づいて、三次元のセグメンテーション法によりさらに高精度な注目領域を抽出する。ここで、領域を抽出するとは、画像内の各画素を所定のクラス群のいずれかに分類することを指す。分類はその抽出対象の位置を特定できればよく、臓器や病変等の抽出対象の内部か否かを区別するものであってもよいし、抽出対象の輪郭か否かを区別するものであってもよい。

　以下の例では、Ｘ線コンピュータ断層撮像（Ｘ線ＣＴ）装置で撮像された人体の腹部ＣＴ画像を三次元画像データの一例として説明する。ここで、二次元のセグメンテーション法における注目領域は例えばここでは肝臓と右腎とする。すなわち、ここでの処理は、「肝臓」、「右腎」、「肝臓および右腎以外の領域」の３クラスからなるクラス群（以下、第１のクラス群）のいずれかに分類する分類問題となる。また、三次元のセグメンテーション法における注目領域は肝臓とする。すなわち、ここでの処理は、「肝臓」、「肝臓以外の領域」の２クラスからなるクラス群（以下、第２のクラス群）のいずれかに分類する問題となる。この処理の構成は、肝臓領域と、肝臓領域として誤抽出されやすい右腎領域とを二次元セグメンテーション法の注目領域とすることで、右腎領域を肝臓領域だと分類する誤り（誤抽出）を抑制するという意図がある。二次元のセグメンテーション法により得られた抽出結果を積層し、三次元のセグメンテーション法の入力とすることで、肝臓領域の抽出精度の向上が期待できる。以下では便宜上、第一の分類器（二次元のセグメンテーション法）の注目領域を単に二次元の注目領域と呼び、第二の分類器（三次元のセグメンテーション法）の注目領域を三次元の注目領域と呼ぶ。

　本実施形態では二次元のセグメンテーション法として必ずしもユーザが事前に画素情報を与える必要がない手法を用いる。ここで画素情報とは抽出対象の位置（前景）情報と抽出対象ではない位置（背景）情報のうち少なくとも一方を含む情報を指す。セグメンテーション法における事前の画素情報を必ずしも必要としない方法のひとつとして、機械学習に基づくセグメンテーション法が挙げられる。機械学習は、与えられたデータから特徴をマシン自身が学習する。これは例えば分類問題においてユーザが分類する条件をあらかじめ設けなくとも、分類を行うことができることを指す。本実施形態では、機械学習に基づくセグメンテーション法のうち、二次元のセグメンテーション法としてＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いる。またＣＮＮのネットワーク構造としてＦＣＮ［Ｊ．Ｌｏｎｇ　ｅｔ　ａｌ．，　“Ｆｕｌｌｙ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｔｗｏｒｋｓ　ｆｏｒ　Ｓｅｍａｎｔｉｃ　Ｓｅｇｍｅｎｔａｔｉｏｎ，”　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　（ＣＶＰＲ），　ｐｐ．　３４３１－３４４０，　２０１５．］を用いる。また、三次元のセグメンテーション法は、与えられた画素情報を用いてセグメンテーションを行う手法であれば、領域拡張法やレベルセット法、グラフカット法、Ｓｎａｋｅｓ法でもよい。なお本実施形態ではグラフカット法を用いる。

　ＣＮＮのような機械学習に基づく分類器を用いる場合、対象画像内の注目領域の見え方が、異なる画像データ間であっても概ね同じである方が好ましい。特に、分類器を学習させるための教示データが少ないときには、注目領域の見え方が異なる場合に、分類器は注目領域の見え方のバリエーションの学習ができずに分類精度が低下する可能性がある。

　ここで、本実施形態における三次元画像データ（Ｘ線ＣＴ画像）について考えると、被検体である人体の性質として、体軸方向での注目領域の見え方にはばらつきがある。注目領域の見え方にばらつきがある理由は、たとえば注目領域が描出される位置が異なるためである。一方で体軸断面画像においては異なる三次元画像データ間であっても注目領域が描出される位置や解像度が概ね同じであるという特徴を持つ。さらに、三次元画像データを対象にした分類は、画像によっては、異なる三次元画像データ間の体軸方向の解像度も異なるため、分類器の精度を下げかねない。他方で体軸断面画像は体軸方向の解像度の違いの影響を受けにくい。また三次元画像データと比較し、体軸断面画像に代表される二次元画像を対象にした分類は三次元画像データの三次元情報のうち、二次元情報のみを用いて分類を行う。そのため、異なる三次元画像データ間であっても二次元情報を基にした画像データを対象とすると、学習時と、分類時の画像内の抽出対象の見え方の差が小さい。故に二次元画像で、特に体軸断面画像データ（三次元画像データを構成する二次元画像データの一例）を入力とする２Ｄ－ＣＮＮ（二次元画像データを入力とするＣＮＮ）は、画像内に描出される領域の見え方を統一するための空間的な正規化の負担を削減できる。

　ここで２Ｄ－ＣＮＮの代わりに３Ｄ－ＣＮＮ（三次元画像データを入力とするＣＮＮ）を用いる場合は、注目領域が存在する三次元空間領域を切り出して、注目領域が存在する位置を揃えたりするなどの空間的な正規化が必要となる。また体軸方向の解像度が異なる場合、解像度を揃える処理がなされる。一般に、未知の画像に対してこれらの空間的な正規化を行うことは困難であるため、２Ｄ－ＣＮＮを用いる方が画像の取り扱いがしやすい。このようなことは、ＣＮＮ以外のＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）などの機械学習に基づく分類器でも同様のことが言える。

　本実施形態に係る画像処理装置は、体軸断面画像データを入力とする２Ｄ－ＦＣＮ（Ｆｕｌｌｙ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｔｗｏｒｋ）（２Ｄ－ＣＮＮの一例）と、三次元のセグメンテーション法であるグラフカット法を組み合わせる。本構成により入力画像の空間的な正規化の手間を低減し三次元的な連結性を考慮した領域抽出が可能である。なおここでは、必ずしもユーザが事前に画素情報を与える必要がないセグメンテーション法を二次元のセグメンテーション法として記載したが、二次元のセグメンテーション法は、適宜ユーザによって与えられる画素情報を用いるセグメンテーション法であってもよい。

　（モジュールの構成）
　以下、図１を参照して本実施形態に係る画像処理装置の機能構成について説明する。同図に示すように、本実施形態に係る、画像処理装置１００は、取得部１０１、第一の分類部１０２、第二の分類部１０３で構成される。また、本実施形態に係る画像処理システムは、画像処理装置１００の外部に記憶装置７０を具備する。

　記憶装置７０はコンピュータ読み取り記憶媒体の一例であり、ハードディスクドライブ（ＨＤＤ）やソリッドステイトドライブ（ＳＳＤ）に代表される大容量情報記憶装置である。記憶装置７０は、少なくとも１つ以上の三次元画像データを保持している。

　取得部１０１は、記憶装置７０から三次元画像データを取得する。そして、取得した三次元画像データを、第一の三次元画像データとして第一の分類部１０２に、第二の三次元画像データとして第二の分類部１０３に送信する。

　第一の分類部１０２は、取得部１０１から取得した三次元画像データ（第一の三次元画像データ）を構成する二次元画像データを入力とする。そして第一の分類部１０２により第一の三次元画像データを構成する二次元画像データの夫々に対して、二次元のセグメンテーションをすることで、第一のクラス群に対応する二次元の粗抽出画像を得る。第一の分類部はさらに第一のクラス群に対応する二次元の粗抽出画像をクラスごとに積層、補間処理および統合処理のうち少なくとも一つの処理をした三次元の粗抽出画像を生成して、第二の分類部１０３に送信する。ここで二次元の粗抽出画像または二次元の粗抽出画像に対して積層もしくは補間処理・統合処理をした三次元の粗抽出画像を、第一の分類部１０２による分類結果とする。第一のクラス群に対応する分類結果は、各画素が当該クラスらしさを０以上１以下の画素値で表現した尤度マップである。分類結果のうち各粗抽出画像は、例えば、当該クラスらしい画素は１に近い値、当該クラスらしくない画素は０に近い値で表されている。二次元の粗抽出画像は体軸断面画像と同じ画像サイズであり、三次元の粗抽出画像は三次元画像データと同じサイズである。なお、分類結果である粗抽出画像における画素値は、当該クラスらしさを表現できる値であれば、どのような値で表現しても構わない。例えば、画素値を２値で与えてもよいし、クラスごとに異なる範囲の値を与えても良い。クラスごとに異なる範囲の値を与える場合には、例えば一つ目のクラスは０以上１未満、二つ目のクラスは１以上２未満のように割り当てる。なお分類結果は、画素のそれぞれがクラス群のいずれに属するかを出力したものでもよいし、クラス群の各クラスへの尤度を出力したものであってもよい。また、二次元の粗抽出画像は上述のように体軸断面画像と同じ画像サイズであってもよいし、異なる画像サイズであってもよい。同様に、三次元の粗抽出画像は上述のように三次元の画像と同じ画像サイズであってもよいし、異なる画像サイズであってもよい。

　本実施形態において、第一の分類部１０２は学習済みの２Ｄ－ＦＣＮである。以下、図６を参照して、２Ｄ－ＦＣＮの学習方法について説明する。２Ｄ－ＦＣＮは機械学習のうち教師あり学習のひとつであり、二次元の正解画像および二次元の学習画像を対応付けてあらかじめマシンに学習させることにより、分類能を発揮する。ここでは複数の二次元正解画像からなる正解画像と複数の二次元の学習画像からなる学習画像を合わせて教示データとする。

　同図は、２Ｄ－ＦＣＮを学習する際の教示データを表している。図６Ａは二次元の体軸断面画像の集合である学習画像６１０であり、本実施形態ではＸ線ＣＴ装置で撮像された腹部ＣＴ画像である。学習画像６１０は、体軸断面画像６１１ａや体軸断面画像６１１ｂから構成されている。図６Ｂは学習画像６１０の第一のクラス群の各クラスに対応する二次元正解画像の集合である。本実施形態では、肝臓領域、右腎領域、肝臓および右腎以外の領域を分類する。それぞれのクラスに対応する正解画像はそれぞれ複数の二次元正解画像からなる。すなわち肝臓領域の正解画像６３０、右腎領域の正解画像６４０、肝臓および右腎以外の領域の正解画像６５０である。各正解画像は例えば、肝臓領域の正解画像６３０は、体軸断面画像６１１ａに対応する肝臓領域の二次元の正解画像６３１ａや、体軸断面画像６１１ｂに対応する肝臓領域の二次元の正解画像６３１ｂから構成されている。右腎領域の正解画像は同様に体軸断面画像６１１ａに対応する右腎領域の二次元の正解画像６４１ａや、体軸断面画像６１１ｂに対応する右腎領域の二次元の正解画像６４１ｂから構成されている。肝臓および右腎以外の領域はそれぞれ二次元の正解画像６５１ａ、二次元の正解画像６５１ｂから構成されている。

　第一のクラス群の各クラスに対応する正解画像における画素は、当該クラスか否かを２値で表現した画像であり、各クラスに対応する正解画像間で重複した領域がないという特徴を持つ。２Ｄ－ＦＣＮは、上述の教示データが１つ以上含まれる教示データセットを用いて学習される。学習方法は、例えば、ＣＮＮの学習において一般的な手法である誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を用いる。これにより、２Ｄ－ＦＣＮが注目領域を分類するための特徴を学習し、未知の画像に対しても注目領域の抽出が可能となる。なお、正解画像は上述のように当該クラスか否かを画素毎に２値で表現した画像であってもよいし、当該クラスらしさを連続値で画素に表現した画像であってもよい。正解画像が当該クラスらしさを連続値で表現した画像である場合、第一の分類部１０２は画素ごとに回帰問題を解くような構成になる。

　第二の分類部１０３は、取得部１０１から取得した三次元画像データ（第二の三次元画像データ）と、第一の分類部１０２から取得した各クラスに対応する三次元の粗抽出画像とを入力とし、第二のクラス群に対応する三次元の注目画像を出力する。三次元の注目画像は、抽出対象の領域らしさを表す画像であり、上述の三次元の粗抽出画像と同様に画素値が表現されている。

　なお、図１に示した画像処理装置１００の各部の少なくとも一部は独立した装置として実現してもよい。また、夫々の機能を実現するソフトウェアとして実現してもよい。本実施形態では、各部は夫々ソフトウェアにより実現されているものとする。

　（ハードウェアの構成）
　図２は画像処理装置１００のハードウェア構成の一例を示す図である。ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２０１は、主として各構成要素の動作を制御する。主メモリ２０２は、ＣＰＵ２０１が実行する制御プログラムを格納したり、ＣＰＵ２０１によるプログラム実行時の作業領域を提供したりする。磁気ディスク２０３は、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）、周辺機器のデバイスドライバ、後述する処理等を行うためのプログラムを含む各種アプリケーションソフトを実現するためのプログラムを格納する。ＣＰＵ２０１が主メモリ２０２、磁気ディスク２０３等に格納されているプログラムを実行することにより、図１に示した画像処理装置１００の機能（ソフトウェア）及び後述するフローチャートにおける処理が実現される。

　表示メモリ２０４は、表示用データを一時記憶する。モニタ２０５は、例えばＣＲＴモニタや液晶モニタ等であり、表示メモリ２０４からのデータに基づいて画像やテキスト等の表示を行う。マウス２０６及びキーボード２０７は、ユーザによるポインティング入力及び文字等の入力を夫々行う。上記各構成要素は、共通バス２０８により互いに通信可能に接続されている。

　ＣＰＵ２０１はプロセッサの一例に相当する。画像処理装置１００は、ＣＰＵ２０１に加えて、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）の少なくともいずれかを有していてもよい。また、ＣＰＵ２０１に代えて、ＧＰＵやＦＰＧＡの少なくともいずれかを有していてもよい。主メモリ２０２、磁気ディスク２０３はメモリの一例に相当する。

　（処理フロー）
　次に、本実施形態における画像処理装置１００の処理手順について、図３を用いて説明する。

　＜ステップＳ３１０：三次元画像データを取得するステップ＞
　ステップＳ３１０において、取得部１０１は、記憶装置７０から三次元画像データを取得する。

　＜ステップＳ３２０：２Ｄ－ＦＣＮによる分類ステップ＞
　ステップＳ３２０において第一の分類部１０２は、三次元画像データを構成する二次元の体軸断面画像の夫々に対して、二次元のセグメンテーション法により二次元の注目領域を抽出する。二次元の注目領域は、第一のクラス群の各クラスに対応する二次元の粗抽出画像として出力される。そして、各クラスに対応する二次元の粗抽出画像をクラスごとに積層した、第一のクラス群の各クラスに対応する三次元の粗抽出画像を生成して、第二の分類部に送信する。本実施形態において、第一の分類部１０２は、各画素を肝臓、右腎、肝臓および右腎以外の３クラスに分類する学習済みの２Ｄ－ＦＣＮである。

　図４を参照して、２Ｄ－ＦＣＮの入出力について説明する。図４Ａは、ステップＳ３１０で取得した三次元画像データ４１０を表している。図４Ａにおいて、三次元画像データ４１０は体軸断面画像４１１ａや体軸断面画像４１１ｂ等、複数の体軸断面画像から構成されており、これらの体軸断面画像の夫々が２Ｄ－ＦＣＮの入力となる。図４Ｃは、各クラスに対応する三次元の粗抽出画像であり、肝臓領域の三次元の粗抽出画像４３０、右腎領域の三次元の粗抽出画像４４０、肝臓および右腎以外の領域の三次元の粗抽出画像４５０を表している。図４Ｃにおいて、当該クラスの領域は淡色、当該クラスの領域以外の領域は濃色で示されている。各三次元の粗抽出画像は、２Ｄ－ＦＣＮの入力である体軸断面画像の夫々に対応する二次元の粗抽出画像から構成されている。例えば、肝臓領域の三次元の粗抽出画像４３０において、肝臓領域の二次元の粗抽出画像４３１ａは体軸断面画像４１１ａ、肝臓領域の二次元の粗抽出画像４３１ｂは体軸断面画像４１１ｂに対応する二次元の粗抽出画像である。２Ｄ－ＦＣＮは後述の処理により、体軸断面画像を入力すると、各クラスに対応する二次元の粗抽出画像を出力する。右腎領域は粗抽出画像４４１ａ、粗抽出画像４４１ｂが三次元画像データ４１０のそれぞれの体軸断面画像４１１ａ、体軸断面画像４１１ｂと対応する。また肝臓および右腎以外の領域の粗抽出画像４５１ａ、粗抽出画像４５１ｂは同様に体軸断面画像４１１ａ、体軸断面画像４１１ｂにそれぞれ対応する。

　図５を参照して、２Ｄ－ＦＣＮの処理について説明する。２Ｄ－ＦＣＮは入力画像５１０（体軸断面画像）を入力すると、中間層５３０において複数回のＣｏｎｖｏｌｕｔｉｏｎ処理やＰｏｏｌｉｎｇ処理、Ｕｐｓａｍｐｌｉｎｇ処理が実行される。そして、出力層５４０において、Ｃｏｎｖｏｌｕｔｉｏｎ処理がなされ、Ｓｏｆｔｍａｘ処理により各画素の出力値が正規化され、画素の分類情報を含む二次元画像である出力画像５２０を得る。

　ここでＣｏｎｖｏｌｕｔｉｏｎ処理は画像の形状を維持しながら特徴を抽出する。Ｐｏｏｌｉｎｇ処理は画像の幅、高さの空間サイズを小さくし、受容野の拡大を担う。Ｕｐｓａｍｐｌｉｎｇはプーリングの情報を用いて詳細な解像度を得る。この出力画像５２０は、分類するクラス数と同じ枚数の二次元の粗抽出画像から構成されている。本実施形態の場合、出力画像５２０は肝臓領域の二次元の粗抽出画像５２１、右腎領域の二次元の粗抽出画像５２２、肝臓および右腎以外の領域の二次元の粗抽出画像５２３で構成される。ＦＣＮに代表されるようなＣｏｎｖｏｌｕｔｉｏｎ処理やＰｏｏｌｉｎｇ処理（エンコーダ）、Ｕｐｓａｍｐｌｉｎｇ処理（デコーダ）をネットワーク構造として持つモデルをエンコーダ・デコーダモデルという。エンコーダが、多少の画素の位置ずれを許容し大局的な情報を保持する。またデコーダによってエンコーダによる特徴量を保持しながら解像度が復元される。このモデルにより異なる三次元画像データを構成する二次元画像データ間であって抽出対象の位置が異なっていても一定の精度が期待できる。なお、ネットワーク構造はマルチスケールに画像情報を処理できるアーキテクチャであれば、本構造のみに限られない。

　ここで数式を用いてＳｏｆｔｍａｘ処理の説明をする。Ｓｏｆｔｍａｘ処理前の画素値をａ_{ｉ，ｊ，ｋ}としたときに、Ｓｏｆｔｍａｘ処理後の画素値ｐ_{ｉ，ｊ，ｋ}は、以下の式（１）に基づいて算出される。

　なお、ｉ，ｊは二次元の粗抽出画像面内において画素を特定するための画素番号を表し、ｋは各クラスの粗抽出画像に対応した番号を表す。また、Ｋは分類するクラス数を表している。本実施形態では、肝臓領域、右腎領域、肝臓および右腎以外の領域の３クラス問題であるため、Ｋ＝３である。この処理により、各クラスに対応する分類結果のそれぞれの画素値を足し合わせたときの総和が１となる。すなわち、各クラスに対応する二次元の粗抽出画像の夫々は、当該の領域らしさを表す二次元の尤度マップである。

　（第一の分類部のバリエーション）
　なお、第一の分類部１０２の出力である粗抽出画像は、上述のような各画素が当該クラスらしさを表す尤度で表されたものでなくてもよい。例えば、各画素の値が２値で表されたものでもよいし、クラスごとに異なる範囲の値で表現されていてもよい。また各画素の値は第一の分類部から得られた値を直接用いてもよいし、しきい値を設けて数値を変換してもよい。

　また、第一の分類部１０２は、上述した２Ｄ－ＦＣＮとは異なるＣＮＮであってもよい。また、ＣＮＮに限らず、体軸断面画像の夫々に対して注目領域を抽出する分類器であれば、何れの二次元のセグメンテーション法に基づくものでもよい。例えば、ＣＮＮ以外の機械学習に基づく分類器（ＳＶＭ、ｋ－ｍｅａｎｓ、ブースティング、ランダムフォレスト）でもよいし、しきい値処理法のような学習を必要としない分類器でもよい。また、第一の分類部は複数の分類器から構成されていてもよいし、複数の分類器は並列的に用いられても、階層的に用いられてもよい。

　また、第一の分類部１０２は、上述のような３クラス以上を同時に分類する分類器に限らない。例えば、肝臓領域と肝臓領域以外の領域の２クラスに分類する分類器であっても良い。また、２クラスに分類する分類器を複数用意し、それぞれから粗抽出画像を得てもよい。具体例を挙げると、肝臓領域と肝臓領域以外を分類する分類器と、右腎領域と右腎領域以外を分類する分類器を用意することで、上述の処理による結果と同等の結果が得られる。

　＜ステップＳ３３０：処理終了判定ステップ＞
　ステップＳ３３０において、第一の分類部１０２は、三次元画像データ中で処理対象にも関わらず未処理の二次元画像データの有無を判定する。未処理の二次元画像データが存在している場合はステップＳ３２０へと移行し、ステップＳ３２０にて注目領域の粗抽出を行う。未処理の二次元画像データが存在しない場合、次のステップへと移行する。

　＜ステップＳ３４０：三次元粗抽出画像生成ステップ＞
　ステップＳ３４０において、三次元データ生成手段としての第一の分類部１０２は、ステップＳ３３０までの処理で得た各クラスに対応する二次元の粗抽出画像を積層もしくは補間処理・統合処理をし、三次元の粗抽出画像を生成する。そして、第一の分類部１０２は、生成された三次元の粗抽出画像を第二の分類部１０３に出力する。三次元の粗抽出画像が三次元の分類結果に相当する。なお、三次元の粗抽出画像を生成する三次元データ生成手段の機能を、第二の分類部１０３が担ってもよいし、第一の分類部１０２および第二の分類部１０３以外の演算手段が担ってもよい。

　本実施形態において、後述する第二の分類部１０３が行う分類手法は、それぞれの画素を肝臓、肝臓以外の２クラスに分類するグラフカット法である。グラフカット法は、抽出対象の領域（前景）と抽出対象の領域以外の領域（背景）に関する画素情報に基づいてグラフを構築し、設計したエネルギー関数が最小（または最大）となるように抽出対象の領域を抽出する。一般に、グラフカット法のエネルギー関数Ｅは以下の式（２）のように定義される。

　なお、上記の式（２）において、ｉ、ｊはそれぞれが画像中の異なる画素番号を表す。ここでλはデータ項Ｅ_１と平滑化項Ｅ_２の寄与度を調整する定数パラメータである。

　＜ステップＳ３５０：画素情報の設定ステップ＞
　第二の分類部１０３は、三次元の粗抽出画像に基づいて、前景及び背景の少なくとも一方に対応する画素の位置を示す画素情報を設定する。図７を参照して、画素情報の設定について説明する。ここでは肝臓領域を抽出したい場合に、前景である肝臓領域と背景である肝臓領域以外の領域の画素情報の与え方を説明する。なお、ここでは説明を簡単にするため、二次元画像で例示する。図７Ａは一辺が５画素の粗抽出画像であり、それぞれ肝臓領域の粗抽出画像７２０、右腎領域の粗抽出画像７３０、肝臓および右腎以外の領域の粗抽出画像７４０を表している。本実施形態における粗抽出画像は、画素値が当該クラスらしさを表す尤度であるため、画素値が連続的に変化している。そのため、本実施形態では、３つのクラスに対応する粗抽出画像を画素ごとに比較し、肝臓の尤度、右腎の尤度、肝臓および右腎以外の尤度のうち、肝臓の尤度が他のクラスよりも高い画素を前景の画素（前景として確定する画素）とする。同様に、肝臓の尤度が他のクラスよりも低い画素を背景の画素（背景として確定する画素）と設定する。そして、残りの画素（肝臓の尤度が２番目に高い画素等）を中間の画素（前景か背景かを現時点では確定しない画素）と設定する。図７Ｂは、上述の方法によって粗抽出画像を統合したシード画像７５０を表している。シード画像７５０は、前景の画素７５１、背景の画素７５２、中間の画素７５３を含む。本実施形態では、シード画像７５０に基づいて数２に示したエネルギー関数を定義する。具体的には、データ項Ｅ_１は、シード画像７５０における前景の画素７５１と背景の画素７５２に基づき、距離値に応じて各画素に対するエネルギーを設定する。なお、前景の画素７５１および背景の画素７５２は、グラフカット法による領域抽出後も、それぞれ前景・背景の画素となるように（変化させないために）、グラフ内の当該画素に対する該当のエッジ（ｔ－ｌｉｎｋ）に十分大きなコストが付与されるようにエネルギーを設定する。平滑化項Ｅ_２は、三次元画像データ４１０内の隣接画素間の濃度値の差に基づいてエネルギーを設定する。このようにエネルギー関数を定義することで、中間の画素７５３を前景または背景のいずれかに分類する。そして、前景と分類された画素を抽出対象の領域、背景と分類された画素を抽出対象の領域以外の領域とすることで、第二の分類部１０３により抽出対象領域と抽出対象の領域以外の領域とを分割する。

　なお、画素情報の設定方法は、第一の分類部１０２から取得した粗抽出画像に基づいて、前景の画素と背景の画素のうち少なくとも一方を決定する方法であれば、どのような方法を用いても良い。例えば、第二の分類部はどちらか一方（前景または背景）の画素は粗抽出画像に基づいて決定し、もう一方（背景または前景）の画素は三次元画像データの画素値に基づいて決定しても良い。また、上述の方法では、粗抽出画像に基づいて前景あるいは背景の画素を決定する際に、肝臓の尤度および肝臓以外の尤度の大小関係に基づいて決定したが、これに限らない。例えば、前景の画素を決定し、決定された前景の画素から所定の距離以上離れた（距離値）画素を背景の画素としても良い。また、肝臓の粗抽出画像のみを参照し、しきい値処理をすることで前景（または背景）の画素を決定しても良い。このようにすることで、第一の分類部が２クラスを分類する分類器であっても、第二の分類部により前景の画素と背景の画素を決定し、さらに、その他の画素を中間の画素と決定することができる。

　また、上述の方法では、距離値に応じて各画素に対するエネルギーを設定したが、粗抽出画像が持つ尤度に基づいて各画素に対するエネルギーを設定しても良い。また、上述の方法では、グラフカット法によって前景の画素および背景の画素が変化しないように、グラフ内の当該画素に対する該当のエッジ（ｔ－ｌｉｎｋ）に十分大きなコストが付与されるようにエネルギーを設定したが、これに限らない。例えば尤度の大きさを前景または背景の画素が変化する可能性のあるエネルギーとして設定しても良いし、尤度や距離値に基づいてエネルギーを設定してもよい。

　さらにシード画像における前景、背景、中間の画素は尤度の大きさに基づいて、設定されてもよい。たとえば、前述の前景、背景画素の設定方法では、まず各クラスに対応する粗抽出画像を画素ごとに比較する。そして対象の画素で肝臓の尤度が最も高い場合を前景として設定し、肝臓の尤度が最も低い場合を背景として設定することを説明した。しかしながら、クラス間で尤度が拮抗している場合においては、画素ごとの尤度を単純に比較し前景および背景のすくなくとも一方を決定するのでは、精度が十分でない場合がある。そこで、例えば尤度に所定の閾値を設け、所定の閾値を満たす場合において前景および背景のすくなくとも一方を設定し、所定の閾値を満たさない画素を中間画素として設定してもよい。また、尤度への所定の閾値は、先述の各クラスに対応する粗抽出画像を画素ごとに比較した結果と組み合わされてもよい。

　尤度が所定の閾値をみたさない場合や、画素ごとのクラス間の比較で肝臓の尤度が他の画素よりも高くない場合でかつ、他の画素よりも低くない場合は、当該画素を中間の画素とする。そして、前景と背景の情報をグラフカットのエネルギー関数におけるデータ項Ｅ_１に与えてセグメンテーションを行う。その際に前景および背景以外の画素は中間画素とされ、グラフカットにより分類される。

　尤度の大きさおよび、画素ごとの尤度比較のすくなくとも一方により、前景、背景、中間の画素を設定する。前景、背景にはグラフカット法によって画素が変化しないように、それぞれの画素に対する該当のエッジ（ｔ－ｌｉｎｋ）に十分に大きなエネルギーを設定した。ここでさらに、中間の画素の尤度をグラフカットのエネルギー関数へと付与する。この構成によりグラフカットが分類をする中間の画素が、分類器によって学習された特徴を踏まえた情報を加味することが可能になり、抽出精度の向上が期待される。つまり、前景、背景、中間の画素を設定し、前景、背景の画素に対するエッジ（ｔ－ｌｉｎｋ）にはそれぞれ十分に大きなエネルギーである第一のエネルギーと、第二のエネルギーを設定し、中間領域においては、分類部１０２からの出力の尤度に対応する第三のエネルギーを設定する。

　＜ステップＳ３６０：グラフカット法による注目領域の抽出ステップ＞
　第二の分類部１０３は、ステップＳ３５０により取得された画素情報を基にした三次元のセグメンテーション法により三次元画像データから抽出対象の領域を抽出する。そして、第二の分類部１０３は、抽出した抽出対象の領域の情報を、図４Ｂのような三次元の注目画像４２０として、磁気ディスク２０３や外部の記憶装置７０に出力する。注目画像４２０は注目断面画像４２１ａ、注目断面画像４２１ｂ等から構成される。

　ここで、図４を参照して、第一の分類部１０２の出力の一つである肝臓領域の三次元の粗抽出画像４３０と、第二の分類部１０３の出力である三次元の注目画像４２０の違いについて説明する。図４Ｄ（粗抽出画像の拡大図）に示したように、肝臓領域の二次元の粗抽出画像４３１ｂおよび腎臓領域の二次元の粗抽出画像４４１ｂには、肝臓領域と右腎領域の境界付近で、互いに尤度が高くなっている領域４３２および領域４４２が存在する。ここで、領域４３２および領域４４２は三次元画像データにおいて同じ領域を表す領域である。また、この領域は、第一の分類部１０２の出力である３つの三次元の粗抽出画像の中で、右腎らしさを表す尤度が最も高く（淡色）、次いで肝臓らしさを表す尤度が高かったとする。このとき、この領域は中間の画素に該当する。したがって、グラフカット法により前景または背景のいずれかに分類される領域となる。グラフカット法では、付近のエッジに沿って領域が分割されやすいため、領域４３２を肝臓領域から除去することができる（図４Ｂ）。

　なお第二の分類部がグラフカット法であるとき、ステップＳ３５０で設定された第一のエネルギー（前景）、第二のエネルギー（背景）、第三のエネルギー（中間の画素）を用いて、第二のクラス群に分類をする構成になってもよい。

　（第二の分類部のバリエーション）
　なお、第二の分類部１０３は、前景と背景の少なくとも一方の画素情報に基づく三次元のセグメンテーション法であれば何でもよい。例えば、他のセグメンテーション法として領域拡張法やスネーク法、レベルセット法が用いられてもよい。領域拡張法では、抽出対象の領域の画素位置を与える必要がある。そのため、例えば前景の画素７５１が存在する位置を抽出対象の領域の画素位置として与えればよい。スネーク法やレベルセット法の場合は、抽出対象の領域の輪郭の座標データを初期値として与える必要がある。そのため、例えば、図７Ｂにおける前景の画素７５１の境界画素を初期値として与えれば良い。なお、輪郭を抽出したい場合は、輪郭と輪郭以外を学習させた分類器によって抽出されてもよい。また、本実施形態において第二の分類部１０３は、各画素を２クラスに分類する三次元のセグメンテーション法であったが、各画素を３クラス以上に分類するような方法でもよい。

　（第一の実施形態の効果）
　以上に示したように、第一の実施形態に係る画像処理装置１００では、機械学習を用いた二次元のセグメンテーション法により、三次元画像データを構成する二次元の体軸断面画像データの夫々から注目領域を粗抽出する。そして、三次元画像データと三次元の粗抽出画像とに基づいて、三次元のセグメンテーション法により、三次元の注目領域を抽出する。この構成により、注目領域や注目領域以外の領域に関する画素情報を自動的に三次元のセグメンテーション法に与えることができるため、ユーザによる画素情報の入力の負担を軽減できる。さらに学習時の画像中の注目領域の位置と、おおむね同じ位置に注目領域が存在する画像を入力できるため高精度に注目領域を抽出することが可能となる。

　（変形例）
　上述の第一の実施形態に係る画像処理装置１００において、第一の分類部１０２と第二の分類部１０３には基の三次元画像データと同一の三次元画像データを入力したが、基の三次元画像データとは異なる三次元画像データを入力してもよい。取得部１０１はそのための演算装置を備えていてもよいし、演算装置は取得部以外に設けられていても、複数の演算装置から構成されていてもよい。また取得部１０１とは別に演算部を有していてもよい。異なる三次元画像データの入力は例えば、基の三次元画像データに対して、第一の分類部および第二の分類部の入力の前に、取得部１０１にてノイズ除去や濃度値の正規化、空間的な正規化や解像度変換をしてもよい。このとき、これらの処理は、分類部間で共通の処理であってもよいし、分類部への入力ごとに異なる処理であってもよい。前者の場合、第一の三次元画像データと第二の三次元画像データは同一の画像となり、後者の場合、第一の三次元画像データと第二の三次元画像データは互いに異なる画像となる。例えば、分類部への入力画像に対して異なる空間的な正規化をする場合、第一の分類部１０２の出力を、第二の分類部１０３の入力の空間に正規化するような変更部が必要になる。この構成により各分類器の特性に応じた三次元画像データを入力できるため、注目領域の抽出精度の向上が期待される。また、第一の分類部１０２が機械学習に基づく分類をする場合、計算時間やメモリの容量や、学習時の画像サイズ等の制約により解像度を落とす処理をすることが好ましい場合もある。その場合、第一の三次元画像データの解像度が、第二の三次元画像データの解像度よりも小さい構成になる。なお上述の処理は何れか一方の分類部への入力のみに対して実行されてもよい。また、対象物が同一の被検体であれば過去の付帯情報を参照し、異なる時刻で撮影された三次元画像データを用いてもよい。例えば、その被験者をある時相で撮像した画像を第一の分類器への入力とし、別の時相で撮像した画像を第二の分類器への入力とする。つまり、第一の三次元画像データおよび第二の三次元画像データが同一の被検体に紐づけられた互いに撮影時刻の異なる三次元画像データという構成になる。この構成により一回の撮像結果の情報のみから注目領域を抽出する場合よりも、例えば異なる時相を参照した場合の方がより抽出精度が向上することが期待される。

　別の変形例として、演算部もしくは変更部が、第一の分類部１０２の出力である注目領域の粗抽出画像や、第二の分類部１０３の出力である三次元の注目画像に対して、最大連結成分以外を除去する処理を加えてもよい。最大連結成分は画素間の連続性を持つ領域のうち、最大の領域を指す。また、オープニング処理やクロージング処理を施したり、最大連結領域以外の領域を削除する処理を施したりして、小さな孤立領域を削除してもよい。このようにすることで、三次元画像データ中に描出される注目領域が一つである場合に、不要な領域を除去することができるため、注目領域の抽出精度が向上する。また、これ以外の前処理や後処理を組み合わせて使用してもよい。

　また、抽出対象は、画像上に表現されている領域であれば、肝臓以外のいずれの臓器でも良いし、嚢胞や腫瘤や結節やそれらの輪郭などであってもよい。さらには、第一の分類部の教示データや抽出対象は、本実施形態のように、肝臓、右腎、肝臓および右腎以外のクラスでなくともよい。例えば肝臓と右腎のように、抽出対象と近接しておりＣＴ値が近似しているものをクラスにしてもよいし、骨等の臓器でないものをクラスとしてもよい。

　第二の分類器が肝臓と肝臓以外に分類をする分類器である場合、例えば第一の分類器のクラス群を構成するクラス数（肝臓、右腎、肝臓および右腎以外）が、第二の分類器のクラス群を構成するクラス数よりも多くのクラスで分類をする構成になる。この構成により、第一の分類器による分類結果が、より多くのクラスの特徴を基にした分類になり、肝臓領域の抽出精度が向上することが期待される。

　さらに第一の分類部１０２の教示データや抽出対象は、第二の分類部１０３の構成や抽出対象によって変更されてもよい。例えば、レベルセット法やスネーク法等を第二の分類部１０３とする場合、注目領域の境界画素を第一の分類部への教示データすることにより、第一の分類部から境界画素が粗抽出され、この粗抽出画像をもとに第二の分類部１０３が画像を抽出する。

　学習データの不足が原因で、第一の分類部からの抽出精度が不十分である際に、学習データの拡張や水増しを行ってもよい。機械学習は前述のように学習データから特徴を学習し、その特徴を基に分類能を発揮する。一方で、例えば病変により臓器の形状が異なる場合や濃度値が異なる場合には学習データ数が十分でないことがあり、高精度に分類できないことがある。その場合には、学習データ数の確保のために、濃度値シフトや回転、平行移動等のデータ拡張やＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）を用いてデータの水増しをすることが考えられる。得られた形状や濃度値が異なる病変等の学習データを分類器に学習をさせることで汎用性の高い抽出が可能となる。また形状や濃度値が異なる学習データは一般的な臓器等の画像と同一の分類器への学習であっても、異なる分類器へ別途学習させてもよい。また、異なる分類器の場合、一般的な臓器等を学習させた分類器と、形状や濃度の異なる学習データを学習させた分類器のいずれで分類をするかを判定する処理部を別途有していてもよい。もしくは一般的な臓器等を学習させた分類器の分類結果に応じて、異なる分類器を使用する階層構造を有していてもよいし、異なる分類器の分類結果に応じて一般的な臓器等を学習させた分類器を使用する構造でもよい。例えば、形状や濃度の異なる肝臓と、正常な肝臓を同一の学習器の分類対象とする場合、正解ラベルは異なっていてもよいし、同一でもよい。またそのラベルは、その他のクラスの有無や性質によって変更されてもよい。なお、複数の分類器を使用して、セグメンテーションを行う場合においてのクラスは同一の臓器を含むものに限定されない。複数の分類器による分類を階層的に行う場合、例えば、まず肝臓を抽出して、肝臓の抽出した結果に基づいて右腎が抽出されてもよい。

　［第二の実施形態］
　第一の実施形態に係る画像処理装置では、第一の分類部は三次元画像データを構成する二次元画像データの夫々を入力とする、二次元のセグメンテーション法を採用した。しかしながら、二次元画像データより注目領域を抽出すると、二次元画像データ上で注目領域が小さな領域として描出されている場合や、注目領域の周辺にある別の領域が注目領域と類似した濃度値を有する場合に、注目領域の抽出精度が低下する可能性がある。また、機械学習に基づく二次元のセグメンテーション法を用いる場合、注目領域が特異な形状である場合に抽出精度が低下する可能性がある。その点、三次元画像データは画像間の連結部分の情報を保持したボクセルを利用できるメリットがある。しかし単純に三次元画像データを対象にした分類は、対象画像内の注目領域の見え方が異なる場合や、解像度が異なる場合において抽出精度が不十分であることがある。さらに特に医用画像データにおいては画像数が十分でないことが少なくない。

　そこで、第二の実施形態に係る画像処理装置では、所定の大きさを持つ三次元空間領域を分類部への教示データとする。ここで所定の大きさとは三次元画像データをのうちふたつ以上の二次元画像データから構成される三次元空間領域を指す。なお所定の大きさを有する三次元空間領域を構成する二次元画像データは連続するスライスから構成されていなくともよい。例えば解像度が異なる三次元画像データ間において、より解像度が高い三次元空間領域を構成する二次元スライスより所定枚を間引き、教示データとしてもよい。所定の大きさの教示データにすることで、学習データ数を保持しながらも学習時の画像サイズと、分類時の画像サイズとを揃える処理（空間的な正規化）の手間が軽減される効果が期待される。まず、第一の分類部において、三次元画像データ内の所定の大きさを持つ三次元空間領域の夫々（第一の三次元空間領域および第二の三次元空間領域の一例）を入力として、注目領域を粗抽出する。ここでは学習された第一の分類器と、入力する教示データのサイズが揃っていることが好ましい。そのため、例えば学習した際の画像の入力サイズを示す、例えば画素数やボクセル数、スライス数のうち少なくともひとつを記憶するための記憶装置を有していてもよい。そして記憶された学習時の入力サイズに基づいて、分類部への入力画像のサイズを決定する。例えば、学習時の入力サイズよりも、分類対象の画像サイズが大きい場合は、画像を間引いて入力画像としてもよい。他方で、学習時の入力サイズよりも分類対象の画像サイズが小さい場合は、別途補間処理をして入力画像とする。

　本実施形態では、各三次元空間領域に対応する粗抽出画像が夫々得られるため、これをさらに積層もしくは補間処理・統合処理をして三次元の粗抽出画像を得る。第一の実施形態と同様に、三次元画像データと第一の分類部より得られた三次元の粗抽出画像とに基づいて、三次元のセグメンテーション法により、抽出対象の領域を抽出する。本実施形態では、第一の分類部の入力が三次元空間領域であるため、三次元画像データを処理する３Ｄ－ＦＣＮを用いる。以下、第一の実施形態との違いについて説明する。

　（モジュールの構成）
　本実施形態に係る画像処理装置の構成は第一の実施形態に係る画像処理装置１００と同じであるため、図１を参照して本実施形態に係る画像処理装置の機能構成について、第一の実施形態に係る画像処理装置との重複部分を省略して説明する。

　以下では、画像処理装置１００を構成する各部について説明する。

　取得部１０１が行う処理は、第一の実施形態における取得部１０１と同様である。

　第一の分類部１０２は、取得部１０１から取得した三次元画像データを構成する所定の大きさの三次元空間領域の夫々に対して、三次元処理をすることで、各クラスに対応する三次元空間領域に対する粗抽出画像を得る。そして、第一の分類部は各クラスに対応する三次元空間領域に対する粗抽出画像をクラスごとに積層した、各クラスに対応する三次元の粗抽出画像を生成し、第二の分類部に送信する。

　第二の分類部１０３が行う処理は、第一の実施形態における第二の分類部１０３と同様である。

　（処理フロー）
　次に、本実施形態における画像処理装置１００の処理手順について、図８を用いて説明する。

　＜ステップＳ８１０：三次元画像データ取得ステップ＞
　ステップＳ８１０の処理は、第一の実施形態におけるステップＳ３１０と基本的には同一の処理であるため、説明を省略する。

　＜ステップＳ８２０：３Ｄ－ＦＣＮによる分類ステップ＞
　ステップＳ８２０において、第一の分類部１０２は、三次元画像データを所定の大きさを持つ複数の三次元空間領域に分割し、分割された三次元空間領域の夫々に対して三次元処理により注目領域を粗抽出する。所定の大きさを持つ三次元空間領域とは、例えば、三次元画像データ内の連続する所定の枚数の体軸断面画像のまとまりである。第一の分類部１０２によって注目領域を粗抽出した結果は、第一のクラス群の各クラスに対応する三次元空間領域に対する三次元の粗抽出画像として出力される。なお第一の分類部１０２による出力は二次元の粗抽出画像でも構わない。

　本実施形態において、第一の分類部１０２は、各画素を肝臓、右腎、肝臓および右腎以外の３クラスに分類する学習済の３Ｄ－ＦＣＮである。また、本実施形態では、三次元画像データ内の所定の大きさを持つ三次元空間領域とは、三次元画像データ内の連続する３枚（所定の大きさの一例）の体軸断面画像を積層した画像である。また、各クラスに対応する三次元空間領域に対する粗抽出画像は、所定の大きさを持つ三次元空間領域と同じ画像サイズの三次元粗抽出画像である。

　図９を参照して、３Ｄ－ＦＣＮの入出力について説明する。図９における三次元画像データ４１０は、ステップＳ８１０で取得した三次元画像データ４１０を示している。本実施形態における３Ｄ－ＦＣＮの入力は、例えば図９Ａに異なるハッチングで示したような三次元空間領域の夫々である。同図において第一の三次元空間領域９１１と第二の三次元空間領域９１２は、それぞれが連続する三枚の体軸断面画像で構成されている。ここで、第一の三次元空間領域９１１と第二の三次元空間領域９１２は、互いに重複する領域が存在しない。３Ｄ－ＦＣＮは、これらの三次元空間領域のそれぞれに対して、図５に示すような各処理を実行し、各クラスに対応する三次元空間領域に対応する第一の三次元粗抽出画像９２１、第二の三次元粗抽出画像９２２を出力する。ここでは、第一の三次元空間領域９１１に対応する第一の三次元粗抽出画像９２１と、第二の三次元空間領域９１２に対応する第二の三次元粗抽出画像９２２はそれぞれが連続する三次元粗抽出画像として積層される。なお上記では、三次元画像データを所定の大きさに分割した三次元空間領域のそれぞれは互いに重複する領域が存在しない例を説明したが、重複する領域が存在していてもよい。図９Ｂは、第一の三次元空間領域９１１と、重複する領域が存在する場合の第二の三次元空間領域９１３とを示しており、連続する三枚の体軸断面画像のうち、二枚の体軸断面画像が重複した領域となっている。重複領域を有する場合には第一の分類部の出力は例えば粗抽出画像の重複部分を統合処理したものでもよい。重複領域の統合処理は、例えばＳｏｆｔｍａｘ処理の前に行ってもよいし、後述の方法（ステップＳ８４０に記載）でＳｏｆｔｍａｘ処理の後に行ってもよい。Ｓｏｆｔｍａｘ処理の前に統合処理を行う場合は、例えばＣｏｎｖｏｌｕｔｉｏｎ処理や画素ごとにＰｏｏｌｉｎｇ処理で統合する。

　＜ステップＳ８３０：未処理の三次元空間領域の判定ステップ＞
　ステップＳ８３０において、第一の分類部１０２は、処理対象となっている三次元画像データのうち、処理が為されていない未処理の三次元空間領域が存在するかを判定する。未処理の三次元空間領域が存在すると判定された場合、その領域に対してステップＳ８２０の処理を行う。未処理の三次元空間領域が存在しないと判定された場合は、ステップＳ８４０の処理へと進む。

　＜ステップＳ８４０：三次元セグメンテーションに対応する三次元粗抽出画像の作成＞ステップＳ８４０において、第一の分類部１０２は、第一のクラス群の各クラスに対応する三次元の粗抽出画像に対して、クラスごとに積層、補間、統合の少なくとも一つの処理を行う。第一の分類部１０２は、この処理によって三次元セグメンテーションのための、各クラスに対応する三次元の粗抽出画像を生成して第二の分類部１０３に送信する。言い換えると第一の分類部は、三次元空間領域に対応する複数の第一の分類部１０２による分類結果から、第二の分類部１０３への入力に際して三次元の粗抽出画像を作成する。各クラスに対応する三次元の粗抽出画像の生成は、いくつかのバリエーションにより実現される。

　第一の分類部１０２への入力のバリエーションにおいては、例えば、図９Ａ、図９Ｃに示すように重複領域のない場合と、図９Ｂ、図９Ｄのように重複領域を有する領域である場合が考えられる。さらに、重複領域がない場合は、第一の三次元空間領域９１１と第二の三次元空間領域９１２間が連続している場合と、不連続の場合が考えられる。

　第一の分類部１０２からの出力のバリエーションにおいては、図９Ａおよび図９Ｂのように、３Ｄ－ＦＣＮから出力されたすべての粗抽出画像に基づいて三次元の粗抽出画像を生成する場合と、図９Ｃ、図９Ｄのように、３Ｄ－ＦＣＮから出力された粗抽出画像のうち、例えば、入力である三次元空間領域に対応する粗抽出画像のうち、選択した一枚の粗抽出画像のそれぞれを用いて三次元粗抽出画像を生成する場合が考えられる。即ち、入力画像が三次元空間領域に対応する画像から三次元の粗抽出画像が出力される場合と、三次元空間領域を構成する二次元断面画像よりも少数枚の粗抽出結果を出力する場合がある。なお選択した一枚の粗抽出画像は、３Ｄ－ＦＣＮからの出力である粗抽出画像のスライス枚数よりも、小さければスライス枚数は問わない。また、三次元空間領域に対するすべての粗抽出画像を基に、統合処理を行って一枚の粗抽出画像を生成したものを用いてもよい。

　まず、図９Ａを参照して、入力である第一の三次元空間領域と第二の三次元空間領域間が重複領域のない連続した領域で、かつ３Ｄ－ＦＣＮの出力である粗抽出画像のうち、すべての粗抽出画像を用いて三次元の粗抽出画像を生成する場合について述べる。この場合、第一の三次元粗抽出画像９２１および、第二の三次元粗抽出画像９２２の全スライスを単純に積層することで、三次元粗抽出画像を生成し、第二の分類部１０３への入力とする。

　次に図９Ｃを参照して第一の三次元空間領域９１１に対応する第一の二次元粗抽出画像９２５および、第二の三次元空間領域９１２に対応する第二の二次元粗抽出画像９２６の場合について述べる。第一の分類部１０２によって分類した所定の大きさをもつ三次元空間領域のそれぞれに対応する粗抽出画像から、所定の枚数の粗抽出画像を用いて三次元粗抽出画像を生成する。以下では、入力の三次元空間領域に対する粗抽出画像を選択あるいは統合処理して得られた一枚の粗抽出画像のそれぞれを用いて三次元の粗抽出画像を生成する方法について述べる。一枚の粗抽出画像は、所定の大きさを持つ三次元空間領域に対応するすべての粗抽出画像のうち、中央の粗抽出画像を用いてもよいし、三次元空間領域に対応するすべての粗抽出画像間の画素値の平均値をとった平均値統合を行ったものでもよい。もしくは、三次元空間領域に対応するすべての粗抽出画像間の画素値の最大値を用いた最大値統合を行って一枚の粗抽出画像を生成してもよい。また平均値統合や、最大値統合は所定の大きさをもった三次元空間領域の粗抽出画像を構成する全スライスを対象にしなくともよい。例えば、三次元空間領域に対応するすべての粗抽出画像のうち、複数の粗抽出画像に対して統合処理をしてもよいし、複数の粗抽出画像に異なる統合処理をしてもよい。また複数の粗抽出画像のそれぞれに複数回の統合処理を行ってもよい。生成された第一の二次元粗抽出画像９２５および、第二の二次元粗抽出画像９２６を対象に互いの画像間を積層、補間処理、統合処理の少なくともいずれかを行い、三次元の粗抽出画像を生成する。

　次に、第一の分類部１０２への入力である第一の三次元空間領域と第二の三次元空間領域間が重複領域のない不連続の領域で、かつ出力が各クラスに対応した三次元の粗抽出画像もしくは所定の大きさをもつ三次元空間領域に対応する二次元の粗抽出画像の場合について述べる。３Ｄ－ＦＣＮによって抽出された粗抽出画像のうち、すべての粗抽出画像を用いる場合は、第一の三次元空間領域に対応する粗抽出画像と、第二の三次元空間領域に対応する粗抽出画像のそれぞれを積層、補間、統合の少なくともいずれかの処理を行い、三次元の粗抽出画像とする。所定の大きさをもつ三次元空間領域に対応する二次元の粗抽出画像から三次元の粗抽出画像を生成するステップは上記と同様である。

　最後に、図９Ｂや図９Ｄに示すように第一の分類部１０２への入力が重複領域を有している場合について述べる。図９Ｂは所定の大きさをもつ第一の三次元空間領域９１１に対応した粗抽出画像９２１と、所定の大きさをもつ第二の三次元空間領域９１３に対応した粗抽出画像９２３から構成されている。粗抽出画像９２１および粗抽出画像９２３はそれぞれが重複領域９２４を有している。この場合、重複領域９２４に対して平均値統合や最大値統合を施してもよい。またそれぞれの粗抽出画像間で積層、補間、統合処理の少なくともいずれかの処理を行って三次元の粗抽出画像としてもよい。図９Ｄは第一の三次元空間領域９１１と第二の三次元空間領域９１３が重複領域を有している。ここでは第一の三次元空間領域９１１と二次元粗抽出画像９２７が対応し、第二の三次元空間領域９１３と二次元粗抽出画像９２８が対応している。所定の大きさをもつ三次元空間領域に対応する粗抽出画像のそれぞれから、一枚の粗抽出画像を生成する。なお、三次元空間領域に対応する粗抽出画像のそれぞれから生成する粗抽出画像の枚数は一枚でなくとも、所定の大きさをもつ三次元空間領域を構成するスライス枚数より小さければよい。また生成される一枚の粗抽出画像は所定の大きさをもつ三次元空間領域に対応する粗抽出画像を補間、積層、統合処理されたものでもよい。所定の大きさを有する三次元空間領域に対応する二次元の粗抽出画像から三次元の粗抽出画像を生成するステップは上記と同様である。さらに本構成では、各所定の大きさを有する三次元空間領域から生成するスライスの枚数と、重複していないスライス枚数とを調整することにより各三次元空間領域の連結性を考慮することができる。

　＜ステップＳ８５０：画素情報の設定ステップ＞
　ステップＳ８５０の処理は、第一の実施形態におけるステップＳ３５０と基本的には同一の処理であるため、説明を省略する。

　＜ステップＳ８６０：グラフカット法による注目領域の抽出ステップ＞
　ステップＳ８６０の処理は、第一の実施形態におけるステップＳ３６０と基本的には同一の処理であるため、説明を省略する。

　（第二の実施形態の効果）
　以上に示したように、第二の実施形態に係る画像処理装置１００では、三次元画像データを所定の大きさを持つ複数の三次元空間領域に分割し、三次元空間領域の夫々に対して注目領域を粗抽出する。この構成により、第一の分類部１０２において三次元的な連結性を考慮できるため、注目領域を粗抽出した結果の精度が向上する。この効果に伴い、第二の分類部１０３による注目領域の抽出精度が向上する。

　（変形例）
　上述の第二の実施形態に係る画像処理装置１００において、第一の分類部１０２は、三次元画像データ内の所定の大きさを持つ三次元空間領域のみを入力としたが、注目領域に関する他の情報も同時に入力して良い。ここで入力とは、分類器を学習させる際の学習データと、第一の分類部へ入力する三次元画像データを指す。例えば、隣接する三次元空間領域に対する注目領域の抽出結果を同時に入力にしても良いし、別の方法で推定した注目領域の存在確率マップや、注目領域が存在するバウンディングボックスを入力にしても良い。この構成により、第一の分類部１０２は他領域の注目領域情報、他手法により推定された注目領域の情報をさらに利用できるため、第一の分類部による注目領域の粗抽出結果の精度が向上する。この効果に伴い、第二の分類部１０３による注目領域の抽出精度が向上する。またこれらの付加情報は第二の分類部１０３においても有効である。第二の分類部への付加情報を、画素情報に与えシード画像とすることでより精密な抽出領域の抽出が期待される。この付加情報は第一の分類部のみ、第二の分類部のみ、もしくはその両方に与えられてもよい。また本変形例は第二の実施形態のみに限られず、第一の実施形態においても有効である。

　（その他の実施例）
　また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

　この出願は２０１８年１２月２８日に出願された日本国特許出願２０１８－２４７７７５および２０１９年１０月３日に出願された日本国特許出願２０１９－１８３３４５からの優先権を主張するものであり、その内容を引用してこの出願の一部とするものである。

Claims

　対象物を含む第一の三次元画像データを構成する複数の二次元画像データのそれぞれにおける複数の画素を、学習された分類器により、第一のクラス群に分類する第一の分類手段と、
　前記第一の分類手段による分類結果に基づいて、前記対象物を含む第二の三次元画像データにおける複数の画素を、前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類手段と、
　を有することを特徴とする画像処理装置。
　前記第一の分類手段は、前記第一の三次元画像データを構成する複数の前記二次元画像データのそれぞれの複数の画素を前記第一のクラス群に分類することにより、三次元の分類結果を生成する三次元データ生成手段をさらに有し、
　前記第二の分類手段は、前記三次元の分類結果に基づいて、前記第二の三次元画像データの複数の画素を前記第二のクラス群に分類する
　ことを特徴とする請求項１に記載の画像処理装置。
　前記三次元データ生成手段は、前記複数の二次元画像データのそれぞれに対する前記第一の分類手段による分類結果を積層、補間および統合の少なくとも一つの処理をすることにより、前記三次元の分類結果を生成する
　ことを特徴とする請求項２に記載の画像処理装置。
　前記二次元画像データが体軸断面画像データである
　ことを特徴とする請求項１から３のいずれか一項に記載の画像処理装置。
　学習された分類器により、対象物を含む第一の三次元画像データのうち、所定の大きさを有する第一の三次元空間領域に対応する複数のボクセルのそれぞれを、第一のクラス群に分類し、
　前記所定の大きさを有する第二の三次元空間領域に対応する複数のボクセルのそれぞれを前記第一のクラス群に分類する第一の分類手段と、
　前記第一の三次元空間領域に対応する複数のボクセルの分類結果と前記第二の三次元空間領域に対応する複数のボクセルの分類結果とに基づいて、前記対象物を含む第二の三次元画像データに含まれる少なくとも一つのボクセルを前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類手段と、を有する
　ことを特徴とする画像処理装置。
　前記第一の分類手段への入力として、さらに前記第一の三次元空間領域もしくは前記第二の三次元空間領域とは異なる領域での前記第一の分類手段による分類結果を与えることを特徴とする請求項５に記載の画像処理装置。
　前記第一の三次元空間領域と前記第二の三次元空間領域が互いに重複しないことを特徴とする請求項５または６に記載の画像処理装置。
　前記第一の三次元空間領域に対応する複数のボクセルの分類結果と、前記第二の三次元空間領域に対応する複数のボクセルの分類結果と、を積層、補間、および統合の少なくとも一つの処理を行うことにより三次元の分類結果を生成する三次元データ生成手段を有し、
　前記第二の分類手段は、前記三次元の分類結果に基づいて、前記第二の三次元画像データに含まれる少なくとも一つのボクセルを前記第二のクラス群に分類する
　ことを特徴とする請求項５から７のいずれか一項に記載の画像処理装置。
　前記第一の三次元空間領域と前記第二の三次元空間領域が互いに重複部分を有することを特徴とする請求項５または６に記載の画像処理装置。
　前記重複部分に対応する第一の分類手段による分類結果を統合することにより、三次元の分類結果を生成する三次元データ生成手段を有し、
　前記第二の分類手段は、前記三次元の分類結果に基づいて、前記第二の三次元画像データに含まれる少なくとも一つのボクセルを前記第二のクラス群に分類する
　ことを特徴とする請求項９に記載の画像処理装置。
　前記第一の三次元空間領域および前記第二の三次元空間領域のそれぞれの領域が、複数の体軸断面画像データから構成される領域である
　ことを特徴とする請求項５から１０のいずれか一項に記載の画像処理装置。
　前記第一の三次元画像データおよび第二の三次元画像データが医用画像データであることを特徴とする請求項１から１１のいずれか一項に記載の画像処理装置。
　前記第一のクラス群は、肝臓であることを示すクラスおよび腎臓であることを示すクラスを含むことを特徴とする請求項１から１２のいずれか一項に記載の画像処理装置。
　前記第二のクラス群は、肝臓であることを示すクラスを含むことを特徴とする請求項１から１２のいずれか一項に記載の画像処理装置。
　前記第二の分類手段は、前記第二の三次元画像データにおける複数の画素を、グラフカット法により前記第二のクラス群に分類することを特徴とする請求項１から１４のいずれか一項に記載の画像処理装置。
　前記第一の分類手段による分類結果は、前記第一のクラス群を構成するクラスの尤度を含むことを特徴とする請求項１から１５のいずれか一項に記載の画像処理装置。
　前記尤度に基づいて、前景と、背景と、前記前景および前記背景のいずれにも対応しない中間領域とを示す領域情報を取得する取得手段を有し、
　前記第二の分類手段は、前記尤度および前記領域情報に基づいて、
　前記前景に対応する画素に第一のエネルギーを設定し、
　前記背景に対応する画素に第二のエネルギーを設定し、
　前記中間領域に対応する画素に当該画素における前記尤度に対応する第三のエネルギーを設定し、
　前記第一のエネルギー、第二のエネルギー、および第三のエネルギーを用いたグラフカット法により、前記第二の三次元画像データにおける複数の画素を前記第二のクラス群に分類する
　ことを特徴とする請求項１６に記載の画像処理装置。
　前記第一の三次元画像データおよび前記第二の三次元画像データは、同一の三次元画像データである
　ことを特徴とする請求項１から１７のいずれか一項に記載の画像処理装置。
　前記第一の三次元画像データおよび前記第二の三次元画像データは、互いに異なる三次元画像データである
　ことを特徴とする請求項１から１７のいずれか一項に記載の画像処理装置。
　前記第一の三次元画像データの解像度は、前記第二の三次元画像データの解像度よりも小さい
　ことを特徴とする請求項１９に記載の画像処理装置。
　前記第一の三次元画像データおよび第二の三次元画像データは、同一の被検体に紐づけられた互いに撮影時刻の異なる三次元画像データである
　ことを特徴とする請求項１９または２０に記載の画像処理装置。
　前記学習された分類器が、ＣＮＮ、ＳＶＭ、ｋ－ｍｅａｎｓの少なくとも一つを含む
　ことを特徴とする請求項１から２１のいずれか一項に記載の画像処理装置。
　前記学習された分類器は、エンコーダ・デコーダを用いたネットワーク構造を有するＣＮＮである
　ことを特徴とする請求項１から２２のいずれか一項に記載の画像処理装置。
　前記第二の分類手段が、前記第二の三次元画像データにおける複数の画素を、グラフカット法、レベルセット法、領域拡張法、スネーク法の少なくとも一つにより前記第二のクラス群に分類する
　ことを特徴とする請求項１または５に記載の画像処理装置。
　対象物を含む第一の三次元画像データを構成する複数の二次元画像データのそれぞれにおける複数の画素を、学習された分類器により、第一のクラス群に分類し、
　前記第一のクラス群への分類結果に基づいて、前記対象物を含む第二の三次元画像データにおける複数の画素を、前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する
　ことを特徴とする画像処理方法。
　学習された分類器により、対象物を含む第一の三次元画像データのうち、所定の大きさを有する第一の三次元空間領域に対応する複数のボクセルのそれぞれを、第一のクラス群に分類するステップと、
　前記所定の大きさを有する第二の三次元空間領域に対応する複数のボクセルのそれぞれを前記第一のクラス群に分類する第一の分類ステップと、
　前記第一の三次元空間領域に対応する複数のボクセルの分類結果と前記第二の三次元空間領域に対応する複数のボクセルの分類結果とに基づいて、前記対象物を含む第二の三次元画像データに含まれる少なくとも一つのボクセルを前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類ステップと、を有する
　ことを特徴とする画像処理方法。
　請求項２５または２６に記載の画像処理方法をコンピュータに実行させるためのプログラム。
　対象物を含む第一の三次元画像データを構成する複数の二次元画像データのそれぞれにおける複数の画素を、学習された分類器により、第一のクラス群に分類する第一の分類手段と、
　前記第一の分類手段による分類結果に基づいて、前記対象物を含む第二の三次元画像データにおける複数の画素を、前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類手段と、
　を有することを特徴とする画像処理システム。
　学習された分類器により、対象物を含む第一の三次元画像データのうち、所定の大きさを有する第一の三次元空間領域に対応する複数のボクセルのそれぞれを、第一のクラス群に分類し、
　前記所定の大きさを有する第二の三次元空間領域に対応する複数のボクセルのそれぞれを前記第一のクラス群に分類する第一の分類手段と、
　前記第一の三次元空間領域に対応する複数のボクセルの分類結果と前記第二の三次元空間領域に対応する複数のボクセルの分類結果とに基づいて、前記対象物を含む第二の三次元画像データに含まれる少なくとも一つのボクセルを前記第一のクラス群の少なくとも一つのクラスを含む第二のクラス群に分類する第二の分類手段と、を有する
　ことを特徴とする画像処理システム。