JP5249969B2

JP5249969B2 - 知識ベースの選択的な視覚分析のための人工視覚システムおよび方法

Info

Publication number: JP5249969B2
Application number: JP2010030845A
Authority: JP
Inventors: ユリアン・エガート; スベン・レブハン
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2009-02-27
Filing date: 2010-02-16
Publication date: 2013-07-31
Anticipated expiration: 2030-02-16
Also published as: US20100223216A1; JP2010262625A; EP2224371A1; US8433661B2

Description

本発明の背景は、概して、人工視覚システム、すなわち、視覚検知手段（たとえば、ビデオカメラ）およびコンピューティング・ユニットを用いて実現される後続の処理ステージを備えるシステムの分野である。該処理ステージは、視覚的に分析されたシーン(scene)の表現を出力し、この出力は、その後、車両（自動車、飛行機等）のパーツ、またはロボット（好ましくは、たとえば人間型ロボット（一例は、ホンダのアシモ（ＡＳＩＭＯ）ロボット）といった自律型ロボット）のような、様々な実体(actor)を制御するのに供給されることができる。

この進歩的な視覚システム（ビジョンシステム）は、人間のオペレータを補助するよう設計されたシステムを含め、地上、水上、および（または）大気中を行く移動体（車両）のためのシステムのような、様々な他の領域にも適用されることができる。ここで開示される方法および（または）システムを、技術的（たとえば、電子的）システムが自律的に学習し、該システムに提示される対象物の特徴および（または）特性（たとえば、サイズ、距離、絶対的位置、他の対象物に対する相対的位置、空間的なアラインメント、相対的な移動、速度、および（または）方向、他の関連する対象物の特徴、または特徴のパターン等）を取得することを必要とするどのような場合にも、一般的に使用することができる。

このような、コンピュータに基づく人工視覚システムは通常、連結したいくつかの処理ステップに依拠しており、これは、１つ以上のカメラ・デバイスからの入力から始まり、これがその後、順番に、フィルタリングおよび選択アルゴリズムによって処理される。該連結した処理の最後において、結果が、コンピュータ・ビジョン(computer vision)のシステムを使用するアプリケーション（適用業務）に関心のある側面について、低次元の表現となって現れる。

既知の現在のコンピュータ・ビジョン・システムに特有なのは、それらの、フィードフォワード特性である。この基本的な事象は、新しい画像の到着によって起動されて処理され、そして結果が、次の処理ステージに渡される。典型的な順次処理のチェーン（連なり）は、画像取得、事前処理、特徴抽出、検出／セグメント化、および高レベル処理からなる。主要な情報フローがフィードフォワードであるとしても、それらのステップのそれぞれは、いくつかの繰り返しを含むかもしれず、また、再帰の情報フローを必要とするかもしれない。再帰の情報フローは、異なるステージ間でも出現するかもしれないが、そのようなシステムは制御するのがより困難となるために、これは滅多にないケースである。

既知のコンピュータ・ビジョン・システムの他の特性は、これらが、貧弱な内部表現で動作すること、すなわち、これらが、非常にコンパクトな形態（たとえば、対象物のアイデンティティのＩＤ、または他の小規模なデータ）で表現されることのできる、視覚的入力の特定の側面に専念しており、付加的な、よりグローバルな知識（たとえば、視覚的なシーンのコンテキスト全体、または対象物の感覚的な外観）をほとんど使用しないということである。

これにより、特定の領域に非常に特化されたシステムとなってしまい、他に対する柔軟性がない。それに対し、生物学的な視覚システム（視覚系）は、汎用的であり、様々な視覚タスクに適応している。さらに、人間によるシーンの解釈では、そのシーンおよび対象物についての多くの事前知識が、それらの視覚的および物理的な特性と共に、視覚処理のための制約ないし変調（調整）パラメータとして取り入れられる。さらに、多くの最新技術のシステムに比べ、人間における情報取得プロセスは能動的であると考えられる。すなわち、人間は、現在の視覚タスクのために、関係のある対象物について視覚シーンを能動的にスキャンしている。

動作中に異なる視覚サブタスクに十分適応可能な一般的な視覚システムについて、シーンについての既存の（偏見のない）知識から、視覚処理のリソース（資源）を調整して編成することは、中心的な要素となる。なぜならば、該システムの同じ要素が、様々な目的のために用いられなければならないからである。これは、制限されたリソースの効率的な使用のために、視覚システムにおける情報フローの特別な表現および特別な制御を必要とする。

視覚的入力(visual input)により支配される静的な情報フローの手法に依拠する既知のコンピュータ・ビジョン・システムは、視覚サブタスクの数が増えるにつれ、その拡張性が低下する。それに対し、現在のコンテキストおよび視覚タスクに従って、その処理フローおよびリソースを柔軟に適応させるシステムの場合には、全体的な計算上の要件だけでなく、必要なアーキテクチャの複雑性の観点から、有利な点を提示する（多くのモジュールを効率的に再使用することができるので）。ここで、シーンの能動的な(アクティブな)検査が、主要な役割を果たす。

この発明はまた、コンパイラによる最適化(compiler optimization)およびグラフ構造に基づく計算で広い分野に知られているように、スケジューリング・メカニズムに関連する（より詳細には、当該明細書を参照のこと）。

さらに、この作業は、ロボット工学およびコンピュテーショナル・インテリジェンス（計算知能）の分野において、たとえばＰＯＭＤＰ（Partially Observable Markov Decision Processes（部分観測マルコフ決定過程））により与えられるような、感覚アクション(sensory action)のための最適プランニング(optimal planning)および逐次的意思決定(sequential decision making)にアプローチする確率的手法に基づいたアルゴリズムに関連する。具体的には、後述する参考文献（１４，１５）には、能動的かつ動的な手法で視覚ワークフローを適応させることが提案されている。該文献（１４，１５）では、非常にシンプルなシーンの構成において、現在のシーンで所定の特徴を発見する確率によって、選択プロセスが排他的に導かれる。多彩なコンテキストについての知識は、対象物の構成や感覚プロセスについての長期知識(long term knowledge)または幅広い感覚コンテキストのいずれの観点からも、使用されない。

コンピュータ・ビジョンのための方法は、その情報処理フロー、その処理リソース、およびそのパラメータを、知覚可能な世界、その対象物とその特性、現在の視覚タスク、感覚コンテキスト、および知覚装置(perception apparatus)自体に関する明示的知識(explicit knowledge)を用いて適応し、よって、制約されたリソースでリアルタイムで動作しなければならず、かつ様々な経験を考慮する（これは、経験から明示的に取り入れられる、または学習される）柔軟な視覚システムについて、非常に多くの利点を提供する。

典型的には、入力信号または入力パターンはセンサから受け取られ、これが、ハードウェアユニットおよびソフトウェア構成要素によって処理される。出力信号または出力パターンが得られ、これは、さらなる処理のため（たとえば、視覚化(visualization)のため）他のシステムへの入力となることができる。入力信号は、１または複数のセンサ（たとえば、視覚的または音響的な検知であり、ソフトウェアインターフェースによるものだけでなく、ハードウェアインターフェースによるものをも含む）により供給されることができる。出力パターンは、ソフトウェアおよび（または）ハードウェアインターフェースを介して出力されることができ、または他の処理ユニットないし実体に転送されることができ、これは、ロボットや車両のアクションないし挙動に影響を与えるよう使用されることができる。

本発明によって必要とされる計算および変換（transformation）を、１または複数のプロセッサ（ＣＰＵｓ）、信号処理ユニット、または他の計算、処理、コンピュータのハードウェアおよび（または）ソフトウェアのような処理手段によって実行されることができる。これらの処理手段はまた、並列処理用に適応されることができる。処理および計算を、標準的な市販の（ＯＴＳ）ハードウェアまたは特別に設計されたハードウェア構成要素上で実行することができる。プロセッサのＣＰＵは、該計算を実行することができ、また、メインメモリ（ＲＡＭ，ＲＯＭ）、制御ユニットおよび論理演算装置（ＡＬＵ）を含むことができる。また、ＣＰＵは、特化されたグラフィックプロセッサをアドレスすることもでき、該グラフィックプロセッサは、必要な計算を扱うのに専用のメモリおよび処理機能を提供する。

本発明は、データ記憶手段を使用する関係意味記憶（リレーショナル・セマンティック・メモリ(relational semantic memory)）を利用する。該データ記憶手段は、処理、結果、およびデータ構造のために、取得され必要とされる情報および（または）データを記憶するのに用いられる。該記憶手段はまた、事象およびそこから得られた知識に関連する、観察による記録を格納ないし記憶することを可能にし、これにより、将来の事象についてのアクションおよびリアクションに影響することができる。

該記憶装置は、ハードディスク（ＳＳＤ、ＨＤＤ）、ＲＡＭおよび（または）ＲＯＭのようなデバイスにより提供されることができ、これらは、フロッピーディスク、ＣＤ−ＲＯＭ、テープ、ＵＳＢドライブ、スマートカード、ペン・ドライブ等のような他の（携帯可能な）記憶媒体によって提供されることもできる。よって、本発明に従う方法をコード化したプログラムと、該進歩的なシステムのアプリケーションにおいて、または該アプリケーションのために、または該進歩的な方法において、または該方法のために、取得され、処理され、学習され、必要とされるデータとを、それぞれ記憶媒体に格納することができる。

特に、本発明により記述される方法を、該方法を実行するシステムないしデバイスに命令するため、物理的な（たとえば、携帯可能な）記憶媒体上に、ソフトウェアプログラム製品として提供することができ、該記憶媒体を、処理システムまたはコンピューティング・デバイスに該プログラム製品を転送するのに用いることができる。さらに、該方法を、コンピューティング・デバイス上で直接的に実現してもよいし、または、該コンピューティング・デバイスと組み合わせて提供してもよい。

従来技術

既知の技術的なコンピュータ・ビジョン・システムは、対象物認識、識別および検出、対象物追跡、画像復元、動き推定、およびシーンの再構成のような多数のタスクを解決するよう設計されている。

コンピュータ・ビジョンの良好に定義された様々なタスクを解決するための既知の方法がいくつか存在し、ここで、該方法の多くは、非常にタスク指向的(task specific)なものであり、広い範囲のアプリケーションについて一般化できることはほとんど無い。該方法およびアプリケーションの多くは、基礎研究の段階では静的なものであるが、より多くの方法が商業製品に進出してきており、そこでは、複雑なタスク（たとえば、医療画像の領域、または産業量プロセスの品質制御および計測）を解決できるより大きいシステムの一部を構成する。多くの実用的なコンピュータ・ビジョンのアプリケーションでは、コンピュータは、特定のタスクを解決するよう予めプログラムされているが、学習に基づく方法は、現在、より一般的なものとなってきている。

コンピュータ・ビジョンの従来の良好に定義されたタスクは、通常、感覚周辺(sensory periphery)の近くに位置付けられており、すなわち、それらは、低レベルのビジョンを扱うにすぎない。いわゆる“高レベル”ビジョンは、データがアプリケーション固有の前提を満たすことを検証するため、またはアプリケーション固有のパラメータ（たとえば、対象物の姿勢または大きさ）を推定するため、様々な情報を組み合わせることに対処する。

それにもかかわらず、現在のコンピュータ・ビジョン・システムは、固定された情報フロー方式に基づいている。以下では、我々は、（たとえば、追跡、セグメント化、対象物分類等に必要な部分的な処理ステップによって与えられるように）いくつかの基本的な視覚サブタスク、または視覚サブルーチンが利用可能であると前提とする。このタイプのサブタスクを扱う非常に多くの作業（ワーク）が以前からある。他方で、この作業は、コンパイラによる最適化およびグラフ構造に基づく計算といった広い分野で既知のように、スケジューリング・メカニズムに関連している。

他方、下記の非特許文献１，２（これは、後述する参考文献の（１２，１３）に相当する）のような、所与の視覚タスクについて視覚処理プログラムをコンパイルするＡＩアプローチが存在し、これは、問題の定式化(problem formalization)から開始する。これらのシステムは、フィードフォワードの手法で動作し、視覚アルゴリズムについてのそれらの知識を使用して、プログラム構築の処理を導く。それにもかかわらず、ＡＩアプローチの目標は、固定された視覚アプリケーションを構成することであり、すなわち、視覚処理についての知識は取り入れられるものの、最終的な結果は、再び、固定した情報フローを有するシステムであり、この場合、上記の貧弱な拡張性に関する考察がすべてあてはまる。

Clouard R., Elmoataz A., Porquet C. & Revenu M.: Borg: A Knowledge-Based System for Automatic Generation of Image Processing Programs. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1999. Vol. 21 (2). Shekhar C., Moisan S., Vincent R., Burlina P. & Chellappa R.: Knowledge-based control of vision systems. Image and Vision Computing. 1999. Vol. 17.

本発明の目的は、独立請求項に従う方法およびシステムによって達成される。利点を備える実施形態は、従属請求項において規定される。

本発明は、その情報処理フロー、その計算リソース、およびその計算上のパラメータを、視覚センサによって検知された知覚可能な世界、その対象物とその特性、現在の視覚タスク、感覚コンテキスト、および知覚装置自体に関する明示的知識を用いて適応させる、コンピュータ・ビジョンのための方法を提供する。該方法は、視覚的に知覚可能な対象物のような感覚事象を、機能的な関係を表す直接リンクによって他のノードに接続される、計測可能な感覚パラメータを備えたノードエンティティとして表現するステップと、現在の視覚的な感覚コンテキストを、感覚事象の接続されたグラフで表現するステップと、空間サブグラフおよび該サブグラフのノードとリンクに結びつけられたローカルプロセスにおいて、上記ステップの感覚パラメータにアクセスして計測する方法についての視覚サブタスク情報を表現するステップと、上記ステップからの、いわゆる“関係記憶（リレーショナル・メモリ）”からの情報を用いることによって、実行時に計算リソースを動的に割り振って情報フローを編成するステップと、該リソース割り振りおよび情報フローを、上記ステップからのグラフ構造に従って最適化するステップと、グラフの対応するノードおよびリンクのエンティティにおいて、感覚計測から取得した推定値を記憶し、これにより、上記ステップからの情報を更新するステップと、たとえばさらなる視覚対象物についての情報、および一般的には、上記ステップからの一般的な感覚コンテキストにおける追加および修正についての情報を表す新しいグラフ構造を漸進的に適応して作成するステップと、前のステップに戻り、知覚された世界およびその感覚プロセスについての知識の表現を改良するために、その処理リソースを柔軟に適応すると共に、その関係記憶を改善（リファイン）するシステムで、前のステップを繰り返すステップと、を含む。

上記の知覚可能な世界は、音響センサ、触覚センサ、および（または）ソフトウェアないしハードウェアのインターフェースを介して受け取った情報によって検知されることができる。

該方法は、また、記憶パラメータ、システムパラメータ、事象パラメータ、グラフパラメータ、および（または）センサパラメータを適応させることができる。

感覚事象の記憶（メモリ）を表現することができる。

現在の視覚的な感覚コンテキストの記憶を、感覚事象の接続されたグラフによって表現することができる。

計算リソースは、並列処理に適応されることのできる処理手段であることができる。

システムは、検知された世界の表現を改良するために、上記ステップから、その処理リソースを柔軟に適応し、および（または）その関係記憶を改善（リファイン）する。

最適化は、上記視覚サブタスク情報に加えて、タスク要件を考慮することで行われることができる。

タスク要件は、時間対精度の調停、リソースの衝突、同じ感覚デバイスを要する異なる計測、順番および機能的な従属性、どの視覚サブタスクが、他より先行しなければならないか、どれが他からの情報を用いるか、および、以前の動作中における経験から編集されたサブタスク情報、のうちの少なくとも１つであることができる。

以前の動作からの経験は、期待される精度、情報のゲイン、結果を得るのに消費される処理コスト／時間のうちの少なくとも１つであることができる。

最適化は、タスク固有のゲインおよび（または）コスト要件を用いることによって行われることができる。

最適化は、期待される情報フローおよび現在の情報フローに関連する不確実性情報を用いることによって、および（または）確率的手法を用いることによって、行われることができる。

用いられる視覚サブタスク情報は、サブタスク動作からの実行時の統計を収集することによって、漸進的に(incrementally)調節されることができる。

実行時の統計は、経過時間および（または）結果の精度であってよい。

実行時の統計を、最適化ステップで使用することができる。

視覚事象間の従属性は、次のような方法で、サブグラフに格納されることができる。
−従属性情報は、感覚事象を表現するノード間のリンクとして明示的に格納される、
−従属性情報は、既に編集された感覚情報の現在の状態と共に用いられる、
−従属性リンクは、異なるタイプであることができ、これにより、処理順序および情報フローの異なる評価を可能にする、
−感覚事象を表現する各ノードは、その結果の有効性を追跡し、この有効性を判断することができる。

ノード間のリンクは、第１のノードの結果が、第２のノードの結果に従属することを表現することができ、これにより、第２のノードは、第１のノードより前に処理されなければならない。

従属性情報は、視覚サブタスクの処理順序を決定するのに寄与することができる。

従属性リンクのタイプは、強制的(“mandatory”)、選択的(“optional”)、および（または）多数のうちの１つ(“one-of-many”)、であることができる。

従属性リンクの第１のタイプについては、厳密な順序が、２つの接続ノード間に課され、これにより、１つのノードの処理は、従属ノードの有効な結果を必要とする。

従属性リンクの第２のタイプについては、処理ノードは、従属ノードの結果を、それを処理することなく使用することができる。

従属性リンクの第３のタイプについては、いくつかの従属ノードのうちの１つが有効な結果を持ち次第、従属性を解決することができる。

結果の有効性を、計測の信頼性、取得したデータの品質、最後に計測してからの経過時間、によって判断することができる。

視覚サブタスクの処理順序を、動的に決定することができる。

また、視覚サブタスクの処理順序を、視覚分析中に決定することができる。

従属性リンクの第２のタイプにおいて、処理ノードは、従属ノードが有効な情報を使用できるならば、該従属ノードの結果を使用することができ、そうでなければ、それを無視することができる。

視覚サブタスクの従属性は自動的に解決される。これは、次のステップを含む。
−先行する視覚事象の結果を表現するノードの従属性リンクを得ること。
−従属性リンクが接続する各先行ノードについて、
−先行ノードのデータが有効かどうかをチェックすること。これが有効なら、次の従属性に続けること。
−その後続ノードの場合と同じやり方で先行ノードの従属性を解消すること。
−先行ノードのデータを取得すること。
−先行ノードからのデータを用いて、ノード自体の感覚プロセスを、実行すること。
−実行の結果の有効性を評価すること。
−解決された従属性にマークを付け、後続ノードに戻ること。
−ノードの結果が無効ならば、視覚サブタスクを再び呼び出す時を、高レベル上で決定すること。

ノードの無効な結果は、その先行ノードが既に無効なデータを含んでいるか、もしくは品質／データの信頼性が所定の基準を下回っている、ことを示すことがある。

従属性の解決は、非同期になされることができる。

ローカルプロセスの呼び出し、視覚サブタスクの呼び出し、および（または）従属性の解決は、並列になされることができる。

他の側面では、本発明は、コンピューティング・ユニット上で実行されるときに上記の方法を実行する、コンピュータプログラム製品を提供する。

さらに他の側面では、本発明は、データ駆動型でリソースが最適化される視覚動作について、要求に応じて提示される視覚計算を用い、これにより、所定のタスクに関連する視覚の側面に選択的に専念する、ロボットや車両のような可動のプラットフォームに接続される、コンピュータ・ビジョン・システムを提供する。

添付の図面とともに好ましい実施形態の以下の記載を参照すれば、当業者にとって、さらなる利点、目的、および特徴は明らかである。

使用される関係記憶を示し、これは、任意の数のリンクパターンを表現することができ、いくつかの例が該図に示されている。ノードＡの計測が、ノードＢの動作ｏｐに従属することを示し、該パターンは、図１に示されるような記憶に格納される。従属性リンクパターンについての異なるケースが、修正子を用いてどのようにカバーされるかを示し、ここで、ａ）従属性が選択的または強制的であること、ｂ）異なる動作（送受信）が目標ノードについて要求されること、および、ｃ）すべての従属性について満たされる必要がある場合と、多くの従属性のうちの１つのみについて満たされる必要がある場合とが区別可能であること、が示されている。システムで使用される対象物構造（上部）を示し、視覚ルーチン（四角形）に対する結合（グレーのライン）が示され、これは、フィードフォワードであり、またフィードバックでもある。図の下部には、従属性構造が示され、四角形は、視覚ルーチンの変数に対する結合を示す（グレーのライン）。対象物の世界位置特性について解決された従属性ツリー（簡略化のため、全てを示していない）を示し、経路が示されている。網膜像位置ノードにおける循環型の従属性の検出を示し、これは、経路のトレースバック（後戻り）となる。循環型の従属性を、網膜像位置ノードおよび空間変調マップノードの間の枝（ブランチ）を切断することにより解決することができる。システムによって既に取得された知識が、どのようにして、効果的な従属性グラフの構造を変化させ、そのサイズを縮小させるかを示す図。対象物のマスクを示し、これは、アルゴリズムによって計算されることができる。左側には、“ｈａｓＰｒｏｐｅｒｔｙ”および“ｄｅｐｅｎｄｓＯｎ”接続の両方が示され、右側には、純粋な構造的定義（上部）および長期記憶の内容（下部）が示される。現在従属性を解決しているノード、データの受信を待っているノード、データの送信を待っているノード、およびデータ送信を終えたノードで、短期記憶内の対象物１の色特性についての更新プロセスを示す。どのようにして、到着する情報（網膜像の大きさおよび領域拡張マスク）が従属ツリーに沿って進行し、受信を終えたノードの親ノードでの計算を起動するかを示す図。どのようにして、システムが対象物の距離を要求するかを示し、このプロセス中、空間変調マップについての既存の情報が再使用され、これにより、計算負荷を動的に低減する。主要な構成要素を備える進歩的なシステムを示す図。概念記憶および視覚プロセスの記憶を示す図。概念記憶および視覚プロセスの記憶のサブネットに格納される、内部の視覚記憶に沿った視覚的入力のより詳細な概要を示す図、。プログラムのフロー図。

認知的視覚(cognitive vision)システムは、技術的においても、また生物学的においても、少なくとも普遍性を意図して、該システムの環境から自身が取得した情報を、注意深く選択しなければならない。

これは、コンピュータおよびメモリのリソースに関する制約を満たすのに必要なことである。したがって、これらのシステムは、その必要性、タスク、および蓄積してきた世界に関する知識に従って、周囲のシーン（scene）の所定の側面に焦点を当てるアルゴリズムを実現する。後述する参考文献（１）で提案されているような、この柔軟性ある制御のアーキテクチャは、システムの処理経路を動的に再配置し、既に取得している知識を使用し、該システムのアクションのコストおよび利点を見積もることができなければならない。これを達成するため、或る合理的な手法では、該システムは、対象物間の関係についての知識のみならず、その周辺についての情報を取得するのに使用することのできる内部ルーチン間の関係についての知識をも必要とする。この知識は、その後、対象物の所定の特性を計測するのに該システムがどのアクションを実行しなければならないかを決定するのに使用されることができる。

もし、たとえば該システムが、対象物は何色であるかを計測するのを欲したとき、該システムは最初に、該対象物がどこに存在し、該対象物の網膜像の大きさ（retinal size）がほぼどのくらいであるかを知る必要がある。

対象物の位置を判定することは、さらなる処理を必要とするかもしれず、該さらなる処理は、局所化モジュール（ローカルモジュール）の従属等であるかもしれない。我々が選択した構成は、この従属性を、該システムが有する世界知識(world knowledge)に従って、関係記憶（リレーショナル・メモリ(relational memory)）にモデリングすることを可能にする。この明細書では、異なるルーチン間の従属（依存）性についての知識を効率的に表現する方法、および、システム・コンテキストでこれを使用する方法、について集中して述べる。

コンピュータサイエンスにおいて、従属性の表現に類似の問題が存在する。コンピュータプログラムのデータフローを表現することに関するこれらの問題は、後述する参考文献Ｄｅｎｎｉｓの（２）、（３）の作業にまで遡る。この作業において、またその後の作業において、グラフ構造が、コンピュータプログラムのデータおよび制御フローを分析するのに用いられ、コンパイラによって該プログラムを並列化および最適化する（参考文献（４）、（５））。ここで、該プログラムの従属性のグラフは、オリジナルのプログラムのセマンティックス（意味）を保つのに従わなければならないプログラム中のステートメントおよび述語に対して半順序(partial ordering)を取り入れる（第３２２頁の４）。コンピュータ・ビジョンの領域では、データフローのグラフもまた、視覚システムの設計を容易にしてそれらの複雑性を管理しやすくするのに使用される（参考文献（６））。

しかしながら、すべての上記の方法は、固定し予め定義されたアルゴリズムを、グラフ構造にマッピングするものである。この構造は、その固定したアルゴリズムをその後に並列化および最適化するために使用される。

これに対し、我々は、オンデマンド型の視覚システムを実現するための方法を提案し、これは、従属性の内部表現を解析し、対象物の要求される特性を取得するためのプログラムを動的に作成する。

コンピュータサイエンスの分野における非常に多数の文献が示すように、グラフ構造は、その目的に良く適している。この明細書では、我々は、以下を示す：
−対象物の特性間の機能的な従属性を、対象物の特性構造および世界知識と共に（これは、短期および長期の両方である）、整合性良くモデリングすることができるグラフ構造を使用する。
−グラフ構造を使用して、システムには、所定の計測のコストを見積もるための手段が備えられる。或る特性を計測するためのグラフのサイズ（大きさ）を、コスト関数として使用することができる。
−ここに提案する解析アルゴリズムを使用して、該システムによって既に取得されている知識を、簡単で効率的なやり方で再使用することができる。これは、計算時間を低減し、システムの動作を速めることにつながる。
−ここに提案する解析アルゴリズムを使用して、視覚システムを設計する複雑性は、直接的な従属性のみをモデリングすることにより、顕著に低減される。

以下では、機能的従属性がモデリングされるやり方と共に、システムのメモリ構造が提示される。また、従属性構造における視覚システムの全体の機能性をカバーするのに必要な修正子（modifier）が、明らかにされる。

さらに、以下では、前述したグラフ構造を採用した解析アルゴリズムを提案する。該構造で動作する際に遭遇しうる特定の状況が、説明される。提示される該解析アルゴリズムを用いて、参考文献（１）で提案されているアーキテクチャに基づく概念証明型のシステム(proof-of-concept system)におけるいくつかの実験が示され、その結果が説明される。

関係記憶（Relational Memory:リレーショナル・メモリ）
記憶構造 (Memory Structure)
この進歩的なシステムでは、参考文献（７）で提案されている、関係意味記憶（リレーショナル・セマンティック・メモリ(relational semantic memory）)を、短期記憶(short-term memory)および長期記憶(long-term memory)において情報を表現するのに用いる。

この関係記憶は、多くの他の意味記憶（セマンティック・メモリ）とは異なり、任意の数のリンクパターンを表現することができる。こうして、図１に示すように、”hasProperty”、”isPartOf”、または”isContainedIn”のような古典的なリンクタイプを定義することができる。

さらに、感覚の表現(sensory representation)が、該システムにその情報をその後にフィードバックすることができるように、特性(property)ノードに格納される。感覚表現と共に、或る特性を取得するのに使用される視覚（ビジュアル）ルーチンへの直接リンクが、該特性ノードに格納される。

こうして、結び付けられた視覚ルーチンに対し、情報を伝えるよう指示する（要求する）ことができる。該記憶における対象物(object)は、いくつかの視覚特性から構成される。古典的なリンクパターンの他に、従属性パターンを構築することができる。図２に示される従属性パターンは、“Ａの計測が、Ｂの動作ｏｐに従属する”ということを示す。このリンクが与えられると、我々は、要求駆動(demand-driven)のやり方で、Ａを計測することができる。すなわち、システムが、ノードＡを計測する必要があるならば、該システムは、Ａを処理することのできる前に、ノードＢのｏｐを実行しなければならないことを知る。

Ｂの動作ｏｐは、さらなる従属性を持たず、よって直接的に実行されることができる。その後、Ａを計測することができる。この構成がより複雑になると、グラフは、より深くなり、より複雑なアルゴリズムが、該グラフを解析するのに必要とされる。この点についての詳細は、以下に述べられる。

リンクの修正子 (Link Modifier)
Ｂａｌｌａｎｃｅらが、彼らの論文で、スイッチも制御従属性も、要求により駆動される解釈には必要とされないと述べているけれども（第２６１頁の８）、我々は、視覚システムの関心のあるケースをカバーするため、従属性リンクのパターンについていくつかの修正子を必要とする。これらの関心のあるケースは、以下の通りである。

−ノードＢの動作が、選択的であり、ノードＡを計測するのに絶対的に必要とされるものではないが、たとえば計測の結果を向上させるものである場合。たとえば、空間変調マップは、対象物の探索空間を制約するものとなるが、空間全体が該対象物について探索されるべきである場合には、必ずしも必要とはされない（図３ａ参照）。

−システムが、現在のノードを処理することができる前に、実行されるべき目標ノードについて異なる動作を要求するとき（図３ｂ参照）。

−或る特性を計測するのに代替の手法が存在することがあり、システムは、いくつかの従属性のうちの１つのみを満たしさえすればよい。対象物の形状を推定するための異なるセグメント化アルゴリズムを考えてみると、これらのアルゴリズムのうちの１つのみが、形状を取得するのに必要とされる（図３ｃ参照）。

我々が実現する一般的なパターンは、“Ａは、Ｂの（operation:動作）に従属し（dependency type:従属性タイプ）、（logical mode:論理モード）、Ｃの(operation：動作)に従属し（dependency type:従属性タイプ）．．．”と表現される。この一般的パターンの修正子は、以下のようになる。

−従属性タイプ(dependency type)：ノード間のリンクは、図３ａに示すように、強制的（ｍａｎｄａｔｏｒｙ）または選択的（ｏｐｔｉｏｎａｌ）とすることができる。

−動作(operation)：図３ｂに示すように、目標ノードの情報をプッシュ(push)する、もしくはプル(pull)する、送信動作および受信動作をそれぞれ実現する。

−論理モード(logical mode)：ノード“ＡはＢＡＮＤ（および）Ｃに従属することができる”、または、ノード“Ａは、ＢＯＲ（または）Ｃに従属することができる”。論理ＯＲモードを用いることによって、代替の経路をマーク付け(marking)することができ、それ以外は、ノードＡは、すべての目標ノードに従属する（図３ｃ参照）。

ノード状態 (Node States)
ここで、各ノードは、ノードデータの有効性をマーク付けする状態を有する。これは、ノード情報が更新される必要があるかどうかを判断するために用いられる。すなわち、このノードに結びつけられた視覚ルーチンを実行する必要があるか否かが判断される。基本的に２つの状態があり、データが、有効(valid)であるか、もしくは無効(invalid)であるか、である。最初に、すべてのノードは、無効データを含む。更新後、すなわち視覚ルーチンから情報を受け取った後、ノードのデータは有効となる。ノード状態の“無効”への遷移は、時間により、もしくは何らかの他の基準により決定されることができる。有効データを備えるノードに遭遇したときに動作の数を動的に減らすのに、ノード状態をどのように使用するかについては、後述される。

システムの記憶のレイアウト (System Memory Layout)
異なるリンクタイプ、動作、修正子およびノード状態を説明したので、ここで、該システムで使用される実際のプロトタイプ的な記憶（メモリ）パターンを示す。

図４の上の部分は、対象物構造についてのビュー(view)を示す。該対象物の特性は、様々な視覚ルーチン（左上に示されている）に結びつけられる。図４の下の部分には、従属性パターンが示される。この図は、単に、記憶のコンテンツ（内容）についての異なる２つのビューを示すにすぎない点に注意されたい。両方の表現は、同じノードを用いて同じ記憶内に共存している。図に見られるように、ノードの直接的な従属性のみを定義しており、全体的なツリー（木）は定義していない。これは、設計プロセスを容易化し、システム構造を管理しやすいものにする。完全な従属性のツリーは、後で説明する解析アルゴリズムを用いて生成される。

従属性解析(Dependency parsing)
上記では、該システムが、世界およびその内部の機能的な従属性の両方についての知識を表現する手法が示された。ここでは、該システムの周辺についての感覚情報の要求駆動による取得を実現するために該知識がどのように使用されるかを示す。図４の底部には、直接的な従属性のみが定義されている。対象物の３次元位置（world location：世界位置）のような、対象物の特性を更新するためには、そのノードの従属性を解決する(resolve)のが必要とされる。図５における、該世界位置について該解決された従属性のグラフは、必要なステップを表している。

再帰解析（Recursive parsing）
世界位置(図のWorldLocation)を受け取るというこの例において（図５のステップを参照）、これは、網膜像の位置(図のRetinalLocation)の計測（受信）（図の１）および対象物の距離(Distance)の計測（受信）を必要とする。なお、該対象物の３次元位置は、奥行き推定(depth estimation)アルゴリズムによって計算されることができる。

しかしながら、たとえば網膜像位置の計測自体は、空間変調マップを送信すること（図の上のSpatialModulationMap）に従属している（図の２）。この従属は、選択的である。網膜像位置を、該変調の入力を有することなく計測することもできるからである。空間変調マップの送信自体は、空間変調マップの取得（受信）（図の下のSpatialModulationMap）に従属する（図の３）。変調情報は、それが使用される前に取得される必要があるからである。

従属性グラフを解析することを、再帰的な問題として定式化することができる。よって、後述の擬似コードで示されるように、解析アルゴリズムは、再帰関数として実現される。

この例は、さらに続き、従属性が、さらにもう１ステップ追跡される（図６を参照）。空間変調マップの計測は、対象物マスクの計測および該対象物の網膜像位置の計測に従属する（図の４）。これらの２つの情報は、正しい形状で正しい位置に、空間変調マップを作成するのに必要である。しかしながら、網膜像位置ノードは、すでに、それよりも前に訪問されている。ここで示されているのは、ループ、すなわち循環型の従属性(circular dependency)であり、これは、システムがそれを扱う手段を持たないと、デッドロック状況を生じさせることとなる。

第１の重要な点は、グラフにおいて訪問したノードをマーク付け(印付け)することによって容易に行われることのできる、このような循環型の従属性を検出することであり、該ノードが、そこに入る前に既にマーク付けされているかどうかを確認する。第２の重要な問題は、循環型の従属性を検出したならば何をすべきか、である。ここで、上記に述べた従属性タイプが、重要な役割を果たす。循環型従属性を検出した後、親ノード（空間変調マップ）に戻り（図の４）、該従属性が、強制的(mandatory)なものか選択的(optional)なものかを確認する。従属性が選択的なものらば、それで終わりであり、つまり、この点における該ループを、該アルゴリズムを破壊することなく単に切断する。これは、欠けている該情報が、該アルゴリズムが動作するのに本質的なものではないからである。しかしながら、もし該従属性が強制的なものならば、該システムは、現在のノードの従属性を解決することができない。この図の例では、後者のケースがあてはまる。空間変調マップが、網膜像位置を知ることを必要とするからである。こうして、該システムは、他のステップに戻って（図の３）、従属性グラフの親の動作を実行することができるかどうかを確認する（このケースでは、空間変調マップの送信）。図６に示されるように、これは、このケースには当てはまらない。空間変調マップを送信することは、まずそれを受け取ることに厳密に従属しているためである。再び、従属性経路は、１ステップ戻る必要がある（図の２）。これにより、網膜像位置の受信にまで戻ることとなり、これは、空間変調マップを送信することに選択的に従属している。この時点で、ループに至る完全なブランチ（枝）を切断（カット）することにより、循環型従属性を“解消”することができる。循環型従属性を取り扱う手順を、以下にまとめる：
１）循環型従属性を検出する、
２）従属性ループに至る現在のリンクが選択的ならば、これを切断し、循環型従属性を含む枝全体を取り除く、
３）そうでなければ、ルート（根）ノードに既に辿りついたかどうかを確認する。その場合、従属性を解決することはできず、よってエラーが返される。まだルートにたどりつていなければ、従属性経路を１ステップだけ戻り、上記のステップ２）を続ける。

既に取得された知識の再使用 (Reusing Already Acquired Knowledge)
機能的従属性を柔軟にモデリングすることへのこのアプローチの最大の利点のうちの一つは、システムが有する知識を再使用することができるという事実である。そのため、ノード状態が、上記のように取り入れられた。該ノード状態は、ノードが更新を必要としているかどうか、すなわち、ノードが、従属性グラフにおいてその親によって必要とされる動作を実行することを必要としているかどうか、あるいは、ノードが、すでに有効なデータを保持しているかどうかを、グラフ解析アルゴリズムに知らせる。ノードが既に有効なデータを有していれば、システムは、該ノードより下の従属性サブツリー（sub-tree）全体を実行する必要が無い。ここで、網膜像位置（該データは、なお有効である）が既に計測されており、対象物の世界位置を更新することが、現在所望されているとする。これにより、図７に示されるような縮小したグラフとすることができる。このグラフを、図５のオリジナルのものと比較すると、結果としてグラフが小さくなっているのがわかる。これは、従属性グラフの構造が、システムの知識によって決定されることを意味する。これは、固定したグラフについてのみ作用する参考文献（４）、（８）、（６）のような、以前に提案された方法に対する主要な相違点である。

最終的に、グラフは、システムの知識を取り入れることによって小さくなり、より効率的で負荷の小さいシステムにすることができる。

代替の経路 (Alternative Pathway)
認知視覚システムのロバスト性は、冗長性によってしばしば向上させることができるので、或る対象物の特性を計測する代替の方法が存在することが、該システムにおいて望ましい。これは、特性を判断するための様々なアルゴリズムが、データ、結果を計算する方法、該システムの持つ速度、精度および脆弱性等について行う想定に、違いがあるかもしれないからである。したがって、そのような代替の経路を扱うような方法が加えられる必要がある。図８に示される例では、３つの異なるセグメント化アルゴリズムがあり、顕著性（saliency)マップを用いたシンプルなサイズ（大きさ）推定（詳細は文献（９）を参照）、領域拡張法（Region-Growing method,文献（１０）を参照）、およびレベルセット法（Level-Set method, 文献（１１）を参照）である。代替経路をモデリングするため、論理ＯＲモードが、上記のように取り入れられた。図８に見られるように、“対象物マスク(Object Mask)”ノードがマーク付けされ、これは、“ＯＲノード”を示す。ＯＲノードは、グラフパーサ（解析部）によって、“これらの従属性のうちの１つのみが必要とされる”と解釈される。対象物マスクを計算するため、これらのルーチンのうちの１つが、開始される必要がある。しかしながら、異なる複数のアルゴリズムが見つかることとなり、これらのアルゴリズムは、速度、初期的な要件、および精度が異なるものと見ることができる。網膜像の大きさ(Retinal Size)の推定は、非常に速く、初期値として対象物位置のみを必要とし、それほど精度が高くはない。領域拡張法は速く（しかし、網膜像の大きさの推定よりは遅い）、初期値として対象物位置のみを必要とし、少なくとも同種の構造化された対象物についての精度は良い。他方、レベルセット法は、他の２つのアルゴリズムに比べて比較的遅く、開始するのに初期セグメント化を必要とするが、構造化された対象物についても非常に精度が高い。上記述べた特性のうちの１つの結論は、対象物マスクを初期的に推定するのにはレベルセット法を用いることはできない、ということである。なぜならば、該レベルセット法は、実行するのに初期マスクを必要とするからである。さらに、該システムは、必要に応じた精度を持ち、なるべく速いアルゴリズムを選択することができる。したがって、必要とされるのは、現在のシステムの状態（たとえば、必要とされる精度および使用可能な時間）および該システムの知識（たとえば、初期の対象物マスク）に依存した決定である。最も簡単な実現形態では、パーサ（解析部）が、従属性のうちの１つが解決されるまで、従属性を解決しようとの試みを継続的に行うことである（ノードは、その初期状態が満たされなければ、その実行を拒否できる）。

いずれの従属性も解決されなければ、循環型従属性において上記述べたトレースバック（後戻り）を実行することができる。従属性の解決可能性とは別に、解析アルゴリズムの拡張バージョンは、これらの異なる経路のコストおよび精度を考慮することができる。

グラフ解析アルゴリズムの擬似コードは、問題が再帰的であるので、再帰的な本質を持っている。該アルゴリズムは、動的に、要求された特性から開始する従属性グラフを生成する。また、循環型従属性の検出とその取り扱いを考慮する必要がある。更新手順は、以下のとおりである。

＜手順（UpdateNodeValue）＞
（ａ）ノードの実行する能力をチェックする。
（１）有効なデータについて、現在のノードをチェックする。該ノードが既に有効なデータを持っていれば、動作をスキップして、「成功」を返す。
（２）既にセットされた訪問済みフラグによって示される、循環型従属性をチェックする。循環型従属性を検出したならば、対応するエラーを、該ノードの親に渡す。
（３）該現在のノードについて、訪問済みフラグをセットする。
（ｂ）従属性の更新
（１）現在のノードについての全ての従属性についてのリストを取得する。
（２）各従属性（子ノード）について、以下を行う：
（２．１）子ノードに対し”UpdateNodeValue”を呼び出す、
（２．２）循環型従属性のエラーについての該呼び出しの戻りコードをチェックする。そのようなエラーを受け取り、かつ該子ノードについて強制的従属性を持つ場合には、該エラーを、さらにその親に伝える。選択的従属性に対するエラーについては、該リストの次の従属性を処理することを続ける。
（２．３）論理ＯＲノードであるならば、少なくとも１つの従属性が満たされるので、該ループを去って（ｃ）を続ける。
（ｃ）現在のノード動作の実行
（１）親によって要求される、現在のノードの送信または受信動作を実行し、選択的に、センサデータを局所的に格納する。
（２）データの有効性フラグをセットする。
（３）訪問済みフラグを取り除く。

実験 (Experiments)
上記のアルゴリズムおよび図４に示される構造的な定義を用いることによって、概念証明型(proof-of-concept)のシステムが実現される。該システムの記憶内容は、図９に見ることができる。図９の“プロトタイプ(prototypes)”セクションにおいて、対象物の構造のみが定義される。すなわち、どの特性が対象物を構成し、該特性がどのように関連しているかが定義される。概念証明型のシステムにおいては、”hasProperty“リンク（黒）のみが用いられる。”Sensory Interface（感覚インターフェース）“セクションにおいて、該対象物構造は引き継がれ、さらに、従属性定義および視覚ルーチンに対する結合が加えられる。従属性構造は、図４に示すような直接的従属性の定義から生じたものである。

長期記憶(Long Term Memory)は、該対象物構造を、”Sensory Interface”から引き継ぐ。ここで、”hasProperty”リンクのみが、読みやすさを維持するため示されている。図からわかるように、すべての特性が、対象物毎に具象化（インスタンス化）されるわけではない（カラーおよびサイズのみが、ここでは選択される）。しかしながら、網膜像位置または距離のような他のノードを、必要に応じて具象化することができる。

長期記憶(long-term memory)における特性ノードは、感覚表現(sensory representations)を格納し、これらは、これらにリンクされる対象物について安定的なものである。他の変化しやすい対象物情報は、ここでは格納されないが、具体的なシーンにおいて計測され、短期記憶(short-term memory)に格納される。短期記憶の内容は、その構造を、長期記憶から引き継ぐ。要約すれば、対象物構造は、プロトタイプ的な定義から始まり、様々な記憶インスタンスを介して、短期記憶へと、継承によって伝達される。

この構造的な情報の他に、表現は、センサへの結合および互いに従属するノードをリンクするグラフによって、質的に向上される。該結合および従属性グラフは、”SensoryInterface”層において取り入れられる。この点まで、何の実値(real value)も、特性ノードには満たされない。これは、１または複数の対象物にリンクされることのできる長期の安定したセンサデータについて、長期記憶内で生じる。

このメモリ構造に基づいて、ノードについての更新プロセスがどのようなものかが示される。対象物１(obj_1)の色特性についての更新プロセスが、図１０に示されている。

従属性解決プロセスおよび後続の情報伝達プロセスが、非同期に実現される点に注意されたい。特性を更新する第１のステップは、それを具象化（インスタンス化）することである（図１０ａ参照）。こうすることにより、プロトタイプ的な定義にまで特性は継承される。それらの特性のうちの１つは、ノードの従属性である。対象物(object)の色(color)を計測するため、空間変調マップ(spatial modulation map)が必要とされ、これは、さらに、対象物の網膜像位置(retinal location)を必要とし、さらに、これは、顕著性(saliency)についての重み係数(weight factor)を必要とする。この伝達プロセスの結果が、図１０ｂに示されている。

顕著性の重みは、さらなる従属性を持たないので、それらは、速やかに送信されることができる。そうした後で、網膜位置ノードのすべての従属性が満たされ、これは、データのためにその視覚ルーチンを要求する（図１０ｃ参照）。網膜位置ノードの視覚ルーチンを起動した後、該プロセスは、空間変調マップにおいて継続する。前に定義したように（図４参照）、該変調マップは、処理されるべき対象物マスク(object mask)を必要とする。対象物マスクはＯＲノードであり、これは、代替の３つの計測プロセスが存在するからである（網膜像の大きさの推定、領域拡張法、およびレベルセット法）。これらの視覚ルーチンの１つのみが、実行される必要がある。

図１０ｄに示されるように、対象物マスク(object mask)ノードは、最初に、レベルセット計測(level set)を起動しようと試みた。しかしながら、前述したように、このアルゴリズムは、実行するのに初期マスクを必要とする。そのようなマスクを持つことの代替は、領域拡張(region growing)法を用いることである。領域拡張ノードは、最後の葉ノードであるので、従属性は、ノード動作を実行しながら従属性経路を後戻りする（トレースバックする）ことによって解決される。これが、図１０ｅ〜ｇに見ることができる。最後に、すべてのマーク付けされたノードが、データを配信するようそれらの視覚ルーチンを起動した。空間変調マップは、データがそれらを送信するのを待つ。

視覚ルーチンからデータが到着したとき、それらは、従属ツリーに沿って上方へと伝達される。図１１において、網膜像位置および領域拡張アルゴリズムのマスクは、（ほぼ）同時に到着する。領域拡張マスクについての情報は、その後、上方に向けて、該処理を終了することのできる対象物マスクまで進む。有効な対象物マスクおよび対象物の網膜像位置で、空間変調マップを計算して、その後に送信することができる。空間変調マップを送信した後、色(color)ノードの視覚ルーチンが実行され、最終的に、色（カラー）を返す（図１１の底部参照）。

何らかの時間が経過した後、いくつかのノードのデータが再び無効になったと想定する。そのようなケースが、図１２の一番上に示されており、網膜像位置、領域拡張、および対象物マスクのノードのデータが無効化されている。さらに、システムは、対象物１(obj_1)の距離(distance)を知る必要があると想定する。

距離を受け取ることは、空間変調マップを送信することを必要とする（図４参照）。典型的には、このマップを送信することは、該マップの抽出を必要とするが、このケースでは、空間変調マップのデータはなお有効である。こうして、更新する必要がないので、該プロセスは、該情報を送出し続けることができる。この手順を、空間変調マップを送信することが対象物マスクおよび網膜像位置の枝（ブランチ）全体を起動したものとなっている図１０の手順と比較すると、計算的な手間が劇的に低減されている。最後に、図１２の底部に示されるように、該距離は、システムによって要求されて受け取られる。

暫定結果 (Interim Result)
上記に提示されたシステムは、機能的な従属性についての知識および世界についての知識の両方を整合性あるやり方で表現するのに、グラフ構造を用いている。このシステムにおける関係意味記憶（リレーショナル・セマンティック・メモリ）が、ノード間の任意の数のリンクパターンを表現することができるという事実は、さらに、視覚ルーチンを、そのノードに結合することができる。従属性リンクのモデリングが記述され、該リンクパターンについてのいくつかの修正子が取り入れられ、これにより、視覚システムについての重要なケースをカバーすることが可能となる。選択的および強制的な情報、情報フローの方向をモデリングする異なるノード動作、および代替経路のケースが、説明される。従属性リンク構造に基づく解析アルゴリズムが設計され、これは、所定の環境下における循環型従属性を検出して“解決”することができる。これとは別に、該解析アルゴリズムはまた、以前に取得した感覚情報を効率的に再使用して、該システムの全機能を維持しつつ、計算負荷を低減することができる。この実験は、このフレームワークにより、オンデマンドで（要求に応じて）データを取得し、その処理チェーン（鎖）を柔軟に適応させることのできるシステムを構築するのを可能にする、ということを示している。

また、該システムが所定のアクションのコストを推定することが可能である。従属性ノードの数は、コスト関数として用いられることができる。しかしながら、或るアクションが要する時間を計測することを考慮し、これを、コスト関数として用いることもできる。

この情報を用い、該システムは、時間的な制約が適用されるとき、どのアクションを取ることができるかを学習する。同じように、該システムは、さらに、経路がどれほど正確で信頼性あるかを学習し、良好な精度の情報が必ずしも必要でない場合には、速いけれども粗い(coarse)関数を用いることができる。これをさらに推し進めて、該システムは、自身で従属性を見つけることを試みて、“最適”な処理待ち行列を学習するようにしてもよい。

従属性構造を推定することとは別に、参考文献（４）のようなコンピュータサイエンスからのまとまった知見を容易に採用して、処理経路を最適化および並列化するようその後に動作することもできる。そこで見つけられるアルゴリズムは、基礎となる構造が似ているため、容易に適用されることができる。

本発明のコア（中核）
本発明は、さらに、視覚的入力を選択的に分析する視覚ルーチンの、アクティブで半順序(semi-sequential)な補充(recruitment)および調整(modulation)によって、視覚サブタスクの解決を含む内部タスクによって駆動されるコンピュータ・ビジョン・システムを提供する。この補充および調整は、実行時に動的に起こり、視覚的なアイテム（項目）およびプロセスについての長期知識だけでなく、視覚分析の直前のステップ中に編集された視覚シーン、そのアイテムおよびその特性について現在利用可能な短期情報にも基づいている。長期記憶および短期記憶は、前述したように構成されることができる。

その主要な構成要素を備えたシステムが、図１３に示されている。この図の底部において、視覚的入力(visual input)が、非タスク固有(non-task-specific)の一連の事前処理ステージにおいて取得され、分析／事前処理される。視覚的入力は、１つ以上の画像（たとえば、ステレオまたはマルチカメラ機構のように）を含むことができ、また、グレースケール、カラー、もしくは他の視覚的領域（たとえば、赤外線のような）を用いたものであることができる。事前処理ステージ（図１３のＡ）は、シーンおよびその対象物についての知識を必要としない特性（すなわちそれらは特定的ではなく一般的である）を用いる、たとえば正規化、コントラスト強調、エッジおよび特徴抽出および同様の処理を含むことができる。事前処理動作のタイプは、この発明には関係がないので、この点についてさらなる詳細は述べない。

事前処理ステージからの出力は、図１３のＢに示される“視覚ルーチン(visual routine)”によって使用される。これらは、対象物に固有(object-specific)の、またはコンテキストに固有(context-specific)の視覚プロセスであり、視覚シーンについて何が探索されるか、および（または）何が既知であるか（すなわち、現在の感覚コンテキストについて短期記憶に何が記憶されているか）に依存している。対象物またはコンテキストの固有（特定）性は、トップダウンの接続を介して（図１３の右上の点線矢印）視覚記憶（メモリ）から届けられ、それは、特定の対象物またはコンテキストの記憶から抽出されたパラメータを用いた、視覚ルーチンの選択、操作(steering)、および調整(modulation)を含む。

視覚ルーチンの例として、対象物の存在を示す特定の特徴を見つけることによる対象物候補の検出、対象物に固有の追跡、位置に固有のセグメント化等がある。

視覚ルーチンの固有の特性は、該視覚ルーチンが、それらに割り当てられた基本の視覚サブタスクの実現のために固有に起動されることができるということであり、こうして、通常の動作において、視覚ルーチンの一部のみ（実行時で動的に変化するけれども）が各時間ステップで起動される。

操作可能な(steerable)視覚ルーチンは、汎用の視覚システムにおいて計算資源をインテリジェントに管理するための方法を提供する制御プロセスおよび視覚記憶と共に、知識ベースの選択的視覚分析の核となる。

視覚ルーチンは、図１３のＣに示される記憶ステージから操作され、その結果を記憶ステージに送る。ここで、様々な視覚ルーチンからの感覚情報は、視覚シーンについての既存の情報に関して編集され、出力される。記憶ステージは、以下のような３つの主要な構成要素部分を持つ。
１）概念記憶(conceptual memory)（長期および短期の両方）、
２）視覚プロセスの記憶（メモリ）、
３）視覚ルーチン、概念記憶、および視覚プロセスの記憶の間を調停する制御モジュール。

概念記憶は、感覚入力(sensory input)に現れる特徴パターンであって、たとえば視覚テンプレート、物体、視覚的な周囲の状況（“部屋”のような）、または特徴的なシーン（室内、室外等）に関連づけることのできる特徴パターンを表現するのに用いられる。これは、特定の感覚概念を構成するものの情報を記憶するので、概念的と呼ばれる。

概念記憶に格納される概念（コンセプト）は、或る存続期間（ライフタイム）の間は有効であり、一般的に有効と考えられ時間と共に安定する概念（“長期”）から、感覚対象物についての一時的な計測結果または仮定を表現する概念に至るまで、連続して広がっており、また、短期の時間スケール（短期記憶）に対しては変化することが期待されるものである。

長期の概念記憶は、たとえば、特定の空間的な構成で配置されるべき構成要素として車輪を有するというような、視覚的に車を定義するものの情報を含む。これに対し、短期記憶は、たとえば、感覚入力から検出され、３次元世界の座標および感覚空間で動く、特定の時間ステップで特定の車の情報を表現するものである。この場合、感覚要素“車”の短期記憶は、その特性の多くを継承するが、対象物関連の感覚情報を取得して更新する際に係わる現在の計測プロセス（視覚ルーチンに結合される）に関連する情報だけでなく、実際に計測された車の感覚特徴に関連する情報を付加的に持つという意味で、長期概念の“車”を特化したものとなる。

視覚プロセスの記憶は、或る感覚的なものを計測する方法、具体的には、概念記憶からの視覚的なアイテム（項目）の特性を計測する方法の情報を表現するのに用いられる。

車の例に戻ると、視覚プロセスの記憶は、適切な配置で車輪が存在するかどうかを見出す方法（これは、そのシーンにおいて車が存在するということをシステムが推論することを可能にする感覚パターンの存在を確かめるものである）を定義する。

低い感覚レベルにおいて、視覚プロセスの記憶は、視覚ルーチンへの該記憶からのリンクを提供し、明示的に、視覚ルーチンにアクセスしてそれらの結果を抽出するのに必要なすべての関連情報を含む。こうして、視覚プロセスの記憶は、システム自体の感覚装置および該装置上で視覚ルーチンのレベルで取ることのできる可能なアクションの表現を備える。

概念記憶および視覚プロセスの記憶の両方は、前述したように、階層的なグラフの形態で表現され、概念のハブ（中心）として動作するノードおよびノード間の関係を示すいくつかの異なるタイプの直接リンクを含む（図１４のＡ参照）。

概念記憶の場合、リンクは、たとえば、或る視覚特性すなわちサブパーツ（たとえば、車の車輪）の存在が、より包括的なパターン概念（車）の良好な標示である、ということを示す。

視覚プロセスの記憶の場合、包括的な概念（車）に結びつけられた異なるタイプのリンクは、システムが車の存在を推論できる前に車輪が検出されなければならないことを示し、これは、たとえば、車のパーツの検出の視覚ルーチンを補充する（recruit、使用する）ことによって生じる。記憶の両方のタイプが、異なるリンクを用いているが、同じノードを用いた単一のグラフィカルな構造内で混ぜ合わせられること、すなわち、それらは、図１４のＢに示すようにノードを介して通信する２つの分離したサブネットとして視覚化されることに注意されたい。

ノードは、さらに、視覚プロセスおよび視覚ルーチンを駆動するのに必要なパラメータのみならず、現在の感覚計測に関連する内部パラメータ（たとえば、対象物の位置、色等）を、信頼性(confidence)と共に含む。

図１５は、概念記憶および視覚プロセスの記憶のサブネットに格納された内部視覚記憶に従う視覚的入力のより詳細な概要を示す。

概念記憶は、階層グラフにおいて、たとえばライト、車輪、ウィンドウといった視覚的な外観について、車がどのようなパーツを持つべきかを指定することによって、車の“概念”を含む。視覚プロセスの記憶は、たとえば特化された車輪検出モジュールのような、対応する視覚ルーチンにアクセスすることによって、これらのパーツの存在を計測する方法をコード化する。

さらに、概念化された車は、たとえば、所定の車のパーツの発見が期待される相対的位置、もしくはどの特徴が該パーツの検出を容易にするか（たとえば、リアライトについての赤色）、というような情報を含むことができる。この情報は、その後、視覚ルーチンに選択的に渡され、該視覚ルーチンは、自身の機能を制約したり向上させるように、それを使用することができる。たとえば、車の前輪がすでに検出され、よって或る領域で後輪の発見が期待されるならば、該後輪を検出するための視覚ルーチンを、この領域においてのみ探索するよう拘束することができ、これにより、探索の負担をより軽くしつつ、結果をよりロバストにすることができる。

システムの長期記憶および短期記憶の両方とも、実行時に動的に更新される。該更新は、グラフ構造の作成、修正および破棄だけでなく、グラフのノードにおいて格納されるパラメータ値を含む。新しいグラフ構造は、たとえば新しい感覚アイテムが短期記憶に含まれるときに生じ（たとえば、静止した背景に対する移動体のような、それが非常に顕著であるがためにアイテムのポップアウト（飛び出してくること）を視覚ルーチンが示すならば）、もしくは、既に検出された感覚アイテムが、より大きい概念の混合物を形成するよう結合されるときに生じる（たとえば、２つの車輪が検出されて、それが、車の感覚検出を表す新しい概念ノードに結合されるとき）。

グラフ構造を、それらの感覚的な有効性がもはや与えられないとき、たとえば、アイテムが、そのシーンから消滅して再び現れるのが期待されないとき、破棄することができる。

制御モジュールは、概念記憶、視覚プロセスの記憶、および視覚ルーチンの間の情報フローを制御する。それは、更新ないし計測されるべきパラメータを備えたノードのセット（組）を連続的に識別する。

視覚プロセスの記憶により、制御モジュールは、パラメータを、それらを計測するのに必要なプロセスにリンクすることができる。したがって、パラメータを計測する目的は、或る対象物がシーンに実際に存在しているか否か、あるいはその位置、色等は何であるか、を見いだすというような、視覚タスクと等価である。要約すれば、制御モジュールは、現在利用可能な概念記憶と共に、プロセスの記憶を使用し、必要なパラメータを計測する方法を決定する。

視覚ルーチンの選択的なアクセスは、すでに収集された、長期記憶、より重要には短期の感覚記憶に含まれる概念情報に従って、処理リソース（資源）の効率的な利用を可能にする。処理リソース（計算コスト、エネルギー消費、動作時間、メモリ資源）は、複雑な視覚シーンについて、主要な問題となる。なぜなら、複雑なシーンについては、調べる可能性のある特徴の空間が指数関数的に増大するためである。したがって、単に信号駆動のやり方で、すべての必要な特徴分析ステージを見越すことは不可能である。記憶に基づく選択方式は、資源問題を緩和し、仮説駆動型(hypothesis-driven)の案内される探索プロセスとして、ビジョン（視覚）を前提のものとする。グラフに基づく記憶構造によって提供される階層的な表現は、処理リソースを低減することができ、結果として、コアース・トゥ・ファイン（粗から微細へ）の探索となる。さらに、所与のタスクに必要なこれらの視覚ルーチンおよびパラメータの形態のみに対する制約は、計測結果のロバスト性および信頼性を増大させる。

制御モジュールは、様々なヒント（手がかり）を用い、視覚タスクに必要な視覚ルーチンの選択、操作(steering)および調整(modulation)を行う。制御モジュールは、視覚プロセスの記憶に関連づけられるリンクに格納された情報を用い、特定の感覚事象を実行するときに、期待される情報のゲインおよびコストをチェックすると共に、感覚事象（図１４のＢの底部の、点線矢印）と視覚ルーチンに対するそれらのリンク（図１５の底部を参照）との間の従属性についてチェックする。

本発明の特定の実施形態において、従属性リンクは、異なる修飾子(qualifier)／リンクタイプと共に用いられ、これが、処理順序および情報フローの異なる結果となる。使用されるタイプは、強制的(“mandatory”)、選択的(“optional”)、多数のうちの１つ(“one-of-many”)、であった。

第１のケースでは、厳密な順番が、２つの接続されたノード間で課され、これにより、１つのノードの処理は、最初に、従属ノードの有効な結果を必要とし、こうして、従属ノードが最初に処理されるという必要性を形成する。

第２のケースでは、処理ノードは、従属ノードが有効な情報を使用できる（有効な情報へのアクセスを持つ）のであれば、該従属ノードの結果を使用することができ、そうでなければ無視することができる。

第３のケースでは、従属性は、いくつかの従属ノードのうちの１つが有効な結果を達成し次第、解決される。

従属情報は、既に編集された感覚情報の現在の状態と共に使用され、視覚サブタスクの処理順序を決定する。さらに、期待されるゲインおよびコストに関する情報を考慮して、制御モジュールが、たとえばより低い処理コストで近似した結果を得るのか、それともより高い処理コストで正確な結果を得るのかを決定することができる。不確実性情報が利用可能であれば（プロセス記憶および感覚計測に結びつけられる）、グラフィカルな構造に対して作用する確率的手法をここで含めることができる。感覚事象を表現する各ノードは、その結果の有効性を追跡する。この有効性を、たとえば、計測の信頼性、その取得したデータの品質、あるいは最後の計測からの経過時間によって判断することができる。

制御モジュールは、視覚サブタスクの従属性が自動的に解決されるのを可能にする。これは、図１６にプログラムフロー図として示され、結果の有効性と共に、視覚プロセスの記憶からの情報、期待されるゲインとコストに従って、グラフをインタラクティブに進行するステップを含む。概念記憶、特に短期感覚記憶は、何が既に検査されたかを格納するのに使用されると共に、コンテキスト（すなわち概念記憶）に依存する視覚ルーチンのためのパラメータとして作用するのに使用される。或る点でのインタラクティブなグラフの進行は、視覚ルーチンにリンクされたノードに到着し（図１５の底部の右側に示される）、ここで、特定の視覚分析を起動する。視覚ルーチンが結果を配信するとき、その有効性は、結びつけられた記憶ノードによってチェックされ、さらに、それを呼び出した先行ノードに通信される。このようにして、必要な感覚プロセスは起動され、視覚タスクの従属性は解決される。

本発明を、以下のように要約することができる。

Ｉ．その情報処理フロー、その処理リソース、およびそのパラメータを、知覚可能な世界、その対象物とその特性、現在の視覚タスク、感覚的コンテキスト、および知覚装置自体に関する明示的知識を用いて適応させるコンピュータ・ビジョンのための方法であって、
ａ．視覚的に知覚可能な対象物のような感覚事象の記憶を、機能的な関係を表す直接リンクによって他のノードに接続される、計測可能な感覚パラメータを備えたノードエンティティとして表現するステップと、
ｂ．現在の視覚的な感覚コンテキストの記憶を、感覚事象の接続されたグラフで表現するステップと、
ｃ．空間サブグラフおよび該サブグラフのノードとリンクに結びつけられたローカルプロセスにおいて、上記Iａの感覚パラメータにアクセスして計測する方法に関する視覚サブタスク情報の記憶を表現するステップと、
ｄ．ステップIａ〜Iｃにおいて取り入れられた記憶からの情報を用いることによって、実行時に処理リソースを動的に割り振って情報フローを編成するステップと、
ｅ．上記のリソース割り振りおよび情報フローを、ステップIａ〜ｃからのグラフ構造に従って最適化するステップと、
ｆ．グラフの対応するノードおよびリンクのエンティティにおいて、感覚計測から取得した推定値を記憶し、これにより、IａおよびIｂからの情報を更新するステップと、
ｇ．たとえばさらなる視覚対象物についての情報、および一般的にはIａ、Iｂからの一般的な感覚コンテキストにおける追加および修正についての情報を表す新しいグラフ構造を漸進的に(incrementally)適応して作成するステップと、
ｈ．ステップIｄに戻り、知覚された世界および自身の感覚プロセスについての知識の表現を改良するために、ステップIａ〜Iｃから、自身の処理リソースを柔軟に適応すると共に、記憶を改善（リファイン）するシステムで、ステップIｄ〜Iｈを繰り返すステップと、を含む。

ＩＩ．上記のＩで記述された方法であって、ステップIｅの最適化は、Iｃからの視覚サブタスク情報に加えて、たとえば、時間対精度の調停、リソースの衝突（同じ感覚デバイスを要する異なる計測）、順番および機能的な従属性（どの視覚サブタスクが、他より先行しなければならないか、どれが他からの情報を用いるか）、および、以前の動作中における経験から編集されたサブタスク情報（期待される精度、情報のゲイン、結果を得るのに消費される処理コスト／時間）のような、タスク固有のゲインおよびコストの要件を考慮することによって行われる。

ＩＩＩ．上記のＩまたはＩＩに記載された方法であって、最適化は、期待される情報フローおよび現在の情報フローに関連する不確実性情報を考慮することによって、および、最新の確率的手法を用いることによって行われる。

ＩＶ．上記のＩ〜ＩＩＩのうちのいずれかに記載の方法であって、ステップIｅで使用される視覚サブタスク情報は、サブタスク動作からの実行時（ランタイム）の統計を収集することによって、とりわけ経過時間および結果の精度を収集することによって、漸進的に調節され、この情報を、上記の最適化ステップＩｅ、ＩＩおよびＩＩＩで使用できるようにする。

Ｖ．上記のＩ〜ＩＶのうちのいずれかに記載の方法であって、視覚事象間の従属性は、次ような方法で、ステップIｃのサブグラフに格納される。
ａ．従属性情報は、感覚事象を表現するノード間のリンクとして明示的に格納される（たとえば、ノードＡの結果は、ノードＢの結果に従属し、よって、ノードＢは、ノードＡよりも前に処理されなければならない）。
ｂ．従属性情報は、既に編集された感覚情報の現在の状態と共に用いられ、視覚分析中に視覚サブタスクの処理順序を動的に決定する。
ｃ．従属性リンクは、異なるタイプであることができ、これにより、処理順序および情報フローの異なる評価を可能にする。使用されるタイプは、たとえば、強制的(“mandatory”)、選択的(“optional”)、および多数のうちの１つ(“one-of-many”)、である。第１のケースでは、厳密な順序が、２つの接続ノード間に課され、これにより、１つのノードの処理は、従属ノードの有効な結果を必要とする。第２のケースでは、処理ノードは、従属ノードが有効な情報を使用できるならば、該従属ノードの結果を使用することができ、そうでなければ、それを無視することができる。最後のケースでは、従属性は、いくつかの従属ノードのうちの１つが有効な結果を達成し次第、解決される。
ｄ．感覚事象を表現する各ノードは、その結果の有効性を追跡する。この有効性は、たとえば、計測の信頼性、取得したデータの品質、最後に計測してからの経過時間、によって判断されることができる。

ＶＩ．上記のＩ〜Ｖのいずれかに記載された方法であって、視覚サブタスクの従属性は自動的に解決される。これは、次のステップを含む。
ａ．先行する視覚事象の結果を表現するノードの従属性リンクを得ること。
ｂ．従属性リンクが接続する各先行ノードについて、
ｉ．先行ノードのデータが有効かどうかを、ステップＩＶｄに従ってチェックすること。これが有効なら、ステップＶｂの次の従属性へ続ける。
ｉｉ．ステップＶａで開始し、その後続ノードの場合と同じやり方で先行ノードの従属性を解決すること。
ｃ．先行ノードのデータを取得すること。
ｄ．ノード自身の感覚プロセスを、先行ノードからのデータを用いて実行すること。
ｅ．実行の結果の有効性を評価すること。
ｆ．解決された従属性にマークを付け、後続ノードに戻ること。
ｇ．ノードの結果が無効ならば（これは、その先行ノードが既に無効なデータを含むか、もしくは、データの品質が所定の基準を下回ったかを示す）、視覚サブタスクを再び呼び出す時を、高レベル上で決定すること。

ＶＩＩ．上記のＩ〜ＶＩのうちのいずれかに記載の方法であって、従属性の解決は、非同期になされる。

ＶＩＩＩ．上記のＩ〜ＶＩＩのうちのいずれかに記載の方法であって、ローカルプロセスの呼び出し、サブタスクの呼び出し、および従属性の解決は、並列になされる。

ＩＸ．データ駆動型でリソースが最適化される視覚動作について、要求に応じて提示される視覚計算を用い、これにより、所定のタスクに関連する視覚の側面に選択的に専念する、ロボットや車両のような可動のプラットフォームに接続される、上記のＩ〜ＶＩＩＩのうちのいずれかに記載の方法。

上記は、本発明の実施形態に関連するものであり、多くの変更および修正を、特許請求の範囲で記述した本発明の範囲から逸脱することなく行うことができる。

参考文献
[1] Julian Eggert, Sven Rebhan, and Edgar K¨orner. First steps towards an intentional vision system. In Proceedings of the 5th International Conference on Computer Vision Systems (ICVS), 2007.
[2] Jack B. Dennis. First version of a data flow procedure language. In Proceedings of the Colloque sur la Programmation, volume 19 of Lecture Notes in Computer Science, pages 362-376, London, UK, 1974. Springer-Verlag.
[3] Jack B. Dennis. Data flow supercomputers. Computer, 13(11):48-56, November 1980.
[4] Jeanne Ferrante, Karl J. Ottenstein, and Joe D. Warren. The program dependence graph and its use in optimization. ACM Transactions on Programming Language and Systems, 9(3):319-349, July 1987.
[5] Robert Cartwright and Matthias Felleisen. The semantics of program dependence. In Proceedings of the ACM SIGPLAN 89 Conference on Programming Language Design and Implementation, pages 13-27, 1989.
[6] Per Andersson. Modelling and implementation of a vision system for embedded systems, 2003.
[7] Florian Rohrbein, Julian Eggert, and Edgar K¨oerner. Prototypical relations for cortex-inspired semantic representations. In Proceedings of the 8th International Conference on Cognitive Modeling (ICCM), pages 307-312. Psychology Press, Taylor & Francis Group, 2007.
[8] Robert A. Ballance, Arthur B. Maccabe, and Karl J. Ottenstein. The program dependence web: A representation supporting control-, data-, and demand-driven interpretation of imperative languages. In Proceedings of the ACM SIGPLAN 90 Conference on Programming Language Design and Implementation, volume 25, pages 257-271, New York, NY, USA, 1990. ACM.
[9] Sven Rebhan, Florian Rohrbein, Julian Eggert, and Edgar Koerner. Attention modulation using short- and long-term knowledge. In A. Gasteratos, M. Vincze, and J.K. Tsotsos, editors, Proceeding of the 6th International Conference on Computer Vision Systems (ICVS), LNCS 5008, pages 151-160. Springer Verlag, 2008.
[10] Milan Sonka, Vaclav Hlavac, and Roger Boyle. Image Processing, Analysis, and Machine Vision. Thomson-Engineering, 2 edition, 1998.
[11] Daniel Weiler and Julian Eggert. Multi-dimensional histogram-based image segmentation. In Proceedings of the 14th International Conference on Neural Information Processing (ICONIP), pages 963-972, 2007.
[12] Clouard R., Elmoataz A., Porquet C. & Revenu M.: Borg: A Knowledge-Based System for Automatic Generation of Image Processing Programs. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1999. Vol. 21 (2).
[13] Shekhar C., Moisan S., Vincent R., Burlina P. & Chellappa R.: Knowledge-based control of vision systems. Image and Vision Computing. 1999. Vol. 17.
[14] Sridharan M., Wyatt J. & Dearden R.: HiPPo: Hierarchical POMDPs for Planning Information Processing and Sensing Actions on a Robot. In Proceedings of the International Conference on Automated Planning and Scheduling. 2008.
[15] Sridharan M., Dearden R. & Wyatt J.: E-HiPPo: Extensions to Hierarchical POMDP-based Visual Planning on a Robot. In the 27th PlanSIG Workshop. 2008.

Claims

視覚センサが検出した世界、物体及び当該物体の特性、当該世界における感覚事象、現在の視覚タスク、感覚コンテキスト、および知覚装置についての蓄積された知識を使用して、コンピュータビジョンシステムの情報処理を適応化および最適化する方法であって、
前記コンピュータビジョンシステムは関係記憶を有し、当該関係記憶は、ノードと当該ノード間の関係を示すリンクとを含むグラフにより表わされた情報を含み、前記ノードは、物体の一般的特性である物体特性、及び当該物体特性の情報取得に用いる視覚サブタスクの情報を表わし、前記リンクは前記ノード間の従属関係の情報を含み、前記物体特性を表わすノードには当該ノードの処理である当該物体特性の情報取得の方法を表わすルーチンが関連付けられ、前記視覚サブタスクを表わすノードには当該ノードの処理である当該視覚サブタスクの実行方法を表わすルーチンが関連付けられており、
前記コンピューティングシステムは、さらに、各ノードについて、当該ノードの処理の結果を表わすノード情報と、当該ノード情報の有効性すなわち更新の必要有無を表わすノード状態と、を記憶しており、
前記方法は、
ａ）対象物の物体特性を表すノードであって、所与の視覚タスクを実行するため当該物体特性の情報の取得を必要とするノードを特定するステップと、
ｂ）前記関係記憶に基づいて、前記特定された各ノードについて、当該特定されたノードと当該ノードの処理に必要な他のノードとを含むグラフを生成するステップであって、当該グラフは前記特定されたノードを初期ノードとして含み、前記初期ノードと前記他のノードとが、ノード間の従属性を表わすリンクにより接続されている、ステップと、
ｃ）ステップｂにおいて生成された前記グラフが表す情報フローに従い、物体特性の情報を得るためのルーチンを構成するステップと、
ｄ）ステップｃにおいて構成されたルーチンを実行し、前記特定されたノードが表す物体特性の情報を取得して、前記所与の視覚タスクを実行するステップと、
を有し、
前記ステップｂは、
ｂ１）前記特定されたノードを初期ノードとし、当該初期ノードに対し、当該初期ノードの処理に直接的な影響を与える他のノードを、前記関係記憶に記憶されている当該初期ノードに対する従属関係を表わすリンクを用いて付加して、前記グラフを生成するステップと、
ｂ２）前記付加したノードから、処理に用いるべき前記ノード情報を与えるノードを選択するステップと、
ｂ３）前記選択したノードから、ノード情報の更新が必要なノードを識別するステップと、
ｂ４）前記識別された更新が必要な各ノードに対し、当該ノードの処理に直接的な影響を与える他のノードを、前記関係記憶に記憶されているノード間の従属関係を表わすリンクを用いて付加するステップと、
ｂ５）ステップｂ２において付加すべきノードがなくなるか、又はステップｂ３においてノード情報の更新が必要なノードがなくなるまで、ステップｂ２〜ｂ４を繰り返すステップと、
を有し、
前記グラフが表す前記情報フローは、前記グラフ内の前記リンクが表す従属関係に従って前記初期ノードに向かう、当該グラフ内の前記選択された各ノードからのノード情報の流れであって、
前記特定されたノードが表す物体特性の情報を得るための前記ルーチンは、前記ノード情報の更新を要しないノードの当該ノード情報へのアクセス、及び又は前記ノード情報の更新を要するノードに関連付けられたルーチンの実行を、前記情報フローに従う順序で行うように構成される、
方法
前記世界は、音響センサ、触覚センサ、および／またはソフトウェアないしハードウェアインターフェースを介して受信された情報により検知される、請求項１に記載の方法。
前記方法は、さらに、記憶パラメータ、システムパラメータ、事象パラメータ、グラフパラメータ、および／またはセンサパラメータを適応させる、請求項１または２に記載の方法。
前記感覚事象の記憶が表現される、請求項１乃至３のいずれか１項に記載の方法。
現在の視覚的な感覚コンテキストの記憶は、前記感覚事象の接続グラフで表現される、請求項１乃至４のいずれか１項に記載の方法。
前記コンピュータビジョンシステムは、前記ステップｂ２において、リソース競合が回避されるように前記ノードを選択することにより、当該コンピュータビジョンシステムが備える処理リソースを柔軟に適応させる、請求項１乃至５のいずれか１項に記載の方法。
前記コンピュータビジョンシステムは、前記ステップｂにより生成された前記グラフが示すノード間の従属関係に基づいて前記関係記憶を改善する、請求項１乃至６のいずれか１項に記載の方法。
前記コンピュータビジョンシステムは、前記各視覚サブタスクについての、必要な視覚パラメータにアクセスする方法及び当該パラメータを計測する方法についての情報を含む視覚サブタスク情報を記憶し、
前記最適化は、前記ステップｂ２において、前記視覚サブタスク情報に加えて所与のタスク要件にも基づいて、前記ノードを選択することにより行われる、請求項１乃至７のいずれか１項に記載の方法。
前記最適化は、前記ステップｂ２において、タスク固有のゲインおよび／またはコスト要件に基づいて、前記ノードを選択することにより行われる、請求項１乃至８のいずれか１項に記載の方法。
前記最適化は、前記ステップｂ２において、期待される情報フローおよび現在の情報フローに関連する不確実性情報に基づいて、および／または、確率的手法を用いて、前記ノードを選択することにより行われる、請求項１乃至９のいずれか１項に記載の方法。
前記視覚サブタスク情報は、前記視覚サブタスクの実行中に収集された実行時の統計に基づいて漸進的に調節され、前記実行時の統計は、経過時間及び又は処理結果の精度を含むものである、請求項１乃至１０のいずれか１項に記載の方法。
前記リンクは、複数の従属関係タイプのうちの一の従属関係タイプを示すものとすることができ、複数の前記従属関係タイプが用いられることにより、前記情報フロー、及び、前記特定されたノードが表す物体特性についての情報取得のための前記ルーチンにおける前記アクセス及び又は前記実行の順序を、様々に変化させることを可能とし、
前記各ノードは、当該ノードの処理の結果の有効性を監視して、当該ノードについて保存された前記ノード状態を更新する、
請求項１乃至１１のいずれか１項に記載の方法。
前記リンクは、有向リンクであり、当該有向リンクの始点に接続された前記ノードの処理結果が、当該有向リンクの終点に接続された前記ノードの処理結果により、直接的に影響されることを示すものである、請求項１ないし１２のいずれか一項に記載の方法。
前記リンクが表す前記従属関係タイプの一つは、接続された２つのノードの処理に厳密な順序を課すものであって、一のノードの処理に他のノードの有効な結果を必要とすることを表わしている、請求項１乃至１３のいずれか１項に記載の方法。
前記リンクが表す前記従属関係タイプの一つは、接続された一のノードの処理が他のノードの処理結果を改善し得るものの、当該接続された一のノードの処理の実行は必ずしも必要となれないという、“選択的”な従属関係を示すものである、
請求項１乃至１４のいずれか１項に記載の方法。
前記リンクが表す前記従属関係タイプの一つは、一の共通するノードが複数の他のノードと接続されており、当該他のノードの少なくとも一つが有効な処理結果を持ったときに前記共通するノードの処理の実行が可能となることを表わすものである、
請求項１乃至１５のいずれか１項に記載の方法。
前記ノード状態により表わされる前記ノード情報の有効性は、前記ノードの処理の、計測の信頼性、取得されたデータの品質、または最後に計測してからの経過時間、によって決定される、請求項１乃至１６のいずれか１項に記載の方法。
前記コンピュータビジョンシステムは、前記各ノードについて、マークされたか否かの情報を記憶し、
前記ステップｂ２は、さらに、
ｂ２１）前記選択されたノードの中に、既にマークが付された第２のノードが含まれていれば、
前記リンクが表す従属関係に従い、当該マークが付されたノードに代えて、当該ノードと同時にグラフに追加された他のノードの中から、当該マークが付されたノードの代替となるノードを特定し、当該代替となるノードを選択するか、又は、
当該マークが付されたノードから前記初期ノードの方向へ前記リンクに沿って上流にあるノードの中から、同時に追加された代替となるノードを持つものを特定し、前記マークが付されたノードに代えて当該特定したノードの代替のノードを選択して、当該特定したノードと当該特定したノードより下流にある全てのノードとを削除する、ステップと、
ｂ２２）前記選択された各ノードにマークを付すステップと、
を有する、
請求項１ないし１７のいずれか一項に記載の方法。
前記ノード状態が表すノード情報の有効性は、さらに、前記リンクに沿って下流にあるノードのノード情報の有効性により定まり、前記ノード情報は、前記下流にある少なくとも一つのノードのノード情報が無効のとき、無効と決定される、請求項１８に記載の方法。
前記ステップｂ５の処理と、前記選択されたノードのノード情報へのアクセスとが、非同期に又は並行して実行される、請求項１乃至１９のいずれか１項に記載の方法。
前記ステップｂ５の処理と、前記選択されたノードに関連付けられたルーチンの実行とが、並行して実施される、請求項１乃至２０のいずれか１項に記載の方法。
請求項１乃至２１のいずれか１項に記載の方法を、コンピューティング・ユニットに実行させる、コンピュータプログラム。
請求項１乃至２１のいずれか１項に記載の方法を用いるコンピュータビジョンシステムであって、ロボット又は車両を含む、可動のプラットホームに接続されており、データが与えられたことに応じて実行される所与の視覚計算と、リソースに関し最適化された視覚演算とを用いるものであって、所定のタスクに関連する視覚的側面に選択的に集中して処理を行う、コンピュータビジョンシステム。
請求項２３に記載のコンピュータビジョンシステムを備える、車両またはロボット。