JP4565200B2

JP4565200B2 - 手動作分節方法および装置

Info

Publication number: JP4565200B2
Application number: JP27112299A
Authority: JP
Inventors: 雄二高田; 英明松尾; 誠二猪木; 山呂; 祐二長嶋
Original assignee: Panasonic Corp; National Institute of Information and Communications Technology; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; National Institute of Information and Communications Technology; Panasonic Holdings Corp
Priority date: 1998-09-28
Filing date: 1999-09-24
Publication date: 2010-10-20
Anticipated expiration: 2019-09-24
Also published as: JP2000172163A

Description

【０００１】
【発明の属する技術分野】
本発明は、手動作分節方法および装置に関し、より特定的には、手話等のための手動作を自動的に認識する際に、その手動作を単語単位に自動的に分節する方法および装置に関する。
【０００２】
【従来の技術】
近年、パーソナル・コンピュータは、面倒なキーボード操作を行わなくてもポインティングデバイス等を用いて簡単に入力が行えるようになり、専門家以外の利用者にも広く用いられるようになった。
そして、最近では、利用者の音声を自動的に認識する技術の開発に伴い、音声入力が可能なパーソナル・コンピュータや、音声で操作指示を行えるマイクロ・コンピュータを用いた家電製品なども登場している（以下、パーソナル・コンピュータや、マイクロ・コンピュータを用いた家電製品などを、コンピュータ装置と呼ぶことにする）。この技術がさらに進歩すれば、利用者は、コンピュータ装置の入力操作を、対人のコミュニケーションに近い態様で行えるようになる。また、手操作が困難な利用者が音声入力によって気軽にコンピュータ装置を使用できるようになる。
【０００３】
さて、人と人とのコミュニケーションでは、音声に加えて、手や頭の動き、顔の表情なども用いられる。コンピュータ装置が、こうした利用者の体の特定の部分の動きをも自動的に認識することができれば、利用者は、対人のコミュニケーションにさらに近い態様で入力操作を行えるようになる。また、音声操作が困難な利用者が手話入力によって気軽にコンピュータ装置を使用できるようになり、例えば、それを用いて手話を翻訳することも可能となる。
こうした要請に応えるべく、本出願人等によって、手話等のための手動作をはじめ、利用者の体の特定の部分の動きを認識するコンピュータ装置が開発されている。この従来のコンピュータ装置で行われる処理は、例えば手話のための手動作を認識しようとする場合、次のようなものである。
すなわち、最初、利用者を撮影して、その画像を記憶する。次に、画像のどの部分が手であるかを特定する。そして、手の動きを検出し、検出した手の動きに基づいて手話単語を判定する。判定は、手話の動作的特徴を記述した辞書を参照して行う。こうして、コンピュータ装置は、利用者の行う手話を”認識”する。
【０００４】
以下、上記の一連の処理のうち、手の動きに基づいて手話単語を判定する処理を、具体的に説明する。
一般に、手話単語は、いくつかの単位動作およびそれらの組み合わせによって表現される。ここで単位動作とは、上げる、下げる、曲げるなどの、分割可能な最小の動作をいう。各単位動作をＡ，Ｂ，Ｃ，…とすると、手話単語は、（Ａ），（Ｂ），（Ｃ），…，（Ａ，Ｂ），（Ａ，Ｃ），（Ｂ，Ｃ），…，（Ａ，Ｂ，Ｃ），…のように表現される。そして、これら手話単語を組み合わせることによって手話が行われる。
例えば、手話単語（Ａ）が「電源」、手話単語（Ｂ，Ｃ）が「切断する」を意味するとすると、手話単語（Ａ）および（Ｂ，Ｃ）を提示する、すなわち単位動作Ａ，ＢおよびＣを連続して行うことによって、「電源を切断する」意が表現される。
【０００５】
人と人との間で行う手話の場合、話し手が、手話単語（Ａ）および（Ｂ，Ｃ）を意図して、単位動作Ａ、ＢおよびＣを連続して行ったとすると、受け手は、その一連の単位動作を、通常、直感的に手話単語（Ａ）および（Ｂ，Ｃ）と認識できる。しかし、コンピュータ装置に対して手話入力をする場合、利用者が、手話単語（Ａ）および（Ｂ，Ｃ）を意図して単位動作Ａ、ＢおよびＣを連続して行っても、コンピュータ装置は、その一連の単位動作Ａ、ＢおよびＣを、手話単語（Ａ）および（Ｂ，Ｃ）であると認識することができない。
【０００６】
そこで、従来、利用者は、手話単語（Ａ）と手話単語（Ｂ，Ｃ）との間に、静止等の予め決められた動作（以下、分節動作ａ）を挿入するようにしていた。すなわち、「電源を切断する」と入力したい場合、利用者は、手話単語（Ａ）、分節動作ａおよび手話単語（Ｂ，Ｃ）を提示、つまり単位動作Ａ，分節動作ａ，および単位動作ＢおよびＣを連続して実行する。コンピュータ装置は、提示される一連の動作を検出して、分節動作ａを挟んでその前後で分節（セグメンテーション）し、手話単語（Ａ）と手話単語（Ｂ，Ｃ）とを得る。
【０００７】
【発明が解決しようとする課題】
上記のように、コンピュータ装置において行われる従来の動作認識方法では、利用者は、例えば、複数の単語からなる文章を、手話のための手動作によってコンピュータ装置に入力しようとする場合、ある単語と対応する手動作と次の単語と対応する手動作との間に分節動作を逐一挿入しつつ、入力を行わなければならなかった。なぜなら、従来の動作認識方法では、検出される動作を、単語単位に自動的に分節することができなかったからである。
【０００８】
なお、検出される一連の単位動作（動作コード列）を単語単位に分節する方法としては、例えば、文字コード列を単語単位に分節して文字に変換するワードプロセッサで行われるものと同様の処理を行うことが考えられる。
しかし、この場合、単語を登録した辞書を参照することによって、動作コード列中の分節位置を求めるので、分節位置が一義的に求まらないことがある。その場合、コンピュータ装置は、いくつかの分節位置に基づく選択肢を利用者に提示し、利用者が、提示された選択肢の中から、自らの意図するものを選ばねばならない。そのため、利用者は、入力に手間がかかり、入力速度も上がらない。
【０００９】
例えば、利用者が、手話単語（Ａ）および（Ｂ，Ｃ）を意図して単位動作Ａ、ＢおよびＣを連続して行ったとき、コンピュータ装置の辞書に手話単語（Ａ），（Ｂ），（Ｃ），…，（Ａ，Ｂ），（Ａ，Ｃ），（Ｂ，Ｃ），…，（Ａ，Ｂ，Ｃ），…が登録されているとすると、この辞書を参照して分節位置を求めたのでは、分節位置が１つに決まらない。そこで、コンピュータ装置は、可能ないくつかの位置で分節を行い、手話単語（Ａ）および（Ｂ，Ｃ）や、手話単語（Ａ，Ｂ）および（Ｃ）、手話単語（Ａ，Ｂ，Ｃ）などからなる選択肢を提示する。応じて、利用者は、提示された選択肢の中から、自らが意図するものを選び、それをコンピュータ装置に通知する。
つまり、こうした動作コード列に基づいて分節位置を求める方法では、検出される一連の動作を単語単位に自動的に分節することはできない。
【００１０】
それゆえに、本発明の目的は、利用者の手動作を認識する際に行われ、利用者側が分節位置を提示しなくても、検出される手動作を単語単位に自動的に分節することができるような手動作分節方法および装置を提供することである。
【００１１】
【課題を解決するための手段および発明の効果】
第１の発明は、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも１つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶する遷移動作記憶手段と撮影手段と画像記憶手段と抽出手段と検出手段と手動作分節手段とを備える手動作分節装置において、利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するために実行する手動作分節方法であって、撮影手段が、利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影ステップと、抽出手段が、画像記憶手段から画像データを取り出し、当該画像データから、遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する遷移動作抽出ステップと、検出手段が、遷移動作抽出ステップで抽出した画像データを相互に比較して、遷移動作の現れる身体部位の動きを検出し、動作コード化する遷移動作検出ステップと、手動作分節手段が、遷移動作記憶ステップで記憶した動作コードを遷移動作記憶手段から取り出し、当該動作コードと、遷移動作検出ステップで動作コード化した動作コードとを比較して、遷移動作が現れた時間位置を求め、当該時間位置に基づいて手動作を分節する分節位置を決定する手動作分節ステップとを含んでいる。
【００１２】
上記第１の発明によれば、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に現れる遷移動作に基づいて手動作を分節するので、利用者側が分節位置を提示しなくても、検出される手動作を単語単位または複数の単語からなる有意味単位に自動的に分節することができるようになる。
【００２２】
第２の発明は、第１の発明において、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段をさらに備え、手動作分節方法は、抽出手段が、画像記憶手段から画像データを取り出し、当該画像データから、非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する非遷移動作抽出ステップと、検出手段が、非遷移動作抽出ステップで抽出した画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化する非遷移動作検出ステップと、手動作分節手段が、非遷移動作記憶ステップで記憶した動作コードを非遷移動作記憶手段から取り出し、当該動作コードと、非遷移動作検出ステップで動作コード化した動作コードとを比較して、非遷移動作が現れた時間位置を求める非遷移動作分節ステップとをさらに含み、手動作分節ステップでは、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【００２３】
上記第２の発明によれば、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作が現れる時間位置では分節を行わないので、誤って単語を分節することがなくなり、分節処理の精度を高めることができる。
【００２７】
第３の発明は、第１の発明において、撮影ステップでは、当該利用者を立体的に撮影して、その３次元画像データを画像記憶手段に記憶し、抽出手段が、画像記憶手段から３次元画像データを取り出し、当該３次元画像データから、右手および左手と対応する３次元画像データを抽出する非遷移動作抽出ステップと、検出手段が、３次元画像データに基づいて、右手および左手の動きを示す３次元ベクトルを検出する非遷移動作検出ステップと、手動作分節手段が、３次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求める非遷移動作分節ステップとをさらに含み、手動作分節ステップでは、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【００２８】
第４の発明は、第３の発明において、非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴としている。
【００２９】
第５の発明は、第３の発明において、手動作分節装置はさらに、同一動作面テーブル作成手段と、３次元コード列変換手段とを備え、同一動作面テーブル作成手段が、それぞれ互いに異なる方向を持つ３次元ベクトルと対応する複数の３次元動作コードに関し、１つの面内に含まれるような３次元動作コードの組み合わせを記載した同一動作面テーブルを、予め作成するステップと、３次元コード列変換手段が、右手および左手の動きを、複数の３次元動作コードで表現された３次元動作コード列に変換するステップとをさらに含み、非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、３次元動作コード列と、同一動作面テーブルに基づいて検出することを特徴としている。
【００３４】
第６の発明は、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも１つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段を備えるコンピュータを、
利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、
前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、
前記抽出手段で抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、
前記遷移動作記憶手段から前記動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する手動作分節手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００３７】
第７の発明は、利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するための手動作分節装置であって、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも１つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段と、利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、画像記憶手段から画像データを取り出し、当該画像データから、遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、抽出手段で抽出した画像データを相互に比較して、遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、遷移動作記憶手段から動作コードを取り出し、当該動作コードと、検出手段で動作コード化した動作コードとを比較して、遷移動作が現れた時間位置を求め、当該時間位置に基づいて手動作を分節する手動作分節手段とを備えている。
【００３８】
第８の発明は、第７の発明において、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段をさらに備え、抽出手段は、さらに、画像記憶手段から画像データを取り出し、当該画像データから、非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出し、検出手段は、さらに、抽出手段で抽出した非遷移動作の現れる身体部位と対応する画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化し、手動作分節手段は、さらに、非遷移動作記憶手段から非遷移特徴データの動作コードを取り出し、当該動作コードと、検出手段で動作コード化した非遷移動作の現れる身体部位と対応する画像の動きを示す動作コードとを比較して、非遷移動作が現れた時間位置を求め、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【００３９】
第９の発明は、第７の発明において、撮影手段は、当該利用者を立体的に撮影して、その３次元画像データを画像記憶手段に記憶し、抽出手段は、さらに、画像記憶手段から３次元画像データを取り出し、当該３次元画像データから、非遷移動作の現れる右手および左手と対応する３次元画像データを抽出し、検出手段は、さらに、抽出手段で抽出した３次元画像データに基づいて、右手および左手の動きを示す３次元ベクトルを検出し、手動作分節手段は、さらに、３次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求め、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【００４０】
第１０の発明は、第９の発明において、手動作分節手段は、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴としている。
【００４１】
第１１の発明は、第９の発明において、手動作分節装置はさらに、それぞれ互いに異なる方向を持つ３次元ベクトルと対応する複数の３次元動作コードに関し、１つの面内に含まれるような３次元動作コードの組み合わせを記載した単一動作面テーブルを、予め作成する手段と、右手および左手の動きを、複数の３次元動作コードで表現された３次元動作コード列に変換する手段とをさらに備え、手動作分節手段は、右手の動作面および左手の動作面の変化を、同一動作面テーブルに基づいて検出することを特徴としている。
【００４５】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しながら説明する。
（第１の実施形態）
図１は、本発明の第１の実施形態に係る手動作分節方法を用いた手動作認識方法を示すフローチャート、図２は、図１の方法を実現するコンピュータ装置の構成の一例を示すブロック図である。
図２において、コンピュータ装置は、ＣＰＵ２０１と、ＲＡＭ２０２と、プログラム記憶部２０３と、入力部２０４と、出力部２０５と、撮像部２０６と、画像記憶部２０７と、手話用手動作記憶部２０８と、遷移動作記憶部２０９とを備えている。
【００４６】
図２のコンピュータ装置は、利用者が行う手話のための手動作を認識して所定の処理を実行する装置である。具体的には、例えば、所定のプログラムデータをインストールすると共に、テレビカメラを接続することによって、手話入力や手話の自動翻訳を実現する汎用的なパーソナル・コンピュータ・システムを想定している。あるいは、利用者の手動作に応じて電源のｏｎ／ｏｆｆや動作モードの切替などを行うマイクロ・コンピュータを備えた家電製品等であってもよい。
図１に示される手動作認識方法には、利用者の手動作を認識する際に、検出された手動作を単語単位または複数の単語からなる有意味単位に分節するための手動作分節処理が含まれる。
【００４７】
ここで、本願発明の理解を容易にする目的で、予めその概要を説明しておく。
従来の技術の項目において説明したように、手話では一般に、文章は、複数の手話単語を用いて表現される。そして、各手話単語は、それぞれ１以上の単位動作の組み合わせによって構成されている。一方、コンピュータ装置は、利用者の手動作を一連の単位動作として検出するので、コンピュータ装置に手動作を認識させるには、何らかの方法で、一連の単位動作を利用者の意図する単語単位に分節することが必要となる。
従来の分節方法では、利用者が、ある単語と対応する動作と次の単語と対応する動作との間に静止動作等を挿入し、コンピュータ装置は、静止動作等の検出を行うことによって、一連の単位動作を分節していた。つまり、利用者側が、意図的に分節位置を提示する必要があった。
【００４８】
一方、人同士が行う自然な手話では、各単語は、連続的に提示される。本願の発明者は、このような自然な手話において、手話者がある単語と対応する動作を終えてから次の単語と対応する動作を開始するまでの間に、利用者の体に無意識的にある特定の動きが現れることに着目した。例えば、瞬き、閉口、頷きなどである（以下では、こうした単語と単語の切れ目で利用者が無意識的に行う動作を、遷移動作と呼ぶ）。単語と単語の切れ目に挿入される自然な静止動作も、遷移動作に含まれる。これらの遷移動作は、一つの単語と対応する手動作の最中に行われることは少ない。そこで、本願の発明者は、遷移動作を、手動作の分節に利用することを発案した。
【００４９】
つまり、図１の方法では、コンピュータ装置は、利用者が行う手話のための手動作を検出する際に、それと平行して遷移動作の検出をも行う。そして、遷移動作が現れる時間位置を求めることによって、手動作（つまり一連の単位動作）を単語ないしは有意味単位に分節する。そのため、上記従来の分節方法と異なり、利用者は、意図的に分節位置を提示する必要がなくなる。
【００５０】
さて、図２において、プログラム記憶部２０３には、図１のフローチャートに示されるような処理を実現するためのプログラムデータが格納されている。ＣＰＵ２０１は、プログラム記憶部２０３に格納されたプログラムデータに従って、図１に示す処理を実行する。ＲＡＭ２０２は、ＣＰＵ２０１の処理に必要なデータ類や処理中に生じる作業データ等を記憶する。
【００５１】
入力部２０４は、キーボードやマウスを含み、オペレータの操作に応じて、各種指示やデータをＣＰＵ２０１に入力する。出力部２０５は、ディスプレイやスピーカを含み、ＣＰＵ２０１の処理結果等を、映像や音声などの形態で出力する。
【００５２】
撮像部２０６は、少なくとも１台のテレビカメラを含み、利用者の動作を撮像する。ここで、テレビカメラの台数は、利用者の動きを２次元的に捉える場合は１台でよいが、３次元的に捉える場合は２台必要となる。
画像記憶部２０７は、撮像部２０６の出力画像を複数フレーム分記憶する。手話用手動作記憶部２０８には、手話のための手動作の特徴を示す手話特徴データが格納されている。遷移動作記憶部２０９には、遷移動作の特徴を示す遷移特徴データが格納されている。
【００５３】
ここで、プログラム記憶部２０３へプログラムデータを格納する方法としては、次の３つの方法がある。第１は、プログラムデータを記録した記録媒体からそのプログラムデータを読み取って、プログラム記憶部２０３へ格納する方法である。第２は、通信回線を通じて伝送されてくるプログラムデータを受信して、プログラム記憶部２０３に格納する方法である。第３は、本コンピュータ装置の出荷時に、予めプログラム記憶部２０３へプログラムデータを格納しておく方法である。
なお、手話特徴データおよび遷移特徴データも、上記第１〜第３の方法と同様の方法により、それぞれ手話用手動作記憶部２０８、遷移動作記憶部２０９に格納することができる。
【００５４】
以下、上記のように構成されたコンピュータ装置の動作について、図１のフローチャートを用いて説明する。
まず、撮像部２０６によって、利用者の撮像が開始される（ステップＳ１０１）。撮像部２０６から出力される画像データは、所定のサンプリング周期（例えば３０分の１秒間隔）で画像記憶部２０７に格納される（ステップＳ１０２）。画像記憶部２０７に格納される画像データの各フレームには、時系列的に連続番号（フレーム番号）が付される。
【００５５】
次に、ＣＰＵ２０１は、ステップＳ１０２で画像記憶部２０７に格納された画像データの各フレームから、利用者の手に対応するデータを抽出する（ステップＳ１０３）。そして、ステップＳ１０３で抽出されたデータに基づいて、利用者の手の動きを検出する（ステップＳ１０４）。これらステップＳ１０３およびＳ１０４の詳細については、後述する。
【００５６】
次に、ＣＰＵ２０１は、ステップＳ１０２で画像記憶部２０７に格納された画像データから、利用者の体の特定の部位に対応するデータを抽出する（ステップＳ１０５）。ここで、特定の部位は、利用者の体のうち前述の遷移動作が現れる部位であり、例えば、目、口、顔（の輪郭）、胴体などである。ステップＳ１０５では、これら特定の部位のうち少なくとも１つの部位、好ましくは複数の部位について、各部位に対応するデータの抽出が行われる。以下の説明では、目、口、顔および胴体と対応するデータが抽出されるものとする。
【００５７】
次に、ＣＰＵ２０１は、ステップＳ１０５で抽出したデータに基づいて、上記各部位の動きを検出する（ステップＳ１０６）。なお、遷移動作は、目、口、顔および胴体だけでなく手にも現れるが、手の動きについては、ステップＳ１０４の検出結果を転用する。
【００５８】
ここで、上記ステップＳ１０３およびＳ１０５のデータ抽出処理、およびステップＳ１０４およびＳ１０６の動き検出処理について具体的に説明する。
ステップＳ１０３およびＳ１０５のデータ抽出処理は、例えば、次のようにして行われる。
最初、ＣＰＵ２０１は、画像記憶部２０７に格納された画像データを、利用者の体の各部位に対応付けられた複数の領域に分割する。ここでは、手を含む手領域、顔を含む顔領域、胴体を含む胴体領域の３つの領域に分割する。この領域分割は、例えば、次のようにして行う。
【００５９】
次に、利用者が、抽出したい部位の色を、入力部２０４を通じてＣＰＵ２０１に入力する。すなわち、ステップＳ１０３では、手の色（例えば肌色）が入力され、一方、ステップＳ１０５では、目の白目部分の色（例えば白色）、唇の色（例えば暗赤色）、顔の色（例えば肌色）、および衣服の色（例えば青）が入力される。
【００６０】
応じて、ＣＰＵ２０１は、各領域内の画像データを構成する複数の画素データについて、各画素データの示す色が、利用者によって指定された色と一致ないしは近接するか否かを判定し、判定結果が肯定である画素データだけを選択する。
すなわち、ステップＳ１０３では、手領域に属する画像データから肌色を示すデータだけが選択されるので、手と対応するデータを抽出することができる。
一方、ステップＳ１０５では、顔領域から白色を示すデータだけが選択されるので、目（白目部分）と対応するデータを抽出することができる。同様に、顔領域から暗赤色を示すデータだけが選択されので、口（唇部分）と対応するデータを抽出することができ、顔領域から肌色を示すデータだけが選択されので、顔と対応するデータを抽出することができ、胴体領域から青色を示すデータだけが選択されるので、胴体（衣服）と対応するデータを抽出することができる。
【００６１】
ステップＳ１０４の動き検出処理は、次のようにして行われる。
ＣＰＵ２０１は、ステップＳ１０３で各フレームから抽出されたデータを相互に比較することによって、各フレームにおける手の動きを検出する。そして、検出した動きを所定の手順でコード化する。
従って、ステップＳ１０４で検出された手の動きは、手に関して決められた複数の動作コードからなるコード列の形態を有する。この動作コード列は、ＲＡＭ２０２に一時記憶される。
【００６２】
ステップＳ１０６の動き検出処理は、次のようにして行われる。
ＣＰＵ２０１は、ステップＳ１０５で各フレームから抽出されたデータを相互に比較することによって、各フレームにおける目、口、顔および胴体の動きを検出する。そして、検出した動きを所定の手順でコード化する。
従って、ステップＳ１０６で検出された各部位（目、口、顔および胴体）の動きは、それら各部位に関して決められた複数の動作コードからなるコード列の形態を有する。これらの動作コード列は、ＲＡＭ２０２に一時記憶される。
【００６３】
再び図２に戻り、ステップＳ１０７以降の処理を説明する。
次に、ＣＰＵ２０１は、遷移動作記憶部２０９から遷移特徴データを読み出してきて、ステップＳ１０６で検出した各部位の動きと比較する。ここで、遷移特徴データは、上記ステップＳ１０４およびＳ１０６で利用者の体の各部位の動きを表現するのに用いられた複数の動作コードを用いて記述されている。そして、各部位（目、口、顔、手および胴体）の動きにおいて、遷移動作（瞬き動作、閉口動作、頷き動作、手静止および胴体静止）に一致ないしは近似している箇所があるか否かを判定する（ステップＳ１０７）。
具体的には、ＣＰＵ２０１は、ＲＡＭ２０２に記憶されている各部位の動作コード列を検索して、遷移特徴データの動作コードまたは動作コード列と一致する箇所があるか否かを判定する。
ステップＳ１０７の判定結果が否定である場合、ＣＰＵ２０１は、ステップＳ１０９に進む。
【００６４】
ステップＳ１０７の判定結果が肯定である場合、ＣＰＵ２０１は、ステップＳ１０４で検出した手動作を単語単位に分節するための分節位置を決定する（ステップＳ１０８）。この分節位置決定処理は、次のようにして行われる。
最初、ＣＰＵ２０１は、各部位の動きにおいて、遷移動作に一致ないしは近似している箇所を、分節位置の候補としてピックアップする。具体的には、ＲＡＭ２０２に記憶されている各部位の動作コード列を検索して、遷移特徴データの動作コードまたは動作コード列に一致ないしは類似する箇所を検出し、それら一致ないしは類似箇所の時間位置を、フレーム番号を用いて特定する。こうして特定された時間位置を、以下、分節位置候補と呼ぶことにする。
【００６５】
次に、ＣＰＵ２０１は、上記のようにして各部位毎にピックアックした分節位置候補を相互に比較して、その比較結果に基づいて、ステップＳ１０４で検出した手動作（一連の単位動作）における分節位置を決定する。
【００６６】
具体的には、瞬き動作の場合、例えば瞼が閉じた（すなわち白目領域が消失した）瞬間を分節位置候補とする。閉口動作の場合、例えば唇が閉じた瞬間を分節位置とする。頷き動作の場合、例えば顔の下端の動きが下向きから上向きに転じる瞬間（顎の先端が最下点に達した瞬間）を分節位置候補とする。手静止の場合、例えば手の動きが停止した瞬間を分節位置候補とする。胴体静止の場合、例えば胴体の動きが停止した瞬間を分節位置候補とする。
こうしてピックアップされた各部位毎の分節位置候補を相互に比較して、例えば２以上の部位において、ピックアップされた分節位置候補が互いに一致ないしは予め決められた間隔よりも近接している場合、その位置を、分節位置に決定する。より正確には、２以上の部位の分節位置候補が互いに一致した場合は、その一致した位置を分節位置とする。２以上の部位の分節位置候補が互いに近接している場合は、それら近接する２以上の位置の平均位置を分節位置とする（または、近接する２以上の位置のいずれか１つを分節位置としてもよい）。
【００６７】
ステップＳ１０９では、ステップＳ１０８で決定された分節位置を参照して、ステップＳ１０４で検出された手動作を翻訳する処理が行われる。
すなわち、ＣＰＵ２０１は、ステップＳ１０４で検出した手動作を、ステップＳ１０８で決定した分節位置で分節し、それによって得られた各手話単語を、手話用手動作記憶部２０８に格納されている手話特徴データと比較しつつ翻訳する。ここで、手話特徴データは、上記ステップＳ１０４で手動作を表現するのに用いられた複数の動作コードを用いて記述されている。
その後、動作を終了するか否かが判断され（ステップＳ１１０）、判断結果が否定であればステップＳ１０１に戻って上記と同様の処理が繰り返され、肯定であれば、処理が終了される。
【００６８】
以上のように、本実施形態によれば、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に現れる遷移動作に基づいて手動作を分節するので、利用者側が意図的に分節位置を提示しなくても、コンピュータ装置は、検出される手動作を単語単位または複数の単語からなる有意味単位に自動的に分節することができるようになる。
【００６９】
なお、第１の実施形態では、画像データを、そこから利用者の体の各部位と対応するデータを抽出する処理に関連して、手を含む手領域、顔を含む顔領域、胴体を含む胴体領域の３つの領域に分割したが、代わりに、それら３つの領域にさらに死手領域を加えた４つの領域に分割してもよい。ここで、死手領域とは、利用者が腕を下ろした状態で手がその領域内にあるような、出力部２０５の画面の底辺近縁に相当する領域である。
この場合、手が死手領域内に存在する期間は利用者が手話を行っていないと判断され、手が死手領域外に出た瞬間が手動作開始と判断される。これによって、コンピュータ装置は、利用者が手動作を開始したことを明確に認識できるようになる。さらには、死手領域への手の出入を検出するようにして、それを遷移動作として分節に利用してもよい。
【００７０】
また、第１の実施形態では、分節位置を決定するための遷移動作として、瞬き動作、閉口動作、頷き動作、手静止および胴体静止（の少なくとも１つ）を検出したが、遷移動作は、これらの動作に限らない。例えば、手と顔との接触動作を遷移動作に加えてもよい。なぜなら、手話では、互いに離れていた手と顔とを接触させたり、互いに接触していた手と顔とを離したりする動作は、単語の先頭や末尾で行われることが多いからである。
【００７１】
また、第１の実施形態において、分節位置を決定する際に、遷移動作の継続時間を考慮するようにしてもよい。例えば、手静止の継続時間を計測して、予め決められたしきい値と比較する。そして、継続時間がしきい値よりも長ければ、その手静止を遷移動作と判断して分節位置の決定に利用し、継続時間がしきい値よりも短ければ、その手静止を遷移動作でないと判断して無視する。これによって、分節処理の精度を高めることができる。
【００７２】
また、第１の実施形態において、遷移動作に加え、非遷移動作をもさらに記憶しておき、それら遷移動作および非遷移動作に基づいて分節位置を決定してもよい。ここで、非遷移動作とは、一つの単語と対応する手動作を行っている最中に行われ、かつ、ある単語から次の単語へと移行する際には行われることがまれであるような動作である。例えば、両手を互いに接近させる動作、口形を変化させる動作などである。
【００７３】
具体的には、図２のコンピュータ装置に非遷移動作記憶部（図示せず）をさらに設け、そこに非遷移動作の特徴を示す非遷移特徴データを格納しておく。その上で、図１のステップＳ１０６において、遷移動作に加え、非遷移動作をも検出する。非遷移動作の検出は、遷移動作の検出と同様にして行える。そして、ステップＳ１０８において、ステップＳ１０６で検出した遷移動作および非遷移動作に基づいて、手動作の分節を行う。
【００７４】
すなわち、第１の実施形態では、ピックアップされた各部位毎の分節位置候補を相互に比較して、例えば２以上の部位において、ピックアップされた分節位置候補が互いに一致ないしは予め決められた間隔よりも近接している場合、それら分節位置候補に基づいて分節位置を決定した（具体的には、一致した位置、ないしは近接する２以上の位置の平均値を分節位置に決定した）。これに対し、非遷移動作をも考慮する場合、たとえ２以上の部位において、ピックアップされた分節位置候補が互いに一致ないしは予め決められた間隔よりも近接しても、同時に非遷移動作が検出されていれば、それら分節位置候補に基づいて分節位置を決定することはしない。つまり、非遷移動作が行われている期間は、たとえ遷移動作が検出されても、分節が実行されないことになる。これにより、分節処理の精度を高めることができる。
【００７５】
また、第１の実施形態において、コンピュータ装置が遷移動作の検出を正確に行えるようにするために、出力部２０５の画面を通じ、正しい（つまりコンピュータ装置が認識しやすいような）遷移動作を行わせるよう利用者を誘導するためのアニメーション画像を提示するようにしてもよい。
【００７６】
具体的には、図２のコンピュータ装置において、各遷移動作を示すアニメーションの画像データを、図示しないアニメーション記憶部に予め記憶しておく。そして、遷移動作の検出状況（例えば特定の遷移動作の検出頻度が著しく低いことなど）と、手動作の認識状況（検出した遷移動作に基づいて手動作を分節したときに、その手動作を認識できたか否か）とに基づいて、どの遷移動作を利用者に提示すべきかをＣＰＵ２０１が判断し、その遷移動作を示すアニメーションの画像データをアニメーション記憶部から読み出して出力部２０５へと与える。こうして、出力部２０５の画面上には、遷移動作を示すアニメーションが表示され、利用者は、表示されたアニメーションを参照ながら、遷移動作を矯正する。
【００７７】
（第２の実施形態）
図３は、本発明の第２の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
図３において、手話動作セグメンテーション装置は、画像入力部３０１、身体特徴抽出部３０２、特徴運動追跡部３０３、セグメント位置判定部３０４およびセグメント要素記憶部３０５を備えている。
【００７８】
手話動作セグメンテーション装置は、例えば手話認識装置（図示せず）に設けられる。そのほか、家電製品や駅の券売機等のようなコンピュータ装置にも設けられる。
画像入力部３０１へは、テレビカメラ等の画像入力装置を通じて取り込まれた画像が与えられる。ここでは、特に断らない限り、手話者の動作を２次元的に捉えるので、画像入力装置は１台でよい。
【００７９】
画像入力部３０１は、手話者の身体画像を入力する。画像入力部３０１から入力された画像（以下、入力画像）は、フレーム毎に番号を付与され、身体特徴抽出部３０２に送られる。セグメント要素記憶部３０５には、予め、分節を行うための要素（以下、セグメント要素）として、身体特徴と動き特徴とが記憶されている。
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴と対応する画像を抽出する。特徴運動追跡部３０３は、抽出された画像に基づいて、身体特徴の動きを計算し、その計算結果を示す動き情報を、セグメント位置判定部３０４に送る。
セグメント位置判定部３０４は、送られてきた動き情報と、セグメント要素記憶部３０５に記憶されている動き特徴とに基づいて、セグメント位置を判定し、そのセグメント位置を示すフレーム番号を出力する。
【００８０】
ここで、画像入力部３０１、身体特徴抽出部３０２、特徴運動追跡部３０３およびセグメント位置判定部３０４は、１台もしくは複数台のコンピュータによって実現可能である。セグメント要素記憶部３０５は、コンピュータに接続されるハードディスクやＣＤ−ＲＯＭ、ＤＶＤ等の記録装置によって実現可能である。
【００８１】
以下、上記のように構成された手話動作セグメンテーション装置の処理手順について説明する。
図４は、図３の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
図４の各ステップでは、それぞれ以下のような処理が行われる。
【００８２】
［ステップＳ４０１］
画像入力部３０１への入力画像があれば、画像入力部３０１は、１フレーム分の入力画像を取り込む。そして、フレーム番号ｉに「１」が加えられ、その後、入力画像は、身体特徴抽出部３０２に送られる。その後、手話動作セグメンテーション装置は、ステップＳ４０２に進む。
入力画像がない場合、フレーム番号ｉに「０」が加えられ、次いで、判定コード番号ｊに「１」が加えられる。その後、手話動作セグメンテーション装置では、ステップＳ４０１が繰り返される。
【００８３】
［ステップＳ４０２］
身体特徴抽出部３０２は、手話者の身体に応じて空間領域を分割する。空間領域の分割は、例えば「動作開始位置検出方法」（特開平９−４４６６８号公報）に記述されている方法と同様の方法によって行う。
すなわち、身体特徴抽出部３０２は、最初、画像データにおいて、背景と人物との色の違い等に基づいて人物領域を検出し、次に、検出した人物領域の輪郭線に沿って、手話者を取り巻く空間領域を分割する。そして、分割して得られる領域毎に、領域コードを設定する。
図５は、身体特徴抽出部３０２が設定する領域コードの一例を示す図である。
図５において、入力画像５０１（空間領域）は、人物領域の輪郭線５０２、頭部外接矩形５０３、首ライン５０４、胴体左ライン５０５、胴体右ライン５０６、および死手決定ライン５０７によって分割される。
【００８４】
具体的には、身体特徴抽出部３０２は、最初、人物領域の輪郭線５０２から首の位置を検出し、この首の高さにおいて、Ｘ軸に平行に首ライン５０４をひく。
次に、画面下端から、首ライン５０４の高さに死手決定比率をかけた高さの位置に、Ｘ軸に水平に死手決定ライン５０７をひく。ここで、死手決定比率は、手の有効性を確定するためのパラメータであって、死手決定ライン５０７より下に手が入った場合、たとえ手動作が行われていても、その手動作は無効、つまり手が使われていないのと同様であると判断される。本実施形態では、死手決定比率は、およそ１／５に設定される。
【００８５】
次に、上記のようにして分割して得られる各領域に、領域コードが設定される。図中の丸内の数字が、領域コードである。本実施形態では、領域コードは、例えば図５に示されるように設定される。すなわち、頭部外接矩形５０３の外側にあってかつ首ライン５０４より上の領域が▲１▼、頭部外接矩形５０３の内側の領域が▲２▼、首ライン５０４と死手決定ライン５０７との間にあってかつ胴体左ライン５０５の左の領域が▲３▼、首ライン５０４と死手決定ライン５０７との間にあってかつ胴体左ライン５０５と胴体右ライン５０６との間に挟まれた領域が▲４▼、首ライン５０４と死手決定ライン５０７との間にあってかつ胴体右ライン５０６の右の領域が▲５▼、そして、死手決定ライン５０７の下の領域が▲６▼のように設定される。
その後、手話動作セグメンテーション装置は、ステップＳ４０３に進む。
【００８６】
［ステップＳ４０３］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴と対応する画像を抽出する。こうして抽出された画像を、以下、抽出身体特徴と呼ぶ。
図６は、セグメント要素記憶部３０５に記憶されるセグメント要素データの一例を示す図である。
図６において、セグメント要素データは、身体特徴６０１と、動き特徴６０２とを含む。身体特徴６０１には、１以上の身体特徴、ここでは、顔領域と、目と、口と、手領域および胴体と、手領域および顔領域と、手領域とがセットされる。
【００８７】
一方、動き特徴６０２には、身体特徴６０１にセットされた各身体特徴と対応する動き特徴がセットされる。すなわち、顔領域と対応して頷き頂点がセットされ、目と対応して瞬きがセットされ、口と対応して口形変化がセットされ、手領域および胴体と対応して動作静止がセットされ、手領域および顔領域と対応して手顔接触がセットされ、手領域と対応して手有効性変化点がセットされる。
身体特徴抽出部３０２は、身体特徴６０１にセットされた身体特徴を、抽出身体特徴として検出する。例えば、身体特徴６０１に「顔領域」がセットされている場合、身体特徴抽出部３０２は、抽出身体特徴として顔領域を抽出する。
【００８８】
ここで、顔領域の抽出方法について説明する。
身体特徴抽出部３０２は、最初、入力画像から、ＲＧＢ色情報を元に、肌色領域を抽出する。次に、抽出した肌色領域のうち、ステップＳ４０２で分割して得られた、領域コードが▲２▼である領域（頭部領域）と重なる部分を取り出し、それを顔領域とする。
【００８９】
図７は、身体特徴抽出部３０２によって抽出された肌色領域の一例を示す図である。
図７に示すように、肌色領域には、顔の肌色領域７０２および手の肌色領域７０３がある。そのため、単にＲＧＢ色情報に基づいて肌色領域を抽出したのでは、顔の肌色領域７０２および手の肌色領域７０３が抽出され、両者の区別が付かない。そこで、図５に示すように、予め入力画像を領域▲１▼〜▲６▼に分割しておき、抽出された肌色領域のうち、頭部領域７０１（図５の領域▲２▼）と重なる部分だけを取り出す。それによって、顔の肌色領域７０２が得られる。
【００９０】
次に、身体特徴抽出部３０２は、顔領域情報を生成する。すなわち、抽出した顔領域に関し、その重心、面積、Ｘ軸方向最大長およびＹ軸方向最大長を、ｉ番目の顔領域情報ｆａｃｅ［ｉ］にセットする。
図８は、身体特徴抽出部３０２が生成する顔領域情報の一例を示す図である。
図８において、顔領域情報には、顔領域の重心座標８０１、顔領域の面積８０２、顔領域のＸ軸方向最大長８０３、および顔領域のＹ軸方向最大長８０４が含まれる。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【００９１】
［ステップＳ４０４］
フレーム番号ｉが１の場合、手話動作セグメンテーション装置は、ステップＳ４０１に進む。一方、フレーム番号ｉが１でない場合、ステップＳ４０５に進む。
【００９２】
［ステップＳ４０５］
特徴運動追跡部３０３は、＜式１＞を用いて、ｉ番目の顔領域情報ｆａｃｅ［ｉ］と、ｉ−１番目の顔領域情報ｆａｃｅ［ｉ−１］とから、顔領域の特徴運動コードを求める。また、ｉ番目の顔領域情報ｆａｃｅ［ｉ］の重心ｇ＿ｆａｃｅ［ｉ］と、ｉ−１番目の顔領域情報ｆａｃｅ［ｉ−１］の重心ｇ＿ｆａｃｅ［ｉ−１］とから、ｉ番目の顔領域の顔運動方向ベクトルＶ＿ｆａｃｅ［ｉ］を求める。
【数１】

【００９３】
次に、特徴運動追跡部３０３は、ｉ番目の顔運動方向ベクトルＶ＿ｆａｃｅ［ｉ］から、特徴運動コードを決定する
図９は、特徴運動追跡部３０３が特徴運動コードを決定するための、顔による特徴運動決定条件を示す図である。
図９において、顔による特徴運動決定条件は、運動コード９０１と、条件９０２とを含む。運動コード９０１には、番号「１」〜「８」がセットされ、条件９０２には、運動コード９０１にセットされた各番号と対応して、各々、顔による特徴運動決定条件がセットされる。
つまり、特徴運動追跡部３０３は、ｉ番目の顔運動方向ベクトルＶ＿ｆａｃｅ［ｉ］を、図９の条件９０２と比較して、ｉ番目の顔運動方向ベクトルＶ＿ｆａｃｅ［ｉ］と一致するような顔による特徴運動決定条件を選択する。そして、図９の運動コード９０１のうち、選択した顔による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【００９４】
［ステップＳ４０６］
セグメント位置判定部３０４は、特徴運動コードを、セグメント要素記憶部３０５に記憶されているセグメント要素データ（図６参照）と比較して、特徴運動コードが、動き特徴６０２と一致するかどうかをチェックする。動き特徴６０２には、セグメント確定のための動き特徴（動き特徴）を示すパラメータ（動き特徴パラメータ）がセットされている。
【００９５】
図１０は、動き特徴６０２にセットされる動き特徴パラメータの一例を示す図である。
図１０において、動き特徴パラメータには、動き特徴１００１、判定コード１００２、時間１００３およびセグメント位置１００４が含まれる。動き特徴１００１は、動き特徴の種別を示す。判定コード１００２は、動き特徴を判定する条件となるコード列である。時間１００３は、動き特徴を判定する条件となる時間である。セグメント位置１００４は、動き特徴におけるセグメント位置を示す。
【００９６】
判定コード１００２に含まれるコード列では、各コードは、図９の運動コード９０１（特徴運動コード）と同様の番号「１」〜「８」と、動作静止を示す番号「０」とを用いて表現され、コードとコードの間が”−”で結ばれている。
そして、ステップＳ４０５で決定された特徴運動コードと、例えば「１−０−２」が一致するか否かは、「１」の次に「０」、「２」という順番でコードが続くか否かで判定され、その順番でコードが続いた場合に、一致と判定される。
【００９７】
なお、（）内のコードについては、それがなくても一致するとみなされる。例えば、「７−（０）−３」は、コード「７」の次に「０」、「３」と続いた場合も、コード「７」の次に「３」と続いた場合も、条件一致とみなされる。
また、”／”を間に挟んだコードは、どちらのコードでもよいことを示す”／”は図示していない。例えば、「０／３」となっている場合、「０」でも「３」でも条件一致とみなされる。
一方、”＊”は、どのコードでもよいことを表す。
【００９８】
頷き運動を検出する場合、図６の身体特徴６０１は「顔領域」であり、動き特徴６０２として「頷き頂点」がセットされている。このとき、セグメント位置判定部３０４は、ステップＳ４０５で決定された顔の特徴運動コードが、図１０の「頷き頂点」と対応するコード列「７−（０）−３」と一致するかどうかを判定する。
手話動作セグメンテーション装置は、ｊが１であるか否かを判定し、ｊ＝１の場合、ステップＳ４０７に進む。
ｊ＞１の場合、ステップＳ４０９に進む。
【００９９】
［ステップＳ４０７］
手話動作セグメンテーション装置は、特徴運動コードが判定コード１００２の最初のコードと一致しているか否かを判定し、一致している場合、ステップＳ４０８に進む。一致していない場合、Ｓ４０１に進む。
【０１００】
［ステップＳ４０８］
セグメント位置判定部３０４は、判定コードデータを作成する。すなわち、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード番号に、特徴運動コードをセットし、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード開始フレーム番号に、ｉをセットする。
図１１は、セグメント位置判定部３０４が作成する判定コードデータの一例を示す図である。
図１１において、判定コードデータには、コード番号１１０１、コード開始フレーム番号１１０２、およびコード終了フレーム番号１１０３が含まれる。
【０１０１】
例えば、図１０の例の場合、特徴運動コードが「７」であれば、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード番号に「７」をセットし、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード開始フレーム番号にｉをセットする。
その後、ｊに２がセットされ、手話動作セグメンテーション装置は、ステップＳ４０１に進む。
【０１０２】
［ステップＳ４０９］
特徴運動コードがｊ−１番目の判定コードデータＣｏｄｅ#ｄａｔａ［ｊ−１］のコード番号と一致しているか否かが判断され、一致している場合、手話動作セグメンテーション装置は、ステップＳ４０１に進む。
特徴運動コードがｊ−１番目の判定コードデータＣｏｄｅ#ｄａｔａ［ｊ−１］のコード番号と一致していない場合、ステップＳ４１０に進む。
【０１０３】
［ステップＳ４１０］
セグメント位置判定部３０４は、ｊ−１番目の判定コードデータＣｏｄｅ#ｄａｔａ［ｊ−１］のコード終了フレーム番号に、ｉ−１をセットする。その後、手話動作セグメンテーション装置は、ステップＳ４１１に進む。
【０１０４】
［ステップＳ４１１］
判定コード１００２のコード数がｊ個以上であるか否かが判定され、ｊ個以上の場合、手話動作セグメンテーション装置は、ステップＳ４１２に進む。
判定コード１００２のコード数がｊ−１個の場合、ステップＳ４１７に進む。
【０１０５】
［ステップＳ４１２］
判定コード１００２のｊ番目のコードと特徴運動コードとが一致しているか否かが判定され、一致していない場合、手話動作セグメンテーション装置は、ステップＳ４１３に進む。
一致している場合、ステップＳ４１６に進む。
【０１０６】
［ステップＳ４１３］
判定コード１００２のｊ番目のコードが（）付であるか否かが判定され、（）付である場合、手話動作セグメンテーション装置は、ステップＳ４１４に進む。
（）付でない場合、ステップＳ４１５に進む。
【０１０７】
［ステップＳ４１４］
判定コード１００２のｊ＋１番目のコードと特徴運動コードとが一致しているか否かが判定され、一致していない場合、手話動作セグメンテーション装置は、ステップＳ４１５に進む。
一致している場合、ｊに１が加えられ、その後、ステップＳ４１６に進む。
【０１０８】
［ステップＳ４１５］
ｊに１がセットされ、その後、手話動作セグメンテーション装置は、ステップＳ４０１に進む。
【０１０９】
［ステップＳ４１６］
ｊ番目の判定コードデータＣｏｄｅ#ｄａｔａ［ｊ］のコード番号に、特徴運動コードがセットされる。また、ｊ番目の判定コードデータＣｏｄｅ#ｄａｔａ［ｊ］のコード開始フレーム番号に、ｉがセットされる。そして、ｊに１が加えられる。その後、手話動作セグメンテーション装置は、ステップＳ４０１に進む。
【０１１０】
［ステップＳ４１７］
セグメント位置判定部３０４は、動き特徴１００１およびセグメント位置１００４（図１０参照）に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「頷き頂点」の場合、「頷き頂点」と対応するセグメント位置は、Ｙ座標最下点であり、セグメント位置判定部３０４は、Ｙ座標最下点と対応するフレーム番号を求める。
すなわち、１番目の判定コードデータＣｏｄｅ#ｄａｔａ［１］のコード開始フレーム番号から、ｊ−１番目の判定コードデータＣｏｄｅ#ｄａｔａ［ｊ−１］のコード終了フレーム番号までに該当する各フレームについて、顔領域の重心のＹ座標を相互に比較する。そして、Ｙ座標が最小となる（つまり顔領域の重心が最下点にくる）ようなフレームのフレーム番号を、動き特徴におけるセグメント位置とする。
なお、Ｙ座標最下点に該当するフレーム番号が複数出てきた場合は、最初の（番号が最も若い）フレーム番号を、セグメント位置とする。
その後、手話動作セグメンテーション装置は、ステップＳ４１８に進む。
【０１１１】
［ステップＳ４１８］
手話動作セグメンテーション装置は、セグメント位置を出力する。その後、ステップＳ４０１に戻り、上記と同様の処理を繰り返す。
以上の手順により、頷き運動の検出による手話動作セグメンテーション方法が実現できる。
【０１１２】
次に、瞬き運動の検出による手話動作セグメンテーション方法について説明する。
瞬き運動の検出による手話動作セグメンテーション方法では、前述の頷き運動の検出による手話動作セグメンテーション方法（図４参照）において、ステップＳ４０３の処理を、次のように変更する。
［ステップＳ４０３ａ］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴６０１（図６参照）と対応する画像を抽出する。
瞬き運動を検出する場合、身体特徴６０１に「目」が設定され、身体特徴抽出部３０２は、抽出身体特徴として目を抽出する。
【０１１３】
ここで、目の抽出方法について説明する。
最初、上記ステップＳ４０３と同様の方法で、顔領域を抽出する。次に、抽出された顔領域から、以下のようにして、目を抽出する。
図１２は、身体特徴抽出部３０２によって抽出された顔領域の一例を示す図である。
図１２において、抽出された顔領域１２０１には、眉毛による穴領域１２０２、目による穴領域１２０３、および口による穴領域１２０４が存在する（網掛けした部分が肌色領域）。
【０１１４】
図中、参照番号１２０５で示される直線は、顔上下分割ラインである。顔上下分割ライン１２０５は、抽出された顔領域１２０１を上下に分割するラインである。
最初、この顔上下分割ライン１２０５が、顔の上端から顔の下端の間の、顔上下分割比率で指定される位置にひかれる。ここで、顔上下分割比率は、パラメータであり、目の穴領域１２０３が顔上下分割ライン１２０５の上側の領域に入るように設定される。本実施形態では、例えば、顔上下分割比率を「１／２」に設定する。
【０１１５】
次に、顔上下分割ライン１２０５より上側の顔領域中の穴領域を検出する。
検出された穴領域が２つの場合、それらの穴領域を眉毛と判定し、目は閉じられていると判定する。
検出された穴領域が３つの場合、片目が閉じられていると判定し、３つの穴領域のうち下にある１つを目と判定する。
検出された穴領域が４つの場合、両目が開かれていると判定し、４つの穴領域のうち下にある２つを目と判定する。
図１２の例の場合、穴領域が４つあるため、下の２つの穴領域が、目による穴領域１２０３とわかる。
【０１１６】
次に、身体特徴抽出部３０２は、目領域情報を生成する。すなわち、抽出した目の数と、目の面積とを、ｉ番目の目領域情報ｅｙｅ［ｉ］にセットする。
図１３は、身体特徴抽出部３０２によって生成される目領域情報の一例を示す図である。
図１３において、目領域情報は、目の数１３０１、１つめの（目の）面積１３０２、および２つめの面積１３０３を含む。
身体特徴抽出部３０２は、最初、抽出した目の数を、目の数１３０１にセットする。そして、抽出した目の数に応じ、次のようにして目の面積をセットする。
【０１１７】
抽出した目の数が０の場合、１つめの面積１３０２、および２つめの面積１３０３にそれぞれ０をセットする。
抽出した目の数が１の場合、目（目による穴領域１２０３）の面積を計算して、１つめの面積１３０２にセットする。２つめの面積１３０３には、０をセットする。
抽出した目の数が２の場合、２つの目の面積を各々計算して、１つめの面積１３０２には、左目（目による穴領域１２０３の左側の方）の面積をセットし、２つめの面積１３０３には、右目の面積をセットする。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１１８】
瞬き運動の検出による手話動作セグメンテーション方法では、上記のステップＳ４０５の処理を、次のように変更する。
［ステップＳ４０５ａ］
特徴運動追跡部３０３は、＜式２＞を用いて、ｉ番目の目領域情報ｅｙｅ［ｉ］と、ｉ−１番目の目領域情報ｅｙｅ［ｉ−１］とから、目の特徴運動コードを求める。また、ｉ番目の目領域情報ｅｙｅ［ｉ］の１つめの面積ｓ１＿ｅｙｅ［ｉ］と、ｉ−１番目の目領域情報ｅｙｅ［ｉ−１］の１つめの面積ｓ１＿ｅｙｅ［ｉ−１］とから、ｉ番目の目の１つめの目の目領域面積変化ｄ１＿ｅｙｅ［ｉ］を求める。また、ｉ番目の目領域情報ｅｙｅ［ｉ］の２つめの面積ｓ２＿ｅｙｅ［ｉ］と、ｉ−１番目の目領域情報ｅｙｅ［ｉ−１］の２つめの面積ｓ２＿ｅｙｅ［ｉ−１］とから、ｉ番目の目の２つめ目領域面積変化ｄ２＿ｅｙｅ［ｉ］を求める。
【数２】

【０１１９】
図１４は、特徴運動追跡部３０３が特徴運動コードを決定するための、目による特徴運動決定条件を示す図である。
図１４において、目による特徴運動決定条件は、運動コード１４０１と、条件１４０２とを含む。運動コード１４０１には、番号「０」〜「６」がセットされ、条件１４０２には、運動コード１４０１にセットされた各番号と対応して、各々、目による特徴運動決定条件がセットされる。
条件１４０２中のαは、目が閉じているかどうかを判定する目面積閾値であり、例えば「１」がセットされる。βは、目の大きさが変化しているかどうかを判定する目大きさ変化閾値であり、例えば「５」がセットされる。
【０１２０】
つまり、特徴運動追跡部３０３は、ｉ番目の目領域情報ｅｙｅ［ｉ］、ｉ番目の１つめの目領域面積変化ｄ１＿ｅｙｅ［ｉ］、および２つめの目領域面積変化ｄ２＿ｅｙｅ［ｉ］を、図１４の条件１４０２と比較して、ｉ番目の目領域情報ｅｙｅ［ｉ］、ｉ番目の１つめの目領域面積変化ｄ１＿ｅｙｅ［ｉ］、および２つめの目領域面積変化ｄ２＿ｅｙｅ［ｉ］と一致するような目による特徴運動決定条件を選択する。そして、図１４の運動コード１４０１のうち、選択した目による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、目が両方閉じている場合、ｓ１＿ｅｙｅ［ｉ］≦α、ｓ２＿ｅｙｅ［ｉ］≦αとなり、このとき、特徴運動コードは、０となる。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１２１】
瞬き運動の検出による手話動作セグメンテーション方法では、上記ステップＳ４１７の処理を、次のように変更する。
［ステップＳ４１７ａ］
セグメント位置判定部３０４は、動き特徴１００１およびセグメント位置１００４（図１０参照）に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「瞬き」の場合、「瞬き」と対応するセグメント位置は、目領域消失点であり、セグメント位置判定部３０４は、目領域消失点と対応するフレーム番号を求める。
すなわち、２番目の判定コードデータＣｏｄｅ#ｄａｔａ［２］のコード開始フレーム番号を、セグメント位置とする。
その後、手話動作セグメンテーション装置は、ステップＳ４１８に進む。
以上の手順により、瞬き運動の検出による手話動作セグメンテーション方法が実現できる。
【０１２２】
次に、口形変化（閉口）の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き運動の検出による手話動作セグメンテーション方法（図４参照）において、ステップＳ４０３の処理を、次のように変更する。
［ステップＳ４０３ｂ］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴６０１（図６参照）と対応する画像を抽出する。
口形変化（閉口）を検出する場合、身体特徴６０１に「口」が設定され、身体特徴抽出部３０２は、抽出身体特徴として口を抽出する。
【０１２３】
ここで、口の抽出方法について説明する。
最初、上記ステップＳ４０３と同様の方法で、顔領域を抽出する。次に、抽出された顔領域から、以下のようにして、口を抽出する。
図１２において、最初、ステップＳ４０３と同様にして、顔上下分割ライン１２０５がひかれる。次に、顔上下分割ライン１２０５より下側の顔領域中の穴領域を検出する。
【０１２４】
検出された穴領域が２つ以上の場合、それらの穴領域のうち、顔領域の下端との間の距離が口高さ条件に最も近いものを口とする。ここで、口高さ条件は、パラメータであり、標準的な人の口の位置を、顔領域の下端との間の距離によって表したものである。本実施形態では、口高さ条件を「１０」に設定する。
検出された穴領域が１つの場合、その穴領域を口とする。
穴領域が検出されない場合、口を閉じているとみなす。
図１２の例の場合、顔上下分割ライン１２０５より下側には、穴領域が１つだけなので、その穴領域が、口による穴領域１２０４とわかる。
【０１２５】
次に、身体特徴抽出部３０２は、口領域情報を生成する。すなわち、抽出した口の面積と、口のＹ軸方向最大長とを、ｉ番目の口領域情報ｍｏｕｔｈ［ｉ］にセットする。
図１５は、身体特徴抽出部３０２が生成する口領域情報の一例を示す図である。
図１５において、口領域情報は、口の面積１５０１、および口のＹ軸方向最大長１５０２を含む。
身体特徴抽出部３０２は、抽出した口の面積を計算して、口の面積１５０１にセットし、さらに、口のＹ軸方向の長さの最大長を計算して、口のＹ軸方向最大長１５０２にセットする。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１２６】
口形変化の検出による手話動作セグメンテーション方法では、上記のステップＳ４０５の処理を、次のように変更する。
［ステップＳ４０５ｂ］
特徴運動追跡部３０３は、＜式３＞を用いて、ｉ番目の口領域情報ｍｏｕｔｈ［ｉ］と、ｉ−１番目の口領域情報ｍｏｕｔｈ［ｉ−１］とから、口の特徴運動コードを求める。また、ｉ番目の口領域情報ｍｏｕｔｈ［ｉ］の面積ｓ＿ｍｏｕｔｈ［ｉ］と、ｉ−１番目の口領域情報ｍｏｕｔｈ［ｉ−１］の面積ｓ＿ｍｏｕｔｈ［ｉ−１］とから、ｉ番目の口の口領域面積変化ｄ＿ｍｏｕｔｈ［ｉ］を求める。
【数３】

【０１２７】
また、＜式４＞を用いて、ｉ番目の口領域情報ｍｏｕｔｈ［ｉ］のＹ軸方向最大長ｈ＿ｍｏｕｔｈ［ｉ］と、ｉ−１番目の口領域情報ｍｏｕｔｈ［ｉ−１］のＹ軸方向最大長ｈ＿ｍｏｕｔｈ［ｉ−１］とから、ｉ番目の口のＹ軸方向変化ｙ＿ｍｏｕｔｈ［ｉ］を求める。
【数４】

【０１２８】
図１６は、特徴運動追跡部３０３が特徴運動コードを決定するための、口による特徴運動決定条件を示す図である。
図１６において、口による特徴運動決定条件は、運動コード１６０１と、条件１６０２とを含む。運動コード１６０１には、番号「０」および「１」がセットされ、条件１６０２には、運動コード１６０１にセットされた各番号と対応して、各々、口による特徴運動決定条件がセットされる。
条件１６０２中のγは、口形の変化の有無を判定するための口面積変化閾値であり、本実施形態では、例えば「５」がセットされる。λは、口Ｙ軸方向変化閾値であり、例えば「３」がセットされる。
【０１２９】
つまり、特徴運動追跡部３０３は、ｉ番目の口領域面積変化ｄ＿ｍｏｕｔｈ［ｉ］およびＹ軸方向最大長ｈ＿ｍｏｕｔｈ［ｉ］を、図１６の条件１６０２と比較して、ｉ番目の口領域面積変化ｄ＿ｍｏｕｔｈ［ｉ］およびＹ軸方向最大長ｈ＿ｍｏｕｔｈ［ｉ］と一致するような口による特徴運動決定条件を選択する。そして、図１６の運動コード１６０１のうち、選択した口による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、口が閉じている場合は、ｓ＿ｍｏｕｔｈ［ｉ］≦γとなり、このとき、特徴運動コードは、「０」となる。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１３０】
口形変化の検出による手話動作セグメンテーション方法では、上記のステップＳ４１７の処理を、次のように変更する。
［ステップＳ４１７ｂ］
セグメント位置判定部３０４は、動き特徴１００１およびセグメント位置１００４（図１０参照）に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「口形変化」の場合、「口形変化」と対応するセグメント位置は、変化始点終点であり、セグメント位置判定部３０４は、変化始点終点と対応するフレーム番号を求める。
すなわち、２番目の判定コードデータＣｏｄｅ#ｄａｔａ［２］のコード開始フレーム番号と、２番目の判定コードデータＣｏｄｅ#ｄａｔａ［２］のコード終了フレーム番号とを、セグメント位置として出力する。
その後、手話動作セグメンテーション装置は、ステップＳ４１８に進む。
以上の手順により、口形変化の検出による手話動作セグメンテーション方法が実現できる。
【０１３１】
次に、手および胴体の静止動作の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法（図４参照）において、ステップＳ４０３の処理を、次のように変更する。
［ステップＳ４０３ｃ］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴６０１（図６参照）と対応する画像を抽出する。
手および胴体の静止動作を検出する場合、身体特徴６０１に「手領域、胴体」が設定され、身体特徴抽出部３０２は、抽出身体特徴として手領域および胴体を抽出する。
【０１３２】
ここで、手領域および胴体の抽出方法について説明する。
最初、身体特徴抽出部３０２は、上記ステップＳ４０３と同様の方法で、手領域を抽出する。すなわち、入力画像から肌色領域を抽出して、抽出された肌色領域のうち頭部領域と重複しない部分を取り出し、それを手領域とする。
図７の場合、肌色領域のうち頭部領域と重複しない領域、すなわち手の肌色領域７０３が抽出される。
胴体については、ステップＳ４０２で検出された人物領域を、そのまま胴体とする。
【０１３３】
次に、身体特徴抽出部３０２は、手領域情報を生成する。すなわち、抽出した手領域に関し、その重心、面積、Ｘ軸方向最大長およびＹ軸方向最大長を、ｉ番目の手領域情報ｈａｎｄ［ｉ］にセットする。次いで、抽出した胴体に関し、その重心、面積、Ｘ軸方向最大長およびＹ軸方向最大長を、ｉ番目の胴体情報ｂｏｄｙ［ｉ］にセットする。
図１７は、身体特徴抽出部３０２が生成する手領域情報の一例を示す図である。
図１７において、手領域情報には、手の数１７０１、１つめの手の重心座標１７０２、１つめの手の面積１７０３、２つめの手の重心座標１７０４、および２つめの手の面積１７０５が含まれる。
身体特徴抽出部３０２は、最初、抽出した手の数を、手の数１７０１にセットする。そして、抽出した手の数に応じ、次のようにして手の重心座標および手の面積をセットする。
【０１３４】
抽出した手の数１７０１が０の場合、１つめの手の重心座標１７０２、および２つめの手の重心座標１７０４に、それぞれ（０，０）を設定し、また、１つめの手の面積１７０３、および２つめの手の面積１７０５に、それぞれ０を設定する。
抽出した手の数１７０１が「１」の場合、手領域の重心座標および面積を計算して、１つめ手の重心座標１７０２、および１つめの手の面積１７０３にセットする。また、２つめの手の重心座標１７０４に（０、０）をセットし、２つめの手の面積１７０５に０をセットする。
抽出した手の数１７０１が「２」の場合、２つの手領域のうち左側の領域の重心座標および面積を計算して、１つめ手の重心座標１７０２、および１つめの手の面積１７０３にセットする。また、２つの手領域のうち右側の領域の重心座標および面積を計算して、２つめ手の重心座標１７０４、および２つめの手の面積１７０５にセットする。
胴体情報ｂｏｄｙ［ｉ］は、顔領域情報ｆａｃｅ［ｉ］と同様、図８の構成で実現できる。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１３５】
手および胴体の静止動作の検出による手話動作セグメンテーション方法では、上記のステップＳ４０５の処理を、次のように変更する。
［ステップＳ４０５ｃ］
特徴運動追跡部３０３は、＜式５＞を用いて、ｉ番目の手領域情報ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］と、ｉ番目の胴体情報ｂｏｄｙ［ｉ］と、ｉ−１番目の胴体情報ｂｏｄｙ［ｉ−１］とから、手領域および胴体の特徴運動コードを求める。また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ−１］とから、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］を求める。また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ−１］とから、ｉ番目の手領域の２つめの手の移動量ｍ２＿ｈａｎｄ［ｉ］を求める。
【数５】

【０１３６】
また、＜式６＞を用いて、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の面積ｓ１＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の１つめの手の面積ｓ１＿ｈａｎｄ［ｉ−１］とから、ｉ番目の手領域の１つめの手の面積変化量ｄ１＿ｈａｎｄ［ｉ］を求める。また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の面積ｓ２＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の２つめの手の面積ｓ２＿ｈａｎｄ［ｉ−１］とから、ｉ番目の手領域の２つめの手の面積変化量ｄ２＿ｈａｎｄ［ｉ］を求める。
【数６】

【０１３７】
また、＜式７＞を用いて、ｉ番目の胴体情報ｂｏｄｙ［ｉ］の重心ｇ＿ｂｏｄｙ［ｉ］と、ｉ−１番目の胴体情報ｂｏｄｙ［ｉ−１］の重心ｇ＿ｂｏｄｙ［ｉ−１］とから、ｉ番目の胴体の移動量ｍ＿ｂｏｄｙ［ｉ］を求める。
【数７】

【０１３８】
図１８は、胴体および手領域による特徴運動決定条件を示す図である。
図１８において、胴体および手領域による特徴運動決定条件は、運動コード１８０１と、条件１８０２とを含む。運動コード１８０１には、番号「０」および「１」がセットされ、条件１８０２には、運動コード１８０１にセットされた各番号と対応して、各々、胴体および手領域による特徴運動決定条件がセットされる。
条件１８０２中のχは、手領域の停止判定閾値であり、本実施形態では、例えば「５」がセットされる。δは、手領域の形状変化判定閾値であり、例えば「１０」がセットされる。εは、胴体の停止判定閾値であり、例えば「５」がセットされる。
【０１３９】
つまり、特徴運動追跡部３０３は、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の２つめの手の移動量ｍ２＿ｈａｎｄ［ｉ］、ｉ番目の手領域の１つめの手の面積変化量ｄ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の２つめの手の面積変化量ｄ２＿ｈａｎｄ［ｉ］、およびｉ番目の胴体の移動量ｍ＿ｂｏｄｙ［ｉ］を、図１８の条件１８０２と比較して、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の２つめの手の移動量ｍ２＿ｈａｎｄ［ｉ］、ｉ番目の手領域の１つめの手の面積変化量ｄ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の２つめの手の面積変化量ｄ２＿ｈａｎｄ［ｉ］、およびｉ番目の胴体の移動量ｍ＿ｂｏｄｙ［ｉ］と一致するような手領域および胴体による特徴運動決定条件を選択する。そして、図１８の運動コード１８０１のうち、選択した手領域および胴体による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、手領域が左右に移動中の場合、ｉ番目の手領域の移動量ｍ＿ｈａｎｄ［ｉ］＞χとなり、このとき、特徴運動コードは、「１」となる。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１４０】
手および胴体の静止動作の検出による手話動作セグメンテーション方法では、上記のステップＳ４１７の処理を、次のように変更する。
［ステップＳ４１７ｃ］
セグメント位置判定部３０４は、動き特徴１００１およびセグメント位置１００４（図１０参照）に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「動作静止」の場合、「動作静止」と対応するセグメント位置は、動作静止始点であり、セグメント位置判定部３０４は、動作静止始点と対応するフレーム番号を求める。
または、静止区間の中間点と対応するフレーム番号を求めてもよい。この場合、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード開始フレーム番号と、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード終了フレーム番号とを求めて、それらの中間値を計算すればよい。
その後、手話動作セグメンテーション装置は、ステップＳ４１８に進む。
以上の手順により、手および胴体の静止動作の検出による手話動作セグメンテーション方法が実現できる。
【０１４１】
次に、手と顔との接触動作の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法（図４参照）において、ステップＳ４０３の処理を、次のように変更する。
［ステップＳ４０３ｄ］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴６０１（図６参照）と対応する画像を抽出する。
手と顔との接触動作を検出する場合、身体特徴６０１に「顔領域、手領域」が設定され、抽出身体特徴として顔領域および手領域を抽出する。
【０１４２】
ここで、顔領域および手領域の抽出方法について説明する。
最初、上記ステップＳ４０３と同様の方法で、顔領域を抽出し、また、上記ステップＳ４０３ｃと同様の方法で、手領域を抽出する。
次に、抽出した顔領域に関し、その重心、面積、Ｘ軸方向最大長およびＹ軸方向最大長を、ｉ番目の顔領域情報ｆａｃｅ［ｉ］にセットする。また、抽出した手領域に関し、その重心、面積、Ｘ軸方向最大長およびＹ軸方向最大長を、ｉ番目の手領域情報ｈａｎｄ［ｉ］にセットする。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１４３】
手と顔との接触動作の検出による手話動作セグメンテーション方法では、上記のステップＳ４０５の処理を、次のように変更する。
［ステップＳ４０５ｄ］
特徴運動追跡部３０３は、＜式８＞を用いて、ｉ番目の手領域情報ｈａｎｄ［ｉ］と、ｉ番目の顔領域情報ｆａｃｅ［ｉ］とから、手領域および顔領域の特徴運動コードを求める。また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ］と、ｉ番目の顔領域情報ｆａｃｅ［ｉ］の重心ｇ＿ｆａｃｅ［ｉ］とから、ｉ番目の手領域の１つめの手と顔との距離ｌ１＿ｆｈ［ｉ］を求める。また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ］と、ｉ番目の顔領域情報ｆａｃｅ［ｉ］の重心ｇ＿ｆａｃｅ［ｉ−１］とから、ｉ番目の手領域の２つめの手と顔との距離ｌ２＿ｆｈ［ｉ］を求める。
【数８】

【０１４４】
ただし、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の面積ｓ１＿ｈａｎｄ［ｉ］が０の場合は、ｌ１＿ｆｈ［ｉ−１］≦Φであれば、ｌ１＿ｆｈ［ｉ］＝０とする。ｌ１＿ｆｈ［ｉ−１］＞Φであれば、ｌ１＿ｆｈ［ｉ］＝１０００とする。
同様に、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の面積ｓ２＿ｈａｎｄ［ｉ］が０の場合、ｌ２＿ｆｈ［ｉ−１］≦Φであれば、ｌ２＿ｆｈ［ｉ］＝０とする。ｌ２＿ｆｈ［ｉ−１］＞Φであれば、ｌ２＿ｆｈ［ｉ］＝１０００とする。ここで、Φは、顔と手との距離閾値であり、本実施形態では、例えば「２０」がセットされる
【０１４５】
図１９は、特徴運動追跡部３０３が特徴運動コードを決定するための、手と顔との接触動作による特徴運動決定条件を示す図である。
図１９において、手と顔との接触動作による特徴運動決定条件は、運動コード１９０１と、条件１９０２とを含む。運動コード１９０１には、番号「０」および「１」がセットされ、条件１９０２には、運動コード１９０１にセットされた各番号と対応して、各々、手と顔との接触動作による特徴運動決定条件がセットされる。
条件１９０２中のωは、手領域と顔領域の接触閾値であり、本実施形態では、例えば「５」がセットされる。
【０１４６】
つまり、特徴運動追跡部３０３は、ｉ番目の手領域の１つめの手と顔との距離ｌ１＿ｆｈ［ｉ］、およびｉ番目の手領域の２つめの手と顔との距離ｌ２＿ｆｈ［ｉ］を、図１９の条件１９０２と比較して、ｉ番目の手領域の１つめの手と顔との距離ｌ１＿ｆｈ［ｉ］、およびｉ番目の手領域の２つめの手と顔との距離ｌ２＿ｆｈ［ｉ］と一致するような特徴運動決定条件を選択する。そして、図１９の運動コード１９０１のうち、選択した特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、右手が顔と重なっている場合、ｉ番目の手領域の一つめの手と顔の距離ｌ１＿ｆｈ［ｉ］＝０となり、このとき、特徴運動コードは、「０」となる。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１４７】
手と顔との接触動作の検出による手話動作セグメンテーション方法では、上記のステップＳ４１７の処理を、次のように変更する。
［ステップＳ４１７ｄ］
セグメント位置判定部３０４は、動き特徴１００１およびセグメント位置１００４（図１０参照）に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「手と顔との接触動作」の場合、「手顔接触」と対応するセグメント位置は、「接触始点終点」であり、セグメント位置判定部３０４は、手顔接触区間の始点および終点と対応するフレーム番号を求める。
すなわち、１番目の判定コードデータＣｏｄｅ#ｄａｔａ［１］のコード開始フレーム番号と、１番目の判定コードデータＣｏｄｅ#ｄａｔａ［１］のコード終了フレーム番号とを、セグメント位置とする。
その後、手話動作セグメンテーション装置は、ステップＳ４０１に進む。
以上の手順により、手と顔との接触動作の検出による手話動作セグメンテーション方法が実現できる。
【０１４８】
次に、手の有効性変化の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法（図４参照）において、ステップＳ４０３の処理を、次のように変更する。
［ステップＳ４０３ｅ］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴６０１（図６参照）と対応する画像を抽出する。
手の有効性変化を検出する場合、身体特徴６０１に「手領域」が設定され、身体特徴抽出部３０２は、抽出身体特徴として手領域を抽出する。
【０１４９】
なお、手領域は、上記ステップＳ４０３ｃと同様の方法で抽出する。
次に、身体特徴抽出部３０２は、抽出した手領域に関し、その重心、面積、Ｘ軸方向最大長およびＹ軸方向最大長を、ｉ番目の手領域情報ｈａｎｄ［ｉ］にセットする。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１５０】
手の有効性変化の検出による手話動作セグメンテーション方法では、上記のステップＳ４０５の処理を、次のように変更する。
［ステップＳ４０５ｅ］
特徴運動追跡部３０３は、前述の＜式５＞を用いて、ｉ番目の手領域情報ｈａｎｄ［ｉ］から、手の有効性および動きによる特徴運動コードを求める。
また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ］から、１つめの手が、上記ステップＳ４０２で空間分割して得られた複数の領域（図５参照）のうちどの領域に属するかを判定して、その領域コードを求め、一つめの手の手領域空間コードｓｐ１＿ｈａｎｄ［ｉ］にセットする。なお、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の面積ｓ１＿ｈａｎｄ［ｉ］が０の場合、１つめの手の手領域空間コードｓｐ１＿ｈａｎｄ［ｉ］に「６」をセットする。
【０１５１】
また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ］から、領域コードを求めて、２つめの手の手領域空間コードｓｐ２＿ｈａｎｄ［ｉ］にセットする。なお、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の面積ｓ２＿ｈａｎｄ［ｉ］が０の場合、２つめの手の手領域空間コードｓｐ２＿ｈａｎｄ［ｉ］に「６」をセットする。
【０１５２】
また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ−１］とから、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］を求める。
また、ｉ番目の手領域情報ｈａｎｄ［ｉ］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ−１］とから、ｉ番目の手領域の２つめの手の移動量ｍ２＿ｈａｎｄ［ｉ］を求める。
【０１５３】
図２０は、特徴運動追跡部３０３が特徴運動コードを決定するための、手の有効性変化による特徴運動決定条件を示す図である。
図２０において、手の有効性変化による特徴運動決定条件は、運動コード２００１と、条件２００２とを含む。運動コード２００１には、番号「０」〜「５」がセットされ、条件２００２には、運動コード２００１にセットされた各番号と対応して、各々、手と顔との接触動作による特徴運動決定条件がセットされる。
条件２００２中のχは、手領域の停止判定閾値であり、本実施形態では、例えば「５」がセットされる。
【０１５４】
つまり、特徴運動追跡部３０３は、ｉ番目の手領域の１つめの手の手領域空間コードｓｐ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の２つめの手の手領域空間コードｓｐ２＿ｈａｎｄ［ｉ］、およびｉ番目の手領域の２つめの手の移動量ｍ２＿ｈａｎｄ［ｉ］を、図２０の条件２００２と比較して、ｉ番目の手領域の１つめの手の手領域空間コードｓｐ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］、ｉ番目の手領域の２つめの手の手領域空間コードｓｐ２＿ｈａｎｄ［ｉ］、およびｉ番目の手領域の２つめの手の移動量ｍ２＿ｈａｎｄ［ｉ］と一致するような手と顔との接触動作による特徴運動決定条件を選択する。
例えば、右手が移動中で、かつ左手が入力画像５０１（図５参照）の一番下の位置まで降りた状態の場合、ｉ番目の手領域の１つめの手の移動量ｍ１＿ｈａｎｄ［ｉ］＞χとなり、ｉ番目の手領域の２つめの手の手領域空間コードｓｐ２＿ｈａｎｄ［ｉ］＝７となり、このとき、特徴運動コードは、「２」となる。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１５５】
手の有効性変化の検出による手話動作セグメンテーション方法では、上記のステップＳ４１７の処理を、次のように変更する。
［ステップＳ４１７ｅ］
セグメント位置判定部３０４は、動き特徴１００１およびセグメント位置１００４（図１０参照）に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「手の有効性変化点」の場合、「手有効性変化点」と対応するセグメント位置は、「コード変化点」であり、セグメント位置判定部３０４は、コード変化点と対応するフレーム番号を求める。
すなわち、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード開始フレーム番号と、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード終了フレーム番号とを、セグメント位置とする。
その後、ステップＳ４１８に進む。
以上の手順により、手の有効性変化の検出による手話動作セグメンテーション方法が実現できる。
【０１５６】
次に、上記の各動作の検出の組み合わせによる手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法（図４参照）において、ステップＳ４０３を次のように変更する。
［ステップＳ４０３ｆ］
身体特徴抽出部３０２は、入力画像から、セグメント要素記憶部３０５に記憶されている身体特徴６０１（図６参照）と対応する画像を抽出する。
上記の各動作を検出する場合、身体特徴６０１に「顔領域」、「目」、「口」、「手領域、胴体」、「手領域、顔領域」および「手領域」が設定され、身体特徴抽出部３０２は、抽出身体特徴として、顔領域、目、口、手領域および胴体を抽出する。
なお、顔領域は、上記ステップＳ４０３と同様の方法で抽出する。目は、上記ステップＳ４０３ａと同様の方法で抽出する。口は、上記ステップＳ４０３ｂと同様の方法で抽出する。手領域および胴体は、上記ステップＳ４０３ｃと同様の方法で抽出する。
【０１５７】
次に、身体特徴抽出部３０２は、抽出した顔領域、目、口、手領域および胴体に関する情報を、各々、顔領域情報ｆａｃｅ［ｉ］、目領域情報ｅｙｅ［ｉ］、口領域情報ｍｏｕｔｈ［ｉ］、手領域情報ｈａｎｄ［ｉ］、および胴体情報ｂｏｄｙ［ｉ］にセットする。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１５８】
そして、手話動作セグメンテーション装置は、上記ステップＳ４０５からステップＳ４１７までを処理し、続いて、上記ステップＳ４０５ｂからステップＳ４１７ｂまでを処理する。以降、上記ステップＳ４０５ｃからステップＳ４１７ｃまでの処理、上記ステップＳ４０５ｄからステップＳ４１７ｄまでの処理、および上記ステップＳ４０５ｅからステップＳ４１７ｄまでの処理を、順番に処理する。
これにより、上記の各動作の検出の組み合わせによる手話動作セグメンテーション方法が実現できる。
【０１５９】
次に、上記各方法において、検出した動作の継続時間を考慮してセグメンテーションを行うような手話動作セグメンテーション方法について説明する。
図２１は、頷き動作の検出による手話動作セグメンテーション方法（図４参照）において、検出した動作の継続時間を考慮してセグメンテーションを行う場合の処理の流れを示すフローチャートである。
図２１の方法は、図４の方法において、ステップＳ４１１を次のように変更し、さらにステップＳ２１０１を追加したものである。
［ステップＳ４１１ａ］
判定コード１００２のコード数がｊ個以上か否かが判定され、ｊ個以上の場合、ステップＳ４１２に進む。
ｊ−１個の場合、ステップＳ２１０１に進む。
【０１６０】
［ステップＳ２１０１］
最初、１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［１］のコード開始フレーム番号と対応するフレームから、ｊ−１番目の判定コードデータＣｏｄｅ＿ｄａｔａ［ｊ−１］のコード終了フレーム番号と対応するフレームまでのフレーム数が、特徴継続時間にセットされる。
次に、動き特徴パラメータ（図１０参照）の時間１００３に、値が設定されているか否かが判定され、さらに、特徴継続時間が、時間１００３に設定された値より小さいか否かが判定される。
そして、時間１００３に値が設定されており、かつ特徴継続時間が時間１００３に設定された値より小さい場合、ステップＳ４１５に進む。
時間１００３に何も設定されていないか、特徴継続時間が時間１００３に設定された値以上の場合、ステップＳ４１７に進む。
以上の手順により、検出した動作の継続時間を考慮してセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【０１６１】
次に、セグメント要素に加えて、非セグメント要素を検出してセグメンテーションを行うような手話動作セグメンテーション方法について説明する。
（第３の実施形態）
図２２は、本発明の第３の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
図２２の装置は、図３の装置において、非セグメント要素記憶部２２０１をさらに備えている。非セグメント要素記憶部２２０１には、セグメントを行わない条件となる非セグメント要素が、予め記憶されている。他の構成要素は、図３のものと同様のものである。
すなわち、図２２の装置は、セグメント要素に加えて、非セグメント要素をも検出し、それらに基づいて手話動作のセグメンテーションを行うような手話動作セグメンテーション方法を実行する。
【０１６２】
以下、上記のように構成された手話動作セグメンテーション装置の処理手順について説明する。
最初、非セグメント要素として、両手の接近を検出する場合を説明する。
図２３および２４は、図２２の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
図２３および２４の方法は、図２１の方法において、ステップＳ４０３の後にステップＳ２４０１を追加し、また、ステップＳ４０５の後にステップＳ２４０２〜Ｓ２４０５を追加し、さらに、ステップＳ４１８をステップＳ４１８ａのように変更したものである。
これら各ステップ（Ｓ２４０１〜Ｓ２４０５，Ｓ４１８ａ）では、以下のような処理が行われる。
【０１６３】
［ステップＳ２４０１］
身体特徴抽出部３０２は、入力画像から、非セグメント要素記憶部２２０１に記憶されている身体特徴と対応する画像を抽出する。
図２５は、非セグメント要素記憶部２２０１に記憶されている非セグメント要素データの一例を示す図である。
図２５において、非セグメント要素データは、身体特徴２５０１と、非セグメント動き特徴２５０２とを含む。
例えば、両手の接近を検出する場合、「手領域」が身体特徴２５０１にセットされている。
身体特徴抽出部３０２は、手領域を非セグメント身体特徴として抽出する。手領域は、上記ステップＳ４０３ｃの手順で抽出できる。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１６４】
［ステップＳ２４０２］
次の手順で、非セグメント特徴運動コードが決定される。
ｉ番目の手領域情報ｈａｎｄ［ｉ］の手の数が２の場合、特徴運動追跡部３０３は、＜式９＞を用いて、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ］と、２つめの手の重心ｇ２＿ｈａｎｄ［ｉ］とから、ｉ番目の手領域の手間距離ｌ＿ｈａｎｄ［ｉ］を求める。
【数９】

【０１６５】
次に、＜式１０＞を用いて、ｉ番目の手領域の手間距離ｌ＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域の手間距離ｌ＿ｈａｎｄ［ｉ−１］とから、手間距離変化量ｄｌ＿ｈａｎｄ［ｉ］を求める。
【数１０】

【０１６６】
ｉ番目の手領域情報ｈａｎｄ［ｉ］の手の数が２でないか、または、ｉ番目の手領域情報ｈａｎｄ［ｉ］の手の数と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の手の数とが異なる場合、特徴運動追跡部３０３は、手間距離変化量ｄｌ＿ｈａｎｄ［ｉ］に、負でない値、例えば１０００をセットする。
手間距離変化量ｄｌ＿ｈａｎｄ［ｉ］≦−θの場合、非セグメント特徴運動コードは、「１」となる。手間距離変化量ｄｌ＿ｈａｎｄ［ｉ］＞−θの場合、非セグメント特徴運動コードは、「０」となる。ここで、θは、手間距離変化閾値であり、本実施形態では、例えば「５」がセットされる。
非セグメントコード番号ｋに何もセットされていない場合、非セグメントコード番号ｋに「１」がセットされ、非セグメント特徴フレーム数に「０」がセットされる。
ここで非セグメントコード番号ｋは、非セグメント特徴運動コードを構成するコードの個数を示し、非セグメント特徴フレーム数は、非セグメント動き特徴の検出期間に相当するフレーム数、つまり検出開始フレームから検出終了フレームまでのフレーム数を示す。
その後、手話動作セグメンテーション装置は、ステップ３００３に進む。
【０１６７】
［ステップＳ２４０３］
セグメント位置判定部３０４は、非セグメント特徴運動コードを、非セグメント要素記憶部２２０１に記憶されている非セグメント要素データ（図２５参照）と比較して、非セグメント特徴運動コードが、非セグメント動き特徴２５０２と一致するかどうかをチェックする。非セグメント動き特徴２５０２には、非セグメント確定のための動き特徴（非セグメント動き特徴）を示すパラメータ（非セグメント動き特徴パラメータ）がセットされている。
【０１６８】
図２６は、非セグメント動き特徴２５０２にセットされる非セグメント動き特徴パラメータの一例を示す図である。
図２６において、非セグメント動き特徴パラメータは、非セグメント動き特徴２６０１、判定コード２６０２、および時間２６０３を含む。非セグメント動き特徴２６０１は、非セグメント動き特徴の種別を示す。判定コード２６０２は、非セグメント動き特徴を判定する条件となるコード列である。時間２６０３は、非セグメント動き特徴を判定する条件となる時間である。
判定コード２６０２は、図１０の動き特徴パラメータ中の判定コード１００２と同様の方法で記述される。時間２６０３には、非セグメント動き特徴２６０１の最低継続時間が設定される。
【０１６９】
判定コード２６０２と、ステップＳ２４０２で決定された非セグメント特徴運動コードのｋ番目のコード、つまり非セグメント特徴運動コードを構成する最後のコードとが異なる場合、手話動作セグメンテーション装置は、ステップＳ２４０４に進む。
同じ場合、ステップＳ２４０５に進む。
【０１７０】
［ステップＳ２４０４］
非セグメント特徴フレーム数に「０」がセットされ、非セグメントコード番号ｋに「１」がセットされる。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１７１】
［ステップＳ２４０５］
非セグメント特徴フレーム数に「１」が加算される。
ｋ＞２ので非セグメント確定コード列条件のｋ−１番目のコードと、非セグメント特徴運動コードとが異なる場合、ｋに「１」が加算される。
その後、手話動作セグメンテーション装置は、ステップＳ４０６に進む。
【０１７２】
［ステップＳ４１８ａ］
非セグメント動き特徴パラメータ（図２６参照）中の時間２６０３に値が設定されていない場合、非セグメント時間最小値に０がセットされる。
時間２６０３に値が設定されている場合、非セグメント時間最小値に、時間２６０３の値をセットする。
非セグメント特徴フレーム数が、非セグメント時間最小値に相当するフレーム数より小さい場合は、ステップＳ４１７でセットしたセグメント位置を出力する。
その後、手話動作セグメンテーション装置は、ステップＳ４０１に進む。
以上の手順により、セグメント要素に加えて、非セグメント要素（両手接近）をも検出し、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【０１７３】
次に、非セグメント要素として口形変化を検出する場合を説明する。
この場合、上記のステップＳ２４０１を次のように変更する。
［ステップＳ２４０１ａ］
身体特徴抽出部３０２は、入力画像から、非セグメント要素記憶部２２０１に記憶されている身体特徴と対応する画像を抽出する。
図２５において、口形変化を検出する場合、「口」が身体特徴２５０１にセットされている。
身体特徴抽出部３０２は、口を非セグメント身体特徴として抽出する。口は、上記ステップＳ４０３ｂの手順で抽出できる。
その後、手話動作セグメンテーション装置は、ステップＳ４０４に進む。
【０１７４】
また、上記のステップＳ２４０２を次のように変更する。
［ステップＳ２４０２ａ］
次の手順で、非セグメント特徴運動コードが決定される。
特徴運動追跡部３０３は、最初、上記のステップＳ４０５ｂと同様の手順で、ｉ番目の口領域情報の口領域面積変化ｄ＿ｍｏｕｔｈ［ｉ］、およびｉ番目の口領域情報のＹ軸方向変化ｙ＿ｍｏｕｔｈ［ｉ］を求める。
次に、ｉ番目の口領域情報の口領域面積変化ｄ＿ｍｏｕｔｈ［ｉ］、およびｉ番目の口領域情報のＹ軸方向変化ｙ＿ｍｏｕｔｈ［ｉ］を、図１６の条件１６０２と比較して、ｉ番目の口領域情報の口領域面積変化ｄ＿ｍｏｕｔｈ［ｉ］、およびｉ番目の口領域情報のＹ軸方向変化ｙ＿ｍｏｕｔｈ［ｉ］と一致するような口による特徴運動決定条件を選択する。そして、図１６の運動コード１６０１のうち、選択した口による特徴運動決定条件と対応する番号を取り出すことによって、非セグメント特徴運動コードを決定する。
例えば、口を動かしていない場合、口の面積およびＹ軸方向最大長が変化せず、このとき、非セグメント特徴運動コードは、「０」となる。
非セグメントコード番号ｋに何もセットされていない場合、非セグメントコード番号ｋに「１」がセットされ、非セグメント特徴フレーム数に「０」がセットされる。
その後、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
以上の手順により、セグメント要素に加えて、非セグメント要素（口形変化）をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【０１７５】
次に、非セグメント要素として、右手と左手との動作の対称性を検出する場合を説明する。
この場合、上記のステップＳ２４０２を次のように変更する。
［ステップＳ２４０２ｂ］
次の手順で、非セグメント特徴運動コードが決定される。
特徴運動追跡部３０３は、最初、ｉ番目の手領域情報ｈａｎｄ［ｉ］の手の数が１以下か否かを判定し、１以下の場合、非セグメント特徴運動コードに０をセットする。その後、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
ｉ番目の手領域情報ｈａｎｄ［ｉ］の手の数が２の場合、特徴運動追跡部３０３は、〈式１１〉を用いて、ｉ番目の手領域情報ｈａｎｄ［ｉ］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ］と、２つめの手の重心ｇ２＿ｈａｎｄ［ｉ］と、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ−１］と、２つめの手の重心ｇ２＿ｈａｎｄ［ｉ−１］とから、ｉ番目の１つめの手領域運動方向ベクトルｖｈ［１］［ｉ］、およびｉ番目の２つめの手領域運動方向ベクトルｖｈ［２］［ｉ］を求める。
【数１１】

【０１７６】
次に、特徴運動追跡部３０３は、＜式１２＞により、ｉ番目の１つめの手領域の移動量ｄｖｈ［１］［ｉ］、およびｉ番目の２つめの手領域の移動量ｄｖｈ［２］［ｉ］を求める。
【数１２】

【０１７７】
図２７は、特徴運動追跡部３０３が非セグメント特徴運動コードを決定するための、手話動作の対称性による非セグメント特徴運動決定条件である。
図２７において、手話動作の対称性による非セグメント特徴運動決定条件は、運動コード２７０１と、条件２７０２とを含む。運動コード２７０１には、番号「０」〜「８」がセットされ、条件２７０２には、運動コード２７０１にセットされた各番号と対応して、各々、手話動作の対称性による非セグメント特徴運動決定条件がセットされる。
次に、特徴運動追跡部３０３は、図２７の手話動作の対称性による非セグメント特徴運動決定条件により、ｉ番目の１つめの手領域運動コードＣｈ［１］［ｉ］、およびｉ番目の２つめの手領域運動コードＣｈ［２］［ｉ］を求める。
非セグメント特徴フレーム数が０の場合、１つめの非セグメント条件始点Ｐｓｈ［１］に、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の１つめの手の重心ｇ１＿ｈａｎｄ［ｉ−１］をセットし、２つめの非セグメント条件始点Ｐｓｈ［２］に、ｉ−１番目の手領域情報ｈａｎｄ［ｉ−１］の２つめの手の重心ｇ２＿ｈａｎｄ［ｉ−１］をセットする。
【０１７８】
ここで、非セグメント要素記憶部２２０１には、予め、手話動作の対称性による非セグメントコード決定条件が記憶されている。
図２８は、非セグメント要素記憶部２２０１に記憶される、手話動作の対称性による非セグメントコード決定条件の一例を示す図である。
図２８の非セグメントコード決定条件には、図示しない手話認識装置が認識対象とする動作（手話動作）において現れるような対照性が、番号１〜１０の条件として設定される。
例えば、手話動作の場合、左右の手は、胴体と垂直または平行な面に対して、互いに対称的な軌跡をとることが多い。なお、認識対象となる、手動作以外の動作についても、同様の条件を設定することができる。
【０１７９】
次に、セグメント位置判定部３０４は、１つめの非セグメント条件始点Ｐｓｈ［１］＝（Ｘｐｓ１，Ｙｐｓ１）と、２つめのセグメント条件始点Ｐｓｈ［２］＝（Ｘｐｓ２、Ｙｐｓ２）と、ｉ番目の１つめの手領域運動コードＣｈ［１］［ｉ］と、ｉ番目の２つめの手領域運動コードＣｈ［２］［ｉ］とをもとに、手話動作の対称性の特徴運動コード（すなわち、ｉ番目の１つめの手領域運動コードＣｈ［１］［ｉ］、およびｉ番目の２つめの手領域運動コードＣｈ［２］［ｉ］）が、図２８の条件（番号１〜１０のいずれかの条件）に一致するか否かを判定し、一致する場合、非セグメント特徴コードに１をセットする。一致しない場合、非セグメント特徴コードに０をセットする。
その後、手話動作セグメンテーション装置は、ステップ２４０３に進む。
以上の手順により、セグメント要素に加えて、非セグメント要素（右手と左手の動作の対称性）をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【０１８０】
ところで、上記の、セグメント要素に加えて、非セグメント要素（右手と左手の動作の対称性）をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法では、右手と左手の動作の対称性を検出する際に、手話者の動作が平面的に捉えられおり、従って、検出可能な右手と左手の動作の対称性は、２次元的なものに限られる。
そこで、次に、手話者の動作を立体的に捉えて、右手と左手の動作の３次元的な対称性を検出する方法を説明する。
【０１８１】
図２２において、画像入力部３０１は、２台のテレビカメラを含み、３次元画像を入力する。それによって、手話者の動作が立体的に捉えられる。
この場合も、図２２の装置の処理動作は、図２３および２４と基本的には同様であるが、以下の点が変更される。
すなわち、図２３のステップＳ４０３において、身体特徴抽出部３０２は、２台のテレビカメラによる３次元入力画像から、身体特徴、ここでは手領域の画像を抽出する。
３次元画像から手領域を抽出するには、２次元画像から手領域を抽出する場合と同様、ＲＧＢ色情報をもとに肌色領域を抽出すればよい。ただしこの場合、ＲＧＢ色情報には、例えば、３次元画像を構成する各画素のＲＧＢ色情報が、３次元座標の関数として記述される。
その他、「ファジイパターン照合を用いた色彩画像からの顔検出システム」（呉，陳，谷内田；電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ８０−Ｄ−ＩＩＮｏ．７ｐｐ．１７７４〜１７８５，１９９７．７）に記載されている方法を用いてもよい。
【０１８２】
手領域を抽出すると、身体特徴抽出部３０２は、ｉ番目の１つめの手領域の３次元座標ｈ［１］［ｉ］、およびｉ番目の２つめの手領域の３次元座標ｈ［２］［ｉ］を求める。
２台のテレビカメラによる３次元画像から抽出された手領域の３次元位置座標を求めるには、一方のテレビカメラによる２次元画像と、他方のテレビカメラによる２次元画像との間に生じる視差を利用すればよい。
【０１８３】
また、上記のステップＳ２４０２ｂを、次のように変更する。
［ステップＳ２４０２ｃ］
２台のテレビカメラのうちの一方、たとえば左側のテレビカメラの画像から算出した手領域の情報を使って、ステップＳ２４０２ｂと同様の処理が行われる。
ただし、特徴運動追跡部３０３は、ｉ番目の１つめの手領域の３次元移動ベクトルＶｔｈ［１］［ｉ］、ｉ番目の２つめの手領域の３次元移動ベクトルＶｔｈ［２］［ｉ］を求める際、〈式１３〉を使って求める。
【数１３】

非セグメント特徴フレーム数が３より小さい場合、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
以上の手順で、右手と左手との動作の３次元的な対称性を検出することができる。
【０１８４】
次に、前述の、セグメント要素に加えて、非セグメント要素（右手と左手の動作の対称性）をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法において、右手と左手との動作の対称性の変化をどのようにして検出するかを説明する。
【０１８５】
動作の対称性の変化は、例えば、動作面の変化を捉えることにより検出することができる。ここで、動作面とは、動作の軌跡を含むような面をいう。
例えば、手の動作面は、手動作の軌跡を含むような面である。そして、左手および右手の少なくとも一方の動作面が変化した場合、動作の対称性の変化が生じたとみなす。
【０１８６】
動作面の変化を検出するには、例えば、動作面の法線ベクトルの変化を検出すればよい。
そこで、次に、動作面が変化したことを、動作面の法線ベクトルの変化によって検出する方法を説明する。
動作面が変化したことを、動作面の法線ベクトルの変化によって検出する場合、上記のステップＳ２４０２を、次のように変更する。
【０１８７】
［ステップＳ２４０２ｄ］
特徴運動追跡部３０３は、〈式１４〉を使って、ｉ番目の１つめの手領域の３次元移動ベクトルＶｔｈ［１］［ｉ］と、ｉ−１番目の１つめの手領域の３次元移動ベクトルＶｔｈ［１］［ｉ−１］とから、ｉ番目の１つめの手領域運動面の法線ベクトルＶｃｈ［１］［ｉ］を求め、ｉ番目の２つめの手領域の３次元移動ベクトルＶｔｈ［２］［ｉ］と、ｉ−１番目の２つめの手領域の３次元移動ベクトルＶｔｈ［２］［ｉ−１］とから、ｉ番目の２つめの手領域運動面の法線ベクトルＶｃｈ［２］［ｉ］を求める。
【数１４】

【０１８８】
また、〈式１５〉を使って、ｉ番目の１つめの手領域運動面の法線ベクトルＶｃｈ［１］［ｉ］と、ｉ−１番目の１つめの手領域運動面の法線ベクトルＶｃｈ［１］［ｉ−１］とから、ｉ番目の１つめの手領域運動余弦ＣｏｓΘｈ［１］［ｉ］を求め、ｉ番目の２つめの手領域運動面の法線ベクトルＶｃｈ［２］［ｉ］と、ｉ−１番目の２つめの手領域運動面の法線ベクトルＶｃｈ［２］［ｉ−１］とから、ｉ番目の２つめの手領域運動余弦ＣｏｓΘｈ［２］［ｉ］を求める。
【数１５】

【０１８９】
ｉ番目の１つめの手領域運動余弦ＣｏｓΘｈ［１］［ｉ］、およびｉ番目の２つめの手領域運動余弦ＣｏｓΘｈ［２］［ｉ］が、〈式１６〉の条件の少なくとも一方を満たさない場合、非セグメント特徴コードに０をセットする。ここで、α＿ｖｃは、法線方向変化閾値であり、例えば、０．１がセットされる。
【数１６】

その後、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
以上の手順により、動作面が変化したことを、動作面の法線ベクトルの変化によって検出することができる。
【０１９０】
上記の方法の他に、動作面の変化を検出するのに、動作コードベクトルを用いる方法がある。
そこで、次に、動作面が変化したことを、動作コードベクトルを用いて検出する方法を説明する。
動作面が変化したことを、動作コードベクトルを用いて検出する場合、上記のステップＳ２４０２を、次のように変更する。
【０１９１】
［ステップＳ２４０２ｅ］
特徴運動追跡部３０３は、ｉ番目の１つめの３次元座標ｈ１［ｉ］と、ｉ−１番目の１つめの３次元座標位置ｈ１［ｉ−１］とから、ｉ番目の１つめの手領域３次元運動コードＣｏｄｅ＿ｈ１［ｉ］を求める。ｉ番目の２つめの３次元座標ｈ２［ｉ］と、ｉ−１番目の２つめの３次元座標位置ｈ２［ｉ−１］とから、ｉ番目の２つめの手領域３次元運動コードＣｏｄｅ＿ｈ２［ｉ］を求める。
【０１９２】
ここで、３次元運動コードの算出方法は、例えば、「動作認識装置」（特開平７−２８２２３５号公報）に記載されている。この方法では、手領域の運動が、０から２６の２７個のコードによって表現される。これら２７個のコードは、それぞれ互いに異なる方向を持つ３次元ベクトルと対応している。
一方、非セグメント要素記憶部２２０１には、予め、同一動作面テーブルが記憶されている。
【０１９３】
図２９は、非セグメント要素記憶部２２０１に記憶される同一動作面テーブルの一例を示す図である。
図２９において、同一動作面テーブルには、９個の同一動作面（動作面番号「１」〜「９」）が記載されている。各同一動作面は、上記２７個のコードと同様のコードを用いて表現されている。
特徴運動追跡部３０３は、ｉ番目の１つめの３次元座標ｈ１［ｉ］に基づいて、図２９のテーブルから、ｉ番目の１つめの手領域が含まれる動作面番号と、ｉ番目の２つめの手領域が含まれる動作面番号とを抽出する。
【０１９４】
１つめの手領域動作面候補Ｍｏｖｅ＿ｐｌａｎｅ１に何も設定されていない場合、抽出した１つめの手領域の動作面番号を全て、１つめの手領域動作面候補Ｍｏｖｅ＿ｐｌａｎｅ１にセットし、また、抽出した２つめの手領域の動作面番号を全て、２つめの手領域動作面候補Ｍｏｖｅ＿ｐｌａｎｅ２にセットする。その後、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
【０１９５】
次に、特徴運動追跡部３０３は、抽出した１つめの手領域の動作面番号の中に、Ｍｏｖｅ＿ｐｌａｎｅ１に設定されている動作面番号と一致するものがあるか否か、および、抽出した２つめの手領域の動作面番号の中に、Ｍｏｖｅ＿ｐｌａｎｅ２に設定されている動作面番号と一致するものがあるか否かを判定する。
【０１９６】
判定の結果、抽出した１つめの手領域の動作面番号の中に、Ｍｏｖｅ＿ｐｌａｎｅ１に設定されている動作面番号と一致するものがない場合、もしくは、抽出した２つめの手領域の動作面番号の中に、Ｍｏｖｅ＿ｐｌａｎｅ２に設定されている動作面番号と一致するものがない場合、特徴運動追跡部３０３は、Ｍｏｖｅ＿ｐｌａｎｅ１に設定されている動作面番号を全て削除し、また、Ｍｏｖｅ＿ｐｌａｎｅ２に設定されている動作面番号を全て削除し、さらに、非セグメント特徴コードに０をセットする。その後、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
【０１９７】
一方、抽出した１つめの手領域の動作面番号の中に、Ｍｏｖｅ＿ｐｌａｎｅ１に設定されている動作面番号と一致するものがある場合、１つめの手領域の動作面番号のうち一致する番号のみをＭｏｖｅ＿ｐｌａｎｅ１に設定し、一致しない番号をＭｏｖｅ＿ｐｌａｎｅ１から削除する。
また、抽出した２つめの手領域の動作面番号の中に、Ｍｏｖｅ＿ｐｌａｎｅ１に設定されている動作面番号と一致するものがある場合、２つめの手領域動作面候補Ｍｏｖｅ＿ｐｌａｎｅ２に、１つ以上の動作面番号が設定されていれば、２つめの手領域の動作面番号のうち一致する番号のみを、Ｍｏｖｅ＿ｐｌａｎｅ２に設定し、一致しない番号を、Ｍｏｖｅ＿ｐｌａｎｅ２から削除する。その後、手話動作セグメンテーション装置は、ステップＳ２４０３に進む。
以上の手順により、動作面が変化したことを、動作コードベクトルを用いて検出することができる。
【０１９８】
次に、図示しない手話認識装置と、図３または図２２の手話動作セグメンテーション装置とに付随して設けられ、アニメーション画面を通じ、手話動作セグメンテーション装置がセグメンテーションを行いやすいような遷移動作を行わせるよう利用者を誘導するセグメント要素誘導装置について説明する。
（第４の実施形態）
図３０は、本発明の第４の実施形態に係るセグメント要素誘導装置の構成を示すブロック図である。
図３０のセグメント要素誘導装置は、図示しない手話認識装置と、図３または図２２の手話動作セグメンテーション装置とに付随して設けられる。
図３０において、セグメント要素誘導装置は、認識結果入力部３００１、セグメント結果入力部３００２、誘導制御情報生成部３００３、出力部３００４および誘導規則記憶部３００５を備えている。
【０１９９】
認識結果入力部３００１に接続された手話認識装置から、現在の認識状況情報が認識結果入力部３００１に入力される。セグメント結果入力部３００２に接続された手話動作セグメンテーション装置から、現在のセグメント状況情報がセグメント結果入力部３００２に入力される。
【０２００】
認識結果入力部３００１は、入力された認識状況情報を、誘導制御情報生成部３００３に送る。セグメント結果入力部３００２は、入力されたセグメント状況情報を、誘導制御情報生成部３００３に送る。誘導制御情報生成部３００３は、認識状況情報とセグメント状況情報とをもとに、誘導規則記憶部３００５に記憶された誘導規則を使って誘導制御情報を生成し、出力部３００４に送る。出力部３００４は、出力部３００４に接続された手話アニメーション装置等（図示せず）に、誘導制御情報を出力する。
【０２０１】
以下、上記のように構成されたセグメント要素誘導装置の処理について説明する。
図３１は、図３０のセグメント要素誘導装置の処理の流れを示すフローチャートである。
図３１の各ステップでは、それぞれ以下のような処理が行われる。
［ステップＳ３１０１］
認識結果入力部３００１は、認識結果入力部３００１に接続された手話認識装置から入力される認識状況情報をチェックする。
図３２は、認識結果入力部３００１に入力される認識状況情報の一例を示す図である。
図３２において、認識状況情報は、フレーム番号３２０１、および状況フラグ３２０２を含む。フレーム番号３２０１には、カレントフレーム、つまり手話認識装置が認識状況情報作成時に処理中のフレームのフレーム番号がセットされる。状況フラグ３２０２には、認識に成功していれば「０」、失敗していれば「１」がセットされる。
認識状況情報が入力されると、認識結果入力部３００１は、その認識状況情報を誘導制御情報生成部３００３に送る。
その後、セグメント要素誘導装置は、ステップＳ３１０２に進む。
【０２０２】
［ステップＳ３１０２］
セグメント結果入力部３００２は、手話動作セグメンテーション装置から入力されたセグメント状況情報をチェックする。
図３３は、セグメント結果入力部３００２に入力されるセグメント状況情報の一例を示す図である。
図３３において、セグメント状況情報は、フレーム番号３３０１、および未セグメントフレーム数３３０２を含む。フレーム番号３３０１には、カレントフレーム、つまり手話動作セグメンテーション装置がセグメント状況情報作成時に処理中のフレームのフレーム番号がセットされる。未セグメントフレーム数３３０２には、最後にセグメント対象となったフレームから、カレントフレームまでのフレーム数がセットされる。
セグメント状況情報が入力されると、セグメント結果入力部３００２は、そのセグメント情報を誘導制御情報生成部３００３に送る。
その後、セグメント要素誘導装置は、ステップＳ３１０３に進む。
【０２０３】
［ステップＳ３１０３］
誘導制御情報生成部３００３は、誘導規則記憶部３００５に記憶されている誘導規則を使って、誘導制御情報を作成する。
図３４は、誘導制御情報生成部３００３が作成する誘導制御情報の一例を示す図である。
図３４において、誘導制御情報は、制御部位数３４０１、制御部位３４０２、および制御動作３４０３を含む。制御部位数３４０１には、ＣＧキャラクタ（アニメーション）において、制御対象となる部位の数がセットされる。制御部位３４０２には、ＣＧキャラクタにおいて、制御対象となる部位がセットされる。制御動作３４０３には、制御対象となる部位の動作がセットされる。なお、制御部位３４０２、および制御動作３４０３については、制御部位数３４０１にセットされた部位数に等しい回数、続けてセットが行われる。
【０２０４】
次に、誘導制御情報生成部３００３は、現在入力されている認識状況情報およびセグメント状況情報に応じて、誘導規則記憶部３００５から誘導規則を抽出する。
図３５は、誘導規則記憶部３００５に記憶される誘導規則の一例を示す図である。
図３５において、誘導規則は、認識状況３５０１、非セグメントフレーム数３５０２、制御部位３５０３、および制御動作３５０４を含む。
例えば、図３２の認識状況情報と、図３３のセグメント状況情報とが入力されているとき、認識状況およびグメント状況は、図３５の認識状況３５０１および非セグメントフレーム数３５０２の第２行目に記載の条件と一致する。よって、図３４の誘導制御情報では、制御部位数３４０１に「１」が、制御部位３４０２に「頭」が、制御動作３４０３に「頷き」が、それぞれセットされる。
こうして生成された誘導制御情報は、出力部３００４に送られる。
その後、セグメント要素誘導装置は、ステップＳ３１０４に進む。
【０２０５】
［ステップＳ３１０４］
出力部３００４は、誘導制御情報生成部３００３から送られてきた誘導制御情報を、アニメーション生成装置等に出力する。その際、出力部３００４は、必要に応じ、誘導制御情報を、アニメーション生成装置等から要求される形式に変形する。
その後、セグメント要素誘導装置は、ステップＳ３１０１に進む。
以上の手順により、セグメント要素誘導方法が実現できる。
【０２０６】
次に、上記のセグメント要素誘導方法において、手話動作の認識率に応じて、アニメーションの速度を変化させる場合を説明する。
すなわち、手話認識装置の手話動作認識率を、セグメント要素誘導装置側に与える。セグメント要素誘導装置には、手話動作認識率が悪い場合、提示するアニメーションの速度を下げ、それによって、遷移動作をゆっくり行うよう、手話者を誘導するためのアニメーション速度調整装置を設ける。
【０２０７】
図３６は、図３０のセグメント要素誘導装置に設けられるアニメーション速度調整装置の構成を示すブロック図である。
図３６において、アニメーション速度調整装置は、認識結果入力部３６０１と、セグメント結果入力部３６０２と、速度調整情報生成部３６０３と、速度調整規則記憶部３６０４と、出力部３６０５とを備えている。
認識結果入力部３６０１へは、図示しない手話認識装置からの認識結果情報が入力される。セグメント結果入力部３６０２へは、図３または図２２の手話動作セグメンテーション装置からのセグメンテーション結果情報が入力される。速度調整規則記憶部３６０４には、予め、速度調整規則が記憶されている。速度調整情報生成部３６０３は、速度調整規則を参照しつつ、少なくとも認識結果情報、好ましくは、識結果情報およびセグメンテーション結果情報に基づいて、アニメーションの速度を制御するための制御情報（アニメーション速度調整情報）を生成する。
なお、ここでは、速度調整情報生成部３６０３は、認識結果情報に基づいてアニメーション速度調整情報を生成する場合を説明する。
【０２０８】
上記のように構成されたアニメーション速度調整装置が設けられたセグメント要素誘導装置では、図３１と同様の処理が行われる。ただし、以下の点が異なる。
図３１のステップＳ３１０３を、次のように変更する。
［ステップＳ３１０３ａ］
速度調整情報生成部３６０３は、誤認識フラグｆｌａｇ＿ｒｅｃに何も設定されていない場合、０を設定する。認識結果情報に含まれる状況フラグが１の場合、誤認識フラグｆｌａｇ＿ｒｅｃに１を加える。状況フラグが０で、誤認識フラグｆｌａｇ＿ｒｅｃ＞０の場合、誤認識フラグｆｌａｇ＿ｒｅｃから１を引く。
【０２０９】
図３７は、速度調整規則記憶部３６０４に記憶される速度調整規則の一例を示す図である。
図３７において、速度調整規則は、速度調整量３７０１と、条件３７０２とを含む。条件３７０２は、速度調整量を決めるための条件である。条件３７０２中のｄ＿ｓｐｄは、速度調整パラメータであり、例えば、５０がセットされる。
速度調整情報生成部３６０３は、速度調整規則記憶部３６０４に記憶されている速度調整規則を参照しつつ、誤認識フラグｆｌａｇ＿ｒｅｃに応じた速度調整量ｄ＿ｓｐｄを求める。
こうして求められた速度調整量は、出力部３６０５に送られる。
なお、上記以外の処理は、ステップＳ３１０３と同様であり、省略する。
【０２１０】
また、ステップＳ３１０４を、次のように変更する。
［ステップＳ３１０４ａ］
出力部３６０５は、速度調整量ｄ＿ｓｐｄを、図示しないアニメーション生成装置に送る。アニメーション生成装置は、デフォルトのアニメーション速度Ｓｐｄ＿ｄｅｆから、速度調整量ｄ＿ｓｐｄの分だけ、アニメーションの速度が遅くなるよう調整する。
以上の手順により、手話動作認識率が悪い場合に、提示するアニメーションの速度を下げ、それによって、遷移動作をゆっくり行うよう、手話者を誘導することができる。
【０２１１】
次に、上記のセグメント要素誘導装置（図２２参照；なお、図３６のアニメーション速度調整装置は、設けられていてもいなくてもよい）において、手話者からテレビカメラが見えないように、テレビカメラ隠蔽部を設けた場合を説明する。
なお、テレビカメラが露出していると、手話者がテレビカメラを意識して緊張し、手話動作がぎこちなくなることがある。その結果、セグメンテーションが正しく行われず、手話認識装置の認識率が悪くなることがある。
【０２１２】
図３８は、図２２のセグメント要素誘導装置に設けられるテレビカメラ隠蔽部の構成の一例を示す模式図である。
図３８において、テレビカメラ３８０２は、手話者３８０１と対向して設置され、モニタ３８０３は、テレビカメラ３８０２と手話者３８０１とを結ぶ直線の鉛直下方に、鉛直上方を向いて設置される。
テレビカメラ隠蔽部は、順方向からの光を透過させ、かつ逆方向からの光を反射するようなハーフミラー３８０４を備え、このハーフミラー３８０４を、手話者３８０１とテレビカメラ３８０２とを結ぶ直線上であって、かつモニタ３８０３の鉛直上方の位置に、その直線に対して４５度となるような角度で設置することによって実現される。
【０２１３】
すなわち、モニタ３８０３からの光は、ハーフミラー３８０４で反射されて手話者３８０１に到達するので、手話者３８０１は、モニタ３８０３（に表示されるアニメーション）を見ることができる。
一方、手話者３８０１からテレビカメラ３８０２へ向かう光は、ハーフミラー３８０４を透過するが、テレビカメラ３８０２から手話者３８０１へ向かう光は、ハーフミラーで反射される。よって、テレビカメラ３８０２で手話者３８０１を撮影できるにもかかわらず、撮影の際、手話者３８０１からは、テレビカメラ３８０２が見えない。
このようなテレビカメラ隠蔽部を設けることにより、手話者からテレビカメラが見えないようにすることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る手動作分節方法を用いた手動作認識方法を示すフローチャートである。
【図２】図１の方法を実現するコンピュータ装置の構成の一例を示すブロック図である。
【図３】本発明の第２の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
【図４】図３の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
【図５】身体特徴抽出部３０２が設定する領域コードの一例を示す図である。
【図６】セグメント要素記憶部３０５に記憶されるセグメント要素データの一例を示す図である。
【図７】身体特徴抽出部３０２によって抽出された肌色領域の一例を示す図である。
【図８】身体特徴抽出部３０２が生成する顔領域情報の一例を示す図である。
【図９】特徴運動追跡部３０３が特徴運動コードを決定するための、顔による特徴運動決定条件を示す図である。
【図１０】動き特徴６０２にセットされる動き特徴パラメータの一例を示す図である。
【図１１】セグメント位置判定部３０４が作成する判定コードデータの一例を示す図である。
【図１２】身体特徴抽出部３０２によって抽出された顔の肌色領域の一例を示す図である。
【図１３】身体特徴抽出部３０２によって作成される目領域情報の一例を示す図である。
【図１４】特徴運動追跡部３０３が特徴運動コードを決定するための、目による特徴運動決定条件を示す図である。
【図１５】身体特徴抽出部３０２が生成する口領域情報の一例を示す図である。
【図１６】特徴運動追跡部３０３が特徴運動コードを決定するための、口による特徴運動決定条件を示す図である。
【図１７】身体特徴抽出部３０２が生成する手領域情報の一例を示す図である。
【図１８】特徴運動追跡部３０３が特徴運動コードを決定するための、胴体と手領域とによる特徴運動決定条件を示す図である。
【図１９】特徴運動追跡部３０３が特徴運動コードを決定するための、手と顔との接触動作による特徴運動決定条件を示す図である。
【図２０】特徴運動追跡部３０３が特徴運動コードを決定するための、手の有効性変化による特徴運動決定条件を示す図である。
【図２１】頷き動作の検出による手話動作セグメンテーション方法（図４参照）において、検出した動作の継続時間を考慮してセグメンテーションを行う場合の処理の流れを示すフローチャートである。
【図２２】本発明の第３の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
【図２３】図２２の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
【図２４】図２２の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
【図２５】非セグメント要素記憶部２２０１に記憶されている非セグメント要素データの一例を示す図である。
【図２６】非セグメント動き特徴２５０２にセットされる非セグメント動き特徴パラメータの一例を示す図である。
【図２７】特徴運動追跡部３０３が特徴運動コードを決定するための、手話動作の対称性による非セグメント特徴運動決定条件である。
【図２８】非セグメント要素記憶部２２０１に記憶される、手話動作の対称性による非セグメントコード決定条件の一例を示す図である。
【図２９】非セグメント要素記憶部２２０１に記憶される同一動作面テーブルの一例を示す図である。
【図３０】本発明の第４の実施形態に係るセグメント要素誘導装置の構成を示すブロック図である（図示しない手話認識装置と、図３または図２２の手話動作セグメンテーション装置とに付随して設けられる）。
【図３１】図３０のセグメント要素誘導装置の処理の流れを示すフローチャートである。
【図３２】認識結果入力部３００１に入力される認識状況情報の一例を示す図である。
【図３３】セグメント結果入力部３００２に入力されるセグメント状況情報の一例を示す図である。
【図３４】誘導制御情報生成部３００３が作成する誘導制御情報の一例を示す図である。
【図３５】誘導規則記憶部３００５に記憶される誘導規則の一例を示す図である。
【図３６】図３０のセグメント要素誘導装置に設けられるアニメーション速度調整装置の構成を示すブロック図である。
【図３７】速度調整規則記憶部３６０４に記憶される速度調整規則の一例を示す図である。
【図３８】図２２のセグメント要素誘導装置に設けられるテレビカメラ隠蔽部の構成の一例を示す模式図である。
【符号の説明】
２０１ＣＰＵ
２０２ＲＡＭ
２０３プログラム記憶部
２０４入力部
２０５，３００４，３６０５出力部
２０６撮像部
２０７画像記憶部
２０８手話用手動作記憶部
２０９遷移動作記憶部
３０１画像入力部
３０２身体特徴抽出部
３０３特徴運動追跡部
３０４セグメント位置判定部
３０５セグメント要素記憶部
２２０１非セグメント要素記憶部
３００１，３６０１認識結果入力部
３００２，３６０２セグメント結果入力部
３００３誘導制御情報生成部
３００５誘導規則記憶部
３６０３速度調整情報生成部
３６０４速度調整規則記憶部
３８０１手話者
３８０２テレビカメラ
３８０３モニタ
３８０４ハーフミラー

Claims

利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも１つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶する遷移動作記憶手段と撮影手段と画像記憶手段と抽出手段と検出手段と手動作分節手段とを備える手動作分節装置において、利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するために実行する手動作分節方法であって、
前記撮影手段が、利用者を撮影して、その画像データをフレーム単位で前記画像記憶手段に記憶する撮影ステップと、
前記抽出手段が、前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する遷移動作抽出ステップと、
前記検出手段が、前記遷移動作抽出ステップで抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する遷移動作検出ステップと、
前記手動作分節手段が、前記遷移動作記憶ステップで記憶した動作コードを前記遷移動作記憶手段から取り出し、当該動作コードと、前記遷移動作検出ステップで動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する分節位置を決定する手動作分節ステップとを含む、手動作分節方法。
前記手動作分節装置はさらに、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段を備え、
前記手動作分節方法は、
前記抽出手段が、前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する非遷移動作抽出ステップと、
前記検出手段が、前記非遷移動作抽出ステップで抽出した画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化する非遷移動作検出ステップと、
前記手動作分節手段が、前記非遷移動作記憶ステップで記憶した動作コードを前記非遷移動作記憶手段から取り出し、当該動作コードと、前記非遷移動作検出ステップで動作コード化した動作コードとを比較して、前記非遷移動作が現れた時間位置を求める非遷移動作分節ステップとをさらに含み、
前記手動作分節ステップでは、前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項１に記載の手動作分節方法。
前記撮影ステップでは、当該利用者を立体的に撮影して、その３次元画像データを前記画像記憶手段に記憶し、
前記抽出手段が、前記画像記憶手段から前記３次元画像データを取り出し、当該３次元画像データから、右手および左手と対応する３次元画像データを抽出する非遷移動作抽出ステップと、
前記検出手段が、前記３次元画像データに基づいて、右手および左手の動きを示す３次元ベクトルを検出する非遷移動作検出ステップと、
前記手動作分節手段が、前記３次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求める非遷移動作分節ステップとをさらに含み、
前記手動作分節ステップでは、前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項１に記載の手動作分節方法。
前記非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴とする、請求項３に記載の手動作分節方法。
前記手動作分節装置はさらに、同一動作面テーブル作成手段と、３次元コード列変換手段とを備え、
前記同一動作面テーブル作成手段が、それぞれ互いに異なる方向を持つ３次元ベクトルと対応する複数の３次元動作コードに関し、１つの面内に含まれるような３次元動作コードの組み合わせを記載した同一動作面テーブルを、予め作成するステップと、
前記３次元コード列変換手段が、右手および左手の動きを、前記複数の３次元動作コードで表現された３次元動作コード列に変換するステップとをさらに含み、
前記非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、前記３次元動作コード列と、前記同一動作面テーブルに基づいて検出することを特徴とする、請求項３に記載の手動作分節方法。
利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも１つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段を備えるコンピュータを、
利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、
前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、
前記抽出手段で抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、
前記遷移動作記憶手段から前記動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する手動作分節手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するための手動作分節装置であって、
利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも１つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段と、
利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、
前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、
前記抽出手段で抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、
前記遷移動作記憶手段から前記動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する手動作分節手段とを備える、手動作分節装置。
前記手動作分節装置はさらに、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段を備え、
前記抽出手段は、さらに、前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出し、
前記検出手段は、さらに、前記抽出手段で抽出した前記非遷移動作の現れる身体部位と対応する画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化し、
前記手動作分節手段は、さらに、前記非遷移動作記憶手段から前記非遷移特徴データの動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した前記非遷移動作の現れる身体部位と対応する画像の動きを示す動作コードとを比較して、前記非遷移動作が現れた時間位置を求め、前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項７に記載の手動作分節装置。
前記撮影手段は、当該利用者を立体的に撮影して、その３次元画像データを前記画像記憶手段に記憶し、
前記抽出手段は、さらに、前記画像記憶手段から前記３次元画像データを取り出し、当該３次元画像データから、前記非遷移動作の現れる右手および左手と対応する３次元画像データを抽出し、
前記検出手段は、さらに、前記抽出手段で抽出した３次元画像データに基づいて、右手および左手の動きを示す３次元ベクトルを検出し、
前記手動作分節手段は、さらに、
前記３次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、
右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求め、
前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項７に記載の手動作分節装置。
前記手動作分節手段は、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴とする、請求項９に記載の手動作分節装置。
前記手動作分節装置はさらに、
それぞれ互いに異なる方向を持つ３次元ベクトルと対応する複数の３次元動作コードに関し、１つの面内に含まれるような３次元動作コードの組み合わせを記載した単一動作面テーブルを、予め作成する手段と、
右手および左手の動きを、前記複数の３次元動作コードで表現された３次元動作コード列に変換する手段とをさらに備え、
前記手動作分節手段は、右手の動作面および左手の動作面の変化を、前記同一動作面テーブルに基づいて検出することを特徴とする、請求項９に記載の手動作分節装置。