JP4565200B2 - 手動作分節方法および装置 - Google Patents

手動作分節方法および装置 Download PDF

Info

Publication number
JP4565200B2
JP4565200B2 JP27112299A JP27112299A JP4565200B2 JP 4565200 B2 JP4565200 B2 JP 4565200B2 JP 27112299 A JP27112299 A JP 27112299A JP 27112299 A JP27112299 A JP 27112299A JP 4565200 B2 JP4565200 B2 JP 4565200B2
Authority
JP
Japan
Prior art keywords
motion
hand
transition
code
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27112299A
Other languages
English (en)
Other versions
JP2000172163A5 (ja
JP2000172163A (ja
Inventor
雄二 高田
英明 松尾
誠二 猪木
山 呂
祐二 長嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
National Institute of Information and Communications Technology
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
National Institute of Information and Communications Technology
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, National Institute of Information and Communications Technology, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP27112299A priority Critical patent/JP4565200B2/ja
Publication of JP2000172163A publication Critical patent/JP2000172163A/ja
Publication of JP2000172163A5 publication Critical patent/JP2000172163A5/ja
Application granted granted Critical
Publication of JP4565200B2 publication Critical patent/JP4565200B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、手動作分節方法および装置に関し、より特定的には、手話等のための手動作を自動的に認識する際に、その手動作を単語単位に自動的に分節する方法および装置に関する。
【0002】
【従来の技術】
近年、パーソナル・コンピュータは、面倒なキーボード操作を行わなくてもポインティングデバイス等を用いて簡単に入力が行えるようになり、専門家以外の利用者にも広く用いられるようになった。
そして、最近では、利用者の音声を自動的に認識する技術の開発に伴い、音声入力が可能なパーソナル・コンピュータや、音声で操作指示を行えるマイクロ・コンピュータを用いた家電製品なども登場している(以下、パーソナル・コンピュータや、マイクロ・コンピュータを用いた家電製品などを、コンピュータ装置と呼ぶことにする)。この技術がさらに進歩すれば、利用者は、コンピュータ装置の入力操作を、対人のコミュニケーションに近い態様で行えるようになる。また、手操作が困難な利用者が音声入力によって気軽にコンピュータ装置を使用できるようになる。
【0003】
さて、人と人とのコミュニケーションでは、音声に加えて、手や頭の動き、顔の表情なども用いられる。コンピュータ装置が、こうした利用者の体の特定の部分の動きをも自動的に認識することができれば、利用者は、対人のコミュニケーションにさらに近い態様で入力操作を行えるようになる。また、音声操作が困難な利用者が手話入力によって気軽にコンピュータ装置を使用できるようになり、例えば、それを用いて手話を翻訳することも可能となる。
こうした要請に応えるべく、本出願人等によって、手話等のための手動作をはじめ、利用者の体の特定の部分の動きを認識するコンピュータ装置が開発されている。この従来のコンピュータ装置で行われる処理は、例えば手話のための手動作を認識しようとする場合、次のようなものである。
すなわち、最初、利用者を撮影して、その画像を記憶する。次に、画像のどの部分が手であるかを特定する。そして、手の動きを検出し、検出した手の動きに基づいて手話単語を判定する。判定は、手話の動作的特徴を記述した辞書を参照して行う。こうして、コンピュータ装置は、利用者の行う手話を”認識”する。
【0004】
以下、上記の一連の処理のうち、手の動きに基づいて手話単語を判定する処理を、具体的に説明する。
一般に、手話単語は、いくつかの単位動作およびそれらの組み合わせによって表現される。ここで単位動作とは、上げる、下げる、曲げるなどの、分割可能な最小の動作をいう。各単位動作をA,B,C,…とすると、手話単語は、(A),(B),(C),…,(A,B),(A,C),(B,C),…,(A,B,C),…のように表現される。そして、これら手話単語を組み合わせることによって手話が行われる。
例えば、手話単語(A)が「電源」、手話単語(B,C)が「切断する」を意味するとすると、手話単語(A)および(B,C)を提示する、すなわち単位動作A,BおよびCを連続して行うことによって、「電源を切断する」意が表現される。
【0005】
人と人との間で行う手話の場合、話し手が、手話単語(A)および(B,C)を意図して、単位動作A、BおよびCを連続して行ったとすると、受け手は、その一連の単位動作を、通常、直感的に手話単語(A)および(B,C)と認識できる。しかし、コンピュータ装置に対して手話入力をする場合、利用者が、手話単語(A)および(B,C)を意図して単位動作A、BおよびCを連続して行っても、コンピュータ装置は、その一連の単位動作A、BおよびCを、手話単語(A)および(B,C)であると認識することができない。
【0006】
そこで、従来、利用者は、手話単語(A)と手話単語(B,C)との間に、静止等の予め決められた動作(以下、分節動作a)を挿入するようにしていた。すなわち、「電源を切断する」と入力したい場合、利用者は、手話単語(A)、分節動作aおよび手話単語(B,C)を提示、つまり単位動作A,分節動作a,および単位動作BおよびCを連続して実行する。コンピュータ装置は、提示される一連の動作を検出して、分節動作aを挟んでその前後で分節(セグメンテーション)し、手話単語(A)と手話単語(B,C)とを得る。
【0007】
【発明が解決しようとする課題】
上記のように、コンピュータ装置において行われる従来の動作認識方法では、利用者は、例えば、複数の単語からなる文章を、手話のための手動作によってコンピュータ装置に入力しようとする場合、ある単語と対応する手動作と次の単語と対応する手動作との間に分節動作を逐一挿入しつつ、入力を行わなければならなかった。なぜなら、従来の動作認識方法では、検出される動作を、単語単位に自動的に分節することができなかったからである。
【0008】
なお、検出される一連の単位動作(動作コード列)を単語単位に分節する方法としては、例えば、文字コード列を単語単位に分節して文字に変換するワードプロセッサで行われるものと同様の処理を行うことが考えられる。
しかし、この場合、単語を登録した辞書を参照することによって、動作コード列中の分節位置を求めるので、分節位置が一義的に求まらないことがある。その場合、コンピュータ装置は、いくつかの分節位置に基づく選択肢を利用者に提示し、利用者が、提示された選択肢の中から、自らの意図するものを選ばねばならない。そのため、利用者は、入力に手間がかかり、入力速度も上がらない。
【0009】
例えば、利用者が、手話単語(A)および(B,C)を意図して単位動作A、BおよびCを連続して行ったとき、コンピュータ装置の辞書に手話単語(A),(B),(C),…,(A,B),(A,C),(B,C),…,(A,B,C),…が登録されているとすると、この辞書を参照して分節位置を求めたのでは、分節位置が1つに決まらない。そこで、コンピュータ装置は、可能ないくつかの位置で分節を行い、手話単語(A)および(B,C)や、手話単語(A,B)および(C)、手話単語(A,B,C)などからなる選択肢を提示する。応じて、利用者は、提示された選択肢の中から、自らが意図するものを選び、それをコンピュータ装置に通知する。
つまり、こうした動作コード列に基づいて分節位置を求める方法では、検出される一連の動作を単語単位に自動的に分節することはできない。
【0010】
それゆえに、本発明の目的は、利用者の手動作を認識する際に行われ、利用者側が分節位置を提示しなくても、検出される手動作を単語単位に自動的に分節することができるような手動作分節方法および装置を提供することである。
【0011】
【課題を解決するための手段および発明の効果】
第1の発明は、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも1つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶する遷移動作記憶手段と撮影手段と画像記憶手段と抽出手段と検出手段と手動作分節手段とを備える手動作分節装置において、利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するために実行する手動作分節方法であって、撮影手段が、利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影ステップと、抽出手段が、画像記憶手段から画像データを取り出し、当該画像データから、遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する遷移動作抽出ステップと、検出手段が、遷移動作抽出ステップで抽出した画像データを相互に比較して、遷移動作の現れる身体部位の動きを検出し、動作コード化する遷移動作検出ステップと、手動作分節手段が、遷移動作記憶ステップで記憶した動作コードを遷移動作記憶手段から取り出し、当該動作コードと、遷移動作検出ステップで動作コード化した動作コードとを比較して、遷移動作が現れた時間位置を求め、当該時間位置に基づいて手動作を分節する分節位置を決定する手動作分節ステップとを含んでいる。
【0012】
上記第1の発明によれば、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に現れる遷移動作に基づいて手動作を分節するので、利用者側が分節位置を提示しなくても、検出される手動作を単語単位または複数の単語からなる有意味単位に自動的に分節することができるようになる。
【0022】
第2の発明は、第1の発明において、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段をさらに備え、手動作分節方法は、抽出手段が、画像記憶手段から画像データを取り出し、当該画像データから、非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する非遷移動作抽出ステップと、検出手段が、非遷移動作抽出ステップで抽出した画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化する非遷移動作検出ステップと、手動作分節手段が、非遷移動作記憶ステップで記憶した動作コードを非遷移動作記憶手段から取り出し、当該動作コードと、非遷移動作検出ステップで動作コード化した動作コードとを比較して、非遷移動作が現れた時間位置を求める非遷移動作分節ステップとをさらに含み、手動作分節ステップでは、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【0023】
上記第の発明によれば、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作が現れる時間位置では分節を行わないので、誤って単語を分節することがなくなり、分節処理の精度を高めることができる。
【0027】
第3の発明は、第1の発明において、撮影ステップでは、当該利用者を立体的に撮影して、その3次元画像データを画像記憶手段に記憶し、抽出手段が、画像記憶手段から3次元画像データを取り出し、当該3次元画像データから、右手および左手と対応する3次元画像データを抽出する非遷移動作抽出ステップと、検出手段が、3次元画像データに基づいて、右手および左手の動きを示す3次元ベクトルを検出する非遷移動作検出ステップと、手動作分節手段が、3次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求める非遷移動作分節ステップとをさらに含み、手動作分節ステップでは、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【0028】
の発明は、第の発明において、非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴としている。
【0029】
の発明は、第の発明において、手動作分節装置はさらに、同一動作面テーブル作成手段と、3次元コード列変換手段とを備え、同一動作面テーブル作成手段が、それぞれ互いに異なる方向を持つ3次元ベクトルと対応する複数の3次元動作コードに関し、1つの面内に含まれるような3次元動作コードの組み合わせを記載した同一動作面テーブルを、予め作成するステップと、3次元コード列変換手段が、右手および左手の動きを、複数の3次元動作コードで表現された3次元動作コード列に変換するステップとをさらに含み非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、3次元動作コード列と、同一動作面テーブルに基づいて検出することを特徴としている。
【0034】
第6の発明は、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも1つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段を備えるコンピュータを、
利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、
前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、
前記抽出手段で抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、
前記遷移動作記憶手段から前記動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する手動作分節手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0037】
の発明は、利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するための手動作分節装置であって、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも1つに関する特徴動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段と、利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、画像記憶手段から画像データを取り出し、当該画像データから、遷移動作の現れる身体部位の色と対応する画像データフレームごとに抽出する抽出手段と、抽出手段で抽出した画像データを相互に比較して、遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、遷移動作記憶手段から動作コードを取り出し、当該動作コードと、検出手段で動作コード化した動作コードとを比較して、遷移動作が現れた時間位置を求め、当該時間位置に基づいて手動作を分節する手動作分節手段とを備えている。
【0038】
の発明は、第の発明において、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段をさらに備え、抽出手段は、さらに、画像記憶手段から画像データを取り出し、当該画像データから、非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出し、検出手段は、さらに、抽出手段で抽出した非遷移動作の現れる身体部位と対応する画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化し、手動作分節手段は、さらに、非遷移動作記憶手段から非遷移特徴データの動作コードを取り出し、当該動作コードと、検出手段で動作コード化した非遷移動作の現れる身体部位と対応する画像の動きを示す動作コードとを比較して、非遷移動作が現れた時間位置を求め、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【0039】
の発明は、第7の発明において、撮影手段は、当該利用者を立体的に撮影して、その3次元画像データを画像記憶手段に記憶し、抽出手段は、さらに、画像記憶手段から3次元画像データを取り出し、当該3次元画像データから、非遷移動作の現れる右手および左手と対応する3次元画像データを抽出し、検出手段は、さらに、抽出手段で抽出した3次元画像データに基づいて、右手および左手の動きを示す3次元ベクトルを検出し、手動作分節手段は、さらに、3次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求め、遷移動作が現れた時間位置であっても、非遷移動作が現れた時間位置においては分節を行わないことを特徴としている。
【0040】
10の発明は、第の発明において、手動作分節手段は、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴としている。
【0041】
11の発明は、第9の発明において、手動作分節装置はさらに、それぞれ互いに異なる方向を持つ3次元ベクトルと対応する複数の3次元動作コードに関し、1つの面内に含まれるような3次元動作コードの組み合わせを記載した単一動作面テーブルを、予め作成する手段と、右手および左手の動きを、複数の3次元動作コードで表現された3次元動作コード列に変換する手段とをさらに備え、手動作分節手段は、右手の動作面および左手の動作面の変化を、同一動作面テーブルに基づいて検出することを特徴としている。
【0045】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る手動作分節方法を用いた手動作認識方法を示すフローチャート、図2は、図1の方法を実現するコンピュータ装置の構成の一例を示すブロック図である。
図2において、コンピュータ装置は、CPU201と、RAM202と、プログラム記憶部203と、入力部204と、出力部205と、撮像部206と、画像記憶部207と、手話用手動作記憶部208と、遷移動作記憶部209とを備えている。
【0046】
図2のコンピュータ装置は、利用者が行う手話のための手動作を認識して所定の処理を実行する装置である。具体的には、例えば、所定のプログラムデータをインストールすると共に、テレビカメラを接続することによって、手話入力や手話の自動翻訳を実現する汎用的なパーソナル・コンピュータ・システムを想定している。あるいは、利用者の手動作に応じて電源のon/offや動作モードの切替などを行うマイクロ・コンピュータを備えた家電製品等であってもよい。
図1に示される手動作認識方法には、利用者の手動作を認識する際に、検出された手動作を単語単位または複数の単語からなる有意味単位に分節するための手動作分節処理が含まれる。
【0047】
ここで、本願発明の理解を容易にする目的で、予めその概要を説明しておく。
従来の技術の項目において説明したように、手話では一般に、文章は、複数の手話単語を用いて表現される。そして、各手話単語は、それぞれ1以上の単位動作の組み合わせによって構成されている。一方、コンピュータ装置は、利用者の手動作を一連の単位動作として検出するので、コンピュータ装置に手動作を認識させるには、何らかの方法で、一連の単位動作を利用者の意図する単語単位に分節することが必要となる。
従来の分節方法では、利用者が、ある単語と対応する動作と次の単語と対応する動作との間に静止動作等を挿入し、コンピュータ装置は、静止動作等の検出を行うことによって、一連の単位動作を分節していた。つまり、利用者側が、意図的に分節位置を提示する必要があった。
【0048】
一方、人同士が行う自然な手話では、各単語は、連続的に提示される。本願の発明者は、このような自然な手話において、手話者がある単語と対応する動作を終えてから次の単語と対応する動作を開始するまでの間に、利用者の体に無意識的にある特定の動きが現れることに着目した。例えば、瞬き、閉口、頷きなどである(以下では、こうした単語と単語の切れ目で利用者が無意識的に行う動作を、遷移動作と呼ぶ)。単語と単語の切れ目に挿入される自然な静止動作も、遷移動作に含まれる。これらの遷移動作は、一つの単語と対応する手動作の最中に行われることは少ない。そこで、本願の発明者は、遷移動作を、手動作の分節に利用することを発案した。
【0049】
つまり、図1の方法では、コンピュータ装置は、利用者が行う手話のための手動作を検出する際に、それと平行して遷移動作の検出をも行う。そして、遷移動作が現れる時間位置を求めることによって、手動作(つまり一連の単位動作)を単語ないしは有意味単位に分節する。そのため、上記従来の分節方法と異なり、利用者は、意図的に分節位置を提示する必要がなくなる。
【0050】
さて、図2において、プログラム記憶部203には、図1のフローチャートに示されるような処理を実現するためのプログラムデータが格納されている。CPU201は、プログラム記憶部203に格納されたプログラムデータに従って、図1に示す処理を実行する。RAM202は、CPU201の処理に必要なデータ類や処理中に生じる作業データ等を記憶する。
【0051】
入力部204は、キーボードやマウスを含み、オペレータの操作に応じて、各種指示やデータをCPU201に入力する。出力部205は、ディスプレイやスピーカを含み、CPU201の処理結果等を、映像や音声などの形態で出力する。
【0052】
撮像部206は、少なくとも1台のテレビカメラを含み、利用者の動作を撮像する。ここで、テレビカメラの台数は、利用者の動きを2次元的に捉える場合は1台でよいが、3次元的に捉える場合は2台必要となる。
画像記憶部207は、撮像部206の出力画像を複数フレーム分記憶する。手話用手動作記憶部208には、手話のための手動作の特徴を示す手話特徴データが格納されている。遷移動作記憶部209には、遷移動作の特徴を示す遷移特徴データが格納されている。
【0053】
ここで、プログラム記憶部203へプログラムデータを格納する方法としては、次の3つの方法がある。第1は、プログラムデータを記録した記録媒体からそのプログラムデータを読み取って、プログラム記憶部203へ格納する方法である。第2は、通信回線を通じて伝送されてくるプログラムデータを受信して、プログラム記憶部203に格納する方法である。第3は、本コンピュータ装置の出荷時に、予めプログラム記憶部203へプログラムデータを格納しておく方法である。
なお、手話特徴データおよび遷移特徴データも、上記第1〜第3の方法と同様の方法により、それぞれ手話用手動作記憶部208、遷移動作記憶部209に格納することができる。
【0054】
以下、上記のように構成されたコンピュータ装置の動作について、図1のフローチャートを用いて説明する。
まず、撮像部206によって、利用者の撮像が開始される(ステップS101)。撮像部206から出力される画像データは、所定のサンプリング周期(例えば30分の1秒間隔)で画像記憶部207に格納される(ステップS102)。画像記憶部207に格納される画像データの各フレームには、時系列的に連続番号(フレーム番号)が付される。
【0055】
次に、CPU201は、ステップS102で画像記憶部207に格納された画像データの各フレームから、利用者の手に対応するデータを抽出する(ステップS103)。そして、ステップS103で抽出されたデータに基づいて、利用者の手の動きを検出する(ステップS104)。これらステップS103およびS104の詳細については、後述する。
【0056】
次に、CPU201は、ステップS102で画像記憶部207に格納された画像データから、利用者の体の特定の部位に対応するデータを抽出する(ステップS105)。ここで、特定の部位は、利用者の体のうち前述の遷移動作が現れる部位であり、例えば、目、口、顔(の輪郭)、胴体などである。ステップS105では、これら特定の部位のうち少なくとも1つの部位、好ましくは複数の部位について、各部位に対応するデータの抽出が行われる。以下の説明では、目、口、顔および胴体と対応するデータが抽出されるものとする。
【0057】
次に、CPU201は、ステップS105で抽出したデータに基づいて、上記各部位の動きを検出する(ステップS106)。なお、遷移動作は、目、口、顔および胴体だけでなく手にも現れるが、手の動きについては、ステップS104の検出結果を転用する。
【0058】
ここで、上記ステップS103およびS105のデータ抽出処理、およびステップS104およびS106の動き検出処理について具体的に説明する。
ステップS103およびS105のデータ抽出処理は、例えば、次のようにして行われる。
最初、CPU201は、画像記憶部207に格納された画像データを、利用者の体の各部位に対応付けられた複数の領域に分割する。ここでは、手を含む手領域、顔を含む顔領域、胴体を含む胴体領域の3つの領域に分割する。この領域分割は、例えば、次のようにして行う。
【0059】
次に、利用者が、抽出したい部位の色を、入力部204を通じてCPU201に入力する。すなわち、ステップS103では、手の色(例えば肌色)が入力され、一方、ステップS105では、目の白目部分の色(例えば白色)、唇の色(例えば暗赤色)、顔の色(例えば肌色)、および衣服の色(例えば青)が入力される。
【0060】
応じて、CPU201は、各領域内の画像データを構成する複数の画素データについて、各画素データの示す色が、利用者によって指定された色と一致ないしは近接するか否かを判定し、判定結果が肯定である画素データだけを選択する。
すなわち、ステップS103では、手領域に属する画像データから肌色を示すデータだけが選択されるので、手と対応するデータを抽出することができる。
一方、ステップS105では、顔領域から白色を示すデータだけが選択されるので、目(白目部分)と対応するデータを抽出することができる。同様に、顔領域から暗赤色を示すデータだけが選択されので、口(唇部分)と対応するデータを抽出することができ、顔領域から肌色を示すデータだけが選択されので、顔と対応するデータを抽出することができ、胴体領域から青色を示すデータだけが選択されるので、胴体(衣服)と対応するデータを抽出することができる。
【0061】
ステップS104の動き検出処理は、次のようにして行われる。
CPU201は、ステップS103で各フレームから抽出されたデータを相互に比較することによって、各フレームにおける手の動きを検出する。そして、検出した動きを所定の手順でコード化する。
従って、ステップS104で検出された手の動きは、手に関して決められた複数の動作コードからなるコード列の形態を有する。この動作コード列は、RAM202に一時記憶される。
【0062】
ステップS106の動き検出処理は、次のようにして行われる。
CPU201は、ステップS105で各フレームから抽出されたデータを相互に比較することによって、各フレームにおける目、口、顔および胴体の動きを検出する。そして、検出した動きを所定の手順でコード化する。
従って、ステップS106で検出された各部位(目、口、顔および胴体)の動きは、それら各部位に関して決められた複数の動作コードからなるコード列の形態を有する。これらの動作コード列は、RAM202に一時記憶される。
【0063】
再び図2に戻り、ステップS107以降の処理を説明する。
次に、CPU201は、遷移動作記憶部209から遷移特徴データを読み出してきて、ステップS106で検出した各部位の動きと比較する。ここで、遷移特徴データは、上記ステップS104およびS106で利用者の体の各部位の動きを表現するのに用いられた複数の動作コードを用いて記述されている。そして、各部位(目、口、顔、手および胴体)の動きにおいて、遷移動作(瞬き動作、閉口動作、頷き動作、手静止および胴体静止)に一致ないしは近似している箇所があるか否かを判定する(ステップS107)。
具体的には、CPU201は、RAM202に記憶されている各部位の動作コード列を検索して、遷移特徴データの動作コードまたは動作コード列と一致する箇所があるか否かを判定する。
ステップS107の判定結果が否定である場合、CPU201は、ステップS109に進む。
【0064】
ステップS107の判定結果が肯定である場合、CPU201は、ステップS104で検出した手動作を単語単位に分節するための分節位置を決定する(ステップS108)。この分節位置決定処理は、次のようにして行われる。
最初、CPU201は、各部位の動きにおいて、遷移動作に一致ないしは近似している箇所を、分節位置の候補としてピックアップする。具体的には、RAM202に記憶されている各部位の動作コード列を検索して、遷移特徴データの動作コードまたは動作コード列に一致ないしは類似する箇所を検出し、それら一致ないしは類似箇所の時間位置を、フレーム番号を用いて特定する。こうして特定された時間位置を、以下、分節位置候補と呼ぶことにする。
【0065】
次に、CPU201は、上記のようにして各部位毎にピックアックした分節位置候補を相互に比較して、その比較結果に基づいて、ステップS104で検出した手動作(一連の単位動作)における分節位置を決定する。
【0066】
具体的には、瞬き動作の場合、例えば瞼が閉じた(すなわち白目領域が消失した)瞬間を分節位置候補とする。閉口動作の場合、例えば唇が閉じた瞬間を分節位置とする。頷き動作の場合、例えば顔の下端の動きが下向きから上向きに転じる瞬間(顎の先端が最下点に達した瞬間)を分節位置候補とする。手静止の場合、例えば手の動きが停止した瞬間を分節位置候補とする。胴体静止の場合、例えば胴体の動きが停止した瞬間を分節位置候補とする。
こうしてピックアップされた各部位毎の分節位置候補を相互に比較して、例えば2以上の部位において、ピックアップされた分節位置候補が互いに一致ないしは予め決められた間隔よりも近接している場合、その位置を、分節位置に決定する。より正確には、2以上の部位の分節位置候補が互いに一致した場合は、その一致した位置を分節位置とする。2以上の部位の分節位置候補が互いに近接している場合は、それら近接する2以上の位置の平均位置を分節位置とする(または、近接する2以上の位置のいずれか1つを分節位置としてもよい)。
【0067】
ステップS109では、ステップS108で決定された分節位置を参照して、ステップS104で検出された手動作を翻訳する処理が行われる。
すなわち、CPU201は、ステップS104で検出した手動作を、ステップS108で決定した分節位置で分節し、それによって得られた各手話単語を、手話用手動作記憶部208に格納されている手話特徴データと比較しつつ翻訳する。ここで、手話特徴データは、上記ステップS104で手動作を表現するのに用いられた複数の動作コードを用いて記述されている。
その後、動作を終了するか否かが判断され(ステップS110)、判断結果が否定であればステップS101に戻って上記と同様の処理が繰り返され、肯定であれば、処理が終了される。
【0068】
以上のように、本実施形態によれば、利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に現れる遷移動作に基づいて手動作を分節するので、利用者側が意図的に分節位置を提示しなくても、コンピュータ装置は、検出される手動作を単語単位または複数の単語からなる有意味単位に自動的に分節することができるようになる。
【0069】
なお、第1の実施形態では、画像データを、そこから利用者の体の各部位と対応するデータを抽出する処理に関連して、手を含む手領域、顔を含む顔領域、胴体を含む胴体領域の3つの領域に分割したが、代わりに、それら3つの領域にさらに死手領域を加えた4つの領域に分割してもよい。ここで、死手領域とは、利用者が腕を下ろした状態で手がその領域内にあるような、出力部205の画面の底辺近縁に相当する領域である。
この場合、手が死手領域内に存在する期間は利用者が手話を行っていないと判断され、手が死手領域外に出た瞬間が手動作開始と判断される。これによって、コンピュータ装置は、利用者が手動作を開始したことを明確に認識できるようになる。さらには、死手領域への手の出入を検出するようにして、それを遷移動作として分節に利用してもよい。
【0070】
また、第1の実施形態では、分節位置を決定するための遷移動作として、瞬き動作、閉口動作、頷き動作、手静止および胴体静止(の少なくとも1つ)を検出したが、遷移動作は、これらの動作に限らない。例えば、手と顔との接触動作を遷移動作に加えてもよい。なぜなら、手話では、互いに離れていた手と顔とを接触させたり、互いに接触していた手と顔とを離したりする動作は、単語の先頭や末尾で行われることが多いからである。
【0071】
また、第1の実施形態において、分節位置を決定する際に、遷移動作の継続時間を考慮するようにしてもよい。例えば、手静止の継続時間を計測して、予め決められたしきい値と比較する。そして、継続時間がしきい値よりも長ければ、その手静止を遷移動作と判断して分節位置の決定に利用し、継続時間がしきい値よりも短ければ、その手静止を遷移動作でないと判断して無視する。これによって、分節処理の精度を高めることができる。
【0072】
また、第1の実施形態において、遷移動作に加え、非遷移動作をもさらに記憶しておき、それら遷移動作および非遷移動作に基づいて分節位置を決定してもよい。ここで、非遷移動作とは、一つの単語と対応する手動作を行っている最中に行われ、かつ、ある単語から次の単語へと移行する際には行われることがまれであるような動作である。例えば、両手を互いに接近させる動作、口形を変化させる動作などである。
【0073】
具体的には、図2のコンピュータ装置に非遷移動作記憶部(図示せず)をさらに設け、そこに非遷移動作の特徴を示す非遷移特徴データを格納しておく。その上で、図1のステップS106において、遷移動作に加え、非遷移動作をも検出する。非遷移動作の検出は、遷移動作の検出と同様にして行える。そして、ステップS108において、ステップS106で検出した遷移動作および非遷移動作に基づいて、手動作の分節を行う。
【0074】
すなわち、第1の実施形態では、ピックアップされた各部位毎の分節位置候補を相互に比較して、例えば2以上の部位において、ピックアップされた分節位置候補が互いに一致ないしは予め決められた間隔よりも近接している場合、それら分節位置候補に基づいて分節位置を決定した(具体的には、一致した位置、ないしは近接する2以上の位置の平均値を分節位置に決定した)。これに対し、非遷移動作をも考慮する場合、たとえ2以上の部位において、ピックアップされた分節位置候補が互いに一致ないしは予め決められた間隔よりも近接しても、同時に非遷移動作が検出されていれば、それら分節位置候補に基づいて分節位置を決定することはしない。つまり、非遷移動作が行われている期間は、たとえ遷移動作が検出されても、分節が実行されないことになる。これにより、分節処理の精度を高めることができる。
【0075】
また、第1の実施形態において、コンピュータ装置が遷移動作の検出を正確に行えるようにするために、出力部205の画面を通じ、正しい(つまりコンピュータ装置が認識しやすいような)遷移動作を行わせるよう利用者を誘導するためのアニメーション画像を提示するようにしてもよい。
【0076】
具体的には、図2のコンピュータ装置において、各遷移動作を示すアニメーションの画像データを、図示しないアニメーション記憶部に予め記憶しておく。そして、遷移動作の検出状況(例えば特定の遷移動作の検出頻度が著しく低いことなど)と、手動作の認識状況(検出した遷移動作に基づいて手動作を分節したときに、その手動作を認識できたか否か)とに基づいて、どの遷移動作を利用者に提示すべきかをCPU201が判断し、その遷移動作を示すアニメーションの画像データをアニメーション記憶部から読み出して出力部205へと与える。こうして、出力部205の画面上には、遷移動作を示すアニメーションが表示され、利用者は、表示されたアニメーションを参照ながら、遷移動作を矯正する。
【0077】
(第2の実施形態)
図3は、本発明の第2の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
図3において、手話動作セグメンテーション装置は、画像入力部301、身体特徴抽出部302、特徴運動追跡部303、セグメント位置判定部304およびセグメント要素記憶部305を備えている。
【0078】
手話動作セグメンテーション装置は、例えば手話認識装置(図示せず)に設けられる。そのほか、家電製品や駅の券売機等のようなコンピュータ装置にも設けられる。
画像入力部301へは、テレビカメラ等の画像入力装置を通じて取り込まれた画像が与えられる。ここでは、特に断らない限り、手話者の動作を2次元的に捉えるので、画像入力装置は1台でよい。
【0079】
画像入力部301は、手話者の身体画像を入力する。画像入力部301から入力された画像(以下、入力画像)は、フレーム毎に番号を付与され、身体特徴抽出部302に送られる。セグメント要素記憶部305には、予め、分節を行うための要素(以下、セグメント要素)として、身体特徴と動き特徴とが記憶されている。
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴と対応する画像を抽出する。特徴運動追跡部303は、抽出された画像に基づいて、身体特徴の動きを計算し、その計算結果を示す動き情報を、セグメント位置判定部304に送る。
セグメント位置判定部304は、送られてきた動き情報と、セグメント要素記憶部305に記憶されている動き特徴とに基づいて、セグメント位置を判定し、そのセグメント位置を示すフレーム番号を出力する。
【0080】
ここで、画像入力部301、身体特徴抽出部302、特徴運動追跡部303およびセグメント位置判定部304は、1台もしくは複数台のコンピュータによって実現可能である。セグメント要素記憶部305は、コンピュータに接続されるハードディスクやCD−ROM、DVD等の記録装置によって実現可能である。
【0081】
以下、上記のように構成された手話動作セグメンテーション装置の処理手順について説明する。
図4は、図3の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
図4の各ステップでは、それぞれ以下のような処理が行われる。
【0082】
[ステップS401]
画像入力部301への入力画像があれば、画像入力部301は、1フレーム分の入力画像を取り込む。そして、フレーム番号iに「1」が加えられ、その後、入力画像は、身体特徴抽出部302に送られる。その後、手話動作セグメンテーション装置は、ステップS402に進む。
入力画像がない場合、フレーム番号iに「0」が加えられ、次いで、判定コード番号jに「1」が加えられる。その後、手話動作セグメンテーション装置では、ステップS401が繰り返される。
【0083】
[ステップS402]
身体特徴抽出部302は、手話者の身体に応じて空間領域を分割する。空間領域の分割は、例えば「動作開始位置検出方法」(特開平9−44668号公報)に記述されている方法と同様の方法によって行う。
すなわち、身体特徴抽出部302は、最初、画像データにおいて、背景と人物との色の違い等に基づいて人物領域を検出し、次に、検出した人物領域の輪郭線に沿って、手話者を取り巻く空間領域を分割する。そして、分割して得られる領域毎に、領域コードを設定する。
図5は、身体特徴抽出部302が設定する領域コードの一例を示す図である。
図5において、入力画像501(空間領域)は、人物領域の輪郭線502、頭部外接矩形503、首ライン504、胴体左ライン505、胴体右ライン506、および死手決定ライン507によって分割される。
【0084】
具体的には、身体特徴抽出部302は、最初、人物領域の輪郭線502から首の位置を検出し、この首の高さにおいて、X軸に平行に首ライン504をひく。
次に、画面下端から、首ライン504の高さに死手決定比率をかけた高さの位置に、X軸に水平に死手決定ライン507をひく。ここで、死手決定比率は、手の有効性を確定するためのパラメータであって、死手決定ライン507より下に手が入った場合、たとえ手動作が行われていても、その手動作は無効、つまり手が使われていないのと同様であると判断される。本実施形態では、死手決定比率は、およそ1/5に設定される。
【0085】
次に、上記のようにして分割して得られる各領域に、領域コードが設定される。図中の丸内の数字が、領域コードである。本実施形態では、領域コードは、例えば図5に示されるように設定される。すなわち、頭部外接矩形503の外側にあってかつ首ライン504より上の領域が▲1▼、頭部外接矩形503の内側の領域が▲2▼、首ライン504と死手決定ライン507との間にあってかつ胴体左ライン505の左の領域が▲3▼、首ライン504と死手決定ライン507との間にあってかつ胴体左ライン505と胴体右ライン506との間に挟まれた領域が▲4▼、首ライン504と死手決定ライン507との間にあってかつ胴体右ライン506の右の領域が▲5▼、そして、死手決定ライン507の下の領域が▲6▼のように設定される。
その後、手話動作セグメンテーション装置は、ステップS403に進む。
【0086】
[ステップS403]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴と対応する画像を抽出する。こうして抽出された画像を、以下、抽出身体特徴と呼ぶ。
図6は、セグメント要素記憶部305に記憶されるセグメント要素データの一例を示す図である。
図6において、セグメント要素データは、身体特徴601と、動き特徴602とを含む。身体特徴601には、1以上の身体特徴、ここでは、顔領域と、目と、口と、手領域および胴体と、手領域および顔領域と、手領域とがセットされる。
【0087】
一方、動き特徴602には、身体特徴601にセットされた各身体特徴と対応する動き特徴がセットされる。すなわち、顔領域と対応して頷き頂点がセットされ、目と対応して瞬きがセットされ、口と対応して口形変化がセットされ、手領域および胴体と対応して動作静止がセットされ、手領域および顔領域と対応して手顔接触がセットされ、手領域と対応して手有効性変化点がセットされる。
身体特徴抽出部302は、身体特徴601にセットされた身体特徴を、抽出身体特徴として検出する。例えば、身体特徴601に「顔領域」がセットされている場合、身体特徴抽出部302は、抽出身体特徴として顔領域を抽出する。
【0088】
ここで、顔領域の抽出方法について説明する。
身体特徴抽出部302は、最初、入力画像から、RGB色情報を元に、肌色領域を抽出する。次に、抽出した肌色領域のうち、ステップS402で分割して得られた、領域コードが▲2▼である領域(頭部領域)と重なる部分を取り出し、それを顔領域とする。
【0089】
図7は、身体特徴抽出部302によって抽出された肌色領域の一例を示す図である。
図7に示すように、肌色領域には、顔の肌色領域702および手の肌色領域703がある。そのため、単にRGB色情報に基づいて肌色領域を抽出したのでは、顔の肌色領域702および手の肌色領域703が抽出され、両者の区別が付かない。そこで、図5に示すように、予め入力画像を領域▲1▼〜▲6▼に分割しておき、抽出された肌色領域のうち、頭部領域701(図5の領域▲2▼)と重なる部分だけを取り出す。それによって、顔の肌色領域702が得られる。
【0090】
次に、身体特徴抽出部302は、顔領域情報を生成する。すなわち、抽出した顔領域に関し、その重心、面積、X軸方向最大長およびY軸方向最大長を、i番目の顔領域情報face[i]にセットする。
図8は、身体特徴抽出部302が生成する顔領域情報の一例を示す図である。
図8において、顔領域情報には、顔領域の重心座標801、顔領域の面積802、顔領域のX軸方向最大長803、および顔領域のY軸方向最大長804が含まれる。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0091】
[ステップS404]
フレーム番号iが1の場合、手話動作セグメンテーション装置は、ステップS401に進む。一方、フレーム番号iが1でない場合、ステップS405に進む。
【0092】
[ステップS405]
特徴運動追跡部303は、<式1>を用いて、i番目の顔領域情報face[i]と、i−1番目の顔領域情報face[i−1]とから、顔領域の特徴運動コードを求める。また、i番目の顔領域情報face[i]の重心g_face[i]と、i−1番目の顔領域情報face[i−1]の重心g_face[i−1]とから、i番目の顔領域の顔運動方向ベクトルV_face[i]を求める。
【数1】
Figure 0004565200
【0093】
次に、特徴運動追跡部303は、i番目の顔運動方向ベクトルV_face[i]から、特徴運動コードを決定する
図9は、特徴運動追跡部303が特徴運動コードを決定するための、顔による特徴運動決定条件を示す図である。
図9において、顔による特徴運動決定条件は、運動コード901と、条件902とを含む。運動コード901には、番号「1」〜「8」がセットされ、条件902には、運動コード901にセットされた各番号と対応して、各々、顔による特徴運動決定条件がセットされる。
つまり、特徴運動追跡部303は、i番目の顔運動方向ベクトルV_face[i]を、図9の条件902と比較して、i番目の顔運動方向ベクトルV_face[i]と一致するような顔による特徴運動決定条件を選択する。そして、図9の運動コード901のうち、選択した顔による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0094】
[ステップS406]
セグメント位置判定部304は、特徴運動コードを、セグメント要素記憶部305に記憶されているセグメント要素データ(図6参照)と比較して、特徴運動コードが、動き特徴602と一致するかどうかをチェックする。動き特徴602には、セグメント確定のための動き特徴(動き特徴)を示すパラメータ(動き特徴パラメータ)がセットされている。
【0095】
図10は、動き特徴602にセットされる動き特徴パラメータの一例を示す図である。
図10において、動き特徴パラメータには、動き特徴1001、判定コード1002、時間1003およびセグメント位置1004が含まれる。動き特徴1001は、動き特徴の種別を示す。判定コード1002は、動き特徴を判定する条件となるコード列である。時間1003は、動き特徴を判定する条件となる時間である。セグメント位置1004は、動き特徴におけるセグメント位置を示す。
【0096】
判定コード1002に含まれるコード列では、各コードは、図9の運動コード901(特徴運動コード)と同様の番号「1」〜「8」と、動作静止を示す番号「0」とを用いて表現され、コードとコードの間が”−”で結ばれている。
そして、ステップS405で決定された特徴運動コードと、例えば「1−0−2」が一致するか否かは、「1」の次に「0」、「2」という順番でコードが続くか否かで判定され、その順番でコードが続いた場合に、一致と判定される。
【0097】
なお、( )内のコードについては、それがなくても一致するとみなされる。例えば、「7−(0)−3」は、コード「7」の次に「0」、「3」と続いた場合も、コード「7」の次に「3」と続いた場合も、条件一致とみなされる。
また、”/”を間に挟んだコードは、どちらのコードでもよいことを示す”/”は図示していない。例えば、「0/3」となっている場合、「0」でも「3」でも条件一致とみなされる。
一方、”*”は、どのコードでもよいことを表す。
【0098】
頷き運動を検出する場合、図6の身体特徴601は「顔領域」であり、動き特徴602として「頷き頂点」がセットされている。このとき、セグメント位置判定部304は、ステップS405で決定された顔の特徴運動コードが、図10の「頷き頂点」と対応するコード列「7−(0)−3」と一致するかどうかを判定する。
手話動作セグメンテーション装置は、jが1であるか否かを判定し、j=1の場合、ステップS407に進む。
j>1の場合、ステップS409に進む。
【0099】
[ステップS407]
手話動作セグメンテーション装置は、特徴運動コードが判定コード1002の最初のコードと一致しているか否かを判定し、一致している場合、ステップS408に進む。一致していない場合、S401に進む。
【0100】
[ステップS408]
セグメント位置判定部304は、判定コードデータを作成する。すなわち、1番目の判定コードデータCode_data[1]のコード番号に、特徴運動コードをセットし、1番目の判定コードデータCode_data[1]のコード開始フレーム番号に、iをセットする。
図11は、セグメント位置判定部304が作成する判定コードデータの一例を示す図である。
図11において、判定コードデータには、コード番号1101、コード開始フレーム番号1102、およびコード終了フレーム番号1103が含まれる。
【0101】
例えば、図10の例の場合、特徴運動コードが「7」であれば、1番目の判定コードデータCode_data[1]のコード番号に「7」をセットし、1番目の判定コードデータCode_data[1]のコード開始フレーム番号にiをセットする。
その後、jに2がセットされ、手話動作セグメンテーション装置は、ステップS401に進む。
【0102】
[ステップS409]
特徴運動コードがj−1番目の判定コードデータCode#data[j−1]のコード番号と一致しているか否かが判断され、一致している場合、手話動作セグメンテーション装置は、ステップS401に進む。
特徴運動コードがj−1番目の判定コードデータCode#data[j−1]のコード番号と一致していない場合、ステップS410に進む。
【0103】
[ステップS410]
セグメント位置判定部304は、j−1番目の判定コードデータCode#data[j−1]のコード終了フレーム番号に、i−1をセットする。その後、手話動作セグメンテーション装置は、ステップS411に進む。
【0104】
[ステップS411]
判定コード1002のコード数がj個以上であるか否かが判定され、j個以上の場合、手話動作セグメンテーション装置は、ステップS412に進む。
判定コード1002のコード数がj−1個の場合、ステップS417に進む。
【0105】
[ステップS412]
判定コード1002のj番目のコードと特徴運動コードとが一致しているか否かが判定され、一致していない場合、手話動作セグメンテーション装置は、ステップS413に進む。
一致している場合、ステップS416に進む。
【0106】
[ステップS413]
判定コード1002のj番目のコードが( )付であるか否かが判定され、()付である場合、手話動作セグメンテーション装置は、ステップS414に進む。
( )付でない場合、ステップS415に進む。
【0107】
[ステップS414]
判定コード1002のj+1番目のコードと特徴運動コードとが一致しているか否かが判定され、一致していない場合、手話動作セグメンテーション装置は、ステップS415に進む。
一致している場合、jに1が加えられ、その後、ステップS416に進む。
【0108】
[ステップS415]
jに1がセットされ、その後、手話動作セグメンテーション装置は、ステップS401に進む。
【0109】
[ステップS416]
j番目の判定コードデータCode#data[j]のコード番号に、特徴運動コードがセットされる。また、j番目の判定コードデータCode#data[j]のコード開始フレーム番号に、iがセットされる。そして、jに1が加えられる。その後、手話動作セグメンテーション装置は、ステップS401に進む。
【0110】
[ステップS417]
セグメント位置判定部304は、動き特徴1001およびセグメント位置1004(図10参照)に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「頷き頂点」の場合、「頷き頂点」と対応するセグメント位置は、Y座標最下点であり、セグメント位置判定部304は、Y座標最下点と対応するフレーム番号を求める。
すなわち、1番目の判定コードデータCode#data[1]のコード開始フレーム番号から、j−1番目の判定コードデータCode#data[j−1]のコード終了フレーム番号までに該当する各フレームについて、顔領域の重心のY座標を相互に比較する。そして、Y座標が最小となる(つまり顔領域の重心が最下点にくる)ようなフレームのフレーム番号を、動き特徴におけるセグメント位置とする。
なお、Y座標最下点に該当するフレーム番号が複数出てきた場合は、最初の(番号が最も若い)フレーム番号を、セグメント位置とする。
その後、手話動作セグメンテーション装置は、ステップS418に進む。
【0111】
[ステップS418]
手話動作セグメンテーション装置は、セグメント位置を出力する。その後、ステップS401に戻り、上記と同様の処理を繰り返す。
以上の手順により、頷き運動の検出による手話動作セグメンテーション方法が実現できる。
【0112】
次に、瞬き運動の検出による手話動作セグメンテーション方法について説明する。
瞬き運動の検出による手話動作セグメンテーション方法では、前述の頷き運動の検出による手話動作セグメンテーション方法(図4参照)において、ステップS403の処理を、次のように変更する。
[ステップS403a]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴601(図6参照)と対応する画像を抽出する。
瞬き運動を検出する場合、身体特徴601に「目」が設定され、身体特徴抽出部302は、抽出身体特徴として目を抽出する。
【0113】
ここで、目の抽出方法について説明する。
最初、上記ステップS403と同様の方法で、顔領域を抽出する。次に、抽出された顔領域から、以下のようにして、目を抽出する。
図12は、身体特徴抽出部302によって抽出された顔領域の一例を示す図である。
図12において、抽出された顔領域1201には、眉毛による穴領域1202、目による穴領域1203、および口による穴領域1204が存在する(網掛けした部分が肌色領域)。
【0114】
図中、参照番号1205で示される直線は、顔上下分割ラインである。顔上下分割ライン1205は、抽出された顔領域1201を上下に分割するラインである。
最初、この顔上下分割ライン1205が、顔の上端から顔の下端の間の、顔上下分割比率で指定される位置にひかれる。ここで、顔上下分割比率は、パラメータであり、目の穴領域1203が顔上下分割ライン1205の上側の領域に入るように設定される。本実施形態では、例えば、顔上下分割比率を「1/2」に設定する。
【0115】
次に、顔上下分割ライン1205より上側の顔領域中の穴領域を検出する。
検出された穴領域が2つの場合、それらの穴領域を眉毛と判定し、目は閉じられていると判定する。
検出された穴領域が3つの場合、片目が閉じられていると判定し、3つの穴領域のうち下にある1つを目と判定する。
検出された穴領域が4つの場合、両目が開かれていると判定し、4つの穴領域のうち下にある2つを目と判定する。
図12の例の場合、穴領域が4つあるため、下の2つの穴領域が、目による穴領域1203とわかる。
【0116】
次に、身体特徴抽出部302は、目領域情報を生成する。すなわち、抽出した目の数と、目の面積とを、i番目の目領域情報eye[i]にセットする。
図13は、身体特徴抽出部302によって生成される目領域情報の一例を示す図である。
図13において、目領域情報は、目の数1301、1つめの(目の)面積1302、および2つめの面積1303を含む。
身体特徴抽出部302は、最初、抽出した目の数を、目の数1301にセットする。そして、抽出した目の数に応じ、次のようにして目の面積をセットする。
【0117】
抽出した目の数が0の場合、1つめの面積1302、および2つめの面積1303にそれぞれ0をセットする。
抽出した目の数が1の場合、目(目による穴領域1203)の面積を計算して、1つめの面積1302にセットする。2つめの面積1303には、0をセットする。
抽出した目の数が2の場合、2つの目の面積を各々計算して、1つめの面積1302には、左目(目による穴領域1203の左側の方)の面積をセットし、2つめの面積1303には、右目の面積をセットする。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0118】
瞬き運動の検出による手話動作セグメンテーション方法では、上記のステップS405の処理を、次のように変更する。
[ステップS405a]
特徴運動追跡部303は、<式2>を用いて、i番目の目領域情報eye[i]と、i−1番目の目領域情報eye[i−1]とから、目の特徴運動コードを求める。また、i番目の目領域情報eye[i]の1つめの面積s1_eye[i]と、i−1番目の目領域情報eye[i−1]の1つめの面積s1_eye[i−1]とから、i番目の目の1つめの目の目領域面積変化d1_eye[i]を求める。また、i番目の目領域情報eye[i]の2つめの面積s2_eye[i]と、i−1番目の目領域情報eye[i−1]の2つめの面積s2_eye[i−1]とから、i番目の目の2つめ目領域面積変化d2_eye[i]を求める。
【数2】
Figure 0004565200
【0119】
図14は、特徴運動追跡部303が特徴運動コードを決定するための、目による特徴運動決定条件を示す図である。
図14において、目による特徴運動決定条件は、運動コード1401と、条件1402とを含む。運動コード1401には、番号「0」〜「6」がセットされ、条件1402には、運動コード1401にセットされた各番号と対応して、各々、目による特徴運動決定条件がセットされる。
条件1402中のαは、目が閉じているかどうかを判定する目面積閾値であり、例えば「1」がセットされる。βは、目の大きさが変化しているかどうかを判定する目大きさ変化閾値であり、例えば「5」がセットされる。
【0120】
つまり、特徴運動追跡部303は、i番目の目領域情報eye[i]、i番目の1つめの目領域面積変化d1_eye[i]、および2つめの目領域面積変化d2_eye[i]を、図14の条件1402と比較して、i番目の目領域情報eye[i]、i番目の1つめの目領域面積変化d1_eye[i]、および2つめの目領域面積変化d2_eye[i]と一致するような目による特徴運動決定条件を選択する。そして、図14の運動コード1401のうち、選択した目による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、目が両方閉じている場合、s1_eye[i]≦α、s2_eye[i]≦αとなり、このとき、特徴運動コードは、0となる。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0121】
瞬き運動の検出による手話動作セグメンテーション方法では、上記ステップS417の処理を、次のように変更する。
[ステップS417a]
セグメント位置判定部304は、動き特徴1001およびセグメント位置1004(図10参照)に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「瞬き」の場合、「瞬き」と対応するセグメント位置は、目領域消失点であり、セグメント位置判定部304は、目領域消失点と対応するフレーム番号を求める。
すなわち、2番目の判定コードデータCode#data[2]のコード開始フレーム番号を、セグメント位置とする。
その後、手話動作セグメンテーション装置は、ステップS418に進む。
以上の手順により、瞬き運動の検出による手話動作セグメンテーション方法が実現できる。
【0122】
次に、口形変化(閉口)の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き運動の検出による手話動作セグメンテーション方法(図4参照)において、ステップS403の処理を、次のように変更する。
[ステップS403b]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴601(図6参照)と対応する画像を抽出する。
口形変化(閉口)を検出する場合、身体特徴601に「口」が設定され、身体特徴抽出部302は、抽出身体特徴として口を抽出する。
【0123】
ここで、口の抽出方法について説明する。
最初、上記ステップS403と同様の方法で、顔領域を抽出する。次に、抽出された顔領域から、以下のようにして、口を抽出する。
図12において、最初、ステップS403と同様にして、顔上下分割ライン1205がひかれる。次に、顔上下分割ライン1205より下側の顔領域中の穴領域を検出する。
【0124】
検出された穴領域が2つ以上の場合、それらの穴領域のうち、顔領域の下端との間の距離が口高さ条件に最も近いものを口とする。ここで、口高さ条件は、パラメータであり、標準的な人の口の位置を、顔領域の下端との間の距離によって表したものである。本実施形態では、口高さ条件を「10」に設定する。
検出された穴領域が1つの場合、その穴領域を口とする。
穴領域が検出されない場合、口を閉じているとみなす。
図12の例の場合、顔上下分割ライン1205より下側には、穴領域が1つだけなので、その穴領域が、口による穴領域1204とわかる。
【0125】
次に、身体特徴抽出部302は、口領域情報を生成する。すなわち、抽出した口の面積と、口のY軸方向最大長とを、i番目の口領域情報mouth[i]にセットする。
図15は、身体特徴抽出部302が生成する口領域情報の一例を示す図である。
図15において、口領域情報は、口の面積1501、および口のY軸方向最大長1502を含む。
身体特徴抽出部302は、抽出した口の面積を計算して、口の面積1501にセットし、さらに、口のY軸方向の長さの最大長を計算して、口のY軸方向最大長1502にセットする。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0126】
口形変化の検出による手話動作セグメンテーション方法では、上記のステップS405の処理を、次のように変更する。
[ステップS405b]
特徴運動追跡部303は、<式3>を用いて、i番目の口領域情報mouth[i]と、i−1番目の口領域情報mouth[i−1]とから、口の特徴運動コードを求める。また、i番目の口領域情報mouth[i]の面積s_mouth[i]と、i−1番目の口領域情報mouth[i−1]の面積s_mouth[i−1]とから、i番目の口の口領域面積変化d_mouth[i]を求める。
【数3】
Figure 0004565200
【0127】
また、<式4>を用いて、i番目の口領域情報mouth[i]のY軸方向最大長h_mouth[i]と、i−1番目の口領域情報mouth[i−1]のY軸方向最大長h_mouth[i−1]とから、i番目の口のY軸方向変化y_mouth[i]を求める。
【数4】
Figure 0004565200
【0128】
図16は、特徴運動追跡部303が特徴運動コードを決定するための、口による特徴運動決定条件を示す図である。
図16において、口による特徴運動決定条件は、運動コード1601と、条件1602とを含む。運動コード1601には、番号「0」および「1」がセットされ、条件1602には、運動コード1601にセットされた各番号と対応して、各々、口による特徴運動決定条件がセットされる。
条件1602中のγは、口形の変化の有無を判定するための口面積変化閾値であり、本実施形態では、例えば「5」がセットされる。λは、口Y軸方向変化閾値であり、例えば「3」がセットされる。
【0129】
つまり、特徴運動追跡部303は、i番目の口領域面積変化d_mouth[i]およびY軸方向最大長h_mouth[i]を、図16の条件1602と比較して、i番目の口領域面積変化d_mouth[i]およびY軸方向最大長h_mouth[i]と一致するような口による特徴運動決定条件を選択する。そして、図16の運動コード1601のうち、選択した口による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、口が閉じている場合は、s_mouth[i]≦γとなり、このとき、特徴運動コードは、「0」となる。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0130】
口形変化の検出による手話動作セグメンテーション方法では、上記のステップS417の処理を、次のように変更する。
[ステップS417b]
セグメント位置判定部304は、動き特徴1001およびセグメント位置1004(図10参照)に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「口形変化」の場合、「口形変化」と対応するセグメント位置は、変化始点終点であり、セグメント位置判定部304は、変化始点終点と対応するフレーム番号を求める。
すなわち、2番目の判定コードデータCode#data[2]のコード開始フレーム番号と、2番目の判定コードデータCode#data[2]のコード終了フレーム番号とを、セグメント位置として出力する。
その後、手話動作セグメンテーション装置は、ステップS418に進む。
以上の手順により、口形変化の検出による手話動作セグメンテーション方法が実現できる。
【0131】
次に、手および胴体の静止動作の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法(図4参照)において、ステップS403の処理を、次のように変更する。
[ステップS403c]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴601(図6参照)と対応する画像を抽出する。
手および胴体の静止動作を検出する場合、身体特徴601に「手領域、胴体」が設定され、身体特徴抽出部302は、抽出身体特徴として手領域および胴体を抽出する。
【0132】
ここで、手領域および胴体の抽出方法について説明する。
最初、身体特徴抽出部302は、上記ステップS403と同様の方法で、手領域を抽出する。すなわち、入力画像から肌色領域を抽出して、抽出された肌色領域のうち頭部領域と重複しない部分を取り出し、それを手領域とする。
図7の場合、肌色領域のうち頭部領域と重複しない領域、すなわち手の肌色領域703が抽出される。
胴体については、ステップS402で検出された人物領域を、そのまま胴体とする。
【0133】
次に、身体特徴抽出部302は、手領域情報を生成する。すなわち、抽出した手領域に関し、その重心、面積、X軸方向最大長およびY軸方向最大長を、i番目の手領域情報hand[i]にセットする。次いで、抽出した胴体に関し、その重心、面積、X軸方向最大長およびY軸方向最大長を、i番目の胴体情報body[i]にセットする。
図17は、身体特徴抽出部302が生成する手領域情報の一例を示す図である。
図17において、手領域情報には、手の数1701、1つめの手の重心座標1702、1つめの手の面積1703、2つめの手の重心座標1704、および2つめの手の面積1705が含まれる。
身体特徴抽出部302は、最初、抽出した手の数を、手の数1701にセットする。そして、抽出した手の数に応じ、次のようにして手の重心座標および手の面積をセットする。
【0134】
抽出した手の数1701が0の場合、1つめの手の重心座標1702、および2つめの手の重心座標1704に、それぞれ(0,0)を設定し、また、1つめの手の面積1703、および2つめの手の面積1705に、それぞれ0を設定する。
抽出した手の数1701が「1」の場合、手領域の重心座標および面積を計算して、1つめ手の重心座標1702、および1つめの手の面積1703にセットする。また、2つめの手の重心座標1704に(0、0)をセットし、2つめの手の面積1705に0をセットする。
抽出した手の数1701が「2」の場合、2つの手領域のうち左側の領域の重心座標および面積を計算して、1つめ手の重心座標1702、および1つめの手の面積1703にセットする。また、2つの手領域のうち右側の領域の重心座標および面積を計算して、2つめ手の重心座標1704、および2つめの手の面積1705にセットする。
胴体情報body[i]は、顔領域情報face[i]と同様、図8の構成で実現できる。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0135】
手および胴体の静止動作の検出による手話動作セグメンテーション方法では、上記のステップS405の処理を、次のように変更する。
[ステップS405c]
特徴運動追跡部303は、<式5>を用いて、i番目の手領域情報hand[i]と、i−1番目の手領域情報hand[i−1]と、i番目の胴体情報body[i]と、i−1番目の胴体情報body[i−1]とから、手領域および胴体の特徴運動コードを求める。また、i番目の手領域情報hand[i]の1つめの手の重心g1_hand[i]と、i−1番目の手領域情報hand[i−1]の1つめの手の重心g1_hand[i−1]とから、i番目の手領域の1つめの手の移動量m1_hand[i]を求める。また、i番目の手領域情報hand[i]の2つめの手の重心g2_hand[i]と、i−1番目の手領域情報hand[i−1]の2つめの手の重心g2_hand[i−1]とから、i番目の手領域の2つめの手の移動量m2_hand[i]を求める。
【数5】
Figure 0004565200
【0136】
また、<式6>を用いて、i番目の手領域情報hand[i]の1つめの手の面積s1_hand[i]と、i−1番目の手領域情報hand[i−1]の1つめの手の面積s1_hand[i−1]とから、i番目の手領域の1つめの手の面積変化量d1_hand[i]を求める。また、i番目の手領域情報hand[i]の2つめの手の面積s2_hand[i]と、i−1番目の手領域情報hand[i−1]の2つめの手の面積s2_hand[i−1]とから、i番目の手領域の2つめの手の面積変化量d2_hand[i]を求める。
【数6】
Figure 0004565200
【0137】
また、<式7>を用いて、i番目の胴体情報body[i]の重心g_body[i]と、i−1番目の胴体情報body[i−1]の重心g_body[i−1]とから、i番目の胴体の移動量m_body[i]を求める。
【数7】
Figure 0004565200
【0138】
図18は、胴体および手領域による特徴運動決定条件を示す図である。
図18において、胴体および手領域による特徴運動決定条件は、運動コード1801と、条件1802とを含む。運動コード1801には、番号「0」および「1」がセットされ、条件1802には、運動コード1801にセットされた各番号と対応して、各々、胴体および手領域による特徴運動決定条件がセットされる。
条件1802中のχは、手領域の停止判定閾値であり、本実施形態では、例えば「5」がセットされる。δは、手領域の形状変化判定閾値であり、例えば「10」がセットされる。εは、胴体の停止判定閾値であり、例えば「5」がセットされる。
【0139】
つまり、特徴運動追跡部303は、i番目の手領域の1つめの手の移動量m1_hand[i]、i番目の手領域の2つめの手の移動量m2_hand[i]、i番目の手領域の1つめの手の面積変化量d1_hand[i]、i番目の手領域の2つめの手の面積変化量d2_hand[i]、およびi番目の胴体の移動量m_body[i]を、図18の条件1802と比較して、i番目の手領域の1つめの手の移動量m1_hand[i]、i番目の手領域の2つめの手の移動量m2_hand[i]、i番目の手領域の1つめの手の面積変化量d1_hand[i]、i番目の手領域の2つめの手の面積変化量d2_hand[i]、およびi番目の胴体の移動量m_body[i]と一致するような手領域および胴体による特徴運動決定条件を選択する。そして、図18の運動コード1801のうち、選択した手領域および胴体による特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、手領域が左右に移動中の場合、i番目の手領域の移動量m_hand[i]>χとなり、このとき、特徴運動コードは、「1」となる。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0140】
手および胴体の静止動作の検出による手話動作セグメンテーション方法では、上記のステップS417の処理を、次のように変更する。
[ステップS417c]
セグメント位置判定部304は、動き特徴1001およびセグメント位置1004(図10参照)に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「動作静止」の場合、「動作静止」と対応するセグメント位置は、動作静止始点であり、セグメント位置判定部304は、動作静止始点と対応するフレーム番号を求める。
または、静止区間の中間点と対応するフレーム番号を求めてもよい。この場合、1番目の判定コードデータCode_data[1]のコード開始フレーム番号と、1番目の判定コードデータCode_data[1]のコード終了フレーム番号とを求めて、それらの中間値を計算すればよい。
その後、手話動作セグメンテーション装置は、ステップS418に進む。
以上の手順により、手および胴体の静止動作の検出による手話動作セグメンテーション方法が実現できる。
【0141】
次に、手と顔との接触動作の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法(図4参照)において、ステップS403の処理を、次のように変更する。
[ステップS403d]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴601(図6参照)と対応する画像を抽出する。
手と顔との接触動作を検出する場合、身体特徴601に「顔領域、手領域」が設定され、抽出身体特徴として顔領域および手領域を抽出する。
【0142】
ここで、顔領域および手領域の抽出方法について説明する。
最初、上記ステップS403と同様の方法で、顔領域を抽出し、また、上記ステップS403cと同様の方法で、手領域を抽出する。
次に、抽出した顔領域に関し、その重心、面積、X軸方向最大長およびY軸方向最大長を、i番目の顔領域情報face[i]にセットする。また、抽出した手領域に関し、その重心、面積、X軸方向最大長およびY軸方向最大長を、i番目の手領域情報hand[i]にセットする。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0143】
手と顔との接触動作の検出による手話動作セグメンテーション方法では、上記のステップS405の処理を、次のように変更する。
[ステップS405d]
特徴運動追跡部303は、<式8>を用いて、i番目の手領域情報hand[i]と、i番目の顔領域情報face[i]とから、手領域および顔領域の特徴運動コードを求める。また、i番目の手領域情報hand[i]の1つめの手の重心g1_hand[i]と、i番目の顔領域情報face[i]の重心g_face[i]とから、i番目の手領域の1つめの手と顔との距離l1_fh[i]を求める。また、i番目の手領域情報hand[i]の2つめの手の重心g2_hand[i]と、i番目の顔領域情報face[i]の重心g_face[i−1]とから、i番目の手領域の2つめの手と顔との距離l2_fh[i]を求める。
【数8】
Figure 0004565200
【0144】
ただし、i番目の手領域情報hand[i]の1つめの手の面積s1_hand[i]が0の場合は、l1_fh[i−1]≦Φであれば、l1_fh[i]=0とする。l1_fh[i−1]>Φであれば、l1_fh[i]=1000とする。
同様に、i番目の手領域情報hand[i]の2つめの手の面積s2_hand[i]が0の場合、l2_fh[i−1]≦Φであれば、l2_fh[i]=0とする。l2_fh[i−1]>Φであれば、l2_fh[i]=1000とする。ここで、Φは、顔と手との距離閾値であり、本実施形態では、例えば「20」がセットされる
【0145】
図19は、特徴運動追跡部303が特徴運動コードを決定するための、手と顔との接触動作による特徴運動決定条件を示す図である。
図19において、手と顔との接触動作による特徴運動決定条件は、運動コード1901と、条件1902とを含む。運動コード1901には、番号「0」および「1」がセットされ、条件1902には、運動コード1901にセットされた各番号と対応して、各々、手と顔との接触動作による特徴運動決定条件がセットされる。
条件1902中のωは、手領域と顔領域の接触閾値であり、本実施形態では、例えば「5」がセットされる。
【0146】
つまり、特徴運動追跡部303は、i番目の手領域の1つめの手と顔との距離l1_fh[i]、およびi番目の手領域の2つめの手と顔との距離l2_fh[i]を、図19の条件1902と比較して、i番目の手領域の1つめの手と顔との距離l1_fh[i]、およびi番目の手領域の2つめの手と顔との距離l2_fh[i]と一致するような特徴運動決定条件を選択する。そして、図19の運動コード1901のうち、選択した特徴運動決定条件と対応する番号を取り出すことによって、特徴運動コードを決定する。
例えば、右手が顔と重なっている場合、i番目の手領域の一つめの手と顔の距離l1_fh[i]=0となり、このとき、特徴運動コードは、「0」となる。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0147】
手と顔との接触動作の検出による手話動作セグメンテーション方法では、上記のステップS417の処理を、次のように変更する。
[ステップS417d]
セグメント位置判定部304は、動き特徴1001およびセグメント位置1004(図10参照)に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「手と顔との接触動作」の場合、「手顔接触」と対応するセグメント位置は、「接触始点終点」であり、セグメント位置判定部304は、手顔接触区間の始点および終点と対応するフレーム番号を求める。
すなわち、1番目の判定コードデータCode#data[1]のコード開始フレーム番号と、1番目の判定コードデータCode#data[1]のコード終了フレーム番号とを、セグメント位置とする。
その後、手話動作セグメンテーション装置は、ステップS401に進む。
以上の手順により、手と顔との接触動作の検出による手話動作セグメンテーション方法が実現できる。
【0148】
次に、手の有効性変化の検出による手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法(図4参照)において、ステップS403の処理を、次のように変更する。
[ステップS403e]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴601(図6参照)と対応する画像を抽出する。
手の有効性変化を検出する場合、身体特徴601に「手領域」が設定され、身体特徴抽出部302は、抽出身体特徴として手領域を抽出する。
【0149】
なお、手領域は、上記ステップS403cと同様の方法で抽出する。
次に、身体特徴抽出部302は、抽出した手領域に関し、その重心、面積、X軸方向最大長およびY軸方向最大長を、i番目の手領域情報hand[i]にセットする。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0150】
手の有効性変化の検出による手話動作セグメンテーション方法では、上記のステップS405の処理を、次のように変更する。
[ステップS405e]
特徴運動追跡部303は、前述の<式5>を用いて、i番目の手領域情報hand[i]から、手の有効性および動きによる特徴運動コードを求める。
また、i番目の手領域情報hand[i]の1つめの手の重心g1_hand[i]から、1つめの手が、上記ステップS402で空間分割して得られた複数の領域(図5参照)のうちどの領域に属するかを判定して、その領域コードを求め、一つめの手の手領域空間コードsp1_hand[i]にセットする。なお、i番目の手領域情報hand[i]の1つめの手の面積s1_hand[i]が0の場合、1つめの手の手領域空間コードsp1_hand[i]に「6」をセットする。
【0151】
また、i番目の手領域情報hand[i]の2つめの手の重心g2_hand[i]から、領域コードを求めて、2つめの手の手領域空間コードsp2_hand[i]にセットする。なお、i番目の手領域情報hand[i]の2つめの手の面積s2_hand[i]が0の場合、2つめの手の手領域空間コードsp2_hand[i]に「6」をセットする。
【0152】
また、i番目の手領域情報hand[i]の1つめの手の重心g1_hand[i]と、i−1番目の手領域情報hand[i−1]の1つめの手の重心g1_hand[i−1]とから、i番目の手領域の1つめの手の移動量m1_hand[i]を求める。
また、i番目の手領域情報hand[i]の2つめの手の重心g2_hand[i]と、i−1番目の手領域情報hand[i−1]の2つめの手の重心g2_hand[i−1]とから、i番目の手領域の2つめの手の移動量m2_hand[i]を求める。
【0153】
図20は、特徴運動追跡部303が特徴運動コードを決定するための、手の有効性変化による特徴運動決定条件を示す図である。
図20において、手の有効性変化による特徴運動決定条件は、運動コード2001と、条件2002とを含む。運動コード2001には、番号「0」〜「5」がセットされ、条件2002には、運動コード2001にセットされた各番号と対応して、各々、手と顔との接触動作による特徴運動決定条件がセットされる。
条件2002中のχは、手領域の停止判定閾値であり、本実施形態では、例えば「5」がセットされる。
【0154】
つまり、特徴運動追跡部303は、i番目の手領域の1つめの手の手領域空間コードsp1_hand[i]、i番目の手領域の1つめの手の移動量m1_hand[i]、i番目の手領域の2つめの手の手領域空間コードsp2_hand[i]、およびi番目の手領域の2つめの手の移動量m2_hand[i]を、図20の条件2002と比較して、i番目の手領域の1つめの手の手領域空間コードsp1_hand[i]、i番目の手領域の1つめの手の移動量m1_hand[i]、i番目の手領域の2つめの手の手領域空間コードsp2_hand[i]、およびi番目の手領域の2つめの手の移動量m2_hand[i]と一致するような手と顔との接触動作による特徴運動決定条件を選択する。
例えば、右手が移動中で、かつ左手が入力画像501(図5参照)の一番下の位置まで降りた状態の場合、i番目の手領域の1つめの手の移動量m1_hand[i]>χとなり、i番目の手領域の2つめの手の手領域空間コードsp2_hand[i]=7となり、このとき、特徴運動コードは、「2」となる。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0155】
手の有効性変化の検出による手話動作セグメンテーション方法では、上記のステップS417の処理を、次のように変更する。
[ステップS417e]
セグメント位置判定部304は、動き特徴1001およびセグメント位置1004(図10参照)に基づき、動き特徴におけるセグメント位置を求める。
動き特徴が「手の有効性変化点」の場合、「手有効性変化点」と対応するセグメント位置は、「コード変化点」であり、セグメント位置判定部304は、コード変化点と対応するフレーム番号を求める。
すなわち、1番目の判定コードデータCode_data[1]のコード開始フレーム番号と、1番目の判定コードデータCode_data[1]のコード終了フレーム番号とを、セグメント位置とする。
その後、ステップS418に進む。
以上の手順により、手の有効性変化の検出による手話動作セグメンテーション方法が実現できる。
【0156】
次に、上記の各動作の検出の組み合わせによる手話動作セグメンテーション方法について説明する。
この場合、前述の頷き動作の検出による手話動作セグメンテーション方法(図4参照)において、ステップS403を次のように変更する。
[ステップS403f]
身体特徴抽出部302は、入力画像から、セグメント要素記憶部305に記憶されている身体特徴601(図6参照)と対応する画像を抽出する。
上記の各動作を検出する場合、身体特徴601に「顔領域」、「目」、「口」、「手領域、胴体」、「手領域、顔領域」および「手領域」が設定され、身体特徴抽出部302は、抽出身体特徴として、顔領域、目、口、手領域および胴体を抽出する。
なお、顔領域は、上記ステップS403と同様の方法で抽出する。目は、上記ステップS403aと同様の方法で抽出する。口は、上記ステップS403bと同様の方法で抽出する。手領域および胴体は、上記ステップS403cと同様の方法で抽出する。
【0157】
次に、身体特徴抽出部302は、抽出した顔領域、目、口、手領域および胴体に関する情報を、各々、顔領域情報face[i]、目領域情報eye[i]、口領域情報mouth[i]、手領域情報hand[i]、および胴体情報body[i]にセットする。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0158】
そして、手話動作セグメンテーション装置は、上記ステップS405からステップS417までを処理し、続いて、上記ステップS405bからステップS417bまでを処理する。以降、上記ステップS405cからステップS417cまでの処理、上記ステップS405dからステップS417dまでの処理、および上記ステップS405eからステップS417dまでの処理を、順番に処理する。
これにより、上記の各動作の検出の組み合わせによる手話動作セグメンテーション方法が実現できる。
【0159】
次に、上記各方法において、検出した動作の継続時間を考慮してセグメンテーションを行うような手話動作セグメンテーション方法について説明する。
図21は、頷き動作の検出による手話動作セグメンテーション方法(図4参照)において、検出した動作の継続時間を考慮してセグメンテーションを行う場合の処理の流れを示すフローチャートである。
図21の方法は、図4の方法において、ステップS411を次のように変更し、さらにステップS2101を追加したものである。
[ステップS411a]
判定コード1002のコード数がj個以上か否かが判定され、j個以上の場合、ステップS412に進む。
j−1個の場合、ステップS2101に進む。
【0160】
[ステップS2101]
最初、1番目の判定コードデータCode_data[1]のコード開始フレーム番号と対応するフレームから、j−1番目の判定コードデータCode_data[j−1]のコード終了フレーム番号と対応するフレームまでのフレーム数が、特徴継続時間にセットされる。
次に、動き特徴パラメータ(図10参照)の時間1003に、値が設定されているか否かが判定され、さらに、特徴継続時間が、時間1003に設定された値より小さいか否かが判定される。
そして、時間1003に値が設定されており、かつ特徴継続時間が時間1003に設定された値より小さい場合、ステップS415に進む。
時間1003に何も設定されていないか、特徴継続時間が時間1003に設定された値以上の場合、ステップS417に進む。
以上の手順により、検出した動作の継続時間を考慮してセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【0161】
次に、セグメント要素に加えて、非セグメント要素を検出してセグメンテーションを行うような手話動作セグメンテーション方法について説明する。
(第3の実施形態)
図22は、本発明の第3の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
図22の装置は、図3の装置において、非セグメント要素記憶部2201をさらに備えている。非セグメント要素記憶部2201には、セグメントを行わない条件となる非セグメント要素が、予め記憶されている。他の構成要素は、図3のものと同様のものである。
すなわち、図22の装置は、セグメント要素に加えて、非セグメント要素をも検出し、それらに基づいて手話動作のセグメンテーションを行うような手話動作セグメンテーション方法を実行する。
【0162】
以下、上記のように構成された手話動作セグメンテーション装置の処理手順について説明する。
最初、非セグメント要素として、両手の接近を検出する場合を説明する。
図23および24は、図22の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
図23および24の方法は、図21の方法において、ステップS403の後にステップS2401を追加し、また、ステップS405の後にステップS2402〜S2405を追加し、さらに、ステップS418をステップS418aのように変更したものである。
これら各ステップ(S2401〜S2405,S418a)では、以下のような処理が行われる。
【0163】
[ステップS2401]
身体特徴抽出部302は、入力画像から、非セグメント要素記憶部2201に記憶されている身体特徴と対応する画像を抽出する。
図25は、非セグメント要素記憶部2201に記憶されている非セグメント要素データの一例を示す図である。
図25において、非セグメント要素データは、身体特徴2501と、非セグメント動き特徴2502とを含む。
例えば、両手の接近を検出する場合、「手領域」が身体特徴2501にセットされている。
身体特徴抽出部302は、手領域を非セグメント身体特徴として抽出する。手領域は、上記ステップS403cの手順で抽出できる。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0164】
[ステップS2402]
次の手順で、非セグメント特徴運動コードが決定される。
i番目の手領域情報hand[i]の手の数が2の場合、特徴運動追跡部303は、<式9>を用いて、i番目の手領域情報hand[i]の1つめの手の重心g1_hand[i]と、2つめの手の重心g2_hand[i]とから、i番目の手領域の手間距離l_hand[i]を求める。
【数9】
Figure 0004565200
【0165】
次に、<式10>を用いて、i番目の手領域の手間距離l_hand[i]と、i−1番目の手領域の手間距離l_hand[i−1]とから、手間距離変化量dl_hand[i]を求める。
【数10】
Figure 0004565200
【0166】
i番目の手領域情報hand[i]の手の数が2でないか、または、i番目の手領域情報hand[i]の手の数と、i−1番目の手領域情報hand[i−1]の手の数とが異なる場合、特徴運動追跡部303は、手間距離変化量dl_hand[i]に、負でない値、例えば1000をセットする。
手間距離変化量dl_hand[i]≦−θの場合、非セグメント特徴運動コードは、「1」となる。手間距離変化量dl_hand[i]>−θの場合、非セグメント特徴運動コードは、「0」となる。ここで、θは、手間距離変化閾値であり、本実施形態では、例えば「5」がセットされる。
非セグメントコード番号kに何もセットされていない場合、非セグメントコード番号kに「1」がセットされ、非セグメント特徴フレーム数に「0」がセットされる。
ここで非セグメントコード番号kは、非セグメント特徴運動コードを構成するコードの個数を示し、非セグメント特徴フレーム数は、非セグメント動き特徴の検出期間に相当するフレーム数、つまり検出開始フレームから検出終了フレームまでのフレーム数を示す。
その後、手話動作セグメンテーション装置は、ステップ3003に進む。
【0167】
[ステップS2403]
セグメント位置判定部304は、非セグメント特徴運動コードを、非セグメント要素記憶部2201に記憶されている非セグメント要素データ(図25参照)と比較して、非セグメント特徴運動コードが、非セグメント動き特徴2502と一致するかどうかをチェックする。非セグメント動き特徴2502には、非セグメント確定のための動き特徴(非セグメント動き特徴)を示すパラメータ(非セグメント動き特徴パラメータ)がセットされている。
【0168】
図26は、非セグメント動き特徴2502にセットされる非セグメント動き特徴パラメータの一例を示す図である。
図26において、非セグメント動き特徴パラメータは、非セグメント動き特徴2601、判定コード2602、および時間2603を含む。非セグメント動き特徴2601は、非セグメント動き特徴の種別を示す。判定コード2602は、非セグメント動き特徴を判定する条件となるコード列である。時間2603は、非セグメント動き特徴を判定する条件となる時間である。
判定コード2602は、図10の動き特徴パラメータ中の判定コード1002と同様の方法で記述される。時間2603には、非セグメント動き特徴2601の最低継続時間が設定される。
【0169】
判定コード2602と、ステップS2402で決定された非セグメント特徴運動コードのk番目のコード、つまり非セグメント特徴運動コードを構成する最後のコードとが異なる場合、手話動作セグメンテーション装置は、ステップS2404に進む。
同じ場合、ステップS2405に進む。
【0170】
[ステップS2404]
非セグメント特徴フレーム数に「0」がセットされ、非セグメントコード番号kに「1」がセットされる。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0171】
[ステップS2405]
非セグメント特徴フレーム数に「1」が加算される。
k>2ので非セグメント確定コード列条件のk−1番目のコードと、非セグメント特徴運動コードとが異なる場合、kに「1」が加算される。
その後、手話動作セグメンテーション装置は、ステップS406に進む。
【0172】
[ステップS418a]
非セグメント動き特徴パラメータ(図26参照)中の時間2603に値が設定されていない場合、非セグメント時間最小値に0がセットされる。
時間2603に値が設定されている場合、非セグメント時間最小値に、時間2603の値をセットする。
非セグメント特徴フレーム数が、非セグメント時間最小値に相当するフレーム数より小さい場合は、ステップS417でセットしたセグメント位置を出力する。
その後、手話動作セグメンテーション装置は、ステップS401に進む。
以上の手順により、セグメント要素に加えて、非セグメント要素(両手接近)をも検出し、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【0173】
次に、非セグメント要素として口形変化を検出する場合を説明する。
この場合、上記のステップS2401を次のように変更する。
[ステップS2401a]
身体特徴抽出部302は、入力画像から、非セグメント要素記憶部2201に記憶されている身体特徴と対応する画像を抽出する。
図25において、口形変化を検出する場合、「口」が身体特徴2501にセットされている。
身体特徴抽出部302は、口を非セグメント身体特徴として抽出する。口は、上記ステップS403bの手順で抽出できる。
その後、手話動作セグメンテーション装置は、ステップS404に進む。
【0174】
また、上記のステップS2402を次のように変更する。
[ステップS2402a]
次の手順で、非セグメント特徴運動コードが決定される。
特徴運動追跡部303は、最初、上記のステップS405bと同様の手順で、i番目の口領域情報の口領域面積変化d_mouth[i]、およびi番目の口領域情報のY軸方向変化y_mouth[i]を求める。
次に、i番目の口領域情報の口領域面積変化d_mouth[i]、およびi番目の口領域情報のY軸方向変化y_mouth[i]を、図16の条件1602と比較して、i番目の口領域情報の口領域面積変化d_mouth[i]、およびi番目の口領域情報のY軸方向変化y_mouth[i]と一致するような口による特徴運動決定条件を選択する。そして、図16の運動コード1601のうち、選択した口による特徴運動決定条件と対応する番号を取り出すことによって、非セグメント特徴運動コードを決定する。
例えば、口を動かしていない場合、口の面積およびY軸方向最大長が変化せず、このとき、非セグメント特徴運動コードは、「0」となる。
非セグメントコード番号kに何もセットされていない場合、非セグメントコード番号kに「1」がセットされ、非セグメント特徴フレーム数に「0」がセットされる。
その後、手話動作セグメンテーション装置は、ステップS2403に進む。
以上の手順により、セグメント要素に加えて、非セグメント要素(口形変化)をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【0175】
次に、非セグメント要素として、右手と左手との動作の対称性を検出する場合を説明する。
この場合、上記のステップS2402を次のように変更する。
[ステップS2402b]
次の手順で、非セグメント特徴運動コードが決定される。
特徴運動追跡部303は、最初、i番目の手領域情報hand[i]の手の数が1以下か否かを判定し、1以下の場合、非セグメント特徴運動コードに0をセットする。その後、手話動作セグメンテーション装置は、ステップS2403に進む。
i番目の手領域情報hand[i]の手の数が2の場合、特徴運動追跡部303は、〈式11〉を用いて、i番目の手領域情報hand[i]の1つめの手の重心g1_hand[i]と、2つめの手の重心g2_hand[i]と、i−1番目の手領域情報hand[i−1]の1つめの手の重心g1_hand[i−1]と、2つめの手の重心g2_hand[i−1]とから、i番目の1つめの手領域運動方向ベクトルvh[1][i]、およびi番目の2つめの手領域運動方向ベクトルvh[2][i]を求める。
【数11】
Figure 0004565200
【0176】
次に、特徴運動追跡部303は、<式12>により、i番目の1つめの手領域の移動量dvh[1][i]、およびi番目の2つめの手領域の移動量dvh[2][i]を求める。
【数12】
Figure 0004565200
【0177】
図27は、特徴運動追跡部303が非セグメント特徴運動コードを決定するための、手話動作の対称性による非セグメント特徴運動決定条件である。
図27において、手話動作の対称性による非セグメント特徴運動決定条件は、運動コード2701と、条件2702とを含む。運動コード2701には、番号「0」〜「8」がセットされ、条件2702には、運動コード2701にセットされた各番号と対応して、各々、手話動作の対称性による非セグメント特徴運動決定条件がセットされる。
次に、特徴運動追跡部303は、図27の手話動作の対称性による非セグメント特徴運動決定条件により、i番目の1つめの手領域運動コードCh[1][i]、およびi番目の2つめの手領域運動コードCh[2][i]を求める。
非セグメント特徴フレーム数が0の場合、1つめの非セグメント条件始点Psh[1]に、i−1番目の手領域情報hand[i−1]の1つめの手の重心g1_hand[i−1]をセットし、2つめの非セグメント条件始点Psh[2]に、i−1番目の手領域情報hand[i−1]の2つめの手の重心g2_hand[i−1]をセットする。
【0178】
ここで、非セグメント要素記憶部2201には、予め、手話動作の対称性による非セグメントコード決定条件が記憶されている。
図28は、非セグメント要素記憶部2201に記憶される、手話動作の対称性による非セグメントコード決定条件の一例を示す図である。
図28の非セグメントコード決定条件には、図示しない手話認識装置が認識対象とする動作(手話動作)において現れるような対照性が、番号1〜10の条件として設定される。
例えば、手話動作の場合、左右の手は、胴体と垂直または平行な面に対して、互いに対称的な軌跡をとることが多い。なお、認識対象となる、手動作以外の動作についても、同様の条件を設定することができる。
【0179】
次に、セグメント位置判定部304は、1つめの非セグメント条件始点Psh[1]=(Xps1,Yps1)と、2つめのセグメント条件始点Psh[2]=(Xps2、Yps2)と、i番目の1つめの手領域運動コードCh[1][i]と、i番目の2つめの手領域運動コードCh[2][i]とをもとに、手話動作の対称性の特徴運動コード(すなわち、i番目の1つめの手領域運動コードCh[1][i]、およびi番目の2つめの手領域運動コードCh[2][i])が、図28の条件(番号1〜10のいずれかの条件)に一致するか否かを判定し、一致する場合、非セグメント特徴コードに1をセットする。一致しない場合、非セグメント特徴コードに0をセットする。
その後、手話動作セグメンテーション装置は、ステップ2403に進む。
以上の手順により、セグメント要素に加えて、非セグメント要素(右手と左手の動作の対称性)をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法が実現できる。
【0180】
ところで、上記の、セグメント要素に加えて、非セグメント要素(右手と左手の動作の対称性)をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法では、右手と左手の動作の対称性を検出する際に、手話者の動作が平面的に捉えられおり、従って、検出可能な右手と左手の動作の対称性は、2次元的なものに限られる。
そこで、次に、手話者の動作を立体的に捉えて、右手と左手の動作の3次元的な対称性を検出する方法を説明する。
【0181】
図22において、画像入力部301は、2台のテレビカメラを含み、3次元画像を入力する。それによって、手話者の動作が立体的に捉えられる。
この場合も、図22の装置の処理動作は、図23および24と基本的には同様であるが、以下の点が変更される。
すなわち、図23のステップS403において、身体特徴抽出部302は、2台のテレビカメラによる3次元入力画像から、身体特徴、ここでは手領域の画像を抽出する。
3次元画像から手領域を抽出するには、2次元画像から手領域を抽出する場合と同様、RGB色情報をもとに肌色領域を抽出すればよい。ただしこの場合、RGB色情報には、例えば、3次元画像を構成する各画素のRGB色情報が、3次元座標の関数として記述される。
その他、「ファジイパターン照合を用いた色彩画像からの顔検出システム」(呉,陳,谷内田;電子情報通信学会論文誌 D−II Vol.J80−D−II No.7 pp.1774〜1785,1997.7)に記載されている方法を用いてもよい。
【0182】
手領域を抽出すると、身体特徴抽出部302は、i番目の1つめの手領域の3次元座標h[1][i]、およびi番目の2つめの手領域の3次元座標h[2][i]を求める。
2台のテレビカメラによる3次元画像から抽出された手領域の3次元位置座標を求めるには、一方のテレビカメラによる2次元画像と、他方のテレビカメラによる2次元画像との間に生じる視差を利用すればよい。
【0183】
また、上記のステップS2402bを、次のように変更する。
[ステップS2402c]
2台のテレビカメラのうちの一方、たとえば左側のテレビカメラの画像から算出した手領域の情報を使って、ステップS2402bと同様の処理が行われる。
ただし、特徴運動追跡部303は、i番目の1つめの手領域の3次元移動ベクトルVth[1][i]、i番目の2つめの手領域の3次元移動ベクトルVth[2][i]を求める際、〈式13〉を使って求める。
【数13】
Figure 0004565200
非セグメント特徴フレーム数が3より小さい場合、手話動作セグメンテーション装置は、ステップS2403に進む。
以上の手順で、右手と左手との動作の3次元的な対称性を検出することができる。
【0184】
次に、前述の、セグメント要素に加えて、非セグメント要素(右手と左手の動作の対称性)をも検出して、それらに基づいてセグメンテーションを行うような手話動作セグメンテーション方法において、右手と左手との動作の対称性の変化をどのようにして検出するかを説明する。
【0185】
動作の対称性の変化は、例えば、動作面の変化を捉えることにより検出することができる。ここで、動作面とは、動作の軌跡を含むような面をいう。
例えば、手の動作面は、手動作の軌跡を含むような面である。そして、左手および右手の少なくとも一方の動作面が変化した場合、動作の対称性の変化が生じたとみなす。
【0186】
動作面の変化を検出するには、例えば、動作面の法線ベクトルの変化を検出すればよい。
そこで、次に、動作面が変化したことを、動作面の法線ベクトルの変化によって検出する方法を説明する。
動作面が変化したことを、動作面の法線ベクトルの変化によって検出する場合、上記のステップS2402を、次のように変更する。
【0187】
[ステップS2402d]
特徴運動追跡部303は、〈式14〉を使って、i番目の1つめの手領域の3次元移動ベクトルVth[1][i]と、i−1番目の1つめの手領域の3次元移動ベクトルVth[1][i−1]とから、i番目の1つめの手領域運動面の法線ベクトルVch[1][i]を求め、i番目の2つめの手領域の3次元移動ベクトルVth[2][i]と、i−1番目の2つめの手領域の3次元移動ベクトルVth[2][i−1]とから、i番目の2つめの手領域運動面の法線ベクトルVch[2][i]を求める。
【数14】
Figure 0004565200
【0188】
また、〈式15〉を使って、i番目の1つめの手領域運動面の法線ベクトルVch[1][i]と、i−1番目の1つめの手領域運動面の法線ベクトルVch[1][i−1]とから、i番目の1つめの手領域運動余弦CosΘh[1][i]を求め、i番目の2つめの手領域運動面の法線ベクトルVch[2][i]と、i−1番目の2つめの手領域運動面の法線ベクトルVch[2][i−1]とから、i番目の2つめの手領域運動余弦CosΘh[2][i]を求める。
【数15】
Figure 0004565200
【0189】
i番目の1つめの手領域運動余弦CosΘh[1][i]、およびi番目の2つめの手領域運動余弦CosΘh[2][i]が、〈式16〉の条件の少なくとも一方を満たさない場合、非セグメント特徴コードに0をセットする。ここで、α_vcは、法線方向変化閾値であり、例えば、0.1がセットされる。
【数16】
Figure 0004565200
その後、手話動作セグメンテーション装置は、ステップS2403に進む。
以上の手順により、動作面が変化したことを、動作面の法線ベクトルの変化によって検出することができる。
【0190】
上記の方法の他に、動作面の変化を検出するのに、動作コードベクトルを用いる方法がある。
そこで、次に、動作面が変化したことを、動作コードベクトルを用いて検出する方法を説明する。
動作面が変化したことを、動作コードベクトルを用いて検出する場合、上記のステップS2402を、次のように変更する。
【0191】
[ステップS2402e]
特徴運動追跡部303は、i番目の1つめの3次元座標h1[i]と、i−1番目の1つめの3次元座標位置h1[i−1]とから、i番目の1つめの手領域3次元運動コードCode_h1[i]を求める。i番目の2つめの3次元座標h2[i]と、i−1番目の2つめの3次元座標位置h2[i−1]とから、i番目の2つめの手領域3次元運動コードCode_h2[i]を求める。
【0192】
ここで、3次元運動コードの算出方法は、例えば、「動作認識装置」(特開平7−282235号公報)に記載されている。この方法では、手領域の運動が、0から26の27個のコードによって表現される。これら27個のコードは、それぞれ互いに異なる方向を持つ3次元ベクトルと対応している。
一方、非セグメント要素記憶部2201には、予め、同一動作面テーブルが記憶されている。
【0193】
図29は、非セグメント要素記憶部2201に記憶される同一動作面テーブルの一例を示す図である。
図29において、同一動作面テーブルには、9個の同一動作面(動作面番号「1」〜「9」)が記載されている。各同一動作面は、上記27個のコードと同様のコードを用いて表現されている。
特徴運動追跡部303は、i番目の1つめの3次元座標h1[i]に基づいて、図29のテーブルから、i番目の1つめの手領域が含まれる動作面番号と、i番目の2つめの手領域が含まれる動作面番号とを抽出する。
【0194】
1つめの手領域動作面候補Move_plane1に何も設定されていない場合、抽出した1つめの手領域の動作面番号を全て、1つめの手領域動作面候補Move_plane1にセットし、また、抽出した2つめの手領域の動作面番号を全て、2つめの手領域動作面候補Move_plane2にセットする。その後、手話動作セグメンテーション装置は、ステップS2403に進む。
【0195】
次に、特徴運動追跡部303は、抽出した1つめの手領域の動作面番号の中に、Move_plane1に設定されている動作面番号と一致するものがあるか否か、および、抽出した2つめの手領域の動作面番号の中に、Move_plane2に設定されている動作面番号と一致するものがあるか否かを判定する。
【0196】
判定の結果、抽出した1つめの手領域の動作面番号の中に、Move_plane1に設定されている動作面番号と一致するものがない場合、もしくは、抽出した2つめの手領域の動作面番号の中に、Move_plane2に設定されている動作面番号と一致するものがない場合、特徴運動追跡部303は、Move_plane1に設定されている動作面番号を全て削除し、また、Move_plane2に設定されている動作面番号を全て削除し、さらに、非セグメント特徴コードに0をセットする。その後、手話動作セグメンテーション装置は、ステップS2403に進む。
【0197】
一方、抽出した1つめの手領域の動作面番号の中に、Move_plane1に設定されている動作面番号と一致するものがある場合、1つめの手領域の動作面番号のうち一致する番号のみをMove_plane1に設定し、一致しない番号をMove_plane1から削除する。
また、抽出した2つめの手領域の動作面番号の中に、Move_plane1に設定されている動作面番号と一致するものがある場合、2つめの手領域動作面候補Move_plane2に、1つ以上の動作面番号が設定されていれば、2つめの手領域の動作面番号のうち一致する番号のみを、Move_plane2に設定し、一致しない番号を、Move_plane2から削除する。その後、手話動作セグメンテーション装置は、ステップS2403に進む。
以上の手順により、動作面が変化したことを、動作コードベクトルを用いて検出することができる。
【0198】
次に、図示しない手話認識装置と、図3または図22の手話動作セグメンテーション装置とに付随して設けられ、アニメーション画面を通じ、手話動作セグメンテーション装置がセグメンテーションを行いやすいような遷移動作を行わせるよう利用者を誘導するセグメント要素誘導装置について説明する。
(第4の実施形態)
図30は、本発明の第4の実施形態に係るセグメント要素誘導装置の構成を示すブロック図である。
図30のセグメント要素誘導装置は、図示しない手話認識装置と、図3または図22の手話動作セグメンテーション装置とに付随して設けられる。
図30において、セグメント要素誘導装置は、認識結果入力部3001、セグメント結果入力部3002、誘導制御情報生成部3003、出力部3004および誘導規則記憶部3005を備えている。
【0199】
認識結果入力部3001に接続された手話認識装置から、現在の認識状況情報が認識結果入力部3001に入力される。セグメント結果入力部3002に接続された手話動作セグメンテーション装置から、現在のセグメント状況情報がセグメント結果入力部3002に入力される。
【0200】
認識結果入力部3001は、入力された認識状況情報を、誘導制御情報生成部3003に送る。セグメント結果入力部3002は、入力されたセグメント状況情報を、誘導制御情報生成部3003に送る。誘導制御情報生成部3003は、認識状況情報とセグメント状況情報とをもとに、誘導規則記憶部3005に記憶された誘導規則を使って誘導制御情報を生成し、出力部3004に送る。出力部3004は、出力部3004に接続された手話アニメーション装置等(図示せず)に、誘導制御情報を出力する。
【0201】
以下、上記のように構成されたセグメント要素誘導装置の処理について説明する。
図31は、図30のセグメント要素誘導装置の処理の流れを示すフローチャートである。
図31の各ステップでは、それぞれ以下のような処理が行われる。
[ステップS3101]
認識結果入力部3001は、認識結果入力部3001に接続された手話認識装置から入力される認識状況情報をチェックする。
図32は、認識結果入力部3001に入力される認識状況情報の一例を示す図である。
図32において、認識状況情報は、フレーム番号3201、および状況フラグ3202を含む。フレーム番号3201には、カレントフレーム、つまり手話認識装置が認識状況情報作成時に処理中のフレームのフレーム番号がセットされる。状況フラグ3202には、認識に成功していれば「0」、失敗していれば「1」がセットされる。
認識状況情報が入力されると、認識結果入力部3001は、その認識状況情報を誘導制御情報生成部3003に送る。
その後、セグメント要素誘導装置は、ステップS3102に進む。
【0202】
[ステップS3102]
セグメント結果入力部3002は、手話動作セグメンテーション装置から入力されたセグメント状況情報をチェックする。
図33は、セグメント結果入力部3002に入力されるセグメント状況情報の一例を示す図である。
図33において、セグメント状況情報は、フレーム番号3301、および未セグメントフレーム数3302を含む。フレーム番号3301には、カレントフレーム、つまり手話動作セグメンテーション装置がセグメント状況情報作成時に処理中のフレームのフレーム番号がセットされる。未セグメントフレーム数3302には、最後にセグメント対象となったフレームから、カレントフレームまでのフレーム数がセットされる。
セグメント状況情報が入力されると、セグメント結果入力部3002は、そのセグメント情報を誘導制御情報生成部3003に送る。
その後、セグメント要素誘導装置は、ステップS3103に進む。
【0203】
[ステップS3103]
誘導制御情報生成部3003は、誘導規則記憶部3005に記憶されている誘導規則を使って、誘導制御情報を作成する。
図34は、誘導制御情報生成部3003が作成する誘導制御情報の一例を示す図である。
図34において、誘導制御情報は、制御部位数3401、制御部位3402、および制御動作3403を含む。制御部位数3401には、CGキャラクタ(アニメーション)において、制御対象となる部位の数がセットされる。制御部位3402には、CGキャラクタにおいて、制御対象となる部位がセットされる。制御動作3403には、制御対象となる部位の動作がセットされる。なお、制御部位3402、および制御動作3403については、制御部位数3401にセットされた部位数に等しい回数、続けてセットが行われる。
【0204】
次に、誘導制御情報生成部3003は、現在入力されている認識状況情報およびセグメント状況情報に応じて、誘導規則記憶部3005から誘導規則を抽出する。
図35は、誘導規則記憶部3005に記憶される誘導規則の一例を示す図である。
図35において、誘導規則は、認識状況3501、非セグメントフレーム数3502、制御部位3503、および制御動作3504を含む。
例えば、図32の認識状況情報と、図33のセグメント状況情報とが入力されているとき、認識状況およびグメント状況は、図35の認識状況3501および非セグメントフレーム数3502の第2行目に記載の条件と一致する。よって、図34の誘導制御情報では、制御部位数3401に「1」が、制御部位3402に「頭」が、制御動作3403に「頷き」が、それぞれセットされる。
こうして生成された誘導制御情報は、出力部3004に送られる。
その後、セグメント要素誘導装置は、ステップS3104に進む。
【0205】
[ステップS3104]
出力部3004は、誘導制御情報生成部3003から送られてきた誘導制御情報を、アニメーション生成装置等に出力する。その際、出力部3004は、必要に応じ、誘導制御情報を、アニメーション生成装置等から要求される形式に変形する。
その後、セグメント要素誘導装置は、ステップS3101に進む。
以上の手順により、セグメント要素誘導方法が実現できる。
【0206】
次に、上記のセグメント要素誘導方法において、手話動作の認識率に応じて、アニメーションの速度を変化させる場合を説明する。
すなわち、手話認識装置の手話動作認識率を、セグメント要素誘導装置側に与える。セグメント要素誘導装置には、手話動作認識率が悪い場合、提示するアニメーションの速度を下げ、それによって、遷移動作をゆっくり行うよう、手話者を誘導するためのアニメーション速度調整装置を設ける。
【0207】
図36は、図30のセグメント要素誘導装置に設けられるアニメーション速度調整装置の構成を示すブロック図である。
図36において、アニメーション速度調整装置は、認識結果入力部3601と、セグメント結果入力部3602と、速度調整情報生成部3603と、速度調整規則記憶部3604と、出力部3605とを備えている。
認識結果入力部3601へは、図示しない手話認識装置からの認識結果情報が入力される。セグメント結果入力部3602へは、図3または図22の手話動作セグメンテーション装置からのセグメンテーション結果情報が入力される。速度調整規則記憶部3604には、予め、速度調整規則が記憶されている。速度調整情報生成部3603は、速度調整規則を参照しつつ、少なくとも認識結果情報、好ましくは、識結果情報およびセグメンテーション結果情報に基づいて、アニメーションの速度を制御するための制御情報(アニメーション速度調整情報)を生成する。
なお、ここでは、速度調整情報生成部3603は、認識結果情報に基づいてアニメーション速度調整情報を生成する場合を説明する。
【0208】
上記のように構成されたアニメーション速度調整装置が設けられたセグメント要素誘導装置では、図31と同様の処理が行われる。ただし、以下の点が異なる。
図31のステップS3103を、次のように変更する。
[ステップS3103a]
速度調整情報生成部3603は、誤認識フラグflag_recに何も設定されていない場合、0を設定する。認識結果情報に含まれる状況フラグが1の場合、誤認識フラグflag_recに1を加える。状況フラグが0で、誤認識フラグflag_rec>0の場合、誤認識フラグflag_recから1を引く。
【0209】
図37は、速度調整規則記憶部3604に記憶される速度調整規則の一例を示す図である。
図37において、速度調整規則は、速度調整量3701と、条件3702とを含む。条件3702は、速度調整量を決めるための条件である。条件3702中のd_spdは、速度調整パラメータであり、例えば、50がセットされる。
速度調整情報生成部3603は、速度調整規則記憶部3604に記憶されている速度調整規則を参照しつつ、誤認識フラグflag_recに応じた速度調整量d_spdを求める。
こうして求められた速度調整量は、出力部3605に送られる。
なお、上記以外の処理は、ステップS3103と同様であり、省略する。
【0210】
また、ステップS3104を、次のように変更する。
[ステップS3104a]
出力部3605は、速度調整量d_spdを、図示しないアニメーション生成装置に送る。アニメーション生成装置は、デフォルトのアニメーション速度Spd_defから、速度調整量d_spdの分だけ、アニメーションの速度が遅くなるよう調整する。
以上の手順により、手話動作認識率が悪い場合に、提示するアニメーションの速度を下げ、それによって、遷移動作をゆっくり行うよう、手話者を誘導することができる。
【0211】
次に、上記のセグメント要素誘導装置(図22参照;なお、図36のアニメーション速度調整装置は、設けられていてもいなくてもよい)において、手話者からテレビカメラが見えないように、テレビカメラ隠蔽部を設けた場合を説明する。
なお、テレビカメラが露出していると、手話者がテレビカメラを意識して緊張し、手話動作がぎこちなくなることがある。その結果、セグメンテーションが正しく行われず、手話認識装置の認識率が悪くなることがある。
【0212】
図38は、図22のセグメント要素誘導装置に設けられるテレビカメラ隠蔽部の構成の一例を示す模式図である。
図38において、テレビカメラ3802は、手話者3801と対向して設置され、モニタ3803は、テレビカメラ3802と手話者3801とを結ぶ直線の鉛直下方に、鉛直上方を向いて設置される。
テレビカメラ隠蔽部は、順方向からの光を透過させ、かつ逆方向からの光を反射するようなハーフミラー3804を備え、このハーフミラー3804を、手話者3801とテレビカメラ3802とを結ぶ直線上であって、かつモニタ3803の鉛直上方の位置に、その直線に対して45度となるような角度で設置することによって実現される。
【0213】
すなわち、モニタ3803からの光は、ハーフミラー3804で反射されて手話者3801に到達するので、手話者3801は、モニタ3803(に表示されるアニメーション)を見ることができる。
一方、手話者3801からテレビカメラ3802へ向かう光は、ハーフミラー3804を透過するが、テレビカメラ3802から手話者3801へ向かう光は、ハーフミラーで反射される。よって、テレビカメラ3802で手話者3801を撮影できるにもかかわらず、撮影の際、手話者3801からは、テレビカメラ3802が見えない。
このようなテレビカメラ隠蔽部を設けることにより、手話者からテレビカメラが見えないようにすることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る手動作分節方法を用いた手動作認識方法を示すフローチャートである。
【図2】図1の方法を実現するコンピュータ装置の構成の一例を示すブロック図である。
【図3】本発明の第2の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
【図4】図3の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
【図5】身体特徴抽出部302が設定する領域コードの一例を示す図である。
【図6】セグメント要素記憶部305に記憶されるセグメント要素データの一例を示す図である。
【図7】身体特徴抽出部302によって抽出された肌色領域の一例を示す図である。
【図8】身体特徴抽出部302が生成する顔領域情報の一例を示す図である。
【図9】特徴運動追跡部303が特徴運動コードを決定するための、顔による特徴運動決定条件を示す図である。
【図10】動き特徴602にセットされる動き特徴パラメータの一例を示す図である。
【図11】セグメント位置判定部304が作成する判定コードデータの一例を示す図である。
【図12】身体特徴抽出部302によって抽出された顔の肌色領域の一例を示す図である。
【図13】身体特徴抽出部302によって作成される目領域情報の一例を示す図である。
【図14】特徴運動追跡部303が特徴運動コードを決定するための、目による特徴運動決定条件を示す図である。
【図15】身体特徴抽出部302が生成する口領域情報の一例を示す図である。
【図16】特徴運動追跡部303が特徴運動コードを決定するための、口による特徴運動決定条件を示す図である。
【図17】身体特徴抽出部302が生成する手領域情報の一例を示す図である。
【図18】特徴運動追跡部303が特徴運動コードを決定するための、胴体と手領域とによる特徴運動決定条件を示す図である。
【図19】特徴運動追跡部303が特徴運動コードを決定するための、手と顔との接触動作による特徴運動決定条件を示す図である。
【図20】特徴運動追跡部303が特徴運動コードを決定するための、手の有効性変化による特徴運動決定条件を示す図である。
【図21】頷き動作の検出による手話動作セグメンテーション方法(図4参照)において、検出した動作の継続時間を考慮してセグメンテーションを行う場合の処理の流れを示すフローチャートである。
【図22】本発明の第3の実施形態に係る手話動作セグメンテーション装置の構成を示すブロック図である。
【図23】図22の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
【図24】図22の手話動作セグメンテーション装置の処理の流れの一例を示すフローチャートである。
【図25】非セグメント要素記憶部2201に記憶されている非セグメント要素データの一例を示す図である。
【図26】非セグメント動き特徴2502にセットされる非セグメント動き特徴パラメータの一例を示す図である。
【図27】特徴運動追跡部303が特徴運動コードを決定するための、手話動作の対称性による非セグメント特徴運動決定条件である。
【図28】非セグメント要素記憶部2201に記憶される、手話動作の対称性による非セグメントコード決定条件の一例を示す図である。
【図29】非セグメント要素記憶部2201に記憶される同一動作面テーブルの一例を示す図である。
【図30】本発明の第4の実施形態に係るセグメント要素誘導装置の構成を示すブロック図である(図示しない手話認識装置と、図3または図22の手話動作セグメンテーション装置とに付随して設けられる)。
【図31】図30のセグメント要素誘導装置の処理の流れを示すフローチャートである。
【図32】認識結果入力部3001に入力される認識状況情報の一例を示す図である。
【図33】セグメント結果入力部3002に入力されるセグメント状況情報の一例を示す図である。
【図34】誘導制御情報生成部3003が作成する誘導制御情報の一例を示す図である。
【図35】誘導規則記憶部3005に記憶される誘導規則の一例を示す図である。
【図36】図30のセグメント要素誘導装置に設けられるアニメーション速度調整装置の構成を示すブロック図である。
【図37】速度調整規則記憶部3604に記憶される速度調整規則の一例を示す図である。
【図38】図22のセグメント要素誘導装置に設けられるテレビカメラ隠蔽部の構成の一例を示す模式図である。
【符号の説明】
201 CPU
202 RAM
203 プログラム記憶部
204 入力部
205,3004,3605 出力部
206 撮像部
207 画像記憶部
208 手話用手動作記憶部
209 遷移動作記憶部
301 画像入力部
302 身体特徴抽出部
303 特徴運動追跡部
304 セグメント位置判定部
305 セグメント要素記憶部
2201 非セグメント要素記憶部
3001,3601 認識結果入力部
3002,3602 セグメント結果入力部
3003 誘導制御情報生成部
3005 誘導規則記憶部
3603 速度調整情報生成部
3604 速度調整規則記憶部
3801 手話者
3802 テレビカメラ
3803 モニタ
3804 ハーフミラー

Claims (11)

  1. 利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも1つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶する遷移動作記憶手段と撮影手段と画像記憶手段と抽出手段と検出手段と手動作分節手段とを備える手動作分節装置において、利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するために実行する手動作分節方法であって
    記撮影手段が、利用者を撮影して、その画像データをフレーム単位で前記画像記憶手段に記憶する撮影ステップと、
    前記抽出手段が、前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する遷移動作抽出ステップと、
    前記検出手段が、前記遷移動作抽出ステップで抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する遷移動作検出ステップと、
    前記手動作分節手段が、前記遷移動作記憶ステップで記憶した動作コードを前記遷移動作記憶手段から取り出し、当該動作コードと、前記遷移動作検出ステップで動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する分節位置を決定する手動作分節ステップとを含む、手動作分節方法。
  2. 前記手動作分節装置はさらに、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段を備え、
    前記手動作分節方法は
    記抽出手段が、前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する非遷移動作抽出ステップと、
    前記検出手段が、前記非遷移動作抽出ステップで抽出した画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化する非遷移動作検出ステップと、
    前記手動作分節手段が、前記非遷移動作記憶ステップで記憶した動作コードを前記非遷移動作記憶手段から取り出し、当該動作コードと、前記非遷移動作検出ステップで動作コード化した動作コードとを比較して、前記非遷移動作が現れた時間位置を求める非遷移動作分節ステップとをさらに含み、
    前記手動作分節ステップでは、前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項1に記載の手動作分節方法。
  3. 記撮影ステップでは、当該利用者を立体的に撮影して、その3次元画像データを前記画像記憶手段に記憶し、
    前記抽出手段が、前記画像記憶手段から前記3次元画像データを取り出し、当該3次元画像データから、右手および左手と対応する3次元画像データを抽出する非遷移動作抽出ステップと、
    前記検出手段が、前記3次元画像データに基づいて、右手および左手の動きを示す3次元ベクトルを検出する非遷移動作検出ステップと、
    前記手動作分節手段が、前記3次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求める非遷移動作分節ステップとをさらに含み、
    前記手動作分節ステップでは、前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項1に記載の手動作分節方法。
  4. 前記非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴とする、請求項3に記載の手動作分節方法。
  5. 前記手動作分節装置はさらに、同一動作面テーブル作成手段と、3次元コード列変換手段とを備え、
    前記同一動作面テーブル作成手段が、それぞれ互いに異なる方向を持つ3次元ベクトルと対応する複数の3次元動作コードに関し、1つの面内に含まれるような3次元動作コードの組み合わせを記載した同一動作面テーブルを、予め作成するステップと、
    前記3次元コード列変換手段が、右手および左手の動きを、前記複数の3次元動作コードで表現された3次元動作コード列に変換するステップとをさらに含み、
    前記非遷移動作分節ステップでは、右手の動作面および左手の動作面の変化を、前記3次元動作コード列と、前記同一動作面テーブルに基づいて検出することを特徴とする、請求項3に記載の手動作分節方法。
  6. 利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも1つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段を備えるコンピュータを、
    利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、
    前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、
    前記抽出手段で抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、
    前記遷移動作記憶手段から前記動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する手動作分節手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  7. 利用者が行う手動作を認識する際に当該手動作を単語単位または複数の単語からなる有意味単位に自動的に分節するための手動作分節装置であって、
    利用者の身体に、一つの単語を示す動作の途中には現れず、ある単語を示す動作から別の単語を示す動作へと遷移する際に、無意識的に現れる遷移動作の特徴である瞬き、頷き、閉口、胴体静止、手と顔の接触の少なくとも1つに関する特徴を動作コードとして記述した遷移特徴データを予め記憶している遷移動作記憶手段と、
    利用者を撮影して、その画像データをフレーム単位で画像記憶手段に記憶する撮影手段と、
    前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出する抽出手段と、
    前記抽出手段で抽出した画像データを相互に比較して、前記遷移動作の現れる身体部位の動きを検出し、動作コード化する検出手段と、
    前記遷移動作記憶手段から前記動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した動作コードとを比較して、前記遷移動作が現れた時間位置を求め、当該時間位置に基づいて前記手動作を分節する手動作分節手段とを備える、手動作分節装置。
  8. 前記手動作分節装置はさらに、利用者の身体に、ある単語を示す動作から別の単語を示す動作への遷移時には現れず、一つの単語を示す動作の途中に現れる非遷移動作の特徴を記述した非遷移特徴データを予め記憶する非遷移動作記憶手段を備え、
    前記抽出手段は、さらに、前記画像記憶手段から前記画像データを取り出し、当該画像データから、前記非遷移動作の現れる身体部位の色と対応する画像データをフレームごとに抽出し、
    前記検出手段は、さらに、前記抽出手段で抽出した前記非遷移動作の現れる身体部位と対応する画像データを相互に比較して、非遷移動作の現れる身体部位の動きを検出し、動作コード化し、
    前記手動作分節手段は、さらに、前記非遷移動作記憶手段から前記非遷移特徴データの動作コードを取り出し、当該動作コードと、前記検出手段で動作コード化した前記非遷移動作の現れる身体部位と対応する画像の動きを示す動作コードとを比較して、前記非遷移動作が現れた時間位置を求め、前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項7に記載の手動作分節装置。
  9. 前記撮影手段は、当該利用者を立体的に撮影して、その3次元画像データを前記画像記憶手段に記憶し、
    前記抽出手段は、さらに、前記画像記憶手段から前記3次元画像データを取り出し、当該3次元画像データから、前記非遷移動作の現れる右手および左手と対応する3次元画像データを抽出し、
    前記検出手段は、さらに、前記抽出手段で抽出した3次元画像データに基づいて、右手および左手の動きを示す3次元ベクトルを検出し、
    前記手動作分節手段は、さらに、
    前記3次元ベクトルに基づいて、右手の動作面および左手の動作面の変化を検出し、
    右手の動作面および左手の動作面がどちらも変化しない場合、一つの単語を示す動作の途中であることを示す非遷移動作が現れたと判定して、その時間位置を求め、
    前記遷移動作が現れた時間位置であっても、前記非遷移動作が現れた時間位置においては分節を行わないことを特徴とする、請求項7に記載の手動作分節装置。
  10. 前記手動作分節手段は、右手の動作面および左手の動作面の変化を、それら動作面の法線ベクトルの変化に基づいて検出することを特徴とする、請求項9に記載の手動作分節装置。
  11. 前記手動作分節装置はさらに、
    それぞれ互いに異なる方向を持つ3次元ベクトルと対応する複数の3次元動作コードに関し、1つの面内に含まれるような3次元動作コードの組み合わせを記載した単一動作面テーブルを、予め作成する手段と、
    右手および左手の動きを、前記複数の3次元動作コードで表現された3次元動作コード列に変換する手段とをさらに備え、
    前記手動作分節手段は、右手の動作面および左手の動作面の変化を、前記同一動作面テーブルに基づいて検出することを特徴とする、請求項9に記載の手動作分節装置。
JP27112299A 1998-09-28 1999-09-24 手動作分節方法および装置 Expired - Fee Related JP4565200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27112299A JP4565200B2 (ja) 1998-09-28 1999-09-24 手動作分節方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP10-273966 1998-09-28
JP27396698 1998-09-28
JP27112299A JP4565200B2 (ja) 1998-09-28 1999-09-24 手動作分節方法および装置

Publications (3)

Publication Number Publication Date
JP2000172163A JP2000172163A (ja) 2000-06-23
JP2000172163A5 JP2000172163A5 (ja) 2006-10-12
JP4565200B2 true JP4565200B2 (ja) 2010-10-20

Family

ID=26549546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27112299A Expired - Fee Related JP4565200B2 (ja) 1998-09-28 1999-09-24 手動作分節方法および装置

Country Status (1)

Country Link
JP (1) JP4565200B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005310068A (ja) * 2004-04-26 2005-11-04 Noritsu Koki Co Ltd 白目補正方法及びこの方法を実施する装置
JP4792824B2 (ja) * 2004-11-05 2011-10-12 富士ゼロックス株式会社 動作分析装置
JP2006301906A (ja) * 2005-04-20 2006-11-02 Nec Corp カメラ付携帯電話端末、カメラ付携帯電話端末操作方法、及びカメラ付携帯電話端末操作プログラム
KR100817298B1 (ko) 2005-12-08 2008-03-27 한국전자통신연구원 양손 검출 및 추적 방법
US20090278915A1 (en) * 2006-02-08 2009-11-12 Oblong Industries, Inc. Gesture-Based Control System For Vehicle Interfaces
JP2007310914A (ja) * 2007-08-31 2007-11-29 Nippon Telegr & Teleph Corp <Ntt> マウス代替方法、マウス代替プログラム、および記録媒体
JP5598751B2 (ja) * 2010-03-05 2014-10-01 日本電気株式会社 動作認識装置
JP5915000B2 (ja) 2011-06-13 2016-05-11 ソニー株式会社 情報処理装置及びプログラム
US9996740B2 (en) 2013-09-30 2018-06-12 Sony Interactive Entertainment Inc. Information processing device, information processing method, program, and information storage medium
JP6177655B2 (ja) * 2013-10-11 2017-08-09 株式会社Nttドコモ 画像認識装置および画像認識方法
JP6144192B2 (ja) * 2013-12-27 2017-06-07 株式会社Nttドコモ 画像認識装置、及び画像認識方法
EP3176675B1 (en) * 2014-07-30 2021-08-25 Sony Group Corporation Information processing device, information processing method and program
CN104616028B (zh) * 2014-10-14 2017-12-12 北京中科盘古科技发展有限公司 基于空间分割学习的人体肢体姿势动作识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779448B2 (ja) * 1988-11-25 1998-07-23 株式会社エイ・ティ・アール通信システム研究所 手話言語変換装置
JPH03288276A (ja) * 1990-04-04 1991-12-18 Canon Inc データ入力装置
JP3289730B2 (ja) * 1991-07-12 2002-06-10 日本電信電話株式会社 画像通信用入出力装置
JP3554571B2 (ja) * 1993-05-31 2004-08-18 株式会社日立製作所 手話認識装置
JP3110215B2 (ja) * 1993-08-10 2000-11-20 沖電気工業株式会社 発音訓練装置
JP3669515B2 (ja) * 1994-05-16 2005-07-06 株式会社日立製作所 手話通訳装置
JPH08115408A (ja) * 1994-10-19 1996-05-07 Hitachi Ltd 手話認識装置
JPH09154114A (ja) * 1995-11-28 1997-06-10 Nec Corp 電子会議端末装置
JPH1026999A (ja) * 1996-07-10 1998-01-27 Nec Shizuoka Ltd 手話翻訳装置

Also Published As

Publication number Publication date
JP2000172163A (ja) 2000-06-23

Similar Documents

Publication Publication Date Title
EP0991011B1 (en) Method and device for segmenting hand gestures
JP4565200B2 (ja) 手動作分節方法および装置
CN104813258B (zh) 数据输入装置
CN104364733B (zh) 注视位置检测装置、注视位置检测方法和注视位置检测程序
Liu et al. Hand gesture recognition using depth data
JP5649425B2 (ja) 映像検索装置
Von Agris et al. The significance of facial features for automatic sign language recognition
Urtasun et al. 3D tracking for gait characterization and recognition
Arcoverde Neto et al. Enhanced real-time head pose estimation system for mobile device
CN1839410B (zh) 图像处理设备、摄像设备、图像处理方法
CN109472198A (zh) 一种姿态鲁棒的视频笑脸识别方法
KR20180093632A (ko) 멀티 모달 데이터 기반 표정인식방법 및 장치
JP5964603B2 (ja) データ入力装置、及び表示装置
JPH08287216A (ja) 顔面内部位認識方法
CN118553022A (zh) 一种车辆内手势识别方法、手势控制方法及系统
Ko et al. Facial feature tracking and head orientation-based gaze tracking
JPH11174948A (ja) 手動作認識装置
Pantic et al. Facial action recognition in face profile image sequences
JP6230666B2 (ja) データ入力装置、データ入力方法、及びデータ入力プログラム
JP2020107038A (ja) 情報処理装置、情報処理方法及びプログラム
Vezhnevets et al. Automatic extraction of frontal facial features
Manresa-Yee et al. Towards hands-free interfaces based on real-time robust facial gesture recognition
KR100387236B1 (ko) 캐리커처 영상 생성 장치 및 방법
KR100788057B1 (ko) 바이오 마우스
JP4030147B2 (ja) オブジェクト操作装置及びオブジェクト操作方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100709

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees