JPH01195499A

JPH01195499A - 音声入力装置

Info

Publication number: JPH01195499A
Application number: JP63020291A
Authority: JP
Inventors: Kensuke Uehara; 上原　堅助
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-01-30
Filing date: 1988-01-30
Publication date: 1989-08-07
Also published as: US4961177A; GB8901828D0; GB2215092B; GB2215092A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は音声認識に供せられる音声を発話者から離れた
位置に設けられたマイクロフォンにて確実に入力するこ
とのできる音声入力装置に関する。

（従来の技術）近時、音声認識技術を応用して重要施設への入退出を監
視・管理するシステムが種々開発されている。この種の
システムは、従来、専らＩＤカードを用いてゲート（ド
ア）の開閉を制御していたときの不具合（ＩＤカード携
帯の必要性、　　ＩＤカードセット等の操作性の悪さ）
を解消し、対象者が発声した音声が示す！Ｄ番号を認識
したり、また入力音声の個人的特徴から発話者を同定す
る等して上記ゲート（゛ドア）の開閉を制御しようとす
るものである。このような音声認識技術を用いてシステ
ムによれば、例えばＩＤカードを常に携帯している必要
がない、また本人を確実に同定することができる等の効
果が奏せられる。

ところが入力音声を精度良く認識処理するには、周囲の
雑音の混入を防いで発話者が発声した音声のみをＳ／Ｎ
良く収集することが必要である。そこで従来では、ハン
ドセット形式のマイクロフォンや接話形のマイクロフォ
ンを用い、発話者の口元にマイクロフォンを十分近付け
た状態で音声入力することにより、入力音声のＳ／Ｎを
高めることが等が考えられている。しかしその為には、
−々マイクロフォンを把持する必要があり、操作性の点
で新たな問題が生じる。

そこで防音壁を設備することで周囲の騒音を遮ったり、
また指向性の鋭いマイクロフォンを用いることで発話者
の音声だけを拾うことが検討されている。しかし防音壁
等を設備することは経費がかさみ、音声入力装置の利用
対象分野が大幅に制限されてしまう等の問題がある。ま
た指向性の鋭いマイクロフォンを用いた場合には、その
指向性ビームの向きが発話者の口元からずれると、逆に
周囲の雑音を多く拾うようになり、そのＳ／Ｎが大幅に
劣化すると云う問題がある。

（発明が解決しようとする課題）このように音声認識処理技術を用いた種々のシステムで
用いられる従来の音声入力装置にあっては、発話者が発
声する音声を如何にしてＳ　／　Ｎ良く収集して音声入
力するかと云う点で問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、発話者が発声する音声をＳ／Ｎ
良く確実に収集して音声入力し、認識処理等に供するこ
とのできる音声入力装置を提供することにある。

［発明の構成コ（課題を解決するための手段）本発明は、指向性の鋭いマイクロフォンを、その指向性
ビームの向きを可変設定可能に所定の位置に取付け、こ
のマイクロフォンの指向性ビームの向きを発話者の口元
に向けて発話者が発声する音声を収集しようとするもの
であり、カメラにて撮像入力された発話者の像からその
発話者の口の位置を検出し、検出された発話者の口の位
置と前記マイクロフォンの取付は位置とから前記マイク
ロフォンの指向性ビームが前記発話者の口に向く向きを
求め、この向きの情報に従って前記マイクロフォンの指
向性ビームの向きを可変制御するようにしたことを特徴
とするものである。

（作用）本発明によれば、発話者が予め定められた音声入力領域
に入り、システムに対して音声入力しようとすると、そ
の発話者の像がカメラにて撮像入力され、所定の画像処
理技術を用いて発話者の口の位置が検出される。すると
この検出された口の位置情報とマイクロフォンが取付け
られた位置の情報とから該マイクロフォンの指向性ビー
ムが発話者の口元に向く向きが計算され、その情報に従
って前記マイクロフォンの指向性ビームの向きが制御さ
れ、発話者の口元に向けられる。

この結果、指向性の鋭いマイクロフォンを用いて発話者
が発声する音声を確実に、Ｓ／Ｎ良く入力することが可
能となり、音声認識処理等に効果的に供することが可能
となる。

（実施例）以下、図面を参照して本発明の一実施例につき説明する
。

第１図は本発明の一実施例に係る音声入力装置の概略的
な構成を示すブロック図であり、第２図はその作用を模
式的に示す図である。この実施例装置は音声認識技術を
用いてドアの開閉を制御し、ドアを通過する入退出者を
監視・管理するシステムに組込まれる。尚、音声入力に
よる自動券売機等、その他のシステムにも適宜適用可能
なことは勿論のことである。

しかしてここで用いられるマイクロフォンｌは鋭い単一
指向性を有するもので、マイクロフォン駆動サーボ機構
２により支持されて、例えばドア近傍の壁面Ａの上方部
に取付けられる。そしてマイクロフォン駆動サーボ機構
２の動作により、マイクロフォンｌの指向性ビームの向
きが、上記壁面Ａの前方の音声入力領域Ｂを指向する範
囲において可変制御されるものとなっている。このマイ
クロフォン１を介して収集された音声が、音声認識装置
３に入力されて音声認識処理に供される。

そして音声認識結果は制御器４に与えられ、ドア開閉機
構５の駆動によるドアの開閉制御等に用いられる。

また上記壁面Ａには、上記音声入力領域Ｂに入り込んで
音声を発声する発話者Ｃを撮像する為のカメラ６が設け
られており、発話者Ｃの像を第３図に示すように撮像入
力している。このカメラ６にて撮像入力された発話者Ｃ
の像が画像処理装置７にて処理され、後述するようにそ
の発話者Ｃの口の位置が求められる。そしてその口の位
置の情報が前記制御器４に与えられ、前記マイクロフォ
ン１の指向性ビームの向きの制御に用いられる。

尚、前記壁面Ａに対向して音声人力領域Ｂの後方に設け
られたパネルＤは、発話者Ｃの後方の不要な背景部の前
記カメラ６による写り込みを防止するものであるが、例
えばカメラ６のレンズ系における焦点深度等を利用して
背景画にボケを与えるような場合には、発話者Ｃの像と
その背景部との識別が容易であるから上記パネルＤを省
略することも可能である。

また前記壁面Ａに組込まれたスピーカ８は、システム側
から発話者Ｃに対して種々の音声メツセージを出力する
ものである。制御器４の制御を受けて起動される音声応
答装置９は、システム側から与えられるメツセージ情報
に従ってその音声信号を規則合成法等により音声合成し
、」二足スピーカ８を駆動して音声メツセージの出力を
行なう。

また壁面Ａに取付けられた超音波センサ１０は、距離検
出回路１１による付勢を受けて超音波を前記発話者Ｃに
向けて送波し、発話者Ｃにより反射された」二足超音波
を受波する。距離検出回路１１は上記超音波の送波タイ
ミングから受波タイミングまでの時間を計測し、前記音
声入力領域Ｂに入込んだ発話者Ｃの壁面Ａからの距離を
検出するものである。このようにして検出された発話者
Ｃまでの距離情報も前記制御器４に入力され、前述した
マイクロフォン１の指向性ビームの向きの制御に用いら
れる。

尚、１２は制御器４に接続されたホスト計算機である。

このホスト計算機１２にて、例えば前記音声認識装置３
で求められた入力音声に対する認識結果と、予め登録さ
れている管理情報との照合等が行なわれる。また入力音
声に対する回答メツセージの生成や、発話者Ｃに対する
ガイダンス・メツセージ等の生成等が行なわれる。

さて次に本装置の特徴的な作用であるマイクロフォン■
の指向性ビームの向きの制御について説明する。この制
御は前記カメラ６を介して撮像入力された発話者Ｃの像
から求められる口の位置の情報、超音波センサ１０を用
いて検出される発話者までの距離の情報、そして前記マ
イクロフォン１の取付は位置の情報に従って行なわれる
。

即ち、画像処理装置７はカメラ６にて撮像入力された画
像信号中から背景画部分の情報を除去し、残された発話
者Ｃの像について第３図に示すように水平方向の射影Ｘ
を求めている。そしてその射影Ｘの成分を画像の上側ａ
から調べ、その輝度の射影値が最初に変化する部分すを
発話者の頭頂として検出している。その後、上記輝度の
射影値の変化を順に調べ、額部分ｄ、目の部分０１口の
部分２１首の部分りをそれぞれ求める。つまり発話者Ｃ
の顔の像において、はぼ均一な輝度として求められる肌
の部分に比較して、髪（頭）の部分。

目の部分および口の部分の輝度が大きく異なることから
、その輝度差と検出位置の関係から発話者Ｃの像中の口
の高さ位ｆｉ　Ｍ　ｘを検出している。

その後、上述した如く検出される顔の部分について水平
方向の輝度変化Ｙを求め、画像中における両耳の位置を
検出し、顔が存在する水平方向の位置Ｆ１．Ｆ２をそれ
ぞれ求めている。この顔の位置Ｆｌ、Ｆ２から水平方向
における口の位置Ｍｙを、Ｍｙ　−（Ｆｌ　＋Ｆ２　）
÷２として求めている。

このようにしてカメラ６にて撮像入力された発話者Ｃの
画像中の、その画面上における発話者の口の位置が求め
られると、前記カメラ６のレンズ系によって規定される
光学系位置と、前記超音波センサ１０を用いて検出され
た発話者Ｃまでの距離の情報とから前記音声入力領域Ｂ
を構成する３次光空間上における発話者Ｃの口の位置が
計算される。この口の位置情報と、同じ３次元空間に設
けられた前記マイクロフォン１の位置とから、該マイク
ロフォン１から発話者Ｃの口に向かう上記３次元空間上
での向き（相対角度）が計算される。

そしてマイクロフォン１の指向性ビームの向きが、この
計算された向きに向かうように前記マイクロフォン駆動
サーボ機構２が駆動され、指向性ビームの向きが調整さ
れる。

この結果、マイクロフォン１はそのビームの向きを発話
者Ｃの口に向けることになり、発話者Ｃが発声する音声
をＳ／Ｎ良く収集することが可能となる。

このように構成され、作用する本装置を用いたゲートの
入退出管理システムにおける処理動作の一例を示すと、
先ず前記超音波を利用して音声入力領域Ｂに発話者が進
入したか否かを検出することから行なわれる。このよう
な発話者Ｃの検出により、本装置が起動される。

しかして先ず、前記音声応答装置９を起動し、発話者Ｃ
に対して「カメラに向かって下さい。」なる音声メツセージを出力し、カメラ６に向かった発話
者Ｃを撮像入力する。どうどに前記超音波を用いて発話
者Ｃまでの距離を求める。その誤前述したようにして発
話者Ｃの口の位置を求め、マイクロフォンｌの指向性ビ
ームを発話者の口に向ける。

以上の処理手続きによって音声入力の為の”Ｇｆが整え
られる。しかる後、発話者Ｃに対してｒＩＤ番号を発声
して下さい。」なる音声メツセージを出力し、発話者Ｃが発声する音声
を前記マイクロフォン１にて収集する。このようにして
収集された入力音声を前記音声認識部３にて認識処理し
、その認識結果を制御器４を介してホスト計算機１２に
与える。

ここで入力音声の認識処理に失敗する等した場合には、
例えば「−語一語区切ってＩＤ番号を発声して下さい。」等の
音声メツセージを適宜出力して音声の再入力を促し、再
入力された音声を認識処理する。

その後、音声認識して求められたＩＤ番号を予め登録さ
れている管理データと照合し、入退出が許可されている
場合には前記ドア開閉機構５を駆動してドアを開ける。

この場合には、「ドアを開けますので、お入り下さい１ｒＩＤ番号が登
録されていませんので、ドアは開けられません。　　　
　　　」等の音声メツセージを出力し、一連の処理を終
了する。

尚、上記音声認識処理に際しては、入力音声の個人的特
徴を抽出して個人同定するようにしても良いことは勿論
のことである。

以上のように本装置によれば、鋭い指向性を持つマイク
ロフォン１の指向方向を発話者Ｃの口に効果的に向ける
ことができるので、発話者が発声する音声を確実に、し
かもＳ／Ｎ良く入力することができる。またこのような
指向性の鋭いマイクロフォン１を用いるので、そのＳ／
Ｎを十分に確保したままマイクロフォン１を発話者Ｃか
ら離れた位置に設けることができる。この結果、マイク
ロフォン１の存在を意識することなく自然発声すること
ができ、異和感なく音声入力することが可能となる。し
かも手が塞がった状態でも、音声により簡易にＩＤ番号
等の情報を入力することが可能となる。

また上述したように自然性良く発声することが可能とな
るので、その入力音声中に個人的特徴が良く反映される
ようになり、従って個人同定の精度を高めることが可能
となる等の効果も期待できる。

尚、本発明は上述した実施例に限定されるものではない
。ここではドアの開閉制御による大退出管理システムに
組込まれる音声人力装置につき説明したが、その他のシ
ステムについても同様に適用可能である。また画像処理
の形態も特に限定されるものではなく、この画像処理に
よって発話者Ｃまでの距離を求めるようにしても良い。

この場合には、超音波を用いた距離計測が不要となる。

まな音声入力領域の床面に所謂踏み板スィッチを設けて
発話者の入り込みやその距離検出を行なうようにしても
良い。その他、本発明はその要旨を逸脱しない範囲で種
々変形して実施することができる。

［発明の効果］以上説明したように本発明によれば、指向性の鋭いマイ
クロフォンを用い、カメラを用いて撮像された発話者の
像を画像処理して求められる発話者の口に向けて上記マ
イクロフォンの指向ビームの向きを合せるので、発話者
が発声する音声を確実に、しかもＳ／Ｎ良く収集して音
声入力することができる。更にはマイクロフォンを発話
者から離して設けることができるので、自然性の良い音
声入力環境を形成することができ、またマイクロフォン
を把持しなければならない等の不具合を効果的に回避す
ることができる等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声入力装置の概略的
な機能ブロック図、第２図は実施例装置における各部の
作用を模式的に示す図、第３図は画像処理による発話者
の口の位置の検出作用を説明する為の図である。ｌ・・・マイクロフォン、２・・・マイクロフォン駆動
サーボ機構、３・・・音声認識装置、４・・・制御器、
５・・・ドア開閉機構、６・・・カメラ、７・・・画像
処理装置、８・・・スピーカ、９・・・音声応答装置、
１０・・・超音波センサ、１１・・・距離検出回路、１
２・・・ホスト計算機。出願人代理人　弁理士　鈴江武彦 ′Ｉ第１図第２図第３図

Claims

【特許請求の範囲】

所定の位置に取付けられた指向性の鋭いマイクロフォン
と、発話者を撮像するカメラと、このカメラにて撮像入
力された像から上記発話者の口の位置を検出する手段と
、この手段により検出された発話者の口の位置と前記マ
イクロフォンの取付け位置とから前記マイクロフォンの
指向性ビームが前記発話者の口に向く向きを求める手段
と、この向きの情報に従って前記マイクロフォンの指向
性ビームの向きを可変制御する手段とを具備し、前記マ
イクロフォンの指向性ビームを前記発話者の口に向けた
状態で前記発話者が発声する音声を前記マイクロフォン
にて収集することを特徴とする音声入力装置。