JPH0570160B2

JPH0570160B2 -

Info

Publication number: JPH0570160B2
Application number: JP59042320A
Authority: JP
Inventors: Tooru Shimizu; Kazunaga Yoshida
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1984-03-06
Filing date: 1984-03-06
Publication date: 1993-10-04
Also published as: JPS60186897A

Description

【発明の詳細な説明】

（技術分野）本発明は被制御系の制御を実時間性良く、容易
に制御できる音声入力による制御装置に関する。ここで、制御される対象としては光学機器のオ
ートフオーカシング、オートズーミング、電気製
品の調整つまみ、車両用パワーウインド、ミラー
等の駆動回路部分が考えられえる。（従来技術）近年、音声認識技術と半導体技術の進歩によ
り、予め限定された複数の孤立単語を認識するこ
とのできる小型の音声認識装置が開発されてい
る。その応用として、特願昭56−16971、特願昭
56−16972、特願昭56−16973、特願昭57−33587
等の明細書に操作者の発声した命令音声に対応し
た動作（以下、命令音声動作と称する）を被制御
系に指令する信号（以下、命令音声動作信号と称
する）を出力する音声入力による制御装置（以
下、音声認識制御装置と称する）が、車両用装置
のパワーウインド、カーラジオ等の制御に用いた
実例をあげて示されている。しかし、前記音声入力制御装置において、命令
音声動作信号を出力するのは、操作者の発声した
命令音声の始端と終端を検出し、その入力音声の
特徴量と予め記憶してある命令音声の特徴量との
比較を行ない、その相違が最も小さいものを認識
結果とする認識過程を経た後である。従つて、音
声の終端検出と認識過程に要する時間のため、被
制御機器が命令動作を開始するまでに遅れが生じ
ざる得なかつた。そのため実時間性が悪く、操作
者の望む任意の時刻に精度良く、作動及び停止を
行なうことができず、精密性を要する制御には不
適当であるという問題点があつた。（発明の目的）本発明は、このような従来の問題点に着目して
なされたものであり、命令音声の語尾を引き延ば
して発声し（以下、そのように発声を、語尾引き
延ばし音声と称する）、引き延ばす前の音声区間
の認識結果と、引き延ばされた音声の終端検出時
刻を用いることにより、操作者は任意の時刻で被
制御系を制御できる、実時間性の良い音声入力装
置を提供することを目的とする。（発明の構成）本発明によると語尾を引き延ばした命令音声を
入力する手段と、入力音声を分析する分析部と、
音声区間の検出と命令音声の引き延ばされた語尾
と前半部分をセグメンテーシヨンする音声検出部
と、セグメントされた意味情報を含んだ前半部分
の音声の認識を行なう認識部と、引き延ばされた
語尾の終端検出時に認識結果に対応した動作を被
制御部に指令する信号を出力する制御部を持つこ
とを特徴とした音声入力による制御装置が得られ
る。すなわち、本発明は入力音声を分析して、音声
の定常部と終端部を検出することにより語尾引き
延ばし音声の前の意味情報を含んだ区間（以下、
意味区間と称する。）と、語尾を引き延ばした区
間（以下、語尾区間と称する）とのセグメンテー
シヨンを行ない、意味区間の特徴パラメータと、
予め記憶している標準パターンとのマツチングを
行ない認識結果を得、この認識結果に対応した命
令音声動作信号を発生し終端部検出時でオンある
いはオフという操作を行なうようにしたものであ
る。（発明の原理）先ず本発明の原理を説明する。操作者は命令音
声の語尾を引き延ばした語尾引き延ばし音声を発
声する。語尾区間は、母音を引き延ばして発声し
ているので、音響的特徴は定常となり、その定常
性を一定時間以上検出した時、その定常性の始ま
り時点で意味区間と語尾区間をセグメンテーシヨ
ンする。そして、意味区間の音声を認識し、語尾
区間の終端検出時に命令音声動作信号を出力す
る。次に図を用いて、その操作例を３つ示す。第１
図Ａは語尾引き延ばし音声のパワーを示したもの
で、時間t₁〜t₂の区間が意味区間、t₂〜t₃の区間
が語尾区間である。第１の例は、第１図Ｂに示す
ように、比較的短い期間被制御機系を作動させ、
操作者の希望する時刻で停止させる場合で、動作
信号SBは意味区間の音声を認識した後オン
（ON）となり、語尾区間を検出中はONのまま
で、音声の終端t₃に至るとオフ（OFF）となる。
第２の例は、第１図Ｃに示すように、被制御系の
動作を、精度良く操作者の希望する時刻で作動さ
せる場合で、命令音声動作信号SCは、音声の終
端t₃に至つた時点でONとなる。第３の例は、第
１図Ｄに示すように、被制御系の動作を、精度良
く操作者の希望する時刻で停止させる場合で、命
令音声動作信号SDは、音声の終端t₃に至つた時
点でOFFとなる。以上の方式を用いることにより、操作者は音声
入力により被制御系を希望する任意の時点で精度
良く、作動および停止させることができる。（実施例）以下、本発明の被制御系として小型カメラを例
に取り上げ、オートフオーカシング、オートズー
ミング、オートシヤツター等の制御を行なう実施
例を図面を参照して説明する。第２図は本発明の一実施例を示すブロツク図、
第１表は、命令音声とカメラへの命令音声動作の
対応表、第３図は命令音声「テレ」と命令音声動
作信号の送信のタイムチヤート図である。

【表】操作者は第１表に対応した命令音声をマイク１
０に発声する。今、レンズを望遠側に移動させた
い場合を１例として述べる。操作者はレンズを移
動させたい間、マイクロ１０に語尾引き延ばし音
声「テレ〜」と発声する。マイク１０は前記命令
音声を電気信号に変換し、前処理部２０へ送る。
前処理部２０では、Ａ／Ｄ変換、ブリエンフアシ
ス等を行ない、音声信号を分析部３０へ送る。分
析部３０では音声信号を帯域フイルタ群で分析
し、その結果であるパワースペクトル・パターン
を特徴パラメータとして音声検出部４０へ送る。
音声検出部４０では音声のパワーを監視すること
により、音声の始端、終端を見つけ、第３図に示
すよう終端検出時t₂に、終端検出信号ESを制御
部６０へ送る。更にフレーム間の特徴パラメータ
の差分Ｄ＝ Σ ｉ｜a_i（ｔ）−a_i（ｔ−１）｜ただしa_i（ｔ）は時刻ｔにおけるｉ番目の特徴
パラメータを計算し、その値が一定値Dh以下に
なつた区間が一定時間Th以上続いた場合、その
始まりから語尾区間BEであるとして、意味区間
AEと語尾区間BEをセグメンテーシヨンする。認
識部５０では、時間Rtの間に意味区間AEの特徴
パラメータと標準パターンメモリ部７０に予め記
憶してある命令音声の標準パターンの特徴パラメ
ータとの相違をDPマツチング法を用いて求め、
相違の最小値の得られた標準パターンの属する命
令音声を認識結果として制御部６０へ送る。尚、
DPマツチングに関しては、昭和54年10月、共立
出版より出版された「音声認識」の第107頁より
第108頁に記載されている。制御部６０では、認
識結果に対応した命令音声動作信号Snを、第１
表に示したタイミングで、カメラの駆動回路部８
０へ送る。以上述べた認識動作は、命令音声「テレー」に
限らず、他の命令音声に関しても、第１表と対応
してすべて同じである。かくして、レンズが希望
の状態になるまで語尾引き延ばし音声を発声し、
オートシヤツターを切りたい時「シヤツター」の
語尾引き延ばし音声を発声し、発声を止めた時点
でシヤツターが作動する音声入力制御装置による
カメラが得られる。以上、本発明を被制御系をカメラのレンズ駆
動、シヤツタ等とした場合の実施例について説明
したが、本発明は音声入力で操作者の希望する時
刻で動作を開始、停止させたいような場合、例え
ば、電気製品の調節つまみ、パワーウインド、ミ
ラー、カーラジオ等車両用装置等に有効である。また、分析法は、B.P，Ｆ法に限らず、ケプス
トラム、メルケプストラム、メルスペクトル、
LPC法、零交差分析法等、認識方法は、DPを用
いたテンプレートマツチングに限らず、他の時間
正規化マツチング法、および、構文的識別法等を
用いることができるのは明白である。なお、これ
らの分析法、認識方法は、前記「音声認識」の第
99頁から第117頁に記載されている。（発明の効果）本発明よれば、操作者の希望する任意の時点
で、精度よく動作を開始または停止できる実時間
性の良い音声入力制御装置が得られる。これによ
り、精密性を要求される作業の制御においても、
音声入力を用いる事が可能となり、手作業による
労力の軽減をはかることができる。

【図面の簡単な説明】

第１図は本発明における語尾引き延ばし音声
と、命令音声動作信号のON，OFFのタイミング
を示した図、第２図は本発明の一実施例を示すブ
ロツク図、第３図は、語尾引き延ばし音声の１例
「テレー」におけるセグメンテーシヨンと、各信
号のタイミングを示した図である。 SB，SC，SD……命令音声動作信号、１０…
…マイクロホン、２０……前処理部、３０……分
析部、４０……音声検出部、５０……音声認識
部、６０……制御部、７０……標準パタンメモリ
部、８０……カメラ駆動部、Ｐ……音声のパワ
ー、t₁……音声の始端検出時刻、t₂……音声の終
端検出時刻、ES……終端検出信号、Th……定常
部検出用時間パラメータ、Dh……セグメンテー
シヨン用差分パラメータ、AE……意味区間、BE
……語尾区間、Rt……認識に要する時間、Sn…
…音声命令動作信号。

Claims

【特許請求の範囲】

１語尾を引き延ばした命令音声を入力する手段
と、入力音声を分析する分析部と、音声区間の検
出と命令音声の引き延ばされた語尾と前半部分を
セグメンテーシヨンする音声検出部と、セグメン
トされた意味情報を含んだ前半部分の音声の認識
を行なう認識部と、引き延ばされた語尾の終端検
出時に認識結果に対応した動作を被制御部に指令
する信号を出力する制御部を持つことを特徴とし
た音声入力による制御装置。