JPH0570160B2 - - Google Patents
Info
- Publication number
- JPH0570160B2 JPH0570160B2 JP59042320A JP4232084A JPH0570160B2 JP H0570160 B2 JPH0570160 B2 JP H0570160B2 JP 59042320 A JP59042320 A JP 59042320A JP 4232084 A JP4232084 A JP 4232084A JP H0570160 B2 JPH0570160 B2 JP H0570160B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- command
- section
- time
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Description
(技術分野)
本発明は被制御系の制御を実時間性良く、容易
に制御できる音声入力による制御装置に関する。 ここで、制御される対象としては光学機器のオ
ートフオーカシング、オートズーミング、電気製
品の調整つまみ、車両用パワーウインド、ミラー
等の駆動回路部分が考えられえる。 (従来技術) 近年、音声認識技術と半導体技術の進歩によ
り、予め限定された複数の孤立単語を認識するこ
とのできる小型の音声認識装置が開発されてい
る。その応用として、特願昭56−16971、特願昭
56−16972、特願昭56−16973、特願昭57−33587
等の明細書に操作者の発声した命令音声に対応し
た動作(以下、命令音声動作と称する)を被制御
系に指令する信号(以下、命令音声動作信号と称
する)を出力する音声入力による制御装置(以
下、音声認識制御装置と称する)が、車両用装置
のパワーウインド、カーラジオ等の制御に用いた
実例をあげて示されている。 しかし、前記音声入力制御装置において、命令
音声動作信号を出力するのは、操作者の発声した
命令音声の始端と終端を検出し、その入力音声の
特徴量と予め記憶してある命令音声の特徴量との
比較を行ない、その相違が最も小さいものを認識
結果とする認識過程を経た後である。従つて、音
声の終端検出と認識過程に要する時間のため、被
制御機器が命令動作を開始するまでに遅れが生じ
ざる得なかつた。そのため実時間性が悪く、操作
者の望む任意の時刻に精度良く、作動及び停止を
行なうことができず、精密性を要する制御には不
適当であるという問題点があつた。 (発明の目的) 本発明は、このような従来の問題点に着目して
なされたものであり、命令音声の語尾を引き延ば
して発声し(以下、そのように発声を、語尾引き
延ばし音声と称する)、引き延ばす前の音声区間
の認識結果と、引き延ばされた音声の終端検出時
刻を用いることにより、操作者は任意の時刻で被
制御系を制御できる、実時間性の良い音声入力装
置を提供することを目的とする。 (発明の構成) 本発明によると語尾を引き延ばした命令音声を
入力する手段と、入力音声を分析する分析部と、
音声区間の検出と命令音声の引き延ばされた語尾
と前半部分をセグメンテーシヨンする音声検出部
と、セグメントされた意味情報を含んだ前半部分
の音声の認識を行なう認識部と、引き延ばされた
語尾の終端検出時に認識結果に対応した動作を被
制御部に指令する信号を出力する制御部を持つこ
とを特徴とした音声入力による制御装置が得られ
る。 すなわち、本発明は入力音声を分析して、音声
の定常部と終端部を検出することにより語尾引き
延ばし音声の前の意味情報を含んだ区間(以下、
意味区間と称する。)と、語尾を引き延ばした区
間(以下、語尾区間と称する)とのセグメンテー
シヨンを行ない、意味区間の特徴パラメータと、
予め記憶している標準パターンとのマツチングを
行ない認識結果を得、この認識結果に対応した命
令音声動作信号を発生し終端部検出時でオンある
いはオフという操作を行なうようにしたものであ
る。 (発明の原理) 先ず本発明の原理を説明する。操作者は命令音
声の語尾を引き延ばした語尾引き延ばし音声を発
声する。語尾区間は、母音を引き延ばして発声し
ているので、音響的特徴は定常となり、その定常
性を一定時間以上検出した時、その定常性の始ま
り時点で意味区間と語尾区間をセグメンテーシヨ
ンする。そして、意味区間の音声を認識し、語尾
区間の終端検出時に命令音声動作信号を出力す
る。 次に図を用いて、その操作例を3つ示す。第1
図Aは語尾引き延ばし音声のパワーを示したもの
で、時間t1〜t2の区間が意味区間、t2〜t3の区間
が語尾区間である。第1の例は、第1図Bに示す
ように、比較的短い期間被制御機系を作動させ、
操作者の希望する時刻で停止させる場合で、動作
信号SBは意味区間の音声を認識した後オン
(ON)となり、語尾区間を検出中はONのまま
で、音声の終端t3に至るとオフ(OFF)となる。
第2の例は、第1図Cに示すように、被制御系の
動作を、精度良く操作者の希望する時刻で作動さ
せる場合で、命令音声動作信号SCは、音声の終
端t3に至つた時点でONとなる。第3の例は、第
1図Dに示すように、被制御系の動作を、精度良
く操作者の希望する時刻で停止させる場合で、命
令音声動作信号SDは、音声の終端t3に至つた時
点でOFFとなる。 以上の方式を用いることにより、操作者は音声
入力により被制御系を希望する任意の時点で精度
良く、作動および停止させることができる。 (実施例) 以下、本発明の被制御系として小型カメラを例
に取り上げ、オートフオーカシング、オートズー
ミング、オートシヤツター等の制御を行なう実施
例を図面を参照して説明する。 第2図は本発明の一実施例を示すブロツク図、
第1表は、命令音声とカメラへの命令音声動作の
対応表、第3図は命令音声「テレ」と命令音声動
作信号の送信のタイムチヤート図である。
に制御できる音声入力による制御装置に関する。 ここで、制御される対象としては光学機器のオ
ートフオーカシング、オートズーミング、電気製
品の調整つまみ、車両用パワーウインド、ミラー
等の駆動回路部分が考えられえる。 (従来技術) 近年、音声認識技術と半導体技術の進歩によ
り、予め限定された複数の孤立単語を認識するこ
とのできる小型の音声認識装置が開発されてい
る。その応用として、特願昭56−16971、特願昭
56−16972、特願昭56−16973、特願昭57−33587
等の明細書に操作者の発声した命令音声に対応し
た動作(以下、命令音声動作と称する)を被制御
系に指令する信号(以下、命令音声動作信号と称
する)を出力する音声入力による制御装置(以
下、音声認識制御装置と称する)が、車両用装置
のパワーウインド、カーラジオ等の制御に用いた
実例をあげて示されている。 しかし、前記音声入力制御装置において、命令
音声動作信号を出力するのは、操作者の発声した
命令音声の始端と終端を検出し、その入力音声の
特徴量と予め記憶してある命令音声の特徴量との
比較を行ない、その相違が最も小さいものを認識
結果とする認識過程を経た後である。従つて、音
声の終端検出と認識過程に要する時間のため、被
制御機器が命令動作を開始するまでに遅れが生じ
ざる得なかつた。そのため実時間性が悪く、操作
者の望む任意の時刻に精度良く、作動及び停止を
行なうことができず、精密性を要する制御には不
適当であるという問題点があつた。 (発明の目的) 本発明は、このような従来の問題点に着目して
なされたものであり、命令音声の語尾を引き延ば
して発声し(以下、そのように発声を、語尾引き
延ばし音声と称する)、引き延ばす前の音声区間
の認識結果と、引き延ばされた音声の終端検出時
刻を用いることにより、操作者は任意の時刻で被
制御系を制御できる、実時間性の良い音声入力装
置を提供することを目的とする。 (発明の構成) 本発明によると語尾を引き延ばした命令音声を
入力する手段と、入力音声を分析する分析部と、
音声区間の検出と命令音声の引き延ばされた語尾
と前半部分をセグメンテーシヨンする音声検出部
と、セグメントされた意味情報を含んだ前半部分
の音声の認識を行なう認識部と、引き延ばされた
語尾の終端検出時に認識結果に対応した動作を被
制御部に指令する信号を出力する制御部を持つこ
とを特徴とした音声入力による制御装置が得られ
る。 すなわち、本発明は入力音声を分析して、音声
の定常部と終端部を検出することにより語尾引き
延ばし音声の前の意味情報を含んだ区間(以下、
意味区間と称する。)と、語尾を引き延ばした区
間(以下、語尾区間と称する)とのセグメンテー
シヨンを行ない、意味区間の特徴パラメータと、
予め記憶している標準パターンとのマツチングを
行ない認識結果を得、この認識結果に対応した命
令音声動作信号を発生し終端部検出時でオンある
いはオフという操作を行なうようにしたものであ
る。 (発明の原理) 先ず本発明の原理を説明する。操作者は命令音
声の語尾を引き延ばした語尾引き延ばし音声を発
声する。語尾区間は、母音を引き延ばして発声し
ているので、音響的特徴は定常となり、その定常
性を一定時間以上検出した時、その定常性の始ま
り時点で意味区間と語尾区間をセグメンテーシヨ
ンする。そして、意味区間の音声を認識し、語尾
区間の終端検出時に命令音声動作信号を出力す
る。 次に図を用いて、その操作例を3つ示す。第1
図Aは語尾引き延ばし音声のパワーを示したもの
で、時間t1〜t2の区間が意味区間、t2〜t3の区間
が語尾区間である。第1の例は、第1図Bに示す
ように、比較的短い期間被制御機系を作動させ、
操作者の希望する時刻で停止させる場合で、動作
信号SBは意味区間の音声を認識した後オン
(ON)となり、語尾区間を検出中はONのまま
で、音声の終端t3に至るとオフ(OFF)となる。
第2の例は、第1図Cに示すように、被制御系の
動作を、精度良く操作者の希望する時刻で作動さ
せる場合で、命令音声動作信号SCは、音声の終
端t3に至つた時点でONとなる。第3の例は、第
1図Dに示すように、被制御系の動作を、精度良
く操作者の希望する時刻で停止させる場合で、命
令音声動作信号SDは、音声の終端t3に至つた時
点でOFFとなる。 以上の方式を用いることにより、操作者は音声
入力により被制御系を希望する任意の時点で精度
良く、作動および停止させることができる。 (実施例) 以下、本発明の被制御系として小型カメラを例
に取り上げ、オートフオーカシング、オートズー
ミング、オートシヤツター等の制御を行なう実施
例を図面を参照して説明する。 第2図は本発明の一実施例を示すブロツク図、
第1表は、命令音声とカメラへの命令音声動作の
対応表、第3図は命令音声「テレ」と命令音声動
作信号の送信のタイムチヤート図である。
【表】
操作者は第1表に対応した命令音声をマイク1
0に発声する。今、レンズを望遠側に移動させた
い場合を1例として述べる。操作者はレンズを移
動させたい間、マイクロ10に語尾引き延ばし音
声「テレ〜」と発声する。マイク10は前記命令
音声を電気信号に変換し、前処理部20へ送る。
前処理部20では、A/D変換、ブリエンフアシ
ス等を行ない、音声信号を分析部30へ送る。分
析部30では音声信号を帯域フイルタ群で分析
し、その結果であるパワースペクトル・パターン
を特徴パラメータとして音声検出部40へ送る。
音声検出部40では音声のパワーを監視すること
により、音声の始端、終端を見つけ、第3図に示
すよう終端検出時t2に、終端検出信号ESを制御
部60へ送る。更にフレーム間の特徴パラメータ
の差分 D= Σ i|ai(t)−ai(t−1)| ただしai(t)は時刻tにおけるi番目の特徴
パラメータを計算し、その値が一定値Dh以下に
なつた区間が一定時間Th以上続いた場合、その
始まりから語尾区間BEであるとして、意味区間
AEと語尾区間BEをセグメンテーシヨンする。認
識部50では、時間Rtの間に意味区間AEの特徴
パラメータと標準パターンメモリ部70に予め記
憶してある命令音声の標準パターンの特徴パラメ
ータとの相違をDPマツチング法を用いて求め、
相違の最小値の得られた標準パターンの属する命
令音声を認識結果として制御部60へ送る。尚、
DPマツチングに関しては、昭和54年10月、共立
出版より出版された「音声認識」の第107頁より
第108頁に記載されている。制御部60では、認
識結果に対応した命令音声動作信号Snを、第1
表に示したタイミングで、カメラの駆動回路部8
0へ送る。 以上述べた認識動作は、命令音声「テレー」に
限らず、他の命令音声に関しても、第1表と対応
してすべて同じである。かくして、レンズが希望
の状態になるまで語尾引き延ばし音声を発声し、
オートシヤツターを切りたい時「シヤツター」の
語尾引き延ばし音声を発声し、発声を止めた時点
でシヤツターが作動する音声入力制御装置による
カメラが得られる。 以上、本発明を被制御系をカメラのレンズ駆
動、シヤツタ等とした場合の実施例について説明
したが、本発明は音声入力で操作者の希望する時
刻で動作を開始、停止させたいような場合、例え
ば、電気製品の調節つまみ、パワーウインド、ミ
ラー、カーラジオ等車両用装置等に有効である。 また、分析法は、B.P,F法に限らず、ケプス
トラム、メルケプストラム、メルスペクトル、
LPC法、零交差分析法等、認識方法は、DPを用
いたテンプレートマツチングに限らず、他の時間
正規化マツチング法、および、構文的識別法等を
用いることができるのは明白である。なお、これ
らの分析法、認識方法は、前記「音声認識」の第
99頁から第117頁に記載されている。 (発明の効果) 本発明よれば、操作者の希望する任意の時点
で、精度よく動作を開始または停止できる実時間
性の良い音声入力制御装置が得られる。これによ
り、精密性を要求される作業の制御においても、
音声入力を用いる事が可能となり、手作業による
労力の軽減をはかることができる。
0に発声する。今、レンズを望遠側に移動させた
い場合を1例として述べる。操作者はレンズを移
動させたい間、マイクロ10に語尾引き延ばし音
声「テレ〜」と発声する。マイク10は前記命令
音声を電気信号に変換し、前処理部20へ送る。
前処理部20では、A/D変換、ブリエンフアシ
ス等を行ない、音声信号を分析部30へ送る。分
析部30では音声信号を帯域フイルタ群で分析
し、その結果であるパワースペクトル・パターン
を特徴パラメータとして音声検出部40へ送る。
音声検出部40では音声のパワーを監視すること
により、音声の始端、終端を見つけ、第3図に示
すよう終端検出時t2に、終端検出信号ESを制御
部60へ送る。更にフレーム間の特徴パラメータ
の差分 D= Σ i|ai(t)−ai(t−1)| ただしai(t)は時刻tにおけるi番目の特徴
パラメータを計算し、その値が一定値Dh以下に
なつた区間が一定時間Th以上続いた場合、その
始まりから語尾区間BEであるとして、意味区間
AEと語尾区間BEをセグメンテーシヨンする。認
識部50では、時間Rtの間に意味区間AEの特徴
パラメータと標準パターンメモリ部70に予め記
憶してある命令音声の標準パターンの特徴パラメ
ータとの相違をDPマツチング法を用いて求め、
相違の最小値の得られた標準パターンの属する命
令音声を認識結果として制御部60へ送る。尚、
DPマツチングに関しては、昭和54年10月、共立
出版より出版された「音声認識」の第107頁より
第108頁に記載されている。制御部60では、認
識結果に対応した命令音声動作信号Snを、第1
表に示したタイミングで、カメラの駆動回路部8
0へ送る。 以上述べた認識動作は、命令音声「テレー」に
限らず、他の命令音声に関しても、第1表と対応
してすべて同じである。かくして、レンズが希望
の状態になるまで語尾引き延ばし音声を発声し、
オートシヤツターを切りたい時「シヤツター」の
語尾引き延ばし音声を発声し、発声を止めた時点
でシヤツターが作動する音声入力制御装置による
カメラが得られる。 以上、本発明を被制御系をカメラのレンズ駆
動、シヤツタ等とした場合の実施例について説明
したが、本発明は音声入力で操作者の希望する時
刻で動作を開始、停止させたいような場合、例え
ば、電気製品の調節つまみ、パワーウインド、ミ
ラー、カーラジオ等車両用装置等に有効である。 また、分析法は、B.P,F法に限らず、ケプス
トラム、メルケプストラム、メルスペクトル、
LPC法、零交差分析法等、認識方法は、DPを用
いたテンプレートマツチングに限らず、他の時間
正規化マツチング法、および、構文的識別法等を
用いることができるのは明白である。なお、これ
らの分析法、認識方法は、前記「音声認識」の第
99頁から第117頁に記載されている。 (発明の効果) 本発明よれば、操作者の希望する任意の時点
で、精度よく動作を開始または停止できる実時間
性の良い音声入力制御装置が得られる。これによ
り、精密性を要求される作業の制御においても、
音声入力を用いる事が可能となり、手作業による
労力の軽減をはかることができる。
第1図は本発明における語尾引き延ばし音声
と、命令音声動作信号のON,OFFのタイミング
を示した図、第2図は本発明の一実施例を示すブ
ロツク図、第3図は、語尾引き延ばし音声の1例
「テレー」におけるセグメンテーシヨンと、各信
号のタイミングを示した図である。 SB,SC,SD……命令音声動作信号、10…
…マイクロホン、20……前処理部、30……分
析部、40……音声検出部、50……音声認識
部、60……制御部、70……標準パタンメモリ
部、80……カメラ駆動部、P……音声のパワ
ー、t1……音声の始端検出時刻、t2……音声の終
端検出時刻、ES……終端検出信号、Th……定常
部検出用時間パラメータ、Dh……セグメンテー
シヨン用差分パラメータ、AE……意味区間、BE
……語尾区間、Rt……認識に要する時間、Sn…
…音声命令動作信号。
と、命令音声動作信号のON,OFFのタイミング
を示した図、第2図は本発明の一実施例を示すブ
ロツク図、第3図は、語尾引き延ばし音声の1例
「テレー」におけるセグメンテーシヨンと、各信
号のタイミングを示した図である。 SB,SC,SD……命令音声動作信号、10…
…マイクロホン、20……前処理部、30……分
析部、40……音声検出部、50……音声認識
部、60……制御部、70……標準パタンメモリ
部、80……カメラ駆動部、P……音声のパワ
ー、t1……音声の始端検出時刻、t2……音声の終
端検出時刻、ES……終端検出信号、Th……定常
部検出用時間パラメータ、Dh……セグメンテー
シヨン用差分パラメータ、AE……意味区間、BE
……語尾区間、Rt……認識に要する時間、Sn…
…音声命令動作信号。
Claims (1)
- 1 語尾を引き延ばした命令音声を入力する手段
と、入力音声を分析する分析部と、音声区間の検
出と命令音声の引き延ばされた語尾と前半部分を
セグメンテーシヨンする音声検出部と、セグメン
トされた意味情報を含んだ前半部分の音声の認識
を行なう認識部と、引き延ばされた語尾の終端検
出時に認識結果に対応した動作を被制御部に指令
する信号を出力する制御部を持つことを特徴とし
た音声入力による制御装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59042320A JPS60186897A (ja) | 1984-03-06 | 1984-03-06 | 音声入力による制御装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59042320A JPS60186897A (ja) | 1984-03-06 | 1984-03-06 | 音声入力による制御装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60186897A JPS60186897A (ja) | 1985-09-24 |
| JPH0570160B2 true JPH0570160B2 (ja) | 1993-10-04 |
Family
ID=12632719
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59042320A Granted JPS60186897A (ja) | 1984-03-06 | 1984-03-06 | 音声入力による制御装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60186897A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4515818B2 (ja) * | 2004-05-19 | 2010-08-04 | 株式会社東芝 | 画像ビューワ |
-
1984
- 1984-03-06 JP JP59042320A patent/JPS60186897A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60186897A (ja) | 1985-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
| EP1472679B1 (en) | Audio visual detection of voice activity for speech recognition system | |
| US6594630B1 (en) | Voice-activated control for electrical device | |
| JP2963142B2 (ja) | 信号処理方法 | |
| EP0757342B1 (en) | User selectable multiple threshold criteria for voice recognition | |
| US4811399A (en) | Apparatus and method for automatic speech recognition | |
| EP0077194A1 (en) | Speech recognition system | |
| US5842161A (en) | Telecommunications instrument employing variable criteria speech recognition | |
| EP0518638A2 (en) | Apparatus and method for identifying a speech pattern | |
| EP1022725B1 (en) | Selection of acoustic models using speaker verification | |
| KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
| EP1159735B1 (en) | Voice recognition rejection scheme | |
| HK1043423A (en) | Voice recognition rejection scheme | |
| JP3069531B2 (ja) | 音声認識方法 | |
| JPH0570160B2 (ja) | ||
| KR20030010432A (ko) | 잡음환경에서의 음성인식장치 | |
| JP2000099099A (ja) | データ再生装置 | |
| KR100322202B1 (ko) | 신경망을 이용한 음성인식장치 및 그 방법 | |
| CN113921000A (zh) | 一种噪声环境下在线指令词语音识别方法及系统 | |
| JPH07230293A (ja) | 音声認識装置 | |
| Suk et al. | Voice activated appliances for severely disabled persons | |
| KR100206799B1 (ko) | 화자 인식형 캠코더 | |
| JPH0449716B2 (ja) | ||
| JPS63279306A (ja) | 音声制御装置 | |
| JPH0262879B2 (ja) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |