JPS5923400A

JPS5923400A - 音声認識装置

Info

Publication number: JPS5923400A
Application number: JP57133573A
Authority: JP
Inventors: 昭宣増子
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-07-30
Filing date: 1982-07-30
Publication date: 1984-02-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、入力音声信号による命令、即ち話者の音声波
から抽出された物理量の時系列を特徴・Ｐターンとして
とらえ、これをあらかじめ登録された・ぐターンと比較
して音声信号による命令を認知する所謂、パターンマツ
チング法にょかのｔｒを徴を抽出した後前られる特徴（
入力）パターンとあらかじめ登録されている登録・やタ
ーンとの類似度を直接１算する方式と、前記音声信号か
ら１特徴を抽出した後にこれを音韻系列に置きかえ、こ
れとあらかじめ登録されている単語辞■（・９ターン）
とを比較して類似度をＱ　ＩＦＩする方式の２つの方式
に大別される。これら２つの方式のうち、後者は音韻単
位の識別を行うだめＫＳΦ語数が多、い場合の音声認識
に優位である。しかし、単語数がさほど多くない場合に
は、前者による・セターンマッチング認識の方カ一般に
高い認識率が得られる。

認識される単語数が数１０程度の規（Ｑの前記パターン
アッチングによる音声認識ンステムとしては、民生機器
においては例えば、テレビジ欝ン受像機を音声によって
制御する。場合が挙げられる。っまシ、テレビジョン受
像機の電源制御、音量制御、チャンネル切替等の制御を
、あらかじめ音声認識装置に制御内容を表わす言葉の音
声を登録しておき一１応答装置には認識応答ど［７て音
声を記憶させておき、音声命令と登録された制御内容と
を照合して一致すると制御内容を認識したことを音声に
よって返答するとともに所定の制御をするような場合で
ある。例えば、チャンネル切替制御において、１チヤン
ネルを選ぶ場合、あらかじめ「１チヤンネル」という音
声を登録パターンとして記憶しておいだときに、音声命
令を受信するマイクに向い「１チ、Ｙンネル」という音
声命令を下すと音声応答で「メークー（ｏ　ｒＯＪと返
答し、１チヤンネルが選局される。

しかし、ここで問題となるのは、「１チヤンネル」と１
４声命令を下した時に、これと音声が類似する「８チヤ
ンネル」という音声命令が制御・２ターン（登録・千タ
ーン）として登録されている点である。即ち、「イｔ」
と「ハチ」の両者の音声は類似しておυ、「イチ」と「
ハチ」とを誤甘って音声認識するのをいかに防止するか
が問題となる。これは、「イチ」という語と「ハチ」と
いう語において、「チ」の発音部分の音声エネルギーが
大きい為に、「イ」と「ノ・」を区別するのが困難にな
ることに起因する。一般に、一つの単語の中にアクセン
トをもつ音声があると、その部分に１１声エネルギーが
集中し、他の部分の音声情報の認識が困難とな、イ）。

（・ηっで、音声認識に際して（よ、音声ｆｉ令の強音
以外の部分の情報を失うことなく特徴（入力）・？ター
ンと登録・ぞターンとの比較をしなければならない。

寸だ、話者が音声を発生する１局合、同じ岸語を発声し
ても、発声するたびに振幅が変化する。

従って音声認識に際してシよ、振幅が変化し−Ｃも同じ
ｔｌｊ語でちれば常に同じノ？ターンがイ１）られるよ
うにしなければならない。

まだ、制？＋１１１内容を音声によって登録・ぐターン
として登録する際の音声と、音声命令として発する音声
の発生速度は必ずしも一致しない。このことｔｅｌｌ、
ある単語を登録した後、その単語を丙度同じように発声
しても単語長は異なることを意味する。この為、入カッ
？ターンと登録ＩＰターン間の類似度を評価するに際し
ては、時間←１１についても考慮しなければ誤認識がな
される。

第１図はパターンマツチング法に基づいた音声昭識装（
１￥を示すブロック図である。発声による音圧振動をマ
イクロフォンで電気信号に変換し、更に前記音声の周波
数分布を平坦化する機能を有する音声入力部１、この音
声入力部１により得られる電気信号に変換された音声信
号からその特徴を抽出する特徴抽出部２、この特徴抽出
部２により一抽出された特徴を記憶するとともにこれと
入カバターンとの比較の演算処理を行ない音声−による
制御命令を判別する認識処理部３を有し、？ｌｉ’ｌ仰
命令が認識されたことを音声により応答する音声応答部
４が必要によっては付加される。この音声応答部４は、
応答すべきｎ′葉を・９ターンとして記憶しであるメモ
リ７；ｉ；４０１、第２の１１０（入出力）ポート４０
２、制御部４０３、Ｄ　／　Ａ変換器４０４、ローパス
フィルタ４０５を有しており、話者の音声指令が認知さ
れたことをテレビジョン受像機４０６笠の被制御機器の
音声回路から音声により応答する。

１４声入力部１において、入力音声は、ワイヤレスマイ
ク１１によりＦＭ波に変換した後ＦＮ４受信機１２で受
信してプリアンプ１３に入力する形態と、前記プリアン
プ１３前段に設けたマイクロフォン１４に工って入力す
る形態のいずれかによりシステムにとり入れられる。こ
れらいずれの形態の場合においても、認識に必要な音声
信号とそれ以外の音響信号との比であるＳＮ比は、主と
してマイクロフォンの指向性に左右されるのでマイクロ
フォン１１．１４は単一指向性のものを用いる。プリア
ンプ１３に得られる電気信号に変換された音声信けは、
単音節明瞭度を向上するだめ高音域をフ０リエンファシ
ス回路１５によυ強調する。

このようにして、得られる音″声入力部１の出力は、特
徴抽出部２に供給され、ここで入力及び登録ノ！ターン
の形式に必要な特徴データの抽出処理がなされる。即ち
、話者の音声波から時系列的に周波数をとらえ、音声を
周波数分析しこれらのデータを一定時間間隔でサンプリ
ングするとともに、サンプリングされたアナログデータ
をＡ、’ｌ）変換器によりデジタル量に変換する。

つまり、’ｒ！Ｊ徴抽出部２０入力端には１６．〜１６
１５で示されるスイッチド・キャパシタ・バンド／Ｆス
フィルタ（以下ＢＰＦと称する。）が接続されている。

この１６１〜１６１５のＢＰＦの中心周波ｉＵ／　＆：
を印加されるクロックで決ブリ、その各々のフィルタ特
性は６次のチェビシェフ特性で略−：１６　ｄＢｌｏＣ
Ｔの減衰特性を持つ。そして、前記Ｂ１）Ｉ２１６１〜
１５　により、略２００　）ｆｚ〜６．４　ＫＩ−Ｉｚ
の帯域を１／３オクタ一ブ間隔で１５バンドに分離しで
いる。この１５に分離されたバンドの帯域成分の音声信
号を通過させる１６．〜１゜の１３１）Ｆの夫々には、
略２０　ｍ　Ｓｅｅ間隔で信号をザ：／フ０ル・ホール
ドするザンプル・ホールド回路１７１〜１６が１×続さ
れており、このザングル・ホールド作用によシ到来する
音声の特徴が抽出される。

このようにしてザングル・ホールド回路１７１〜１５　
　に抽出された特徴データはアナログＭ゛であるが、例
えば８ビツトのＶＤの変換器（アナログ−デジタル変換
器）１８によってデジタル量に変換される。このとき、
前記°リーンノル・ホールド回路１７１〜＋５　　と前
記ＡＤＤ変換器１８間の切換制御は、マルチ７°レクザ
１９によって行なわれる。従って、音声信号から抽出し
た、第２図に示す時間−周波数−レベルの（ｆ、＋ｒ性
をｙ゛ジモる。そして、このＡ／Ｄ変換器１８で抽出された音声の
特徴データは、第１のｉｌｏ　（入出力）７１？−ト２
ｏを介して認識処理部３に供給される。

この場合、１１０　ｙＪ？−ト２０ｆ、１ニア″リ−１
−７７７シス回路１５の出力レベルがレベル検出器２５
に設定されるしきい値を越え／こときを音声信号の始点
どし、このときから８ビツトＡ／Ｄ変換器１８の出力を
データとして取り込む。そして、プリエンファシス回路
１５の出方レベルが上記しきい値以下になったときを音
声信号の終点とし、その後のデータの取υ込みを停止す
る。このしきい値はＡＫＩ音信号によって越えられるこ
とがないように設定される必要があるが、これを満たす
為にあオシ高ジベルに選ぶと、今度は認識に必歿なｙ゛
−夕がｊｉＪ、り込壕れなくなる危険性があるので、−
り記２つの条件をともに４を足するような（直（こ設定
される。

認識処理！ｉｔ）　、？　！徒、制御内容、例えば受信
するチ、Ｙンオ・ルの指定、電ぶのオン・オフの制御を
耳声によって指示する場合にその指令音声から抽出され
だ音・声の４！ｉ徴を記憶させ登録するだめの登録・や
ターンメモリ２ノ、話者が希望する制御内容を発声した
際にその指示音声の特徴を入カッ９ターンとして一旦記
憶するだめの入力・ンターンメモリ２２、この入カッｆ
ターンメモリ２２の内容が前記登録パターンメモリ２ノ
に記憶された、いずれの登録・やターンと類似するかの
判定を行うだめのプログラムを記憶するシステノ、プロ
グラムメモリ２３、このシステムプログラムの内容を実
行するＣＰＵ　（中央処理装置）２４からなる。そ１７
て、このＣＰＵ　２４は例えば、８ビツトのマイクロプ
ロセッサが用いられ、前記シスデムグログラ１１メモリ
２３Ｖ」５．２Ｉ（バイトの容置をもつＲＯＭで構成さ
れ、前記入カバターンメモリ２２、登録パターンメモリ
２１ば１０Ｔ（バイトの腎肝をもつＲＡＭによって構成
される。

このｌＯＫ／シイトのＲＡＭのうち１．７５　Ｋバイト
は入カッ？ターンメモリ２２として、略７．５　ＩＣバ
イトは登録パターンメモリ２〕として用いられる。

このような構成の認識処理部３に、前記特徴抽出部２で
抽出されたｙ′−夕が、入カッＰターンデータ、登録パ
ターンデー夕として送られる訳であるが、先ず登録・９
ターンデータが送られる場合について述べる。

登録・Ｐターンｒ−夕がｈ３識処理部３の登録・セタ二
ンメモリ２ノに送られる場合は、前述の様に話者が希望
する制御内容を何通りが発声にょシ音声認識装置に登録
する場合である。ここで、いｔｔｒ−ｙンネルの選局を
登録パターンメモリ２１に制御内容として記憶させる場
合についてみると、「１チヤンネル」という音声の／ｌ
’＆徴データは前記ＡＩＤ変換器１８によってディジタ
ルデータとして抽出される。そして、このデータは第１
のｒｌｏ　ｙＪ？　　）　２０を介して登録・ｆターン
メモリ２ノに送られるが、このとき前記入カバ？ターン
メ七り２２に次に示される行列テ（への形で一旦＋１シ
納される。

ここで、行列式の行数はザンプル回数、即ち、前４杷ス
イツチド・キセノ４シタ・バンドパスフィルタ１６の出
力が略２０　ｍ５ｅｃＯ間［ｋのザングルパルスニ冊′
応じてザンプルされる回数を示し、列数け１３ＰＦ　１
６の個数を示し、各成分はデジタル化された前記各ＢＰ
Ｆのサンプル値である。このようにして、抽出された話
者の音声の特徴データは、末だ音声の振幅情報に７１す
る正規化がなされていηい。つ−まりｎ占者のアク−ヒ
ントの（＋’Ｌ置或ｐま強音によって弱音の情報が後退
−Ｉることに対する処理が行なわれていないので話者の
音声の特徴を十分に表わしているとはいえない。

そこで、前記行列式の各行の成分に対する加重を行う。

即ち、前記Ａで表わされるー・ｌ；１−１入力ＪＰター
ンメモリ２２に収納されたダークに対してシスデノ・プ
ログラノ・２３にＭＬ　憶された次に示す演算をＣＰＵ
　２４によって行ないｉ＋’（３Ｖ結果の行列式αを前
記登録・！ターンメモリ２］にＹｌ録・ｅター１．ンと
して格納する。

・このよう−にして、音声情報のうちの振幅情報は正規
化される。この振幅の正規化は、７１’Ｔ者が制御内容
として発声する音声に対してすべてなさノ１．／こうえ
で、前記登録・？ターンメモリ２１にその内容（行列式
）が記１ぎされる。こうして、話占が発声により、前記
登録・やターンメモリ２ノに希望する制御内容を登録す
ることで、音声二？ｊ識装置【〆ｌに幻する制御内容の
セ、テングｒＪ、；１径了し、ｊｌｉｌｌ　７，１．１
１内容の数に等しい種類の登録・？ターン（α１　、α
２・・・・αｎ　）が前Ｗ己登録・？ターンメモリ２１
にｉ己１いさノｔ７Ｓ。

−卜シ・］ｌのように、Ｎ声の特徴を示す行タリｉ”ｉ
Ａに７１寸ろ４辰：畠の正大見ｒしを行う）寅鉛は、前
言己ンステノ、グログラノ、２３に記憶されたグロダラ
ム内容に応じてＣＰＵ　２４によって実行されるが、そ
の実１Ｊ内簀を次に模式的にｔ見明する。

：！［ｊち、前；Ｉｓの５第１図中の第１のエカボート
２０、システムフ０ログラムメモＩＪ　２３、ＣＰＵ２
４の動作は、次に示す第３図の機能動作に対応できる。

つまり、第３図中のラッチ回路３０１〜１５（実際には
入カッ２ターンメモリ２２に相当する。）には、前記行
列式Ａに相当するデータがラッチされ、ラッチされた内
容は加ｆ￥器３１、及び乗初器３２に夫々供給される。

そして、この加算器３ノの出力は、レベル判定回路３３
と除η、器、ｖ４＋〜１６　　に供給される。前記加η
器３１は、前記行列式への各行成分の要素を加豹し、こ
の夫々の総和値で前記ラッチ回路３０１〜１５にラッチ
された行成分要素の各々が除η器３４１−１ｓ　　で除
算される。ここで、除３つ器３４１〜Ｉ５　　の前段に
乗３亨器３２重〜ｌ＋ｔ　　が設けられておりＮなる乗
η−を行うが、これは前記除ｑ結果を整数の形で評価す
るだめのもので場合によっては省略し得る。′まだ、前
記の除′ｎ器３４１〜ｉｓ　　で除算され振幅が正規化
されたデータは、ノ９スラインを通して登録パターンと
して、登録パターンメモリ２１に収納される。

まだ、前記レベル判定器３３には所定レベルの閾値が設
定されており、前記加η、、器３１の出力のレベルが設
定された閾値以下の時は、前記ランチ回路３５１−１ｓ
　　のう、チされた内容をクリアし、それ以外の時は前
記両ラッチ回路を制御しない。このように、う、チ回路
３５Ｉ−Ｉｓに、前記加３Ｖ器３ノの出力が一定値以上
の時のみラッチ動作をさせることにより、検出する音声
が小さい状態での雑音による誤動作が防止される。

上述の第３しｊの説明から判る様に、話者が希望する制
７１ｊｉｉ内答を登録パターンメモリ２１に登録する］
１へ稈において、振幅が正規化される前の特徴ｙ′−夕
は、一旦、ＲＡＭで構成される入力ノンターンメモリ２
２に記憶されこの後に振幅が正規化され、特徴・やター
ンとして登録・！ターンメモリ２１にＥＣ１１区され−
る。

次に、話者が登録した制御内容に対して、希望する制御
内容を音声によシ指示した場合について述べる。

話者が、登録した制御内容のうち、希望する制御内容を
発７ＯＬ音声により指令をすると、音声の特徴データは
登録・Ｐターンの１寺と１司１子に１辰幅が正ｊ１１．
化され入力／？ターンメモ１）２２に言己録される。こ
こで、話者が音声指令した内容に文１し、その振幅に対
する正規化を１１なった入フッ・ぐターンは次に行す行
列式で示さｈるものとする。

この橡幅が正規化され入力・！ターンメモ１ノ２２に記
憶される入力・２ターンＦ　＆ｊ１、−話η（こｆｉｉ
’ｌ　ｒ師内容として登録パターンメモリ２１に登録さ
Ｊｔている登録）９ターンとの参照が行わＪしる。この
参照動作による両・す１−ン間の類似度の１−ｊｔ　）
’４処理により、類似度が一番近い・セターンに対応す
る制御内容を話者が指令した制御内容であると判定する
。

このような入カバターンと登録ノ！ターンのｐ１Ｍノ！
ターン間の類似度は、次に示される／？ターン間の距ｔ
Ｎｆｌｌ　Ｄを計９することにより判別される。

即ち、前記振幅が正規化された登録・ｅクーン醒と入カ
バターンＦと各成分ｋｌｊ　、　ｆｌｊＯ差の絶対値を
とることにより得られる行列式を両・Ｐターン間の距洲
［を）゛・モわず行列式距離・にターンＤと定義し１、
この行列式りの各成分の総第１１値によって類似度を３
つ出する。このことを更に述べると、前記距βＷＦ”タ
ーンしは次式で示さノＬ１がっ類１９度ｄ　ｉ−Ｊ、　
？：ｒ：、のように示される。

」−記、類似度ｄの唱ηは全登録・♀ターン、いいかえ
ると全制御内容を表わす・９ターンに対して行われ、類
似度ｄの値が最っとも小さい・ｐターンを話者が音声に
よって指令した・ぞターンであると判定する。このよう
にして音声認識が行われるが、上述のように音声の振幅
に対する正規化を行うことで誤認識率は著しく低・減さ
れる。

話者の発声に対する音声認識しまこうして、登録パター
ンと入カバターンの類似度が、＾１１記／ステムフ０ロ
グラムメモリ２３に設定された類似度算出プログラムに
よって指示される演ηが前記ＣＰＵ　２４で実行される
こと圧より算出され、音声認識による機器の制御が可能
となる。

」二連した音声の・！ターン・マツチング法による音声
認識では、振幅が正規化されることで単語中の強音ｆν
ＩＳ分に比較して弱音部分の情報が小さい点及び第４図
に示すように同じ垢語でも発声のたびに振幅が変動しや
すい点に起因する音声の誤認識は低減される。なお、第
４図は例えば第２図の時刻（ｔｌ）における周波数スペ
クト単語を大きく発声した場合及び小さく発声した、場
合を示す。

ところで、前述の如く話者が同一４５１語を発声しても
その発声時間が常に一致するとは限らない。この問題を
解決するには時間ｎＱＩ　Ｋついても正規化を行なうこ
とが必要であυ、次にこの時間１（ｌ＋の正規化につい
て説明する。時間軸の正規化−一、話者の発冨−１ｌｓ
語の発音開始時刻と発音終了時刻との間にかかる時間を
、常に一定の定数ｎで分割することによりなされる。つ
マ）、話者がある坪飴ｆ：発声するにある時は時間Ｔ１
かかシ、まだあるときＫは時間Ｔ、を要した場合、それ
ぞれの場合、特徴抽出のためのサンプル時とで解決され
る。このことは、時間軸のずれに呼応して音声の特徴が
生起する時刻がずれるという現象に根拠をおく。従って
、話者の発声の開始時刻と終了時刻は極力正確に検知す
る必要がある。前述のように、入力・ぐターン、登録パ
ターンのいずれの場合においても話者の音声の’ｌ’！
ｊ　微（Ｄ　４１１１　出ｋｌ１．１３ＰＦ　１６　Ｈ
〜ＬＲ、’！Ｊ’　７ｆ　ル・ホールド回路１７１〜Ｉ
、の両者に依存するが、両回路Ｃ」、いずれもその！１
ｉＩＪ作に時定数的な要素をもつ。とりわけ１　リーン
ノル・ホールド回路のピーク検波方式は話者の発声の終
了時刻の検出を正しく行うのに大きく左右する。従って
、特徴抽出部２を４゛１ヤ成する一す”ングル・ホール
ド回路におけるピーク検波方式、及びサンプリングのタ
イミングは話者の発声長を正Ｕ（（＝にどらえた上で時
間軸の正規化を行うのに重要な点となる。

次に、時間軸の補正を適格にするに適した特徴抽出部２
の他の例について説明する。

一般に話者がある単音を（第５図■に示す音声波形）発
声すると、前記Ｔ３ＰＦ　１６１〜１ｓ　　の出力には
第５図■に示すように、ピーク値間のぎツチがＰの波紋
が得られる。このピッチＰは、例えば「ア」という単音
を発声した場合には約８ｍ５ｅｃであるが、−普通の音
声ではこのピッチは５〜１５　ｍ　Ｓｅｅ以内に入いる
。このようなピ、ヂＰを有する第５図■に示されるｎｐ
ｉｒ　７６゜〜、、　の出力は、夫々第５図■に示さノ
する様にピー　り検波されるわけでちるが、検波すると
きの時定数によっては第５図■、■に示されるように発
声の終了時刻を誤まって検出する。即ち、ピーク検波に
ょろす、７″ルを少なくするだめに時定数を大きくする
と、検波出力は第５図■で判るように、時刻ｔ１で実際
には発声が終了しているにも拘らず、■ノ１メ２１ｔ２
まで音声が旬、、続していると認識する。寸だ、これに
対して時定数を小心くした場合［ζは、検波波形に９．
グルが生じて正ｆｉ（Ｇな７時（ｉｔ・Ｐターン抽出が
望めない。このこと（・ま、時間軸の正規化と特徴パタ
ーンの抽出にはモ響を与え誤った音声認識を行う原因と
もなる。

−そこで、近時ビッグ−周期より長い周期でビーク頷検
出を行う方法が考えられている。以下この方法について
図面を参照して説明する。

第６図Ｃよ、第１図に示しだ特徴抽出ｒｒｔｓ　３の他
の例を示す回路ブ、り線図でわυ、入力端子Ｐ１に音声
入力部１（図示せず。）からの音声信号がＢＰＦ　４１
、〜ｎに供給される。そして、この１’３ＰＦ　４１　
Ｈ””　ｎの各りの出力はダイオードＤ１〜ｎと、ピー
ク検出機能を有するサンプル・ボールド回路４２Ｉ”−
ｎを構成する！ｔ４０ｓ　トランジスタＱｌ−ｎ及びビ
ークイ直をホールドするコンデンサＣ１”□ｎによって
ピーク検波される。ピーク検波によって検出されたピー
ク値、即ち、音声の振幅データは前記コンデンサＣＩ〜
１１に保持され、これらの振幅データは２　Ｊ　−１０
進プ′コーダ４３とＭｏ８　）ランジスタＱ／、　□ｎ
よりなるマルチプレクサ４４を介し−Ｃ／ｖ’Ｕ　変換
器４５に供給される。ここで前記ＭＯ３）ランジスタＱ
Ｉ−ｎがオンのときは０１■己マルチプレクザ４４を構
成するＭＯＳトランジスタＱ’ｌ〜ｎは、オフの状態で
あり、一方のトランジスタ群がオンのときは他方のトラ
ンジスタ群がオフとなる様に制御されている。このだめ
、前記ＭＯ３）ランジスタＱ　Ｈ”　ｎがオンのときコ
ンデン・リー０１〜ｎに保持された音声の振幅データは
、前記ＭｏｓトランジスタＱ１＝ｎがオフのときにＭｏ
ＳトランジスタＱ’＋〜ｎを介してＡ／Ｄ変換器４５に
供給されデジタル用−に変換される。前記ピーク値のザ
ンｌｆ　ＩＪングシ；１１、前述したピッチＰの時間よ
シ長い時間′ｒで行なわれ、時間Ｔだけピーク値が１呆
持されるとその後、トランジスタＴ１〜ｎ。

抵抗１ζ！〜Ｉｔ　ｌ　ＲＺ〜ｎによって構成されるリ
セット回路４６によって前記コンデンサＣ１〜ｎの充電
電荷し」、放電される。この放電時間後、肖びピーク値
の検出が開Ｉにされこれをに、５者の発声の終了１でく
り収す、＞第７図を用いてこのことを説明すると、第７
図■はＢＰＦ　４　Ｊ　１〜１１のうらの１つの出力を
示し、同図■に示す時間Ｔのザンノリングパルスで７ｊ
ｑ声のピーク値が検出されるとともにピーク値が保持さ
れ、同図■に示スリヒ、ト・やルスでコンデンサＣ１〜
ｎの充電電荷１弓、放電されるので、Ａ／Ｄ変換器４５
０入力には同図■に示す波形が入力される。第７図で判
るように音声のピーク値は、前述のピッチＰよシも長い
時間Ｔだけ保持され、しかも放電時はリセット・Ｐルス
期間なので、放電による誤まっだ検波出力の振幅データ
をｔ、Ａ）＜６，７換器４５に送ることもない。

次に前記のＴなる時間、−一り値をサンプル保持するた
めの“す゛ンプリング・！ルスを発生させる手段及びリ
ー１−ット・９ルスを発生させる手段について第Ｇ　、
　８　、４１図を用い′Ｃ説明する。前記コンデンリ゛
Ｃ１”□ｎに音声の１！−り値を一リンデル（１１シ持
するだめ゛す゛ンプリング／１？ルスは、分周器４７と
ヲーンドダー　ト４８に」二っ゛で得ら）Ｌる。

即ち、分周器４８のりＤツク端子ＣＫにＱ」１、第８図
のＣＫで示されるクロックパルスが印加され、こノしを
分周してＱｏ　、Ｑｌに示される出力をナンドケ゛−ト
４８に印加することにより第８図中６）で示すザンゾリ
ング・Ｐルスがイｌられる。

このザンフ’　ＩＪングｉ？ルスが前ＮＱ　Ｍｏ８　）
ランジスタＱ１〜寛１の２．ＬＬ通を制御することは前
述の通りである。また、第１図のモノマルチ４９は前記
ザンプリングパルス■の立ちさがりを検出してパルス（
第８図■）を発生しフリツプフロツプ５０の出力を反転
する（第８図■）。すると、ナンドケ”−）５Ｊ、イン
バータ５２を介して第９図に示すクロックパルスＣＫ’
がｍビットカウンタ５３に印加されこのクロックパルス
ＣＫ’をカウントし始め前記マルチプレクサ４４を構成
する］、（ｍ−１０進デコーダを順次切替え、全てのス
キャンが終わると前言口ｍビットカウンタ５３の出力Ｑ
がインバータ５４を介して前記フリノゾフ口、プ５Ｑに
リセットパルスとして供給心れ、フリッグフロ、プ５０
の状シ！が再び反転する。（−シて、これと同時に第２
のモノマルチ５５が前記トランジスタＴ１〜ｎを導通さ
せコンデン！Ｊ’　Ｃ１”−ｎの充電電荷を放電させる
リセット・Ｐルス（第８図、第９図■、第７図では■に
相当する。）を発生ずる。

尚、分周器４７に接続された、イニシャライズ回路５７
は、電源投入時に前記分周器４７をリセットするたＷｙ
ｆ７）もので（Ｑは抵抗、（Ｄ）ｉ−、、］、ダイオー
ド、（Ｃ）Ｕ−コンデンサである。

まだ、前記Ｍｖ変換器４５へのデータの読み込みのタイ
ミングは次のようにして第９図■に示すパルスを発生す
ることにより行なわれ２）。

前述のように、ザングリング・Ｐルス（第８図（１）の
立ち下がりで、第１のモノマルチ４９は／Ｆルス（第８
．９図■）を発生する。このパルスによりフリラグフロ
ップ５０の状態は反転しく第８．９図■）、ｍビットカ
ウンタ５３にはクロックパルスＣＫ’（第９図■）が印
加される。このクロックパルス（第９図■）の立ち下が
りは第３のモノマルチ５６で検出され、この第３のモノ
マルチ５６の出力には第９図ので示されるノクルスが発
生される。そして、この・ｅルスが前記Ｖ）変換器４５
のデータ読み込みタイミングノセルスとして用いられる
。

このようにして、近時、単１）・発声時にみられる前述
のピッチＰより大きい時間ＴをＴｔ　７”の特徴抽出の
だめの一す′ングル時間とし、ピーク検波時においてリ
ップルによる音声認識時における誤った特徴抽出を防止
するようにしている。また、話者の発声終了時刻の１′
４１定に際しても、その誤差範囲を略前記ビ、チ長Ｐよ
りも少ない範囲とすることができるので、時間軸に対す
る正規化を行うにあたり誤認識を低減できる。いいかえ
ると、話者が同一の酢語を発声するに要する時間を発声
のたびに異ならせたとしても、このことによるＴｔ　７
４ｉの誤認識を低減することができる。

〔バ唄技術の問題点〕

しかしながら−に記構成の場合、次のような問題が、し
る。すなわち、話者が同じ制御内容の言葉を発生したと
しても、話者とワイヤレスマイク１１やマイクロフォン
１４との距離、発声の強さ等によりワイヤレスマイク１
ノ、マイクロッメン１４に入力される音声信号の第１０
図にｉＩ％す、しうに振幅レベルが変化する。今、実線
で示すパターンが登録時のものとし、破線で示すノ２タ
ーンが命令時のものとすれば、登録パターンメモリ２ノ
には期間Ｔ１のデータが取り込まれるのに対し、入力・
９ターンメモリ２２には期間Ｔ２のデータしか取υ込ま
れない。このように入力音声信号のレベルが異なると、
登録パターンメモリ２１に記憶されているデータと入力
／Ｆターンメモリ２２に記憶されているデータとが違っ
てくる為に、実際には同じ制御内容の君葉であるにもか
かわらずそれと認識されない誤認識が発４Ｌする。

〔発明の目的〕

この発明は上記の事情に対処すべくなされたもので、入
力音声信号のレベルが異なる為に登録・Ｐターンメモリ
と入力・ぐターンメモリとに記憶されるデータが異なっ
てしまい、誤まったＮＬ識ｍυ作が行なわれてし寸うこ
とを防止し得る音声認識装置Ｈｊを提供することを目的
とする。

〔発明の１１）Ｉ要〕この発明は始点と終点間のデータだけでなく、少なくと
も始点以前のデータも取り込むようにし、登録ノ？ター
ンデ〜りと入カバターンデー夛のどちらか一方を固定に
し、他方をそのスタートアドレスを中心に前後にずらす
ことにより、固定にしたパターンデータのスタートアド
レスのテ゛−夕に実質的に対応したデータが格納されて
いるアドレスを検出し、これに基づいて両・やターンデ
ータの距離を計算してｇ　ｆ（＆処理を行なうようシて
（１゛ｑ成したものである。

〔発明の実Ｍｌｉ例〕

以下、図面を参照してこの発明の一実施例衾詳８４１１
に活、明する。第１１し１は一実施例の回路図で、先の
第１図及びｆＰｙ　６図と同−Ｒｉ（には同一符号をイ
・１して説、明する。サンプルホールドｊｔｉＪ路１７
、〜１５によってピーク検出されたデータはマルチノ０
レクザＩ９で切り換えられ、８ピ、トＡ／Ｉ）変換器１
８でデジタルブ′−夕に変換される。

このデジタルデータはラッチ回路５１に一時蓄えられる
。最大値検１１−目０１路５２ンよラッチ回路５ノにラ
ッチされたザンゾルホールド回路１７１〜１．の出力デ
ータの中の最大値を検出するとともに、全う、チデータ
を加３Ａ４する。ラッチ回路５ノのラッチデータは割算
回路５３に供給され、最大値検出回路５２で検出された
最大値を用いて割幻される。この動作は前述したような
振幅の正規化に相当するものであり、この振幅の正規化
されたデータは入力／？ターンメモリ５４に記憶される
。な卦、最大値を用いて正規化するととシＪ、本ｆ１出
願人が先の／ｌ’ｊ？願昭５５−８８０１９号にて出願
したものであり、先のｉ１３図で説明した全うッヂｙ′
−夕の加η（ｆｉ’ｉで割３りする構成に比べ、Ｍ識率
を高めることができる。

最大値検出回路５２のもう１つの出ツバつまシ全うッチ
ブ′−夕の加η出力はしきい値検出回路５５に供給され
る。このしきい値検出回路５５は予じめ設定された一定
レベルのしきい値ｖＴによυ、最大値検出回路５２かも
出力される加ｐ出力がしきい値７７以上かしきい値ｖＴ
以下かを識別するの為の（ｇ号を出力する。この識別信
号は制御回路５６に供給される。この制御回路５６は例
えばマイクロコ“ンビュータかも成り、先の第１図に示
すようなシスデムプログラノ、メモリ２　Ｊ　、　ＣＰ
Ｕ　２４等を有する。６）制御回路５６は」二記加３り
出力が第１２図に示すＡ＋＋　＜　、上記しきい値７丁
を越えてから一定時間経過しても今だしきい値７７以上
であるときは、入力信号が雑音信号ではなく話者の音声
信号であると判断する。

そして、しきい値■Ｔを越えたときのデータが記憶され
ている入力／’Ｐターンメモリ５４のアドレスを音声イ
計号の始点のデータを記憶するスタードア１゛レスＡ、
どしてスタートアドレスメモリ５７に配置ｔ７する。才
だ、制御回路５６は上記加３７出力がしきい値７丁より
小さくなってから一定時間経過しても今だしきい値Ｖｔ
以下であるときは、発声の終わりと判断する。そして、
しきい値Ｖ７より小さくなったときのデータが記憶され
ている人力／Ｆターンメモリ５４のアト°レスを盲Ｔ￥
Ａｆｇ号の終点のデータを記憶するエンドアドレスＡＥ
としてエンドアドレスメモリ５８に記憶する。一定時間
しきい値以下でちるか否かをヂエックするのは発生の途
中なのか、単面の区切りなのかを区別する為である。一
般に発生の途中でしきい値以下となるのは１５０　ｎ５
ｅｃ　　以下であり、それ以」二はｊ■、飴の終わりと
みなす。なお、入力・やターンメモリ５４の１き込みア
ドレス指定は制御回路５６によって駆動されるアドレス
。

発生回路５９から出力される省き込みアドレス指定デー
タによってなされる。制引目Ｌｉｌ路５６はこの他にも
、サンプルホールド回路１７１〜１７１３のシンプリン
グ動作用のクロック・２ルスやマルチグレクザの切り換
えタイミングを指定するタイミング／Ｐルス、８ビツト
Ａ／Ｉ）変換器１８の変換タイミング、ラッチ回路５ノ
のラッチタイミング等を指定するタイミング・♀ルスを
出力する。

第１３図は入カバターンメモリ５４の記憶状況を示すも
ので、図示の如くメモリ５４にＶよしきい値ＶＴ以上の
データの他にしきい値ＶＴ以下のｙ′−夕も数アト°レ
ス分にわたって記憶されている。この点に関し、先の第
１°図の装置６″、はしきい値ｖ丁を越えた部分のデー
タだけを入力・Ｐターンメモリ２２に記憶するものであ
った。

今、話者が発生した各７ｉｎ制御内簀を示す音声信号を
登録する登録モードであるとすると、六カッ？ターンメ
モリ５４に記憶されているデータはアドレス発生回路５
９から出力される読み出しアドレス指定データに従って
読み出され、時間軸正規化回路６０にてｉｌＥ規化され
、登録・Ｐターンメモリ６１に記１、ωされる。一方、
ｉｉｌ’ｉ者力；所望の制御内容を指令する認識モー１
−°であるときハ、入力・リーンメモリ５４の記（ｉｌ
ｔブ′−夕と登録）Ｐターンメモリ６１の記１．廖デー
タとの」−し中９７′）：／Ｆクーンデータ比較回路６
２によってなされる。

この、用台、入カッ？ターンメモリ５４０ノ、ノＪ、Ｐ
ターンブ′−夕は時１１層冒’ｊｌ正規化回路６０（・
こよってＩＴ；’ｉ。

１）１１輔の正ノ、砲化がなされた後にノぞターンデー
タ」［二軸回路６２にイｉｔ；　４：、’Ｈされる。な
お、時ＩＩＩ　１ｉｌｌ　ｊｆ三）見イヒ回路６０　（
ｔＪスタートアドレスからエンドアドレス−までのｙ′
−りを例えばＮ１■分して７ｉたＭ　イ［ＬＩのデータ
を正規化データとし、これにＩ）ｊｉ　ｔ、”’ｊ、の
Ａｉ＋及び終点の後のテ′−夕を斂アドレス３）　（１
’　ｊＪｌｌ　したものな出力踵登録モードであればこ
の１ｂブｊしｉてｉ録・？ターンメモリ６１に記憶さｉ
ｔｚ　人ブノモードであれば、・ρターンデータ比較回
１名６２　Ｋ　（Ｊ［＋　＆＜′＜される。

・？ターンデータ比較回路６２は例え−二登０７２ター
ンデークを固定にし、入力）等ターンデータをそのスタ
ートアドレスを中上・にして前後（心ずらすことに上り
、入カバターンの各アドレスに於イて・登録・ぞターン
データの始点グ′−りに実質的に対応するようなデータ
が格納さＩｔ、ているアドレスを検出し、両パターンｒ
−夕の比φツを行なう。このように登録ノ♀ターンデー
タの始点に実質に対応するアドレスを検出することによ
り、１′τ声信号の人力レベルが変化することによって
取り込まれるデータが同じ内容の音声信号によるもので
ちゃながら異なってしすうことに起因する誤認識を低減
させることができる。

これに対し、従来ｔ」、予じめ設定された一′Ｉ−のし
きい値によって決まる始点と終点間のデー　タで距離を
求め、その距離が所定のレベル以下であれば　Ｐ識条件
を５パ４たしたとして、ｈ３識内容に応じた処理及び表
示を行なうようにしていた。

しだがって、音声信号の人力レベルが変化すると、同じ
内容の音声信号でありながら取り込棟れるデータの内容
が異なってしまい、認識不能おるいは誤認識が行なわれ
ることがあったわけである。

第１４図は第１１図の装置の動作を示すフローチャート
である。ステップＳｌ　によって認識モードか否かが判
別され、認識モードでなければ、スデノプＳ２によって
登録キーが操作されていることを検出し、ループＬ１で
示される登録モードに入る。ステ、グＳ３によって振幅
の正規化がなされる。ステ、７°Ｓ４は音声信号の始点
を検出するステップである。このステ、プＳ４の処１ｐ
にｌ、例えば４ビツトの循環レジスタが用いられる。す
なわち、音声信号の入力レベルがしきい値７丁以下でち
れば、循環レジスタの内容は“４”で変化しないが、し
きい１１１以上になると各サンプリング期間毎に１″ず
つ減らされる。ぞして、循環レジスタの内容が０”にな
ったとき、入力信号が雑音信号ではなく音声信号である
と判断して、しきい値Ｖ丁を越えた最初のデータが格納
されるいるアドレスをスタートアドレスとして記憶する
（ステップＳ、　）。ステップ６ｓ６はエンドアドレス
を記憶するステップであυ、ステップＳ４と同様に４ビ
ツト循環レジスタを用いて処理される。世、シ、この場
合、音声信−号の人力レベルがしきい値以下になると、
循（蓑レジスタの内容が変化し、Ｎ＝０になったとき、
発声の終わりと判断して、例えばしきい値ｖＴＵ下にな
ったときの最初のデータが格納されているアドレスをエ
ンドアドレスとして記１いする（ステラ７’５７）（こ
のように入力・でターンメモリ５４に対するプ′−タの
記憶とスタート及び千ンドアドレスのｉ（：憶が並列し
て行なわれ、これが終了すると、ステップＳ８で時間軸
の正規化がニな≧〕１１、スゲ。

ゾＳ９で登録ノにターンメモリ６ノへのプ′−夕の記憶
がなされる。

ループＬ　２は認識モードであシ、ステ、ｆｓ３／〜ｓ
ｓ’ｉＪ、それぞれ先のステップ８３〜Ｓ８に７．Ｊ応
する。ステップｓ、／で時間ｌｌ１ｂのｉ［Ｊ４（１化
が終了すると、ステップＳ＋ｏにｆ′εる。このステラ
：７’　Ｓ、、は前述の〕（ターデータ比較回路６２の
ＩＩ’ｊＱ作に対応するものであり、その動作の一例を
示している。すなわち、ステップ５１０１で登録・セタ
ーンメモリ６）に記憶されている複数の登録・やターン
データそれぞれのスタートアドレスのプゝ−タと入カバ
ターンデータのスタートアト９レスのデータとの距ｔ１
ｆ−力１１３９される。この目算結果に９１（づいて、
ステップ５１０２距離が最も小さい登録・Ｐター／ｊ′
−夕が最適・Ｐターンデータとして、　　選４）・；さ
れる。そして、ステ、グ５１０３で選択されたｊ’７谷
、？　／Ｐターノデークを固定にし、入力・Ｐターンｙ
°−夕をそのスタートアドレスを中心に前後に１アドレ
ス多〕ずらしヒ巨冑１［をｇＩｑ、する。この１アドレ
ス分すら一ノー操作によって全体の距さくｔが小さくな
った方向（こ対して入力・Ｐター／プ′−夕をずらし、
登録・やターンデータのスタートアト°レスラ′−夕と
このスタートアドレスに対応した入力・Ｐターンデータ
のアドレスのデータとの距離を訂１檜し、＋、５．′も
小さくなったアドレスを実質的に登録、９ターンデータ
のスタートアドレスに文Ｊ応−〕゛るものとし、全体の
互角（ｔを言１譜する。入力／Ｆターンプ′−夕のアド
レスを前方向に±１したのであれば、エンドアドレス側
を同方向に下１し、距離を割算する上での登録・Ｒター
ンメモＩＪと入力／ｅターンメモリとのアドレス数をそ
ろえる。そして、全体の距離が所定レベルより小さけれ
ｔ」：、ステップＳ　１０４にて認識条件を／ｉｊ〜た
したと１′４Ｊ断じて、ステップＳ　１０６にて制御内
容に基づいた機器の制御やその制御内容の表示を行なう
。

認識条件を満たさなければ、ステツノ’　Ｓ　＋　に移
って、再び話者に希望の制御内容を発声させる。

甲、−に詳述したように動作させる場合、例えばステッ
プＳ６＃Ｓ６で循環レジスタの内容が”（どになったと
きｒ−夕の取り込みを終えるようにすることができるの
で、無駄なアドレス制徊１等の不要な演３１を無くし、
実行時間を短縮してデータ１の転送効率を高めることが
できる。また、ステップ１０３に於いて、人力・Ｐター
ンデータを±１だけずらし、この後Ｖよ全体の距離が小
さくなった方向にだけ入カバターンデータをずらずこと
によυ最適、Ｉ？インドを見つけるようにしだので、前
後にそれぞれ数アドレス分ずらして最適７Ｉ？インドを
見つける場合に比べ処理時間を短縮できる。

なお、この発明は入カバターンデータを固定にして登録
／Ｆターンデータを前後にずらすようにしてもよい。ま
た、始点と終点との間のデータ以外のｙ′−夕の取り込
みは有針）４ターンデータ、入力・Ｐターンデータのど
ちらか一方に対してのみ行なうようにしてもよい。

〔発明の効果〕

このようにこの発明によれば、同じ内容の音声イバ−）
ンであってもＪ１１シ込むデータの内容が異なってし１
って誤認識が生じてしまういうことを凋・＜シ得る刊’
ｊ”ＢＰ亮架装置提供することができる。

【図面の簡単な説明】

第１図は音声認識装置として現在考えられているものを
示す回路図、第２図、第３図、第４図はそれぞれ音声認
識装置として現在考えられ１いるものの説明に供する時
間−周波数−振幅レベル特性図、回路図、周波数ス４ク
トル図、第５図は君声波の検波特性を説明するに供する
イａ号波形図、第６図は音声認識装置として現在考えら
れているものの他の例を示す回路図、第７図は第６図の
動作を説明するに供する信号波形図、第８ツｌ及び第９
図は２＋’；　６図の１助作を説明するに供するタイミ
ングチー、−ト、第１０図は第１１ン１の装置の欠点を
説明する為の［ン１、第１１図はこの発明に係る音声認
識装置の一実施例を示す回路図、第１２図は一定レベル
のしきい飴によって設定される音声信号の始点及び終点
を説明する為の図、第１３図は人力・Ｐターンメモリの
記憶状況を説明する為の図、゛第１４１ン１は第１１図
の装Ｈイーの動作をｈ発明する為の図である。１１・・・ワイヤレスマイク、１２・・・Ｆ　Ｍ受ｂ；
優、１３・・・）０リアンプ、１４・・・マイク、１５
・・・ノ０リエンフ、ｒシス回路、１６．〜１６１５・
・・・クント・ｅスフィルタ、Ｄ　１〜１）１．・・・
ダイオード、１７，１〜１７１５・・・°リーンフ０ル
ホールド回路、１８・・・８ピツ）　Ａ／Ｄ変換器、１
９・・・マルチプレクサ、５１・・・ラッチ回路、５２
・・・最大値検出回路１，５３・・・割錆回路、５４・
・・入力・千ターンメモリ、５５・・・しきい値検出回
路、５６・・・制御回路、５７・・・スタートアドレス
メモリ、５８・・・エンドアドレスメモリ、５９・・・
アドレス発生回路、６０・・・ｌ＋、’ｉ間ｉＩ！Ｉｔ
　、ｉ１廻４化回路、６ノ・・・・Ｕ釘・・Ｐターンメ
モリ、６２・・・パターンデータ比較回路。１１ｉ：Ｉ’＋’を人代理人　　弁理士　鈴　江　武　
Ｖ第２図Ｑ　　　ｈ　　ｔｚ　　ｈ　　−−一−−−−−−−−
・−−−、、１（晴間）第３図特許庁長官　　　若　杉　和　夫　　殿１．事件の表示特■軸昭５７−１３３５７３号２　発明の名称音声認識装置３、　１＋ｌｉ　＋Ｉ：、なする各事件との関係　特許出願人（３０７）　　東京芝浦電気株式会社４、代理人昭和５７年１０月２６日６、袖１１−の対象７、補正の内容図面第１４図の図番を、別紙に未配の如く「第１４図（
ｉｌｌ　　、　　ｒ第１４図（２）」と訂正する。

Claims

【特許請求の範囲】

音声（ｉ号を複数のフィルタに通して複数の周波数帯１
或に分割し、これを同一タイミングで繰シ返えしサンプ
リングすることにより音声信号の特徴を示す・ヤターン
を作るという操作によってそれぞれ登録モード時に得ら
れる登録パターンデータと認識モー１°時に得られる入
力・？ターンデータとを比較し、入力音声信号の内容を
識別する音声認ｔｉｆｉ！：装置に於いて、各サンプリ
ング期間に於ける複数のザングリングデータの振幅を正
規化する振幅正規化手段ど、各サンプリング期間に於け
る複数のザンゾリングデータの総和が一定しきい仏具」
二のときを音声信号の始点とし、一定しきい値以下にな
ったときを音声信号の終点とし、一定しきい値以上のデ
ータとともに少なくともデータの始点以前のデータをも
取り込むことが可能なデータ取シ込み手段と、データの
始点と終点間のデータの時間軸を正規化する時間軸正規
化手段と、振幅及び時間軸の正規化された登録・ぞター
ンデータ、入力・ぐターンデータのどちらか一方を固定
にし、他方の・母ターンデータをその始点データの格納
されたアドレスを中心にして前後にずらすことにより固
定にした・９ターンデータの始点データに実質的に対応
するようなデータが格納されているアドレスを検出する
というようにして両）！ターンデータの比較を行なう比
較手段とを具備した音声認識装置。