JPS6239900A

JPS6239900A - 音声認識装置

Info

Publication number: JPS6239900A
Application number: JP60178510A
Authority: JP
Inventors: 宮芝　晃一
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1985-08-15
Filing date: 1985-08-15
Publication date: 1987-02-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】し産業上の利用分野］本発明は、音声認識装置に関し、特に、音声標準パター
ンの読み出し時間、音声マツチング処理時間を短縮させ
た音声認識装置に関するものである。

［従来の技術Ｊ従来のこの種の音声認識装置は、入力音声と、予め登録
しておいた全音声標準パターンを順々に重ね合わせ、そ
の都度両者間の距離を計算して距離が最小のパターンを
抽出し、これをもって音声認識結果としていた。従って
、認識可能語数を多くするとそれに伴い、登録語数が増
大し、認識に要する時間も大幅に増加し、かつ認識率も
低下する現象が顕著となった。

これを避けるためには、例えば音声標準語を単語、数字
、単音節等の概念別に分類して登録し、認識時にはその
語集団が格納されている記憶部を選択できるようにして
その中で厳密なマツチング処理を行なう方法が有効とさ
れている。

この語集団記憶部の選択・変更をする方法にはキー操作
によるもの又は音声によるもの等がある。

［発明が解決しようとする問題点］しかし、キー操作によるものは語集団記憶部の選択・変
更が確実に行なえるが、キー人力と音声入力を同時にし
なければならず操作が複雑となり、使用者の負担が大き
い。

また、音声によるものは、本来の登録音声パターン群の
他にそれら登録音声パターン群の記憶部を選択−変更す
るためのコマンドが必要であり、このために各語集団記
憶部を代表する名称の音声パターンからなる変更用語集
団の記憶部を別設しなければならない。

つまり、本来の音声パターンがその語の特徴によりいく
つかの語集団記憶部に分けられ、夫々には変更用コマン
ドとして、例えば「ヘンコラＪを組み込む。語集団記憶
部の選択・変更の際には、まず「ヘンコラＪを音声入力
すると、それがその時点で選択されていた語集団記憶部
の中で認識され、これにより変更用語集団の記憶部が選
択される。次に選択拳変更を希望する語集団記憶部の名
称を音声入力することにより、選択・変更が可能になる
というものである。しかしながら、この方法では選択・
変更のために二度の音声入力が必要であるため手間がか
かる。

また前述した変更用コマンドの音声パターンを各語集団
記憶部毎に登録するため、同一語でありながら発声音量
レベルや発声時間長の異なる音声パターンが登録される
ことになる。それゆえ同一の選択・変更を行なう場合で
も認識のされ方が異なるため、最悪の場合はある語集団
記憶部から変更用語集団が選択できなくなる場合もあっ
た。

［問題点を解決するための手段］本発明は、上述した従来技術の欠点を解決することを目
的としてなされたものであり、この問題点を解決する一
手段として、例えば発声長に従ってグループ分けした複
数の音声標準パターンを記憶している音声パターン記憶
手段と、音声情報を入力する音声入力手段と、該音声入
力手段より入力される音声の発声長を検出する発声長検
出手段と、該発声長検出手段で検出された発声長に従い
、前記音声パターン記憶手段より対応する音声標準パタ
ーンを読み出す音声パターン読み出し手段と、該音声パ
ターン読み出し手段で読み出した音声標準パターンと入
力音声パターンを順次比較して音声認識する音声認識手
段とを備える。

［作用］かかる構成において、入力音声の発声時間情報を音声認
識手法に取りいれることにより、音声パターン記憶手段
に対する読み書きを高速で行なえ、音声認識のためのマ
ツチング処理時間を短縮させかつ高認識率が得られる。

［実施例］以下、添付図面を参照して本発明の実施例を詳細に説明
する。

第１図は本発明に係る一実施例の音声認識装置のブロッ
ク構成図である。

図において１は音声を電気信号に変換するマイクロホン
、２は周波数範囲２００〜６０００Ｈｚを８〜３０ｃｈ
に分けた帯域通過フィルタ群から成り、パワー信号やホ
ルマント信号等の特徴量抽出を行う特徴抽出部、３は抽
出された特徴間を５〜１０　ｍ　Ｓ毎に標本化し、量子
化するＡ／Ｄ変換器である。また、４及び１４は標準音
声登録の際と入力音声認識の際とで信号経路を切替える
登録／認識切替スイッチ手段、５及び１２は登録又は認
識の際に入力音声の発声時間長が算出されるまでの間入
力音声特微量を蓄えておくバッファメモリであり、６は
入力音声のパワー信号から語檗の始端・終端に相当する
点を検出する始端Φ終端検出回路である。

７は始端・終端検出回路６の検出点情報より入力音声の
始端から終端までの時間を測定する発声長測定回路、８
は発声長測定回路７で検出測定した発声時間長に応じて
諸量集団記憶部１０１〜Ｉｏｎの選択信号を発生する発
声長選別回路、１０は語檗集団記憶部１０１〜１０ｎを
有するメモリ、９は音声登録の際に諸量集団記憶部１０
１〜１ｏｎを切替えるスイッチ、１１は音声認識の際に
語檗集団記憶部１０１〜Ｉｏｎを切替えるスイッチであ
る。１３は音声認識の際に入力音声パターンと語檗集団
記憶部１０１〜Ｉｏｎを切替えて読み出した登録音声パ
ターンとを比較するパターンマツチング部、１５は認識
結果を処理する汎用のセントラルプロセツシングユニッ
ト（ＣＰＵ）、１６は操作キーボード、１７は認識結果
等を表示する表示部、１８はメモリ１０に記憶されてい
る音声標準パターンを記録カード上に記憶させるカード
ライタである。１９は装置使用の際、以前にカードライ
タ１８により記憶させた記録カードの登録した音声標準
パターンをメモリ１０にロードするカードリーダである
。

なお、本実施例では記録カードとして磁気カードを用い
ている。このため、磁気フレキシブルディスク装置等と
比較して、小型であり、また、取り扱いも容易であり、
非常に使い易いものとなっている。なお、光カード、Ｉ
Ｃカードであってもよいことは言うまでもない。

以下、以上の構成よりなる本実施例の動作を詳細に説明
する。

まず、マイクロホン１より入力された入力音声の発声時
間長は入力音声の始端・終端の時間差で求められる。音
声の始端・終端検出については種々の方法が考えられる
が、本実施例ではＡ／Ｄ変換器３によるＡ／Ｄ変換後の
パワー（電力）情報Ｐを用いている。

第２図はＡ／Ｄ変換器３より５〜１．０　ｍ　Ｓ毎に出
力される入力音声のパワー情報Ｐを、縦軸をパワー量Ｐ
、横軸を時間軸に表わした図である。

第２図において、まず入力音声に混入する暗雑音を除去
するため、予め実験室内での雑音電力の平均値を計算し
ておき、これを閾値ＰＮとする。

更に無声化し易い語頭子音や電力の小さい語頭子音レベ
ルの閾値をＰｃとして、２つの閾値ＰＮとＰｃの平均値
をＰＭとする。また入力音声があってから次の入力音声
があるまでのポーズ時間の最小値をＴｐとし、かつ入力
音声として認める最小発声時間をＴｗとする。

［始端ＳＯの検出］まず、Ａ／Ｄ変換器３より５〜１０ｍ５毎に出力される
パワー信号Ｐが２２２Ｍとなる最初の点を見つける。こ
の点より後に２２２Ｍなる状態がＴｗ時間以」二継続し
ていれば２２２Ｍとなる最初の点を始端Ｓｏとする。Ｔ
ｗ時間未満で終わってしまう場合いはノイズと見なし、
次の２２２Ｍとなる点を見つけ上記と同様の操作を行な
う。

［終端ＥＯの検出］始端Ｓｏ検出の後にパワー信号ＰがＰ　＜　Ｐ　ｓとな
る最初の点を見つける。この点より後にＰ　＜　Ｐ　Ｍ
である状態がＴｐ時間以」二継続していればＰ　＜　Ｐ
　Ｍとなる最初の点を終端Ｅｏとする。

このようにして入力音声の始端・終端が検出される。

発声長測定回路７は始端・終端検出回路６で始端ＳＯが
検出されるとタイマをスタートさせ、かつ終端Ｅｏが検
出されるとタイマをストップさせて発声時間長を算出し
、その値を発声長選別回路８に送る。

尚、上述した動作は第３図の制御プログラムを内蔵した
マイクロプロセッサにより実現可能であ１する。

以下、第３図のフローチャー１・に従い発声長時間検出
制御の詳細を説明する。

まずステップＳ１ではタイマｔを°Ｏ“に初期化する。

そして続くステップＳ２でパワー信号ＰがＰＭ以−Ｌに
なるのを待つ。ステップＳ２の判別で２２２Ｍを満足す
るとステップＳ３に進み、その時点のタイマｔの内容を
始端レジスタＳｏに保存する。そしてステップＳ４及び
Ｓ５で２２２Ｍの状態がＴｗ時間以上継続するのを待つ
。途中で２２２Ｍを満足しないときはステップＳ１に戻
り、それまでの部分はノイズとして扱われる。

２２２ＭがＴｗ時間以」−継続するとステップＳ６に進
み、始端レジスタＳｏの内容を確足し、更にＰ　＜　Ｐ
　Ｍになるのを待つ。そしてステップＳ６の判別でＰ＜
ＰＭを満足するとステップＳ７に進み、その時点のタイ
マｔの内容を後端レジスタＥｏに保存する。そして続く
ステップＳ８及びＳ９でＰくＰＭの状態がＴＰ時間以上
継続するのを待つ。途中でＰ＜ＰＭを満足しないときは
ステップＳ６に戻り、それまでのパワー信号Ｐは有効と
し、まだ入力音声が連続しているものとして扱われる。

またＴＰ時間以上継続するとステップＳＩＯに進み、入
力音声の終端と判別し後端レジスタＥｏの内容は確定す
る。そしてステップＳ１０で時刻ＳｏからＥｏまでの区
間を発声長Ｖ１として確定する。以上の処理により入力
音声の発声長が測定される。

次に標準音声パターン等を記憶するメモリ１０の記憶構
造について説明する。本実施例で採用したメモリ１０の
記憶構成の具体例を表に示す。

メモリ１０は発声時間長側に分類した諸量集団記憶部１
０１〜Ｉｏｎを有している。そして表に示した如く認識
したい語の発声時間長として０．４Ｓ〜３Ｓの発声時間
長を有する語粟を採用し、各諸量集団記憶部１０．〜ｌ
Ｏｎはそれぞれ発声時間長が０．４３より０，２Ｓ増加
する毎に分けて対応する諸量を記憶している。

表標準音声登録の際は第１図のようにスイッチ４．１４の
各接点Ｃが夫々接点４１側及び接点１４１側に接続され
る。そしてマイクロホン１より入力された登録すべき音
声信号は上述と同様の制御で特徴抽出部２、Ａ／Ｄ変換
器３を介してバッファメモリ５にセットされる。それと
共に、Ａ／Ｄ変換器３よりの出力は始端・終端検出回路
６にも送られ、その出力は発声長検出回路７に入力され
る。そして発声長検出回路７で検出された入力音声の発
声長ｖ１が発声長選別回路８に送られると、そこで発声
長別に分類した諸量集団記憶部１０１〜１０ｎの選択信
号に変換される。該選択信号はスイッチ１４の接点１４
１を介して登録用の語檗集団記憶部切替スイッチ９に送
られ、そこで該当する諸量集団記憶部を選択する。こう
して選択された語粟集団記憶部にはバッファメモリ５に
蓄えられている音声の特徴パターン（例えばＳｏからＥ
ｏまでの部分）が標準パターンとして蓄えられる。この
ようにして種々の発声長の音声パターンが発声長別に決
められた語粟集団記憶部に蓄えられる。

このようにして各個人が登録した音声標準パターンはカ
ートライタ１８に送られ、記録カードにストアされる。

次回の利用の際には個人の標準音声パターンを記録した
記録カードをカードリータ１９からメモリ１０の各語粟
集団記憶部内に直接ロードすることにより音声標準パタ
ーンの登録の手間を省くことができる。

また音声認識の際は第１図のスイッチ４，１４の各接点
Ｃが夫々接点４２側及び接点１４２側に接続される。従
ってＡ／Ｄ変換器３よりの出力はバッファメモリ１２に
セットされる。また、発声長選別回路８から出力される
選択信号はスイッチ１４の接点１４２を介して認識用の
諸費集団記憶部切替スイッチ１１に送られ、検出発声長
ｖ１に対応する語粟集団記憶部が選択される。次に、選
択された語粱集団記憶部内の標準パターンが１つづつパ
ターンマツチング部１３に送られ、バッファメモリ１２
に格納された入力音声の特徴パターンとの間でパターン
マツチングを行い、両者の類似度が最大の標準パターン
を抽出し、その対応符号を認識結果としてＣＰＵ１５に
出力する。

次に上述動作を具体例に従って説明する。

まず登録の際に、例えばある単語Ａが入力され、その音
声特徴量がバッファメモリ５に蓄えられ、始端・終端検
出回路６及び発声長測定回路７で発声時間長が０．８５
Ｓと算出されたとする。発声長選別回路８はこの時間情
報０．８５３から表に従って語粟集団記憶部１０３を選
択し、八ツファメモ”　　リ５の単語Ａの特徴パターン
が記憶部１０３に登録される。音声認識の際にもこれと
同様の動作でスイッチ１１により記憶部１０３が選択さ
れ、記憶部１０３内の複数標準パターンとバッファメモ
リ１２に蓄えられた単語Ａの特徴パターンとの間で順々
にマツチングが行なわれる。

ところで、同一単語であっても標準パターン登録時の発
声時間と音声認識時の発声時間が異なると、音声認識時
に希望する諸量集団記憶部が選択されないことがある。

例えば表でいうと、単語Ｂの登録時の発声長が０．７９
５３であり、認識時の発声長が０．８Ｓであったとする
と、単語Ｂは記憶部１０２に登録され、しかも認識マツ
チングは記憶部１０３中の標準パターンとの間で行なわ
れるから、単語Ｂが認識されなくなる。本実施例ではそ
こで発声長変動による問題を回避するため、認識時間短
縮の真の発声長に所定の変動幅を考慮した発声時間情報
で諸量集団記憶部を選択することとする。例えば単語Ｂ
認識時の真の発声長Ｑ、８Ｓに対し仮に±ｏ、ｏｉｓの
変動幅を考慮して加えると単語Ｂの発声長を０．７Ｈ〜
０．８０１Ｓとできる。この値は記憶部１０２と記憶部
１０ａにまたがるから、まず記憶部１０２の標準パター
ンでマツチングを行ない、次に記憶部１０３の標準パタ
ーンでマツチングを行なうことになる。

一方、単語Ｃにて登録時の発声長が１．０５３であり、
認識時の真の発声長が１．１Ｏ３であるような場合には
±０．０１３の変動値を考慮した認識時の発声長も登録
時と同じ記憶部１０４の語集団内であるからその中での
マツチングを行なえばよい。このように本実施例によれ
ば発声長の変動にも強い音声認識装置が提供できる。

こうして木実流側装置により５００語を認識させた結果
を従来方式によるものと比べると、認識処理時間は１０
０〜５００ｍ５短縮され、認識率は２０％以」−改善さ
れ、平均２８０ｍ５の認識処理時間と９８．５％の認識
率を得た。

本実施例では実験室内の暗雑音でＰＮを足めたが音声認
識装置の用途に応じた任意の雑音環境下でＰＮの値を自
由に可変可能である。また語索集団記憶部の分類個数、
各記憶部の容量、発声時間長幅、認識時に考慮する発声
時間長の変動幅等も用途に応じ、常に最良の認識結果が
得られるよう自由に可変できる。

また、本実施例をタイプライタに応用することにより、
高速、高信頼性の音声タイプライタを構成できる。

以上の説明において、記録カードとして磁気記録カード
を用い、カードライタ１８、カードライタ１９として磁
気カードライタ、磁気カードリーダを用いる例を説明し
たが、バックアップ用電源（電池）等を内蔵した半導体
メモリ（ＲＡＭ）パックを用い、メモリ１０の登録標準
音声パターン情報をこれに記憶させてもよい。このよう
にすることにより、読み出し、書き込み時間のほとんど
かからない、小型のものとすることができる。

また、大容量の記憶のできる磁気バブルカードを用いて
も、また光カードを用いてもよいことは勿論である。

以上述べた如く本実施例によれば、音声特徴量に発声時
間情報を付加することにより音声認識処理の認識時間短
縮を実現した音声認識装置とすることができる。即ち、
音声認識時のパターンマツチング候補が発声時間情報に
よって小グループに絞られるため、全体として登録語量
が大きい場合においても認識処理時間が短くなり、また
、発声時間情報は同時に音声認識のための重要な情報に
ほかならす、これを認識処理に使用することにより認識
率向上にも効果がある。

また、標準音声パターンを記録カード等に記憶保存する
ことにより、フロッピーディスク等にこれらを記憶する
場合に比べ、小型かつ簡単であり、保守管理が容易とな
る。従って、手軽に音声標準パターンをセーブすること
ができ、各個人毎に音声標準パターンをセーブしておく
ことにより、多くの人が一台の認識装置を利用すること
ができる。又、音声標準パターンの読み出しも、容易か
つ高速で行なうことができる。

このように本実施例によれば、取り扱いの容易な、かつ
認識率の高い装置とすることができ、木実流側装置を広
く民生用に応用することにより特に大きな効果を上げる
事ができる。

［発明の効果］以上説明した様に本発明によれば、入力音声の発声時間
長情報に従い音声認識を行なうことにより、短時間で、
かつ、認識率の高い音声認識を行なることができる。

また音声標準パターン情報を磁気カードやＩＣカード等
に記録し、読出し可能としたことにより、保守管理が容
易でかつ小型の音声タイプライタ、ワープロ等の音声認
識装置が提供できる。

【図面の簡単な説明】

第１図は本発明に係る一実施例の音声認識装置のブロッ
ク構成図、第２図は本実施例の入力音声のパワー情報Ｐを時間軸に
表した図、第３図は本実施例の発声長測定回路を示すフローチャー
トである。ここで、１・・・マイクロホン、２・・・特徴抽出部、
３・・・Ａ／Ｄ変換器、４・・・登録／認識切替スイッ
チ手段、５・・・登録用バッファメモリ、６・・・始端
・終端検出回路、７・・・発声長測定回路、８・・・発
声長選別回路、９・・・登録用語粟集団切替スイッチ手
段、１０・・・メモリ、１０１〜ｌＯｎ川語学集団記憶
部、１１・・・認識用語全集団切替スイッチ手段、１２
・・・認識用バッファメモリ、１３・・・パターンマツ
チング部、１４・・・登録／認識切替スイッチ手段、１
５・・・ＣＰＵ、１６・・・キーボード、１７・・・表
示部、１８・・・カードライタ、１９・・・カードリー
グである。

Claims

【特許請求の範囲】

（１）発声長に従ってグループ分けした複数の音声標準
パターンを記憶している音声パターン記憶手段と、音声
情報を入力する音声入力手段と、該音声入力手段より入
力される音声の発声長を検出する発声長検出手段と、該
発声長検出手段で検出された発声長に従い、前記音声パ
ターン記憶手段より対応する音声標準パターンを読み出
す音声パターン読み出し手段と、該音声パターン読み出
し手段で読み出した音声標準パターンと入力音声パター
ンを順次比較して音声認識する音声認識手段とを備える
ことを特徴とする音声認識装置。
（２）音声パターン読み出し手段は発声長検出手段が検
出した発声長と該発声長に所定の変動幅を加えた値を基
に読み出すべき音声パターンの対応グループを決定し、
該グループ毎の音声標準パターンを読み出すことを特徴
とする特許請求の範囲第１項記載の音声認識装置。
（３）音声パターン記憶手段として磁気カードを用いる
ことを特徴とする特許請求の範囲第１項又は第２項記載
の音声認識装置。
（４）音声パターン記憶手段としてＩＣカードを用いる
ことを特徴とする特許請求の範囲第１項又は第２項記載
の音声認識装置。
（５）音声パターン記憶手段として光カードを用いるこ
とを特徴とする特許請求の範囲第１項又は第２項記載の
音声認識装置。