JPS6239900A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6239900A
JPS6239900A JP60178510A JP17851085A JPS6239900A JP S6239900 A JPS6239900 A JP S6239900A JP 60178510 A JP60178510 A JP 60178510A JP 17851085 A JP17851085 A JP 17851085A JP S6239900 A JPS6239900 A JP S6239900A
Authority
JP
Japan
Prior art keywords
voice
speech
pattern
utterance
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60178510A
Other languages
English (en)
Inventor
宮芝 晃一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP60178510A priority Critical patent/JPS6239900A/ja
Publication of JPS6239900A publication Critical patent/JPS6239900A/ja
Priority to US08/446,077 priority patent/US5774851A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 し産業上の利用分野] 本発明は、音声認識装置に関し、特に、音声標準パター
ンの読み出し時間、音声マツチング処理時間を短縮させ
た音声認識装置に関するものである。
[従来の技術J 従来のこの種の音声認識装置は、入力音声と、予め登録
しておいた全音声標準パターンを順々に重ね合わせ、そ
の都度両者間の距離を計算して距離が最小のパターンを
抽出し、これをもって音声認識結果としていた。従って
、認識可能語数を多くするとそれに伴い、登録語数が増
大し、認識に要する時間も大幅に増加し、かつ認識率も
低下する現象が顕著となった。
これを避けるためには、例えば音声標準語を単語、数字
、単音節等の概念別に分類して登録し、認識時にはその
語集団が格納されている記憶部を選択できるようにして
その中で厳密なマツチング処理を行なう方法が有効とさ
れている。
この語集団記憶部の選択・変更をする方法にはキー操作
によるもの又は音声によるもの等がある。
[発明が解決しようとする問題点] しかし、キー操作によるものは語集団記憶部の選択・変
更が確実に行なえるが、キー人力と音声入力を同時にし
なければならず操作が複雑となり、使用者の負担が大き
い。
また、音声によるものは、本来の登録音声パターン群の
他にそれら登録音声パターン群の記憶部を選択−変更す
るためのコマンドが必要であり、このために各語集団記
憶部を代表する名称の音声パターンからなる変更用語集
団の記憶部を別設しなければならない。
つまり、本来の音声パターンがその語の特徴によりいく
つかの語集団記憶部に分けられ、夫々には変更用コマン
ドとして、例えば「ヘンコラJを組み込む。語集団記憶
部の選択・変更の際には、まず「ヘンコラJを音声入力
すると、それがその時点で選択されていた語集団記憶部
の中で認識され、これにより変更用語集団の記憶部が選
択される。次に選択拳変更を希望する語集団記憶部の名
称を音声入力することにより、選択・変更が可能になる
というものである。しかしながら、この方法では選択・
変更のために二度の音声入力が必要であるため手間がか
かる。
また前述した変更用コマンドの音声パターンを各語集団
記憶部毎に登録するため、同一語でありながら発声音量
レベルや発声時間長の異なる音声パターンが登録される
ことになる。それゆえ同一の選択・変更を行なう場合で
も認識のされ方が異なるため、最悪の場合はある語集団
記憶部から変更用語集団が選択できなくなる場合もあっ
た。
[問題点を解決するための手段] 本発明は、上述した従来技術の欠点を解決することを目
的としてなされたものであり、この問題点を解決する一
手段として、例えば発声長に従ってグループ分けした複
数の音声標準パターンを記憶している音声パターン記憶
手段と、音声情報を入力する音声入力手段と、該音声入
力手段より入力される音声の発声長を検出する発声長検
出手段と、該発声長検出手段で検出された発声長に従い
、前記音声パターン記憶手段より対応する音声標準パタ
ーンを読み出す音声パターン読み出し手段と、該音声パ
ターン読み出し手段で読み出した音声標準パターンと入
力音声パターンを順次比較して音声認識する音声認識手
段とを備える。
[作用] かかる構成において、入力音声の発声時間情報を音声認
識手法に取りいれることにより、音声パターン記憶手段
に対する読み書きを高速で行なえ、音声認識のためのマ
ツチング処理時間を短縮させかつ高認識率が得られる。
[実施例] 以下、添付図面を参照して本発明の実施例を詳細に説明
する。
第1図は本発明に係る一実施例の音声認識装置のブロッ
ク構成図である。
図において1は音声を電気信号に変換するマイクロホン
、2は周波数範囲200〜6000Hzを8〜30ch
に分けた帯域通過フィルタ群から成り、パワー信号やホ
ルマント信号等の特徴量抽出を行う特徴抽出部、3は抽
出された特徴間を5〜10 m S毎に標本化し、量子
化するA/D変換器である。また、4及び14は標準音
声登録の際と入力音声認識の際とで信号経路を切替える
登録/認識切替スイッチ手段、5及び12は登録又は認
識の際に入力音声の発声時間長が算出されるまでの間入
力音声特微量を蓄えておくバッファメモリであり、6は
入力音声のパワー信号から語檗の始端・終端に相当する
点を検出する始端Φ終端検出回路である。
7は始端・終端検出回路6の検出点情報より入力音声の
始端から終端までの時間を測定する発声長測定回路、8
は発声長測定回路7で検出測定した発声時間長に応じて
諸量集団記憶部101〜Ionの選択信号を発生する発
声長選別回路、10は語檗集団記憶部101〜10nを
有するメモリ、9は音声登録の際に諸量集団記憶部10
1〜1onを切替えるスイッチ、11は音声認識の際に
語檗集団記憶部101〜Ionを切替えるスイッチであ
る。13は音声認識の際に入力音声パターンと語檗集団
記憶部101〜Ionを切替えて読み出した登録音声パ
ターンとを比較するパターンマツチング部、15は認識
結果を処理する汎用のセントラルプロセツシングユニッ
ト(CPU)、16は操作キーボード、17は認識結果
等を表示する表示部、18はメモリ10に記憶されてい
る音声標準パターンを記録カード上に記憶させるカード
ライタである。19は装置使用の際、以前にカードライ
タ18により記憶させた記録カードの登録した音声標準
パターンをメモリ10にロードするカードリーダである
なお、本実施例では記録カードとして磁気カードを用い
ている。このため、磁気フレキシブルディスク装置等と
比較して、小型であり、また、取り扱いも容易であり、
非常に使い易いものとなっている。なお、光カード、I
Cカードであってもよいことは言うまでもない。
以下、以上の構成よりなる本実施例の動作を詳細に説明
する。
まず、マイクロホン1より入力された入力音声の発声時
間長は入力音声の始端・終端の時間差で求められる。音
声の始端・終端検出については種々の方法が考えられる
が、本実施例ではA/D変換器3によるA/D変換後の
パワー(電力)情報Pを用いている。
第2図はA/D変換器3より5〜1.0 m S毎に出
力される入力音声のパワー情報Pを、縦軸をパワー量P
、横軸を時間軸に表わした図である。
第2図において、まず入力音声に混入する暗雑音を除去
するため、予め実験室内での雑音電力の平均値を計算し
ておき、これを閾値PNとする。
更に無声化し易い語頭子音や電力の小さい語頭子音レベ
ルの閾値をPcとして、2つの閾値PNとPcの平均値
をPMとする。また入力音声があってから次の入力音声
があるまでのポーズ時間の最小値をTpとし、かつ入力
音声として認める最小発声時間をTwとする。
[始端SOの検出] まず、A/D変換器3より5〜10m5毎に出力される
パワー信号Pが222Mとなる最初の点を見つける。こ
の点より後に222Mなる状態がTw時間以」二継続し
ていれば222Mとなる最初の点を始端Soとする。T
w時間未満で終わってしまう場合いはノイズと見なし、
次の222Mとなる点を見つけ上記と同様の操作を行な
う。
[終端EOの検出] 始端So検出の後にパワー信号PがP < P sとな
る最初の点を見つける。この点より後にP < P M
である状態がTp時間以」二継続していればP < P
 Mとなる最初の点を終端Eoとする。
このようにして入力音声の始端・終端が検出される。
発声長測定回路7は始端・終端検出回路6で始端SOが
検出されるとタイマをスタートさせ、かつ終端Eoが検
出されるとタイマをストップさせて発声時間長を算出し
、その値を発声長選別回路8に送る。
尚、上述した動作は第3図の制御プログラムを内蔵した
マイクロプロセッサにより実現可能であ1す る。
以下、第3図のフローチャー1・に従い発声長時間検出
制御の詳細を説明する。
まずステップS1ではタイマtを°O“に初期化する。
そして続くステップS2でパワー信号PがPM以−Lに
なるのを待つ。ステップS2の判別で222Mを満足す
るとステップS3に進み、その時点のタイマtの内容を
始端レジスタSoに保存する。そしてステップS4及び
S5で222Mの状態がTw時間以上継続するのを待つ
。途中で222Mを満足しないときはステップS1に戻
り、それまでの部分はノイズとして扱われる。
222MがTw時間以」−継続するとステップS6に進
み、始端レジスタSoの内容を確足し、更にP < P
 Mになるのを待つ。そしてステップS6の判別でP<
PMを満足するとステップS7に進み、その時点のタイ
マtの内容を後端レジスタEoに保存する。そして続く
ステップS8及びS9でPくPMの状態がTP時間以上
継続するのを待つ。途中でP<PMを満足しないときは
ステップS6に戻り、それまでのパワー信号Pは有効と
し、まだ入力音声が連続しているものとして扱われる。
またTP時間以上継続するとステップSIOに進み、入
力音声の終端と判別し後端レジスタEoの内容は確定す
る。そしてステップS10で時刻SoからEoまでの区
間を発声長V1として確定する。以上の処理により入力
音声の発声長が測定される。
次に標準音声パターン等を記憶するメモリ10の記憶構
造について説明する。本実施例で採用したメモリ10の
記憶構成の具体例を表に示す。
メモリ10は発声時間長側に分類した諸量集団記憶部1
01〜Ionを有している。そして表に示した如く認識
したい語の発声時間長として0.4S〜3Sの発声時間
長を有する語粟を採用し、各諸量集団記憶部10.〜l
Onはそれぞれ発声時間長が0.43より0,2S増加
する毎に分けて対応する諸量を記憶している。
表 標準音声登録の際は第1図のようにスイッチ4.14の
各接点Cが夫々接点41側及び接点141側に接続され
る。そしてマイクロホン1より入力された登録すべき音
声信号は上述と同様の制御で特徴抽出部2、A/D変換
器3を介してバッファメモリ5にセットされる。それと
共に、A/D変換器3よりの出力は始端・終端検出回路
6にも送られ、その出力は発声長検出回路7に入力され
る。そして発声長検出回路7で検出された入力音声の発
声長v1が発声長選別回路8に送られると、そこで発声
長別に分類した諸量集団記憶部101〜10nの選択信
号に変換される。該選択信号はスイッチ14の接点14
1を介して登録用の語檗集団記憶部切替スイッチ9に送
られ、そこで該当する諸量集団記憶部を選択する。こう
して選択された語粟集団記憶部にはバッファメモリ5に
蓄えられている音声の特徴パターン(例えばSoからE
oまでの部分)が標準パターンとして蓄えられる。この
ようにして種々の発声長の音声パターンが発声長別に決
められた語粟集団記憶部に蓄えられる。
このようにして各個人が登録した音声標準パターンはカ
ートライタ18に送られ、記録カードにストアされる。
次回の利用の際には個人の標準音声パターンを記録した
記録カードをカードリータ19からメモリ10の各語粟
集団記憶部内に直接ロードすることにより音声標準パタ
ーンの登録の手間を省くことができる。
また音声認識の際は第1図のスイッチ4,14の各接点
Cが夫々接点42側及び接点142側に接続される。従
ってA/D変換器3よりの出力はバッファメモリ12に
セットされる。また、発声長選別回路8から出力される
選択信号はスイッチ14の接点142を介して認識用の
諸費集団記憶部切替スイッチ11に送られ、検出発声長
v1に対応する語粟集団記憶部が選択される。次に、選
択された語粱集団記憶部内の標準パターンが1つづつパ
ターンマツチング部13に送られ、バッファメモリ12
に格納された入力音声の特徴パターンとの間でパターン
マツチングを行い、両者の類似度が最大の標準パターン
を抽出し、その対応符号を認識結果としてCPU15に
出力する。
次に上述動作を具体例に従って説明する。
まず登録の際に、例えばある単語Aが入力され、その音
声特徴量がバッファメモリ5に蓄えられ、始端・終端検
出回路6及び発声長測定回路7で発声時間長が0.85
Sと算出されたとする。発声長選別回路8はこの時間情
報0.853から表に従って語粟集団記憶部103を選
択し、八ツファメモ”  リ5の単語Aの特徴パターン
が記憶部103に登録される。音声認識の際にもこれと
同様の動作でスイッチ11により記憶部103が選択さ
れ、記憶部103内の複数標準パターンとバッファメモ
リ12に蓄えられた単語Aの特徴パターンとの間で順々
にマツチングが行なわれる。
ところで、同一単語であっても標準パターン登録時の発
声時間と音声認識時の発声時間が異なると、音声認識時
に希望する諸量集団記憶部が選択されないことがある。
例えば表でいうと、単語Bの登録時の発声長が0.79
53であり、認識時の発声長が0.8Sであったとする
と、単語Bは記憶部102に登録され、しかも認識マツ
チングは記憶部103中の標準パターンとの間で行なわ
れるから、単語Bが認識されなくなる。本実施例ではそ
こで発声長変動による問題を回避するため、認識時間短
縮の真の発声長に所定の変動幅を考慮した発声時間情報
で諸量集団記憶部を選択することとする。例えば単語B
認識時の真の発声長Q、8Sに対し仮に±o、oisの
変動幅を考慮して加えると単語Bの発声長を0.7H〜
0.801Sとできる。この値は記憶部102と記憶部
10aにまたがるから、まず記憶部102の標準パター
ンでマツチングを行ない、次に記憶部103の標準パタ
ーンでマツチングを行なうことになる。
一方、単語Cにて登録時の発声長が1.053であり、
認識時の真の発声長が1.1O3であるような場合には
±0.013の変動値を考慮した認識時の発声長も登録
時と同じ記憶部104の語集団内であるからその中での
マツチングを行なえばよい。このように本実施例によれ
ば発声長の変動にも強い音声認識装置が提供できる。
こうして木実流側装置により500語を認識させた結果
を従来方式によるものと比べると、認識処理時間は10
0〜500m5短縮され、認識率は20%以」−改善さ
れ、平均280m5の認識処理時間と98.5%の認識
率を得た。
本実施例では実験室内の暗雑音でPNを足めたが音声認
識装置の用途に応じた任意の雑音環境下でPNの値を自
由に可変可能である。また語索集団記憶部の分類個数、
各記憶部の容量、発声時間長幅、認識時に考慮する発声
時間長の変動幅等も用途に応じ、常に最良の認識結果が
得られるよう自由に可変できる。
また、本実施例をタイプライタに応用することにより、
高速、高信頼性の音声タイプライタを構成できる。
以上の説明において、記録カードとして磁気記録カード
を用い、カードライタ18、カードライタ19として磁
気カードライタ、磁気カードリーダを用いる例を説明し
たが、バックアップ用電源(電池)等を内蔵した半導体
メモリ(RAM)パックを用い、メモリ10の登録標準
音声パターン情報をこれに記憶させてもよい。このよう
にすることにより、読み出し、書き込み時間のほとんど
かからない、小型のものとすることができる。
また、大容量の記憶のできる磁気バブルカードを用いて
も、また光カードを用いてもよいことは勿論である。
以上述べた如く本実施例によれば、音声特徴量に発声時
間情報を付加することにより音声認識処理の認識時間短
縮を実現した音声認識装置とすることができる。即ち、
音声認識時のパターンマツチング候補が発声時間情報に
よって小グループに絞られるため、全体として登録語量
が大きい場合においても認識処理時間が短くなり、また
、発声時間情報は同時に音声認識のための重要な情報に
ほかならす、これを認識処理に使用することにより認識
率向上にも効果がある。
また、標準音声パターンを記録カード等に記憶保存する
ことにより、フロッピーディスク等にこれらを記憶する
場合に比べ、小型かつ簡単であり、保守管理が容易とな
る。従って、手軽に音声標準パターンをセーブすること
ができ、各個人毎に音声標準パターンをセーブしておく
ことにより、多くの人が一台の認識装置を利用すること
ができる。又、音声標準パターンの読み出しも、容易か
つ高速で行なうことができる。
このように本実施例によれば、取り扱いの容易な、かつ
認識率の高い装置とすることができ、木実流側装置を広
く民生用に応用することにより特に大きな効果を上げる
事ができる。
[発明の効果] 以上説明した様に本発明によれば、入力音声の発声時間
長情報に従い音声認識を行なうことにより、短時間で、
かつ、認識率の高い音声認識を行なることができる。
また音声標準パターン情報を磁気カードやICカード等
に記録し、読出し可能としたことにより、保守管理が容
易でかつ小型の音声タイプライタ、ワープロ等の音声認
識装置が提供できる。
【図面の簡単な説明】
第1図は本発明に係る一実施例の音声認識装置のブロッ
ク構成図、 第2図は本実施例の入力音声のパワー情報Pを時間軸に
表した図、 第3図は本実施例の発声長測定回路を示すフローチャー
トである。 ここで、1・・・マイクロホン、2・・・特徴抽出部、
3・・・A/D変換器、4・・・登録/認識切替スイッ
チ手段、5・・・登録用バッファメモリ、6・・・始端
・終端検出回路、7・・・発声長測定回路、8・・・発
声長選別回路、9・・・登録用語粟集団切替スイッチ手
段、10・・・メモリ、101〜lOn川語学集団記憶
部、11・・・認識用語全集団切替スイッチ手段、12
・・・認識用バッファメモリ、13・・・パターンマツ
チング部、14・・・登録/認識切替スイッチ手段、1
5・・・CPU、16・・・キーボード、17・・・表
示部、18・・・カードライタ、19・・・カードリー
グである。

Claims (5)

    【特許請求の範囲】
  1. (1)発声長に従ってグループ分けした複数の音声標準
    パターンを記憶している音声パターン記憶手段と、音声
    情報を入力する音声入力手段と、該音声入力手段より入
    力される音声の発声長を検出する発声長検出手段と、該
    発声長検出手段で検出された発声長に従い、前記音声パ
    ターン記憶手段より対応する音声標準パターンを読み出
    す音声パターン読み出し手段と、該音声パターン読み出
    し手段で読み出した音声標準パターンと入力音声パター
    ンを順次比較して音声認識する音声認識手段とを備える
    ことを特徴とする音声認識装置。
  2. (2)音声パターン読み出し手段は発声長検出手段が検
    出した発声長と該発声長に所定の変動幅を加えた値を基
    に読み出すべき音声パターンの対応グループを決定し、
    該グループ毎の音声標準パターンを読み出すことを特徴
    とする特許請求の範囲第1項記載の音声認識装置。
  3. (3)音声パターン記憶手段として磁気カードを用いる
    ことを特徴とする特許請求の範囲第1項又は第2項記載
    の音声認識装置。
  4. (4)音声パターン記憶手段としてICカードを用いる
    ことを特徴とする特許請求の範囲第1項又は第2項記載
    の音声認識装置。
  5. (5)音声パターン記憶手段として光カードを用いるこ
    とを特徴とする特許請求の範囲第1項又は第2項記載の
    音声認識装置。
JP60178510A 1985-08-15 1985-08-15 音声認識装置 Pending JPS6239900A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60178510A JPS6239900A (ja) 1985-08-15 1985-08-15 音声認識装置
US08/446,077 US5774851A (en) 1985-08-15 1995-05-19 Speech recognition apparatus utilizing utterance length information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60178510A JPS6239900A (ja) 1985-08-15 1985-08-15 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6239900A true JPS6239900A (ja) 1987-02-20

Family

ID=16049729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60178510A Pending JPS6239900A (ja) 1985-08-15 1985-08-15 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6239900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706487B2 (en) 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706487B2 (en) 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US6864809B2 (en) Korean language predictive mechanism for text entry by a user
US4761815A (en) Speech recognition system based on word state duration and/or weight
EP0065829B1 (en) Speech recognition system
EP0319140B1 (en) Speech recognition
US5774851A (en) Speech recognition apparatus utilizing utterance length information
EP2940684A1 (en) Voice recognizing method and system for personalized user information
CN113035231A (zh) 关键词检测方法及装置
JPS6131477B2 (ja)
Kangas Phoneme recognition using time-dependent versions of self-organizing maps.
CN105810192B (zh) 语音识别方法及其系统
JPS61219099A (ja) 音声認識装置
JPS6239900A (ja) 音声認識装置
US8140334B2 (en) Apparatus and method for recognizing voice
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JPS6132679B2 (ja)
JPS6151799B2 (ja)
JPS61175700A (ja) 音声認識装置
JPH05119793A (ja) 音声認識方法及び装置
JP3563018B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP3039453B2 (ja) 音声認識装置
KR100355453B1 (ko) 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법
JP2000099077A (ja) 音声認識装置
JP2000305595A (ja) 音声認識装置
JPH0410104B2 (ja)