JPH0239199A - 音声標準パタン登録方式 - Google Patents

音声標準パタン登録方式

Info

Publication number
JPH0239199A
JPH0239199A JP63190284A JP19028488A JPH0239199A JP H0239199 A JPH0239199 A JP H0239199A JP 63190284 A JP63190284 A JP 63190284A JP 19028488 A JP19028488 A JP 19028488A JP H0239199 A JPH0239199 A JP H0239199A
Authority
JP
Japan
Prior art keywords
voice
pattern
standard
standard pattern
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63190284A
Other languages
English (en)
Inventor
Takashi Miki
三木 敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63190284A priority Critical patent/JPH0239199A/ja
Publication of JPH0239199A publication Critical patent/JPH0239199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置の標準パタン辞書メモリへの音
声標準パタン登録方式に関する。
(従来の技術) 音声認識装置はコンどユータ、その他の種々の外部機器
の有力な入力装置としで利用され始めてあり、そのため
、種々の開発が進められている。
第2図は従来の音声認識装置の典型例を示すブロック図
である。先ず、この発明の理解を容易にするためこの従
来装置の認識処理及び標準パタン登録処理につき簡単に
説明する。
先ず、認識処理動作を説明する。使用する話者の発声し
た音声をマイクロホン等の外部音声入力袋=10によっ
て取り込み、このアナログ入力音声をA/D変換部12
においでディジタル音声信号に変換し、特徴抽出部14
においでこの音声信号から音声の特徴パラメータを抽出
しこれを音声切り出し部16及び認識部18へそれぞれ
出力する1通常、特徴パラメータとして、フレームと称
される一定時間間隔で、スペクトル成分Sと対数パワー
P等を抽出する。そして、音声切り出し部16において
、この抽出した特徴パラメータの時間変化から音声区間
を判定して認識部1日へ送る。
この認識部18において音声区間の周波数成分S及び対
数パワーPの系列すなわち特徴パラメータ系列である音
声パタンを求め、この音声パタンと予め音声標準パタン
メモリ20に登録されでいる標準パタンを読み出()て
きで音声パタンとこの標準パタンとの類似度を求めで、
最大類似度を有する標準パタンの屈するカテゴリを認識
判定する。そして、認識結果出力部22から認識結果と
しての当該標準パタンのカテゴリの番号を外部機器24
へ出力し、その後の所望の処理に供せしめる構成となっ
ている。
次に、登録処理動作につき説明する。
股に標準パタン登録方法としでは、文献:特開昭61−
258299号公報に開示されているように、話者に同
一カテゴリの音声を複数回発声させ、その内の一つ又は
いくつかの音声パタンを取捨選択し、選択されたパタン
の音声長(音声区間)間の平均化等を行い、平均音声長
に該当する音声パタンを標準パタンとしてB録する技術
等がある。この技術によれば、複数回のそれぞれの発声
に対し、外部音声入力装置10としてのマイクロホンよ
っ入力させた音声をA/D変換部12においてディジタ
ル音声信号に変換した後、特徴抽出部14によってこの
入力音声のスペクトル成分S及び対数パワーP%求め、
音声切り出し部16において音声区間を決定する。次に
、認識部18においてこの音声区間の特徴パラメータ系
列である音声パタンを求めこれを一旦この認識部18内
のメモリに記憶させる。従って認識部18のメモリには
1回目の音声パタン、2回目の音声パタン、・・・、n
回目の音声パタンというように音声パタンかそれぞれ記
憶されることになる。そして、1回目及び2回目の音声
パタンの音声区間長である発声長L1及びL2の平均値
、すなわち、平均発声長L (= (Ll +12 )
/2)を求め、3回目以降に発声された音声パタンに対
しては、この平均発声長しから経験に基ずいで定めた最
短発声長L min及び最長発声長L +’naxの間
の許容範囲外に発声長を有する音声パタンは標準パタン
作成には使用しないという取捨選択の手法を取ってい1
.:。
その理由は、極端に発声長が異なる音声パタンの場合に
は、本来の単語の発声音の頁の音声区間に対して前後の
雑音をも取り込ん1ど区間を音声区間としで判定したり
、或いは逆に本来の単語の発声音の音声区間の一部分か
脱落してしまって本来の音声区間の半分程度の区間を音
声区間としで判定してしまうため、このような許容範囲
外の発声長を有する音声パタンを標準パタンの作成に使
用すると、著しく認識性能が低下するからである。
しかしながら、発声長に上述したようなある限度内の許
容範囲を設け、その範囲内の発声長を持った音声パタン
を標準パタンの決定に用いる手法は、登録精度か上り、
総合的な認識性能の向上か図れるという利点がある。
(発明か解決しようとする課題) しかしなから、この従来の取捨選択技術による標準パタ
ン登録の方式は、先に入力された1回目と2回目の2回
の音声パタンを基準にしてその後に取り込んだ音声パタ
ンの取捨選択を行う手法であるので、これら1回目及び
2回目の音声パタンに切り出()誤りか含まれていない
ことが前提条件となっている。従って、もし、この基準
となる音声パタンに切り出し誤りが起っでいる場合には
、その後の標準パタンの作成用としで選出される音声パ
タンには適切でないものも含まれることとなり、標準パ
タンの登録精度はもとより音声認識装置の認識性能を低
下させる恐れがある。いま、従来の手法を用いて標準パ
タンの登録を行うとする。発声された単語を誤検出した
と考え、その誤検出した音声パタンを含んで基準@を設
定しでしまう確率を評価基準とする検出誤り率をαとす
ると、2回の音声パタン中でいずれか一方もしくは双方
に誤検出パターンが含まれる確率P、はPl−α(2−
α)となる。検出誤り率αを0.15:0.1 :o、
05:0.03とした場合の確率P1を別表に示す。こ
の別表からも理解出来るように、αの値に対し、確率P
1は0.2775:0. 19;O,,0975;0.
059]というように大きな値となってしまう。
従って、この発明は、音声認識装置ではどのような発声
を標準パタンとして登録するかが登録精度はもとより装
置自体の認識性能を大きく左右するという点に着目して
成されたものであり、従って、この発明の目的は、特定
の音声パタンの切り出し結果に依存することなく良好な
音声パタンを選択し、登録精度、認識の精度及び認識の
安定性が高くなるような標準パタンを登録する方式を提
供することにある。
(課題を解決するための手段) この目的の達成を図るため、この出願の第一の発明によ
れば、 認識部に複数の音声パタンの音声長の中央値を求める手
段と、該中央値に該当する音声パタンを選出する手段と
を設け、 同一カテゴリの音声を3回収上発声させて得た一連の音
声長の中央値に該当する音声パタンを標準パタンとして
標準パタン辞書メモリに登録スルこと を特徴とする。
ざらに、この出願の第二発明によれば、認識部に複数の
音声パタンの音声長の中央値を求める手段と、該中央値
を基準発声長とした許容範囲を設定する手段と、この許
容範囲内の音声長の音声パタンを選出する手段とを設け
、同一カテゴリの音声を3回収上発声させて得た各音声
パタンのうちこの許容範囲内に音声長を有する音声パタ
ンから標準パタンを定めてこれを標準パタン辞書メモリ
に登録すること を特徴とする。
(作用) この第一発明によれば、3回以上の音声パタンより得ら
れた最も発生頻度の高い発声長を基準発声長としでこれ
に該当する発声長の音声パタンを標準パタンとする方式
であるので、発声長に切り出し誤りのある音声パタンを
含んでいても平均化によりその影響が小さくなるため登
録精度と、認識の精度及び安定性か向上する。
また、第二発明によれば、前述の基準発声長に対して経
験に基づいて最大及び最小限界@を定めてこれら最大及
び最小限界値間の範囲を許容範囲としで定め、この許容
範囲内に発声長を有する音声パタンを標準パタンの候補
として取捨選出するので、登録精度と、認識の精度及び
安定性が一層向上する。
(実施例) 以下、図面を参照しで、この発明の実施例につき説明す
る。
第1図(A)及び(B)はこの発明の音声標準パタンM
 8&方式をそれぞれ説明するためのブロック図、第3
図(A)及び(B)はこの発明の音声標準パタン登録の
動作の手順を説明するための動作の流れ図である。
尚、第1図(A)及び(B)において、第2図で説明し
た構成成分と同一の構成成分については同−の符号を付
して説明し、その詳細な説明を省略する。
既に説明したように、この発明の標準パタン登録方式に
おいては、同一カテゴリの音声を複数回発声させて得ら
れた複数個の音声パタンの発声長の中央値を基準発声長
としで設定する。そして、この基準発声長と同一の長さ
の音声若しくはこの基準発声長とは著しく異ならない長
さの音声のみから標準パタンを作成するように構成した
ものである。
先ず、第1図(A)に示す実施例では、音声パタンと標
準パタンとの類似度ヲ算出して認識判定を行う認識部1
8′に、標準パタン作成のために音声パタンの取捨選択
を行うための機能をもたせる。この機能を達成させるた
め、この実施例では、認識部18′に複数の音声パタン
の音声長の中央値を求める中央値算出手段26と、この
中央値に該当する音声パタンを選出する選出手段28と
を設ける。30は音声切り出し部16においで決定され
認識部18′に送られできた各音声パタンの特徴パラメ
ータ系列及びそれぞれの発声長を一時的に読出し自在に
記憶させるための一時記憶装置である。
この−時記憶装雪30を設ける代わりに認識部18′の
メモリ(図示せず)にその機能を持たせでも良い。
次に、この第1図(A)の構成の動作例につき第3図(
A)の動作の流れ図を用いて説明する。
登録をしようとする話者は、外部マイクロホン10に向
けで、例えば特定の発声リストに従って、ある文章を発
声して読むことにより、この文章中に含まれている同一
カテゴリの単語の音声を3回以上の任意の回数だけ、こ
の実施例では3回、発声させる。先ず、1回目の発声に
対して、認識処理の場合と同様にして、マイクロホン2
0、A/D変換部12を介して特徴抽出部14に送られ
ここで音声特徴バラメークS、P等が算出され、音声切
り出し部16においてこれら特徴パラメータS、P等の
時間変化からこの入力音声の音声区間の判定が行なわれ
る。
認識部18′の中央値算出手段26においでは、特徴パ
ラメータS、P等及び音声区間L+  (il、2・・
・n。尚、この実施例ではn=3とする。)かそれぞれ
入力され(ステップS1)、i声区間に対応した音声パ
タンSP□ (i=1.2・・・n。尚、この実施例で
はn=3とする。)としでの特徴パラメータ系列が定ま
る(ステップS2)。1回目の音声パタンtsp、とラ
ベル付けして、音声区間に対応した特徴パラメータS及
びPの系列を一時記憶装置30に記憶すると共に、この
音声パタンの発声長L1も記憶する(ステップS3)。
同様に、2回目及び3回目の発声に対してもその音声パ
タンSPY、SP3及び発声長L−2vL38記憶する
。この3回目の発声終了時点で音声パタンS P +〜
S P 3及び各音声パタンの発声長し、〜し3が得ら
れる(ステップS3)。
次に、この中央値算出手段26において、各音声パタン
SPI  (1= 1.2.3)の一連の発声長LL 
 (1=1.2.3)の中央値(median:メジア
ン)L□を求める(ステップS4)。
次に、選出手段28において、この発声により得た一連
の音声長Llの中央値し□に該当する音声パタンSP、
、、ヲ選出しくステップS5)、この選出した音声パタ
ンsp、を標準パタンとして標準パタン辞書メモリ20
に出力して登録する(ステップS6)。
このようにして第1図(A)の構成の音声標準パタン登
録方式における音声標準パタンか登録される。
次に、第1図(B)に示す構成の音声標準パタン登録方
式につき説明する。
この構成は、第1図(A)の構成とは、標準パタン作成
のための音声パタンの取捨選択の範囲を広げるために許
容範囲を設定し、この許容範囲内で選択された複数の音
声パタンの音声長の平均化を行って標準パタンとしての
音声パタンの選出を行う機能をもたせている点が異なっ
ているが、その他の構成は同一であるのでその詳細な説
明を省略する。
従って、この実施例では、認識部18′(こ複数の音声
パタンSP、(i=1.2−・−n、尚、この実施例で
はn=3とする。)の各音声長り。
(i=1.2・・・n。尚、この実施例ではn−3とす
る。)の中央値L□を求める中央値算出手段26の他(
こ、この中央値し、壱基準発声長とした許容範囲を設定
する許容範囲設定手段32を追加しで設ける。この実施
例で行う許容範囲の設定の手法は、予め経験的に定めた
最大許容範囲率81.8及び最小許容範囲率S min
を認識部M18のメモリ(図示せず)に格納しておき、
所要に応してこれら許容節回率S l’1lllX及び
S−+、、%読出しで基準発声長L1に乗算して最大許
容発声長としての1大限界値し□8及び最小許容発声長
としての最小限界値し□、、ヲそれぞれ求め、これら最
大限界値及び最小限界値L minで定まる範囲を許容
範囲とする。
ざらに、この認識部18′には第1図(A)に設けた選
出手段28の代わりに、この許容範囲内の音声長の音声
パタンを選出し、選出された音声パタンか一個の場合に
はこれを標準パタンとし、又、選出された音声パタンか
複数個ある場合には、これらの音声パタンの発声長の平
均化を行って平均化された発声長りを標準パタンとしで
選出する等といった種々の任意好適な手法によって標準
パタンを選出する選出手段34を設ける。
次に、この第1図(8)の構成の動作例につき第3図C
B)を参照して説明する。
第1図(A)の構成の場合と同様に、登録をしようとす
る話者は、外部マイクロホン10に向けて同一カテゴリ
の単語の音声を3回以上の任意の回数たけ、この実施例
では3回、発声したとし、認識部18′の中央値算出手
段26には、特徴パラメタS、P等及び音声区間り、(
i=1.2・・・n。尚、この実施例ではn=3とする
。)がそれぞれ入力され(ステップ510)たとする。
この場合にも同様に、音声区間に対応した音声パタンS
Pl (i−1,2・・・n、尚、この実施例ではn=
3とする。)としての特徴パラメータ系列が定まり(ス
テップSl+)、1回目、2回目、3回目の各音声パタ
ンをS P l、 S P 2 、S P 3とラベル
付けして音声区間に対応した特徴バラタ〜りS及びPの
系列を一時記憶装=30にj頃次記憶すると共に、これ
ら音声パタンの発声長LL2.L3も記憶する(ステッ
プ512)。
次に、この中央値算出手段26において、各音声パタン
SP、(i=1.2.3)の一連の発声長L+  (1
=1.2.3)の中央値し、、、を求める(ステップ5
13)。
尚、上述したステップ810〜SI3は前述したステッ
プ81〜S4と実質的に同一の動作処理が行われる。
次1こ、認識部18′のメモリ(図示せず)に予め格納
されでいる最大許容範囲率8□つと最小許容範囲率S1
゜。とを読出しくステップ5I4)、これらの許容範囲
率S□8及びS、、、、oa中央値り、fこ対してそれ
ぞれ(1)式に従って算出して最大許容発声長L ma
x及び最小許容発声長しff18、を算出し、これら最
大許容発声長し□、、ヲ最大限界値としかつ最小許容発
声長し□nを最小限界値とする許容範囲を設定する(ス
テップ515)。
次に、選出手段34において、先の三つの音声パタンS
PI  (1= 1.2.3)の発声長し、〜L3のう
ち、(2)式の条件を満足させる発声長を持った発声長
し1を選出する(ステップ516)。
L min  ≦L+  ≦L maw(i=1.2.
3) 次に、この選出手段34において、この条件を満足する
発声長L1を有する音声パタンか1個のか櫂数個あるか
の判定を行い(ステップ5I7)、もし−個のみである
場合にはその音声パタンSPをそのまま標準パタンとし
て標準パタン辞書メモリ20へ登録する(ステップ51
9)。
一方、この判定ステップSI7においで上述の条件を満
足する発声長を有する音声パタンが槽数個存在すると判
定された場合には、それら選択された音声パタン間での
発声長の平均化等を行う(ステップ518)。この平均
化を行う代わりに、例えば選択された音声パタンの全て
をそのカテゴリの標準パタンとして決定するマルチテン
プレート法と称する手法等といった従来手法を用いでも
良い。
このようにしで求めた一つ又は複数個の標準パタンを標
準パタン辞書メモリ20へ出力して登録する(ステップ
519) このようにしで、同一カテゴリの音声を3回収上発声さ
せて得た各音声パタンのうち許容範囲内に音声長を有す
る音声パタンかう標準パタンを定めてこれを標準パタン
辞書メモリ20に登録するという、第1図(B)の構成
の音声標準パタン登録方式を達成することか出来る。
上述した第1図(A)及びCB)の構成の各音声標準パ
タン登録方式によれば、3個の音声パタンのうち2個以
上の誤検出パタンか存在する場合に誤検出パタンかう基
準発声長を設定しでしまうことになる。このような確率
P1′は前述した検出誤りαで表わすと P、’  =3a2 (1−a)+a3となり、前述し
た検出誤りαの各値に値しで、別表ニ示すように、0.
○6075.0.028 :00OO725:o、o○
2889というように、従来値と比較してこの発明の方
式による場合の誤設定率が低く抑えられることが分かる
この発明は上述した実施例にのみ限定されるものではな
く多くの変形又は変更をなし得ることか出来る。例えば
、上述した実施例では、3回の発声によって標準パタン
を決定しでいるが、4回以上の任意の回数だけ発声させ
て標準パタンの決定を行っても良い。
(発明の効果) 上述した説明からも明らかなように、この発明の音声標
準パタン登録方式によれば・最も発声頻度の高い発声長
を標準パタン取捨選択の基準発声長としているので、従
来手法よりも登録精度が向上するとともに、音声認識装
置自体での認識精度/ /
【図面の簡単な説明】 第1図(A)及び(8)はこの発明の音声標準パタン登
録方式の説明に供するブロック図、第2図は従来の音声
標準パタン登録方式の説明に供するブロック図、 第3図(A)及び(8)はこの発明の音声標準パタン登
録方式における登録手順を説明するための動作の流れ図
である。 10・・・外部音声入力装置、 12・・・A/D変換
部14・・・特徴抽出部、    16・・・音声切り
出し部18′・・・認識部 20・・・標準パラン計重メモリ 22・・・認識結果出力部、  24・・・タト部機器
26・・・中央値算出手段、  28.34・・・選出
手段30・・・−時記憶装ゴ 32・・・許容範囲設定手段。 特許出願人      沖電気工業株式会社第1図(A
)の構成の登録動作の流れ口笛3 図 (A)

Claims (2)

    【特許請求の範囲】
  1. (1)音声標準パタンを読み出し自在に登録しておくた
    めの標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
    された音声標準パタンとの類似度を算出する認識部とを
    含み、該類似度に基づいて認識結果を外部処理装置へ出
    力するように構成した音声認識装置の当該標準パタン辞
    書メモリに音声標準パタンを登録する方式において、 前記認識部に複数の音声パタンの音声長の中央値を求め
    る手段と、該中央値に該当する音声パタンを選出する手
    段とを設け、 同一カテゴリの音声を3回以上発声させて得た一連の音
    声長の中央値に該当する音声パタンを標準パタンとして
    前記標準パタン辞書メモリに登録すること を特徴とする音声標準パタン登録方式。
  2. (2)外部音声入力部からの入力音声の音声パタンと予
    め登録された音声標準パタンとの類似度を算出する認識
    部と、標準パタン辞書メモリとを含み、該類似度に基づ
    いて認識結果を外部処理装置へ出力するように構成した
    音声認識装置の当該標準パタン辞書メモリに前記音声標
    準パタンを登録する方式において、 前記認識部に複数の音声パタンの音声長の中央値を求め
    る手段と、該中央値を基準発声長とした許容範囲を設定
    する手段と、この許容範囲内の音声長の音声パタンを選
    出する手段とを設け、同一カテゴリの音声を3回以上発
    声させて得た各音声パタンのうち前記許容範囲内に音声
    長を有する音声パタンから標準パタンを定めてこれを前
    記標準パタン辞書メモリに登録すること を特徴とする音声標準パタン登録方式。
JP63190284A 1988-07-29 1988-07-29 音声標準パタン登録方式 Pending JPH0239199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63190284A JPH0239199A (ja) 1988-07-29 1988-07-29 音声標準パタン登録方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63190284A JPH0239199A (ja) 1988-07-29 1988-07-29 音声標準パタン登録方式

Publications (1)

Publication Number Publication Date
JPH0239199A true JPH0239199A (ja) 1990-02-08

Family

ID=16255610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63190284A Pending JPH0239199A (ja) 1988-07-29 1988-07-29 音声標準パタン登録方式

Country Status (1)

Country Link
JP (1) JPH0239199A (ja)

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JPH0554959B2 (ja)
JP3066920B2 (ja) 音声認識方法及び装置
JPS62232691A (ja) 音声認識装置
JP3091537B2 (ja) 音声パターン作成方法
JPH0239199A (ja) 音声標準パタン登録方式
JP2966002B2 (ja) 音声認識装置
JP3112037B2 (ja) 音声認識装置
JPH07230293A (ja) 音声認識装置
JP2975542B2 (ja) 音声認識装置
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JPH0273398A (ja) 音声標準パタン登録方式
JP3357752B2 (ja) パターンマッチング装置
JPH08110790A (ja) 音声認識装置
JPH0534679B2 (ja)
JPH06337700A (ja) 音声合成装置
JP2001013983A (ja) 音声合成を用いた音声認識装置および音声認識方法
JPH0424697A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPH0469959B2 (ja)
JPS62255999A (ja) 単語音声認識装置
JPH06324696A (ja) 音声認識装置及び方法
JPH02118697A (ja) 音声標準パタン登録方式