JPH0558556B2 - - Google Patents

Info

Publication number
JPH0558556B2
JPH0558556B2 JP61237384A JP23738486A JPH0558556B2 JP H0558556 B2 JPH0558556 B2 JP H0558556B2 JP 61237384 A JP61237384 A JP 61237384A JP 23738486 A JP23738486 A JP 23738486A JP H0558556 B2 JPH0558556 B2 JP H0558556B2
Authority
JP
Japan
Prior art keywords
syllable
extracted
section
interval
buzz bar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61237384A
Other languages
English (en)
Other versions
JPS6391700A (ja
Inventor
Mitsuhiro Toya
Tooru Ueda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61237384A priority Critical patent/JPS6391700A/ja
Publication of JPS6391700A publication Critical patent/JPS6391700A/ja
Publication of JPH0558556B2 publication Critical patent/JPH0558556B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、日本語等の音声を音節単位に認識
して、外部装置に出力する音声認識装置に関す
る。
〈従来の技術〉 バズバー部は有声破裂音の音節発声の前に先行
して声帯の振動によつて発声される音であり、非
常に低周波成分の強い音であり人間には殆ど聞こ
えない。したがつて、音声認識装置では上記バズ
バー部を除去する必要がある。
従来、音声認識装置では入力された音声を音韻
分類することによつてバズバー部を判定して、上
記バズバー部に相当する音節情報を除去してい
る。
〈発明が解決しようとする問題点〉 ところが、上記従来の音声認識装置において
は、バズバーを強く生じる発声を行う人の場合に
は、音韻分類では正確にバズバー部か否かを判定
することができない。しかも、音節区間として切
出された特徴パターンは総て有意味な音節として
処理しているので、意図しない音節が切出されて
認識結果として出力することがしばしば発生し、
上記認識結果を入力する外部装置では入力に手間
取るという問題がある。
そこでこの発明の目的は、入力された音声の音
節区間をバズバー部であるか否かを正確に判別し
て、誤つて一音節として切出されたバズバー部を
確実に除去しうる音声認識装置を提供することに
ある。
〈問題点を解決するための手段〉 上記目的を達成するために、この発明の音声認
識装置は、入力された音声から音節区間抽出部で
音節を切出し、この切出された音節の特徴パター
ンとメモリに予め記憶している複数種類の音節の
特徴標準パターンとの類似度計算をCPUで行つ
て、入力された音声を音節単位で認識する音声認
識装置において、上記音節区間抽出部で切出した
音節がバズバー部であるか否かを、上記音節区間
抽出部で切出された音節区間と直前の音節区間と
の間の無音時間長、切出された音節区間の長さ、
切出された音節区間の平均パワー、切出された音
節区間と後続する音節区間との間の無音時間長、
切出された音節区間の1次自己相関係数の平均
値、切出された音節区間の音素系列のいずれか一
つ又はそれらの複数の組み合わせに基づいて判別
し、バズバー部であると判別した場合にはバズバ
ー部を表す音節情報を除去する判別除去手段を有
することを特徴としている。
〈作用〉 音節区間抽出部によつて、入力された音声から
種々の情報をもとにして音節が切出されると共
に、上記切出された音節区間のパターンから、音
節の特徴を表わす特徴情報が得られる。
そうすると、上記得られた特徴情報である切出
された音節区間と直前の音節区間との間の無音時
間長、切出された音節区間の長さ、切出された音
節区間の平均パワー、切出された音節区間と後続
する音節区間との間の無音時間長、切出された音
節区間の1次自己相関係数の平均値、切出された
音節区間の音素系列のいずれか一つ又はそれらの
複数の組み合わせに基づいて、上記切出された音
節がバズバー部であるか否かが判別除去手段によ
つて判別される。
その結果、バズバー部であると判別されたとき
はそのバズバー部を表わす音節情報は除去され、
また、バズバー部でないと判別されたときは、上
記音節の特徴パターンとメモリに予め記憶されて
いる複数種類の音節の特徴標準パターンとの類似
度計算が上記CPUで行なわれることによつて、
入力された音声が音節単位でバズバー部の影響を
受けることなく、正確に認識される。
〈実施例〉 以下、この発明を図示の実施例により詳細に説
明する。
第1図において、1はアナログ入力部であり、
連続して入力された音声を増幅する増幅器
(AMP)11とAMP11の出力をデイジタル信
号に変換するA/D変換器12とからなる。2は
音声分析部であり、デイジタル信号化された入力
音声を16ms程度のフレームに分けてスペクトル
分析を行い、8ms程度の間隔で音節区間抽出部3
に上記入力音声の特徴パターンと音節区間の切出
に必要な情報(例えばパワー、零交差数等)とを
転送する。上記音節区間抽出部3は上記音声分析
部2から転送される上記音節区間の切出に必要な
情報を基に、上記音声分析部2から転送される特
徴パターンから音節を切出して、この切出した音
節の特徴パターン(1音節分)を特徴パターンメ
モリ61に格納する。さらに、上記CPU5とデ
ータを交換しながら、上記切出した音節から特徴
情報を切出して上記特徴パターンメモリ61に格
納して、入力された音声の音節切出しが完了した
ことをCPU5に伝達する。
なお、上記特徴情報としては、切出した音節の
長さ、切出した音節と直前の音節との間の無音時
間長、切出した音節の平均パワー、切出した音節
の1次の自己相関係数の平均値、切出した音節と
後続する音節との間の無音時間長、切出した音節
の音素系列を用いる。
ここで、上記音声のパワー(PW)および1次
自己相関係数(C1)は次のようにして求められ
る。すなわち、入力された音声波形は上記A/D
変換器12でデイジタル値に変換される。このデ
イジタル値の時系列をW(i)とするとPW,C1
は夫々、 PW=Ki=1 W(i)×W(i) C1=(k=1i=1 W(i)×W(i+1))/PW の式で求められる。ここでKは1フレームを構成
するデータ数(16KHzサンプリングで1フレーム
を16msとすると256となる)である。
パターンメモリ6は、上記音節区間抽出部3に
よつて切出された音節の一個分の特徴パターン、
および上記音節の特徴情報が記憶されている前述
の特徴パターンメモリ61と、複数の音節の特徴
標準パターンが記憶されている標準パターンメモ
リ62とを有している。音素標準パターンメモリ
7は、上記標準パターンメモリ62に記憶されて
いる上記特徴標準パターンを基にして得られる第
3図に示すような音素標準パターンが記憶されて
いる。単音節認識部9は、上記CPU5からの命
令により、上記パターンメモリ6内の特徴パター
ンメモリ61に記憶されている上記特徴パターン
と、標準パターンメモリ62に記憶されている上
記複数の特徴標準パターンとの間で類似度計算の
一例である距離計算を行うことによつて、入力さ
れた音声を認識する。そして、得られた認識結果
は上記CPU5に戻され、さらにインターフエー
ス(I/F)部10を介して外部装置に送出され
る。
次に、第2図に示す1音節の認識処理のフロー
チヤートにより、上記音声認識装置の動作を説明
する。
ステツプS1で、入力された音声の音節が、上記
音節区間抽出部3によつて切出されたか否かを判
断する。上記音節区間抽出部3で音節切出しが完
了していればステツプS2に進み、完了していなけ
れば、ステツプS1に戻る。
ステツプS2で、切出した音節の長さ(上記パタ
ーンメモリ6内の特徴パターンメモリ61に記憶
されている、切出された音節の特徴情報の一つ)
と設定値L1(20フレーム)とを比較する。これ
は、上記バズバー部は比較的短いことを利用して
おり、上記設定値L1以上であれば比較した音節
はバズバー部ではないと判断してステツプS9に進
み、設定値L1よりも小さければステツプS3に進
む。
ステツプS3で、切出した音節と直前の音節との
間の無音時間長を設定値L2(10フレーム)と比較
する。これは、バズバー部を有する有声破裂音は
語頭で発生することが多いことを利用しており、
設定値L2以下の場合には上記音節はバズバー部
ではないと判断してステツプS9に進み、設定値
L2より大きい場合にはステツプS4に進む。
ステツプS4で、切出した音節の平均パワー値と
設定値L3(4000×256)とを比較する。これはバ
ズバー部は母音ほど大きなパワーを持つていない
ことを利用しており、上記設定値L3以上の場合
には上記音節はバズバー部ではないと判断してス
テツプS9に進み、設定値L3より小さい場合には
ステツプS5に進む。
ステツプS5で、上記切出した音節の1次の自己
相関係数C1の平均値と、設定値L4(0.95)とを比
較する。これはバズバー部は低周波成分が殆どで
ありC1は1に近い値を持つていることを利用し
ており、上記設定値L4以下の場合にはバズバー
部ではないと判断してステツプS9に進み、設定値
L4より大きい場合にはステツプS6に進む。
ステツプS6で、切出した音節と後続の音節との
間の無音時間長を設定値L5(5フレーム)と比較
する。これは上記音節がバズバー部であれば、バ
ズバー部が終了すると直ちに有声破裂の有音音節
が開始することを利用しており、上記設定値L5
より大きい場合バズバー部ではないと判断してス
テツプS9に進み、設定値L5以下の場合にはステ
ツプS7に進む。
ステツプS7で、切出された音節の音素系列を求
め、その系列の9割以上のフレームが“N”の音
素ラベルであるか否かを判定する。9割より小さ
い場合にはバズバー部ではないと判断してステツ
プS9に進み、9割以上が音素ラベル‘N'であれ
ば上記音節はバズバー部であると判断してステツ
プS8に進む。
ここで、上記音素系列は各フレームごとの音素
ラベルを求めることによつて得られ、上記音素ラ
ベルは上記音素標準パターンメモリ7に記憶され
ている第3図に示す音素標準パターンと、入力さ
れた音節の特徴パターンを基に得られる第3図に
示す入力音素パターンとの距離計算を各フレーム
ごとに行つて、距離が最小(すなわち、マツチン
グ距離)のときの音素ラベルをそのフレームの音
素ラベルとすることによつて得られる。すなわ
ち、まず、上記音素標準パターンと入力パターン
とのマツチング距離(DIS)を次式で求める。
DIS= minj Li=1 (CEPin(i)−CEPref(j)(i))2 ここで、 i:音素の次数、 j:音素の種類(j=1…N)、 N:音素の種類の数(定数)、 L:マツチング計算する次数、 CEPin:入力音素パターン(第3図参照)、 CEPref:音素標準パターン(第3図参照)。
また、第3図における音素標準パターン
(CEPref)のCEPref(j)(O)には各音素を表
わすラベルが割当てられており、 “A”,“I”,“U”,“E”,“O”は母音性音を

わすラベルであり、“N”は鼻音性音を表わすラ
ベルであり、“S”は摩擦性音およびノイズ性音
を表わすラベルである。したがつて、上記マツチ
ング距離(DIS)が得られたときのj(=J)に
対応する音素ラベルPHが次式で求められる。
PH=CEPref(J)(O) ここで、 J:DISが得られたときのj。
第2図のステツプS8で、上記音節区間抽出部2
で切出され、バズバー部であると判定された音節
をリジエクトし、1音節の認識処理は終了する。
ステツプS9で、上記CPU5は上記単音節認識
部9に類似度計算を指示する。上記単音節認識部
9は上記パターンメモリ6内の特徴パターンメモ
リ61に記憶されている、入力された音声から切
出されて上記ステツプS1〜ステツプS7でバズバー
部でないと判定された音節1個の特徴パターン
と、標準パターンメモリ62に記憶されている複
数音節の特徴標準パターンとの間で類似度計算を
行い、上記入力された音声から切出された音節の
認識結果を得る。
ステツプS10で、得られた上記音節単位の認識
結果を上記I/F部10を介して図示しない外部
装置に送出し、1音節の認識処理は終了する。
第4図に上述の音節の認識処理によつてバズバ
ー部であると判定されてリジエクトされた音節
と、バズバー部ではないと判定されてリジエクト
されなかつた音節とを、上記特徴情報の数列と共
に示している。図中最上段より従来の分類法であ
る音韻分類、本実施例における音素系列、本実施
例におけるパワー曲線、本実施例における1次の
自己相関係数C1の曲線、本実施例におけるバズ
バー部の判定結果(×…バズバー部、○…有意味
な音節)を表わしている。第4図より有声破裂音
である「だ」を例に説明すると、「だ」の有音音
節部Bに先行して出される音節部Aは第2図のフ
ローチヤートにしたがつて説明(第4図に示す以
外の特徴情報は省略)すると、ステツプS4で1音
節区間の平均パワーが上記設定値L3より小さく、
ステツプS5で1音節区間のC1の平均が上記設定
値L4よりも大きく、ステツプS7で1音節区間の
音素系列の9割以上のフレームが音素ラベル
“N”であり、したがつてこの音節部Aはバズバ
ー部と判定されリジエクトされる。一方、音節部
BはステツプS4で1音節間の平均パワーは上記設
定値L3以上であり、したがつてバズバー部では
ないと判定されリジエクトされない。他の場合も
同様にして「と」はステツプS4で、「あ」はステ
ツプS4で、「ん」はステツプS4で、「と」はステツ
プS4で夫々バズバー部ではないと判定される。
特に、第4図に示されるようにバズバー部と
「ん」との特性は比較的類似しているが、この場
合は有声破裂音は語頭に多く「ん」は語頭にはこ
ない(すなわち、直前の音節との無音区間の長さ
がバズバー部は長く「ん」は短い)点を利用して
ステツプS3で判定することができる。
本実施例においては上記特徴情報全てを用いて
バズバー部を判別しているが、上記特徴情報のい
ずれかの組合せで判別するようにしてもよい。
〈発明の効果〉 以上より明らかなように、この発明の音声認識
装置は,入力された音声から音節区間抽出部で切
出した音節がバズバー部であるか否かを、上記音
節区間抽出部で切出した音節の切出された音節区
間と直前の音節区間との間の無音時間長、切出さ
れた音節区間の長さ、切出された音節区間の平均
パワー、切出された音節区間と後続する音節区間
との間の無音時間長、切出された音節区間の1次
自己相関係数の平均値、切出された音節区間の音
素系列のいずれか一つ又はそれらの複数の組み合
わせに基づいて判別し、上記音節がバズバー部で
あると判別したときに、バズバー部を表わす音節
情報を除去する判別除去手段を設けたので、バズ
バー部を強く生じる発声を行う人の場合であつて
も正確にバズバー部を判別除去することができ
る。
したがつて、有意味な音節のみを切出すること
ができるので、認識性能が向上すると共に、認識
結果が入力される外部装置における入力の操作性
が向上する。
【図面の簡単な説明】
第1図はこの発明の音声認識装置のブロツク
図、第2図はこの発明の音声認識装置における1
音節の認識処理フローチヤート、第3図は音素パ
ターンの1例を示す図、第4図はこの発明の音声
認識装置によるバズバー部判定結果の1例を示す
説明図である。 1……アナログ入力部、2……音声分析部、3
……音節区間抽出部、5……CPU、6……パタ
ーンメモリ、7……音素標準パターンメモリ、9
……単音節認識部。

Claims (1)

  1. 【特許請求の範囲】 1 入力された音声から音節区間抽出部で音節を
    切出し、この切出された音節の特徴パターンとメ
    モリに予め記憶している複数種類の音節の特徴標
    準パターンとの類似度計算をCPUで行つて、入
    力された音声を音節単位で認識する音声認識装置
    において、 上記音節区間抽出部で切出した音節が、バズバ
    ー部であるか否かを、上記音節区間抽出部で切出
    された音節区間と直前の音節区間との間の無音時
    間長、切出された音節区間の長さ、切出された音
    節区間の平均パワー、切出された音節区間と後続
    する音節区間との間の無音時間長、切出された音
    節区間の1次自己相関係数の平均値、切出された
    音節区間の音素系列のいずれか一つ又はそれらの
    複数の組み合わせに基づいて判別し、バズバー部
    であると判別した場合にはバズバー部を表す音節
    情報を除去する判別除去手段を有することを特徴
    とする音声認識装置。
JP61237384A 1986-10-06 1986-10-06 音声認識装置 Granted JPS6391700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61237384A JPS6391700A (ja) 1986-10-06 1986-10-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61237384A JPS6391700A (ja) 1986-10-06 1986-10-06 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6391700A JPS6391700A (ja) 1988-04-22
JPH0558556B2 true JPH0558556B2 (ja) 1993-08-26

Family

ID=17014589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61237384A Granted JPS6391700A (ja) 1986-10-06 1986-10-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6391700A (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0690631B2 (ja) * 1983-06-03 1994-11-14 富士通株式会社 音声認識方法

Also Published As

Publication number Publication date
JPS6391700A (ja) 1988-04-22

Similar Documents

Publication Publication Date Title
JPS58130393A (ja) 音声認識装置
JPS62232691A (ja) 音声認識装置
JPH10133693A (ja) 音声認識装置
JPS6138479B2 (ja)
JPH0558556B2 (ja)
JPS61180297A (ja) 話者照合装置
JP2000214877A (ja) 音声素片作成方法及び装置
JP2737122B2 (ja) 音声辞書作成装置
JPS63217399A (ja) 音声区間検出装置
JPS6375800A (ja) 音声認識装置
JPS61273599A (ja) 音声認識装置
JPH0469800B2 (ja)
JPH0816186A (ja) 音声認識装置
JPS6120879B2 (ja)
JPS62255999A (ja) 単語音声認識装置
JPS63798B2 (ja)
JPH03149598A (ja) 音声認識装置
JPS6370899A (ja) 音声認識装置
JPS6310437B2 (ja)
JPS6270900A (ja) 音節認識方式
JPH0567036B2 (ja)
JPS6336680B2 (ja)
JPS62218997A (ja) 単語音声認識装置
JPS5995597A (ja) 音声特徴パラメ−タ作成方式
JPS61123892A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees