JPH0458638B2 - - Google Patents
Info
- Publication number
- JPH0458638B2 JPH0458638B2 JP22120686A JP22120686A JPH0458638B2 JP H0458638 B2 JPH0458638 B2 JP H0458638B2 JP 22120686 A JP22120686 A JP 22120686A JP 22120686 A JP22120686 A JP 22120686A JP H0458638 B2 JPH0458638 B2 JP H0458638B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- syllables
- section
- sound
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000605 extraction Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 3
- 230000002940 repellent Effects 0.000 description 3
- 239000005871 repellent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Description
【発明の詳細な説明】
<産業上の利用分野>
この発明は、日本語等の音声を音節単位に認識
して、外部装置に出力する音声認識装置に関す
る。
して、外部装置に出力する音声認識装置に関す
る。
<従来の技術>
従来、音声認識装置では入力された音声を音韻
分類することによつて音節区間の判定を行い、そ
の判定結果に基づいて上記音節を切出し、上記切
出された音節単位で認識を行つている。
分類することによつて音節区間の判定を行い、そ
の判定結果に基づいて上記音節を切出し、上記切
出された音節単位で認識を行つている。
<発明が解決しようとする問題点>
ところが、上記従来の音声認識装置において
は、撥音(「ん」)は音声スペクトルの継続時間が
比較的長く、またパワーも小さいために、第3図
に示すように、1つの撥音音節区間であるにもか
かわらず、その音節区間内にバズバーと判定され
るフレーム(第3図中Aで示した音韻分類ラベル
Bのフレーム)が生じ、上記バズバーと判定され
たフレームを境界にして前後2つの音節として分
類して切出されるという問題がある。
は、撥音(「ん」)は音声スペクトルの継続時間が
比較的長く、またパワーも小さいために、第3図
に示すように、1つの撥音音節区間であるにもか
かわらず、その音節区間内にバズバーと判定され
るフレーム(第3図中Aで示した音韻分類ラベル
Bのフレーム)が生じ、上記バズバーと判定され
たフレームを境界にして前後2つの音節として分
類して切出されるという問題がある。
ここで、上記バスバーは有声破裂音の音節発声
の前に先行して声帯の振動によつて発声される音
であり、非常に低周波成分の強い音であるため、
人間には殆ど聞こえない。また上記フレームは、
入力された音声の音声スペクトルを分析するため
に、上記音声スペクトルを16ms程度に分けたそ
の1区間である。
の前に先行して声帯の振動によつて発声される音
であり、非常に低周波成分の強い音であるため、
人間には殆ど聞こえない。また上記フレームは、
入力された音声の音声スペクトルを分析するため
に、上記音声スペクトルを16ms程度に分けたそ
の1区間である。
そこで、この発明の目的は、1つの音節の撥音
であるにもかかわらず、その撥音を誤つて2つの
音節として分離して認識することのない音声認識
装置を提供することにある。
であるにもかかわらず、その撥音を誤つて2つの
音節として分離して認識することのない音声認識
装置を提供することにある。
<問題点を解決するための手段>
上記目的を達成するために、この発明の音声認
識装置は、入力された音声から音節区間を切出
し、この切出された音節の特徴パターンと、メモ
リに予め記憶している複数種類の音節の特徴基準
パターンとの類似度計算を行つて、入力された音
声を音節単位で認識する音声認識装置において、
上記切出された音節の認識結果が撥音か否かを判
別する撥音判別部と、上記切出された音節の特徴
を表わす特徴情報を抽出する特徴抽出部と、上記
撥音判別部によつて上記切出された音節が撥音と
認識された場合、上記特徴抽出部によつて抽出さ
れた特徴情報と所定の値とを比較した結果と、予
め記憶されている上記切出された音節の直前の音
節が撥音か否かを表わす識別結果とに基づいて、
上記撥音が1音節であるにもかかわらず、誤つて
2音節として分離して認識された撥音か否かを判
断する判断部と、上記判断部の判断結果に基づい
て、2音節の撥音と誤認された2音節の一方を棄
却する撥音棄却部とを設けたことを特徴としてい
る。
識装置は、入力された音声から音節区間を切出
し、この切出された音節の特徴パターンと、メモ
リに予め記憶している複数種類の音節の特徴基準
パターンとの類似度計算を行つて、入力された音
声を音節単位で認識する音声認識装置において、
上記切出された音節の認識結果が撥音か否かを判
別する撥音判別部と、上記切出された音節の特徴
を表わす特徴情報を抽出する特徴抽出部と、上記
撥音判別部によつて上記切出された音節が撥音と
認識された場合、上記特徴抽出部によつて抽出さ
れた特徴情報と所定の値とを比較した結果と、予
め記憶されている上記切出された音節の直前の音
節が撥音か否かを表わす識別結果とに基づいて、
上記撥音が1音節であるにもかかわらず、誤つて
2音節として分離して認識された撥音か否かを判
断する判断部と、上記判断部の判断結果に基づい
て、2音節の撥音と誤認された2音節の一方を棄
却する撥音棄却部とを設けたことを特徴としてい
る。
<作用>
入力された音声から切出された音節は音節単位
で認識され、撥音判別部において上記認識結果が
撥音であるか否かが判別される。
で認識され、撥音判別部において上記認識結果が
撥音であるか否かが判別される。
その結果、撥音であると判別されると、特徴抽
出部によつて抽出された特徴情報と所定の値とを
比較した結果と、予め記憶されている上記切出さ
れた音節の直前の音節が撥音か否かを表わす識別
結果とに基づいて、判断部によつて、上記撥音が
1音節であるにもかかわらず誤つて2音節として
分離して認識された撥音か否かが判断される。
出部によつて抽出された特徴情報と所定の値とを
比較した結果と、予め記憶されている上記切出さ
れた音節の直前の音節が撥音か否かを表わす識別
結果とに基づいて、判断部によつて、上記撥音が
1音節であるにもかかわらず誤つて2音節として
分離して認識された撥音か否かが判断される。
そして、上記判断部の判断結果に基づいて、2
音節の撥音と誤認された2音節の一方が、撥音棄
却部によつて棄却されることによつて、誤つて2
音節に分離した撥音として認識されることなく、
正確に1音節の撥音として認識される。
音節の撥音と誤認された2音節の一方が、撥音棄
却部によつて棄却されることによつて、誤つて2
音節に分離した撥音として認識されることなく、
正確に1音節の撥音として認識される。
<実施例>
以下、この発明の図示の実施例により詳細に説
明する。
明する。
第1図において、1はアナログ入力部であり、
連続して入力された音声を増幅する増幅器
(AMP)11とAMP11の出力をデイジタル信
号に変換するA/D変換器12とからなる。2は
音声分析部であり、デイジタル信号化された入力
音声を16ms程度のフレームに分けてスペクトル
分析を行い、8ms程度の間隔で音節区間抽出部3
に上記入力音声の特徴パターンと音節区間の切出
しに必要な情報(例えばパワー、零交差数等)と
を転送する。上記音節区間抽出部3は、上記音声
分析部2から転送される上記音節区間の切出に必
要な情報を基に、上記音声分析部2から転送され
る特徴パターンから音節を切出して、この切出し
た音節の特徴パターン(1音節分)をCCPU5を
介して特徴パターンメモリ61に格納すると共
に、さらに、特徴抽出部を含み、上記CPU5と
データを交換しながら、上記切出した音節から特
徴情報を抽出して上記特徴パターンメモリ61に
格納して、入力された音声の音節切出しが完了し
たことをCPU5に伝達する。なお、上記特徴情
報としては、切出した音節の長さ、切出した音節
と直前の音節との間の無音時間長、切出した音節
と直前の音節との境界における音声スペクトルの
変化量を用いる。
連続して入力された音声を増幅する増幅器
(AMP)11とAMP11の出力をデイジタル信
号に変換するA/D変換器12とからなる。2は
音声分析部であり、デイジタル信号化された入力
音声を16ms程度のフレームに分けてスペクトル
分析を行い、8ms程度の間隔で音節区間抽出部3
に上記入力音声の特徴パターンと音節区間の切出
しに必要な情報(例えばパワー、零交差数等)と
を転送する。上記音節区間抽出部3は、上記音声
分析部2から転送される上記音節区間の切出に必
要な情報を基に、上記音声分析部2から転送され
る特徴パターンから音節を切出して、この切出し
た音節の特徴パターン(1音節分)をCCPU5を
介して特徴パターンメモリ61に格納すると共
に、さらに、特徴抽出部を含み、上記CPU5と
データを交換しながら、上記切出した音節から特
徴情報を抽出して上記特徴パターンメモリ61に
格納して、入力された音声の音節切出しが完了し
たことをCPU5に伝達する。なお、上記特徴情
報としては、切出した音節の長さ、切出した音節
と直前の音節との間の無音時間長、切出した音節
と直前の音節との境界における音声スペクトルの
変化量を用いる。
パターンメモリ6は、上記音節区間抽出部3に
よつて切出された音節の一個分の特徴パターン、
および上記音節の特徴情報が記憶されている前述
の特徴パターンメモリ61と、複数の音節の特徴
標準パターンが記憶されている標準パターンメモ
リ62とを有している。温音節認識部9は、上記
CPU5からの命令により、上記パターンメモリ
6内の特徴パターンメモリ61に記憶されている
上記特徴パターンと、標準パターンメモリ62に
記憶されている上記複数の特徴標準パターンとの
間で類似度計算の一例である距離計算を行うこと
によつて、入力された音声を認識する。そして、
得られた認識結果は上記CPU5に戻され、さら
にインターフエース(I/F)部10を介して外
部装置に送出される。それと共に、認識結果格納
メモリ11に記憶される。
よつて切出された音節の一個分の特徴パターン、
および上記音節の特徴情報が記憶されている前述
の特徴パターンメモリ61と、複数の音節の特徴
標準パターンが記憶されている標準パターンメモ
リ62とを有している。温音節認識部9は、上記
CPU5からの命令により、上記パターンメモリ
6内の特徴パターンメモリ61に記憶されている
上記特徴パターンと、標準パターンメモリ62に
記憶されている上記複数の特徴標準パターンとの
間で類似度計算の一例である距離計算を行うこと
によつて、入力された音声を認識する。そして、
得られた認識結果は上記CPU5に戻され、さら
にインターフエース(I/F)部10を介して外
部装置に送出される。それと共に、認識結果格納
メモリ11に記憶される。
次に、第2図に示す1音節の認識処理のフロー
チヤートにより、上記音声認識装置の動作を説明
する。
チヤートにより、上記音声認識装置の動作を説明
する。
ステツプS1で、入力された音声の音節が、上記
音節区間抽出部3によつて切出されたか否かを判
断する。上記音節区間抽出部3で音節切出しが完
了していればステツプS2に進み、完了していなけ
れば、ステツプS1に戻る。
音節区間抽出部3によつて切出されたか否かを判
断する。上記音節区間抽出部3で音節切出しが完
了していればステツプS2に進み、完了していなけ
れば、ステツプS1に戻る。
ステツプS2で、上記CPU5は上記単音節認識
部9に類似度計算を指示する。上記単音節認識部
9は上記パターンメモリ6内の特徴パターンメモ
リ61に記憶されている、入力された音声から切
出された音節(以下、現音節と言う)1個の特徴
パターンと、標準パターンメモリ62に記憶され
ている複数音節の特徴標準パターンとの間で類似
度計算を行い、上記現音節の認識結果を得る。
部9に類似度計算を指示する。上記単音節認識部
9は上記パターンメモリ6内の特徴パターンメモ
リ61に記憶されている、入力された音声から切
出された音節(以下、現音節と言う)1個の特徴
パターンと、標準パターンメモリ62に記憶され
ている複数音節の特徴標準パターンとの間で類似
度計算を行い、上記現音節の認識結果を得る。
ステツプS3で、上記現音節の認識が終了したか
否かを判別する。その結果終了していればステツ
プS4に進み、終了していなければステツプS3へ戻
る。
否かを判別する。その結果終了していればステツ
プS4に進み、終了していなければステツプS3へ戻
る。
ステツプS4で、上記ステツプS2で認識した上記
現音節の音声認識結果が、撥音であるか否かを判
別する。この結果撥音でなければステツプS10に
進み、撥音であればステツプS5に進む。
現音節の音声認識結果が、撥音であるか否かを判
別する。この結果撥音でなければステツプS10に
進み、撥音であればステツプS5に進む。
ステツプS5で、上記現音節の長さ(上記パター
ンメモリ6内の特徴パターンメモリ61に記憶さ
れている、切出された音節の特徴情報の一つ)と
設定値L1とを比較する。上記設定地L1よりも
大きければ比較した現音節は独立した音節である
と見なしステツプS10に進み、設定値L1以下で
あればステツプS6に進む。
ンメモリ6内の特徴パターンメモリ61に記憶さ
れている、切出された音節の特徴情報の一つ)と
設定値L1とを比較する。上記設定地L1よりも
大きければ比較した現音節は独立した音節である
と見なしステツプS10に進み、設定値L1以下で
あればステツプS6に進む。
ステツプS6で上記現音節と直前の音節との間の
無音時間長(もしくはバズバーと判定された時間
長)を設定値L2と比較する。その結果上記設定
値L2以上であれば比較した現音節は独立した音
節であると見なしステツプS10に進み、設定値よ
り小さければステツプS7に進む。
無音時間長(もしくはバズバーと判定された時間
長)を設定値L2と比較する。その結果上記設定
値L2以上であれば比較した現音節は独立した音
節であると見なしステツプS10に進み、設定値よ
り小さければステツプS7に進む。
ステツプS7で、上記現音節と直前の音節との境
界における音声スペクトルの変化量を設定値Vと
比較する。これは1音節の撥音が分離して認識さ
れるのは、第3図のように撥音音節部の音声スペ
クトルのパワー変動によつて一部のフレームがバ
ズバーとしてチエツクされることが主であり、上
記音声スペクトルの変化を伴うことはないことを
利用しており、上記設定値Vより大であれば比較
された現音節は独立した音節であると見なしてス
テツプS10に進み、設定値V以下であればステツ
プS8に進む。
界における音声スペクトルの変化量を設定値Vと
比較する。これは1音節の撥音が分離して認識さ
れるのは、第3図のように撥音音節部の音声スペ
クトルのパワー変動によつて一部のフレームがバ
ズバーとしてチエツクされることが主であり、上
記音声スペクトルの変化を伴うことはないことを
利用しており、上記設定値Vより大であれば比較
された現音節は独立した音節であると見なしてス
テツプS10に進み、設定値V以下であればステツ
プS8に進む。
ステツプS8で、上記認識結果格納メモリ11に
記憶されている、上記ステツプS7で比較された上
記現音節の直前の音節の音声認識結果が撥音であ
るか否かを判別する。その結果撥音でなければ現
音節は独立した音節であると見なしステツプS10
に進み、撥音であれば現音節は直前の撥音音節と
共に本来は1音節として認識されるべきものが2
音節として認識されたうちの一方であると判断し
て、ステツプS9に進む。
記憶されている、上記ステツプS7で比較された上
記現音節の直前の音節の音声認識結果が撥音であ
るか否かを判別する。その結果撥音でなければ現
音節は独立した音節であると見なしステツプS10
に進み、撥音であれば現音節は直前の撥音音節と
共に本来は1音節として認識されるべきものが2
音節として認識されたうちの一方であると判断し
て、ステツプS9に進む。
ステツプS9で2音節として誤認されたうちの現
音節をリジエクトし、1音節の認識処理は終了す
る。
音節をリジエクトし、1音節の認識処理は終了す
る。
ステツプS10で、上記ステツプS2で認識された
上記現音節の音節認識結果を上記認識結果格納メ
モリ11に記憶すると共に、上記I/F部10を
介して図示しない外部装置に送出し、1音節の認
識処理は終了する。ここで、上記ステツプS4は撥
音判別部を構成し、上記ステツプS5〜ステツプS8
は判断部を構成することになる。
上記現音節の音節認識結果を上記認識結果格納メ
モリ11に記憶すると共に、上記I/F部10を
介して図示しない外部装置に送出し、1音節の認
識処理は終了する。ここで、上記ステツプS4は撥
音判別部を構成し、上記ステツプS5〜ステツプS8
は判断部を構成することになる。
したがつて、上述の手順により、1音節である
にもかかわらず誤つて分離して認識された撥音に
対して、1つの認識結果のみを出力することがで
きる。
にもかかわらず誤つて分離して認識された撥音に
対して、1つの認識結果のみを出力することがで
きる。
<発明の効果>
以上より明らかなように、この発明の音声認識
装置は、現音節の認識結果が撥音か否かを判別す
る撥音判別部と、上記現音節の特徴を表わす特徴
情報を抽出する特徴抽出部と、上記撥音判別部に
よつて現音節が撥音と判別されたとき、上記特徴
抽出部によつて抽出された特徴情報と所定の値と
を比較した結果と、予め記憶されている上記現音
節の直前の音節の識別結果とを用いて、上記撥音
が1音節であるにもかかわらず2音節と誤認され
た撥音のうちの一方か否かを判断する判断部と、
上記判断部の判断結果に基づいて、2音節の撥音
と誤認された2音節の一方を棄却する撥音棄却部
とを設けたので、1音節であるにもかかわらず2
音節の撥音と誤認することがなく、撥音に対する
認識性能が向上する。
装置は、現音節の認識結果が撥音か否かを判別す
る撥音判別部と、上記現音節の特徴を表わす特徴
情報を抽出する特徴抽出部と、上記撥音判別部に
よつて現音節が撥音と判別されたとき、上記特徴
抽出部によつて抽出された特徴情報と所定の値と
を比較した結果と、予め記憶されている上記現音
節の直前の音節の識別結果とを用いて、上記撥音
が1音節であるにもかかわらず2音節と誤認され
た撥音のうちの一方か否かを判断する判断部と、
上記判断部の判断結果に基づいて、2音節の撥音
と誤認された2音節の一方を棄却する撥音棄却部
とを設けたので、1音節であるにもかかわらず2
音節の撥音と誤認することがなく、撥音に対する
認識性能が向上する。
第1図はこの発明の音声認識装置のブロツク
図、第2図はこの発明の音声認識装置における1
音節の認識処理フローチヤート、第3図は誤つて
分離して認識された撥音の一例を示す図。 1……アナログ入力部、2……音声分析部、3
……音節区間抽出部、5……CPU、6……パタ
ーンメモリ、9……単音節認識部、11……認識
結果格納メモリ。
図、第2図はこの発明の音声認識装置における1
音節の認識処理フローチヤート、第3図は誤つて
分離して認識された撥音の一例を示す図。 1……アナログ入力部、2……音声分析部、3
……音節区間抽出部、5……CPU、6……パタ
ーンメモリ、9……単音節認識部、11……認識
結果格納メモリ。
Claims (1)
- 【特許請求の範囲】 1 入力された音声から音節区間を切出し、この
切出された音節の特徴パターンと、メモリに予め
記憶している複数種類の音節の特徴標準パターン
との類似度計算を行つて、入力された音声を音節
単位で認識する音声認識装置において、 上記切出された音節の認識結果が撥音か否かを
判別する撥音判別部と、 上記切出された音節の特徴を表わす特徴情報を
抽出する特徴抽出部と、 上記撥音判別部によつて上記切出された音節が
撥音と認識された場合、上記特徴抽出部によつて
抽出された特徴情報と所定の値とを比較した結果
と、予め記憶されている上記切出された音節の直
前の音節が撥音か否かを表わす識別結果とに基づ
いて、上記撥音が1音節であるにもかかわらず誤
つて2音節として分離して認識された撥音か否か
を判断する判断部と、 上記判断部の判断結果に基づいて、2音節の撥
音と誤認された2音節の一方を棄却する撥音棄却
部とを設けたことを特徴とする音声認識装置。 2 上記判断部が判断するための音節の特徴情報
として、上記切出された音節の長さ、上記切出さ
れた音節と直前の音節との間の無音時間長、上記
切出された音節と直前の音節との境界における音
声スペクトルの変化量のいずれかまたはそれらの
複数の組合せを用いる特許請求の範囲第1項記載
の音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP22120686A JPS6375800A (ja) | 1986-09-18 | 1986-09-18 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP22120686A JPS6375800A (ja) | 1986-09-18 | 1986-09-18 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6375800A JPS6375800A (ja) | 1988-04-06 |
| JPH0458638B2 true JPH0458638B2 (ja) | 1992-09-18 |
Family
ID=16763127
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP22120686A Granted JPS6375800A (ja) | 1986-09-18 | 1986-09-18 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6375800A (ja) |
-
1986
- 1986-09-18 JP JP22120686A patent/JPS6375800A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6375800A (ja) | 1988-04-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS5972496A (ja) | 単音識別装置 | |
| JPH0352640B2 (ja) | ||
| KR20170073113A (ko) | 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치 | |
| EP0200347A1 (en) | Knowledge-guided automatic speech recognition apparatus and method | |
| JPS6138479B2 (ja) | ||
| JPH0458638B2 (ja) | ||
| JP2664136B2 (ja) | 音声認識装置 | |
| JP3049711B2 (ja) | 音声処理装置 | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| JPS63217399A (ja) | 音声区間検出装置 | |
| JPH0558556B2 (ja) | ||
| JPS62166400A (ja) | 音声ワ−ドプロセツサ装置 | |
| JPH0682275B2 (ja) | 音声認識装置 | |
| JPS63161499A (ja) | 音声認識装置 | |
| JPH0634193B2 (ja) | キ−ワ−ド抽出装置 | |
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPS59170894A (ja) | 音声区間の切り出し方式 | |
| JPS63798B2 (ja) | ||
| JPS6346499A (ja) | 大語▲い▼単語音声認識方式 | |
| JPS59223500A (ja) | 音声認識方法 | |
| JPS61180300A (ja) | 音声認識装置 | |
| JPS5885495A (ja) | 音声認識装置 | |
| JPS60138599A (ja) | 音声区間検出装置 | |
| JPS61123892A (ja) | 音声認識装置 |