JPS6350896A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS6350896A JPS6350896A JP61196269A JP19626986A JPS6350896A JP S6350896 A JPS6350896 A JP S6350896A JP 61196269 A JP61196269 A JP 61196269A JP 19626986 A JP19626986 A JP 19626986A JP S6350896 A JPS6350896 A JP S6350896A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- syllable
- speech
- value
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は音声認識装置、特にパタンマツチング方式の
音声認識装置に関するものである。
音声認識装置に関するものである。
(従来の技術)
音声認識を行うための一般的な技術としてパタンマツチ
ングによる技術がある。
ングによる技術がある。
パタンマツチングは、入力音声に対して所定の時間間隔
(以後、フレームと称す)毎に特徴量(一般的によく用
いられる例として複数の異なる中心周波数(以後、この
番号付けをチャネルと称す)によるバンドパスフィルタ
分析がある)を抽出する処理を音声始端時刻より音声終
端時刻まで行い、その結果得られる時系列特徴ベクトル
を予め用意されている標準パタン(認識カテゴリ名々に
ついてそのカテゴリの標準的と考えられる時系列特徴ベ
クトル)と類似度計算を行い、全ての標準パタンの中で
類似度が最大となる標準パタンが属するカテゴリ名を認
識結果とする技術である。
(以後、フレームと称す)毎に特徴量(一般的によく用
いられる例として複数の異なる中心周波数(以後、この
番号付けをチャネルと称す)によるバンドパスフィルタ
分析がある)を抽出する処理を音声始端時刻より音声終
端時刻まで行い、その結果得られる時系列特徴ベクトル
を予め用意されている標準パタン(認識カテゴリ名々に
ついてそのカテゴリの標準的と考えられる時系列特徴ベ
クトル)と類似度計算を行い、全ての標準パタンの中で
類似度が最大となる標準パタンが属するカテゴリ名を認
識結果とする技術である。
このマツチング技術の例として次の2つがあげられる。
先ず、第1例は線形マツチング法と呼ばれる技術である
。例えば、文献:沖研究開発第118号VO1,49、
P、53〜P、58に開示されているように、入力され
た音声パタンを時間軸方向に線形伸縮させて発声速度の
違いを吸収し、音声標準パタンと対応づけてマツチング
を行うものである。
。例えば、文献:沖研究開発第118号VO1,49、
P、53〜P、58に開示されているように、入力され
た音声パタンを時間軸方向に線形伸縮させて発声速度の
違いを吸収し、音声標準パタンと対応づけてマツチング
を行うものである。
第2例は、DPマツチング法と呼ばれる非線形マツチン
グ技術である。これは特公昭50−23941号に開示
されているが、動的計画法を用いて音声パタンと音声標
準パタンを時間軸方向に非線形に対応させ、発声速度の
変動等の歪みを最適化する方法等を用いてマツチングを
行うものである。
グ技術である。これは特公昭50−23941号に開示
されているが、動的計画法を用いて音声パタンと音声標
準パタンを時間軸方向に非線形に対応させ、発声速度の
変動等の歪みを最適化する方法等を用いてマツチングを
行うものである。
パタンマツチング技術は、同一の分析処理を施した音声
パタンと音声標準パタンとの相違を類似度で評価し、最
大の類似度を与える音声標準パタンのカテゴリ名を認識
結果とする技術であった。
パタンと音声標準パタンとの相違を類似度で評価し、最
大の類似度を与える音声標準パタンのカテゴリ名を認識
結果とする技術であった。
これは音声パタンと音声標準パタンとが同じカテゴリで
ある場合は、類似度は大きくなることか期待され、逆に
、異なるカテゴリである場合は、類似度は小さくなるこ
とが期待されるからである。
ある場合は、類似度は大きくなることか期待され、逆に
、異なるカテゴリである場合は、類似度は小さくなるこ
とが期待されるからである。
(発明が解決しようとする問題点)
しかし、個人差や発声時の周囲の状況等で発声速度に様
々な変動がみられ、同一カテゴリといえども両者の類似
度が大きくなるとはいえない。
々な変動がみられ、同一カテゴリといえども両者の類似
度が大きくなるとはいえない。
又、音声は発声速度の変動に伴い、母音部では大きく伸
縮し、子音部ではあまり伸縮しないため、時間軸方向の
線形伸縮では音声パタンと音声標準パタンとの対応がう
まくいかない。即ち、音声パタンの母音部に音声標準パ
タンの母音部がうまく対応しなくなる場合が起こり、類
似度が大きくなるといえない。
縮し、子音部ではあまり伸縮しないため、時間軸方向の
線形伸縮では音声パタンと音声標準パタンとの対応がう
まくいかない。即ち、音声パタンの母音部に音声標準パ
タンの母音部がうまく対応しなくなる場合が起こり、類
似度が大きくなるといえない。
前述の従来のマツチング技術の第1例である線形マツチ
ングは、このような変動に対処するため、1つのカテゴ
リに対して複数の音声標準パタンを用意している。しか
し、この技術では発声速度の変動を予想した多数の音声
標準パタンを格納しなければならず、メモリ容量が大き
くなる問題点がある。
ングは、このような変動に対処するため、1つのカテゴ
リに対して複数の音声標準パタンを用意している。しか
し、この技術では発声速度の変動を予想した多数の音声
標準パタンを格納しなければならず、メモリ容量が大き
くなる問題点がある。
この従来のマツチング技術の第2例のDPマツチング法
は、この多数の音声標準パタンをもつ線形マツチングの
問題点を解決するために考えられた技術の1つである。
は、この多数の音声標準パタンをもつ線形マツチングの
問題点を解決するために考えられた技術の1つである。
この技術は、音声の非線形な伸縮を動的計画法を用いて
対処しており、音声標準パタンの数は少なくてすむが、
音声パタンと音声標準パタンとの最適対応づけを決定す
る処理が複雑であるため回路規模が大きくなり、装置が
大型化するという問題点がある。
対処しており、音声標準パタンの数は少なくてすむが、
音声パタンと音声標準パタンとの最適対応づけを決定す
る処理が複雑であるため回路規模が大きくなり、装置が
大型化するという問題点がある。
この発明は、以上述べた従来用いられている線形マツチ
ング技術においては、音声の発声速度の変動に対処する
ために多数の音声標準パタンをもつ必要があるために大
容量のメモリが必要となるという問題点と、発声の非線
形な伸縮に対処するDPマツチング法の処理の複雑さの
ため回路規模が大きくなるという問題点とを解決するた
めに成されたものである。
ング技術においては、音声の発声速度の変動に対処する
ために多数の音声標準パタンをもつ必要があるために大
容量のメモリが必要となるという問題点と、発声の非線
形な伸縮に対処するDPマツチング法の処理の複雑さの
ため回路規模が大きくなるという問題点とを解決するた
めに成されたものである。
従って、この発明の目的は、隣接フレームとのフレーム
間距離累積値を用いた時間軸非線形分割技術と、音声標
準パタン数が少なくて済む簡単な線形マツチング技術と
を用いることによって、メモリ容量が小さく、処理が簡
単な認識精度の良い音声認識装置を提供することにある
。
間距離累積値を用いた時間軸非線形分割技術と、音声標
準パタン数が少なくて済む簡単な線形マツチング技術と
を用いることによって、メモリ容量が小さく、処理が簡
単な認識精度の良い音声認識装置を提供することにある
。
(問題点を解決するための手段)
この目的の達成を図るため、この発明は、入力音声に対
し周波数分析を施し音声区間を決定された音声パタンに
対し所要の処理を行う下記のような手段を具える。即ち
、 ■音声の始端フレームから終端フレームまでに存在する
音節数を音声パワーの変化量などから抽出し、各音節の
開始フレーム番号及び終了フレーム番号を決定する手段
を具える。
し周波数分析を施し音声区間を決定された音声パタンに
対し所要の処理を行う下記のような手段を具える。即ち
、 ■音声の始端フレームから終端フレームまでに存在する
音節数を音声パワーの変化量などから抽出し、各音節の
開始フレーム番号及び終了フレーム番号を決定する手段
を具える。
■各音節に含む分割領域数を各音節に対してほぼ同等と
なるよう決定する手段を具える。但し、音節間の部分(
直前音節の終了フレームから該音節の開始フレーム)で
1つの分割領域となるように決定する。
なるよう決定する手段を具える。但し、音節間の部分(
直前音節の終了フレームから該音節の開始フレーム)で
1つの分割領域となるように決定する。
■音声の始端フレームから終端フレームまでの各フレー
ム毎にその直前のフレームとの間でフレーム開路#t(
スペクトル距離)を算出する手段を具える。
ム毎にその直前のフレームとの間でフレーム開路#t(
スペクトル距離)を算出する手段を具える。
この場合、隣接するフレーム間での差が小さい周波数成
分については距離値加算を行わないようにすることが好
適である。又、音声パワーが小であるフレームについて
は距離値を相対的に小とする操作を行うことによって距
離値を算出するのが好適である。
分については距離値加算を行わないようにすることが好
適である。又、音声パワーが小であるフレームについて
は距離値を相対的に小とする操作を行うことによって距
離値を算出するのが好適である。
■音節開始フレームより音節終了フレームまでの各フレ
ーム毎に当該フレームまでのフレーム間距離の累積加算
値を逐次算出する手段を具える。
ーム毎に当該フレームまでのフレーム間距離の累積加算
値を逐次算出する手段を具える。
■各音節毎に該音節終端フレームの累積距離加算値より
該音節開始フレームの累積距離加算値を減算した値を0
項で該音節に対して与えられた分割領域数で等分割した
値に該音節開始フレームの累積距離加算値を加算した値
を等分割された分割点での累積距離加算値を分割点決定
閾値として求める手段を具える。
該音節開始フレームの累積距離加算値を減算した値を0
項で該音節に対して与えられた分割領域数で等分割した
値に該音節開始フレームの累積距離加算値を加算した値
を等分割された分割点での累積距離加算値を分割点決定
閾値として求める手段を具える。
■各音節毎に累積距離加算値が音節開始フレームから時
間軸正方向に向って各分割点決定閾値を初めて越えるフ
レームを分割領域始端フレームとすることで音声パタン
を非線形分割する手段を具える。
間軸正方向に向って各分割点決定閾値を初めて越えるフ
レームを分割領域始端フレームとすることで音声パタン
を非線形分割する手段を具える。
■1つの分割領域始端フレームと、分割領域終端フレー
ムとまでの区間内での時間軸正規化パタンの代表的なス
ペクトルを音声パタンとして出力する手段を具える。
ムとまでの区間内での時間軸正規化パタンの代表的なス
ペクトルを音声パタンとして出力する手段を具える。
(作用)
このように、この発明によれば、標準パタンとの線形マ
ツチングを行うべき音声パタンを、入力音声の各音節間
の発声の時間長の大小関係のばらつきの影響を受けない
時間軸分割を行って得られた時間軸正規化パタンとした
ので、線形マツチングによる認識処理の性能が高い。
ツチングを行うべき音声パタンを、入力音声の各音節間
の発声の時間長の大小関係のばらつきの影響を受けない
時間軸分割を行って得られた時間軸正規化パタンとした
ので、線形マツチングによる認識処理の性能が高い。
(実施例)
以下、図面を参照してこの発明の音声認識装置の実施例
につき説明する。
につき説明する。
第1図はこの発明の音声認識装置の実施例を示すブロッ
ク図、′fJZ図は音声パタンの時間軸分割の処理を行
う機能手段を示す機能ブロック図、第3図(A)〜(G
)はその処理手順を示す流れ図である。尚、ここで説明
する処理手順は単なる好適例であり、他の手段であって
もこの発明での処理を行うことが出来る。
ク図、′fJZ図は音声パタンの時間軸分割の処理を行
う機能手段を示す機能ブロック図、第3図(A)〜(G
)はその処理手順を示す流れ図である。尚、ここで説明
する処理手順は単なる好適例であり、他の手段であって
もこの発明での処理を行うことが出来る。
入力信号D1は周波数分析部10へ入力される。
周波数分析部lOは所定の帯域数のバンドパスフィルタ
分析結果であるところの周波数スペクトルD2を所定の
時間間隔(フレーム)毎に算出。
分析結果であるところの周波数スペクトルD2を所定の
時間間隔(フレーム)毎に算出。
し、音声信号記憶部11及び音声区間検出部12へ出力
する。
する。
音声区間検出部12は周波数スペクトル値の大きさ等か
ら始端時刻と終端時刻を決定し、始端時刻信号D3EL
び終端時刻信号D4を音声信号記憶部】lへ出力すると
共に、この発明の実施例では時間軸正規化部13に対し
ても出力する。
ら始端時刻と終端時刻を決定し、始端時刻信号D3EL
び終端時刻信号D4を音声信号記憶部】lへ出力すると
共に、この発明の実施例では時間軸正規化部13に対し
ても出力する。
音声信号記憶部11は始端時刻から終端時刻まで(音声
区間)の周波数スペクトルを記憶し、所定のタイミング
でこの周波数スペクトルD5を時間軸正規化部13へ出
力する。
区間)の周波数スペクトルを記憶し、所定のタイミング
でこの周波数スペクトルD5を時間軸正規化部13へ出
力する。
この発明の実施例では、時間軸正規化部13は第2図を
参照して後述する手順により時間軸正規化パタンD6を
算出しこの正規化パタンD6を類似度計算部14へ出力
する。
参照して後述する手順により時間軸正規化パタンD6を
算出しこの正規化パタンD6を類似度計算部14へ出力
する。
類似度計算部14は時間軸正規化パタンD6と予め標準
パタン記憶部15に記憶されている全ての標準パタンと
の類似度を線形マツチングにより計算しく類似度の尺度
として市街地距離、ユークリッド距離等が挙げられる)
、各認識対象カテゴリに対する類似度を表す信号D7を
判定部16へ出力する。
パタン記憶部15に記憶されている全ての標準パタンと
の類似度を線形マツチングにより計算しく類似度の尺度
として市街地距離、ユークリッド距離等が挙げられる)
、各認識対象カテゴリに対する類似度を表す信号D7を
判定部16へ出力する。
判定部16は全ての認識対象カテゴリの中で最大の類似
度を与えるカテゴリ名を認識結果D8として出力する。
度を与えるカテゴリ名を認識結果D8として出力する。
上述した音声認識装置において、周波数分析部10、音
声信号記憶部11、音声区間検出部12、類似度計算部
14、標準パタン記憶部15及び判定部16等の各構成
部の機能及び構成は、従来提案されている音声認識装置
に用いられている対応する構成部と同一または類似して
いるので、その詳細な説明は省略する。
声信号記憶部11、音声区間検出部12、類似度計算部
14、標準パタン記憶部15及び判定部16等の各構成
部の機能及び構成は、従来提案されている音声認識装置
に用いられている対応する構成部と同一または類似して
いるので、その詳細な説明は省略する。
従って、次に第2図に示す機能ブロック図及び第3図(
A)〜(G)に示す動作の流れ図に従って、この発明の
装置の一生要部となる時間軸正規化部13の動作につき
詳細に説明する。尚、以下の説明において処理のステッ
プをSで示す。
A)〜(G)に示す動作の流れ図に従って、この発明の
装置の一生要部となる時間軸正規化部13の動作につき
詳細に説明する。尚、以下の説明において処理のステッ
プをSで示す。
[1]音節数検出手段(第2図に20で示す)これは音
声区間内に存在する音節数を音声パワーの変化から検出
し、各音節の始端フレームと終端フレームを決定する手
段である。
声区間内に存在する音節数を音声パワーの変化から検出
し、各音節の始端フレームと終端フレームを決定する手
段である。
音声始端フレーム番号を5FR1音声終端フレ一ム番号
をEFR1周波数分析チャネル数をCHNNOとする。
をEFR1周波数分析チャネル数をCHNNOとする。
先ず音声区間内における周波数スペクトル強度をS(i
、j)但し、i:チャネル番号、j:フレーム番号)を
求める(Sl)。次に音声パワーPOW(j)即ちを算
出する(S2)。次に音声区間内におけるPOW(j)
の最大値MAXPOWを求メル(S3)。音節開始フレ
ーム番号を5SFR(L)、(L;音節番号)、音節終
了フレーム番号をEEFR(L)、(L;音節番号)と
する。
、j)但し、i:チャネル番号、j:フレーム番号)を
求める(Sl)。次に音声パワーPOW(j)即ちを算
出する(S2)。次に音声区間内におけるPOW(j)
の最大値MAXPOWを求メル(S3)。音節開始フレ
ーム番号を5SFR(L)、(L;音節番号)、音節終
了フレーム番号をEEFR(L)、(L;音節番号)と
する。
5SFR(1)=SFR
と初期設定した後(S4)、始端フレームSFRから時
間軸正方向へ向って、 POW(j)≦MAXPOW/N (但し、Nは経験によって定められる正の定数とする) を満足するフレームが所定の閾値以上継続したかどうか
判定しくS5)、継続していた時、該区間の開始フレー
ム番号から1を差し引いた値を該音節の終了フレーム番
号とすると共に、該区間の終了フレーム番号に1を加算
した値を次の音節の開始フレーム番号とする(S6)。
間軸正方向へ向って、 POW(j)≦MAXPOW/N (但し、Nは経験によって定められる正の定数とする) を満足するフレームが所定の閾値以上継続したかどうか
判定しくS5)、継続していた時、該区間の開始フレー
ム番号から1を差し引いた値を該音節の終了フレーム番
号とすると共に、該区間の終了フレーム番号に1を加算
した値を次の音節の開始フレーム番号とする(S6)。
継続していない時はステップS5を縁り返す。
上記操作を終端フレームEFRまで終了していない時は
S5、S6のステップを終端フレームまで繰り返し行う
。
S5、S6のステップを終端フレームまで繰り返し行う
。
終端フレームまで行った後、検出した音節数VNOを求
め(S8)、続いて EEFR(VNO)=EFR (VNO,検出した音節数) を求め(S9)、この手段の処理を終える。
め(S8)、続いて EEFR(VNO)=EFR (VNO,検出した音節数) を求め(S9)、この手段の処理を終える。
[2]分割領域数決定手段(第2図に21で示す)これ
は検出した各音節区間(音節開始フレームから音節終了
フレームまで)の分割領域数を各音節間でほぼ同等とな
るよう設定する手段である。
は検出した各音節区間(音節開始フレームから音節終了
フレームまで)の分割領域数を各音節間でほぼ同等とな
るよう設定する手段である。
所定の時間軸分割数をDIVとする時、検出した各音節
区間の分割領域数DNO(k)(但し、k;領域番号)
を求める。そのため、先ず(D I V−VNO+ 1
)/VNO=Aを求める( S 10)。次に M=MOD (D IV−VNO+1、VNO)(MO
D (B、C)はBをCで除算した余り)としたとき、
M>0 (Sll)である時は、DNO(k)=INT
(A)(k=1〜VNO)(INT(A)はAを小数
点以下切捨てた値)を求める(SI2)。次に音節フレ
ーム数(音節開始フレームから音節終了フレームまでの
フレーム数)が大である音節から順番に分割領域数DN
O(k)に1を加算する処理を余りMに対応するM個の
音節について行う(S +3)。
区間の分割領域数DNO(k)(但し、k;領域番号)
を求める。そのため、先ず(D I V−VNO+ 1
)/VNO=Aを求める( S 10)。次に M=MOD (D IV−VNO+1、VNO)(MO
D (B、C)はBをCで除算した余り)としたとき、
M>0 (Sll)である時は、DNO(k)=INT
(A)(k=1〜VNO)(INT(A)はAを小数
点以下切捨てた値)を求める(SI2)。次に音節フレ
ーム数(音節開始フレームから音節終了フレームまでの
フレーム数)が大である音節から順番に分割領域数DN
O(k)に1を加算する処理を余りMに対応するM個の
音節について行う(S +3)。
例えば、TD I V=8、VNO=2である時、とな
る。
る。
一方、M=Oであるときは、上述したような余りの分配
は行わずに全ての音節に対してDNO(k)=Aが求ま
る( S +4)。
は行わずに全ての音節に対してDNO(k)=Aが求ま
る( S +4)。
[3] フレーム開路S算出手段(第2図に22で示す
) これは、音声区間内のあるフレームの音声パタンと、こ
のフレームの直前のフレームの音声パタンとの間の距離
、即ちフレーム間距m<又はスペクトル距離或はベクト
ル間距離ともいう)を音声パワーを加味して算出する手
段である。
) これは、音声区間内のあるフレームの音声パタンと、こ
のフレームの直前のフレームの音声パタンとの間の距離
、即ちフレーム間距m<又はスペクトル距離或はベクト
ル間距離ともいう)を音声パワーを加味して算出する手
段である。
先ず、音声区間内のあるフレーム(3番目のフレームと
する)における音声パワーが加味されていないフレーム
間距離DST(j)は第(1)式で定義される。
する)における音声パワーが加味されていないフレーム
間距離DST(j)は第(1)式で定義される。
但し、SUB (i)<DTHLのとき5UB(i)=
0 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ (
2)尚、ここでSUB (i)はフレーム間での周波数
スペクトル強度差であって、DTHLは閾値である。こ
のとき閾値DTHLの値は経験的に設定出来る。
0 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ (
2)尚、ここでSUB (i)はフレーム間での周波数
スペクトル強度差であって、DTHLは閾値である。こ
のとき閾値DTHLの値は経験的に設定出来る。
従って先ず、SUB (i)を求め(S15)、続いて
SUB (i )<DTHLかどうかの判定を行い(S
16)、これを満足する場合には5UB(i)=0とし
く5I7)、満足しない場合には5UB(i)はステッ
プ(S +5)にて算出した値とする。次に、これらの
結果を用いてDST(j)を算出する(SI8)。
SUB (i )<DTHLかどうかの判定を行い(S
16)、これを満足する場合には5UB(i)=0とし
く5I7)、満足しない場合には5UB(i)はステッ
プ(S +5)にて算出した値とする。次に、これらの
結果を用いてDST(j)を算出する(SI8)。
第(1)式で定義される距5iDST(j)は、第(2
)式の条件を加えることで音声区間中の母音定常部の如
く、スペクトル変化が小さい部分で距離値が相対的に小
さくなるようにしている。 ′この距離DST(j)
に音声パワーpow(j)によるパワー加重を行ったも
のを、あるフレームにおけるフレーム間距離DSTP
(j)とする。
)式の条件を加えることで音声区間中の母音定常部の如
く、スペクトル変化が小さい部分で距離値が相対的に小
さくなるようにしている。 ′この距離DST(j)
に音声パワーpow(j)によるパワー加重を行ったも
のを、あるフレームにおけるフレーム間距離DSTP
(j)とする。
DSTP(j)は第(3)式のように定義する。
oSTP(j)JST(j) x PoW(j)/C0
N5T ・−・・・(3)但し、 この(3)式の演算処理を行って(S 19)、DST
P(j)を求める。
N5T ・−・・・(3)但し、 この(3)式の演算処理を行って(S 19)、DST
P(j)を求める。
このように、パワー加重を行うことにより、音声区間中
の無音区間(破裂音の直前に発声し、音声パタンのレベ
ルは無音時と同等になり、音声信号の特徴を表すスペク
トルは出力されない区間)における距離値が相対的に小
さくなるよう設定する。
の無音区間(破裂音の直前に発声し、音声パタンのレベ
ルは無音時と同等になり、音声信号の特徴を表すスペク
トルは出力されない区間)における距離値が相対的に小
さくなるよう設定する。
第(2)式及び第(3)式による処理を行うことにより
、発声速度の変動が小さい子音部や非定常部における前
記距離値は相対的に大きくなる。
、発声速度の変動が小さい子音部や非定常部における前
記距離値は相対的に大きくなる。
上記処理を音声始端フレームSFRから音声終端フレー
ムEFRまで行う(S 20)。
ムEFRまで行う(S 20)。
[4〕累積距離加算値算出手段(第2図に23で示す)
これは始端フレームから終端フレームまでの各フレーム
毎に該始端フレームからそれぞれのフレームまでの前記
フレーム間距離を逐次加算して累積距離加算値として算
出する手段である。
毎に該始端フレームからそれぞれのフレームまでの前記
フレーム間距離を逐次加算して累積距離加算値として算
出する手段である。
求められたフレーム開路1i1DsTP(j)の全フレ
ームにわたる累積距離加算値SUM(j)を算出する(
S 22)。
ームにわたる累積距離加算値SUM(j)を算出する(
S 22)。
第(4)式の操作をフレーム番号SFRからフレーム番
号EFRまで逐次行う(S 23)。
号EFRまで逐次行う(S 23)。
[5〕分割点決定閾値設定手段(第2図に24で示す)
これは検出した各音節毎に、前記累積距離加算値の値よ
りb)項で与えられた分割領域数に分割するための分割
点決定閾値を算出する手段である。。
りb)項で与えられた分割領域数に分割するための分割
点決定閾値を算出する手段である。。
ここでは上述した[4〕項で算出した累積距離加算値S
UM(j)を用いて分割点となるフレームを決定する分
割点決定閾値BTHL (m)を求める。分割点決定閾
値BTHL (m)は以下のように定義される。
UM(j)を用いて分割点となるフレームを決定する分
割点決定閾値BTHL (m)を求める。分割点決定閾
値BTHL (m)は以下のように定義される。
音節数検出手段20で検出した音節数VNOが1である
か又は2以上であるかを判定する(S24)。
か又は2以上であるかを判定する(S24)。
〔1〕までVNOが1である場合
BTHL(m)−5UM(EFR)Xm/DIV −
・ −・ ・ ・ ・ (5)の演算処理を行う(S
25)。但し、EFR、終端フレーム番号、m = 1
〜(D I V −1)(2〕検出した音節数VNOが
2以上である場合音節番号にとした場合に以下の処理を
行う。
・ −・ ・ ・ ・ (5)の演算処理を行う(S
25)。但し、EFR、終端フレーム番号、m = 1
〜(D I V −1)(2〕検出した音節数VNOが
2以上である場合音節番号にとした場合に以下の処理を
行う。
(a)DNO(k)>1であるか否か決定しく526)
、DNO(k)>1である音節についてのみ以下の操作
を行う(S27)。
、DNO(k)>1である音節についてのみ以下の操作
を行う(S27)。
+ SUM (SSFR(k) )
但し、2=1〜DNO(k)−1、
(b)次に、k≠VNOであるか否か判定しくS28)
、に≠V N Oである時のみ以下の操作を行う。
、に≠V N Oである時のみ以下の操作を行う。
先ず
BTHL (ns) =SUM (EEFR(k))を
求め(S29)、次に BTHL(ns+1)=SUM(SSFR(k+1))
を求める( S 30)。但し、これらにおいてし である。
求め(S29)、次に BTHL(ns+1)=SUM(SSFR(k+1))
を求める( S 30)。但し、これらにおいてし である。
[6]分割領域始端フレーム番号決定手段(第2図に2
5で示す) これは累積距離加算値が、前記始端フレームより時間軸
正方向に向って前記各分割点決定閾値を初めて越えるフ
レームを分割領域始端フレームとする時間軸非線形分割
を行う手段である。
5で示す) これは累積距離加算値が、前記始端フレームより時間軸
正方向に向って前記各分割点決定閾値を初めて越えるフ
レームを分割領域始端フレームとする時間軸非線形分割
を行う手段である。
機能ブロック23及び24から得られる累積距離加算値
SUM(j)及び分割点決定閾値BTHL(m)から SUM(jlll) < BTHL(m)550M(
j−+ 1)の条件をみたすフレーム番号j、を判定し
く531)、このフレーム番号j1が(m+ 1 )番
目の分割領域始端フレームB (m)となる処理(S3
2)を所定の数の分割領域について行い(S33)、所
定の分割数の時間軸非線形分割が終了する。
SUM(j)及び分割点決定閾値BTHL(m)から SUM(jlll) < BTHL(m)550M(
j−+ 1)の条件をみたすフレーム番号j、を判定し
く531)、このフレーム番号j1が(m+ 1 )番
目の分割領域始端フレームB (m)となる処理(S3
2)を所定の数の分割領域について行い(S33)、所
定の分割数の時間軸非線形分割が終了する。
[7]時間軸正規化パタン出力手段(第2図に26で示
す) 次に、1つの分割領域始端フレームと、分割領域終端フ
レームまでの区間内での時間軸正規化パタンを出力する
。この場合、例えば、当該区間内での平均化パタンを全
分割領域についてそれぞれ求める(S34.535)。
す) 次に、1つの分割領域始端フレームと、分割領域終端フ
レームまでの区間内での時間軸正規化パタンを出力する
。この場合、例えば、当該区間内での平均化パタンを全
分割領域についてそれぞれ求める(S34.535)。
以上の各機能手段20〜26によって順次に行われるス
テップS20〜ステツプS35で時間軸正規化部9の動
作は終了する。
テップS20〜ステツプS35で時間軸正規化部9の動
作は終了する。
次に、このようにして求められた代表スペクトルすなわ
ち時間軸正規化パタンを類似度計算部14へ送り、既に
説明した通り、そこで予め用意された全ての音声標準パ
タンとの類似度を求める。この類似度を表わす信号を判
定部16に送り、そこでは既に説明した通り、全ての音
声標準パタンの中で最大の類似度をもつ音声標準パタン
に与えられるカテゴリを認識結果として出力させる。
ち時間軸正規化パタンを類似度計算部14へ送り、既に
説明した通り、そこで予め用意された全ての音声標準パ
タンとの類似度を求める。この類似度を表わす信号を判
定部16に送り、そこでは既に説明した通り、全ての音
声標準パタンの中で最大の類似度をもつ音声標準パタン
に与えられるカテゴリを認識結果として出力させる。
次に、第4図(A)及び第4図(B)は音声「ハジメ」
を例にとって各音節「ハ」、「ジ」、「メ」の発声時間
長の大小関係が異なる場合の時間軸分割の時間軸分割数
D I V=8として動作を示したものである。第4図
(A)及び(B)において横軸にフレーム番号jをプロ
ットして示し、それぞれの上側の図は縦軸に音声パワー
をプロットして示し、下側の図は累積距離加算値SUM
(j)をプロットして示しである。尚、第4図(A)及
び(B)の右側には分割点決定閾値BTHL (m)(
m= 1.2、・・・、7)を示してあり、横軸の下側
にこれら閾値によって分割される領域の分割領域始端フ
レームB(m)(m=1.2、・・・・7)が示しであ
る。
を例にとって各音節「ハ」、「ジ」、「メ」の発声時間
長の大小関係が異なる場合の時間軸分割の時間軸分割数
D I V=8として動作を示したものである。第4図
(A)及び(B)において横軸にフレーム番号jをプロ
ットして示し、それぞれの上側の図は縦軸に音声パワー
をプロットして示し、下側の図は累積距離加算値SUM
(j)をプロットして示しである。尚、第4図(A)及
び(B)の右側には分割点決定閾値BTHL (m)(
m= 1.2、・・・、7)を示してあり、横軸の下側
にこれら閾値によって分割される領域の分割領域始端フ
レームB(m)(m=1.2、・・・・7)が示しであ
る。
第4図(A)は「ハ」の発声時間長が短く、「メ」の発
声時間長が長いが、第4図(B)では「ハJの発声時間
長が長く、「メ」の発声時間長が短い。これら図からも
理解出来るように、発声時間長の相違の影響を受けるこ
となく、同じ分割領域番号に同じ音節部分を含む動作を
している。
声時間長が長いが、第4図(B)では「ハJの発声時間
長が長く、「メ」の発声時間長が短い。これら図からも
理解出来るように、発声時間長の相違の影響を受けるこ
となく、同じ分割領域番号に同じ音節部分を含む動作を
している。
(発明の効果)
上述した説明から明らかなように、この発明によれば、
入力音声の各音節間の発声時間長の大小関係のばらつき
の影響を受けない時間軸分割を行い、標準パタンとの線
形マツチングにより認識処理を行う方法としたので、認
識性能の高い音声認識装置の実現が可能となる。
入力音声の各音節間の発声時間長の大小関係のばらつき
の影響を受けない時間軸分割を行い、標準パタンとの線
形マツチングにより認識処理を行う方法としたので、認
識性能の高い音声認識装置の実現が可能となる。
第1図はこの発明の音声認識装置の実施例を示すブロッ
ク図、 第2図はこの発明の主要部である時間軸正規化部での処
理を実行するための機能ブロック図、第3図(A)〜(
G)はこの発明の時間軸正規化の処理手順を示す流れ図
、 第4図(A)及び(B)はこの発明の時間軸正規化の結
果を説明するための図である。 10−・・周波数分析部、 11−・・音声信号記憶
部12−・・音声区間検出部、 13−・・時間軸正規
化部14・・・類似度計算部、 15・−標準パタン
記憶部16−・・判定部、 20−・・音節数
検出手段21−・・分割領域決定手段 22−・・フレーム間距離算出手段 23・・・累積距離加算値算出手段 24−・・分割点決定量値設定手段 25−・・分割領域始端フレーム番号決定手段26・・
・時間軸正規化パタン出力手段。 特許出願人 沖電気工業株式会社Tl4PA軸分
官・Iの処理8行つ棋託ゾロyフ図第2図 今割釦熾数決定の流れ図 第3図(13) 第3図([))
ク図、 第2図はこの発明の主要部である時間軸正規化部での処
理を実行するための機能ブロック図、第3図(A)〜(
G)はこの発明の時間軸正規化の処理手順を示す流れ図
、 第4図(A)及び(B)はこの発明の時間軸正規化の結
果を説明するための図である。 10−・・周波数分析部、 11−・・音声信号記憶
部12−・・音声区間検出部、 13−・・時間軸正規
化部14・・・類似度計算部、 15・−標準パタン
記憶部16−・・判定部、 20−・・音節数
検出手段21−・・分割領域決定手段 22−・・フレーム間距離算出手段 23・・・累積距離加算値算出手段 24−・・分割点決定量値設定手段 25−・・分割領域始端フレーム番号決定手段26・・
・時間軸正規化パタン出力手段。 特許出願人 沖電気工業株式会社Tl4PA軸分
官・Iの処理8行つ棋託ゾロyフ図第2図 今割釦熾数決定の流れ図 第3図(13) 第3図([))
Claims (5)
- (1)入力音声に対し音声分析処理を行った後、検出さ
れた音声区間内の音声パタンと、予め用意されている音
声標準パタンとの線形マッチングによって類似度を求め
、全ての音声標準パタンの中で最大の類似度をもつ音声
標準パタンのカテゴリ名を認識結果として出力させるこ
とにより音声認識を行う音声認識装置において、 a)前記音声区間内に存在する音節数を音声パワーの変
化から検出し、各音節の始端フレームと終端フレームを
決定する手段と、 b)前記検出した各音節区間(音節開始フレームから音
節終了フレームまで)の分割領域数を各音節間でほぼ同
等となるよう設定する手段と、c)前記音声区間の始端
フレームから終端フレームまでの各フレーム毎に当該フ
レームの音声パタンと当該フレームの直前フレームの音
声パタンとの間のフレーム間距離を算出する手段と、d
)前記始端フレームから終端フレームまでの各フレーム
毎に該始端フレームからそれぞれのフレームまでの前記
フレーム間距離を逐次加算して累積距離加算値として算
出する手段と、 e)前記検出した各音節毎に、前記累積距離加算値の値
よりb)項で与えられた分割領域数に分割するための分
割点決定閾値を算出する手段と、f)累積距離加算値が
、前記始端フレームより時間軸正方向に向って前記各分
割点決定閾値を初めて越えるフレームを分割領域始端フ
レームとする時間軸非線形分割を行う手段と、 g)この時間軸非線形に分割された区間毎の時間軸正規
化パタンの代表スペクトルを前記音声パタンとして出力
する手段と を具えることを特徴とする音声認識装置。 - (2)前記分割点決定閾値の算出は、 a)検出した音節数が1以下である場合、前記終端フレ
ームにおける累積距離加算値を所定の時間軸分割数で等
分割した値とし、 b)検出した音節数が2以上である場合、検出した各音
節毎に該音節の開始フレームにおける累積距離加算値と
、該音節の終了フレームにおける累積距離加算値から該
音節の開始フレームにおける累積距離加算値を減算した
値を該音節の分割領域数で等分割した値を加算した値、
該音節の終了フレームにおける累積距離加算値及び該音
節の時間軸正方向に隣接する音節の開始フレームにおけ
る累積距離加算値とする処理を逐次行うことにより算出
する ことを特徴とする特許請求の範囲第1項に記載の音声認
識装置。 - (3)前記代表スペクトルを分割された区間内における
平均スペクトルとしたことを特徴とする特許請求の範囲
第1項に記載の音声認識装置。 - (4)前記代表スペクトルを分割された区間内において
最大の音声パワーを与えるフレームに対応するスペクト
ルとしたことを特徴とする特許請求の範囲第1項に記載
の音声認識装置。 - (5)前記代表スペクトルを分割された区間内の中心に
位置するフレームにおけるスペクトルとしたことを特徴
とする特許請求の範囲第1項に記載の音声認識装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61196269A JPS6350896A (ja) | 1986-08-21 | 1986-08-21 | 音声認識装置 |
| US07/425,376 US4979212A (en) | 1986-08-21 | 1989-10-20 | Speech recognition system in which voiced intervals are broken into segments that may have unequal durations |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61196269A JPS6350896A (ja) | 1986-08-21 | 1986-08-21 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6350896A true JPS6350896A (ja) | 1988-03-03 |
| JPH0465392B2 JPH0465392B2 (ja) | 1992-10-19 |
Family
ID=16354993
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61196269A Granted JPS6350896A (ja) | 1986-08-21 | 1986-08-21 | 音声認識装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US4979212A (ja) |
| JP (1) | JPS6350896A (ja) |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
| US5444817A (en) * | 1991-10-02 | 1995-08-22 | Matsushita Electric Industrial Co., Ltd. | Speech recognizing apparatus using the predicted duration of syllables |
| JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
| RU2136059C1 (ru) * | 1998-01-05 | 1999-08-27 | Поволжский институт информатики, радиотехники и связи | Устройство для распознавания изолированных слов |
| JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
| US7065485B1 (en) * | 2002-01-09 | 2006-06-20 | At&T Corp | Enhancing speech intelligibility using variable-rate time-scale modification |
| US7050973B2 (en) * | 2002-04-22 | 2006-05-23 | Intel Corporation | Speaker recognition using dynamic time warp template spotting |
| JP3678421B2 (ja) * | 2003-02-19 | 2005-08-03 | 松下電器産業株式会社 | 音声認識装置及び音声認識方法 |
| US7412378B2 (en) * | 2004-04-01 | 2008-08-12 | International Business Machines Corporation | Method and system of dynamically adjusting a speech output rate to match a speech input rate |
| RU2267820C1 (ru) * | 2004-06-25 | 2006-01-10 | Государственное образовательное учреждение высшего профессионального образования "Ульяновский государственный технический университет" | Устройство распознавания речевых команд в условиях шумов |
| JP4911034B2 (ja) * | 2005-10-20 | 2012-04-04 | 日本電気株式会社 | 音声判別システム、音声判別方法及び音声判別用プログラム |
| WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
| BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
| US8756061B2 (en) * | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
| US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
| CN114898755B (zh) * | 2022-07-14 | 2023-01-17 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3582559A (en) * | 1969-04-21 | 1971-06-01 | Scope Inc | Method and apparatus for interpretation of time-varying signals |
| US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
| US4696042A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Syllable boundary recognition from phonological linguistic unit string data |
-
1986
- 1986-08-21 JP JP61196269A patent/JPS6350896A/ja active Granted
-
1989
- 1989-10-20 US US07/425,376 patent/US4979212A/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0465392B2 (ja) | 1992-10-19 |
| US4979212A (en) | 1990-12-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS6350896A (ja) | 音声認識装置 | |
| CA1085960A (en) | Speech recognition system | |
| JPS62231997A (ja) | 音声認識システム及びその方法 | |
| JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
| JPS6128998B2 (ja) | ||
| US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
| JPS60200300A (ja) | 音声の始端・終端検出装置 | |
| JP2000099099A (ja) | データ再生装置 | |
| JPH03114100A (ja) | 音声区間検出装置 | |
| JPH08146996A (ja) | 音声認識装置 | |
| JPS62201497A (ja) | 音声認識方法 | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| CN118366432A (zh) | 语音处理方法、装置、设备、介质及车辆 | |
| JPS62113197A (ja) | 音声認識装置 | |
| JPH0635494A (ja) | 音声認識装置 | |
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPS625298A (ja) | 音声認識装置 | |
| JPS6237797B2 (ja) | ||
| JPH01262597A (ja) | 音声認識装置 | |
| JPH0465399B2 (ja) | ||
| JPH0387900A (ja) | 音声認識装置 | |
| JPH01303499A (ja) | 破裂子音識別方式 | |
| JPH0731506B2 (ja) | 音声認識方法 | |
| JPS5925240B2 (ja) | 音声区間の語頭検出方式 | |
| JPS63104098A (ja) | 音声認識装置 |