JPH0564800B2 - - Google Patents
Info
- Publication number
- JPH0564800B2 JPH0564800B2 JP61216180A JP21618086A JPH0564800B2 JP H0564800 B2 JPH0564800 B2 JP H0564800B2 JP 61216180 A JP61216180 A JP 61216180A JP 21618086 A JP21618086 A JP 21618086A JP H0564800 B2 JPH0564800 B2 JP H0564800B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- extracted
- stable point
- speech
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
<産業上の利用分野>
この発明は、日本語等の入力された音声を音節
単位で認識して、外部装置に出力する音声認識装
置に関する。
単位で認識して、外部装置に出力する音声認識装
置に関する。
<従来の技術>
従来の音声認識装置においては、入力された音
声からその認識単位である音節の音節区間を抽出
するために、一定区間の音声スペクトル(以下、
単にスペクトルと言う)の変化を用いて上記音節
の境界を検出するようにしている。
声からその認識単位である音節の音節区間を抽出
するために、一定区間の音声スペクトル(以下、
単にスペクトルと言う)の変化を用いて上記音節
の境界を検出するようにしている。
<発明が解決しようとする問題点>
しかしながら、上記従来の音声認識装置では、
入力される音声のスペクトルの変化には急激に変
化する音声と穏やかに変化する音声とが混在して
おり、その両者に追従して音節の境界を正確に検
出することは困難であり、しばしば音声の誤認が
発生するという問題がある。
入力される音声のスペクトルの変化には急激に変
化する音声と穏やかに変化する音声とが混在して
おり、その両者に追従して音節の境界を正確に検
出することは困難であり、しばしば音声の誤認が
発生するという問題がある。
そこで、この発明の目的は、上記スペクトルか
らの情報を用いて、上記スペクトルの変化の穏急
にかかわらず、正確に音節境界を検出することが
できる音節認識装置を提供することにある。
らの情報を用いて、上記スペクトルの変化の穏急
にかかわらず、正確に音節境界を検出することが
できる音節認識装置を提供することにある。
<問題点を解決するための手段>
上記目的を達成するために、この発明の音声認
識装置は、入力された音声から音節区間を抽出
し、この抽出された音節の特徴パターンとメモリ
に予め記憶している特徴標準パターンとの類似度
計算を行つて、入力された音声を音節単位で認識
する音声認識装置において、抽出された音節区間
に続く入力音声におけるスペクトル情報の変化か
ら、上記スペクトル情報の安定点を抽出する安定
点抽出部と、上記抽出された安定点におけるスペ
クトル情報と上記安定点以後のスペクトル情報と
の類似度計算を順次行い、上記算出された類似度
を値の所定の値と比較して次に抽出すべき音節区
間の音節の境界を検出する音節境界検出部とを設
けたことを特徴としている。
識装置は、入力された音声から音節区間を抽出
し、この抽出された音節の特徴パターンとメモリ
に予め記憶している特徴標準パターンとの類似度
計算を行つて、入力された音声を音節単位で認識
する音声認識装置において、抽出された音節区間
に続く入力音声におけるスペクトル情報の変化か
ら、上記スペクトル情報の安定点を抽出する安定
点抽出部と、上記抽出された安定点におけるスペ
クトル情報と上記安定点以後のスペクトル情報と
の類似度計算を順次行い、上記算出された類似度
を値の所定の値と比較して次に抽出すべき音節区
間の音節の境界を検出する音節境界検出部とを設
けたことを特徴としている。
<作用>
音声が入力されると、安定点抽出部により、抽
出された音節区間に続く入力音声におけるスペク
トル情報の変化を用いて、上記スペクトル情報上
の安定点が抽出される。さらに、音節境界検出部
によつて、上記抽出された抽出された安定点にお
けるスペクトル情報と上記安定点以後のスペクト
ル情報との類似度計算が順次行われ、得られた類
似度の値を所定の値と比較することによつて、次
に抽出すべき音節区間の音声境界が検出され、こ
の検出された音節境界にしたがつて音節区間が抽
出される。したがつて、上記スペクトル情報の変
化の穏急にかかわらず、正確に有意味な音節区間
を抽出することができる。
出された音節区間に続く入力音声におけるスペク
トル情報の変化を用いて、上記スペクトル情報上
の安定点が抽出される。さらに、音節境界検出部
によつて、上記抽出された抽出された安定点にお
けるスペクトル情報と上記安定点以後のスペクト
ル情報との類似度計算が順次行われ、得られた類
似度の値を所定の値と比較することによつて、次
に抽出すべき音節区間の音声境界が検出され、こ
の検出された音節境界にしたがつて音節区間が抽
出される。したがつて、上記スペクトル情報の変
化の穏急にかかわらず、正確に有意味な音節区間
を抽出することができる。
<実施例>
以下、この発明を図示の実施例により詳細に説
明する。
明する。
第1図において、1は音声を入力するマイク、
2は上記マイク1より入力された音声の音声帯域
のみを増幅する増幅器、3は増幅器2の出力が入
力される特徴抽出部である。
2は上記マイク1より入力された音声の音声帯域
のみを増幅する増幅器、3は増幅器2の出力が入
力される特徴抽出部である。
上記特徴抽出部3は、上記増幅器2で増幅され
た音声を8msの間隔ごとに16msの区間(以下
フレームと呼ぶ)の特徴パラメータを抽出する。
上記特徴パラメータとは、マツチング部7によつ
て行われる最終的な音声認識のための類似度計算
に用いられる1音節の特徴パターン(例えば16チ
ヤンネルの帯域フイルタからの出力等)と、音韻
分類部4で音韻分類のために使用されるパラメー
タ(例えばパワー、1次の自己相関係数等)であ
る。上記音韻分類部4は上記特徴パラメータを用
いて、上記音声の1フレームにそのフレームの音
声の性質を表わすラベル付けを行う。境界検出部
5は後に詳述する方法によつて上記スペクトル上
の安定点を抽出し、上記安定点を基にして音節の
境界を検出する。
た音声を8msの間隔ごとに16msの区間(以下
フレームと呼ぶ)の特徴パラメータを抽出する。
上記特徴パラメータとは、マツチング部7によつ
て行われる最終的な音声認識のための類似度計算
に用いられる1音節の特徴パターン(例えば16チ
ヤンネルの帯域フイルタからの出力等)と、音韻
分類部4で音韻分類のために使用されるパラメー
タ(例えばパワー、1次の自己相関係数等)であ
る。上記音韻分類部4は上記特徴パラメータを用
いて、上記音声の1フレームにそのフレームの音
声の性質を表わすラベル付けを行う。境界検出部
5は後に詳述する方法によつて上記スペクトル上
の安定点を抽出し、上記安定点を基にして音節の
境界を検出する。
音節区間抽出部6は上記音韻分類部4によつて
得られたラベルの時系列と、上記境界検出部5に
よつて得られた音節境界の情報とを用いて、入力
された音声から音節区間を抽出する。さらに、上
記マツチング部7は上記音節区間抽出部6で抽出
された1つの音節区間における上記特徴抽出部3
で抽出された特徴パターンと、特許標準パターン
メモリ8に予め記憶されている特徴標準パターン
との類似度計算の一例であるユークリツド距離計
算を行つて音声の認識を行う。CPU9は、上記
特徴抽出部3、境界検出部5、音節区間抽出部6
およびマツチング部7を制御すると共に、上記マ
ツチング部7出られる認識結果を、図示しない外
部装置に出力するインターフエース10を制御し
ている。
得られたラベルの時系列と、上記境界検出部5に
よつて得られた音節境界の情報とを用いて、入力
された音声から音節区間を抽出する。さらに、上
記マツチング部7は上記音節区間抽出部6で抽出
された1つの音節区間における上記特徴抽出部3
で抽出された特徴パターンと、特許標準パターン
メモリ8に予め記憶されている特徴標準パターン
との類似度計算の一例であるユークリツド距離計
算を行つて音声の認識を行う。CPU9は、上記
特徴抽出部3、境界検出部5、音節区間抽出部6
およびマツチング部7を制御すると共に、上記マ
ツチング部7出られる認識結果を、図示しない外
部装置に出力するインターフエース10を制御し
ている。
上記構成の音声認識装置は次のように動作す
る。
る。
入力者が上記マイク1に向つて音声を発声する
と、その音声は上記マイク1から入り上記増幅器
2で音声帯域だけが増幅されて上記特徴抽出部3
に送られ、上記特徴抽出部3では8msの間隔ご
とに16msのフレームに区切つて、そのフレーム
の特徴パラメータが抽出される。上記特徴パタメ
ータは上記マツチング部7によつて行なわれる最
終的な音声認識のための類似度計算に用いられる
1音節の特徴パターン(例えば16チヤンネルの帯
域フイルタからの出力等)と、音韻分類部4で音
韻分類のために使用されるパラメータ(例えばパ
ワー、1次の自己相関係数等)とである。上記音
韻分類部4では上記特徴抽出部3で求められた特
徴パラメータによつてフレームの音声の性質を表
わすラベル付けが行なわれる。ここで本実施例で
用いるラベルは母音性(記号′V′)、摩擦性(記
号′F′)、バズバー性(記号′B′)、無音性(記
号′.′)の4種類である。
と、その音声は上記マイク1から入り上記増幅器
2で音声帯域だけが増幅されて上記特徴抽出部3
に送られ、上記特徴抽出部3では8msの間隔ご
とに16msのフレームに区切つて、そのフレーム
の特徴パラメータが抽出される。上記特徴パタメ
ータは上記マツチング部7によつて行なわれる最
終的な音声認識のための類似度計算に用いられる
1音節の特徴パターン(例えば16チヤンネルの帯
域フイルタからの出力等)と、音韻分類部4で音
韻分類のために使用されるパラメータ(例えばパ
ワー、1次の自己相関係数等)とである。上記音
韻分類部4では上記特徴抽出部3で求められた特
徴パラメータによつてフレームの音声の性質を表
わすラベル付けが行なわれる。ここで本実施例で
用いるラベルは母音性(記号′V′)、摩擦性(記
号′F′)、バズバー性(記号′B′)、無音性(記
号′.′)の4種類である。
また、境界検出部5では得られた1フレームの
スペクトルの変化から安定な点を抽出し、さら
に、上記安定点のフレームのスペクトルパターン
と、上記安定点以後に入力された音声のフレーム
のスペクトルパターンとの類似度を表わすユーク
リツド距離を求めることによつて、抽出すべき音
節の音節境界を検出する。第2図は上記安定点を
抽出してから音節境界を検出までのフローチヤー
トを示しており、図中右側は上記安定点抽出のフ
ローであり左側は音節境界検出のフローである。
以下第2図に沿つて上記安定点の抽出および上記
音節境界の検出の手段を詳述する。
スペクトルの変化から安定な点を抽出し、さら
に、上記安定点のフレームのスペクトルパターン
と、上記安定点以後に入力された音声のフレーム
のスペクトルパターンとの類似度を表わすユーク
リツド距離を求めることによつて、抽出すべき音
節の音節境界を検出する。第2図は上記安定点を
抽出してから音節境界を検出までのフローチヤー
トを示しており、図中右側は上記安定点抽出のフ
ローであり左側は音節境界検出のフローである。
以下第2図に沿つて上記安定点の抽出および上記
音節境界の検出の手段を詳述する。
ここで、各変数を
i,j:一時変数、
N:パターンの次数を表す定数、
t:フレームの番号、
ta:安定点のフレーム番号、
PAT(i):安定点の特徴パターンのi次の特徴量
D(t):フレームtでのスペクトル変化距離、
SP(t)(i):フレームtでの入力パターンのi次の
特徴量、 L:スペクトル変化を計算する窓の長さを表す定
数で2L+1が窓長になる、 M:安定点を求めるための窓の長さを表す定数で
2M+1が窓長となる、 DIS:安定点の特徴パターンと入力フレームの特
徴パターンの距離、 ANTFLG:安定点からの上記距離による境界検
出フラグ、 とする。
特徴量、 L:スペクトル変化を計算する窓の長さを表す定
数で2L+1が窓長になる、 M:安定点を求めるための窓の長さを表す定数で
2M+1が窓長となる、 DIS:安定点の特徴パターンと入力フレームの特
徴パターンの距離、 ANTFLG:安定点からの上記距離による境界検
出フラグ、 とする。
いま、スペクトル上のある1つのフレームt
(これを現フレームとする)からの入力パターン
SP(t)(i)が入力されると、 ステツプS1で、安定点パターンの有無(すなわ
ち、過去に安定点を抽出して、上記安定点のスペ
クトルパターンを取り込んでいるか否か)を判定
する。ここでは、安定点のスペクトルパターンを
取り込んでいれば安定点のスペクトルパターンの
データが総ての次数で0となることがないことを
利用して、i=1,,NであるすべてのPAT(i)に
たいして PAT(i)=0 を満たすときは、すでに抽出された安定点パター
ンは無としてステツプS2に進み安定点を求める動
作に入り、それ以外のときにはすでに抽出された
安定点が有りとしてステツプS5に進む。
(これを現フレームとする)からの入力パターン
SP(t)(i)が入力されると、 ステツプS1で、安定点パターンの有無(すなわ
ち、過去に安定点を抽出して、上記安定点のスペ
クトルパターンを取り込んでいるか否か)を判定
する。ここでは、安定点のスペクトルパターンを
取り込んでいれば安定点のスペクトルパターンの
データが総ての次数で0となることがないことを
利用して、i=1,,NであるすべてのPAT(i)に
たいして PAT(i)=0 を満たすときは、すでに抽出された安定点パター
ンは無としてステツプS2に進み安定点を求める動
作に入り、それ以外のときにはすでに抽出された
安定点が有りとしてステツプS5に進む。
ステツプS2で、現フレームの安定性をチエツク
する。すなわち、現フレームtにおけるスペクト
ル変化D(t)を D(t)=N 〓i=1 (SP(t−L)(i)−SP(t+L)(i))2 とすると、 D(t)= min j ……(1) ただし、j=−M,−M+1,,,0,,,M を満たすD(t)が存在するときに上記現フレームt
は安定と判断してステツプS3に進み、上記(1)式を
満たすD(t)が存在しないときは現フレームtは安
定でないとしてステツプS1へ戻り次のフレームの
処理を実行する。
する。すなわち、現フレームtにおけるスペクト
ル変化D(t)を D(t)=N 〓i=1 (SP(t−L)(i)−SP(t+L)(i))2 とすると、 D(t)= min j ……(1) ただし、j=−M,−M+1,,,0,,,M を満たすD(t)が存在するときに上記現フレームt
は安定と判断してステツプS3に進み、上記(1)式を
満たすD(t)が存在しないときは現フレームtは安
定でないとしてステツプS1へ戻り次のフレームの
処理を実行する。
ステツプS3で、上記スペクトル変化が非常に大
きい点を安定点として採択するのを避けるため、
ステツプS2で求められた安定なフレームtにおけ
るスペクトル変化D(t)を設定値THDIS2と比較す
る。その結果THDIT2より小さければステツプ
S4に進み、以上であれば現フレームtは安定点と
して採択できないとして、ステツプS1へ戻る。
きい点を安定点として採択するのを避けるため、
ステツプS2で求められた安定なフレームtにおけ
るスペクトル変化D(t)を設定値THDIS2と比較す
る。その結果THDIT2より小さければステツプ
S4に進み、以上であれば現フレームtは安定点と
して採択できないとして、ステツプS1へ戻る。
ステツプS4で、安定点として採択されたフレー
ムtaにおけるスペクトルの特徴パターンを上記安
定点パターンPAT(i)にセツトして安定点の抽出
が完了し、ステツプS1へ戻る。
ムtaにおけるスペクトルの特徴パターンを上記安
定点パターンPAT(i)にセツトして安定点の抽出
が完了し、ステツプS1へ戻る。
PAT(i)=SP(ta)(i) i=1,,N
ステツプS5で、上記抽出された安定点の安定点
パターンと現フレームtにおけるスペクトルの特
徴パターンとの距離(DIS)を次式 DLS=N 〓i=1 (PAT(i)−SP(t)(i))2 を用いて計算して、ステツプS6に進む。
パターンと現フレームtにおけるスペクトルの特
徴パターンとの距離(DIS)を次式 DLS=N 〓i=1 (PAT(i)−SP(t)(i))2 を用いて計算して、ステツプS6に進む。
ステツプS6で上記ステツプS5で求めた距離DIS
が設定値THDIS1より大きいか否か、すなわち類
似度が小さいか大きいかを判断して、設定値以下
の場合は安定点パターンと現フレームにおける特
徴パターンとは類似しているので、現フレームは
音節の境界点としては採択できないとしてステツ
プS1へ戻る。一方、設定値より大きい場合は現フ
レームは音節境界点であるとしてステツプS7へ進
む。
が設定値THDIS1より大きいか否か、すなわち類
似度が小さいか大きいかを判断して、設定値以下
の場合は安定点パターンと現フレームにおける特
徴パターンとは類似しているので、現フレームは
音節の境界点としては採択できないとしてステツ
プS1へ戻る。一方、設定値より大きい場合は現フ
レームは音節境界点であるとしてステツプS7へ進
む。
ステツプS7で、ステツプS6でIDS>THDIS1と
判断され、音節境界が検出されたとき、音節境界
検出フラグANTFLGをセツト ANTFLG=1 してステツプS8に進む。
判断され、音節境界が検出されたとき、音節境界
検出フラグANTFLGをセツト ANTFLG=1 してステツプS8に進む。
ステツプS8で抽出すべき音節の音節境界検出が
完了したので、境界検出に用いた安定点パターン
PAT(i)をクリア PAT(i)=0 ただしi=1,,N してステツプS1へ戻り、次の音節の安定点の抽出
と音節境界検出とを行う。
完了したので、境界検出に用いた安定点パターン
PAT(i)をクリア PAT(i)=0 ただしi=1,,N してステツプS1へ戻り、次の音節の安定点の抽出
と音節境界検出とを行う。
上述のようにして、1つの音声の安定点が抽出
され、この安定点を基にして抽出すべき音節の音
節境界が検出されると、第1図の上記音節区間抽
出部6により上記音節分類部4で得られた音節ラ
ベルの時系列と上記境界検出部5で求められた音
節境界情報とから、第3図に示す音節抽出フロー
チヤートにしたがつて、上記音節区間抽出部6に
より音節が抽出される。
され、この安定点を基にして抽出すべき音節の音
節境界が検出されると、第1図の上記音節区間抽
出部6により上記音節分類部4で得られた音節ラ
ベルの時系列と上記境界検出部5で求められた音
節境界情報とから、第3図に示す音節抽出フロー
チヤートにしたがつて、上記音節区間抽出部6に
より音節が抽出される。
ここで、各変数を
SEG:音韻分類部で出力されるラベル、
FRAME:抽出された音韻のフレーム数、
CUTFLG:抽出完了フラグ、
ANTFLG:音韻境界検出フラグ、
(音節境界検出部により検出される)
FRMCNT:フレームのカウンタ、
VCNT:母音性のラベル′V′の付いたフレームの
カウンタ、 THCUT:定数(10) ′V′:母音性の音韻ラベル、 ′F′:摩擦性の音韻ラベル、 とする。
カウンタ、 THCUT:定数(10) ′V′:母音性の音韻ラベル、 ′F′:摩擦性の音韻ラベル、 とする。
ステツプS11で、CUTFLG(音節抽出完了フラ
グ)がセツトしてあるか否かを判別し、セツトし
てあればステツプS12に進み、上記CUTFLGをク
リアしてステツプS13に進む。クリアしてあれば
そのままステツプS13に進む。
グ)がセツトしてあるか否かを判別し、セツトし
てあればステツプS12に進み、上記CUTFLGをク
リアしてステツプS13に進む。クリアしてあれば
そのままステツプS13に進む。
ステツプS13で、現フレームのSEG(音韻ラベ
ル)が′V′か否かを判定し、′V′であればステツ
プS14に進み、′V′でなければステツプS17に進む。
ル)が′V′か否かを判定し、′V′であればステツ
プS14に進み、′V′でなければステツプS17に進む。
ステツプS14でFRMCNT(フレームカウンタ)
に+1を加え、VCNT(母音性の音韻ラベル′
V′のフレーム数)に+1を加えステツプS15に進
む。
に+1を加え、VCNT(母音性の音韻ラベル′
V′のフレーム数)に+1を加えステツプS15に進
む。
ステツプS15で、ANTFLG(音節境界検出フラ
グ)がセツトされているか否か(このANTFLG
は第2図の安定点抽出および音節境界点検出のフ
ローチヤートのステツプS7で1つの音節境界の検
出が完了したときにセツトされる。)を判別する。
その結果、1にセツトされているときはステツプ
16に進んで1音節抽出を行い、セツトされていな
いときはまだ1音節の境界検出が完了していない
と判別してステツプS11に戻り、次のフレームの
処理を実行する。ステツプ16で、上記ステツプ
S15で上記ANTFLGが1にセツトされていると
判別されたときは1音節の境界が検出されている
ので、現フレームまでを1音節とみなして、現フ
レームまでの音節のフレーム数をカウントしてい
る上記FRMCNTをFRAME(抽出された音節の
フレーム数)に転送して、上記FRMCNTおよび
上記VCNTをクリアし、1音節抽出完了のフラ
グCUTFLGを1にセツトしてステツプS11に戻
り、次の音節抽出処理を実行する。
グ)がセツトされているか否か(このANTFLG
は第2図の安定点抽出および音節境界点検出のフ
ローチヤートのステツプS7で1つの音節境界の検
出が完了したときにセツトされる。)を判別する。
その結果、1にセツトされているときはステツプ
16に進んで1音節抽出を行い、セツトされていな
いときはまだ1音節の境界検出が完了していない
と判別してステツプS11に戻り、次のフレームの
処理を実行する。ステツプ16で、上記ステツプ
S15で上記ANTFLGが1にセツトされていると
判別されたときは1音節の境界が検出されている
ので、現フレームまでを1音節とみなして、現フ
レームまでの音節のフレーム数をカウントしてい
る上記FRMCNTをFRAME(抽出された音節の
フレーム数)に転送して、上記FRMCNTおよび
上記VCNTをクリアし、1音節抽出完了のフラ
グCUTFLGを1にセツトしてステツプS11に戻
り、次の音節抽出処理を実行する。
ステツプS17で、現フレームの音韻ラベルが′
V′でないときは、上記VCNTとTHCUT(定数=
本実施例では10)とを比較する。その結果母音性
の音韻ラベル数がTHCUTよりも大であれば、
現フレームより以前のフレームは有意味な音節で
あり、現フレームは音節の境界であると判断し
て、ステツプS18に進んで1音節抽出を行い、
THCUT以下であればステツプS19に進む。
V′でないときは、上記VCNTとTHCUT(定数=
本実施例では10)とを比較する。その結果母音性
の音韻ラベル数がTHCUTよりも大であれば、
現フレームより以前のフレームは有意味な音節で
あり、現フレームは音節の境界であると判断し
て、ステツプS18に進んで1音節抽出を行い、
THCUT以下であればステツプS19に進む。
ステツプS18で、現フレームまでを1音節とみ
なして、現フレームまでの音節のフレーム数をカ
ウントしている上記FRMCNTを上記FRAMEに
転送して、上記FRMCNTおよびVCNTをクリ
アし、1音節抽出完了のフラグCUTFLGを1に
セツトしてステツプS11に戻る。
なして、現フレームまでの音節のフレーム数をカ
ウントしている上記FRMCNTを上記FRAMEに
転送して、上記FRMCNTおよびVCNTをクリ
アし、1音節抽出完了のフラグCUTFLGを1に
セツトしてステツプS11に戻る。
ステツプS19で、現フレームの上記SEGが′F′か
否かを判別し、′F′であればステツプS21に進
み、′F′でなければステツプS20に進む。
否かを判別し、′F′であればステツプS21に進
み、′F′でなければステツプS20に進む。
ステツプS20で、現フレームのSEGが′V′で
も′F′でもない場合、現フレームまでの音節は有
意味な音節ではないとして、上記FRMCNTおよ
びVCNTをクリアしてステツプS11に戻り、次の
音節抽出処理を実行する。
も′F′でもない場合、現フレームまでの音節は有
意味な音節ではないとして、上記FRMCNTおよ
びVCNTをクリアしてステツプS11に戻り、次の
音節抽出処理を実行する。
ステツプS21で、音韻ラベル′F′のときはまだ音
節が続いているとして、実行FRMCNTに+1を
加えてステツプS11に戻り、次のフレームの処理
を実行する。
節が続いているとして、実行FRMCNTに+1を
加えてステツプS11に戻り、次のフレームの処理
を実行する。
第3図の音節抽出フローチヤートのステツプ
S16およびステツプS18で、1音節抽出完了のフラ
グCUTFLGが1にセツトされると、第1図の上
記CPU9の指令により上記マツチング部7は、
入力された音声の上記音節区間軸出部6によつて
抽出された1つの音節区間の特徴パターンと、上
記特徴標準パターンメモリ8に予め記憶されてい
る特徴標準パターンとの類似度を計算して、上記
入力されて抽出された音節が類似度の最も高い標
準音節と同一の音節として認識され、その認識結
果が上記インターフエース10を介して、外部装
置に出力される。
S16およびステツプS18で、1音節抽出完了のフラ
グCUTFLGが1にセツトされると、第1図の上
記CPU9の指令により上記マツチング部7は、
入力された音声の上記音節区間軸出部6によつて
抽出された1つの音節区間の特徴パターンと、上
記特徴標準パターンメモリ8に予め記憶されてい
る特徴標準パターンとの類似度を計算して、上記
入力されて抽出された音節が類似度の最も高い標
準音節と同一の音節として認識され、その認識結
果が上記インターフエース10を介して、外部装
置に出力される。
第4図は本実施例において抽出された安定点、
音節境界点の例を示し、上段より音韻分類ラベル
の時系列、本実施例とは異なる方法によつて得ら
れた母音系列(参考)、スペクトル変化が記され
ている。また、Cは従来のスペクトル変化から求
めた音節境界点、A,Bは本実施例で求めた音節
境界点を現わしている。なお、第4図より、音韻
分類ラベルは全ての母音性の′V′であるため、第
4図は第3図の音節抽出フローチヤートにおける
ステツプS15で音節境界が検出された例である。
すなわち、上記スペクトル曲線上に上述の方法で
安定点P1が設定され、この安定点P1を基にして
上述の方法により各フレームの特徴パターンと上
記安定点パターンとの距離DISが、図中の太曲線
P1Q1のように求められ、点Q1において、DIS>
THDIS1となり音節境界点Aが検出される。同様
にして、次の安定点P2が設定されると、P2を基
にして点Q2が求められ、次の音節境界点Bが検
出され、3つの音節「え」「い」「お」が分離して
抽出される。従来のスペクトルの変化から音節境
界を検出する方法では、スペクトル変化の極値点
P3より音節境界点Cが検出されるので、音節
「えい」と「お」は区別されて抽出されるが、音
節「え」と「い」とはその両音節間のスペクトル
変化が穏やかであるために音節境界点が検出され
ず、したがつて異なる音節として区別して抽出す
ることができない。
音節境界点の例を示し、上段より音韻分類ラベル
の時系列、本実施例とは異なる方法によつて得ら
れた母音系列(参考)、スペクトル変化が記され
ている。また、Cは従来のスペクトル変化から求
めた音節境界点、A,Bは本実施例で求めた音節
境界点を現わしている。なお、第4図より、音韻
分類ラベルは全ての母音性の′V′であるため、第
4図は第3図の音節抽出フローチヤートにおける
ステツプS15で音節境界が検出された例である。
すなわち、上記スペクトル曲線上に上述の方法で
安定点P1が設定され、この安定点P1を基にして
上述の方法により各フレームの特徴パターンと上
記安定点パターンとの距離DISが、図中の太曲線
P1Q1のように求められ、点Q1において、DIS>
THDIS1となり音節境界点Aが検出される。同様
にして、次の安定点P2が設定されると、P2を基
にして点Q2が求められ、次の音節境界点Bが検
出され、3つの音節「え」「い」「お」が分離して
抽出される。従来のスペクトルの変化から音節境
界を検出する方法では、スペクトル変化の極値点
P3より音節境界点Cが検出されるので、音節
「えい」と「お」は区別されて抽出されるが、音
節「え」と「い」とはその両音節間のスペクトル
変化が穏やかであるために音節境界点が検出され
ず、したがつて異なる音節として区別して抽出す
ることができない。
したがつて、本実施例ではスペクトル変化が小
さくて従来のスペクトル変化で音節境界の抽出が
不可能な場合でも正確に音節境界を検出できる。
さくて従来のスペクトル変化で音節境界の抽出が
不可能な場合でも正確に音節境界を検出できる。
<発明の効果>
以上より明らかなように、この発明の音節認識
装置では、抽出された音声区間に続く入力音声に
おけるスペクトル情報の変化から上記スペクトル
情報の安定点を抽出する安定点抽出部と、上記抽
出された安定点におけるスペクトル情報と上記安
定点以後のスペクトル情報との類似度計算を順次
行つて、上記算出された類似度の値の所定の値と
比較することによつて次に抽出すべき音節区間の
音節境界を検出する音節境界検出部とを設けたの
で、上記スペクトル情報の変化が穏やかな場合で
あつても、急な場合であつても正確にしかも容易
に音節境界を検出することができる。
装置では、抽出された音声区間に続く入力音声に
おけるスペクトル情報の変化から上記スペクトル
情報の安定点を抽出する安定点抽出部と、上記抽
出された安定点におけるスペクトル情報と上記安
定点以後のスペクトル情報との類似度計算を順次
行つて、上記算出された類似度の値の所定の値と
比較することによつて次に抽出すべき音節区間の
音節境界を検出する音節境界検出部とを設けたの
で、上記スペクトル情報の変化が穏やかな場合で
あつても、急な場合であつても正確にしかも容易
に音節境界を検出することができる。
第1図はこの発明の音声認識装置のブロツク
図、第2図は安定点抽出および音節境界検出のフ
ローチヤート、第3図は音節抽出のフローチヤー
ト、第4図は実施例において抽出された安定点と
音節境界点の一例を示す図である。 3……特徴抽出部、4……音韻分類部、5……
境界検出部、6……音節区間抽出部、7……マツ
チング部、8……特徴標準パターンメモリ、9…
…CPU。
図、第2図は安定点抽出および音節境界検出のフ
ローチヤート、第3図は音節抽出のフローチヤー
ト、第4図は実施例において抽出された安定点と
音節境界点の一例を示す図である。 3……特徴抽出部、4……音韻分類部、5……
境界検出部、6……音節区間抽出部、7……マツ
チング部、8……特徴標準パターンメモリ、9…
…CPU。
Claims (1)
- 【特許請求の範囲】 1 入力された音声から音節区間を抽出し、この
抽出された音節の特徴パターンとメモリに予め記
憶している特徴標準パターンとの類似度計算を行
つて、入力された音声を音節単位で認識する音声
認識装置において、 抽出された音節区間に続く入力音声における音
声スペクトル情報の変化から、上記音声スペクト
ル情報の安定点を抽出する安定点抽出部と、 上記抽出された安定点における音声スペクトル
情報と上記安定点以後の音声スペクトル情報との
類似度計算を順次行い、上記算出された類似度の
値を所定の値と比較して次に抽出すべき音節区間
の音節の境界を検出する音節境界検出部とを設け
たことを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61216180A JPS6370899A (ja) | 1986-09-13 | 1986-09-13 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61216180A JPS6370899A (ja) | 1986-09-13 | 1986-09-13 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6370899A JPS6370899A (ja) | 1988-03-31 |
| JPH0564800B2 true JPH0564800B2 (ja) | 1993-09-16 |
Family
ID=16684542
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61216180A Granted JPS6370899A (ja) | 1986-09-13 | 1986-09-13 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6370899A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1646035B1 (en) * | 2004-10-05 | 2013-06-19 | Sony Europe Limited | Mapped meta-data sound-playback device and audio-sampling/sample processing system useable therewith |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6069695A (ja) * | 1983-09-27 | 1985-04-20 | 松下電器産業株式会社 | 語頭子音のセグメンテ−ション法 |
-
1986
- 1986-09-13 JP JP61216180A patent/JPS6370899A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6370899A (ja) | 1988-03-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS58130393A (ja) | 音声認識装置 | |
| JPH0564800B2 (ja) | ||
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| JPS61180297A (ja) | 話者照合装置 | |
| Elghonemy et al. | Speaker independent isolated Arabic word recognition system | |
| JPS63161499A (ja) | 音声認識装置 | |
| JPH07113838B2 (ja) | 音声認識方法 | |
| JP2578771B2 (ja) | 音声認識装置 | |
| JPH0451840B2 (ja) | ||
| JPH0558556B2 (ja) | ||
| JPH0289097A (ja) | 音節パターン切り出し方式 | |
| JPH0289099A (ja) | 音声認識装置 | |
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPH079598B2 (ja) | 音声認識装置における標準パラメ−タの修正方法 | |
| JPS63161500A (ja) | 音声認識装置 | |
| JPS62218997A (ja) | 単語音声認識装置 | |
| JPS6237797B2 (ja) | ||
| JPS62191900A (ja) | 無声破裂子音識別方式 | |
| JPS6293000A (ja) | 音声認識方法 | |
| JPS6120879B2 (ja) | ||
| JPS60149096A (ja) | 単語音声認識方法 | |
| JPS63247798A (ja) | 音声区間検出装置 | |
| JPH0431114B2 (ja) | ||
| JPS6355599A (ja) | 音声認識装置 | |
| JPS60149099A (ja) | 音声認識方法 |