JPH042199B2 - - Google Patents
Info
- Publication number
- JPH042199B2 JPH042199B2 JP58177318A JP17731883A JPH042199B2 JP H042199 B2 JPH042199 B2 JP H042199B2 JP 58177318 A JP58177318 A JP 58177318A JP 17731883 A JP17731883 A JP 17731883A JP H042199 B2 JPH042199 B2 JP H042199B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- consonant
- standard pattern
- phonemes
- magnitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音素認識を行なうことを特徴とする音
声認識方法における音素認識方法に関するもので
ある。
声認識方法における音素認識方法に関するもので
ある。
従来例の構成とその問題点
近年、不特定話者、多数語を対象とする音声認
識に対する研究開発が盛んになつてきた。音素認
識を行なうことを特徴とする音声認識方法は、ア
クセントの違いなどの話者による変動を受けにく
いこと、音声信号を音素系列という少ない情報量
でしかも言語学に対応した記号に変換するため、
単語辞書の容量が少なくてもよいこと、単語辞書
の内容を容易に作成したり変更したりできること
など不特定話者、多数語の認識には適した方法で
ある。
識に対する研究開発が盛んになつてきた。音素認
識を行なうことを特徴とする音声認識方法は、ア
クセントの違いなどの話者による変動を受けにく
いこと、音声信号を音素系列という少ない情報量
でしかも言語学に対応した記号に変換するため、
単語辞書の容量が少なくてもよいこと、単語辞書
の内容を容易に作成したり変更したりできること
など不特定話者、多数語の認識には適した方法で
ある。
この方法における重要なポイントは音素認識を
正確に行なうことである。特に子音のセグメンテ
ーシヨンおよび認識が技術的に難しい問題点であ
る。
正確に行なうことである。特に子音のセグメンテ
ーシヨンおよび認識が技術的に難しい問題点であ
る。
従来から個々の子音または子音グループとして
の特徴を明らかにする研究は数多く行なわれてき
たが、音声信号中から子音のセグメンテーシヨン
を行なつて音素を特定する、いわゆる自動認識に
対する従来例は多くない。従来例の代表的なもの
は、スペクトルのローカルピークを特徴パラメー
タとして子音認識を行なう方法であり、これは
「音声スペクトルの概略形とその動特性を利用し
た音声認識システム」三輪他、日本音響学会誌34
(1978)に述べてある。しかし、この方法は子音
認識率が十分でない。ここでは、従来例として本
出願人が先に出願した技術を取りあげて説明し、
その問題点を列挙する。
の特徴を明らかにする研究は数多く行なわれてき
たが、音声信号中から子音のセグメンテーシヨン
を行なつて音素を特定する、いわゆる自動認識に
対する従来例は多くない。従来例の代表的なもの
は、スペクトルのローカルピークを特徴パラメー
タとして子音認識を行なう方法であり、これは
「音声スペクトルの概略形とその動特性を利用し
た音声認識システム」三輪他、日本音響学会誌34
(1978)に述べてある。しかし、この方法は子音
認識率が十分でない。ここでは、従来例として本
出願人が先に出願した技術を取りあげて説明し、
その問題点を列挙する。
従来では、音素のセグメンテーシヨンのため
に、次の3種の情報を用いる。
に、次の3種の情報を用いる。
イ 有声・無声・無音判定結果
入力音声をフレームごとに区切り、各フレー
ムに対して、有声・無声・無音の判定を行ない
時系列として表わす。1フレームは10msec程
度とする。無音または無声フレームが連続する
部分を子音区間とする。
ムに対して、有声・無声・無音の判定を行ない
時系列として表わす。1フレームは10msec程
度とする。無音または無声フレームが連続する
部分を子音区間とする。
ロ 母音・鼻音・無声音の標準パターンによる音
素判別結果 5母音、鼻音(/m/、/n/、はつ音をま
とめたもの)、無音声(/s/、/h/をまと
めたもの)の7種の標準パターンを使用して、
入力音声をフレームごとに標準パターンと比較
し、類似度が最大となる標準パターン名をフレ
ームごとに付し、時系列として表わす。子音区
間は、鼻音フレームまたは無声フレームが持続
する区間とする。
素判別結果 5母音、鼻音(/m/、/n/、はつ音をま
とめたもの)、無音声(/s/、/h/をまと
めたもの)の7種の標準パターンを使用して、
入力音声をフレームごとに標準パターンと比較
し、類似度が最大となる標準パターン名をフレ
ームごとに付し、時系列として表わす。子音区
間は、鼻音フレームまたは無声フレームが持続
する区間とする。
ハ パワーデイツプ
フレームごとに音声パワーを求め、これを時
系列として表わす。子音区間はパワーの凹みが
生じる部分(パワーデイツプ)とする。
系列として表わす。子音区間はパワーの凹みが
生じる部分(パワーデイツプ)とする。
以上3種の情報をパラメータとして音素のセグ
メンテーシヨンを行なう。第1図に具体例を示
す。
メンテーシヨンを行なう。第1図に具体例を示
す。
第1図は「ラクダ」(/rakuda/)と発声した
場合の各パラメータの動きを示したものである。
図においてaは手作業によつて名前づけした音
素、bは有声V、無声u、無音Q判定結果を、c
は母音(A,I,u,E,o)・鼻音N・無音声
sの判定結果をフレームごとに示してある。ま
た、dは音声パワーの時間的な動きを示したもの
である。各パラメータにおいて、←→で示す区間
が、子音区間として判定された部分で、eはその
判定結果を示したものである。第1図aは目視に
よつて求めたものであるが、aの子音部分が各パ
ラメータで検出されていることがわかる。また、
各パラメータの求めた子音区間を総合すれば、a
の子音区間とほぼ一致している。
場合の各パラメータの動きを示したものである。
図においてaは手作業によつて名前づけした音
素、bは有声V、無声u、無音Q判定結果を、c
は母音(A,I,u,E,o)・鼻音N・無音声
sの判定結果をフレームごとに示してある。ま
た、dは音声パワーの時間的な動きを示したもの
である。各パラメータにおいて、←→で示す区間
が、子音区間として判定された部分で、eはその
判定結果を示したものである。第1図aは目視に
よつて求めたものであるが、aの子音部分が各パ
ラメータで検出されていることがわかる。また、
各パラメータの求めた子音区間を総合すれば、a
の子音区間とほぼ一致している。
次に音素の判別は、子音区間として検出された
区間に対し、フレームごとに子音標準パターンと
照合することによつて行なう。子音標準パターン
としては、 有声子音:/N/(鼻音),/B/(有声破裂
音/b//d//g/),/r/,/η/,/
h1/(/a/,/o/,/u/の後続する/
h/),/h1/(/a/,/o/,/u/が後続
する無声破裂音/p/,/t/,/k/) 無声子音:/S/(無声摩擦音/s/,/
c/),/h2/(/a/,/o/,/u/以外の
音素が後続する/h/),/k2/(/a/,/
o/,/u/以外の音素が後続する無声破裂音/
p/,/t/,/k/)を用意しておく。子音区
間に対し、有声・無声・無音判定結果で有声と判
定されたフレームには有声子音標準パターンを、
無声と判定されたフレームには無声子音標準パタ
ーンを適用し、フレームごとに各音素の標準パタ
ーンに対する類似度を求めておく。そして、子音
区間の全フレームに対し、各音素標準パターンに
対する類似度を加えあわせ、その和が最も大きく
なる標準パターンの音素名をその子音区間の音素
判別結果とする。ただし、無音と判定されたフレ
ームに対しては対象としない。また標準パター
ン/k1/として判別されても/k2/として判別さ
れても、それらを同一視して/k/に置きかえ
る。/h/に対しても同様である。
区間に対し、フレームごとに子音標準パターンと
照合することによつて行なう。子音標準パターン
としては、 有声子音:/N/(鼻音),/B/(有声破裂
音/b//d//g/),/r/,/η/,/
h1/(/a/,/o/,/u/の後続する/
h/),/h1/(/a/,/o/,/u/が後続
する無声破裂音/p/,/t/,/k/) 無声子音:/S/(無声摩擦音/s/,/
c/),/h2/(/a/,/o/,/u/以外の
音素が後続する/h/),/k2/(/a/,/
o/,/u/以外の音素が後続する無声破裂音/
p/,/t/,/k/)を用意しておく。子音区
間に対し、有声・無声・無音判定結果で有声と判
定されたフレームには有声子音標準パターンを、
無声と判定されたフレームには無声子音標準パタ
ーンを適用し、フレームごとに各音素の標準パタ
ーンに対する類似度を求めておく。そして、子音
区間の全フレームに対し、各音素標準パターンに
対する類似度を加えあわせ、その和が最も大きく
なる標準パターンの音素名をその子音区間の音素
判別結果とする。ただし、無音と判定されたフレ
ームに対しては対象としない。また標準パター
ン/k1/として判別されても/k2/として判別さ
れても、それらを同一視して/k/に置きかえ
る。/h/に対しても同様である。
第1図eは音素判別結果の例を示したものであ
り、比較的良い結果を得ることができることがわ
かる。
り、比較的良い結果を得ることができることがわ
かる。
従来例における問題点は、セグメンテーシヨン
によつて区間を決めた後、その全区間に対して、
フレームごとに類似度計算を行なう点である。す
なわち、子音区間全体を時間的に静的であると決
め込み、全区間を平等に扱つていることである。
によつて区間を決めた後、その全区間に対して、
フレームごとに類似度計算を行なう点である。す
なわち、子音区間全体を時間的に静的であると決
め込み、全区間を平等に扱つていることである。
しかし、母音はともかくとして、子音や半母音
は区間内で時間的に特徴パラメータが変化するも
のであり、その変化形態に各音素の特徴が見出さ
れる。そして、特徴を有する部分(特徴部)は子
音や半母音の種類によつて異なつている。たとえ
ば有声、無声破裂音では、破裂付近に音素を判別
するための特徴が集中し、鼻音では後続母音への
わたりの部分に音素判別のための特徴部があり、
流音や半母音では音素区間全体のパラメータの動
きが特徴となる。
は区間内で時間的に特徴パラメータが変化するも
のであり、その変化形態に各音素の特徴が見出さ
れる。そして、特徴を有する部分(特徴部)は子
音や半母音の種類によつて異なつている。たとえ
ば有声、無声破裂音では、破裂付近に音素を判別
するための特徴が集中し、鼻音では後続母音への
わたりの部分に音素判別のための特徴部があり、
流音や半母音では音素区間全体のパラメータの動
きが特徴となる。
したがつて、子音や半母音の判別には、各音素
を判別するための特徴部を抽出し、特徴部におけ
るパラメータの時間的な動きに着目して音素判別
を行なう方法が有効である。従来例においてはこ
のような配慮がなされていない。
を判別するための特徴部を抽出し、特徴部におけ
るパラメータの時間的な動きに着目して音素判別
を行なう方法が有効である。従来例においてはこ
のような配慮がなされていない。
発明の目的
本発明は従来技術のもつ以上のような欠点を解
消するもので、音素を先ず音素群に大分類し、次
に各音素群の特徴部を抽出し、特徴部におけるパ
ラメータの時間的な動きを考慮して音素標準パタ
ーンとのマツチングを行なうことにり、高い精度
で音素を判別する手段を提供するものである。
消するもので、音素を先ず音素群に大分類し、次
に各音素群の特徴部を抽出し、特徴部におけるパ
ラメータの時間的な動きを考慮して音素標準パタ
ーンとのマツチングを行なうことにり、高い精度
で音素を判別する手段を提供するものである。
発明の構成
本発明は上記目的を達成するもので、入力音声
のセグメンテーシヨンを行なつて音素区間を定
め、前記音素区間を音声の高域成分の時間変動で
生じる高域パワーデイツプの大きさと低域パワー
デイツプの大きさとを併用して音素を有声破裂音
群、無声破裂音群、鼻音群、摩擦音群の4つの音
素群に大分類し、次に前記音素区間中で高域パワ
ーデイツプの大きさと低域パワーデイツプの大き
さを用いて特徴部(音素の判別に有効な部分)候
補区間を自動的に抽出し、前記特徴部候補区間に
対して大分類された音素群に属する個々の音素の
時間的変化過程を含む標準パターンと特徴部の周
囲情報パターンを適用して類似度を計算し、正確
な特徴部の抽出と音素の判別を同時に行なうこと
を特徴とする音素認識方法を提供するものであ
る。
のセグメンテーシヨンを行なつて音素区間を定
め、前記音素区間を音声の高域成分の時間変動で
生じる高域パワーデイツプの大きさと低域パワー
デイツプの大きさとを併用して音素を有声破裂音
群、無声破裂音群、鼻音群、摩擦音群の4つの音
素群に大分類し、次に前記音素区間中で高域パワ
ーデイツプの大きさと低域パワーデイツプの大き
さを用いて特徴部(音素の判別に有効な部分)候
補区間を自動的に抽出し、前記特徴部候補区間に
対して大分類された音素群に属する個々の音素の
時間的変化過程を含む標準パターンと特徴部の周
囲情報パターンを適用して類似度を計算し、正確
な特徴部の抽出と音素の判別を同時に行なうこと
を特徴とする音素認識方法を提供するものであ
る。
実施例の説明
本実施例の概要は以下の通りである。
イ 音素標準パターンの作成
音素をその特徴部の位置によつて、次のよう
に音素群として大分類する。有声破裂音群(/
p//t/,/k/,/c/)、無声破裂音群
(/b/,/d/,/g/)、鼻音群(/
m/,/n/,/η/)、無声摩擦音群(/
s/,/h/)ただし流音(/r/)と鼻濁音
(/η/)は有声破裂音群、鼻音群の両方に混
入し、有声摩擦音(/z/)は有声破裂音群、
無声摩擦群に混入する。
に音素群として大分類する。有声破裂音群(/
p//t/,/k/,/c/)、無声破裂音群
(/b/,/d/,/g/)、鼻音群(/
m/,/n/,/η/)、無声摩擦音群(/
s/,/h/)ただし流音(/r/)と鼻濁音
(/η/)は有声破裂音群、鼻音群の両方に混
入し、有声摩擦音(/z/)は有声破裂音群、
無声摩擦群に混入する。
各音素群ごとに特徴部を設定し、その特徴部
に対して各音素の音素標準パターンを、あらか
じめ作成しておく。音素標準パターンは、目視
によつて正確にラベル付けした多くのデータを
使用して作成する。また、音素標準パターンの
他に、各音素群に対して、特徴部の周囲情報の
標準パターンを1種類作成しておく。
に対して各音素の音素標準パターンを、あらか
じめ作成しておく。音素標準パターンは、目視
によつて正確にラベル付けした多くのデータを
使用して作成する。また、音素標準パターンの
他に、各音素群に対して、特徴部の周囲情報の
標準パターンを1種類作成しておく。
ロ 音素の判別
入力音声のセグメンテーシヨンを行ない、音
素区間を求める。そして音素区間の一部(たと
えば端点)を基準点として設定する。一方、こ
の音素区間が上記イにおける大分類のうち、ど
の音素群に属するかを決定する。次に、この決
定された音素群に属する標準パターンを音素区
間における特徴部に対して適用して音素の判別
を行なう。ところで、特徴部を自動的にしかも
正確に求めることは一般には困難であるため、
次のようにする。すなわち上記の基準点を参照
して、多少の幅を持つて特徴部の候補区間を求
めておき、候補区間の全範囲に対して標準パタ
ーンを適用して各音素との類似度を計算する。
各音素との類似度計算に当つては、音素標準パ
ターンと未知入力との類似度から、上記イに述
べた音素群の周囲情報の標準パターンとの類似
度を除去する。このようにすることによつて、
特徴部の候補区間のうち特徴部に相当しない部
分(すなわち特徴部の周囲に相当する部分)の
情報を除去することができ、正確な特徴部をと
らえて音素の判別を行なうことができる。
素区間を求める。そして音素区間の一部(たと
えば端点)を基準点として設定する。一方、こ
の音素区間が上記イにおける大分類のうち、ど
の音素群に属するかを決定する。次に、この決
定された音素群に属する標準パターンを音素区
間における特徴部に対して適用して音素の判別
を行なう。ところで、特徴部を自動的にしかも
正確に求めることは一般には困難であるため、
次のようにする。すなわち上記の基準点を参照
して、多少の幅を持つて特徴部の候補区間を求
めておき、候補区間の全範囲に対して標準パタ
ーンを適用して各音素との類似度を計算する。
各音素との類似度計算に当つては、音素標準パ
ターンと未知入力との類似度から、上記イに述
べた音素群の周囲情報の標準パターンとの類似
度を除去する。このようにすることによつて、
特徴部の候補区間のうち特徴部に相当しない部
分(すなわち特徴部の周囲に相当する部分)の
情報を除去することができ、正確な特徴部をと
らえて音素の判別を行なうことができる。
以下、子音認識を例として、本発明の一実施例
を図面を参照しながら詳細に説明する。
を図面を参照しながら詳細に説明する。
第2図は子音認識の方法を説明するための図で
ある。図において入力音声信号は、フイルタ分析
パワー計算部1とLPC分析部2に入る。フイル
タ分析、パワー計算部1では、音素信号を低域、
中域、高域の3チヤンネルの帯域フイルタで周波
数分析を行ない、各チヤンネルに対して、1フレ
ーム(10msec)ごとにパワー(帯域パワー)を
計算する。低域フイルタは250〜600Hz中域フイル
タは600〜1500Hz、高域フイルタは1500〜4000Hz
程度の帯域を使用している。これらの帯域パワー
は主に子音を検出し、子音区間を決定する(子音
セグメンテーシヨンを行なう)ために使用する。
ある。図において入力音声信号は、フイルタ分析
パワー計算部1とLPC分析部2に入る。フイル
タ分析、パワー計算部1では、音素信号を低域、
中域、高域の3チヤンネルの帯域フイルタで周波
数分析を行ない、各チヤンネルに対して、1フレ
ーム(10msec)ごとにパワー(帯域パワー)を
計算する。低域フイルタは250〜600Hz中域フイル
タは600〜1500Hz、高域フイルタは1500〜4000Hz
程度の帯域を使用している。これらの帯域パワー
は主に子音を検出し、子音区間を決定する(子音
セグメンテーシヨンを行なう)ために使用する。
LPC分析部2では入力音声信号に対し、フレ
ームごとにLPC分析(線形予測分析)を行なう。
分析フイルタの次数は15次程度としている。特徴
パラメータ抽出部3では、LPC分析部2の結果
から、LPCケプストラム係数を計算する。これ
は周波数スペクトルの概形を記述するパラメータ
であり、不特定話者の音素認識に対して有効なパ
ラメータである。(二矢田他「不特定話者の音素
認識を目的とした特徴パラメータと距離尺度の評
価」音響学会講論 昭57年10月参照)。母音判別、
有声、無声判別部5では、母音・鼻音(/
m/,/n/、はつ音をまとめたもの)の標準パ
ターンに対する特徴パラメータの類似度計算をフ
レームごとに行ない、最も類似度の高い音素をそ
のフレームの(母音、鼻音を対象とした)判別結
果として出力する。また同様に有声・無声標準パ
ターンに対する類似度を計算し、フレームごとに
有声・無声判別結果を出力する。類似度を計算す
る距離尺度としては次のような統計的距離尺度が
有効である。(上記の参考資料)。
ームごとにLPC分析(線形予測分析)を行なう。
分析フイルタの次数は15次程度としている。特徴
パラメータ抽出部3では、LPC分析部2の結果
から、LPCケプストラム係数を計算する。これ
は周波数スペクトルの概形を記述するパラメータ
であり、不特定話者の音素認識に対して有効なパ
ラメータである。(二矢田他「不特定話者の音素
認識を目的とした特徴パラメータと距離尺度の評
価」音響学会講論 昭57年10月参照)。母音判別、
有声、無声判別部5では、母音・鼻音(/
m/,/n/、はつ音をまとめたもの)の標準パ
ターンに対する特徴パラメータの類似度計算をフ
レームごとに行ない、最も類似度の高い音素をそ
のフレームの(母音、鼻音を対象とした)判別結
果として出力する。また同様に有声・無声標準パ
ターンに対する類似度を計算し、フレームごとに
有声・無声判別結果を出力する。類似度を計算す
る距離尺度としては次のような統計的距離尺度が
有効である。(上記の参考資料)。
入力特徴パラメータ:〓=(X1,X2,……Xd)
標準パターン:平均値μ=(μ1,μ2……μd)
611,612……61,d
共分散行列Σ=611
621
〓
621 …
… …
… 61,d
6d,d
ただし、dは次元数である。
とすると、音素iに対する距離は次のように定義
される。
される。
ベイズ判定に基づく距離:
Pi=1/(2π)d/2・|Σ|1/2exp{−1/2(〓−μi)
T ・Σ-1 i・(〓−μi)} ……式1 マハラノビス距離: Li=(〓−μi)T・Σ-1・(〓−μi) ……式2 添字−1は逆行列を、Tは転置を表わす。
T ・Σ-1 i・(〓−μi)} ……式1 マハラノビス距離: Li=(〓−μi)T・Σ-1・(〓−μi) ……式2 添字−1は逆行列を、Tは転置を表わす。
式1においてはPiを最大にする音素を、また式
2においてはLiを最小とする音素を、そのフレー
ムの判別結果とする。有声・無声判定も同様であ
る。式1、式2によつて、ほぼ同様の結果が得ら
れる。
2においてはLiを最小とする音素を、そのフレー
ムの判別結果とする。有声・無声判定も同様であ
る。式1、式2によつて、ほぼ同様の結果が得ら
れる。
子音検出部4は、フイルタ分析、パワー計算部
1から出力された帯域パワーの時系列波形からパ
ワーの凹み(パワーデイツプ)を検出し、子音の
セグメンテーシヨンを行なう。また母音判別、有
声・無声判別部5で、鼻音と判別されたフレーム
または無声と判定されたフレームが連続すると
き、それらの部分も子音区間としてセグメンテー
シヨンを行なう。
1から出力された帯域パワーの時系列波形からパ
ワーの凹み(パワーデイツプ)を検出し、子音の
セグメンテーシヨンを行なう。また母音判別、有
声・無声判別部5で、鼻音と判別されたフレーム
または無声と判定されたフレームが連続すると
き、それらの部分も子音区間としてセグメンテー
シヨンを行なう。
パワーデイツプの検出の方法を第3図によつて
説明する。第3図aは帯域パワーの時系列波形で
表わしたものであり、子音区間に凹みが生じるこ
とを示している。aを微分(計算機では差分)す
るとbのようになる。bにおいて、最小値から最
大値までの区間lを子音区間とする。またbの尖
頭値間の値dをパワーデイツプの大きさと定義す
る。Oは基準点である。
説明する。第3図aは帯域パワーの時系列波形で
表わしたものであり、子音区間に凹みが生じるこ
とを示している。aを微分(計算機では差分)す
るとbのようになる。bにおいて、最小値から最
大値までの区間lを子音区間とする。またbの尖
頭値間の値dをパワーデイツプの大きさと定義す
る。Oは基準点である。
子音大分類部6では子音検出部4にて子音とし
てセグメンテーシヨンされた部分について、パワ
ーデイツプの大きさを使用して子音を大分類す
る。一般に有声子音のスペクトルは低域部に集中
するため、高域パワーの時系列情報により大きな
デイツプが生じやすい。また無声子音はスペクト
ルが高域部に集中するので、低域パワーにより大
きなデイツプが生じやすい。無声破裂音は無音か
ら立上がるため、低域パワー、高域パワーの両方
に大きなデイツプが生じる。鼻音は、どちらにも
大きなデイツプは生じないが、有声音なので、高
域パワーにデイツプの方が大きい。
てセグメンテーシヨンされた部分について、パワ
ーデイツプの大きさを使用して子音を大分類す
る。一般に有声子音のスペクトルは低域部に集中
するため、高域パワーの時系列情報により大きな
デイツプが生じやすい。また無声子音はスペクト
ルが高域部に集中するので、低域パワーにより大
きなデイツプが生じやすい。無声破裂音は無音か
ら立上がるため、低域パワー、高域パワーの両方
に大きなデイツプが生じる。鼻音は、どちらにも
大きなデイツプは生じないが、有声音なので、高
域パワーにデイツプの方が大きい。
低域パワーデイツプの大きさをPL、高域パワ
ーデイツプの大きさをPHとして、PL−PH平面上
に各子音群の位置を表示したのが第4図である。
第4図において、PLもPHも小さく、しかも鼻音
または無声としてセグメンテーシヨンされないパ
ワーデイツプは付加Vとして子音候補から除去す
る。このように低域パワーデイツプ、高域パワー
デイツプの大きさに着目することによつて、子音
を無声破裂音群、有声破裂音群、無声摩擦音
群、鼻音群に大分類することができる。ただ
し、/Z/は有声破裂音群と無声摩察音群の両方
に混入する。これは/Z/がうなり(バズ)の部
分と摩擦の部分の両方の性質を有する音素である
ためである。また/γ/と/η/は有声破裂音と
鼻音の両方に混入する。これらの音素は前後の母
音の影響を強く受け、出現環境によつてパワーデ
イツプの大きさが異なるためである。
ーデイツプの大きさをPHとして、PL−PH平面上
に各子音群の位置を表示したのが第4図である。
第4図において、PLもPHも小さく、しかも鼻音
または無声としてセグメンテーシヨンされないパ
ワーデイツプは付加Vとして子音候補から除去す
る。このように低域パワーデイツプ、高域パワー
デイツプの大きさに着目することによつて、子音
を無声破裂音群、有声破裂音群、無声摩擦音
群、鼻音群に大分類することができる。ただ
し、/Z/は有声破裂音群と無声摩察音群の両方
に混入する。これは/Z/がうなり(バズ)の部
分と摩擦の部分の両方の性質を有する音素である
ためである。また/γ/と/η/は有声破裂音と
鼻音の両方に混入する。これらの音素は前後の母
音の影響を強く受け、出現環境によつてパワーデ
イツプの大きさが異なるためである。
このようにして大分類によつて候補を絞つた
後、次の段階では子音細分類部7で、各子音群内
で細分類を行なう。子音細分類部7は、各子音群
に対応して無声破裂音判別部8、有声破裂音判別
部9、鼻音判別部10、無声摩擦音判別部11に
よつて構成されている。この部分では特徴パラメ
ータ抽出部3の出力と、音素標準パターンとの類
似度を求め、各音素に対する類似度を比較するこ
とによつて子音を判別する。
後、次の段階では子音細分類部7で、各子音群内
で細分類を行なう。子音細分類部7は、各子音群
に対応して無声破裂音判別部8、有声破裂音判別
部9、鼻音判別部10、無声摩擦音判別部11に
よつて構成されている。この部分では特徴パラメ
ータ抽出部3の出力と、音素標準パターンとの類
似度を求め、各音素に対する類似度を比較するこ
とによつて子音を判別する。
無声破裂音、有声破裂音は破裂点から後続母音
へ遷移する部分に特徴がある。したがつて無声破
裂音群内または有声破裂音群内で細分類を行なう
には破裂点付近の時間的な動きを考慮した類似度
計算を行なうことが必要である。鼻音は母音への
わたりの部分に特徴があり、この部分の時間的動
きを考慮した類似度計算が必要である。流音/
γ/は区間全体のスペクトル変化と持続時間に特
徴がある。/Z/はバブ部とそれに続く摩擦部を
有することに特徴がある。
へ遷移する部分に特徴がある。したがつて無声破
裂音群内または有声破裂音群内で細分類を行なう
には破裂点付近の時間的な動きを考慮した類似度
計算を行なうことが必要である。鼻音は母音への
わたりの部分に特徴があり、この部分の時間的動
きを考慮した類似度計算が必要である。流音/
γ/は区間全体のスペクトル変化と持続時間に特
徴がある。/Z/はバブ部とそれに続く摩擦部を
有することに特徴がある。
このように各子音群によつて特徴部には差異が
あるが、特徴点を基準とした時間的な動きが重要
な情報であることは共通している。正確に特徴部
を自動抽出することは容易ではない。しかし、各
音素群の特徴部がパワーデイツプの立上り付近で
あることは経験的にわかつているため、第3図b
に示したようにパワーデイツプの立上りフレーム
を基準点として、その前後数フレームにわたつて
類似度を計算し、類似度が最大となるフレームの
値をその音素に対する類似度とする。この部分に
ついては後述する。
あるが、特徴点を基準とした時間的な動きが重要
な情報であることは共通している。正確に特徴部
を自動抽出することは容易ではない。しかし、各
音素群の特徴部がパワーデイツプの立上り付近で
あることは経験的にわかつているため、第3図b
に示したようにパワーデイツプの立上りフレーム
を基準点として、その前後数フレームにわたつて
類似度を計算し、類似度が最大となるフレームの
値をその音素に対する類似度とする。この部分に
ついては後述する。
次に類似度の計算に関しては、式1または式2
を使用して、時間的な動きを考慮した類似度を計
算する。すなわち、類似度計算に使用するデータ
として単一フレームの特徴パラメータでなく、複
数フレーム(いまlフレームとする)の特徴パラ
メータを使用する。式1または式2で 〓=(X1 1,X1 2,…X1 d,X2 1,X2 2…X2 d…Xl
1,Xl 2,……Xl d) 〓=(μ1 1,μ1 2…μ1 2…μ1 dμ2 1、μ2 2…
μ2 d…μl 1,μl 2…μl d) のようにd×l次元のデータを用いる。共分散行
列も同様にd×l次元とする。(複雑になるので
記さない)。このように複数フレームのデータを
用いることによつて、パラメータが持つスペクト
ルの特徴とその時間的な変動の特徴を同時に音素
標準パターンと比較することができる。
を使用して、時間的な動きを考慮した類似度を計
算する。すなわち、類似度計算に使用するデータ
として単一フレームの特徴パラメータでなく、複
数フレーム(いまlフレームとする)の特徴パラ
メータを使用する。式1または式2で 〓=(X1 1,X1 2,…X1 d,X2 1,X2 2…X2 d…Xl
1,Xl 2,……Xl d) 〓=(μ1 1,μ1 2…μ1 2…μ1 dμ2 1、μ2 2…
μ2 d…μl 1,μl 2…μl d) のようにd×l次元のデータを用いる。共分散行
列も同様にd×l次元とする。(複雑になるので
記さない)。このように複数フレームのデータを
用いることによつて、パラメータが持つスペクト
ルの特徴とその時間的な変動の特徴を同時に音素
標準パターンと比較することができる。
次に標準パターンの作成法を述べる。標準パタ
ーンは目視によつて音声中から正確に切出した多
くのデータを使用して作成する。
ーンは目視によつて音声中から正確に切出した多
くのデータを使用して作成する。
音素標準パターンは、同一音素の多くのデータ
に対し、特徴部に相当するlフレームのデータを
切り出してd×l次元の特徴スペクトルを求め、
多くのデータの平均値と共分散行列を求めること
によつて音素ごとに作成しておく。
に対し、特徴部に相当するlフレームのデータを
切り出してd×l次元の特徴スペクトルを求め、
多くのデータの平均値と共分散行列を求めること
によつて音素ごとに作成しておく。
周囲情報の標準パターンは音素群ごとに1種類
ずつ作成する。これは音素群内においては、周囲
情報が各音素に対して共通していることによる。
たとえば、有声破裂音群(/b/,/d/,/
g/)においては、特徴部(破裂部)の前には必
ずバズ部分が数フレーム存在し、破裂の後は母音
に接続する。周囲情報の標準パターンは、このよ
うにその音素群に対して普遍的な周囲の情報を標
準パターン化したものである。第5図にその作成
方法を示す。特徴部(図の斜線部)の近傍に対
し、特徴部に比較して時間的に十分長い区間を周
囲情報区間Lとして設定する。この区間に対し、
図に示すように、lフレームの特徴パラメータ
(d×l次元)を1フレームずつシフトさせなが
ら全区間にわたつて取り出す。このような手続を
同一音素群に属する多くのデータに対して適用
し、平均値ベクトルと共分散行列を求め、これを
周囲情報の標準パターンとする。このように周囲
情報の標準パターンには特徴部のデータも含まれ
ているが、それよりも特徴部の近傍のデータの比
重が格段に大きいものになつている。
ずつ作成する。これは音素群内においては、周囲
情報が各音素に対して共通していることによる。
たとえば、有声破裂音群(/b/,/d/,/
g/)においては、特徴部(破裂部)の前には必
ずバズ部分が数フレーム存在し、破裂の後は母音
に接続する。周囲情報の標準パターンは、このよ
うにその音素群に対して普遍的な周囲の情報を標
準パターン化したものである。第5図にその作成
方法を示す。特徴部(図の斜線部)の近傍に対
し、特徴部に比較して時間的に十分長い区間を周
囲情報区間Lとして設定する。この区間に対し、
図に示すように、lフレームの特徴パラメータ
(d×l次元)を1フレームずつシフトさせなが
ら全区間にわたつて取り出す。このような手続を
同一音素群に属する多くのデータに対して適用
し、平均値ベクトルと共分散行列を求め、これを
周囲情報の標準パターンとする。このように周囲
情報の標準パターンには特徴部のデータも含まれ
ているが、それよりも特徴部の近傍のデータの比
重が格段に大きいものになつている。
次に、上記の方法で作成した標準パターンを使
用して、第4図の方法によつて音素群に大分類さ
れたデータを細分類する具体的な方法を述べる。
なお、今後の説明では簡単のために式2の距離尺
度を使用し、1つの音素群が2音素(音素1、音
素2)で構成される場合を取りあげる。音素数が
増しても考え方は同様である。
用して、第4図の方法によつて音素群に大分類さ
れたデータを細分類する具体的な方法を述べる。
なお、今後の説明では簡単のために式2の距離尺
度を使用し、1つの音素群が2音素(音素1、音
素2)で構成される場合を取りあげる。音素数が
増しても考え方は同様である。
特徴部は前にも述べたように、パワーデイツプ
の立上りフレームを基準として、大まかな候補区
間を求める。この区間を時間的にt1〜t2とする。
いま時間tにおける未知入力ベクトル(細分類さ
れるべきデータ)を 〓t(t=t1〜t2) 音素1の標準パターン(平均値)を〓1 音素2の標準パターン(平均値)を〓2 周囲情報の標準パターン(平均値)を〓2 とし、音素1、音素2および周囲情報の全てに共
通な共分散行列をΣとする。Σは各々の共分散行
列を平均することによつて作成する。
の立上りフレームを基準として、大まかな候補区
間を求める。この区間を時間的にt1〜t2とする。
いま時間tにおける未知入力ベクトル(細分類さ
れるべきデータ)を 〓t(t=t1〜t2) 音素1の標準パターン(平均値)を〓1 音素2の標準パターン(平均値)を〓2 周囲情報の標準パターン(平均値)を〓2 とし、音素1、音素2および周囲情報の全てに共
通な共分散行列をΣとする。Σは各々の共分散行
列を平均することによつて作成する。
時間tにおける未知入力の音素1との類似度
(距離)をL1,tとすると、 L1,t=(〓t−〓1)T・Σ-1・(〓t−〓1)
−(〓t−〓e)T・Σ-1・(〓t−〓e)式3 同様に音素2との距離をL2,tとすると、 L2,t=(〓t−〓2)T・Σ-1・(〓t−〓2)
−(〓t−e)T・Σ-1・(〓t−〓e)式4 とする。これらの式の意味するところは、時間t
における未知入力と音素標準パターンとの類似度
から周囲情報に対する類似度を減じたものを新た
に音素との類似度とすることである。そして式3
および式4の計算をt1〜t2の期間を対象として行
ない、L1,t,L2,tのうち、この期間に最小
となつた方の音素を認識音素とする。
(距離)をL1,tとすると、 L1,t=(〓t−〓1)T・Σ-1・(〓t−〓1)
−(〓t−〓e)T・Σ-1・(〓t−〓e)式3 同様に音素2との距離をL2,tとすると、 L2,t=(〓t−〓2)T・Σ-1・(〓t−〓2)
−(〓t−e)T・Σ-1・(〓t−〓e)式4 とする。これらの式の意味するところは、時間t
における未知入力と音素標準パターンとの類似度
から周囲情報に対する類似度を減じたものを新た
に音素との類似度とすることである。そして式3
および式4の計算をt1〜t2の期間を対象として行
ない、L1,t,L2,tのうち、この期間に最小
となつた方の音素を認識音素とする。
実際には式3、式4は次のように簡単な式に展
開できる。(導出は略す)。
開できる。(導出は略す)。
L1,t=〓1・〓t−〓1 式3′
L2・t=〓2・〓t−〓2 式4′
〓1,〓2,〓1,〓2が周囲情報を含んだ標準パタ
ーンである。
ーンである。
上記の方法の意味を第6図によつて概念的に説
明する。
明する。
音素区間が第6図aに示す状況において、子音
の判別を行なう場合を考える。この子音の真の特
徴部(斜線部)に対し、特徴部候補区間Tが時間
t1〜t2として求められたものとする。bは式2に
よつて求めた、音素1(実線)、音素2(斜線)
に対する類似度の時間的変動を示したものであ
る。A,B,Cは類似度が極小となる位置を示
す。真の特徴部(B点)においては音素1の分が
音素2よりも小さく、この子音は音素1として判
別されるべきである。しかるに、セグメンテーシ
ヨンパラメータによつて自動的に求めた特徴部候
補区間内においては、音素2がA点において最小
となるため、このままでは音素2に誤判別されて
しまう。第6図cは未知入力の周囲情報の標準パ
ターンとの距離を示したものであり、真の特徴部
付近で値が大きくなる。これは、標準パターンが
主に周辺の情報によつて作成されているためであ
る。第6図dは周囲情報を含んだ音素標準パター
ンとの距離であり、bからcを減じたものと等価
である。dではA点よりもB点の値が小さくなつ
ており、この子音は正しく音素1として判別され
ることになる。
の判別を行なう場合を考える。この子音の真の特
徴部(斜線部)に対し、特徴部候補区間Tが時間
t1〜t2として求められたものとする。bは式2に
よつて求めた、音素1(実線)、音素2(斜線)
に対する類似度の時間的変動を示したものであ
る。A,B,Cは類似度が極小となる位置を示
す。真の特徴部(B点)においては音素1の分が
音素2よりも小さく、この子音は音素1として判
別されるべきである。しかるに、セグメンテーシ
ヨンパラメータによつて自動的に求めた特徴部候
補区間内においては、音素2がA点において最小
となるため、このままでは音素2に誤判別されて
しまう。第6図cは未知入力の周囲情報の標準パ
ターンとの距離を示したものであり、真の特徴部
付近で値が大きくなる。これは、標準パターンが
主に周辺の情報によつて作成されているためであ
る。第6図dは周囲情報を含んだ音素標準パター
ンとの距離であり、bからcを減じたものと等価
である。dではA点よりもB点の値が小さくなつ
ており、この子音は正しく音素1として判別され
ることになる。
このように、本実施例の方法を用いることによ
つて、セグメンテーシヨンパラメータで求めた大
まかな特徴部候補区間から、正確に真の特徴部を
自動的に抽出して音素を判別することができる。
つて、セグメンテーシヨンパラメータで求めた大
まかな特徴部候補区間から、正確に真の特徴部を
自動的に抽出して音素を判別することができる。
なお、上記においては式2を基本とするマハラ
ノビス距離で説明したが、その他の距離において
も同様な方法が使用できる。例えば式1では対数
を取ることによつて式2と同様の扱いが可能であ
る。(この場合、距離のかわりに尤度が求まる)
また、上記では子音によつて説明したが、時間的
に変動する音素、たとえば半母音に対しても同様
な方法が適用できる。
ノビス距離で説明したが、その他の距離において
も同様な方法が使用できる。例えば式1では対数
を取ることによつて式2と同様の扱いが可能であ
る。(この場合、距離のかわりに尤度が求まる)
また、上記では子音によつて説明したが、時間的
に変動する音素、たとえば半母音に対しても同様
な方法が適用できる。
このように、大分類によつて候補数を絞り、細
分類には自動的に抽出した特徴部を基本として時
間的な動きを考慮して統計的距離尺度で音素を判
別する方法は、音素(特に子音や半母音)の音声
学的な性質を利用した合理的な認識法である。
分類には自動的に抽出した特徴部を基本として時
間的な動きを考慮して統計的距離尺度で音素を判
別する方法は、音素(特に子音や半母音)の音声
学的な性質を利用した合理的な認識法である。
なお、第2図は説明の都合上、先ずセグメンテ
ーシヨンの行つて基準点を検出して、その後類似
度を計算する形式について述べたが、実際に装置
化する場合は、1フレームずつずらせながら、全
てのフレームを中心として類似度の計算を行ない
セグメンテーシヨンもこれと並行して行なつて基
準点を求め、基準点に対して類似度を参照して音
素を分類する形式をとるが本質的には相違はな
い。
ーシヨンの行つて基準点を検出して、その後類似
度を計算する形式について述べたが、実際に装置
化する場合は、1フレームずつずらせながら、全
てのフレームを中心として類似度の計算を行ない
セグメンテーシヨンもこれと並行して行なつて基
準点を求め、基準点に対して類似度を参照して音
素を分類する形式をとるが本質的には相違はな
い。
本実施例によつて、全語中子音(/p/,/
t/,/k/,/c/,/b/,/d/,/
η/,/m/,/n/,/γ/,/z/,/
s/,/h/)を対象として、平均約76.1%の認
識率を得た。データは男女計20名がそれぞれ発生
した単語を使用しており、十分な信頼性がある。
同様の条件で従来法を評価すると、子音(/
γ/,/η/,/h/,/s/,/c/および子
音群(無声破裂音群、有声破裂音群、鼻音群)を
対象として平均認識率が約72.5%である。従来法
では一部の子音群内での細分化が行なわれていな
いことを考慮すれば、本発明にる実施例の効果が
大きいことがわかる。
t/,/k/,/c/,/b/,/d/,/
η/,/m/,/n/,/γ/,/z/,/
s/,/h/)を対象として、平均約76.1%の認
識率を得た。データは男女計20名がそれぞれ発生
した単語を使用しており、十分な信頼性がある。
同様の条件で従来法を評価すると、子音(/
γ/,/η/,/h/,/s/,/c/および子
音群(無声破裂音群、有声破裂音群、鼻音群)を
対象として平均認識率が約72.5%である。従来法
では一部の子音群内での細分化が行なわれていな
いことを考慮すれば、本発明にる実施例の効果が
大きいことがわかる。
また子音の細分類の場合、周囲情報を含まない
標準パターンを使用した場合、語中の有声破裂音
(/b/,/d/および/η/)で72.7%、語中
の鼻音(/m/,/n/および/η/)で64.1%
であつた。これが周囲情報を含む標準パターンを
用いた場合、それぞれ74.7%、75.4%に向上す
る。特に鼻音群に対して顕著な効果が現われてい
る。これは鼻音のパワーデイツプが不明瞭なた
め、基準点が正確に検出できないことによる。
標準パターンを使用した場合、語中の有声破裂音
(/b/,/d/および/η/)で72.7%、語中
の鼻音(/m/,/n/および/η/)で64.1%
であつた。これが周囲情報を含む標準パターンを
用いた場合、それぞれ74.7%、75.4%に向上す
る。特に鼻音群に対して顕著な効果が現われてい
る。これは鼻音のパワーデイツプが不明瞭なた
め、基準点が正確に検出できないことによる。
発明の効果
以上要するに、本発明は入力音声のセグメンテ
ーシヨンを行なつて音素区間を定め、前記音素区
間を音声の高域成分の時間変動で生じる高域パワ
ーデイツプの大きさと低域パワーデイツプの大き
さとを併用して音素を有声破裂音群、無声破裂音
群、鼻音群、摩擦音群の4の音素群に大分類し、
次に前記音素区間中で高域パワーデイツプの大き
さと低域パワーデイツプの大きさを用いて特徴部
(音素の判別に有効な部分)候補区間を自動的に
抽出し、前記特徴部候補区間に対して大分類され
た音素群に属する個々の音素の時間的変化過程を
含む標準パターンと特徴部の周囲情報パターンを
適用して類似度を計算し、正確な特徴部の抽出と
音素の判別を行なうことを特徴とする音素認識方
法を提供するもので、 イ 音声の自動セグメンテーシヨンを行つて、高
い精度で音素を認識することができる。
ーシヨンを行なつて音素区間を定め、前記音素区
間を音声の高域成分の時間変動で生じる高域パワ
ーデイツプの大きさと低域パワーデイツプの大き
さとを併用して音素を有声破裂音群、無声破裂音
群、鼻音群、摩擦音群の4の音素群に大分類し、
次に前記音素区間中で高域パワーデイツプの大き
さと低域パワーデイツプの大きさを用いて特徴部
(音素の判別に有効な部分)候補区間を自動的に
抽出し、前記特徴部候補区間に対して大分類され
た音素群に属する個々の音素の時間的変化過程を
含む標準パターンと特徴部の周囲情報パターンを
適用して類似度を計算し、正確な特徴部の抽出と
音素の判別を行なうことを特徴とする音素認識方
法を提供するもので、 イ 音声の自動セグメンテーシヨンを行つて、高
い精度で音素を認識することができる。
ロ 音素判別に対して有効な部分(特徴部)を自
動的にしかも正確に抽出し、マツチングを行な
うことができる。
動的にしかも正確に抽出し、マツチングを行な
うことができる。
ハ 従来、判別が難しいとされていた有声破裂音
群内、無声破裂音群内、鼻音群内の細分類を自
動セグメンテーシヨンと組合わせて行なうこと
ができる。
群内、無声破裂音群内、鼻音群内の細分類を自
動セグメンテーシヨンと組合わせて行なうこと
ができる。
ニ パワーデイツプという比較的単純なパラメー
タによつて、効率よくセグメンテーシヨン子音
の大分類、類似度計算のための基準点を検出す
ることができる。
タによつて、効率よくセグメンテーシヨン子音
の大分類、類似度計算のための基準点を検出す
ることができる。
等の利点を有する。
第1図は従来の音素のセグメンテーシヨンの方
法を説明する図、第2図は本発明の一実施例によ
る音素認識方法を説明するブロツク図、第3図は
同実施例のパワーデイツプおよびその大きさを検
出する方法を説明する図、第4図は同実施例の子
音の大分類の方法を概念的に説明する図、第5図
は同実施例の周囲情報標準パターンの作成法を説
明する図、第6図は同実施例の特徴部の検出及び
音素判別を行う方法を説明する図である。 1…フイルタ分析・パワー計算部、2…LPC
分析部、3…特徴パラメータ抽出部、4…子音検
出部、5…母音判別・有声・無声判別部、6…子
音大分類部、7…子音細分類部、8…無声破裂音
判別部、9…有声破裂音判別部、10…鼻音判別
部、11…無声摩擦音判別部。
法を説明する図、第2図は本発明の一実施例によ
る音素認識方法を説明するブロツク図、第3図は
同実施例のパワーデイツプおよびその大きさを検
出する方法を説明する図、第4図は同実施例の子
音の大分類の方法を概念的に説明する図、第5図
は同実施例の周囲情報標準パターンの作成法を説
明する図、第6図は同実施例の特徴部の検出及び
音素判別を行う方法を説明する図である。 1…フイルタ分析・パワー計算部、2…LPC
分析部、3…特徴パラメータ抽出部、4…子音検
出部、5…母音判別・有声・無声判別部、6…子
音大分類部、7…子音細分類部、8…無声破裂音
判別部、9…有声破裂音判別部、10…鼻音判別
部、11…無声摩擦音判別部。
Claims (1)
- 【特許請求の範囲】 1 入力音声のセグメンテーシヨンを行なつて音
素区間を定め、前記音素区間を音声の高域成分の
時間変動で生じる高域パワーデイツプの大きさと
低域パワーデイツプの大きさとを併用して音素を
有声破裂音群、無声破裂音群、鼻音群、摩擦音群
の4つの音素群に大分類し、次に前記音素区間中
で高域パワーデイツプの大きさと低域パワーデイ
ツプの大きさを用いて特徴部(音素の判別に有効
な部分)候補区間を自動的に抽出し、前記特徴部
候補区間に対して大分類された音素群に属する
個々の音素の時間的変化過程を含む標準パターン
と特徴部の周囲情報パターンを適用して類似度を
計算し、正確な特徴部を抽出して同時に音素の判
別を行なうことを特徴とする音素認識方法。 2 音素の時間的変化過程を含む標準パターンと
のマツチングにおける距離尺度として統計的距離
尺度を用いて類似度計算を行なうことを特徴とす
る特許請求の範囲第1項記載の音素認識方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58177318A JPS6068395A (ja) | 1983-09-26 | 1983-09-26 | 音素認識方法 |
| US06/616,836 US4817159A (en) | 1983-06-02 | 1984-06-04 | Method and apparatus for speech recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58177318A JPS6068395A (ja) | 1983-09-26 | 1983-09-26 | 音素認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6068395A JPS6068395A (ja) | 1985-04-18 |
| JPH042199B2 true JPH042199B2 (ja) | 1992-01-16 |
Family
ID=16028882
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58177318A Granted JPS6068395A (ja) | 1983-06-02 | 1983-09-26 | 音素認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6068395A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001027993A (ja) * | 1999-07-14 | 2001-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 流行予測支援方法及び装置及び流行予測支援プログラムを格納した記憶媒体 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58177319A (ja) * | 1982-04-12 | 1983-10-18 | Takayama Kasei Kogyosho:Kk | キヤレンダ−方式によるマツト製造装置 |
| JPS59223498A (ja) * | 1983-06-02 | 1984-12-15 | 松下電器産業株式会社 | 音素判別法 |
-
1983
- 1983-09-26 JP JP58177318A patent/JPS6068395A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6068395A (ja) | 1985-04-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ananthapadmanabha et al. | Detection of the closure-burst transitions of stops and affricates in continuous speech using the plosion index | |
| JPS6336676B2 (ja) | ||
| Jiao et al. | Convex weighting criteria for speaking rate estimation | |
| CN102222499B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| Krishna et al. | Foreign accent recognition with south indian spoken english | |
| Yarra et al. | A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection | |
| Sharma et al. | Sonority measurement using system, source, and suprasegmental information | |
| JPS6138479B2 (ja) | ||
| Kumari et al. | Automatic segmentation of Hindi speech into syllable-like units | |
| Espy-Wilson | A phonetically based semivowel recognition system | |
| JPH042199B2 (ja) | ||
| Karabetsos et al. | One-class classification for spectral join cost calculation in unit selection speech synthesis | |
| WO2007049879A1 (en) | Apparatus for vocal-cord signal recognition and method thereof | |
| Patil et al. | Automatic pronunciation assessment for language learners with acoustic-phonetic features | |
| Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
| Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
| Jijomon et al. | An offline signal processing technique for accurate localisation of stop release bursts in vowel-consonant-vowel utterances | |
| Ishi et al. | Perceptually-related acoustic-prosodic features of phrase finals in spontaneous speech. | |
| Bhattachajee et al. | An experimental analysis of speech features for tone speech recognition | |
| JPH0398098A (ja) | 音声認識装置 | |
| JPS6068396A (ja) | 音素分類方法 | |
| JPH0455520B2 (ja) | ||
| JPH0316039B2 (ja) | ||
| Ruinskiy et al. | An algorithm for accurate breath detection in speech and song signals | |
| AlDahri et al. | Detection of Voice Onset Time (VOT) for unvoiced stop sound in Modern Standard Arabic (MSA) based on power signal |