JPH036517B2 - - Google Patents
Info
- Publication number
- JPH036517B2 JPH036517B2 JP57012808A JP1280882A JPH036517B2 JP H036517 B2 JPH036517 B2 JP H036517B2 JP 57012808 A JP57012808 A JP 57012808A JP 1280882 A JP1280882 A JP 1280882A JP H036517 B2 JPH036517 B2 JP H036517B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- feature
- recognition
- speech
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は入力された音声信号の音素を高精度に
認識して効率良く且つ経済的に上記音声信号を認
識できる音声認識装置に関する。
認識して効率良く且つ経済的に上記音声信号を認
識できる音声認識装置に関する。
従来、特定話者を対象とした数百語程度の単語
認識では、入力音声パターンと、予め登録された
標準パターンとの単語単位でのパターン照合によ
り、高い認識率が得られるようになつてきた。し
かし、数千単語を認識対象としたり、あるいは不
特定話者を対象とした音声認識では、単語単位で
の認識処理、学習が非常に困難である。この為、
音声の構成要素である音節や音素単位での認識を
行い、しかるのちこれによつて得られた言語情報
と単語辞書とを照合して単語を認識せんとする音
声認識装置の開発が強く望まれている。特にこの
ような音声認識において、認識の基本単位を音素
とすれば、理論的には20種類程度の音素認識結果
を基本として、あらゆる音声を認識することが可
能となる。これ故、音声の分析や音素認識を故何
に精度良く行うかが極めて重要な課題となつてい
る。
認識では、入力音声パターンと、予め登録された
標準パターンとの単語単位でのパターン照合によ
り、高い認識率が得られるようになつてきた。し
かし、数千単語を認識対象としたり、あるいは不
特定話者を対象とした音声認識では、単語単位で
の認識処理、学習が非常に困難である。この為、
音声の構成要素である音節や音素単位での認識を
行い、しかるのちこれによつて得られた言語情報
と単語辞書とを照合して単語を認識せんとする音
声認識装置の開発が強く望まれている。特にこの
ような音声認識において、認識の基本単位を音素
とすれば、理論的には20種類程度の音素認識結果
を基本として、あらゆる音声を認識することが可
能となる。これ故、音声の分析や音素認識を故何
に精度良く行うかが極めて重要な課題となつてい
る。
さて、音声は周知のように母音と子音との2種
類の音素により構成されている。母音は比較的安
定で持続時間が長く、その特徴は時間的変化より
もむしろ周波数スペクトルにより決定される。一
方子音の特徴は、母音に較べて信号変化が早く、
周波数スペクトルの動的パターンによく現われ
る。
類の音素により構成されている。母音は比較的安
定で持続時間が長く、その特徴は時間的変化より
もむしろ周波数スペクトルにより決定される。一
方子音の特徴は、母音に較べて信号変化が早く、
周波数スペクトルの動的パターンによく現われ
る。
ところが従来では、音声の分析結果をフレーム
(以下同じ)に分割し、1フレーム分の周波数ス
ペクトル等の特徴パラメータだけを特徴ベクトル
として音素認識を行つているので、母音に対して
はその認識率が良好であるが、子音の認識率が極
めて悪いと云う問題があつた。また一方では、音
声信号を分析して得られる時間・周波数スペクト
ルパターン等の2フレーム以上に亘る特徴パラメ
ータを音素ベクトルとして音素認識する手段が提
唱されている。然し乍ら、特徴ベクトルの次元数
が多大となり、その認識処理に対する演算量が非
常に多くなると云う問題がある。特に統計的手法
によつて上記認識処理を行う場合、計算量が莫大
となつて実用性に欠けると云う問題が生じた。
(以下同じ)に分割し、1フレーム分の周波数ス
ペクトル等の特徴パラメータだけを特徴ベクトル
として音素認識を行つているので、母音に対して
はその認識率が良好であるが、子音の認識率が極
めて悪いと云う問題があつた。また一方では、音
声信号を分析して得られる時間・周波数スペクト
ルパターン等の2フレーム以上に亘る特徴パラメ
ータを音素ベクトルとして音素認識する手段が提
唱されている。然し乍ら、特徴ベクトルの次元数
が多大となり、その認識処理に対する演算量が非
常に多くなると云う問題がある。特に統計的手法
によつて上記認識処理を行う場合、計算量が莫大
となつて実用性に欠けると云う問題が生じた。
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、音声が有する性
質を有効に利用して音声信号の音素である母音お
よび子音をそれぞれ簡易に且つ精度良く認識して
効率の良い音声認識を行い得る実用性の高い音声
認識装置を提供することにある。
ので、その目的とするところは、音声が有する性
質を有効に利用して音声信号の音素である母音お
よび子音をそれぞれ簡易に且つ精度良く認識して
効率の良い音声認識を行い得る実用性の高い音声
認識装置を提供することにある。
本発明に係る音声認識装置は、入力された音声
信号を所定のフレーム周期で分析し、上記音声信
号の1フレーム分の要素数pからなる特徴パラメ
ータXiを時間的変動を含まない次数pの第1の音
素特徴ベクトルとして順次抽出すると共に、要素
数qの複数フレームに亙る特徴パラメータの時系
列yi,yi-1,〜yi-kを時間的変動を含む次数q×
(k+1)の第2の音素特徴ベクトルとして抽出
し、これらの第1および第2の音素特徴ベクトル
と音素辞書に登録された標準音素との類似の程度
をそれぞれ求めて音素認識して前記音声信号を認
識するようにしたことを特徴とするものである。
信号を所定のフレーム周期で分析し、上記音声信
号の1フレーム分の要素数pからなる特徴パラメ
ータXiを時間的変動を含まない次数pの第1の音
素特徴ベクトルとして順次抽出すると共に、要素
数qの複数フレームに亙る特徴パラメータの時系
列yi,yi-1,〜yi-kを時間的変動を含む次数q×
(k+1)の第2の音素特徴ベクトルとして抽出
し、これらの第1および第2の音素特徴ベクトル
と音素辞書に登録された標準音素との類似の程度
をそれぞれ求めて音素認識して前記音声信号を認
識するようにしたことを特徴とするものである。
即ち、音声信号を帯域フイルタ処理、離散的フ
ーリエ変換処理、ケプストラム分析処理、線形予
測分析処理等して、その特徴パラメータの時系列
X=x1,x2,…,xN、Y=y1,y2,…,yNを求め
る。但し、これらの特徴パラメータの時系列X,
Yは同じものであつてもよい。しかして特徴パラ
メータの時系列Xのうちの1セグメントの特徴パ
ラメータxiを第1の音素特徴ベクトルとして抽出
し、且つ特徴パラメータの時系列Yのうちの複数
セグメントに亘る特徴パラメータyi,yi-1,yi-2を
第2の音素特徴ベクトルとして抽出してその音素
認識を行つたのち、音声認識を行うようにしたも
のである。特に上記第1の音素特徴ベクトルから
母音又は鼻音を認識し、且つ第2の音素特徴ベク
トルから子音および半母音を認識することによつ
て、この認識率の向上を図るようにしたことを特
徴としている。
ーリエ変換処理、ケプストラム分析処理、線形予
測分析処理等して、その特徴パラメータの時系列
X=x1,x2,…,xN、Y=y1,y2,…,yNを求め
る。但し、これらの特徴パラメータの時系列X,
Yは同じものであつてもよい。しかして特徴パラ
メータの時系列Xのうちの1セグメントの特徴パ
ラメータxiを第1の音素特徴ベクトルとして抽出
し、且つ特徴パラメータの時系列Yのうちの複数
セグメントに亘る特徴パラメータyi,yi-1,yi-2を
第2の音素特徴ベクトルとして抽出してその音素
認識を行つたのち、音声認識を行うようにしたも
のである。特に上記第1の音素特徴ベクトルから
母音又は鼻音を認識し、且つ第2の音素特徴ベク
トルから子音および半母音を認識することによつ
て、この認識率の向上を図るようにしたことを特
徴としている。
従つて本発明によれば、音声信号が有する性質
を有効に利用して、その母音および子音・半母音
をそれぞれ精度良く認識することが可能となり、
従つて音声信号の認識率の向上を図ることが可能
となる。しかも母音に対しては、その1フレーム
毎に周波数分解能を高くして、また子音・半母音
に対しては周波数分解能を低くした数フレームに
亘る音素の特徴ベクトルをそれぞれ用いて認識を
行うことにより、計算量の増大を招くことなく精
度の高い認識を行うことが可能となる。
を有効に利用して、その母音および子音・半母音
をそれぞれ精度良く認識することが可能となり、
従つて音声信号の認識率の向上を図ることが可能
となる。しかも母音に対しては、その1フレーム
毎に周波数分解能を高くして、また子音・半母音
に対しては周波数分解能を低くした数フレームに
亘る音素の特徴ベクトルをそれぞれ用いて認識を
行うことにより、計算量の増大を招くことなく精
度の高い認識を行うことが可能となる。
以下、図面を参照して本発明の一実施例につき
説明する。
説明する。
第1図は実施例装置の概略構成図である。入力
された音声信号は、本装置の主要部である分析回
路1に入力され、帯域フイルタ処理や離散的フー
リエ変換処理、ケプストラム分析処理、線形予測
分析処理等の信号分析処理がなされる。この分析
処理は、例えば第2図aに示すように分割された
各セグメントの周波数スペクトルを求めたり、ま
た同図bに示すように複数のセグメントに亘る時
間・周波数スペクトルをその特徴パラメータとし
て求めるものである。この分析回路1は、具体的
には後述するように、例えば第3図あるいは第4
図に示す如く構成される。
された音声信号は、本装置の主要部である分析回
路1に入力され、帯域フイルタ処理や離散的フー
リエ変換処理、ケプストラム分析処理、線形予測
分析処理等の信号分析処理がなされる。この分析
処理は、例えば第2図aに示すように分割された
各セグメントの周波数スペクトルを求めたり、ま
た同図bに示すように複数のセグメントに亘る時
間・周波数スペクトルをその特徴パラメータとし
て求めるものである。この分析回路1は、具体的
には後述するように、例えば第3図あるいは第4
図に示す如く構成される。
しかして、分析回路1は、入力音声信号の特徴
パラメータの時系列X=x1,x2,〜,xNを得て
おり、第2図aに示されるようなその1セグメン
トの特徴パラメータxiを第1の音素特徴ベクトル
として音素特徴ベクトルメモリに一時記憶し、こ
れを類似度計算回路2に出力している。また同時
に分析回路1は、入力音声信号の特徴パラメータ
の時系列Y=y1,y2〜yNを得、その複数セグメン
トに亘る第2図bに示されるような特徴パラメー
タyi,yi-1,〜yi-kを第2の音素特徴ベクトルとし
て特徴ベクトルメモリに一時記憶して、これを類
似度計算回路3に出力している。つまり、入力音
声信号の二種類の音素特徴パラメータを求めてい
る。
パラメータの時系列X=x1,x2,〜,xNを得て
おり、第2図aに示されるようなその1セグメン
トの特徴パラメータxiを第1の音素特徴ベクトル
として音素特徴ベクトルメモリに一時記憶し、こ
れを類似度計算回路2に出力している。また同時
に分析回路1は、入力音声信号の特徴パラメータ
の時系列Y=y1,y2〜yNを得、その複数セグメン
トに亘る第2図bに示されるような特徴パラメー
タyi,yi-1,〜yi-kを第2の音素特徴ベクトルとし
て特徴ベクトルメモリに一時記憶して、これを類
似度計算回路3に出力している。つまり、入力音
声信号の二種類の音素特徴パラメータを求めてい
る。
しかして類似度計算回路2は、音素辞書4に予
め登録された母音標準音素パターンと、前記音声
信号の音素特徴パラメータxiとの類似度を計算し
て、母音音素及び鼻音の認識を行つている。また
類似度計算回路3は、音素辞書5に登録された子
音および半母音の標準パターンと前記入力音声信
号の音素特徴パラメータyi,yi-1,〜,yi-kとの類
似度を計算して、子音および半母音音素の認識を
行つている。そして、これらの類似度計算回路
2,3で認識された前記音声信号の音素認識結果
の時系列は、つまり母音および子音からなる音素
パターン(例えば音素記号系列又は類似度値をそ
のまま)は、音素パターンメモリ6に格納された
のち照合回路7に供給され、単語辞書8に登録さ
れた単語標準パターンとの類似度計算等により単
語照合されて音声認識される。
め登録された母音標準音素パターンと、前記音声
信号の音素特徴パラメータxiとの類似度を計算し
て、母音音素及び鼻音の認識を行つている。また
類似度計算回路3は、音素辞書5に登録された子
音および半母音の標準パターンと前記入力音声信
号の音素特徴パラメータyi,yi-1,〜,yi-kとの類
似度を計算して、子音および半母音音素の認識を
行つている。そして、これらの類似度計算回路
2,3で認識された前記音声信号の音素認識結果
の時系列は、つまり母音および子音からなる音素
パターン(例えば音素記号系列又は類似度値をそ
のまま)は、音素パターンメモリ6に格納された
のち照合回路7に供給され、単語辞書8に登録さ
れた単語標準パターンとの類似度計算等により単
語照合されて音声認識される。
即ち、本装置にあつては、音声信号の分析され
た特徴パラメータの、例えば1フレームの周波数
スペクトルからなる特徴パラメータxiにより、音
素辞書4を用いて上記音声信号の音素である母音
が認識される。また分析された特徴パラメータ
の、例えば複数フレームに亘る2次元的な時間・
周波数スペクトルからなる特徴パラメータyi,
yi-1〜yi-kにより、音素辞書5を用いて上記音声
信号の音素である子音および半母音が認識され
る。そして、これらの認識された母音・子音およ
び半母音からなる音素パターンを用いて、単語照
合がなされ、音素認識が行われることになる。
た特徴パラメータの、例えば1フレームの周波数
スペクトルからなる特徴パラメータxiにより、音
素辞書4を用いて上記音声信号の音素である母音
が認識される。また分析された特徴パラメータ
の、例えば複数フレームに亘る2次元的な時間・
周波数スペクトルからなる特徴パラメータyi,
yi-1〜yi-kにより、音素辞書5を用いて上記音声
信号の音素である子音および半母音が認識され
る。そして、これらの認識された母音・子音およ
び半母音からなる音素パターンを用いて、単語照
合がなされ、音素認識が行われることになる。
さて、前記した分析回路1は、例えば第3図に
示すように構成される。この回路構成は、帯域フ
イルタを介した周波数分析処理を行うものであ
る。例えば入力音声信号はA/D変換器11を介
して例えば10mSec毎にデイジタル変換して取込
まれ、並列的に設けられた複数の帯域通過フイル
タ(BPF1〜BPF16)群12に入力されている。
これらのフイルタ群12は、音声入力信号の周波
数帯域を16分割してなる相互に異なつた狭帯域の
周波数通過特性を有するものである。しかしてこ
れらのフイルタ群12の各フイルタを介した各周
波数帯域の信号成分は、絶対値二乗回路群13を
各別に介して抽出されたのち、低域通過フイルタ
(LPF)群14にてそれぞれフイルタリングされ
て出力される。そして、これらの各周波数帯域の
信号成分x1i,x2i〜x16iは、音素特徴ベクトルメモ
リ15に格納される。従つて、このベクトルメモ
リ15には或る時点iの1フレームの周波数スペ
クトルを示す特徴パラメータxiが格納されること
になる。
示すように構成される。この回路構成は、帯域フ
イルタを介した周波数分析処理を行うものであ
る。例えば入力音声信号はA/D変換器11を介
して例えば10mSec毎にデイジタル変換して取込
まれ、並列的に設けられた複数の帯域通過フイル
タ(BPF1〜BPF16)群12に入力されている。
これらのフイルタ群12は、音声入力信号の周波
数帯域を16分割してなる相互に異なつた狭帯域の
周波数通過特性を有するものである。しかしてこ
れらのフイルタ群12の各フイルタを介した各周
波数帯域の信号成分は、絶対値二乗回路群13を
各別に介して抽出されたのち、低域通過フイルタ
(LPF)群14にてそれぞれフイルタリングされ
て出力される。そして、これらの各周波数帯域の
信号成分x1i,x2i〜x16iは、音素特徴ベクトルメモ
リ15に格納される。従つて、このベクトルメモ
リ15には或る時点iの1フレームの周波数スペ
クトルを示す特徴パラメータxiが格納されること
になる。
また前記各周波数帯域の信号成分は、隣接する
4つの帯域毎にグルーピングされ、加算器16-
1,16-2,16-3,16-4によりそれぞれ加算
されている。従つて加算器16はそれぞれ、前記
16分割された周波数帯域を統合してなる粗し分割
周波数帯域の信号成分を得ることになる。前記
BPF群12による分割周波数帯域をf1,f2〜f16と
した場合、加算器16は F1=f1+f2+f3+f4 F2=f5+f6+f7+f8 F3=f9+f10+f11+f12 F4=f13+f14+f15+f16 なる粗い4分割された周波数帯域の信号成分を得
ることになる。そして、これらの加算器16の出
力信号は、4セグメントの音素特徴ベクトルメモ
リ17に順次格納される。従つて、このベクトル
メモリ17には周波数分割パターンが粗いけれど
も、時間的要素が含まれる時間・周波数スペクト
ルの特徴情報が格納されることになる。
4つの帯域毎にグルーピングされ、加算器16-
1,16-2,16-3,16-4によりそれぞれ加算
されている。従つて加算器16はそれぞれ、前記
16分割された周波数帯域を統合してなる粗し分割
周波数帯域の信号成分を得ることになる。前記
BPF群12による分割周波数帯域をf1,f2〜f16と
した場合、加算器16は F1=f1+f2+f3+f4 F2=f5+f6+f7+f8 F3=f9+f10+f11+f12 F4=f13+f14+f15+f16 なる粗い4分割された周波数帯域の信号成分を得
ることになる。そして、これらの加算器16の出
力信号は、4セグメントの音素特徴ベクトルメモ
リ17に順次格納される。従つて、このベクトル
メモリ17には周波数分割パターンが粗いけれど
も、時間的要素が含まれる時間・周波数スペクト
ルの特徴情報が格納されることになる。
かくしてここにベクトルメモリ15には、母音
認識に適した周波数分割の細かい周波数スペクト
ルからなる1次元の特徴パラメータxiが格納さ
れ、またベクトルメモリ17には、周波数分割が
粗いが時間経過要素を含む時間・周波数スペクト
ルからなる子音および半母音の認識に適した2次
元の特徴パラメータyi,yi-1〜yi-kが格納されるこ
とになる。そして、特にこれらの特徴ベクトルの
要素数を等しく定めておけば、これらの特徴パラ
メータを用いた音素認識処理の計算量がさほど増
えることがないので、実用上極めて有利である。
更には、音声信号の性質を有効に利用して音素認
識を、母音および子音・半母音についてそれぞれ
行うので、全体としてその計算量の削減を図り得
る。またこのような母音と子音・半母音に対する
各別の音素認識処理により、その認識率の格段の
向上を図ることが可能となる。
認識に適した周波数分割の細かい周波数スペクト
ルからなる1次元の特徴パラメータxiが格納さ
れ、またベクトルメモリ17には、周波数分割が
粗いが時間経過要素を含む時間・周波数スペクト
ルからなる子音および半母音の認識に適した2次
元の特徴パラメータyi,yi-1〜yi-kが格納されるこ
とになる。そして、特にこれらの特徴ベクトルの
要素数を等しく定めておけば、これらの特徴パラ
メータを用いた音素認識処理の計算量がさほど増
えることがないので、実用上極めて有利である。
更には、音声信号の性質を有効に利用して音素認
識を、母音および子音・半母音についてそれぞれ
行うので、全体としてその計算量の削減を図り得
る。またこのような母音と子音・半母音に対する
各別の音素認識処理により、その認識率の格段の
向上を図ることが可能となる。
さて、第4図はケプストラム分析を行う分析回
路1の構成例を示すものである。この場合には、
A/D変換器21を介して入力された音声信号を
離散的フーリエ変換回路(DFT)22を介して
変換し、その出力を絶対値回路23および対数変
換回路24を介して抽出する。そして、この抽出
出力を離散的フーリエ逆変換回路(IDFT)25
を介して変換処理し、前記音声信号のケプストラ
ム係数Ciを求めるようにすればよい。そして、ケ
プストラム係数C1i,C2i〜CNiを一次元の特徴パラ
メータとして音素特徴ベクトルメメモリ26に格
納し、また数フレームに亘るケプストラム係数
C1i〜Cki,C2i-1〜Cki-3等を2次元の音素特徴、つ
まり動的な特徴パラメータとして音素特徴ベクト
ルメモリ27に順次格納するようにすればよい。
路1の構成例を示すものである。この場合には、
A/D変換器21を介して入力された音声信号を
離散的フーリエ変換回路(DFT)22を介して
変換し、その出力を絶対値回路23および対数変
換回路24を介して抽出する。そして、この抽出
出力を離散的フーリエ逆変換回路(IDFT)25
を介して変換処理し、前記音声信号のケプストラ
ム係数Ciを求めるようにすればよい。そして、ケ
プストラム係数C1i,C2i〜CNiを一次元の特徴パラ
メータとして音素特徴ベクトルメメモリ26に格
納し、また数フレームに亘るケプストラム係数
C1i〜Cki,C2i-1〜Cki-3等を2次元の音素特徴、つ
まり動的な特徴パラメータとして音素特徴ベクト
ルメモリ27に順次格納するようにすればよい。
このケプストラム分析は、高速フーリエ変換
(FFT)のアルゴリズムに基づいてなされるもの
で、音声信号の周波数スペクトルの包絡特性を抽
出するのに好適である。しかして、ベクトルメモ
リ26に格納された16次のケプストラム係数は、
音声信号の細かく分析されたスペクトル飽絡特性
を示す。従つて母音を認識するに好適な特徴パラ
メータであり、これを用いて効率良く母音認識す
ることが可能となる。また上記ケプストラムは、
その係数が低次である程、スペクトルの大局的な
情報を示す。従つて4次程度のケプストラム係数
を数フレームに亘つて抽出すれば、音声信号の動
的な性質を表わす非常に有用な特徴パラメータと
なる。
(FFT)のアルゴリズムに基づいてなされるもの
で、音声信号の周波数スペクトルの包絡特性を抽
出するのに好適である。しかして、ベクトルメモ
リ26に格納された16次のケプストラム係数は、
音声信号の細かく分析されたスペクトル飽絡特性
を示す。従つて母音を認識するに好適な特徴パラ
メータであり、これを用いて効率良く母音認識す
ることが可能となる。また上記ケプストラムは、
その係数が低次である程、スペクトルの大局的な
情報を示す。従つて4次程度のケプストラム係数
を数フレームに亘つて抽出すれば、音声信号の動
的な性質を表わす非常に有用な特徴パラメータと
なる。
従つて、先の第3図に示す分析回路1で求めら
れた音素特徴ベクトルと同様に、ケプストラム係
数で示される音素特徴パラメータも音声信号の音
素認識に対して多大な効果を奏することになる。
れた音素特徴ベクトルと同様に、ケプストラム係
数で示される音素特徴パラメータも音声信号の音
素認識に対して多大な効果を奏することになる。
以上詳述したように本装置によれば、周波数分
解能の高い1フレームの特徴パラメータを音素特
徴ベクトルとして用いて母音等の静的音素の認識
が行われ、また動的要素の強い子音等の認識が同
波数分解能の粗い複数フレームの動的な特徴パラ
メータを音素特徴ベクトルとして行われる。これ
故、高精度、且つ高速で、しかも経済的な音素認
識が可能となり、不特定話者や多数単語を対象と
した高性能、安価な音声認識装置を実現すること
が可能となる。
解能の高い1フレームの特徴パラメータを音素特
徴ベクトルとして用いて母音等の静的音素の認識
が行われ、また動的要素の強い子音等の認識が同
波数分解能の粗い複数フレームの動的な特徴パラ
メータを音素特徴ベクトルとして行われる。これ
故、高精度、且つ高速で、しかも経済的な音素認
識が可能となり、不特定話者や多数単語を対象と
した高性能、安価な音声認識装置を実現すること
が可能となる。
尚、本発明は上記実施例に限定されるものでは
ない。例えば第5図に示すように認識された音素
をベクトルメモリ31,32にそれぞれ蓄えたの
ち、類似度計算回路33,34にてその音素ベク
トルに対して単語辞書35,36を用いてそれぞ
れ類似度計算を行つて各別に単語認識し、それら
の認識結果を総合判定回路37にて総合的に判定
して正規の認識結果を得るようにしてもよい。ま
た音素特徴ベクトルの要素数は、仕様に応じて定
めればよいものである。また、3つ以上の音素特
徴ベクトルを求めて音素認識することも可能であ
る。要するに本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。
ない。例えば第5図に示すように認識された音素
をベクトルメモリ31,32にそれぞれ蓄えたの
ち、類似度計算回路33,34にてその音素ベク
トルに対して単語辞書35,36を用いてそれぞ
れ類似度計算を行つて各別に単語認識し、それら
の認識結果を総合判定回路37にて総合的に判定
して正規の認識結果を得るようにしてもよい。ま
た音素特徴ベクトルの要素数は、仕様に応じて定
めればよいものである。また、3つ以上の音素特
徴ベクトルを求めて音素認識することも可能であ
る。要するに本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。
第1図は本発明の一実施例を示す音声認識装置
の概略構成図、第2図a,bは音声信号の特徴パ
ラメータを示す図、第3図および第4図はそれぞ
れ分析回路の構成例を示す図、第5図は音声認識
装置の他の構成例を示す要部構成図である。 1…分析回路、2,3…類似度計算回路、4,
5…音素辞書、6…音素パターンメモリ、7…照
合回路、8…単語辞書、12…帯域フイルタ群、
15,17…音素特徴ベクトルメモリ、22…
DFT、24…対数回路、25…IDFT、26,2
7…音素特徴ベクトルメモリ。
の概略構成図、第2図a,bは音声信号の特徴パ
ラメータを示す図、第3図および第4図はそれぞ
れ分析回路の構成例を示す図、第5図は音声認識
装置の他の構成例を示す要部構成図である。 1…分析回路、2,3…類似度計算回路、4,
5…音素辞書、6…音素パターンメモリ、7…照
合回路、8…単語辞書、12…帯域フイルタ群、
15,17…音素特徴ベクトルメモリ、22…
DFT、24…対数回路、25…IDFT、26,2
7…音素特徴ベクトルメモリ。
Claims (1)
- 【特許請求の範囲】 1 入力された音声信号を所定のフレーム周期で
分析して求められる上記音声信号の1フレーム分
の要素数Pからなる特徴パラメータXiを時間的変
動を含まない次数Pの第1の音素特徴ベクトルと
して順次抽出する手段と、この手段により抽出さ
れた前記特徴パラメータXiの要素をP÷(K+1)
個づつq組にそれぞれまとめた要素数qからなる
特徴パラメータYiを複数フレームに亙つて特徴パ
ラメータの時系列Yi,Yi-1〜Yi-kとして求めるこ
とにより時間的変動を含む次数q×(K+1)の
第2の音素特徴ベクトルとして抽出する手段と、
これらの第1および第2の音素特徴ベクトルを
夫々対応する音素辞書と照合して該音素辞書に登
録された標準音素との類似の程度を求める手段
と、この手段により得られた出力を用いて前記音
声信号を認識する手段とを具備したことを特徴と
する音声認識装置。 2 第1の音素特徴ベクトルは母音認識または鼻
音認識に用いられるものであつて、第2の音素特
徴ベクトルは子音・半母音認識に用いられるもの
である特許請求の範囲第1項記載の音声認識装
置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57012808A JPS58130396A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
| US06/460,303 US4624010A (en) | 1982-01-29 | 1983-01-24 | Speech recognition apparatus |
| EP83300429A EP0085543B1 (en) | 1982-01-29 | 1983-01-27 | Speech recognition apparatus |
| DE8383300429T DE3364573D1 (en) | 1982-01-29 | 1983-01-27 | Speech recognition apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57012808A JPS58130396A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS58130396A JPS58130396A (ja) | 1983-08-03 |
| JPH036517B2 true JPH036517B2 (ja) | 1991-01-30 |
Family
ID=11815683
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57012808A Granted JPS58130396A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US4624010A (ja) |
| EP (1) | EP0085543B1 (ja) |
| JP (1) | JPS58130396A (ja) |
| DE (1) | DE3364573D1 (ja) |
Families Citing this family (54)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
| JPS6011898A (ja) * | 1983-06-30 | 1985-01-22 | 株式会社東芝 | 音声認識装置 |
| US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
| US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
| JPS60122475A (ja) * | 1983-11-15 | 1985-06-29 | Nec Corp | パタン認識装置 |
| US4868879A (en) * | 1984-03-27 | 1989-09-19 | Oki Electric Industry Co., Ltd. | Apparatus and method for recognizing speech |
| US4827519A (en) * | 1985-09-19 | 1989-05-02 | Ricoh Company, Ltd. | Voice recognition system using voice power patterns |
| US5023911A (en) * | 1986-01-10 | 1991-06-11 | Motorola, Inc. | Word spotting in a speech recognition system without predetermined endpoint detection |
| US4789934A (en) * | 1986-01-21 | 1988-12-06 | International Business Machines Corporation | Signature verification algorithm |
| ES2019628B3 (es) * | 1986-02-15 | 1991-07-01 | Smiths Ind Public Ltd Company | Procesador de textos hablados y metodo.. |
| US4856067A (en) * | 1986-08-21 | 1989-08-08 | Oki Electric Industry Co., Ltd. | Speech recognition system wherein the consonantal characteristics of input utterances are extracted |
| JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
| US4998280A (en) * | 1986-12-12 | 1991-03-05 | Hitachi, Ltd. | Speech recognition apparatus capable of discriminating between similar acoustic features of speech |
| JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
| US4896358A (en) * | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
| US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
| JPS63274998A (ja) * | 1987-05-06 | 1988-11-11 | 三菱電機株式会社 | 単語音声認識装置 |
| JP2739945B2 (ja) * | 1987-12-24 | 1998-04-15 | 株式会社東芝 | 音声認識方法 |
| JP2745535B2 (ja) * | 1988-05-24 | 1998-04-28 | 日本電気株式会社 | 音声認識装置 |
| JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
| US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
| JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
| CA2063723A1 (en) * | 1989-07-28 | 1991-01-29 | Stephen J. Guerreri | Method and apparatus for language and speaker recognition |
| US5189727A (en) * | 1989-07-28 | 1993-02-23 | Electronic Warfare Associates, Inc. | Method and apparatus for language and speaker recognition |
| US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
| JP2989211B2 (ja) * | 1990-03-26 | 1999-12-13 | 株式会社リコー | 音声認識装置における辞書制御方式 |
| DE69128990T2 (de) * | 1990-09-07 | 1998-08-27 | Toshiba Kawasaki Kk | Sprecherkennungsvorrichtung |
| JP2808906B2 (ja) * | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
| US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
| US5313522A (en) * | 1991-08-23 | 1994-05-17 | Slager Robert P | Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader |
| US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
| JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
| US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
| DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
| KR100482313B1 (ko) * | 1996-12-30 | 2005-07-21 | 엘지전자 주식회사 | 이중유사도비교를통한음성인식방법 |
| DE19718007A1 (de) * | 1997-04-29 | 1998-11-05 | Deutsche Telekom Ag | Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes |
| RU2119196C1 (ru) * | 1997-10-27 | 1998-09-20 | Яков Юноевич Изилов | Способ лексической интерпретации слитной речи и система для его реализации |
| US6493744B1 (en) | 1999-08-16 | 2002-12-10 | International Business Machines Corporation | Automatic rating and filtering of data files for objectionable content |
| AU1876901A (en) * | 1999-12-15 | 2001-06-25 | Bright Spark Technologies (Proprietary) Limited | Phonemes recognition in an audio signal |
| US6836758B2 (en) * | 2001-01-09 | 2004-12-28 | Qualcomm Incorporated | System and method for hybrid voice recognition |
| US7729918B2 (en) * | 2001-03-14 | 2010-06-01 | At&T Intellectual Property Ii, Lp | Trainable sentence planning system |
| US7574362B2 (en) | 2001-03-14 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | Method for automated sentence planning in a task classification system |
| WO2002073598A1 (en) * | 2001-03-14 | 2002-09-19 | At & T Corp. | Method for automated sentence planning in a task classification system |
| JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
| US6898870B1 (en) | 2002-03-20 | 2005-05-31 | Nike, Inc. | Footwear sole having support elements with compressible apertures |
| US7143033B2 (en) * | 2002-04-03 | 2006-11-28 | The United States Of America As Represented By The Secretary Of The Navy | Automatic multi-language phonetic transcribing system |
| US20030115062A1 (en) * | 2002-10-29 | 2003-06-19 | Walker Marilyn A. | Method for automated sentence planning |
| US7146319B2 (en) * | 2003-03-31 | 2006-12-05 | Novauris Technologies Ltd. | Phonetically based speech recognition system and method |
| GB2428853A (en) * | 2005-07-22 | 2007-02-07 | Novauris Technologies Ltd | Speech recognition application specific dictionary |
| US8380506B2 (en) * | 2006-01-27 | 2013-02-19 | Georgia Tech Research Corporation | Automatic pattern recognition using category dependent feature selection |
| US10333696B2 (en) | 2015-01-12 | 2019-06-25 | X-Prime, Inc. | Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency |
| US10943580B2 (en) * | 2018-05-11 | 2021-03-09 | International Business Machines Corporation | Phonological clustering |
| EP4156178B1 (de) * | 2021-09-23 | 2026-04-08 | Siemens Healthineers AG | Sprachsteuerung einer medizinischen vorrichtung |
| US12469492B2 (en) * | 2021-09-23 | 2025-11-11 | Siemens Healthineers Ag | Speech control of a medical apparatus |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3553372A (en) | 1965-11-05 | 1971-01-05 | Int Standard Electric Corp | Speech recognition apparatus |
| GB1435779A (en) | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
| JPS5939760B2 (ja) * | 1976-05-24 | 1984-09-26 | 博也 藤崎 | 音声認識装置 |
| JPS57700A (en) * | 1980-06-03 | 1982-01-05 | Matsushita Electric Industrial Co Ltd | Voice recognizing device |
-
1982
- 1982-01-29 JP JP57012808A patent/JPS58130396A/ja active Granted
-
1983
- 1983-01-24 US US06/460,303 patent/US4624010A/en not_active Expired - Fee Related
- 1983-01-27 EP EP83300429A patent/EP0085543B1/en not_active Expired
- 1983-01-27 DE DE8383300429T patent/DE3364573D1/de not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| DE3364573D1 (en) | 1986-08-28 |
| JPS58130396A (ja) | 1983-08-03 |
| EP0085543B1 (en) | 1986-07-23 |
| US4624010A (en) | 1986-11-18 |
| EP0085543A3 (en) | 1983-08-24 |
| EP0085543A2 (en) | 1983-08-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH036517B2 (ja) | ||
| Hibare et al. | Feature extraction techniques in speech processing: a survey | |
| CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
| CN106847267B (zh) | 一种连续语音流中的叠音检测方法 | |
| Lindgren et al. | Speech recognition using reconstructed phase space features | |
| Mundada et al. | Recognition and classification of speech and its related fluency disorders | |
| JPS59121100A (ja) | 連続音声認識装置 | |
| Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
| Nagaraja et al. | Mono and Cross lingual speaker identification with the constraint of limited data | |
| Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
| Patel et al. | Optimize approach to voice recognition using iot | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| Hidayat et al. | Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM | |
| Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
| ur Rehman et al. | VQ based comparative analysis of MFCC and BFCC speaker recognition system | |
| Suryawanshi et al. | Hardware implementation of speech recognition using mfcc and euclidean distance | |
| Joshi et al. | Mfcc-based voice recognition system for home automation using dynamic programming | |
| Deiv et al. | Automatic gender identification for hindi speech recognition | |
| NAMEIRAKPAM et al. | Singer identification using wavelet transform | |
| Kadhum et al. | Survey of Features Extraction and Classification Techniques for Speaker Identification | |
| Korvel et al. | Comparison of Lithuanian and Polish consonant phonemes based on acoustic analysis–preliminary results | |
| Srinivasan | Real time speaker recognition of letter ‘zha’in Tamil language | |
| JPH0469800B2 (ja) | ||
| JPH0441357B2 (ja) | ||
| Vergin | An algorithm for robust signal modelling in speech recognition |