JPH03228100A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH03228100A JPH03228100A JP2023205A JP2320590A JPH03228100A JP H03228100 A JPH03228100 A JP H03228100A JP 2023205 A JP2023205 A JP 2023205A JP 2320590 A JP2320590 A JP 2320590A JP H03228100 A JPH03228100 A JP H03228100A
- Authority
- JP
- Japan
- Prior art keywords
- word
- phoneme
- speech
- standard pattern
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は音声認識装置、特に任意の話者が連続して発声
した単語等の音声を、高い認識率で認識←−−目一≠す
る音声認識装置に関するものである。
した単語等の音声を、高い認識率で認識←−−目一≠す
る音声認識装置に関するものである。
不特定話者認識に関する認識手法は、いくつか考案され
ているが、現状で最も一般的かつ本提案に比較的近い構
成を持つ不特定話者認識システムの従来例について述べ
る。
ているが、現状で最も一般的かつ本提案に比較的近い構
成を持つ不特定話者認識システムの従来例について述べ
る。
従来、不特定大語量を目指した認識システムは第3図の
ような構成になっている。音声入力部1から入力された
音声は音声分析部2により音声のパワー項等を含むフィ
ルタバンク出力、LPCケプストラム等の特徴パラメー
タが求められ、ここでパラメータの圧縮等(フィルタバ
ンク出力の場合、K−L変換等による次元圧縮)も行わ
れる。
ような構成になっている。音声入力部1から入力された
音声は音声分析部2により音声のパワー項等を含むフィ
ルタバンク出力、LPCケプストラム等の特徴パラメー
タが求められ、ここでパラメータの圧縮等(フィルタバ
ンク出力の場合、K−L変換等による次元圧縮)も行わ
れる。
(分析はフレーム単位で行われるので、以下、圧縮後の
特徴パラメータを特徴ベクトルと呼ぶ)次に連続音声中
から音素境界を決定するための処理が音素境界検出部3
により行われる。音素識別部4では、統計的な手法によ
り音素が決定される。5は多数の音素サンプルから作成
した音素標準パタンを格納する音素標準パタン格納部。
特徴パラメータを特徴ベクトルと呼ぶ)次に連続音声中
から音素境界を決定するための処理が音素境界検出部3
により行われる。音素識別部4では、統計的な手法によ
り音素が決定される。5は多数の音素サンプルから作成
した音素標準パタンを格納する音素標準パタン格納部。
6は音素識別部4の出力結果から単語辞書7あるいは出
力された候補音素の中から修正規則部8により修正を行
って、最終的な認識結果を出力する単語識別部、9は認
識結果を表示する認識結果表示部である。
力された候補音素の中から修正規則部8により修正を行
って、最終的な認識結果を出力する単語識別部、9は認
識結果を表示する認識結果表示部である。
通常、音素境界検出部3では、判別関数等を用いており
、音素識別部4でも同様に判別される。
、音素識別部4でも同様に判別される。
これら各構成要素の出力は一般的にある一定の閾値を満
足した候補が出力される。それぞれの候補について更に
複数の候補が出力されるが、7.8の様なTop d
own的な情報等が用いられ最終的な単語に絞られる。
足した候補が出力される。それぞれの候補について更に
複数の候補が出力されるが、7.8の様なTop d
own的な情報等が用いられ最終的な単語に絞られる。
しかしながら、上記従来例の認識装置は基本的な構成が
ボトム・アップ型であるので、認識・過程のある箇所で
誤りが生じた場合、後の過程に悪影響を及ぼし易い形に
なっている。(例えば、音素境界検出部3において、音
素境界を誤った場合、その誤り方によっては音素識別部
4、単語識別部6に与える影響は大きい)つまり、最終
的な音声の認識率は各過程の誤り率の積に比例して下が
るので、高い認識率が得られなかった。
ボトム・アップ型であるので、認識・過程のある箇所で
誤りが生じた場合、後の過程に悪影響を及ぼし易い形に
なっている。(例えば、音素境界検出部3において、音
素境界を誤った場合、その誤り方によっては音素識別部
4、単語識別部6に与える影響は大きい)つまり、最終
的な音声の認識率は各過程の誤り率の積に比例して下が
るので、高い認識率が得られなかった。
又、特に、不特定話者を対象とする認識装置を構成する
場合各過程での判定の為の閾値の設定が非常に難しい。
場合各過程での判定の為の閾値の設定が非常に難しい。
少な(とも候補の中に目的とするものが存在する様に閾
値を設定すると、各過程における候補群の数が多くなり
、複数候補単語の中から目的とする単語を正確に絞り込
む方法が非常に難しくなっていた。また、実環境下で認
識装置を使用しようとした場合、非定常ノイズ等がかな
り多く、少数単語の認識装置であっても認識率が低(、
実際、使いに(いものとなっていた。
値を設定すると、各過程における候補群の数が多くなり
、複数候補単語の中から目的とする単語を正確に絞り込
む方法が非常に難しくなっていた。また、実環境下で認
識装置を使用しようとした場合、非定常ノイズ等がかな
り多く、少数単語の認識装置であっても認識率が低(、
実際、使いに(いものとなっていた。
本発明によれば、上記従来の課題を解決するために、ス
ポツティング法により単語単位の音声区間の切り出し、
候補単語の選出を行い、次に音素単位でマツチングを行
うという2段階を設けることにより、候補単語の選出と
音声区間の切り出しが一気にでき、また、候補単語の絞
り込みを容易にしたものである。
ポツティング法により単語単位の音声区間の切り出し、
候補単語の選出を行い、次に音素単位でマツチングを行
うという2段階を設けることにより、候補単語の選出と
音声区間の切り出しが一気にでき、また、候補単語の絞
り込みを容易にしたものである。
また、本発明によれば複数の環境下における音素の標準
パタンを用意することにより、単語の標準パタンを複数
の環境について用意するよりも少ない情報量で多(の状
況における入力音声を認識することが可能となる。
パタンを用意することにより、単語の標準パタンを複数
の環境について用意するよりも少ない情報量で多(の状
況における入力音声を認識することが可能となる。
〔実施例1〕
第1図は本発明による音声認識システムの基本構成図で
、100は音声入力部、101は入力された音声を分析
、圧縮し、特徴ベクトルの時系列に変換する音声分析部
、103は多数の話者が発声した単語データから求めた
標準パタンを格納する単語標準パタン格納部、102は
音声分析部101の特徴ベクトル系列と単語標準パタン
格納部103に格納されている各々の標準パタンを入力
データのフレームごとに連続マハラノビスDPを用いて
距離を算出する連続マハラノビスアDPによる単語距離
計算部、104は連続マハラノビスDPより求めた各フ
レームと単語標準パタンとの距離の値により単語標準パ
タンの中から候補となる単語を判別する候補単語判別部
、105は候補になった1つ以上の単語区間の特徴ベク
トルのパラメータを格納するパラメータ格納部、106
は多数話者の発声した音声の中から音素単位で作成され
た標準パタンを格納する音素標準パタン格納部、107
は候補となった単語の特徴ベクトル系列について音素単
位で連続マハラノビスDPにより入力データと音素標準
パタンの距離計算を行う連続マハラノビスDPによる音
素距離計算部、108は1つ以上の候補単語のそれぞれ
についてマツチングされた各音素列から最も適当な単語
を識別して出力する音素単位の認識結果による識別部。
、100は音声入力部、101は入力された音声を分析
、圧縮し、特徴ベクトルの時系列に変換する音声分析部
、103は多数の話者が発声した単語データから求めた
標準パタンを格納する単語標準パタン格納部、102は
音声分析部101の特徴ベクトル系列と単語標準パタン
格納部103に格納されている各々の標準パタンを入力
データのフレームごとに連続マハラノビスDPを用いて
距離を算出する連続マハラノビスアDPによる単語距離
計算部、104は連続マハラノビスDPより求めた各フ
レームと単語標準パタンとの距離の値により単語標準パ
タンの中から候補となる単語を判別する候補単語判別部
、105は候補になった1つ以上の単語区間の特徴ベク
トルのパラメータを格納するパラメータ格納部、106
は多数話者の発声した音声の中から音素単位で作成され
た標準パタンを格納する音素標準パタン格納部、107
は候補となった単語の特徴ベクトル系列について音素単
位で連続マハラノビスDPにより入力データと音素標準
パタンの距離計算を行う連続マハラノビスDPによる音
素距離計算部、108は1つ以上の候補単語のそれぞれ
についてマツチングされた各音素列から最も適当な単語
を識別して出力する音素単位の認識結果による識別部。
109は例えば音声応答等の手段により音声認識結果を
出力する結果出力部である。図中、第1部は音声区間の
切り出しと供に単語の候補の絞り込み、第2部は候補単
語内での音素単位の認識部を示す。
出力する結果出力部である。図中、第1部は音声区間の
切り出しと供に単語の候補の絞り込み、第2部は候補単
語内での音素単位の認識部を示す。
次に動作の流れを説明する。まず、音声入力部100は
、マイクから音声信号を入力し、音声分析部101に入
力波形を転送する。音声入力部100は音声入力の受付
時間中は常に音声又は周囲のノイズ信号等を取り込み、
音声入力波形をディジタル値に変換した波形として音声
分析部101へ転送する。音声分析部101では、常に
入力されて来る波形を10m5ec〜30m5ec程度
の窓幅で分析を行い、2m5ec〜10m5ecの長さ
を持つフレームごとに、特徴パラメータを求める特徴パ
ラメータの種類としては比較的高速に分析可能なLPC
ケプストラム、LPCメルケブストラム、高精度にパラ
メータを抽出したい場合はFFTケプストラム、FFT
メルケブストラム等が一般的で、他にフィルタバンク出
力値もある。
、マイクから音声信号を入力し、音声分析部101に入
力波形を転送する。音声入力部100は音声入力の受付
時間中は常に音声又は周囲のノイズ信号等を取り込み、
音声入力波形をディジタル値に変換した波形として音声
分析部101へ転送する。音声分析部101では、常に
入力されて来る波形を10m5ec〜30m5ec程度
の窓幅で分析を行い、2m5ec〜10m5ecの長さ
を持つフレームごとに、特徴パラメータを求める特徴パ
ラメータの種類としては比較的高速に分析可能なLPC
ケプストラム、LPCメルケブストラム、高精度にパラ
メータを抽出したい場合はFFTケプストラム、FFT
メルケブストラム等が一般的で、他にフィルタバンク出
力値もある。
また、正規化されたパワー情報を用いたり、パラメータ
の各次元ごとに重み係数を掛けたりして、システムの使
用状況に最も適したパラメータで、フレームごとに分析
される。次に、分析された特徴パラメータの次元につい
て圧縮を行う。ケプストラムパラメータは、通常係数の
1次の項〜12次の項の中から必要な次元数(例えば6
次元)だけ抜き出し、これを特徴ベクトルとする。
の各次元ごとに重み係数を掛けたりして、システムの使
用状況に最も適したパラメータで、フレームごとに分析
される。次に、分析された特徴パラメータの次元につい
て圧縮を行う。ケプストラムパラメータは、通常係数の
1次の項〜12次の項の中から必要な次元数(例えば6
次元)だけ抜き出し、これを特徴ベクトルとする。
フィルタバンク出力を特徴パラメータとした場合、例え
ばに−L変換、フーリエ変換等の直交変換により次元圧
縮し、低次項を用いる。これら圧縮された17レム分の
パラメータを特徴ベクトル、次元圧縮された後の特徴ベ
クトルの時系列を特徴ベクトルの系列(或は、単にパラ
メータ)と呼ぶことにする。
ばに−L変換、フーリエ変換等の直交変換により次元圧
縮し、低次項を用いる。これら圧縮された17レム分の
パラメータを特徴ベクトル、次元圧縮された後の特徴ベ
クトルの時系列を特徴ベクトルの系列(或は、単にパラ
メータ)と呼ぶことにする。
本実施例では分析窓長を25.6m5ecで分析し、フ
レーム周期10m5ec、FFTスペクトルのピークを
通るスペクトル包絡から、メルケプストラム係数を求め
た後、係数の2次〜6次を用い、これを1フレ一ム分の
特徴ベクトルとする。ここでメルケブストラムの0次項
はパワーを表わす。
レーム周期10m5ec、FFTスペクトルのピークを
通るスペクトル包絡から、メルケプストラム係数を求め
た後、係数の2次〜6次を用い、これを1フレ一ム分の
特徴ベクトルとする。ここでメルケブストラムの0次項
はパワーを表わす。
次に、単語標準パタン格納部103に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた10数字“ゼロ、サン、二、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、夕、ハチ、シチ、キュ
ウ、イチ”と“ハイ、イイエ”の計17単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では1単語の標準パタンを作成
するのに50人分の音声サンプルを用いる。(音声サン
プル数は多ければ多い程良い)第2図(a)に、標準パ
タンの作成手順を表わすフローチャートを示す。
ンの作成方法について述べる。本システムでは例として
発声変形を含めた10数字“ゼロ、サン、二、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、夕、ハチ、シチ、キュ
ウ、イチ”と“ハイ、イイエ”の計17単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では1単語の標準パタンを作成
するのに50人分の音声サンプルを用いる。(音声サン
プル数は多ければ多い程良い)第2図(a)に、標準パ
タンの作成手順を表わすフローチャートを示す。
まず、音声サンプルから標準パタンを作成する際の仮の
比較対象となるコアパタン(核パタン)を選択する(S
200)。選択方法は50単語の中で発声時間長と発
声パタンか最も平均的な単語を用いる。次に、サンプル
の単語を入力しく5201)、入力単語とコアパタンと
の時間軸伸縮マツチングを行い、時間正規化距離が最小
となるマツチング経路に沿って、各フレームごとに平均
ベクトル、及び分散共分散行列を作成する(S202)
。ここで時間軸伸縮マツチングの方法としてDPマツチ
ングを用いる。次に入力単語の話者番号を次々変えてゆ
き(S204)50名分の単語Si (i=1〜50)
について、各フレームごとに特徴ベクトルの平均値及び
、分散共分散行列を求める(S203.5205)。こ
の様にして計17単語についてそれぞれ上記過程と同様
にして単語標準パタンを作成し単語標準パタン格納部1
03に格納しておく。
比較対象となるコアパタン(核パタン)を選択する(S
200)。選択方法は50単語の中で発声時間長と発
声パタンか最も平均的な単語を用いる。次に、サンプル
の単語を入力しく5201)、入力単語とコアパタンと
の時間軸伸縮マツチングを行い、時間正規化距離が最小
となるマツチング経路に沿って、各フレームごとに平均
ベクトル、及び分散共分散行列を作成する(S202)
。ここで時間軸伸縮マツチングの方法としてDPマツチ
ングを用いる。次に入力単語の話者番号を次々変えてゆ
き(S204)50名分の単語Si (i=1〜50)
について、各フレームごとに特徴ベクトルの平均値及び
、分散共分散行列を求める(S203.5205)。こ
の様にして計17単語についてそれぞれ上記過程と同様
にして単語標準パタンを作成し単語標準パタン格納部1
03に格納しておく。
連続マハラノビスDPによる単語距離計算部102では
、連続マハラノビスDPにより次々と入力される特徴ベ
クトルの時系列について単語標準パタン格納部103に
格納されている全ての単語の標準パタンとの連続マハラ
ノビスDPによるマツチングを行い、距離を計算する。
、連続マハラノビスDPにより次々と入力される特徴ベ
クトルの時系列について単語標準パタン格納部103に
格納されている全ての単語の標準パタンとの連続マハラ
ノビスDPによるマツチングを行い、距離を計算する。
ここで、連続マハラノビスDPについて説明する。連続
DPの手法は一般的で、特定話者が連続に発声した文章
の中から目的とする単語、或は、音節等の単位を探し出
す方法である。これはワードスポツティングと呼ばれ、
目的とする音声区間の切り出しと同時に認識も行ってし
まうという画期的な方法である。本実施例では連続DP
法の各々のフレーム内における距離にマハラノビス距離
を用いる事により、不特定性を吸収している。
DPの手法は一般的で、特定話者が連続に発声した文章
の中から目的とする単語、或は、音節等の単位を探し出
す方法である。これはワードスポツティングと呼ばれ、
目的とする音声区間の切り出しと同時に認識も行ってし
まうという画期的な方法である。本実施例では連続DP
法の各々のフレーム内における距離にマハラノビス距離
を用いる事により、不特定性を吸収している。
第2図(b)は、“ゼロ という単語の標準パタンと“
ゼロ”という単語を発声した時の入力音声を無声区間も
含めて特徴ベクトルの時系列に分析したものとを連続マ
ハラノビスDPによりマツチングした結果を示したもの
である。図中、黒が濃(出ている所は標準パタンと入力
パタンの距離が大きい所、黒が薄く、白に近い所は標準
パタンと入力パタンの距離が小さい所である。マツチン
グを行った結果の下には累積距離の時間変化を示す。こ
の累積距離はその時点が終端となるDPパスの距離を示
すもので、DPパスを求めてその値をメモリに保存する
。このメモリに保存したDPパスを、音声区間の始端を
求める為につかう。例えばこの図においては距離が最小
となった時のDPパスを示したが、標準パタンと入力パ
タンが似ていた場合、累積距離が任意に定めた閾値より
小さ(なり、その標準パタンの単語を候補単語と認める
。そして、入力パタンから音声区間を切り出すために、
累積距離が闇値より小さく、更に最小である時点からD
Pパスをメモリから呼び出してバックトラックすること
により、音声区間の始端が求められる。こうして求めら
れた音声区間の特徴ベクトルの時系列をパラメータ格納
部105に格納する。
ゼロ”という単語を発声した時の入力音声を無声区間も
含めて特徴ベクトルの時系列に分析したものとを連続マ
ハラノビスDPによりマツチングした結果を示したもの
である。図中、黒が濃(出ている所は標準パタンと入力
パタンの距離が大きい所、黒が薄く、白に近い所は標準
パタンと入力パタンの距離が小さい所である。マツチン
グを行った結果の下には累積距離の時間変化を示す。こ
の累積距離はその時点が終端となるDPパスの距離を示
すもので、DPパスを求めてその値をメモリに保存する
。このメモリに保存したDPパスを、音声区間の始端を
求める為につかう。例えばこの図においては距離が最小
となった時のDPパスを示したが、標準パタンと入力パ
タンが似ていた場合、累積距離が任意に定めた閾値より
小さ(なり、その標準パタンの単語を候補単語と認める
。そして、入力パタンから音声区間を切り出すために、
累積距離が闇値より小さく、更に最小である時点からD
Pパスをメモリから呼び出してバックトラックすること
により、音声区間の始端が求められる。こうして求めら
れた音声区間の特徴ベクトルの時系列をパラメータ格納
部105に格納する。
今まで説明してきた処理系により、まず候補単語と、そ
の音声区間を分析した特徴ベクトルの系列と、連続マハ
ラノビスDPによる累積距離の結果が得られる。ここで
、候補単語の中で“ンチ”と“シ”の様に音声区間が重
なっているものが複数選択された時、この場合“シチ”
の方を選択し“シ”は切り捨てる。 ロク”と”り“
も同様に、“り”の音声区間の大部分が(ここでは80
%以上とする) ロク”に含まれている時は、“り”は
切り捨てて“ロク”のみについて検証を行う。
の音声区間を分析した特徴ベクトルの系列と、連続マハ
ラノビスDPによる累積距離の結果が得られる。ここで
、候補単語の中で“ンチ”と“シ”の様に音声区間が重
なっているものが複数選択された時、この場合“シチ”
の方を選択し“シ”は切り捨てる。 ロク”と”り“
も同様に、“り”の音声区間の大部分が(ここでは80
%以上とする) ロク”に含まれている時は、“り”は
切り捨てて“ロク”のみについて検証を行う。
本実施例では音素標準パタン格納部106に母音(a;
i、u、e、o)と子音(z、s、n。
i、u、e、o)と子音(z、s、n。
rSg、m)sh i、に、h、c i)につし1て音
素の標準パタンを作成しておく、作成方法は単語標準パ
タン格納部103と同様の方法であらかじめ作成してお
く。連続マハラノビスDPによる音素距離計算部107
ではパラメータ格納部105に格納されている候補単語
として切り出された音声区間について各音素とのマツチ
ングを行う。
素の標準パタンを作成しておく、作成方法は単語標準パ
タン格納部103と同様の方法であらかじめ作成してお
く。連続マハラノビスDPによる音素距離計算部107
ではパラメータ格納部105に格納されている候補単語
として切り出された音声区間について各音素とのマツチ
ングを行う。
連続マハラノビスDPによる単語距離計算部102と同
様に累積距離が最小となった位置からその音素の区間を
計算する。(候補単語判別部104と同様、累積距離が
最小となった時点をその音素の終端とし、始端は連続D
Pパスをバックトラックにより求める) 本実施例では例えば“ゼロ”#“zero“が候補単語
の場合その音声区間について“Ze”r” 0”の4
種類の音素についてのみマツチングを行う。4種の音素
と上記“zero”と判別され、候補となった音声区間
のマツチングの結果、各音素の累積距離が最小となる点
についてその位置関係と、最小距離の平均値を求めるこ
の様子を第2図(C)に示す。
様に累積距離が最小となった位置からその音素の区間を
計算する。(候補単語判別部104と同様、累積距離が
最小となった時点をその音素の終端とし、始端は連続D
Pパスをバックトラックにより求める) 本実施例では例えば“ゼロ”#“zero“が候補単語
の場合その音声区間について“Ze”r” 0”の4
種類の音素についてのみマツチングを行う。4種の音素
と上記“zero”と判別され、候補となった音声区間
のマツチングの結果、各音素の累積距離が最小となる点
についてその位置関係と、最小距離の平均値を求めるこ
の様子を第2図(C)に示す。
各々の音素についてマツチングの結果の距離の最小値と
、その位置をフレームで表わし音素単位の認ぷ結果によ
る認識部108に送る。この例では“Z”について最小
値は“J 1フレ一ム位置は“Z、”である。音素単位
の認識結果による認識部108では、連続マハラノビス
DPによる音素距離計算部107から送られてきたデー
タを基に最終的な単語の識別を行う。まず、候補単語の
音素列の順番(フレームの位置)がz、<6.<r+<
O+であるか否かを調べる。もしこの順番であれば認識
単語は“ゼロ (zero)”平均Hよりも小さいなら
ば、認識結果として“ゼロを出力する。
、その位置をフレームで表わし音素単位の認ぷ結果によ
る認識部108に送る。この例では“Z”について最小
値は“J 1フレ一ム位置は“Z、”である。音素単位
の認識結果による認識部108では、連続マハラノビス
DPによる音素距離計算部107から送られてきたデー
タを基に最終的な単語の識別を行う。まず、候補単語の
音素列の順番(フレームの位置)がz、<6.<r+<
O+であるか否かを調べる。もしこの順番であれば認識
単語は“ゼロ (zero)”平均Hよりも小さいなら
ば、認識結果として“ゼロを出力する。
第2図(d)は単語候補の出力結果(候補単語判別部1
04の出力結果)を示したものである。
04の出力結果)を示したものである。
■は単語“ハチ”、■は単語“シチ”、■は単語“ン”
が候補として出力される。が、ここで前に述べたように
■は■の区間に80%以上含まれており、かつ同一のシ
”が■中に存在するので音素レベルでの識別は■■につ
いて行なう。
が候補として出力される。が、ここで前に述べたように
■は■の区間に80%以上含まれており、かつ同一のシ
”が■中に存在するので音素レベルでの識別は■■につ
いて行なう。
ケース■ 単語S1の音素列“1hlalc”と単語S
2の音素列“1shli clil”についてマツチングした結 果、どちらも音素の順番が、候補単語と等しい場合、か
つ、個々の音素の距離がH(閾値)より小さい場合中平
均累積距離Xの小さい方、を出力する。
2の音素列“1shli clil”についてマツチングした結 果、どちらも音素の順番が、候補単語と等しい場合、か
つ、個々の音素の距離がH(閾値)より小さい場合中平
均累積距離Xの小さい方、を出力する。
ケース■ どちらも順番が異なるが個々の音素の距離が
閾値(H)より小さい場合中単語と音素列の文字列によ
るDPマツチングを行い。その距離の閾値(1)により
決定する。
閾値(H)より小さい場合中単語と音素列の文字列によ
るDPマツチングを行い。その距離の閾値(1)により
決定する。
ケース■ 順番が合っているか、個々の音素の閾値が(
H)をクリアしていない場合中リジェクト ケース■ 順番が異なり、音素の閾値もクリアしていな
い場合弁リジェクト 音素単位の認識結果による単語の識別方法は前記の方法
に限らない。後に他の実施例でも述べるが音素の単位を
どの様な形で定義し、標準パタンを作成しておくか、或
は同一の音素でも複数用意する事によって音素判別に用
いる閾値Hの値、或は識別アルゴリズムは異なる。よっ
て、平均累積距離と音素順位のどちらを優先させるか等
の識別アルゴリズムは一意に決まらない。
H)をクリアしていない場合中リジェクト ケース■ 順番が異なり、音素の閾値もクリアしていな
い場合弁リジェクト 音素単位の認識結果による単語の識別方法は前記の方法
に限らない。後に他の実施例でも述べるが音素の単位を
どの様な形で定義し、標準パタンを作成しておくか、或
は同一の音素でも複数用意する事によって音素判別に用
いる閾値Hの値、或は識別アルゴリズムは異なる。よっ
て、平均累積距離と音素順位のどちらを優先させるか等
の識別アルゴリズムは一意に決まらない。
)素中位の認忠結果による認識部108て最終結果とし
て出力した例えば音声(単語)を結果出力部109で出
力する。電話等の音声情報のみで認識さ−せる場合、認
識結果を「“ゼロ”ですね?」と、例えば音声合成手段
を用いて確認する。単語の識別の結果、距離が十分小さ
ければ認識結果を確認をせずに、それに対応した次の処
理へと移行する。
て出力した例えば音声(単語)を結果出力部109で出
力する。電話等の音声情報のみで認識さ−せる場合、認
識結果を「“ゼロ”ですね?」と、例えば音声合成手段
を用いて確認する。単語の識別の結果、距離が十分小さ
ければ認識結果を確認をせずに、それに対応した次の処
理へと移行する。
〔実施例2〕
前記実施例1では、後半の音素単位の認識結果を、認識
対象とする単語に含まれる全ての音素について標準パタ
ンを作成しておいた。しかし、音素はその種類によって
は、周囲の音韻環境、話者等の相異により、変形も激し
い。よって同一の音素でもパタンの異なる音素はパタン
に応じ複数用意しておくと、より確度の高い認識結果が
得られる、例えば母音11についてみると“イチ“ハチ
”シチ”に見られる様に話者によって無声化する事がか
なりある。音素レベルでの認識は候補となった単語と、
その音声区間において厳密に検定して結果を出さなけれ
ばならないので、母音filでも、有声の111、無声
化の11それぞれについて、数種類の標準パタンを作っ
ておく、他の音素についても同様で、例えば1gなどバ
ス部が存在するものとしないものがある。
対象とする単語に含まれる全ての音素について標準パタ
ンを作成しておいた。しかし、音素はその種類によって
は、周囲の音韻環境、話者等の相異により、変形も激し
い。よって同一の音素でもパタンの異なる音素はパタン
に応じ複数用意しておくと、より確度の高い認識結果が
得られる、例えば母音11についてみると“イチ“ハチ
”シチ”に見られる様に話者によって無声化する事がか
なりある。音素レベルでの認識は候補となった単語と、
その音声区間において厳密に検定して結果を出さなけれ
ばならないので、母音filでも、有声の111、無声
化の11それぞれについて、数種類の標準パタンを作っ
ておく、他の音素についても同様で、例えば1gなどバ
ス部が存在するものとしないものがある。
但しこれらの音素について標準パタンを作成する場合、
少なくとも1つの標準パタンを作成する為に、各フレー
ムの特徴ベクトルの次元数をnとするとn2+α個程度
の音声データを必要とする。
少なくとも1つの標準パタンを作成する為に、各フレー
ムの特徴ベクトルの次元数をnとするとn2+α個程度
の音声データを必要とする。
〔実施例3〕
また、音素単位で識別する別の例として、音素の単位を
変えると更に良い結果となる。前記実施例1では、la
l lit ・・・ (mnl lrlに示す様
に、音声の単位としてはかなり小さい母音、子音、を別
々に扱っていた。
変えると更に良い結果となる。前記実施例1では、la
l lit ・・・ (mnl lrlに示す様
に、音声の単位としてはかなり小さい母音、子音、を別
々に扱っていた。
実際、人間が発声する連続した単語音声はアナウンサー
等を別にして日常生活においては、個々の音素の特徴を
明確に発声している事は少ない。
等を別にして日常生活においては、個々の音素の特徴を
明確に発声している事は少ない。
データを見てもここがlalでここが1mlであると判
定出来る部分は時間的にもかなり短く、大部分は調音結
合部である。(調音結合部とは、例えば“イア”と発声
した場合“イ”の定常部がら“ア”の定常部に遷移する
(中途半端な)部分である。) よって、音素の単位を調音結合部を含むVCV型とし、
語頭に関してはCVを用いると、前記実施例1で述べた
複数候補の単語が出現した時も、順番が異なって来る場
合の割合が減少するため、最終出力単語の判別がしやす
い。(■・・・母音VowelSC・・・子音Con5
onantでvCvは、母音−子音−母音、連鎖の事)
もちろん、vCvの標準パタンは、連続音声中から切り
出したサンプルから作成する。
定出来る部分は時間的にもかなり短く、大部分は調音結
合部である。(調音結合部とは、例えば“イア”と発声
した場合“イ”の定常部がら“ア”の定常部に遷移する
(中途半端な)部分である。) よって、音素の単位を調音結合部を含むVCV型とし、
語頭に関してはCVを用いると、前記実施例1で述べた
複数候補の単語が出現した時も、順番が異なって来る場
合の割合が減少するため、最終出力単語の判別がしやす
い。(■・・・母音VowelSC・・・子音Con5
onantでvCvは、母音−子音−母音、連鎖の事)
もちろん、vCvの標準パタンは、連続音声中から切り
出したサンプルから作成する。
[実施例4〕
前記実施例では音素標準パタン格納部106に格納する
音素のパタンのマルチ化、音素単位の定義、方法につい
て述べた。
音素のパタンのマルチ化、音素単位の定義、方法につい
て述べた。
単語標準パタン格納部103についても同様の事が言え
る。しかし、単語標準パタンについては、厳密にパタン
をカテゴライズしようとするとパタンの数が多くなり過
ぎる場合がある。また、個々の単語について多数話者の
発声サンプルを集め、分析する事は容易でないので、こ
こでは、個々の単語の発声時間長によりカテゴライズを
行う。本認識システムの第1段階では、候補単語の中に
、目的とする単語が100%入っている事が前提条件で
ある。本方式は基本的に時間伸縮マツチングを行ってい
るので、標準パタンから極端に外れた発声時間長の単語
だし、リジェクトされてしまう可能性が高いからである
。
る。しかし、単語標準パタンについては、厳密にパタン
をカテゴライズしようとするとパタンの数が多くなり過
ぎる場合がある。また、個々の単語について多数話者の
発声サンプルを集め、分析する事は容易でないので、こ
こでは、個々の単語の発声時間長によりカテゴライズを
行う。本認識システムの第1段階では、候補単語の中に
、目的とする単語が100%入っている事が前提条件で
ある。本方式は基本的に時間伸縮マツチングを行ってい
るので、標準パタンから極端に外れた発声時間長の単語
だし、リジェクトされてしまう可能性が高いからである
。
よって、少なくとも認識装置に対し、協力的な話者が発
声する音声の時間長を調べ、その全時間長をカバーする
様、標準パタンをマルチ化する。
声する音声の時間長を調べ、その全時間長をカバーする
様、標準パタンをマルチ化する。
マルチ化する際、極端に長い発声のサンプルは得うレに
(いので、平均的な特徴ベクトルのフレーム数を第2図
(e)に示す様に2倍、3倍に増やしても良い。
(いので、平均的な特徴ベクトルのフレーム数を第2図
(e)に示す様に2倍、3倍に増やしても良い。
第2図(e)では、音素la1mlul ”アム”を
単位とした基準パタンの発声時間長を2倍にした例を示
す。
単位とした基準パタンの発声時間長を2倍にした例を示
す。
発富時闇長を拡大する際、気をつけなければならない点
は、例えばlpl、Ml、lkl等の破裂子音等を含む
場合である。この例に示す様に子音によっては発声時間
長が長くなっても、子音部の発声時間長はそれほど変わ
らない。よって、子音によって拡大の方法をテーブル等
により、個々に変える手段を持つと、簡易に正確かつ、
時間長の異なる標準パタンか作成できる。
は、例えばlpl、Ml、lkl等の破裂子音等を含む
場合である。この例に示す様に子音によっては発声時間
長が長くなっても、子音部の発声時間長はそれほど変わ
らない。よって、子音によって拡大の方法をテーブル等
により、個々に変える手段を持つと、簡易に正確かつ、
時間長の異なる標準パタンか作成できる。
実際に発声時間長の長い音声サンプルを集め、これらの
データから標準パタンを作成する方法がより良い標準パ
タンを作成できる。
データから標準パタンを作成する方法がより良い標準パ
タンを作成できる。
第2図(f)は、母音の1フレームを2倍、3倍、4倍
と重複させて標準パタン長を拡大した時、子音部のフレ
ームの重複倍率を示したテーブルである。第2図(g)
に“ログの(母音の)倍率を“3倍”にした時の様子を
示す。
と重複させて標準パタン長を拡大した時、子音部のフレ
ームの重複倍率を示したテーブルである。第2図(g)
に“ログの(母音の)倍率を“3倍”にした時の様子を
示す。
また、第1図の単語標準パタン格納部103は単語単位
に限らない。文節単位でも良いし、無意味音節の連鎖で
も良い。この場合単語標準パタン格納部103の単位を
(VCV、VCVCV、cv、vv、cvcv、 ・−
・等)とし、音素標準パタン格納部106の単位(CV
、VC,V・・・等)にする事も可能である。
に限らない。文節単位でも良いし、無意味音節の連鎖で
も良い。この場合単語標準パタン格納部103の単位を
(VCV、VCVCV、cv、vv、cvcv、 ・−
・等)とし、音素標準パタン格納部106の単位(CV
、VC,V・・・等)にする事も可能である。
〔実施例5〕
前記実施例1では、第1図に示す処理系基本構成の第2
部において第1部の出力として得た候補単語について更
に細かい音素単位(例えばC1V、CV、cvcSvc
v等)で連続DP等のスポツティング処理を行い、結果
を出力する方法について述べた。しかし、本実施例にお
いては第1部の出力する候補単語を音素単位で認識する
方法として、スポツティング以外の方法を述べる。それ
は、複数の音声サンプルから得た音素標準パタンを候補
単語の音素系列に合わせて接続して作った単語と、音声
区間として切り出された入力音声の特徴ベクトルとのマ
ツチングを行うという方法である。この方法によっても
高い認識率が得られる。
部において第1部の出力として得た候補単語について更
に細かい音素単位(例えばC1V、CV、cvcSvc
v等)で連続DP等のスポツティング処理を行い、結果
を出力する方法について述べた。しかし、本実施例にお
いては第1部の出力する候補単語を音素単位で認識する
方法として、スポツティング以外の方法を述べる。それ
は、複数の音声サンプルから得た音素標準パタンを候補
単語の音素系列に合わせて接続して作った単語と、音声
区間として切り出された入力音声の特徴ベクトルとのマ
ツチングを行うという方法である。この方法によっても
高い認識率が得られる。
本実施例における音素単位の認識処理系の基本構成を第
4図に示す。
4図に示す。
第1図候補単語判別部10.4において判別された候補
単語と音声区間として切り出された入力音声の特徴ベク
トルは以後第4図に示す構成において処理される。まず
、入力音声の特徴ベクトルはパラメータ格納部105に
、候補単語は標準パタン生成規則部110に送られる。
単語と音声区間として切り出された入力音声の特徴ベク
トルは以後第4図に示す構成において処理される。まず
、入力音声の特徴ベクトルはパラメータ格納部105に
、候補単語は標準パタン生成規則部110に送られる。
標準パタン生成規則部110では音素標準パタン格納部
106中の音素標準パタンを候補単語の音素系列に従っ
て接続し、これとパラメータ格納部105に格納してお
いた入力音声の特徴ベクトルのパタンマツチングをパタ
ンマツチング部111において行う。
106中の音素標準パタンを候補単語の音素系列に従っ
て接続し、これとパラメータ格納部105に格納してお
いた入力音声の特徴ベクトルのパタンマツチングをパタ
ンマツチング部111において行う。
パタンマツチングで得た音声の認識結果を結果出力部1
09より出力する。
09より出力する。
標準パタン生成規則部110の詳細な構成図を第5図に
示す。まず、第1部の結果として出力される候補単語の
音素系列と、音声区間として切り出された入力音声の特
徴ベクトルが出力される。
示す。まず、第1部の結果として出力される候補単語の
音素系列と、音声区間として切り出された入力音声の特
徴ベクトルが出力される。
ここでは、例えば“tokus imasi (徳島布
)”と入力した時に、候補単語として“tOkusim
asi f ukus imas 1(福島布)
” ”hirosimasi (広島布)”の3単語
が選出された場合の処理について述べる。まず、これら
の候補単語は標準パタン生成規則部110において、連
続音声認識に最適な音素に分割される。本実施例では、
語頭の音素とCV(子音中母音)、語中、語尾の音素を
VCV(母音半子音+母音)としている。
)”と入力した時に、候補単語として“tOkusim
asi f ukus imas 1(福島布)
” ”hirosimasi (広島布)”の3単語
が選出された場合の処理について述べる。まず、これら
の候補単語は標準パタン生成規則部110において、連
続音声認識に最適な音素に分割される。本実施例では、
語頭の音素とCV(子音中母音)、語中、語尾の音素を
VCV(母音半子音+母音)としている。
次に、入力音声の特徴パラメータの長さを音素の数で割
り、1モーラ当たりの平均継続時間長を平均継続時間長
検出部152において求め、時間長の違い等により複数
種ある音素標準パタンの中から適した音素標準パタンを
選択する際に用いる。
り、1モーラ当たりの平均継続時間長を平均継続時間長
検出部152において求め、時間長の違い等により複数
種ある音素標準パタンの中から適した音素標準パタンを
選択する際に用いる。
第6図(a)は候補単語として出力された単語を音素分
割処理部150において音素記号列に分割した例である
。第6図(C)は各音素との標準パタンか格納されてい
るメモリのアドレスとの対応表である。音素位置ラベル
付加部151は候補単語の音素位置に対応させて複数の
音素標準パタンの中から選択するところであるが、アド
レスの表にを二り、−Dよ、D、]とすると、D1は音
素の種類、D2は音素標準パタンの時間長、D。
割処理部150において音素記号列に分割した例である
。第6図(C)は各音素との標準パタンか格納されてい
るメモリのアドレスとの対応表である。音素位置ラベル
付加部151は候補単語の音素位置に対応させて複数の
音素標準パタンの中から選択するところであるが、アド
レスの表にを二り、−Dよ、D、]とすると、D1は音
素の種類、D2は音素標準パタンの時間長、D。
は音素標準パタンの複数の状況における種別であり、例
えば音素lalの標準パタンは、アドレス001−1か
ら入っている。また、アドレス001−1.1は、無声
化したlalの標準パタンか入っている。1aSa1の
ようなVCV型の音素は、アドレス931−1に入って
いる標準ものの他に、■CV全体が無声化した音(VC
V)が931−1.1に、VCVの中、CV音が無声化
した音(VCV)が931−1.2に、VCVの中、V
C音が無声化した音(VCV)が931−1.3に入っ
ている。また、これだけでなく1つの音素単位につき、
複数の標準パタンを持っている。
えば音素lalの標準パタンは、アドレス001−1か
ら入っている。また、アドレス001−1.1は、無声
化したlalの標準パタンか入っている。1aSa1の
ようなVCV型の音素は、アドレス931−1に入って
いる標準ものの他に、■CV全体が無声化した音(VC
V)が931−1.1に、VCVの中、CV音が無声化
した音(VCV)が931−1.2に、VCVの中、V
C音が無声化した音(VCV)が931−1.3に入っ
ている。また、これだけでなく1つの音素単位につき、
複数の標準パタンを持っている。
第6図(b)は3つの候補単語の音素標準ノくタンの時
間長(D2)が1の時の音素を選択し、そのアドレスを
対応づけたものである。ここでは、「語頭・語尾は母音
部が無声化するパタンも含めて考える」という規則から
“tokusimasi”という単語は、第6図(b)
に示した音素のアドレスを使って第6図(d)に示す4
通りのパタンの組み合わせができる。
間長(D2)が1の時の音素を選択し、そのアドレスを
対応づけたものである。ここでは、「語頭・語尾は母音
部が無声化するパタンも含めて考える」という規則から
“tokusimasi”という単語は、第6図(b)
に示した音素のアドレスを使って第6図(d)に示す4
通りのパタンの組み合わせができる。
ていないと接続できない。音素の標準パタンの種別、D
、により接続が可能な組み合わせを第6図(e)に示す
。この第6図(e)には、ある音素の標準パタンの時間
長D2と種別り、だけを示しである。例えば一番上の段
のb/bは、ある音素の標準パタンの、ある時間長(b
=とお()であり有声であるもの、b同志の接続を示す
。次の段のb/b、2はある音素の標準パタンの、ある
時間長(=bとおく)の有声であるものbと、ある音素
の標準パタンの、ある時間長(b−とおく)の前半が有
声音、後半が無声音のもの、b、2との音素の前半が等
しければ良い訳だから、第6図(e)にり、を示す必要
はなく、音素の標準パタンの時間長D2は1モ一ラ発声
時間長検出部152において1モーラ当たりの平均継続
時間長が求めであるので、これがbとなり、その単語内
では一定である。
、により接続が可能な組み合わせを第6図(e)に示す
。この第6図(e)には、ある音素の標準パタンの時間
長D2と種別り、だけを示しである。例えば一番上の段
のb/bは、ある音素の標準パタンの、ある時間長(b
=とお()であり有声であるもの、b同志の接続を示す
。次の段のb/b、2はある音素の標準パタンの、ある
時間長(=bとおく)の有声であるものbと、ある音素
の標準パタンの、ある時間長(b−とおく)の前半が有
声音、後半が無声音のもの、b、2との音素の前半が等
しければ良い訳だから、第6図(e)にり、を示す必要
はなく、音素の標準パタンの時間長D2は1モ一ラ発声
時間長検出部152において1モーラ当たりの平均継続
時間長が求めであるので、これがbとなり、その単語内
では一定である。
しかし、第6図(e)に示したのは音素結合規則の一部
であり、他に音声を発声する際の音響的な音素結合規則
も多くある。第6図(d)には、“t oku s i
ma s i”の組み合わせのみを示したが、同様にし
て他の候補単語についても組み合わせを作成する。音素
標準パタンの組み合わせができたら、音素標準パタン接
続部153において音素標準パタンを接続し、単語標準
パタンを作成する。接続の方法は、直接接続、線形補間
等があるが、音素0.P、Q、Rを接続する例を第5図
に示し、以下に説明する。
であり、他に音声を発声する際の音響的な音素結合規則
も多くある。第6図(d)には、“t oku s i
ma s i”の組み合わせのみを示したが、同様にし
て他の候補単語についても組み合わせを作成する。音素
標準パタンの組み合わせができたら、音素標準パタン接
続部153において音素標準パタンを接続し、単語標準
パタンを作成する。接続の方法は、直接接続、線形補間
等があるが、音素0.P、Q、Rを接続する例を第5図
に示し、以下に説明する。
第7図の(a)は直接接続し、単語0PQRを生成する
例であり、(b)は音素0.P、Q、Rから補間部分と
して母音部分を数フレーム切り取ったものをQ′、P′
、Q′、R′とし、これの空白の部分を各次元のパラメ
ータの要素について線形補間しながら埋めていき、連続
した単語標準パタンを生成する例である。音素の補間方
法は、パラメータの性質によって適・不適があるので、
ここではパラメータに最適な補間法を用いる事にする。
例であり、(b)は音素0.P、Q、Rから補間部分と
して母音部分を数フレーム切り取ったものをQ′、P′
、Q′、R′とし、これの空白の部分を各次元のパラメ
ータの要素について線形補間しながら埋めていき、連続
した単語標準パタンを生成する例である。音素の補間方
法は、パラメータの性質によって適・不適があるので、
ここではパラメータに最適な補間法を用いる事にする。
最後に、音素標準パタン接続部153から出力された複
数の単語標準パタンと入力パタンをパタンマツチング部
111においてマツチングし、距離が最小となる単語を
結果出力部109より例えば音声として出力する。
数の単語標準パタンと入力パタンをパタンマツチング部
111においてマツチングし、距離が最小となる単語を
結果出力部109より例えば音声として出力する。
パタンマツチング方式は、線形伸縮、DPマツチング法
法要多数るが、DPPマツチング良い結果が得られる。
法要多数るが、DPPマツチング良い結果が得られる。
ここで、距離尺度はマハラノビス距離等を代表とする統
計的な距離尺度を用いる。
計的な距離尺度を用いる。
以上説明した様に、第1段階において単語単位で連続マ
ハラノビスDPによるワードスポツティングを行うこと
により、候補単語の選出と音声区間の切り出しを同時に
行うことが可能となる。
ハラノビスDPによるワードスポツティングを行うこと
により、候補単語の選出と音声区間の切り出しを同時に
行うことが可能となる。
第2段階として音素単位でマツチングを行うことにより
、2段階で認識を行う為に高い認識率が得られる。
、2段階で認識を行う為に高い認識率が得られる。
また、複数の環境下における標準パタンを単語単位では
な(音素単位にしているため、情報量が小さくしてすむ
という効果がある。
な(音素単位にしているため、情報量が小さくしてすむ
という効果がある。
また第2段階においては候補単語に対応する音素のみを
マツチングする為、時間がかからなくてすむという効果
がある。
マツチングする為、時間がかからなくてすむという効果
がある。
第1図は本発明の第1の実施例の処理系の基本構成図、
第2図(a)は標準パタン作成の動作の流れを示すフロ
ーチャート、 第2図(b)は連続マハラノビスDPの様子を示す図、 第2図(C)は音素マツチングの様子を示す図、 第2図(d)は複数の候補単語と入力信号との関係を示
す図、 第2図(e)は発声時間長を2倍にした標準パタンの様
子を示す図、 第2図(f)は発声時間長の倍率変化による音素に対応
した倍率を示す図、 第2図(g)は第1図(f)の倍率に従って発声時間長
を3倍にした時の様子を示す図、第3図は従来の不特定
話者音声認識システムの構成図、 第4図は本発明の第2の音素認識処理の構成図、 第5図は標準パタン生成規則部の構成図、第6図(a)
は候補単語の音素分解の様子を示す図、 第6図(b)は候補単語の各音素の標準パタンのアドレ
スを示す図、 第6図(C)は音素標準パタンの種類によるアドレス例
を示す図、 第6図(d)は生成された標準パタンの組み合わせを示
す図、 第6図(e)は接続可能な標準パタンの組み合わせ例を
示す図、 第7図は補間方法を示す図である。 図中、1は音声入力装置、2は音声分析部、3は音素境
界検出部、4は音素識別部、5は音素標準パタン格納部
、6は単語識別部、7は単語辞書、8は修正規則部、9
は認識結果表示部、100は音声入力部、101は音声
分析部、102は連続マハラノビスDPによる距離計算
部、103は単語標準パタン格納部、104は候補単語
判別部、105はパラメータ格納部、106は音素標準
パタン格納部、107は連続マハラノビスDPによる距
離計算部、108は音素単位の認識結果による識別部、
109は結果出力部、110は標準パタン生成規則部、
111はパタンマツチング部、150は音素分割処理部
、151は音素ラベル付加部、152は1モ一ラ発声時
間長検出部、153は音素標準パタン接続部である。 第1図 処理系の基本構成 「】エコ]+09 第2図(a) 標準パターンの作成フロー 第2図(c) 音素マツチングの様子 第2図(d) 複数の候補単語と入力信号との関係 第2図(e) 発声時間長を2倍にした標準パタンの様子第2図(f) 発声時間長の倍率変化による音素に対応した倍率第2図
(9) 発声時間長を3倍にした時の様子 第4図 本発明第二の音素認識処理の構成図 第6図(a) 候補単語の音素分解の様子 第6図(b) 候補単語の各音素の標準パタンのアドレス第6図(d) 生成された標準パタンの組み合わせ 第6図(e) 接続可能な標準パタンの組み合わせ例 良−−−へへ−−レ (a) 補間力 −P −Q −R
ーチャート、 第2図(b)は連続マハラノビスDPの様子を示す図、 第2図(C)は音素マツチングの様子を示す図、 第2図(d)は複数の候補単語と入力信号との関係を示
す図、 第2図(e)は発声時間長を2倍にした標準パタンの様
子を示す図、 第2図(f)は発声時間長の倍率変化による音素に対応
した倍率を示す図、 第2図(g)は第1図(f)の倍率に従って発声時間長
を3倍にした時の様子を示す図、第3図は従来の不特定
話者音声認識システムの構成図、 第4図は本発明の第2の音素認識処理の構成図、 第5図は標準パタン生成規則部の構成図、第6図(a)
は候補単語の音素分解の様子を示す図、 第6図(b)は候補単語の各音素の標準パタンのアドレ
スを示す図、 第6図(C)は音素標準パタンの種類によるアドレス例
を示す図、 第6図(d)は生成された標準パタンの組み合わせを示
す図、 第6図(e)は接続可能な標準パタンの組み合わせ例を
示す図、 第7図は補間方法を示す図である。 図中、1は音声入力装置、2は音声分析部、3は音素境
界検出部、4は音素識別部、5は音素標準パタン格納部
、6は単語識別部、7は単語辞書、8は修正規則部、9
は認識結果表示部、100は音声入力部、101は音声
分析部、102は連続マハラノビスDPによる距離計算
部、103は単語標準パタン格納部、104は候補単語
判別部、105はパラメータ格納部、106は音素標準
パタン格納部、107は連続マハラノビスDPによる距
離計算部、108は音素単位の認識結果による識別部、
109は結果出力部、110は標準パタン生成規則部、
111はパタンマツチング部、150は音素分割処理部
、151は音素ラベル付加部、152は1モ一ラ発声時
間長検出部、153は音素標準パタン接続部である。 第1図 処理系の基本構成 「】エコ]+09 第2図(a) 標準パターンの作成フロー 第2図(c) 音素マツチングの様子 第2図(d) 複数の候補単語と入力信号との関係 第2図(e) 発声時間長を2倍にした標準パタンの様子第2図(f) 発声時間長の倍率変化による音素に対応した倍率第2図
(9) 発声時間長を3倍にした時の様子 第4図 本発明第二の音素認識処理の構成図 第6図(a) 候補単語の音素分解の様子 第6図(b) 候補単語の各音素の標準パタンのアドレス第6図(d) 生成された標準パタンの組み合わせ 第6図(e) 接続可能な標準パタンの組み合わせ例 良−−−へへ−−レ (a) 補間力 −P −Q −R
Claims (6)
- (1)入力音声を分析して特徴ベクトルの時系列を求め
る音声分析手段、 複数の音声サンプルから得た単語標準パタンを格納する
単語標準パタン格納手段、 前記入力音声特徴ベクトル時系列にスポツ テイング法を用いることにより音声区間を検出し、前記
単語標準パタンの中から候補単語を選出する候補単語識
別手段、 複数の音声サンプルから得た音素標準パタンを格納する
音素標準パタン格納手段、 前記音声区間において前記入力音声の特徴ベクトルの時
系列と前記候補単語の前記音素標準パタンとのマッチン
グを行うことにより前記入力音声を認識する認識手段、 前記認識手段により認識した結果を出力する出力手段を
有することを特徴とする音声認識装置。 - (2)前記候補単語識別手段は更に統計的な距離尺度、
マハラノビス距離を用いて連続DPを行い、DPパスの
累積距離を計算する距離計算手段、 前記DPパスを記憶する記憶手段、 前記累積距離が予め設定した閾値より小さ く、かつ最小である時点を終端とする前記DPパスを前
記記憶手段より呼び出し、 該DPパスの始端を求め、音声区間を認識する音声区間
認識手段を含むことを特徴とする請求項(1)に記載の
音声認識装置。 - (3)前記入力音声とのマッチングは、前記候補単語に
対応する前記音素標準パタンを前記音声区間においてス
ポツテイング法を用いて行うことを特徴とする請求項(
1)に記載の音声認識装置。 - (4)前記入力音声とのマッチングは、標準パタン生成
規則手段によって前記候補単語の音素列に従って前記音
素標準パタンを接続して生成した標準パタンと行うこと
を特徴とする請求項(1)に記載の音声認識装置。 - (5)前記音素標準パタン格納手段に格納する音素の単
位は、CV(子音−母音)、VCV(母音−子音−母音
)、VV(母音−母音)を用いることを特徴とする請求
項(1)に記載の音声認識装置。 - (6)前記音素標準パタンは、話者、発声時間、発声環
境の要因による複数の標準パタンを持つことを特徴とす
る請求項(1)に記載の音声認識装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023205A JP2862306B2 (ja) | 1990-02-01 | 1990-02-01 | 音声認識装置 |
| US08/194,807 US6236964B1 (en) | 1990-02-01 | 1994-02-14 | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023205A JP2862306B2 (ja) | 1990-02-01 | 1990-02-01 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03228100A true JPH03228100A (ja) | 1991-10-09 |
| JP2862306B2 JP2862306B2 (ja) | 1999-03-03 |
Family
ID=12104167
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023205A Expired - Fee Related JP2862306B2 (ja) | 1990-02-01 | 1990-02-01 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2862306B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016177046A (ja) * | 2015-03-19 | 2016-10-06 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60121499A (ja) * | 1983-12-05 | 1985-06-28 | 富士通株式会社 | 音声照合装置 |
| JPS63165900A (ja) * | 1986-12-27 | 1988-07-09 | 沖電気工業株式会社 | 会話音声認識方式 |
-
1990
- 1990-02-01 JP JP2023205A patent/JP2862306B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60121499A (ja) * | 1983-12-05 | 1985-06-28 | 富士通株式会社 | 音声照合装置 |
| JPS63165900A (ja) * | 1986-12-27 | 1988-07-09 | 沖電気工業株式会社 | 会話音声認識方式 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016177046A (ja) * | 2015-03-19 | 2016-10-06 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2862306B2 (ja) | 1999-03-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Loizou et al. | High-performance alphabet recognition | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
| AU2019202146B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
| Yavuz et al. | A phoneme-based approach for eliminating out-of-vocabulary problem of Turkish speech recognition using Hidden Markov Model. | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
| Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
| JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
| JPH03228100A (ja) | 音声認識装置 | |
| JP2943445B2 (ja) | 音声認識方法 | |
| JP3277522B2 (ja) | 音声認識方法 | |
| Ganesh et al. | Syllable based continuous speech recognizer with varied length maximum likelihood character segmentation | |
| JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
| Manjunath et al. | Two-stage phone recognition system using articulatory and spectral features | |
| JPH05303391A (ja) | 音声認識装置 | |
| Pangsatabam et al. | Refining Tokenization Methods to Advance Low-Resource Manipuri Speech Recognition | |
| Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
| Resch et al. | Time synchronization of speech. | |
| JP2766393B2 (ja) | 音声認識方式 | |
| JPH04233599A (ja) | 音声認識方法及び装置 | |
| JPH08166798A (ja) | 音素辞書作成装置および方法 | |
| Hashem et al. | Spoken Language Identification Using Ergodic Hidden Markov Models |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |