JPH04233599A - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置Info
- Publication number
- JPH04233599A JPH04233599A JP2408935A JP40893590A JPH04233599A JP H04233599 A JPH04233599 A JP H04233599A JP 2408935 A JP2408935 A JP 2408935A JP 40893590 A JP40893590 A JP 40893590A JP H04233599 A JPH04233599 A JP H04233599A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- phoneme
- information
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は音声認識装置、特に任意
の話者が連続して発声した単語等の音声を、高い認識率
で認識する音声認識装置に関するものである。
の話者が連続して発声した単語等の音声を、高い認識率
で認識する音声認識装置に関するものである。
【0002】
【従来の技術】不特定話者認識に関する認識手法は、い
くつか考案されているが、現状で最も一般的な不特定話
者認識システムについて述べる。
くつか考案されているが、現状で最も一般的な不特定話
者認識システムについて述べる。
【0003】従来、不特定大語彙を目指した認識システ
ムは図13に示すような構成になっている。音声入力部
1から入力された音声は音声分析部2により音声のパワ
ー項等を含むフイルタバンク出力、LPCケプストラム
等の特徴パラメータが求められ、ここでパラメータの圧
縮等(フイルタバンク出力の場合、K−L変換等による
次元圧縮)も行われる。(分析はフレーム単位で行われ
るので、以下、圧縮後の特徴パラメータを特徴ベクトル
と呼ぶ)。
ムは図13に示すような構成になっている。音声入力部
1から入力された音声は音声分析部2により音声のパワ
ー項等を含むフイルタバンク出力、LPCケプストラム
等の特徴パラメータが求められ、ここでパラメータの圧
縮等(フイルタバンク出力の場合、K−L変換等による
次元圧縮)も行われる。(分析はフレーム単位で行われ
るので、以下、圧縮後の特徴パラメータを特徴ベクトル
と呼ぶ)。
【0004】次に連続音声中から音素境界を決定するた
めの処理が音素境界検出部3により行われる。音素識別
部4では、統計的な手法により音素が決定される。5は
多数の音素サンプルから作成した音素標準パタンを格納
する音素標準パタン格納部。6は音素識別部4の出力結
果から単語辞書7あるいは出力された候補音素の中から
修正規則部8により修正を行って、最終的な認識結果を
出力する単語識別部、9は認識結果を表示する認識結果
表示部である。
めの処理が音素境界検出部3により行われる。音素識別
部4では、統計的な手法により音素が決定される。5は
多数の音素サンプルから作成した音素標準パタンを格納
する音素標準パタン格納部。6は音素識別部4の出力結
果から単語辞書7あるいは出力された候補音素の中から
修正規則部8により修正を行って、最終的な認識結果を
出力する単語識別部、9は認識結果を表示する認識結果
表示部である。
【0005】通常、音素境界検出部3では、判別関数等
を用いており、音素識別部4でも同様に判別される。こ
れら各構成要素の出力は一般的にある一定の閾値を満足
した候補が出力される。それぞれの候補について更に複
数の候補が出力されるが、7、8の様なTop do
wn的な情報等が用いられ最終的な単語に絞られる。
を用いており、音素識別部4でも同様に判別される。こ
れら各構成要素の出力は一般的にある一定の閾値を満足
した候補が出力される。それぞれの候補について更に複
数の候補が出力されるが、7、8の様なTop do
wn的な情報等が用いられ最終的な単語に絞られる。
【0006】
【発明が解決しようとしている課題】しかしながら、上
記従来例の認識装置は基本的な構成がボトム・アップ型
であるので、認識過程のある箇所で誤りが生じた場合、
後の過程に悪影響を及ぼし易い形になっている。(例え
ば、音素境界検出部3において、音素境界を誤った場合
、その誤り方によっては音素識別部4、単語識別部6に
与える影響は大きい)つまり、最終的な音声の認識率は
各過程の誤り率の積に比例して下がるので、高い認識率
が得られなかった。
記従来例の認識装置は基本的な構成がボトム・アップ型
であるので、認識過程のある箇所で誤りが生じた場合、
後の過程に悪影響を及ぼし易い形になっている。(例え
ば、音素境界検出部3において、音素境界を誤った場合
、その誤り方によっては音素識別部4、単語識別部6に
与える影響は大きい)つまり、最終的な音声の認識率は
各過程の誤り率の積に比例して下がるので、高い認識率
が得られなかった。
【0007】又、特に、不特定話者を対象とする認識装
置を構成する場合、各過程で判定の為の閾値の設定が非
常に難しい。少なくとも候補の中に目的とするものが存
在する様に閾値を設定すると、各過程における候補群の
数が多くなり、複数候補単語の中から目的とする単語を
正確に絞り込む方法が非常に難しくなっていた。また、
実環境下で認識装置を使用する場合、非定常ノイズ等が
かなり多く、少数単語の認識装置であっても認識率が低
く、実際、使いにくいものとなっていた。
置を構成する場合、各過程で判定の為の閾値の設定が非
常に難しい。少なくとも候補の中に目的とするものが存
在する様に閾値を設定すると、各過程における候補群の
数が多くなり、複数候補単語の中から目的とする単語を
正確に絞り込む方法が非常に難しくなっていた。また、
実環境下で認識装置を使用する場合、非定常ノイズ等が
かなり多く、少数単語の認識装置であっても認識率が低
く、実際、使いにくいものとなっていた。
【0008】
【課題を解決する為の手段】上記課題を解決するために
、音声情報を入力し、該音声情報を認識する際に、基準
として用いる単語情報と、音声の特性によって分類した
音素情報を格納し、前記入力した音声情報の特性を判断
し、スポッティング法を用いて入力音声情報と単語情報
のマッチングを行ない、候補単語と該候補単語の音声区
間を導出し、該導出された音声区間に対して前記候補単
語に対応する音素情報を、前記判断された音声の特性に
従って前記格納手段から呼出し、前記入力音声とのマッ
チングを行なうことを特徴とする音声認識方法を提供す
る。
、音声情報を入力し、該音声情報を認識する際に、基準
として用いる単語情報と、音声の特性によって分類した
音素情報を格納し、前記入力した音声情報の特性を判断
し、スポッティング法を用いて入力音声情報と単語情報
のマッチングを行ない、候補単語と該候補単語の音声区
間を導出し、該導出された音声区間に対して前記候補単
語に対応する音素情報を、前記判断された音声の特性に
従って前記格納手段から呼出し、前記入力音声とのマッ
チングを行なうことを特徴とする音声認識方法を提供す
る。
【0009】上記課題を解決するために、音声情報を入
力する入力手段、該音声情報を認識する際に、基準とし
て用いる単語情報と音声の特性によって分類した音素情
報を格納する格納手段、前記入力した音声情報の特性を
判断する判断手段、スポッティング法を用いて入力音声
情報と単語情報のマッチングを行ない、候補単語と該候
補単語の音声区間を導出する導出手段、該導出された音
声区間に対して前記候補単語に対応する音素情報を、前
記判断された音声の特性に従って前記格納手段から呼出
し、前記入力音声とのマッチングを行なう音素認識手段
を有することを特徴とする音声認識装置を提供する。
力する入力手段、該音声情報を認識する際に、基準とし
て用いる単語情報と音声の特性によって分類した音素情
報を格納する格納手段、前記入力した音声情報の特性を
判断する判断手段、スポッティング法を用いて入力音声
情報と単語情報のマッチングを行ない、候補単語と該候
補単語の音声区間を導出する導出手段、該導出された音
声区間に対して前記候補単語に対応する音素情報を、前
記判断された音声の特性に従って前記格納手段から呼出
し、前記入力音声とのマッチングを行なう音素認識手段
を有することを特徴とする音声認識装置を提供する。
【0010】上記課題を解決するためには、好ましくは
前記音声の特性は、音声を発声する話者によって異なる
ものとする。
前記音声の特性は、音声を発声する話者によって異なる
ものとする。
【0011】
【実施例】(実施例1)図1は本発明による音声認識シ
ステムの基本構成図で、100は音声入力部、101は
入力された音声を分析、圧縮し、特徴ベクトルの時系列
に変換する音声分析部、103は多数の話者が発声した
単語データから求めた標準パタンを音素表記と対応して
、格納する単語標準パタン格納部、102は音声分析部
101の特徴ベクトル系列と単語標準パタン格納部10
3に格納されている各々の標準パタンを入力データのフ
レームごとに連続マハラノビスDPを用いて距離を算出
する連続マハラノビスDPによる単語距離計算部、10
4は連続マハラノビスDPより求めた各フレーム単語標
準パタンとの距離の値により単語標準パタンの中から候
補となる単語を判別する候補単語判別部、105は候補
になった1つ以上の単語区間の特徴ベクトルのパラメー
タを格納するパラメータ格納部、106は多数話者の発
声した音声の中から音素単位で作成された標準パタンを
格納する音素標準パタン格納部、107は候補となった
単語の特徴ベクトル系列について音素単位で連続マハラ
ノビスDPにより入力データと音素標準パタンの距離計
算を行う連続マハラノビスDPによる音素距離計算部、
108は1つ以上の候補単語のそれぞれについてマッチ
ングされた各音素系列から最も適当な単語を識別して出
力する音素単位の認識結果による識別部。109は例え
ば音声応答等の手段により音声認識結果を出力する結果
出力部である。図中、第1部は音声区間の切り出しと供
に単語の候補の絞り込み、第2部は候補単語内での音素
単位認識部を示す。
ステムの基本構成図で、100は音声入力部、101は
入力された音声を分析、圧縮し、特徴ベクトルの時系列
に変換する音声分析部、103は多数の話者が発声した
単語データから求めた標準パタンを音素表記と対応して
、格納する単語標準パタン格納部、102は音声分析部
101の特徴ベクトル系列と単語標準パタン格納部10
3に格納されている各々の標準パタンを入力データのフ
レームごとに連続マハラノビスDPを用いて距離を算出
する連続マハラノビスDPによる単語距離計算部、10
4は連続マハラノビスDPより求めた各フレーム単語標
準パタンとの距離の値により単語標準パタンの中から候
補となる単語を判別する候補単語判別部、105は候補
になった1つ以上の単語区間の特徴ベクトルのパラメー
タを格納するパラメータ格納部、106は多数話者の発
声した音声の中から音素単位で作成された標準パタンを
格納する音素標準パタン格納部、107は候補となった
単語の特徴ベクトル系列について音素単位で連続マハラ
ノビスDPにより入力データと音素標準パタンの距離計
算を行う連続マハラノビスDPによる音素距離計算部、
108は1つ以上の候補単語のそれぞれについてマッチ
ングされた各音素系列から最も適当な単語を識別して出
力する音素単位の認識結果による識別部。109は例え
ば音声応答等の手段により音声認識結果を出力する結果
出力部である。図中、第1部は音声区間の切り出しと供
に単語の候補の絞り込み、第2部は候補単語内での音素
単位認識部を示す。
【0012】110は、複数話者による複数の標準パタ
ンに対応するように各々の話者の特徴に従って複数の音
素標準パタン郡を分類した話者カテゴリから現在音声を
入力中の話者に最適な話者カテゴリを識別するためのパ
タンが格納されている話者カテゴリ識別パタン格納部。
ンに対応するように各々の話者の特徴に従って複数の音
素標準パタン郡を分類した話者カテゴリから現在音声を
入力中の話者に最適な話者カテゴリを識別するためのパ
タンが格納されている話者カテゴリ識別パタン格納部。
【0013】111は、入力音声と、後述する最適話者
音素標準パタン格納部102によって比較する標準パタ
ンを選択し、図1に示した第2部における音素認識にお
いては、音素標準パタン格納部106から最適な音素郡
を選択して最適話者音素標準パタン格納部112に格納
するよう指示する処理選択部。
音素標準パタン格納部102によって比較する標準パタ
ンを選択し、図1に示した第2部における音素認識にお
いては、音素標準パタン格納部106から最適な音素郡
を選択して最適話者音素標準パタン格納部112に格納
するよう指示する処理選択部。
【0014】112は、処理選択部111の指示により
最適な話者カテゴリの音素標準パタンを格納する最適話
者音素標準パタン格納部。
最適な話者カテゴリの音素標準パタンを格納する最適話
者音素標準パタン格納部。
【0015】次に動作の流れを説明する。まず音声入力
部100は、マイクから音声信号を入力し、音声分析部
101に入力波形を転送する。音声入力部100は音声
入力の受付時間中は常に音声又は周囲のノイズ信号等を
取り込み、音声入力波形をデイジタル値に変換した波形
として音声分析部101へ転送する。音声分析部101
では、常に入力されて来る波形を10msec〜30m
sec程度の窓幅で分析を行い、2msec〜10ms
ecの長さを持つフレームごとに、特徴パラメータを求
める特徴パラメータの種類としては比較的高速に分析可
能なLPCケプストラム、LPCメルケプストラム、高
精度にパラメータを抽出したい場合はFFTケプストラ
ム、FFTメルケプストラム等が一般的で、他にフィル
タバンク出力値もある。
部100は、マイクから音声信号を入力し、音声分析部
101に入力波形を転送する。音声入力部100は音声
入力の受付時間中は常に音声又は周囲のノイズ信号等を
取り込み、音声入力波形をデイジタル値に変換した波形
として音声分析部101へ転送する。音声分析部101
では、常に入力されて来る波形を10msec〜30m
sec程度の窓幅で分析を行い、2msec〜10ms
ecの長さを持つフレームごとに、特徴パラメータを求
める特徴パラメータの種類としては比較的高速に分析可
能なLPCケプストラム、LPCメルケプストラム、高
精度にパラメータを抽出したい場合はFFTケプストラ
ム、FFTメルケプストラム等が一般的で、他にフィル
タバンク出力値もある。
【0016】また、正規化されたパワー情報を用いたり
、パラメータの各次元ごとに重み係数を掛けたりして、
システムの使用状況に最も適したパラメータで、フレー
ムごとに分析される。次に、分析された特徴パラメータ
の次元について圧縮を行う。ケプストラムパラメータは
、通常係数の1次の項〜12次の項の中から必要な次元
数(例えば6次元)だけ抜き出し、これを特徴ベクトル
とする。
、パラメータの各次元ごとに重み係数を掛けたりして、
システムの使用状況に最も適したパラメータで、フレー
ムごとに分析される。次に、分析された特徴パラメータ
の次元について圧縮を行う。ケプストラムパラメータは
、通常係数の1次の項〜12次の項の中から必要な次元
数(例えば6次元)だけ抜き出し、これを特徴ベクトル
とする。
【0017】また、スペクトルの差分情報、パワー情報
等をパラメータ化したものを、前記スペクトル情報から
得られたパラメータに合わせて、特徴ベクトルとしても
良い。
等をパラメータ化したものを、前記スペクトル情報から
得られたパラメータに合わせて、特徴ベクトルとしても
良い。
【0018】フイルタバンク出力を特徴パラメータとし
た場合、例えばK−L変換、フーリエ変換等の直交変換
により次元圧縮し、低次項を用いる。これら圧縮された
1フレーム分のパラメータを特徴ベクトル、次元圧縮さ
れた後の特徴ベクトルの時系列を特徴ベクトルの系列(
或は、単にパラメータ)と呼ぶことにする。
た場合、例えばK−L変換、フーリエ変換等の直交変換
により次元圧縮し、低次項を用いる。これら圧縮された
1フレーム分のパラメータを特徴ベクトル、次元圧縮さ
れた後の特徴ベクトルの時系列を特徴ベクトルの系列(
或は、単にパラメータ)と呼ぶことにする。
【0019】本実施例では分析窓長を25.6msec
で分析し、フレーム周期10msec、FFTスペクト
ルのピーク付近を通る様な包絡スペクトルから、メルケ
プストラム係数を求めた後、係数の1次〜8次を用いる
。
で分析し、フレーム周期10msec、FFTスペクト
ルのピーク付近を通る様な包絡スペクトルから、メルケ
プストラム係数を求めた後、係数の1次〜8次を用いる
。
【0020】更に、隣り合うメルケプストラムの差分情
報として1次の回帰係数を求め、先に求めたメルケプス
トラムの係数と同様に回帰係数の1次〜8次を用いて計
16個の特徴を1フレーム分の特徴ベクトルとする。こ
こでメルケプストラムの0次項はパワーを表わす。(本
実施例では、パワー情報は用いない場合について示す)
次に、単語標準パタン格納部103に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた10数字“ゼロ、サン、ニ、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、ク、ハチ、シチ、キュ
ウ、イチ”と“ハイ、イイエ”の計17単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では1単語の標準パタンを作成
するのに5000人分の音声サンプルを用いる。(音声
サンプル数は多ければ多い程良い)なお、ここでは17
単語のみの認識を目的とし、17単語の標準パタンを作
成し、格納する例について述べるがこれは17単語に限
るわけではなく、同様の方法で任意の数のパタンを作成
すれば、任意の音声を認識できるようになる。
報として1次の回帰係数を求め、先に求めたメルケプス
トラムの係数と同様に回帰係数の1次〜8次を用いて計
16個の特徴を1フレーム分の特徴ベクトルとする。こ
こでメルケプストラムの0次項はパワーを表わす。(本
実施例では、パワー情報は用いない場合について示す)
次に、単語標準パタン格納部103に格納する標準パタ
ンの作成方法について述べる。本システムでは例として
発声変形を含めた10数字“ゼロ、サン、ニ、レイ、ナ
ナ、ヨン、ゴ、マル、シ、ロク、ク、ハチ、シチ、キュ
ウ、イチ”と“ハイ、イイエ”の計17単語の認識につ
いて述べる。標準パタンは多数話者の発声した単語音声
から作成する。本実施例では1単語の標準パタンを作成
するのに5000人分の音声サンプルを用いる。(音声
サンプル数は多ければ多い程良い)なお、ここでは17
単語のみの認識を目的とし、17単語の標準パタンを作
成し、格納する例について述べるがこれは17単語に限
るわけではなく、同様の方法で任意の数のパタンを作成
すれば、任意の音声を認識できるようになる。
【0021】更に、単語標準パタンとして、音素標準パ
タンに格納されている各音素の平均をとったものを予め
定めた法則に従って結合し、単語を文節等の標準パタン
を作成したものを用いるようにすることも可能である。 また、これらの標準パタンは話者別に複数あってもよい
。
タンに格納されている各音素の平均をとったものを予め
定めた法則に従って結合し、単語を文節等の標準パタン
を作成したものを用いるようにすることも可能である。 また、これらの標準パタンは話者別に複数あってもよい
。
【0022】図2に、標準パタンの作成手順を表わすフ
ローチャートを示す。
ローチャートを示す。
【0023】まず、音声サンプルから標準パタンを作成
する際の仮の比較対象となるコアパタン(核パタン)を
選択する(S200)。選択方法は5000単語の中で
発声時間長と発声パタンが最も平均的な単語を用いる。 次に、サンプルの単語を入力し(S201)、入力単語
とコアパタンとの時間軸伸縮マッチングを行い、時間正
規化距離が最小となるマッチング経路に沿って、各フレ
ームごとに平均ベクトル、及び分散共分散行列を作成す
る(S202)。ここで時間軸伸縮マッチングの方法と
してDPマッチングを用いる。次に入力単語の話者番号
を次々変えてゆき(S204)5000名分の単語Si
(i=1〜5000)について、各フレームごとに特徴
ベクトルの平均値及び、分散共分散行列を求める(S2
03、S205)。この様にして計17単語についてそ
れぞれ上記過程と同様にして単語標準パタンを作成し単
語標準パタン格納部103に格納しておく。
する際の仮の比較対象となるコアパタン(核パタン)を
選択する(S200)。選択方法は5000単語の中で
発声時間長と発声パタンが最も平均的な単語を用いる。 次に、サンプルの単語を入力し(S201)、入力単語
とコアパタンとの時間軸伸縮マッチングを行い、時間正
規化距離が最小となるマッチング経路に沿って、各フレ
ームごとに平均ベクトル、及び分散共分散行列を作成す
る(S202)。ここで時間軸伸縮マッチングの方法と
してDPマッチングを用いる。次に入力単語の話者番号
を次々変えてゆき(S204)5000名分の単語Si
(i=1〜5000)について、各フレームごとに特徴
ベクトルの平均値及び、分散共分散行列を求める(S2
03、S205)。この様にして計17単語についてそ
れぞれ上記過程と同様にして単語標準パタンを作成し単
語標準パタン格納部103に格納しておく。
【0024】110は、話者カテゴリ識別パタン格納部
である。
である。
【0025】本認識装置は、不特定の話者が発声した単
語、文章等を認識するが、実際に目的とする音声を認識
する前に、現在入力しようとしている話者が、どのカテ
ゴリ内に入るのかこれをあらかじめ学習し、第2部にお
いて複数の音素標準パタン群の中から最もその話者に適
した音素標準パタンを用いて認識する事により、認識精
度の高い認識装置が実現できる。以下に、話者カテゴリ
識別パタンの作成方法について図3に示したフローチャ
ートに従って述べる。まず、複数話者5000人が“ア
イウエオ”とつなげてゆっくり発声した音声を分析して
得られた特徴ベクトル系列を任意の複数カテゴリに分類
する。ここでは、nクラスに分ける事にする。クラスの
分け方は、クラスタリングの手法として存在する。多種
多様な方法のうち、どれを用いても構わない。図3では
、まずS401〜S405で全5000の話者の中で最
も平均的な話者を選択し、この話者の特徴ベクトルと最
もDP距離の大きい特徴ベクトルの音声を発声した話者
を選択し、これをI2とする(S406)。
語、文章等を認識するが、実際に目的とする音声を認識
する前に、現在入力しようとしている話者が、どのカテ
ゴリ内に入るのかこれをあらかじめ学習し、第2部にお
いて複数の音素標準パタン群の中から最もその話者に適
した音素標準パタンを用いて認識する事により、認識精
度の高い認識装置が実現できる。以下に、話者カテゴリ
識別パタンの作成方法について図3に示したフローチャ
ートに従って述べる。まず、複数話者5000人が“ア
イウエオ”とつなげてゆっくり発声した音声を分析して
得られた特徴ベクトル系列を任意の複数カテゴリに分類
する。ここでは、nクラスに分ける事にする。クラスの
分け方は、クラスタリングの手法として存在する。多種
多様な方法のうち、どれを用いても構わない。図3では
、まずS401〜S405で全5000の話者の中で最
も平均的な話者を選択し、この話者の特徴ベクトルと最
もDP距離の大きい特徴ベクトルの音声を発声した話者
を選択し、これをI2とする(S406)。
【0026】次に、話者I1とI2のDP距離(正規化
した値)が最も大きい話者I3を選択する…といった手
順を繰り返し、DP距離の値が例えば0.05等、予め
定めた基準値以下となるまで繰り返す。本実施例では、
I1〜I9までの9話者が、カテゴリの代表サンプルと
して挙げられた。この話者カテゴリの概念図を図4に、
特徴ベクトルの記号での表現例を図5に示す。
した値)が最も大きい話者I3を選択する…といった手
順を繰り返し、DP距離の値が例えば0.05等、予め
定めた基準値以下となるまで繰り返す。本実施例では、
I1〜I9までの9話者が、カテゴリの代表サンプルと
して挙げられた。この話者カテゴリの概念図を図4に、
特徴ベクトルの記号での表現例を図5に示す。
【0027】次にこれらのカテゴリの格となる話者(以
下、格話者と呼ぶ)の特徴ベクトル系列をコアパタンと
して図2に示すフローチャートに従って、連続発声単語
「アイウエオ」の標準パタンを作成する。202ではD
Pマッチングを行ないながらDP経路に従って、対応フ
レームの分散、共分散ベクトルを求めるが、DP窓の制
限、DPの傾斜制限等を少しきつくして標準パタンとし
て用いる。
下、格話者と呼ぶ)の特徴ベクトル系列をコアパタンと
して図2に示すフローチャートに従って、連続発声単語
「アイウエオ」の標準パタンを作成する。202ではD
Pマッチングを行ないながらDP経路に従って、対応フ
レームの分散、共分散ベクトルを求めるが、DP窓の制
限、DPの傾斜制限等を少しきつくして標準パタンとし
て用いる。
【0028】話者を制限すると、比較的分散の少ない良
好な標準パタンが格話者を中心とするカデゴリ別に生成
できる。
好な標準パタンが格話者を中心とするカデゴリ別に生成
できる。
【0029】また格話者をコアパタンとして、話者カテ
ゴリに対応する標準パタンを作成する時に用いられた話
者の集まりを以下カテゴリ話者群と呼ぶ。
ゴリに対応する標準パタンを作成する時に用いられた話
者の集まりを以下カテゴリ話者群と呼ぶ。
【0030】連続マハラノビスDPによる単語距離計算
部102では連続マハラノビスDPにより次々と入力さ
れる特徴ベクトルの時系列について単語標準パタン格納
部103、或いは、話者カテゴリ識別パターン格納部1
10に格納されている全ての単語或いは音韻連鎖の標準
パタンとの連続マハラノビスDPによるマッチングを行
い、距離を計算する。
部102では連続マハラノビスDPにより次々と入力さ
れる特徴ベクトルの時系列について単語標準パタン格納
部103、或いは、話者カテゴリ識別パターン格納部1
10に格納されている全ての単語或いは音韻連鎖の標準
パタンとの連続マハラノビスDPによるマッチングを行
い、距離を計算する。
【0031】ここで、処理選択部111は、現在入力中
の話者がどの話者カテゴリに属しているかを識別するた
めに入力音声とのマッチングの対象を、話者カテゴリ識
別パタン格納部110か、単語標準パタン格納部103
かを選択する。
の話者がどの話者カテゴリに属しているかを識別するた
めに入力音声とのマッチングの対象を、話者カテゴリ識
別パタン格納部110か、単語標準パタン格納部103
かを選択する。
【0032】ここで、処理選択部111の動作を説明す
るための内部構成図を図6に示す。
るための内部構成図を図6に示す。
【0033】また、処理選択部111の処理動作を示す
フローチャートを、図7に示す。
フローチャートを、図7に示す。
【0034】音声認識処理の立上時(S301)には、
話者識別モードとなっているのでS304へ進む。しか
し、途中で入力話者が替る時、或いは、再度話者識別モ
ードにしたい時のために、話者自身がモードフラグを設
定できるようになっている。そこで、モード切替部12
1のモードフラグを読み込む(S302)。モードフラ
グが、単語認識モードであれば、モード切替部で単語認
定モードに切替え(S303)、先に述べたように入力
音声を目的単語とみなして、単語認識を行う(S310
)。話者識別モードと判断される(S303)場合、デ
ィスプレイや、音声合成等の指示手段により、「“アイ
ウエオ”と発声して下さい」といった指示を話者に行う
(S304)。最適話者カテゴリを探索し(S305)
、ここでは、その距離の値が、0.1以下になる様な、
制限を設けている(S306)。もしS306でリジェ
クトされれば、話者の発声長、強度等が極端に標準値と
異なると判断し、リトライ情報を付加して(S307)
、再度入力を促がす(S304)。この時の入力音声指
示部は、「“アイウエオ”のようにつづけてゆっくりと
発声して下さい。では、どうぞ」といった内容に変更し
、話者に指示を与える。このようにして、話者カテゴリ
I1〜I9の中からカテゴリを特定した後、そのカテゴ
リに戻す格話者と同一の話者をコアパタンとして作成し
た音素標準パタンを、音素標準パタン格納部106から
最適話者音素標準パタン格納部112に転送(格納)す
る(S308)。
話者識別モードとなっているのでS304へ進む。しか
し、途中で入力話者が替る時、或いは、再度話者識別モ
ードにしたい時のために、話者自身がモードフラグを設
定できるようになっている。そこで、モード切替部12
1のモードフラグを読み込む(S302)。モードフラ
グが、単語認識モードであれば、モード切替部で単語認
定モードに切替え(S303)、先に述べたように入力
音声を目的単語とみなして、単語認識を行う(S310
)。話者識別モードと判断される(S303)場合、デ
ィスプレイや、音声合成等の指示手段により、「“アイ
ウエオ”と発声して下さい」といった指示を話者に行う
(S304)。最適話者カテゴリを探索し(S305)
、ここでは、その距離の値が、0.1以下になる様な、
制限を設けている(S306)。もしS306でリジェ
クトされれば、話者の発声長、強度等が極端に標準値と
異なると判断し、リトライ情報を付加して(S307)
、再度入力を促がす(S304)。この時の入力音声指
示部は、「“アイウエオ”のようにつづけてゆっくりと
発声して下さい。では、どうぞ」といった内容に変更し
、話者に指示を与える。このようにして、話者カテゴリ
I1〜I9の中からカテゴリを特定した後、そのカテゴ
リに戻す格話者と同一の話者をコアパタンとして作成し
た音素標準パタンを、音素標準パタン格納部106から
最適話者音素標準パタン格納部112に転送(格納)す
る(S308)。
【0035】話者カテゴリが特定されたら、モードフラ
グを単語認識モードにセットし(S309)、単語認識
処理を始める(S310)。
グを単語認識モードにセットし(S309)、単語認識
処理を始める(S310)。
【0036】次に、連続マハラノビスDPについて説明
する。連続DPの手法は一般的で、特定話者が連続に発
声した文章の中から目的とする単語、或は、音節等の単
位を探し出す方法である。これはワードスポッティング
と呼ばれ、目的とする音声区間の切り出しと同時に認識
も行ってしまうという画期的な方法である。本実施例で
は連続DP法の各々のフレーム内における距離にマハラ
ノビス距離を用いる事により、不特定性を吸収している
。
する。連続DPの手法は一般的で、特定話者が連続に発
声した文章の中から目的とする単語、或は、音節等の単
位を探し出す方法である。これはワードスポッティング
と呼ばれ、目的とする音声区間の切り出しと同時に認識
も行ってしまうという画期的な方法である。本実施例で
は連続DP法の各々のフレーム内における距離にマハラ
ノビス距離を用いる事により、不特定性を吸収している
。
【0037】図8は、“ゼロ”という単語の標準パター
ンと“ゼロ”という単語を発声した時の入力音声を無声
区間も含めて特徴ベクトルの時系列に分析したものとを
連続マハラノビスDPによりマッチングした結果を示し
たものである。図中、黒が濃く出ている所は標準パタン
と入力パタンの距離が大きい所、黒が薄く、白に近い所
は標準パタンと入力パタンの距離が小さいところである
。マッチングを行った結果の下には累積距離の時間変化
を示す。この累積距離はその時点が終端となるDPパス
の距離を示すもので、DPパスを求めてその値をメモリ
に保存する。このメモリに保存したDPパスは、音声区
間の始端を求める為につかう。例えばこの図においては
距離が最小となった時のDPパスを示したが、標準パタ
ンと入力パタンが似ていた場合、累積距離が任意に定め
た閾値より小さくなり、その標準パタンの単語を候補単
語と認める。そして、入力パタンから音声区間を切り出
すために、累積距離が閾値より小さく、更に最小である
時点からDPパスをメモリから呼び出してバックトラッ
クすることにより、音声区間の始端が求められる。こう
して求められた音声区間の特徴ベクトルの時系列をパラ
メータ格納部105に格納する。
ンと“ゼロ”という単語を発声した時の入力音声を無声
区間も含めて特徴ベクトルの時系列に分析したものとを
連続マハラノビスDPによりマッチングした結果を示し
たものである。図中、黒が濃く出ている所は標準パタン
と入力パタンの距離が大きい所、黒が薄く、白に近い所
は標準パタンと入力パタンの距離が小さいところである
。マッチングを行った結果の下には累積距離の時間変化
を示す。この累積距離はその時点が終端となるDPパス
の距離を示すもので、DPパスを求めてその値をメモリ
に保存する。このメモリに保存したDPパスは、音声区
間の始端を求める為につかう。例えばこの図においては
距離が最小となった時のDPパスを示したが、標準パタ
ンと入力パタンが似ていた場合、累積距離が任意に定め
た閾値より小さくなり、その標準パタンの単語を候補単
語と認める。そして、入力パタンから音声区間を切り出
すために、累積距離が閾値より小さく、更に最小である
時点からDPパスをメモリから呼び出してバックトラッ
クすることにより、音声区間の始端が求められる。こう
して求められた音声区間の特徴ベクトルの時系列をパラ
メータ格納部105に格納する。
【0038】今まで説明してきた処理系により、まず候
補単語と、その音声区間を分析した特徴ベクトルの系列
と、連続マハラノビスDPによる累積距離の結果が得ら
れる。ここで、候補単語の中で“シチ”と“シ”の様に
音声区間が重なっているものが複数選択された時、この
場合“シチ”の方を選択し“シ”は切り捨てる。“ロク
”と“ク”も同様に、“ク”の音声区間の大部分が(こ
こでは80%以上とする)“ロク”に含まれている時は
、“ク”は切り捨てて“ロク”のみについて検証を行う
。
補単語と、その音声区間を分析した特徴ベクトルの系列
と、連続マハラノビスDPによる累積距離の結果が得ら
れる。ここで、候補単語の中で“シチ”と“シ”の様に
音声区間が重なっているものが複数選択された時、この
場合“シチ”の方を選択し“シ”は切り捨てる。“ロク
”と“ク”も同様に、“ク”の音声区間の大部分が(こ
こでは80%以上とする)“ロク”に含まれている時は
、“ク”は切り捨てて“ロク”のみについて検証を行う
。
【0039】本実施例では音素標準パタン格納部106
に母音(a、i、u、e、o)と子音(z、s、n、r
、g、m、shi、k、h、ci)について音素標準パ
タンを作成しておく。
に母音(a、i、u、e、o)と子音(z、s、n、r
、g、m、shi、k、h、ci)について音素標準パ
タンを作成しておく。
【0040】なお、本実施例では先に述べた17単語の
認識を目的としている為、音素標準パタン格納部106
に格納する音素は上記15種類だが、前にも述べたよう
に、認識対象を拡大し、標準パタンの数を増す場合には
、その標準パタンを構成する音素をすべて、同様の方法
で標準パタンを作成し、音素標準パタン格納部106に
格納する。
認識を目的としている為、音素標準パタン格納部106
に格納する音素は上記15種類だが、前にも述べたよう
に、認識対象を拡大し、標準パタンの数を増す場合には
、その標準パタンを構成する音素をすべて、同様の方法
で標準パタンを作成し、音素標準パタン格納部106に
格納する。
【0041】ここでは、カテゴリ別標準パタン作成に用
いたカテゴリ話者群に分類し、その中の各話者が発声し
た単語の中から、各音素を切り出し、これらの同一の音
素集合について、クラスタリング等を行ない各クラスに
属する複数の音素標準パタンを作成して格納する。
いたカテゴリ話者群に分類し、その中の各話者が発声し
た単語の中から、各音素を切り出し、これらの同一の音
素集合について、クラスタリング等を行ない各クラスに
属する複数の音素標準パタンを作成して格納する。
【0042】この様子を図9に示す。話者カテゴリに属
するカテゴリ話者群の中から、音素の部分を切り出す(
例えば音素/a/)更に、これをクラスタリング等の処
理を行ない、/a/の音素について、1以上の標準パタ
ンを作成する。図では話者カテゴリが1の場合、/a/
は、/a1/と/a2/、/u/は/u1/、/u2/
、/u3/の様に複数の音素クラスに対応する音素標準
パタン系列が格納されている。例えば/a1/は有声音
の“ア”/a2/は無声化した“ア”といったように、
同一の音素でも単語中における音素出現位置の相異によ
る周囲の音韻の違い(音韻環境)や、同一話者でも発声
の仕方等の相違により変形も激しい。
するカテゴリ話者群の中から、音素の部分を切り出す(
例えば音素/a/)更に、これをクラスタリング等の処
理を行ない、/a/の音素について、1以上の標準パタ
ンを作成する。図では話者カテゴリが1の場合、/a/
は、/a1/と/a2/、/u/は/u1/、/u2/
、/u3/の様に複数の音素クラスに対応する音素標準
パタン系列が格納されている。例えば/a1/は有声音
の“ア”/a2/は無声化した“ア”といったように、
同一の音素でも単語中における音素出現位置の相異によ
る周囲の音韻の違い(音韻環境)や、同一話者でも発声
の仕方等の相違により変形も激しい。
【0043】本方法の様に、話者カテゴリ別に分類した
単語の中から音素を切り出し、この中で更にクラスタリ
ング等により複数の音素標準パタンを持つ事によって、
より確度の高い認識結果が得られる。
単語の中から音素を切り出し、この中で更にクラスタリ
ング等により複数の音素標準パタンを持つ事によって、
より確度の高い認識結果が得られる。
【0044】また、最適話者音素標準パタン格納部11
2には、前記話者カテゴリ識別パタン格納部110の中
から選択された最適な話者カテゴリに対応した音素標準
パタン群が音素標準パタン格納部106から処理選択部
111により転送され、格納される。
2には、前記話者カテゴリ識別パタン格納部110の中
から選択された最適な話者カテゴリに対応した音素標準
パタン群が音素標準パタン格納部106から処理選択部
111により転送され、格納される。
【0045】連続マハラノビスDPによる音素距離計算
部107ではパラメータ格納部105に格納されている
候補単語として切り出された音声区間について各音素と
のマッチングを行う。
部107ではパラメータ格納部105に格納されている
候補単語として切り出された音声区間について各音素と
のマッチングを行う。
【0046】連続マハラノビスDPによる単語距離計算
部102と同様に累積距離が最小となった位置からその
音素の区間を計算する。(候補単語判別部104と同様
、累積距離が最小となった時点をその音素の終端とし、
始端は連続DPパスのバックトラックにより求める)本
実施例では例えば“ゼロ”→“zero”が候補単語の
場合その音声区間について“z”、“e”、“r”、“
o”の4種類の音素についてのみマッチングを行う。4
種の音素と上記“zero”と判別され、候補となった
音声区間のマッチングの結果、各音素の累積距離が最小
となる点についてその位置関係と、最小距離の平均値を
求めるこの様子を図10に示す。
部102と同様に累積距離が最小となった位置からその
音素の区間を計算する。(候補単語判別部104と同様
、累積距離が最小となった時点をその音素の終端とし、
始端は連続DPパスのバックトラックにより求める)本
実施例では例えば“ゼロ”→“zero”が候補単語の
場合その音声区間について“z”、“e”、“r”、“
o”の4種類の音素についてのみマッチングを行う。4
種の音素と上記“zero”と判別され、候補となった
音声区間のマッチングの結果、各音素の累積距離が最小
となる点についてその位置関係と、最小距離の平均値を
求めるこの様子を図10に示す。
【0047】各々の音素についてマッチングの結果の距
離の最小値と、その位置をフレームで表わし音素単位の
認識結果による認識部108に送る。この例では、“z
”について最小値は“j”、フレーム位置は“zfであ
る。音素単位の認識結果による認識部108では、連続
マハラノビスDPによる音素距離計算部107から送ら
れてきたデータを基に最終的な単語の識別を行う。 まず、候補単語の音素列の順番(フレームの位置)がz
f<ef<rf<ofであるか否かを調べる。もしこの
順番であれば認識単語は“ゼロ”(zero)”平均認
識距離
離の最小値と、その位置をフレームで表わし音素単位の
認識結果による認識部108に送る。この例では、“z
”について最小値は“j”、フレーム位置は“zfであ
る。音素単位の認識結果による認識部108では、連続
マハラノビスDPによる音素距離計算部107から送ら
れてきたデータを基に最終的な単語の識別を行う。 まず、候補単語の音素列の順番(フレームの位置)がz
f<ef<rf<ofであるか否かを調べる。もしこの
順番であれば認識単語は“ゼロ”(zero)”平均認
識距離
【0048】
【外1】
を求めXの値が閾値Hよりも小さいならば、認識結果と
して“ゼロ”を出力する。
して“ゼロ”を出力する。
【0049】図11は単語候補の出力結果(候補単語判
別部104の出力結果)を示したものである。■は単語
“ハチ”、■は単語“シチ”、■は単語“シ”が候補と
して出力される。が、ここで前に述べたように■は■の
区間に80%以上含まれており、かつ同一の“シ”が■
の中に存在するので音素レベルでの識別は■■について
行なう。
別部104の出力結果)を示したものである。■は単語
“ハチ”、■は単語“シチ”、■は単語“シ”が候補と
して出力される。が、ここで前に述べたように■は■の
区間に80%以上含まれており、かつ同一の“シ”が■
の中に存在するので音素レベルでの識別は■■について
行なう。
【0050】ケース■ 単語S1の音素列“/h/a
/c/i/”と単語S2の音素列“/sh/i/c/i
/”についてマッチングした結果、どちらも音素の順番
が、候補単語と等しい場合、かつ、個々の音素の距離が
H(閾値)より小さい場合→平均累積距離Xの小さい方
を出力する。
/c/i/”と単語S2の音素列“/sh/i/c/i
/”についてマッチングした結果、どちらも音素の順番
が、候補単語と等しい場合、かつ、個々の音素の距離が
H(閾値)より小さい場合→平均累積距離Xの小さい方
を出力する。
【0051】ケース■ どちらも順番が異なる個々の
音素の距離が閾値(H)より小さい場合→単語と音素列
の文字列によるDPマッチングを行い、その距離の閾値
(I)により決定する。
音素の距離が閾値(H)より小さい場合→単語と音素列
の文字列によるDPマッチングを行い、その距離の閾値
(I)により決定する。
【0052】ケース■ 順番が合っているか、個々の
音素の閾値が(H)をクリアしていない場合→リジェク
トケース■ 順番が異なり、音素の閾値もクリアして
いない場合→リジェクト音素単位の認識結果による単語
の識別方法は前記の方法に限らない。後に他の実施例で
も述べるが音素の単位をどの様な形で定義し、標準パタ
ンを作成しておくか、或は同一の音素でも複数用意する
事によって音素判別に用いる閾値Hの値、或は識別アル
ゴリズムは異なる。よって、平均累積距離と音素順位の
どちらを優先させるか等の識別アルゴリズムは一意に決
まらない。
音素の閾値が(H)をクリアしていない場合→リジェク
トケース■ 順番が異なり、音素の閾値もクリアして
いない場合→リジェクト音素単位の認識結果による単語
の識別方法は前記の方法に限らない。後に他の実施例で
も述べるが音素の単位をどの様な形で定義し、標準パタ
ンを作成しておくか、或は同一の音素でも複数用意する
事によって音素判別に用いる閾値Hの値、或は識別アル
ゴリズムは異なる。よって、平均累積距離と音素順位の
どちらを優先させるか等の識別アルゴリズムは一意に決
まらない。
【0053】音素単位の認識結果による認識部108で
最終結果として出力した例えば音声(単語)を結果出力
部109で出力する。電話等の音声情報のみで認識させ
る場合、認識結果を「“ゼロ”ですね?」と例えば音声
合成手段を用いて確認する。単語の識別の結果、距離が
十分小さければ認識結果を確認せずに、それに対応した
次の処理へと移行する。
最終結果として出力した例えば音声(単語)を結果出力
部109で出力する。電話等の音声情報のみで認識させ
る場合、認識結果を「“ゼロ”ですね?」と例えば音声
合成手段を用いて確認する。単語の識別の結果、距離が
十分小さければ認識結果を確認せずに、それに対応した
次の処理へと移行する。
【0054】なお、本実施例ではパターンマッチングの
方法として統計的に不特定性を吸収する距離尺度として
マハラノビス距離を用いた連続マハラノビスによるマッ
チング方法を用いたが、これに限定することなく、第2
部での認識においてはマルコルモデルのような確率を用
いて不特定性を吸収する距離を用いたマッチング方法が
あれば、どれを用いてもよいことはいうまでもない。
方法として統計的に不特定性を吸収する距離尺度として
マハラノビス距離を用いた連続マハラノビスによるマッ
チング方法を用いたが、これに限定することなく、第2
部での認識においてはマルコルモデルのような確率を用
いて不特定性を吸収する距離を用いたマッチング方法が
あれば、どれを用いてもよいことはいうまでもない。
【0055】なお、本実施例では話者群を識別するため
の音韻連鎖として「アイウエオ」と連続して発声した単
語を用いたが、話者群を識別する単語は、これに限らな
い。またこれは、複数であってもよい。例えば、単語A
(母音を含む単語)で、話者の基本的特徴(ホルマント
ピークの長さ等)を分類し、更に、その中でも、話者ご
との特徴(1.濁音を発声する際、“バズ”を含みやす
いか、含みにくいか、2.“p,t,k”等の子音の長
さ、3.平均的な発声速度等)等、話者を分類する上で
最も特徴が強く出る単語B、単語Cから、更に話者群を
分類するとよい。
の音韻連鎖として「アイウエオ」と連続して発声した単
語を用いたが、話者群を識別する単語は、これに限らな
い。またこれは、複数であってもよい。例えば、単語A
(母音を含む単語)で、話者の基本的特徴(ホルマント
ピークの長さ等)を分類し、更に、その中でも、話者ご
との特徴(1.濁音を発声する際、“バズ”を含みやす
いか、含みにくいか、2.“p,t,k”等の子音の長
さ、3.平均的な発声速度等)等、話者を分類する上で
最も特徴が強く出る単語B、単語Cから、更に話者群を
分類するとよい。
【0056】(実施例2)前記実施例1では、音素標準
パタン格納部に格納する音素として、本認識装置で認識
を行うのに必要な認識対象単語に含まれる音素に限定し
ていたが、常時格納しておく音素標準パタンは、(日本
語を認識する場合)日本語の全音素について、話者カテ
ゴリ、音素クラスごとに作成した音素標準パタンを作成
しておいても良い。これにより106のメモリは増える
が認識対象単語を変えた場合、その対象単語に使用され
て音素(複数)について、話者カテゴリに対応する標準
パタンを112に格納すれば良い。
パタン格納部に格納する音素として、本認識装置で認識
を行うのに必要な認識対象単語に含まれる音素に限定し
ていたが、常時格納しておく音素標準パタンは、(日本
語を認識する場合)日本語の全音素について、話者カテ
ゴリ、音素クラスごとに作成した音素標準パタンを作成
しておいても良い。これにより106のメモリは増える
が認識対象単語を変えた場合、その対象単語に使用され
て音素(複数)について、話者カテゴリに対応する標準
パタンを112に格納すれば良い。
【0057】更に、音素として、日本語発声に必要な音
素だけでなく各国語(英語、仏語、独語、中国語…)等
に用いられる音素も全て格納しておき、この中から認識
対象語を選択しても良い。
素だけでなく各国語(英語、仏語、独語、中国語…)等
に用いられる音素も全て格納しておき、この中から認識
対象語を選択しても良い。
【0058】図12の様に図2.4の音素種を増やし、
更にこれを国別に用意しておけば良い。
更にこれを国別に用意しておけば良い。
【0059】
【発明の効果】以上説明した様に、本発明によれば、音
声認識の第1段階において単語単位のスポッティングを
行なって音声区間と候補単語を導出し、第2段階で音声
の特性によって複数用意された音素の標準パタンと比較
することにより、第2段階においてより細かな音声認識
が行なわれ、認識率が高くなるという効果が得られる。
声認識の第1段階において単語単位のスポッティングを
行なって音声区間と候補単語を導出し、第2段階で音声
の特性によって複数用意された音素の標準パタンと比較
することにより、第2段階においてより細かな音声認識
が行なわれ、認識率が高くなるという効果が得られる。
【図1】本実施例の基本的なブロック図。
【図2】標準パターン作成フロー。
【図3】話者カテゴリ作成フロー。
【図4】話者カテゴリの概念図。
【図5】特徴ベクトルの表現例示図。
【図6】処理選択部の内部構成図。
【図7】全体の流れを示すフローチャート。
【図8】マハラノビス距離を用いたマッチングの例示図
。
。
【図9】話者カテゴリのデータフォーマット図。
【図10】音素マッチングの例示図。
【図11】複数の候補単語と入力信号の例示図。
【図12】複数の言語についての話者カテゴリを有する
時のデータフォーマット図。
時のデータフォーマット図。
【図13】従来の音声認識システムの構成図。
Claims (4)
- 【請求項1】 音声情報を入力し、該音声情報を認識
する際に、基準として用いる単語情報と、音声の特性に
よって分類した音素情報を格納し、前記入力した音声情
報の特性を判断し、スポッティング法を用いて入力音声
情報と単語情報のマッチングを行い、候補単語と該候補
単語の音声区間を導出し、該導出された音声区間に対し
て前記候補単語に対応する音素情報を、前記判断された
音声の特性に従って前記格納手段から呼出し、前記入力
音声とのマッチングを行なうことを特徴とする音声認識
方法。 - 【請求項2】 前記音声の特性は、音声を発声する話
者によって異なるものであることを特徴とする請求項1
に記載の音声認識方法。 - 【請求項3】 音声情報を入力する入力手段、該音声
情報を認識する際に、基準として用いる単語情報と、音
声の特性によって分類した音素情報を格納する格納手段
、前記入力した音声情報の特性を判断する判断手段、ス
ポッティング法を用いて入力音声情報と単語情報のマッ
チングを行ない、候補単語と該候補単語の音声区間を導
出する導出手段、該導出された音声区間に対して前記候
補単語に対応する音素情報を、前記判断された音声の特
性に従って前記格納手段から呼出し、前記入力音声との
マッチングを行なう音素認識手段を有することを特徴と
する音声認識装置。 - 【請求項4】 前記音声の特性は、音声を発声する話
者によって異なるものであることを特徴とする請求項3
に記載の音声認識装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2408935A JPH04233599A (ja) | 1990-12-28 | 1990-12-28 | 音声認識方法及び装置 |
| US08/194,807 US6236964B1 (en) | 1990-02-01 | 1994-02-14 | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2408935A JPH04233599A (ja) | 1990-12-28 | 1990-12-28 | 音声認識方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04233599A true JPH04233599A (ja) | 1992-08-21 |
Family
ID=18518328
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2408935A Pending JPH04233599A (ja) | 1990-02-01 | 1990-12-28 | 音声認識方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04233599A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016177045A (ja) * | 2015-03-19 | 2016-10-06 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
| WO2016170561A1 (en) | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
-
1990
- 1990-12-28 JP JP2408935A patent/JPH04233599A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016177045A (ja) * | 2015-03-19 | 2016-10-06 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
| WO2016170561A1 (en) | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
| US10354010B2 (en) | 2015-04-24 | 2019-07-16 | Nec Corporation | Information processing system, an information processing method and a computer readable storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Zissman et al. | Automatic language identification | |
| Loizou et al. | High-performance alphabet recognition | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| US20100004931A1 (en) | Apparatus and method for speech utterance verification | |
| US6236964B1 (en) | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data | |
| EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| CN1162365A (zh) | 语音识别 | |
| KR20060097895A (ko) | 사용자 적응형 음성 인식 방법 및 장치 | |
| EP1647970A1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
| Ezzine et al. | Moroccan dialect speech recognition system based on cmu sphinxtools | |
| Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
| Bansal et al. | Speaker adaptation on Hidden Markov Model using MFCC & RASTA-PLP and comparative study | |
| JP4259100B2 (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
| JP3444108B2 (ja) | 音声認識装置 | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| Davis et al. | Evaluation of acoustic parameters for monosyllabic word identification | |
| JPH04233599A (ja) | 音声認識方法及び装置 | |
| Pandey et al. | Fusion of spectral and prosodic information using combined error optimization for keyword spotting | |
| Gonzalez-Rodriguez et al. | Speaker recognition the a TVS-UAM system at NIST SRE 05 | |
| Rao et al. | Text-dependent speaker recognition system for Indian languages | |
| Hirose et al. | Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours | |
| JP3277522B2 (ja) | 音声認識方法 | |
| Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
| KR20060062287A (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
| JP2862306B2 (ja) | 音声認識装置 |