JPH0756595A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0756595A JPH0756595A JP5204915A JP20491593A JPH0756595A JP H0756595 A JPH0756595 A JP H0756595A JP 5204915 A JP5204915 A JP 5204915A JP 20491593 A JP20491593 A JP 20491593A JP H0756595 A JPH0756595 A JP H0756595A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- collating
- matching
- recognition device
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【構成】 入力手段1、第1の分析手段2、照合手段
4、判定手段5よりなる音声認識装置に、入力される音
声の様々な様態の変化を検出するための分析を行う第2
の分析手段3を設け、その分析結果に基づいて照合手段
4あるいは判定手段5を制御する。 【効果】 発声の様態の変化や話者の変化の検出結果に
基づいて照合手段あるいは判定手段を制御するので、利
用者の多様な発声の様態の変化や話者の変化に対応して
音声を認識することができる。
4、判定手段5よりなる音声認識装置に、入力される音
声の様々な様態の変化を検出するための分析を行う第2
の分析手段3を設け、その分析結果に基づいて照合手段
4あるいは判定手段5を制御する。 【効果】 発声の様態の変化や話者の変化の検出結果に
基づいて照合手段あるいは判定手段を制御するので、利
用者の多様な発声の様態の変化や話者の変化に対応して
音声を認識することができる。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置に係り、
特に、同一の話者の発声様態が多様に変化する場合の音
声や話者が変わった場合の音声を良好に認識する装置に
関する。
特に、同一の話者の発声様態が多様に変化する場合の音
声や話者が変わった場合の音声を良好に認識する装置に
関する。
【0002】
【従来の技術】従来の音声認識装置、例えば、単語認識
装置では、音声を発声する単位が単語であるということ
を前提としている。この装置に対して複数の単語を続け
て発声すると、連続的に発声された複数単語全体が一つ
の単語であるとみなしてしまい正しい認識結果が得られ
ないことが多い。このように、利用者は単語毎に区切っ
た発声しかできないといった制限を受ける。
装置では、音声を発声する単位が単語であるということ
を前提としている。この装置に対して複数の単語を続け
て発声すると、連続的に発声された複数単語全体が一つ
の単語であるとみなしてしまい正しい認識結果が得られ
ないことが多い。このように、利用者は単語毎に区切っ
た発声しかできないといった制限を受ける。
【0003】また、音声認識装置が誤認識した場合に利
用者が丁寧に一音一音区切って言い直したりすると、区
切って発声された一音一音をそれぞれ一つの単語とみな
してしまい、ますます認識できなくなってしまう。
用者が丁寧に一音一音区切って言い直したりすると、区
切って発声された一音一音をそれぞれ一つの単語とみな
してしまい、ますます認識できなくなってしまう。
【0004】
【発明が解決しようとする課題】本発明の目的は、利用
者の発声の仕方の変化や話者の変化などにも対応して音
声を認識できるようにすることにある。
者の発声の仕方の変化や話者の変化などにも対応して音
声を認識できるようにすることにある。
【0005】
【課題を解決するための手段】上記本発明の目的は、発
声の様々な様態の変化や話者の変化の検出を行う第2の
分析手段を設け、第2の分析手段の結果に基づいて照合
手段あるいは判定手段を制御することにより達成され
る。
声の様々な様態の変化や話者の変化の検出を行う第2の
分析手段を設け、第2の分析手段の結果に基づいて照合
手段あるいは判定手段を制御することにより達成され
る。
【0006】
【作用】本発明によれば、発声の様態あるいは話者の変
化を分析した結果に基づいて照合手段あるいは判定手段
を制御するので、発声の多様な様態の変化や話者の変化
に対応して音声を認識することができる。
化を分析した結果に基づいて照合手段あるいは判定手段
を制御するので、発声の多様な様態の変化や話者の変化
に対応して音声を認識することができる。
【0007】
【実施例】以下、図を用いて本発明の実施例を説明す
る。
る。
【0008】図1は本発明の音声認識装置の一実施例を
示すブロック図である。本発明で従来と異なっているの
は、照合手段4あるいは判定手段5を制御するために第
2の分析手段3を設けている点である。入力手段1を通
してデジタル化されて入力された音声は第1の分析手段
2に送られ、ここで一定時間間隔ごとに音響的な分析が
行なわれる。第1の分析手段2の結果は、照合手段4の
所望する形式(例えば、特徴ベクトルの時系列パターン
あるいはベクトル量子化されたコードの時系列パターン
など)として出力される。照合手段4は、第1の分析手
段2から得られる音響的な分析結果である時系列パター
ンと予め照合の基準として標準パタン格納手段6に用意
されている標準パタンとの間で照合を行ない、各標準パ
タンに対するスコアを出力する。照合手段4から出力さ
れたスコアは、判定手段5に入力され、最もスコアの良
い標準パタンに対応した一つあるいは上位の複数の候補
が認識結果として出力される。ここまでの入力手段1、
第1の分析手段2、照合手段4、判定手段5は従来の音
声認識装置と同様の構成である。本発明で従来と異なっ
ている第2の分析手段3は、入力手段1を通して入力さ
れた音声を分析し、発声様態の変化や発声速度の変化を
抽出し、この情報を出力する。そしてこの第2の分析手
段3の出力により照合手段4あるいは判定手段5を制御
する。
示すブロック図である。本発明で従来と異なっているの
は、照合手段4あるいは判定手段5を制御するために第
2の分析手段3を設けている点である。入力手段1を通
してデジタル化されて入力された音声は第1の分析手段
2に送られ、ここで一定時間間隔ごとに音響的な分析が
行なわれる。第1の分析手段2の結果は、照合手段4の
所望する形式(例えば、特徴ベクトルの時系列パターン
あるいはベクトル量子化されたコードの時系列パターン
など)として出力される。照合手段4は、第1の分析手
段2から得られる音響的な分析結果である時系列パター
ンと予め照合の基準として標準パタン格納手段6に用意
されている標準パタンとの間で照合を行ない、各標準パ
タンに対するスコアを出力する。照合手段4から出力さ
れたスコアは、判定手段5に入力され、最もスコアの良
い標準パタンに対応した一つあるいは上位の複数の候補
が認識結果として出力される。ここまでの入力手段1、
第1の分析手段2、照合手段4、判定手段5は従来の音
声認識装置と同様の構成である。本発明で従来と異なっ
ている第2の分析手段3は、入力手段1を通して入力さ
れた音声を分析し、発声様態の変化や発声速度の変化を
抽出し、この情報を出力する。そしてこの第2の分析手
段3の出力により照合手段4あるいは判定手段5を制御
する。
【0009】本実施例では、第2の分析手段で取り出す
情報を発声モードとする。発声モードというのは、発声
形態、発声様式といった意味のものである。モードとい
った場合には複数のモードの存在を考えるが、ここでは
「音節単位の発声」「単語単位の発声」「文章単位の発
声」の三つのモードを考え、それぞれ1)音節モード、
2)単語モード、3)文章モードとする。1)の場合
は、新しい単語を伝えようとする場合や相手が聞き損な
った場合に一音一音丁寧にゆっくりとあるいは区切って
発声するような場合であり、例えば、「こ・く・ぶ・ん
・じ」と一音一音丁寧に発声する。2)の場合は、コマ
ンドや比較的簡単な情報の伝達を行う場合のように、一
つの単語を発声したり、あるいは複数個の単語を単語単
位に区切って発声するような場合であり、例えば「国分
寺」と発声する。3)の場合は、文章単位でごく普通に
発声するような場合であり、例えば、「国分寺まで行き
たい」と発声する。
情報を発声モードとする。発声モードというのは、発声
形態、発声様式といった意味のものである。モードとい
った場合には複数のモードの存在を考えるが、ここでは
「音節単位の発声」「単語単位の発声」「文章単位の発
声」の三つのモードを考え、それぞれ1)音節モード、
2)単語モード、3)文章モードとする。1)の場合
は、新しい単語を伝えようとする場合や相手が聞き損な
った場合に一音一音丁寧にゆっくりとあるいは区切って
発声するような場合であり、例えば、「こ・く・ぶ・ん
・じ」と一音一音丁寧に発声する。2)の場合は、コマ
ンドや比較的簡単な情報の伝達を行う場合のように、一
つの単語を発声したり、あるいは複数個の単語を単語単
位に区切って発声するような場合であり、例えば「国分
寺」と発声する。3)の場合は、文章単位でごく普通に
発声するような場合であり、例えば、「国分寺まで行き
たい」と発声する。
【0010】次に発声モードを検出する第2の分析手段
3について詳しく説明する。
3について詳しく説明する。
【0011】図2は発声モードを検出する場合の第2の
分析手段の一実施例を示すブロック図である。図3は図
2中のブロック図の中で入出力となる情報のいくつかを
示しており、(a)〜(f)は図2と図3で対応付けられて
いる。図3(a)のような振幅w(t)の音声がパワー算出
手段301に入力され、図3(b)のようなパワー(短区
間パワー)、
分析手段の一実施例を示すブロック図である。図3は図
2中のブロック図の中で入出力となる情報のいくつかを
示しており、(a)〜(f)は図2と図3で対応付けられて
いる。図3(a)のような振幅w(t)の音声がパワー算出
手段301に入力され、図3(b)のようなパワー(短区
間パワー)、
【0012】
【数1】
【0013】が出力される。ただし、Tは短区間分析の
区間幅である。短区間パワーpw(t)はパワー閾値判定
手段302に入力され、0(パワー無)/1(パワー
有)に変換されて図3(c)のような音声区間sp(t)が
出力される。また、短区間パワーpw(t)はパワー変化
量算出手段304にも入力され、次式に従って、
区間幅である。短区間パワーpw(t)はパワー閾値判定
手段302に入力され、0(パワー無)/1(パワー
有)に変換されて図3(c)のような音声区間sp(t)が
出力される。また、短区間パワーpw(t)はパワー変化
量算出手段304にも入力され、次式に従って、
【0014】
【数2】 dpw(t+1)=|pw(t+1)−p
w(t)| 図3(d)のようなパワー変化量dpw(t)が算出され
る。パワー変化量dpw(t)は、変化量閾値判定手段3
05に入力され、次式に従って、
w(t)| 図3(d)のようなパワー変化量dpw(t)が算出され
る。パワー変化量dpw(t)は、変化量閾値判定手段3
05に入力され、次式に従って、
【0015】
【数3】 if dpw(t)≦DPWTH then f
ix(t)=1 else fix(t)=0 定常部分かどうか判定され、0(非定常)/1(定常)
として図3(e)のように定常区間fix(t)が出力され
る。ただし、DPWTHはシステム毎に決められる定数で
ある。次に母音性定常区間判定手段306はパワー閾値
判定手段302からの出力sp(t)と変化量閾値判定手
段305からの出力fix(t)を入力として、
ix(t)=1 else fix(t)=0 定常部分かどうか判定され、0(非定常)/1(定常)
として図3(e)のように定常区間fix(t)が出力され
る。ただし、DPWTHはシステム毎に決められる定数で
ある。次に母音性定常区間判定手段306はパワー閾値
判定手段302からの出力sp(t)と変化量閾値判定手
段305からの出力fix(t)を入力として、
【0016】
【数4】 spfix(t)=sp(t)&fix
(t)(&は論理積) により母音による定常区間(母音性定常区間)spfi
x(t)を図3(f)のように0/1で出力する。続いて定
常区間長算出手段307は、母音性定常区間判定手段3
06から出力されるspfix(t)の0/1の列の中で
連続する1の個数により定常区間長(fixsz)を求
める。定常区間評価手段308は、定常区間算出手段3
07により定常区間長が求まる毎に、
(t)(&は論理積) により母音による定常区間(母音性定常区間)spfi
x(t)を図3(f)のように0/1で出力する。続いて定
常区間長算出手段307は、母音性定常区間判定手段3
06から出力されるspfix(t)の0/1の列の中で
連続する1の個数により定常区間長(fixsz)を求
める。定常区間評価手段308は、定常区間算出手段3
07により定常区間長が求まる毎に、
【0017】
【数5】 if fixsz≧SZ1TH the
n nA=nA+1 else if fixsz≧SZ2TH then nB=nB+1 により、長い定常区間の数nA、あるいは短い定常区間
の数nBを求める。ただし、nAとnBの初期値はともに
0である。また、SZ1THとSZ2THはシステム毎に決
められる定数であり、SZ1TH>SZ2THである。最後
に音声区間検出手段303において音声の終端が検出さ
れると、モード判定手段309に起動をかける。モード
判定手段309は、定常区間評価手段308よりnAと
nBを受け取り、以下によりモードを判定する。ここ
で、nは全音節数を表わし、n=nA+nBである。
n nA=nA+1 else if fixsz≧SZ2TH then nB=nB+1 により、長い定常区間の数nA、あるいは短い定常区間
の数nBを求める。ただし、nAとnBの初期値はともに
0である。また、SZ1THとSZ2THはシステム毎に決
められる定数であり、SZ1TH>SZ2THである。最後
に音声区間検出手段303において音声の終端が検出さ
れると、モード判定手段309に起動をかける。モード
判定手段309は、定常区間評価手段308よりnAと
nBを受け取り、以下によりモードを判定する。ここ
で、nは全音節数を表わし、n=nA+nBである。
【0018】
【数6】 if nA/n>N1TH
【0019】
【数7】 or n<N2TH then モード=
音節モード else if n<N3TH then モード=単語モード else モード=文章モード ただし、N1THとN2TH、N3THはシステム毎に決めら
れる定数である。モード判定手段309は、まず、全音
節数nに対する長い定常区間の数nAの割合がある閾値
を越えているかどうかにより入力された音声がゆっくり
と丁寧に発声された音節モードかどうか判定する。さら
に、全音節数nの大きさによりモードを判定する。この
モード判定手段の309の出力により照合手段4あるい
は判定手段5を制御する。
音節モード else if n<N3TH then モード=単語モード else モード=文章モード ただし、N1THとN2TH、N3THはシステム毎に決めら
れる定数である。モード判定手段309は、まず、全音
節数nに対する長い定常区間の数nAの割合がある閾値
を越えているかどうかにより入力された音声がゆっくり
と丁寧に発声された音節モードかどうか判定する。さら
に、全音節数nの大きさによりモードを判定する。この
モード判定手段の309の出力により照合手段4あるい
は判定手段5を制御する。
【0020】なお、母音性定常区間を求めるために、こ
こではパワーの変化だけを用いた実施例を示したが、ス
ペクトルの変化だけあるいはパワーの変化とスペクトル
の変化の組合せとしても求められることは言うまでもな
い。
こではパワーの変化だけを用いた実施例を示したが、ス
ペクトルの変化だけあるいはパワーの変化とスペクトル
の変化の組合せとしても求められることは言うまでもな
い。
【0021】次に本実施例の中で用いる照合手段4につ
いて図4を用いて説明する。
いて図4を用いて説明する。
【0022】図4は、第2の分析手段3の出力を用いて
モードを切り替えるようにした場合の照合手段4の構成
を示すブロック図である。これは、複数の照合手段の前
に選択手段44を設けたものである。選択手段44は第
2の分析手段3の出力により複数の照合手段(この例の
場合、音節照合手段41、単語照合手段42、文照合手
段43)のうち一つあるいは複数(この例の場合は高々
二つまで)を適宜選択し、選択された照合手段に第1の
分析手段2からの情報を送る。複数選択した場合には判
定手段5がスコアに基づいて一つあるいは複数の候補を
認識結果として出力することになる。HMM61は、予
め統計的に学習された音節単位のモデルを格納してい
る。音節照合手段41はこのモデルに沿って音節単位の
照合をし、照合結果として一つあるいは複数の音節の候
補をスコアと共に出力する。単語辞書62は、単語につ
いての情報(例えば、どんな音節列で構成されているか
に関する情報)を格納している。単語照合手段42は、
HMM61に格納された音節単位のモデルを、単語辞書
62の情報に沿って組み合わせた単語単位のモデルを用
いて単語単位の照合を行い、照合結果として一つあるい
は複数の単語の候補をスコアと共に出力する。文法63
は、文法を格納している。文照合手段43は、HMM6
1、単語辞書62、文法63に基づいて照合を行い、照
合結果として一つあるいは複数の文あるいは文節の候補
をスコアと共に出力する。
モードを切り替えるようにした場合の照合手段4の構成
を示すブロック図である。これは、複数の照合手段の前
に選択手段44を設けたものである。選択手段44は第
2の分析手段3の出力により複数の照合手段(この例の
場合、音節照合手段41、単語照合手段42、文照合手
段43)のうち一つあるいは複数(この例の場合は高々
二つまで)を適宜選択し、選択された照合手段に第1の
分析手段2からの情報を送る。複数選択した場合には判
定手段5がスコアに基づいて一つあるいは複数の候補を
認識結果として出力することになる。HMM61は、予
め統計的に学習された音節単位のモデルを格納してい
る。音節照合手段41はこのモデルに沿って音節単位の
照合をし、照合結果として一つあるいは複数の音節の候
補をスコアと共に出力する。単語辞書62は、単語につ
いての情報(例えば、どんな音節列で構成されているか
に関する情報)を格納している。単語照合手段42は、
HMM61に格納された音節単位のモデルを、単語辞書
62の情報に沿って組み合わせた単語単位のモデルを用
いて単語単位の照合を行い、照合結果として一つあるい
は複数の単語の候補をスコアと共に出力する。文法63
は、文法を格納している。文照合手段43は、HMM6
1、単語辞書62、文法63に基づいて照合を行い、照
合結果として一つあるいは複数の文あるいは文節の候補
をスコアと共に出力する。
【0023】なお、音節照合手段41、単語照合手段4
2、文照合手段43の実現方法としては様々な方法が考
えられるが、ここではHMM(Hidden Mark
ovModel)を使った方法を考える。HMMを用い
た音声認識装置の実現方法については”中川聖一,音声
認識における時系列パターン照合アルゴリズムの展開,
人工知能学会,Vol.3, No.4, pp414-423, 1988.”ある
いは”Kai-Fu Lee, Automatic speech recognition: th
e development of the SPHINX system, Kluwer Academi
c Publisher, 1989.”に詳しく説明されている。
2、文照合手段43の実現方法としては様々な方法が考
えられるが、ここではHMM(Hidden Mark
ovModel)を使った方法を考える。HMMを用い
た音声認識装置の実現方法については”中川聖一,音声
認識における時系列パターン照合アルゴリズムの展開,
人工知能学会,Vol.3, No.4, pp414-423, 1988.”ある
いは”Kai-Fu Lee, Automatic speech recognition: th
e development of the SPHINX system, Kluwer Academi
c Publisher, 1989.”に詳しく説明されている。
【0024】次に、図5を用いて照合手段4の別の実施
例を説明する。
例を説明する。
【0025】図5は、第2の分析手段3の出力を用いて
モードを切り替えるようにした場合の照合手段4の構成
を示すブロック図である。複数の照合手段の後に選択手
段44を設けたものである。すなわち、複数の照合手段
(音節照合手段41、単語照合手段42、文照合手段4
3)は並列に動作し、各照合手段からの照合結果のうち
一つあるいは複数を、選択手段44が第2の分析手段3
の結果に基づいて選択する。音節照合手段41、単語照
合手段42、文照合手段43の構成については図4の場
合と同じで良い。
モードを切り替えるようにした場合の照合手段4の構成
を示すブロック図である。複数の照合手段の後に選択手
段44を設けたものである。すなわち、複数の照合手段
(音節照合手段41、単語照合手段42、文照合手段4
3)は並列に動作し、各照合手段からの照合結果のうち
一つあるいは複数を、選択手段44が第2の分析手段3
の結果に基づいて選択する。音節照合手段41、単語照
合手段42、文照合手段43の構成については図4の場
合と同じで良い。
【0026】次に、図6を用いて照合手段4のさらに別
の実施例を説明する。
の実施例を説明する。
【0027】図6は、第2の分析手段3の出力により判
定手段5を制御する場合の照合手段4の構成を示すブロ
ック図である。選択手段がなく、複数の照合結果がすべ
て判定手段5へ送られる点以外は図4や場合と同じ構成
である。
定手段5を制御する場合の照合手段4の構成を示すブロ
ック図である。選択手段がなく、複数の照合結果がすべ
て判定手段5へ送られる点以外は図4や場合と同じ構成
である。
【0028】次に本実施例の中で用いる判定手段5につ
いて説明する。
いて説明する。
【0029】判定手段5は、入力として照合手段4の出
力を受け取る。判定手段5は、最もスコアの良い候補一
つあるいは上位の複数の候補を認識結果として出力す
る。なお、照合手段4内の選択手段44により複数の照
合手段が選択されている場合には、それらの照合結果を
まとめて、判定手段5がスコアに基づいて最もスコアの
良い一つの候補あるいは上位の複数の候補を認識結果と
して出力することになる。さらに判定手段5は、照合手
段4の出力に加えて第2の分析手段3の出力を入力とし
て受け取る場合もある。判定手段5では、第2の分析手
段3から受け取った情報(今の場合は、発声モード)に
基づいて、照合手段4から送られてきた候補に対してス
コアの修正(例えば、重みを付ける)を行ってから、最
もスコアの良い一つの候補あるいは上位の複数の候補を
認識結果として出力する。
力を受け取る。判定手段5は、最もスコアの良い候補一
つあるいは上位の複数の候補を認識結果として出力す
る。なお、照合手段4内の選択手段44により複数の照
合手段が選択されている場合には、それらの照合結果を
まとめて、判定手段5がスコアに基づいて最もスコアの
良い一つの候補あるいは上位の複数の候補を認識結果と
して出力することになる。さらに判定手段5は、照合手
段4の出力に加えて第2の分析手段3の出力を入力とし
て受け取る場合もある。判定手段5では、第2の分析手
段3から受け取った情報(今の場合は、発声モード)に
基づいて、照合手段4から送られてきた候補に対してス
コアの修正(例えば、重みを付ける)を行ってから、最
もスコアの良い一つの候補あるいは上位の複数の候補を
認識結果として出力する。
【0030】なお、照合手段4と判定手段5の両方を制
御できることは言うまでもない。
御できることは言うまでもない。
【0031】本実施例では、第2の分析手段において発
声モードを検出するようにしたが、第2の分析手段が話
者性に関連した離散的な値(例えば、男性か女声か、大
人か子供か)を抽出するための分析を行なうようにすれ
ば、話者の変化に対応できる。
声モードを検出するようにしたが、第2の分析手段が話
者性に関連した離散的な値(例えば、男性か女声か、大
人か子供か)を抽出するための分析を行なうようにすれ
ば、話者の変化に対応できる。
【0032】また、第2の分析手段が入力音声の発声速
度に関連した連続的な値(例えば、音声中の単位時間当
りの音節数)を抽出するための分析を行なうようにすれ
ば、発声速度の変化に対応できる。
度に関連した連続的な値(例えば、音声中の単位時間当
りの音節数)を抽出するための分析を行なうようにすれ
ば、発声速度の変化に対応できる。
【0033】
【発明の効果】本発明によれば、発声の様態の変化や話
者の変化の検出結果に基づいて照合手段あるいは判定手
段を制御するので、利用者の多様な発声の様態の変化や
話者の変化に対応して音声を認識することができる。
者の変化の検出結果に基づいて照合手段あるいは判定手
段を制御するので、利用者の多様な発声の様態の変化や
話者の変化に対応して音声を認識することができる。
【図1】本発明の音声認識装置の一実施例を示すブロッ
ク図。
ク図。
【図2】第2の分析手段の一実施例を示すブロック図。
【図3】本実施例の第2の分析手段におけるデータの流
れを示す説明図。
れを示す説明図。
【図4】照合手段の構成を示すブロック図。
【図5】照合手段の他の構成を示すブロック図。
【図6】照合手段のさらに他の構成を示すブロック図。
【符号の説明】 1…入力手段、2…第1の分析手段、3…第2の分析手
段、4…照合手段、5…判定手段、6…標準パタン格納
手段。
段、4…照合手段、5…判定手段、6…標準パタン格納
手段。
Claims (9)
- 【請求項1】音声を入力する音声入力手段と、前記音声
入力手段により入力された音声を分析し、特徴ベクトル
の時系列パタンを出力する第1の分析手段と、予め認識
の基準として用意された標準パタンを格納する標準パタ
ン格納手段と、前記標準パタンと前記第1の分析手段か
ら得られる特徴ベクトルの時系列パタンとを照合して、
各標準パタンに対するスコアを求める照合手段と、前記
各標準パタンに対するスコアに基づいて、一つあるいは
複数個の認識候補を出力する判定手段とからなる音声認
識装置において、前記音声入力手段により入力された音
声に対第2の分析手段を設け、前記第2の分析手段の出
力を用いて前記照合手段およびあるいは前記判定手段を
制御するようにしたことを特徴とする音声認識装置。 - 【請求項2】請求項1において、前記第2の分析手段は
離散的な値を出力するようにし、前記離散的な値を用い
て前記照合手段およびあるいは前記判定手段を制御する
ようにした音声認識装置。 - 【請求項3】請求項2において、前記照合手段は前記離
散的な値に対応して複数の照合手段を設け、前記離散的
な値に基づいて前記複数の照合手段の中から一つあるい
は複数個を適宜選択し使い分ける音声認識装置。 - 【請求項4】請求項2において、前記照合手段は前記離
散的な値に対応して複数の照合手段を設け、前記複数の
照合手段のすべてあるいは一部を並列動作可能な構成と
し、前記離散的な値に基づいて前記複数の照合手段の結
果のうち一つあるいは複数個を選択する音声認識装置。 - 【請求項5】請求項2において、前記照合手段は前記離
散的な値に対応して複数の照合手段を設け、前記複数の
照合手段のすべてあるいは一部を並列動作可能な構成と
し、前記判定手段は前記複数の照合手段から得られる複
数の照合結果を、前記離散的な値に基づいて、判定する
音声認識装置。 - 【請求項6】請求項3、4または5において、前記第2
の分析手段は、入力される音声の発声単位が音節、単
語、文章のいずれであるかを出力する音声認識装置。 - 【請求項7】請求項3、4または5において、前記第2
の分析手段は、話者性に関連した離散的な値を抽出する
ようにした音声認識装置。 - 【請求項8】請求項1において、前記第2の分析手段か
ら得られる出力は連続的に変化する量であり、前記連続
的に変化する量を用いて前記照合手段および/あるいは
前記判定手段を制御するようにした音声認識装置。 - 【請求項9】請求項8において、前記第2の分析手段
は、発声速度に関連した連続的に変化する量を出力する
音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5204915A JPH0756595A (ja) | 1993-08-19 | 1993-08-19 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5204915A JPH0756595A (ja) | 1993-08-19 | 1993-08-19 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0756595A true JPH0756595A (ja) | 1995-03-03 |
Family
ID=16498490
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5204915A Pending JPH0756595A (ja) | 1993-08-19 | 1993-08-19 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0756595A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000057325A (ja) * | 1998-08-17 | 2000-02-25 | Fuji Xerox Co Ltd | 音声検出装置 |
| US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
-
1993
- 1993-08-19 JP JP5204915A patent/JPH0756595A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000057325A (ja) * | 1998-08-17 | 2000-02-25 | Fuji Xerox Co Ltd | 音声検出装置 |
| US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11996097B2 (en) | Multilingual wakeword detection | |
| KR100679044B1 (ko) | 사용자 적응형 음성 인식 방법 및 장치 | |
| US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
| EP0683483B1 (en) | A method and arrangement for speech to text conversion | |
| US6553342B1 (en) | Tone based speech recognition | |
| US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
| Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch. | |
| CN115428066A (zh) | 合成语音处理 | |
| US12254864B1 (en) | Augmenting datasets for training audio generation models | |
| US20040210437A1 (en) | Semi-discrete utterance recognizer for carefully articulated speech | |
| Arslan et al. | Selective training for hidden Markov models with applications to speech classification | |
| US11715472B2 (en) | Speech-processing system | |
| JP2001517816A (ja) | 連続および分離音声を認識するための音声認識システム | |
| WO2023154427A1 (en) | Voice adaptation using synthetic speech processing | |
| JP5240456B2 (ja) | 音声認識装置および音声認識方法 | |
| CN108806691B (zh) | 语音识别方法及系统 | |
| JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
| Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
| JPH0643895A (ja) | 音声認識装置 | |
| JP4094255B2 (ja) | コマンド入力機能つきディクテーション装置 | |
| JPH0756595A (ja) | 音声認識装置 | |
| JPS63165900A (ja) | 会話音声認識方式 | |
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| JP2006010739A (ja) | 音声認識装置 | |
| KR20020045960A (ko) | 음성인식에서 핵심어 검출 성능 개선 방법 |