JPH03278097A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH03278097A JPH03278097A JP2080126A JP8012690A JPH03278097A JP H03278097 A JPH03278097 A JP H03278097A JP 2080126 A JP2080126 A JP 2080126A JP 8012690 A JP8012690 A JP 8012690A JP H03278097 A JPH03278097 A JP H03278097A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- appearance frequency
- standard model
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005477 standard model Effects 0.000 claims description 50
- 230000005236 sound signal Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 3
- 150000001768 cations Chemical class 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、学習用音声から作成される音素単位の標準モ
デルを用いて未知音声を認識する音声認m装置に関する
。
デルを用いて未知音声を認識する音声認m装置に関する
。
(従来の技術)
従来の音声認識方法しては、あらかじめ発声した学習用
音声データから標準モデルを作成し、その標準モデルと
未知音声から求めた音声パターンとの類似度を求め、最
大の類似度を与えるカテゴリを認識結果とする方法が一
般に用いられている。
音声データから標準モデルを作成し、その標準モデルと
未知音声から求めた音声パターンとの類似度を求め、最
大の類似度を与えるカテゴリを認識結果とする方法が一
般に用いられている。
このような方法としては、Yen−Lu Chow、
RichardSchwartz、5alts Rou
cos他による、IEEE。
RichardSchwartz、5alts Rou
cos他による、IEEE。
International Conference
on Acous−tics。
on Acous−tics。
5peech、 and Signal Proces
sing、 1986.30.9のページ1593〜
1596に掲載の論文“The Role ofWor
d−Dependent Coarticulato
ry EffectsPhoneme−Based
5peech Recoanition 5ysten
+ ”(以下、文献1と称す)に述べられているよう
な音素などの単語より小さい単位を認識単位に用いる方
法がある。以下、「音素」とは、音韻論的な意味での音
声の最小基本単位という意味だけでなく、音節や複数の
音素の連結をも含む、もつと広い範囲の音声の単位を意
味するものとする。
sing、 1986.30.9のページ1593〜
1596に掲載の論文“The Role ofWor
d−Dependent Coarticulato
ry EffectsPhoneme−Based
5peech Recoanition 5ysten
+ ”(以下、文献1と称す)に述べられているよう
な音素などの単語より小さい単位を認識単位に用いる方
法がある。以下、「音素」とは、音韻論的な意味での音
声の最小基本単位という意味だけでなく、音節や複数の
音素の連結をも含む、もつと広い範囲の音声の単位を意
味するものとする。
文献1による方法では、単語単位に発声された複数個の
学習用音声データを用いて音素単位の標準モデル(以下
、音素モデルと呼ぶ)を作成している。そして、認識時
には、音素表記された単語辞書を用いて前記音素モデル
を結合して単語単位のモデル(以下、単語モデルと呼ぶ
)を作成し、この単語モデルを用いて未知単語音声を認
識している。
学習用音声データを用いて音素単位の標準モデル(以下
、音素モデルと呼ぶ)を作成している。そして、認識時
には、音素表記された単語辞書を用いて前記音素モデル
を結合して単語単位のモデル(以下、単語モデルと呼ぶ
)を作成し、この単語モデルを用いて未知単語音声を認
識している。
(発明が解決しようとする課題)
上述の従来技術として説明したような学習用音声データ
を用いて作成された音素モデルで未知音声の認識を行う
場合、高精度の音素モデルを作成するために一般的に多
数の学習用音声データが必要である。つまり、音素モデ
ルの精度は学習用音声データの数すなわち学習用音声中
の音素の出現頻度に依存している。単語単位に発声され
た学習用音声データ中の各音素の出現頻度は異なってい
るから、学習用音声データから作成された音素モデルの
精度もモデル毎に異なるが、文献1で述べられているよ
うな方法では、すべて同程度の精度とみなして認識を行
っているから、精度が劣る音素モデルによって誤認識が
発生する可能性がある。
を用いて作成された音素モデルで未知音声の認識を行う
場合、高精度の音素モデルを作成するために一般的に多
数の学習用音声データが必要である。つまり、音素モデ
ルの精度は学習用音声データの数すなわち学習用音声中
の音素の出現頻度に依存している。単語単位に発声され
た学習用音声データ中の各音素の出現頻度は異なってい
るから、学習用音声データから作成された音素モデルの
精度もモデル毎に異なるが、文献1で述べられているよ
うな方法では、すべて同程度の精度とみなして認識を行
っているから、精度が劣る音素モデルによって誤認識が
発生する可能性がある。
認識時に、文献1で述べられているように、音素表記さ
れた単語辞書を用いて音素モデルを結合して単語モデル
を作成する場合、単語辞書中には学習用音声データ中で
現れなかった音素環境が存在することがある。各音素の
音声パターンの変動は前後の音素環境に影響されるから
、音素モデルは、学習用音声データ中に現れなかった音
素環境での音声パターンより、現れた音素環境での音声
パターンを精度良く表現している。しかし、文献1で述
べられているような方法では、未知音声データが学習用
音声データ中に現れなかった音素環境の音素を含む場合
、その音素モデルの精度が劣ることによって誤認識が発
生する可能性が高くなる。
れた単語辞書を用いて音素モデルを結合して単語モデル
を作成する場合、単語辞書中には学習用音声データ中で
現れなかった音素環境が存在することがある。各音素の
音声パターンの変動は前後の音素環境に影響されるから
、音素モデルは、学習用音声データ中に現れなかった音
素環境での音声パターンより、現れた音素環境での音声
パターンを精度良く表現している。しかし、文献1で述
べられているような方法では、未知音声データが学習用
音声データ中に現れなかった音素環境の音素を含む場合
、その音素モデルの精度が劣ることによって誤認識が発
生する可能性が高くなる。
音素環境に注目した場合、同じ音素でも、それが語尾に
ある場合とそれ以外にある場合とでは音声パターンが大
きく異なる0語尾では発声が不安定になりやすいから、
音素モデルの精度が悪くなる。従って、未知音声を認識
する場合、B!jgにおける類似度の信頼性が低いから
、語尾に対応する音素モデルが誤認識を起こす一因とな
る可能性がある。
ある場合とそれ以外にある場合とでは音声パターンが大
きく異なる0語尾では発声が不安定になりやすいから、
音素モデルの精度が悪くなる。従って、未知音声を認識
する場合、B!jgにおける類似度の信頼性が低いから
、語尾に対応する音素モデルが誤認識を起こす一因とな
る可能性がある。
そこで本発明は、未知音声を認識する際の基準となる学
習用音声に影響されない高性能な音声認識装置を提供す
ることを目的とする。
習用音声に影響されない高性能な音声認識装置を提供す
ることを目的とする。
(課題を解決するための手段)
本発明に係る第1の音声認識装置は、
音声信号を分析して特徴ベクトル時系列を出力する特徴
分析部と、該特徴分析部から出力される学習用音声に対
する特徴ベクトル時系列を用いて音素を単位とした標準
モデルを作成する標準モデル作成部と、前記標準モデル
を記憶する標準モデル記憶部と、前記学習用音声中に出
現する音素の出現頻度を音素出現頻度情報として記憶す
る出現頻度記憶部と、前記特徴分析部から出力される未
知音声に対する特徴ベクトル時系列と、前記標準モデル
記憶部に記憶してある標準モデルと、前記出現頻度記憶
部に記憶してある前記音素出現頻度情報とを入力し、前
記未知音声の標準モデルに対する類似度を前記音素出現
頻度情報により重み付けて求め、該類似度を用いて前記
未知音声を認識する認識部とを有する。
分析部と、該特徴分析部から出力される学習用音声に対
する特徴ベクトル時系列を用いて音素を単位とした標準
モデルを作成する標準モデル作成部と、前記標準モデル
を記憶する標準モデル記憶部と、前記学習用音声中に出
現する音素の出現頻度を音素出現頻度情報として記憶す
る出現頻度記憶部と、前記特徴分析部から出力される未
知音声に対する特徴ベクトル時系列と、前記標準モデル
記憶部に記憶してある標準モデルと、前記出現頻度記憶
部に記憶してある前記音素出現頻度情報とを入力し、前
記未知音声の標準モデルに対する類似度を前記音素出現
頻度情報により重み付けて求め、該類似度を用いて前記
未知音声を認識する認識部とを有する。
本発明に係る第2の音声認識装置は、前記音声認識装置
であって、 前記出現頻度記憶部は、学習用音声中に出現する音素の
出現頻度を前後の音素環境毎に累計して音素環境出現頻
度情報として記憶し、前記認識部は、前記特徴分析部か
ら出力される未知音声に対する特徴ベクトル時系列と、
前記標準モデル記憶部に記憶してある標準モデルと、前
記出現頻度記憶部に記憶してある前記音素環境出現頻度
情報とを入力し、前記未知音声の標準モデルに対する類
似度を前記音素環境出現頻度情報により重み付けて求め
、該類似度を用いて音声を認識する。
であって、 前記出現頻度記憶部は、学習用音声中に出現する音素の
出現頻度を前後の音素環境毎に累計して音素環境出現頻
度情報として記憶し、前記認識部は、前記特徴分析部か
ら出力される未知音声に対する特徴ベクトル時系列と、
前記標準モデル記憶部に記憶してある標準モデルと、前
記出現頻度記憶部に記憶してある前記音素環境出現頻度
情報とを入力し、前記未知音声の標準モデルに対する類
似度を前記音素環境出現頻度情報により重み付けて求め
、該類似度を用いて音声を認識する。
本発明に係る第3の音声認識装置は、
音声信号を分析して特徴ベクトル時系列を出力する特徴
分析部と、該特徴分析部から出力される学習用音声に対
する特徴ベクトル時系列を用いて音素を単位とする標準
モデルを作成して記憶する標準モデル記憶部と、前記特
徴分析部から出力される未知音声に対する特徴ベクトル
時系列と、前記標準モデル記憶部に記憶してある標準モ
デルとを入力し、語尾の音素に対する前記標準モデルの
寄与率を小さくして前記未知音声を認識する認識部とを
有する。
分析部と、該特徴分析部から出力される学習用音声に対
する特徴ベクトル時系列を用いて音素を単位とする標準
モデルを作成して記憶する標準モデル記憶部と、前記特
徴分析部から出力される未知音声に対する特徴ベクトル
時系列と、前記標準モデル記憶部に記憶してある標準モ
デルとを入力し、語尾の音素に対する前記標準モデルの
寄与率を小さくして前記未知音声を認識する認識部とを
有する。
(作用)
本発明は、音素モデルを用いた音声認識において、学習
用音声データ中の音素の出現頻度や音素環境による音素
モデルの精度の違い、また、語尾の音素モデルの取り扱
いを考慮することにより、高性能な音声認識を実現する
ものである。
用音声データ中の音素の出現頻度や音素環境による音素
モデルの精度の違い、また、語尾の音素モデルの取り扱
いを考慮することにより、高性能な音声認識を実現する
ものである。
まず、学習用音声データ中の音素の出現頻度による音素
モデルの精度の違いを考慮した場合について述べる。学
習用音声データはその発生内容が既知であり、容易にそ
れを構成している音素がわかるから、学習用音声データ
中での各音素毎の出現頻度Kr (r=1.2. ・
・・、R,Rは音素の総数)を容易に求めることができ
る。そして、この各音素の出現頻度を、学習用音声デー
タから作成された音素モデルとともに保存しておく、音
素モデンレとしては、S、E、Levinson、L、
R,Rabiner、およびH,H,5ond旧らの、
The Be1l 5ysten+ Technica
lJournal、Vol、62.No、4.1983
年4月のページ1035〜1074に掲載の論文“^n
Introduction to theAppli
cation of the Theory Of P
r0babiliStiCFunctions of
a Harkov Processto^uton+a
ticSpeech ReC0IJnitiOn”
(以下、文献2と称す)に述べられている隠れマルコフ
モデル(以下、HMMと呼ぶ)によるモデルを用いる。
モデルの精度の違いを考慮した場合について述べる。学
習用音声データはその発生内容が既知であり、容易にそ
れを構成している音素がわかるから、学習用音声データ
中での各音素毎の出現頻度Kr (r=1.2. ・
・・、R,Rは音素の総数)を容易に求めることができ
る。そして、この各音素の出現頻度を、学習用音声デー
タから作成された音素モデルとともに保存しておく、音
素モデンレとしては、S、E、Levinson、L、
R,Rabiner、およびH,H,5ond旧らの、
The Be1l 5ysten+ Technica
lJournal、Vol、62.No、4.1983
年4月のページ1035〜1074に掲載の論文“^n
Introduction to theAppli
cation of the Theory Of P
r0babiliStiCFunctions of
a Harkov Processto^uton+a
ticSpeech ReC0IJnitiOn”
(以下、文献2と称す)に述べられている隠れマルコフ
モデル(以下、HMMと呼ぶ)によるモデルを用いる。
HMMは、状態遷移ネットワークの一種で、各状態には
状態遷移確率とベクトル出現確率とが定義されている。
状態遷移確率とベクトル出現確率とが定義されている。
そして、音素単位のHMMのパラメータは、学習用音声
データ中の各音素間のデータを用いて、フォワード・バ
ックワード(forward−backward) フ
ルボリズムによって推定する。
データ中の各音素間のデータを用いて、フォワード・バ
ックワード(forward−backward) フ
ルボリズムによって推定する。
未知音声を認識する際には、文献1で述べられているよ
うに、音素表記された単語辞書を用いて音素モデルを結
合して単語モデルを作成する。そして、学習時に求めた
音素の出現頻度より、以下に示すような式(1)により
単語モデルを構成する各音素モデルに対する重み係数W
、を求める。
うに、音素表記された単語辞書を用いて音素モデルを結
合して単語モデルを作成する。そして、学習時に求めた
音素の出現頻度より、以下に示すような式(1)により
単語モデルを構成する各音素モデルに対する重み係数W
、を求める。
ここで、Mは単語モデルを構成する音素モデル数、aは
任意の正定数である。そして、この重み係数を、式(2
>、(3)、(4)のようにフォワード・バックワード
アルゴリズムの前向き確率(forward prob
ability)αt (l )の漸化式に組み込み
、各単語モデルに対する未知音声の出現確率Pを求め、
確率が最も高い単語を認識結果とする。
任意の正定数である。そして、この重み係数を、式(2
>、(3)、(4)のようにフォワード・バックワード
アルゴリズムの前向き確率(forward prob
ability)αt (l )の漸化式に組み込み
、各単語モデルに対する未知音声の出現確率Pを求め、
確率が最も高い単語を認識結果とする。
α1 (1)=πI bl (0、)(1≦1≦N)
(2)
(1≦t≦T−1,1≦j≦N)
ここで、Nは単語モデルの状態数、Tは未知音声の継続
時間、Otは時刻tにおける未知音声の特徴ベクトル、
π憲は初期状態がi番目の状態である確率、bl (O
t)はi番目の状態が特徴ベクトルOtを出力する確率
(ベクトル出現確率)、a、Jは1番目の状態から1番
目の状態へ遷移する確率(状態遷移確率)である、また
、m(1)は単語モデル中のi番目の状態がm番目の音
素に対応することを示す。
時間、Otは時刻tにおける未知音声の特徴ベクトル、
π憲は初期状態がi番目の状態である確率、bl (O
t)はi番目の状態が特徴ベクトルOtを出力する確率
(ベクトル出現確率)、a、Jは1番目の状態から1番
目の状態へ遷移する確率(状態遷移確率)である、また
、m(1)は単語モデル中のi番目の状態がm番目の音
素に対応することを示す。
次に、学習用音声データ中に現れる音素環境を考慮した
場合について述べる。この場合は、学習用音声データ中
での各音素毎の出現頻度を、音素環境別に累計した値を
音素モデルとともに保存する。音素環境としては、前後
の各−音素などを用いる。
場合について述べる。この場合は、学習用音声データ中
での各音素毎の出現頻度を、音素環境別に累計した値を
音素モデルとともに保存する。音素環境としては、前後
の各−音素などを用いる。
未知音声を認識する際には、先の場合と同様に単語モデ
ルを作成し、単語モデルでの各音素モデルに対して、そ
の音素環境に対する出現頻度を求め、その出現頻度を用
いて式(1)により重み係数W1を求める。そして、こ
の重み係数を用いて、式<2)、(3)、(4)より各
単語モデルに対する未知音声の出現確率Pを求め、確率
が最も高い単語を認識結果とする。
ルを作成し、単語モデルでの各音素モデルに対して、そ
の音素環境に対する出現頻度を求め、その出現頻度を用
いて式(1)により重み係数W1を求める。そして、こ
の重み係数を用いて、式<2)、(3)、(4)より各
単語モデルに対する未知音声の出現確率Pを求め、確率
が最も高い単語を認識結果とする。
最後に、語尾の音素に注目した場合について述べる。こ
の場合は、未知音声を認識する際に作成する単語モデル
において、語尾の音素モデルとそれ以外の音素モデルと
を区別して、式(5)で示すような重み係数W、を与え
る。
の場合は、未知音声を認識する際に作成する単語モデル
において、語尾の音素モデルとそれ以外の音素モデルと
を区別して、式(5)で示すような重み係数W、を与え
る。
ここで、重み係数W、は、
を満たすように正規化する。その後、前述と同様にして
認■果を求める。
認■果を求める。
(実施例)
次に、本発明の音声認識装置について図面を参照して説
明する。
明する。
第1図は本願発明の第1の音声認識装置の一実施例の構
成を示すブロック図である。まず、標準モデルの作成手
順について説明する。学習用音声信号Sは、特徴分析部
11に入力する。特徴分析部11は、古井著、1985
年、東海大学出版会発行の「ディジタル音声処理」 (
以下、文献3と称す)のページ154〜160に述べら
れているようなメルゲブストラムによる方法を用いて、
学習用音声信号Sを特徴ベクトル時系列Vに変換する。
成を示すブロック図である。まず、標準モデルの作成手
順について説明する。学習用音声信号Sは、特徴分析部
11に入力する。特徴分析部11は、古井著、1985
年、東海大学出版会発行の「ディジタル音声処理」 (
以下、文献3と称す)のページ154〜160に述べら
れているようなメルゲブストラムによる方法を用いて、
学習用音声信号Sを特徴ベクトル時系列Vに変換する。
標準モデル作成部12は、特徴分析部11から出力され
る複数個の学習用音声信号Sに対する特徴ベクトル時系
列Vを入力し、文献1で述べられているフォワード・バ
ックワードアルゴリズムによってHMMを用いた音素モ
デルMを作成する。
る複数個の学習用音声信号Sに対する特徴ベクトル時系
列Vを入力し、文献1で述べられているフォワード・バ
ックワードアルゴリズムによってHMMを用いた音素モ
デルMを作成する。
標準モデル記憶部13は、この音素モデルMを記憶する
。出現頻度記憶部14は、学習用音声S中に出現する各
音素の出現頻度を音素出現頻度情報にとして記憶する0
重み係数作成部15は、各音素モデルMに対する重み係
数Wを前記式(1)により作成する。単語辞書s16は
、音素表記された情報Iを記憶する。
。出現頻度記憶部14は、学習用音声S中に出現する各
音素の出現頻度を音素出現頻度情報にとして記憶する0
重み係数作成部15は、各音素モデルMに対する重み係
数Wを前記式(1)により作成する。単語辞書s16は
、音素表記された情報Iを記憶する。
次に、未知音声信号の認識手順について説明する。未知
音声信号S°は、特徴分析部11に入力して、特徴ベク
トル時系列V゛に変換される。そして認識部17に、特
徴ベクトル時系列V′と標準モデル記憶部13に記憶さ
れている音素モデルMと重み係数作成部15で作成され
た重み係数Wと単語辞書部16に記憶されいる情報Iと
が、入力する。すると、この認識部17は、音素表記さ
れた情報■を用いて音素モデルMを結合して単語モデル
を作成する。さらに、出現頻度記憶部14に記憶されて
いる音素出現頻度情報にと単語辞書16中の情報Iとを
入力として重み係数作成部15において式(1)で求め
られた各音素モデルMに対する重み係数Wを用いて、式
(2)(3)、(4)により各単語モデルに対する未知
音声信号S°の特徴ベクトル時系列V′の出現確率を求
める。そして、その出現確率が最も高い単語モデルのカ
テゴリ0を認識結果として出力する。
音声信号S°は、特徴分析部11に入力して、特徴ベク
トル時系列V゛に変換される。そして認識部17に、特
徴ベクトル時系列V′と標準モデル記憶部13に記憶さ
れている音素モデルMと重み係数作成部15で作成され
た重み係数Wと単語辞書部16に記憶されいる情報Iと
が、入力する。すると、この認識部17は、音素表記さ
れた情報■を用いて音素モデルMを結合して単語モデル
を作成する。さらに、出現頻度記憶部14に記憶されて
いる音素出現頻度情報にと単語辞書16中の情報Iとを
入力として重み係数作成部15において式(1)で求め
られた各音素モデルMに対する重み係数Wを用いて、式
(2)(3)、(4)により各単語モデルに対する未知
音声信号S°の特徴ベクトル時系列V′の出現確率を求
める。そして、その出現確率が最も高い単語モデルのカ
テゴリ0を認識結果として出力する。
第2図は本願発明の第2の音声認識装置の一実施例の構
成を示すブロック図である。まず、標準モデル情報の作
成手順について説明する。学習用音声信号Sは、特徴分
析部21に入力し、該特徴分析部21で特徴ベクトル時
系列Vに変換される。
成を示すブロック図である。まず、標準モデル情報の作
成手順について説明する。学習用音声信号Sは、特徴分
析部21に入力し、該特徴分析部21で特徴ベクトル時
系列Vに変換される。
標準モデル作成部22は、特徴分析部21から出力され
る複数個の学習用音声信号Sに対する特徴ベクトル時系
列■を入力して、HMMを用いた音素モデルMを作成す
る。標準モデル記憶部23は、この音素モデルMを記憶
する。出現頻度記憶部24は、学習用音声S中に出現す
る各音素の出現頻度を、音素環境側に音素環境出現頻度
情報Cとして記憶する6重り係数作成部25は、各音素
モデルMに対する重み係数Wを前記式(1)により作成
する。単語辞書26は、音素表記された情報■を記憶す
る。
る複数個の学習用音声信号Sに対する特徴ベクトル時系
列■を入力して、HMMを用いた音素モデルMを作成す
る。標準モデル記憶部23は、この音素モデルMを記憶
する。出現頻度記憶部24は、学習用音声S中に出現す
る各音素の出現頻度を、音素環境側に音素環境出現頻度
情報Cとして記憶する6重り係数作成部25は、各音素
モデルMに対する重み係数Wを前記式(1)により作成
する。単語辞書26は、音素表記された情報■を記憶す
る。
次に、未知音声信号の認識手順について説明する。未知
音声信号S゛は、特徴分析部21に入力して、特徴ベク
トル時系列V°に変換される。そして認識部27に、特
徴ベクトル時系列V′と標準モデル記憶部23に記憶さ
れている音素モデルMと重み係数作成部25で作成され
た重み係数Wと単語辞書26に記憶されいる情報Iとが
入力する。すると、この認識部27は、音素表記された
情報Iを用いて音素モデルMを結合して単語モデルを作
成する。さらに、出現頻度記憶部24に記憶されている
音素環境出現頻度情報Cと単N辞書26中の情報■とを
入力して重み係数作成部25において式(1)で求めら
れた各音素モデルMに対する重み係数Wを用いて、式(
2)、(3)。
音声信号S゛は、特徴分析部21に入力して、特徴ベク
トル時系列V°に変換される。そして認識部27に、特
徴ベクトル時系列V′と標準モデル記憶部23に記憶さ
れている音素モデルMと重み係数作成部25で作成され
た重み係数Wと単語辞書26に記憶されいる情報Iとが
入力する。すると、この認識部27は、音素表記された
情報Iを用いて音素モデルMを結合して単語モデルを作
成する。さらに、出現頻度記憶部24に記憶されている
音素環境出現頻度情報Cと単N辞書26中の情報■とを
入力して重み係数作成部25において式(1)で求めら
れた各音素モデルMに対する重み係数Wを用いて、式(
2)、(3)。
(4)により各単語モデルに対する未知音声信号S°の
特徴ベクトル時系列V′の出現確率を求める。そしで、
その出現確率が最も高い単語モデルのカテゴリOを認識
結果として出力する。
特徴ベクトル時系列V′の出現確率を求める。そしで、
その出現確率が最も高い単語モデルのカテゴリOを認識
結果として出力する。
第3図は本願発明の第3の音声認識装置の一実施例の構
成を示すブロック図である。まず、標準モデルの作成手
順について説明する。学習用音声信号Sは、特徴分析部
32に入力し、該特徴分析部32で特徴ベクトル時系列
Vに変換される。標準モデル作成部32は、特徴分析部
32から出力される複数個の学習用音声信号Sに対する
特徴ベクトル時系列Vを入力し、HMMを用いた音素モ
デルMを作成する。標準モデル記憶部33は、この音素
モデルMを記憶する。単語辞書部34は、音素表記され
た情報Iを記憶する。
成を示すブロック図である。まず、標準モデルの作成手
順について説明する。学習用音声信号Sは、特徴分析部
32に入力し、該特徴分析部32で特徴ベクトル時系列
Vに変換される。標準モデル作成部32は、特徴分析部
32から出力される複数個の学習用音声信号Sに対する
特徴ベクトル時系列Vを入力し、HMMを用いた音素モ
デルMを作成する。標準モデル記憶部33は、この音素
モデルMを記憶する。単語辞書部34は、音素表記され
た情報Iを記憶する。
次に、未知音声信号の認識手順について説明する。未知
音声信号S°は、特徴分析部31に入力して、特徴ベク
トル時系列V°に変換される。そして、認識部35に特
徴ベクトル時系列V°と標準モデル記憶部33に記憶さ
れている音素モデルMと単語辞書部34に記憶されてい
る情報Iとが入力する。すると、この認識部35は、音
素表記された情報Iを用いて音素モデルMを結合して単
語モデルを作成する。さらに、式(5)を用いて各音素
モデルMに対する重み係数を求める。そして、式(2)
、(3)、(4)により各単語モデルに対する未知音声
信号S′の特徴ベクトル時系列V゛の出現確率を求めて
、出現確率が最も高い単語モデルのカテゴリOを認識結
果として出力する。
音声信号S°は、特徴分析部31に入力して、特徴ベク
トル時系列V°に変換される。そして、認識部35に特
徴ベクトル時系列V°と標準モデル記憶部33に記憶さ
れている音素モデルMと単語辞書部34に記憶されてい
る情報Iとが入力する。すると、この認識部35は、音
素表記された情報Iを用いて音素モデルMを結合して単
語モデルを作成する。さらに、式(5)を用いて各音素
モデルMに対する重み係数を求める。そして、式(2)
、(3)、(4)により各単語モデルに対する未知音声
信号S′の特徴ベクトル時系列V゛の出現確率を求めて
、出現確率が最も高い単語モデルのカテゴリOを認識結
果として出力する。
(発明の効果)
以上に詳しく説明したように、本発明によれば、未知音
声を認識する際に用いる標準モデルの精度を学習用音声
に影響されずに高いものとすることができるから、高性
能な音声認識装置を提供することができる。
声を認識する際に用いる標準モデルの精度を学習用音声
に影響されずに高いものとすることができるから、高性
能な音声認識装置を提供することができる。
第1図は本願発明の第1の音声認識装置の一実施例の構
成を示すブロック図、第2図は本II1発明の第2の音
声認識装置の一実施例の構成を示すブロック図、第3図
は本願発明の第3の音声認識装置の一実施例の構成を示
すブロック図である。 11.21.31・・・特徴分析部、12.2232・
・・標準モデル作成部、13.23.33・・・標準モ
デル記憶部、14.24・・・出現頻度記憶部、15゜ 25・・・重み係数作成部、 16゜ 26゜ 4 ・・・単語辞書部、 17゜ 27゜ 35・・・認識部。
成を示すブロック図、第2図は本II1発明の第2の音
声認識装置の一実施例の構成を示すブロック図、第3図
は本願発明の第3の音声認識装置の一実施例の構成を示
すブロック図である。 11.21.31・・・特徴分析部、12.2232・
・・標準モデル作成部、13.23.33・・・標準モ
デル記憶部、14.24・・・出現頻度記憶部、15゜ 25・・・重み係数作成部、 16゜ 26゜ 4 ・・・単語辞書部、 17゜ 27゜ 35・・・認識部。
Claims (3)
- (1)音声信号を分析して特徴ベクトル時系列を出力す
る特徴分析部と、該特徴分析部から出力される学習用音
声に対する特徴ベクトル時系列を用いて音素を単位とし
た標準モデルを作成する標準モデル作成部と、前記標準
モデルを記憶する標準モデル記憶部と、前記、学習用音
声中に出現する音素の出現頻度を音素出現頻度情報とし
て記憶する出現頻度記憶部と、前記特徴分析部から出力
される未知音声に対する特徴ベクトル時系列と、前記標
準モデル記憶部に記憶してある標準モデルと、前記出現
頻度記憶部に記憶してある前記音素出現頻度情報とを入
力し、前記未知音声の標準モデルに対する類似度を前記
音素出現頻度情報により重み付けて求め、該類似度を用
いて前記未知音声を認識する認識部とを有することを特
徴とする音声認識装置。 - (2)前記出現頻度記憶部は、学習用音声中に出現する
音素の出現頻度を前後の音素環境毎に累計して音素環境
出現頻度情報として記憶し、前記認識部は、前記特徴分
析部から出力される未知音声に対する特徴ベクトル時系
列と、前記標準モデル記憶部に記憶してある標準モデル
と、前記出現頻度記憶部に記憶してある前記音素環境出
現頻度情報とを入力し、前記未知音声の標準モデルに対
する類似度を前記音素環境出現頻度情報により重み付け
て求め、該類似度を用いて音声を認識することを特徴と
する請求項1記載の音声認識装置。 - (3)音声信号を分析して特徴ベクトル時系列を出力す
る特徴分析部と、該特徴分析部から出力される学習用音
声に対する特徴ベクトル時系列を用いて音素を単位とす
る標準モデルを作成して記憶する標準モデル記憶部と、
前記特徴分析部から出力される未知音声に対する特徴ベ
クトル時系列と、前記標準モデル記憶部に記憶してある
標準モデルとを入力し、語尾の音素に対する前記標準モ
デルの寄与率を小さくして前記未知音声を認識する認識
部とを有することを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2080126A JPH03278097A (ja) | 1990-03-27 | 1990-03-27 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2080126A JPH03278097A (ja) | 1990-03-27 | 1990-03-27 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03278097A true JPH03278097A (ja) | 1991-12-09 |
Family
ID=13709529
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2080126A Pending JPH03278097A (ja) | 1990-03-27 | 1990-03-27 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03278097A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5704005A (en) * | 1994-01-28 | 1997-12-30 | Fujitsu Limited | Speech recognition apparatus and word dictionary therefor |
-
1990
- 1990-03-27 JP JP2080126A patent/JPH03278097A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5704005A (en) * | 1994-01-28 | 1997-12-30 | Fujitsu Limited | Speech recognition apparatus and word dictionary therefor |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10923111B1 (en) | Speech detection and speech recognition | |
| Karpagavalli et al. | A review on automatic speech recognition architecture and approaches | |
| US20220343895A1 (en) | User-defined keyword spotting | |
| Arora et al. | Automatic speech recognition: a review | |
| US7657430B2 (en) | Speech processing apparatus, speech processing method, program, and recording medium | |
| Siniscalchi et al. | Experiments on cross-language attribute detection and phone recognition with minimal target-specific training data | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| JPH01291298A (ja) | 適応型音声認識装置 | |
| Siniscalchi et al. | A bottom-up modular search approach to large vocabulary continuous speech recognition | |
| CN101334998A (zh) | 基于异类模型区分性融合的汉语语音识别系统 | |
| Jeon et al. | Voice trigger detection from lvcsr hypothesis lattices using bidirectional lattice recurrent neural networks | |
| Pardede et al. | Deep convolutional neural networks-based features for Indonesian large vocabulary speech recognition | |
| Kannadaguli et al. | A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker | |
| Siniscalchi et al. | A study on lattice rescoring with knowledge scores for automatic speech recognition. | |
| Seki et al. | Comparison of syllable-based and phoneme-based DNN-HMM in Japanese speech recognition | |
| Austin et al. | Continuous speech recognition using segmental neural nets | |
| Kurian | A review on technological development of automatic speech recognition | |
| Li et al. | Partially speaker-dependent automatic speech recognition using deep neural networks | |
| Wang et al. | End-to-end Mandarin recognition based on convolution input | |
| JPH03278097A (ja) | 音声認識装置 | |
| Kannan | Adaptation of spectral trajectory models for large vocabulary continuous speech recognition | |
| Merad-Boudia et al. | Arabic speech recognition for connected words using HTK: Triphones expanded to Gmm based Quran recognition | |
| US20260105908A1 (en) | Language independent dictionary-trained grapheme-to-phoneme converter and text-to-speech engine for improved speech recognition | |
| US20260105909A1 (en) | Data Free Speech Recognition | |
| US20260105912A1 (en) | Hmm decoding compensation for speech recognition and multi-structured decoding for low resource command recognition |