JPH10274994A - 類似単語識別方法およびその装置 - Google Patents

類似単語識別方法およびその装置

Info

Publication number
JPH10274994A
JPH10274994A JP27024997A JP27024997A JPH10274994A JP H10274994 A JPH10274994 A JP H10274994A JP 27024997 A JP27024997 A JP 27024997A JP 27024997 A JP27024997 A JP 27024997A JP H10274994 A JPH10274994 A JP H10274994A
Authority
JP
Japan
Prior art keywords
word
output
drnn
similar
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP27024997A
Other languages
English (en)
Inventor
Yasunaga Miyazawa
康永 宮沢
Sunao Aizawa
直 相澤
Mitsuhiro Inazumi
満広 稲積
Hiroo Hasegawa
浩男 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP27024997A priority Critical patent/JPH10274994A/ja
Publication of JPH10274994A publication Critical patent/JPH10274994A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 DRNN単語モデルを用いて単語認識を行う
際に誤認識されやすい類似単語を高精度で識別する。 【解決手段】 類似単語を識別する方法の1例として、
ある単語の音声が入力されたとき、DRNN単語モデル
を用いてその入力単語音声データに対応したDRNN出
力を単語検出信号出力部4から出力し、前記入力単語音
声データをコードブック7を用いてコードデータ化す
る。そして、前記単語検出信号出力部4から一定以上の
確からしさを表すDRNN出力が出された場合、認識処
理部9がそのDRNN出力にその入力単語の特徴部分を
含む所定区間を設定するとともに、その設定された所定
区間において前記コード化されコードデータを調べ、そ
の結果に基づいて入力単語とその入力単語に類似する単
語との識別を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発音の類似する単
語を識別する類似単語識別方法および類似単語識別装置
に関し、特に、不特定話者用の音声認識技術の一つとし
てのDRNN(Dynamic Recurrent Neural Network
s)単語モデルを用いた音声認識技術における類似単語
識別方法および類似単語識別装置に関する。
【0002】
【従来の技術】不特定話者用の音声認識技術の一つとし
て、DRNN単語モデルを用いた音声認識技術がある
(このDRNNによる音声認識技術については、本出願
人が特開平6−4079、特開平6−119476など
により出願済みである)。
【0003】このDRNN単語モデルは、或る単語の特
徴ベクトル列が時系列データとして入力されると、その
単語に対する適切な出力が得られるようにするために、
予め定めた学習則に従って各ユニット間の重みとバイア
スがそれぞれ決められ、これにより、或る不特定話者の
発話する単語の音声データに対して、その単語に対する
教師出力に近い出力を得るようにしている。
【0004】たとえば、或る不特定話者の「おはよう」
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力(教師出力)に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットに与
え、学習則に従って設定された重みとバイアスによって
変換する。これを時系列データとして入力される或る1
つの単語の特徴ベクトル列すべてについて、各時刻対応
に時系列処理を行う。このようにして、或る不特定話者
の発話する単語の音声データに対して、その単語に対す
る教師出力に近い出力を得るようにしている。
【0005】このように、認識すべき単語全てに対応し
て用意されたDRNN音声モデルについて、それぞれの
単語に対して適切な出力が取り出されるように重みを変
化させる学習則は、(社)電子情報通信学会発行の信学技
報:technical report of IEICI sp92-125(1993-0
1)の17頁から24頁に記載されている。
【0006】このように、予め幾つかの単語について学
習されたDRNN単語モデルを用いた音声認識について
図7を参照しながら簡単に説明する。
【0007】このDRNN方式による音声認識技術は、
たとえば、「おはよう、いいお天気だね」といった連続
音声の中から認識対象単語として予め登録されている単
語(この場合、「おはよう」、「天気」など)をキーワ
ードとして、これらキーワードとなる単語が入力音声中
のどの部分にどれくらいの確かさで存在するかを示す値
を得て、その確からしさを示す値を基に前記したような
連続的な音声を理解するものである。
【0008】たとえば、入力話者が、「おはよう、いい
お天気だね」発話したとき、図7(a)に示すような音
声信号が出力されたとする。このような音声信号に対
し、「おはよう」という音声信号部分で同図(b)のよ
うな出力が得られ、また、「天気」という音声信号部分
で同図(c)のような出力が得られる。同図(b),
(c)において、0.9あるいは0.8といった数値は、確か
らしさ(近似度)を示す数値であり、0.9や0.8といった
高い数値であれば、その単語は入力音声の中に、高い確
からしさで存在するということができる。つまり、「お
はよう」という登録単語は、同図(b)に示すように、
入力音声信号の時間軸上のw1の部分に0.9という確か
らしさで存在し、「天気」という登録単語は、同図
(c)に示すように、入力音声信号の時間軸上のw2の
部分に0.8という確からしさで存在することがわかる。
【0009】このように、認識対象とするそれぞれの単
語ごとのDRNN単語モデルを作成して、そのDRNN
単語モデルを用いて入力音声を認識する。
【0010】ところで、ある単語についてのDRNN単
語モデルを作成する場合、その認識対象単語とそれ以外
の単語の2つの単語を連ねて発話して学習させるという
ようなことを行う。
【0011】たとえば、図8に示すように、2つの単語
(認識対象単語を単語1、他を単語2とする)の連続す
る音声信号に対して、単語1の音声データに対しては出
力を立ち上げ、その後に続く単語2の音声データに対し
ては出力を立ち下げ、また、図示しないが、順序を逆に
して、単語2の音声データに対しては出力を立ち上げな
いで、その後に続く単語1の音声データに対しては出力
を立ち上げるような学習を行う。
【0012】
【発明が解決しようとする課題】このようにしてDRN
N単語モデルの学習がなされるが、このように学習され
て作成されたDRNN単語モデルを用いた音声認識処理
において問題となるのは、認識対象単語に似た単語(類
似単語)が発話されると、その単語が認識対象単語でな
くても、一定以上の確からしさを有するDRNN出力が
出てくることである。
【0013】これは、DRNN単語モデルを学習する
際、前述したように、2つの単語の音声データを連続し
て与えて学習するが、このとき、発音の似た単語同志を
用いて学習しないのが通例であるからである。その理由
は、たとえば、「何時」と「何度」を発音の似た単語
(類似単語という)として考えたとき、「なんじ」につ
いての音声モデルを作成する際、「なんじ」の音声デー
タと「なんど」の音声データを連続させて与え、「なん
じ」の音声データに対しては出力を立ち上げ、それと発
音の似た「なんど」では立ち上げないという学習をさせ
るのは、両者とも同じ音韻列である「なん」の部分で学
習に矛盾が生じるからである。
【0014】したがって、認識対象単語として「なん
じ」について学習されたDRNN単語モデルの場合、入
力話者が「なんど」と発話した場合も「なんじ」と発話
した場合と同等のDRNN出力が出ることが多く、この
場合は、「なんじ」と認識されることになる。
【0015】また、ユーザからは、たとえば、予め学習
されて認識対象単語として登録されている「なんじ」と
いう単語に加えて、「なんど」という単語についても認
識可能としてほしいとの要望が出される場合がある。こ
のように、ユーザから類似単語を確実に認識できるよう
にしてほしいとの要望が出た場合、簡単な処理で対応で
きるようにする必要がある。
【0016】そこで、本発明は、類似単語を確実に認識
可能とするために、現在のDRNN音声モデルの学習方
法そのものを変えることなく、現在の音声モデルを利用
して、簡単でかつ高精度な類似単語の識別を可能とする
ことを目的とする。
【0017】
【課題を解決するための手段】前記した目的を達成する
ために、本発明における類似単語識別方法における請求
項1の発明は、ある単語の音声データに反応して確から
しさを表す所定の出力が得られるように学習された音声
モデルを有し、この音声モデルを用いて入力単語に対す
る出力を取り出してその出力に基づいて認識処理する
際、誤認識される可能性のある類似単語との識別を行う
類似単語識別方法において、ある単語の音声が入力され
たとき、その入力単語の音声データに反応する音声モデ
ルにより一定以上の確からしさを表す出力が出された場
合、その出力に入力単語の特徴部分を含む所定区間を設
定し、その所定区間における前記入力単語の音声データ
の特徴を調べ、その結果に基づいて、入力単語とその入
力単語に類似する単語との識別を行うことを特徴として
いる。
【0018】また、請求項2の発明は、ある単語の音声
データに反応して確からしさを表す所定の出力が得られ
るように学習されたDRNN音声モデルを有し、このD
RNN音声モデルを用いて入力単語に対するDRNN出
力を取り出してその出力に基づいて認識処理する際、誤
認識される可能性のある類似単語との識別を行う類似単
語識別方法において、ある単語の音声が入力されたと
き、DRNN音声モデルを用いてその入力単語音声デー
タに応じたDRNN出力を出すとともに、前記入力単語
音声データをコードブックを用いてコードデータ化し、
前記入力単語に対して一定以上の確からしさを表すDR
NN出力が出された場合、そのDRNN出力にその入力
単語の特徴部分を含む所定区間を設定するとともに、前
記設定された所定区間において前記コードデータを調
べ、その結果に基づいて、入力単語とその入力単語に類
似する単語との識別を行うことを特徴としている。
【0019】また、請求項3の発明は、請求項2の発明
において、前記設定された所定区間におけるコードデー
タのうち、母音に対応するコードデータを調べ、どの母
音であるかにより、入力単語とその入力単語に類似する
単語との識別を行うようにしている。
【0020】そして、請求項4の発明は、請求項2また
は3の発明において、前記コードブックを、5つの母音
から生成されたコードブックとしている。
【0021】また、請求項5の発明は、前記請求項2、
3または4の発明において、前記DRNN音声モデル
を、類似単語の種類毎にグループ分けされた類似単語グ
ループに対応させ、それぞれの類似単語グループにおい
て、そのグループ内の単語すべてに対して一定以上の確
からしさを表すDRNN出力が得られるように学習され
た音声モデルとしたことを特徴としている。
【0022】このように、本発明は、類似単語を識別す
る方法の1つとして、コードブックを用いて入力音声デ
ータをベクトル量子化し、コードデータを得て、DRN
N出力の所定区間にどのような母音が存在するかを調べ
て、入力単語を識別するようにしている。これにより、
DRNN出力だけでは識別できない類似単語に対して、
DRNN音声モデルの学習方法を変えることなく、既存
のDRNNモデルをそのまま用いて、高精度に類似単語
の識別が可能となる。また、コードブックを5つの母音
から生成されたコードブックとすることにより、処理を
大幅に簡略化することができる。
【0023】また、請求項6の発明は、ある単語の音声
データに反応して確からしさを表す所定の出力が得られ
るように学習されたDRNN音声モデルを有し、このD
RNN音声モデルを用いて入力単語に対するDRNN出
力を取り出してその出力に基づいて認識処理する際、誤
認識される可能性のある類似単語との識別を行う類似単
語識別方法において、誤認識される可能性のある類似単
語それぞれに対し、複数の話者がそれぞれの単語につい
て発話して得られた音声データを所定のコードブックを
用いてコード化し、このコード化されたコードデータを
用いて、各単語についてその単語の特徴部分を含む所定
区間におけるコードヒストグラムを生成し、各単語語ご
とのヒストグラムデータを標準ヒストグラムデータとし
て保存し、ある単語の音声が入力されたとき、DRNN
音声モデルを用いてその入力単語音声データに対応した
DRNN出力を出すとともに、前記入力単語音声データ
を所定のコードブックを用いてコードデータ化し、前記
入力単語に対して一定以上の確からしさを表すDRNN
出力が出された場合、そのDRNN出力にその入力単語
の特徴部分を含む所定区間を設定するとともに、前記コ
ードデータを用いて前記所定区間内におけるコードヒス
トグラムを生成し、このヒストグラムデータと、前記標
準ヒストグラムデータとを比較して、前記入力単語とそ
の入力単語に類似する単語との識別を行うことを特徴と
している。
【0024】また、請求項7の発明は、請求項6におい
て、それぞれのヒストグラムを正規化したのち、両者の
差分をとり、その差分の大きさから入力単語とその入力
単語に類似する単語との識別を行うことを特徴としてい
る。
【0025】このように、入力単語データを基に作成さ
れたヒストグラムデータと標準ヒストグラムデータから
類似単語を識別する方法によっても、前記同様、DRN
N出力だけでは識別できない類似単語に対して、DRN
N音声モデルの学習方法を変えることなく、既存のDR
NNモデルをそのまま用いて、高精度に類似単語の識別
が可能となる。さらに、この発明は、単語の特徴部分を
含む所定区間のコードデータの度数分布を標準話者の度
数分布と比較しているので、より一層、高精度な識別が
可能となり、きわめて誤認識されやすい類似単語につい
ても高精度に識別可能となる。
【0026】また、請求項8の発明は、請求項6または
7の発明において、前記DRNN音声モデルを、類似単
語の種類毎にグループ分けされた類似単語グループに対
応させ、それぞれの類似単語グループにおいて、そのグ
ループ内の単語すべてに対して一定以上の確からしさを
表すDRNN出力が得られるように学習された音声モデ
ルとしたことを特徴としている。
【0027】さらに、請求項9の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたDRNN音声モデルを有し、この
DRNN音声モデルを用いて入力単語に対するDRNN
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別方法において、誤認識される可能性のある類似
単語それぞれの特徴部分に対し、一定以上の確からしさ
を表すDRNN出力が得られるように学習されたDRN
Nサブ音声モデルを作成しておき、ある単語の音声が入
力されたとき、その入力単語に対して一定以上の確から
しさを表すDRNN出力が出された場合、そのDRNN
出力にその単語の特徴部分を含む所定区間を設定し、そ
の所定区間内において前記DRNNサブ音声モデルによ
るDRNN出力状態を調べ、その結果に基づいて入力単
語とその入力単語に類似する単語との識別を行うことを
特徴としている。
【0028】請求項10の発明は、請求項9の発明にお
いて、どのDRNNサブ音声モデルによるDRNN出力
が一定以上の確からしさを表す値となっているかにより
入力単語とその入力単語に類似する単語との識別を行う
ことを特徴としている。
【0029】このように、DRNNサブ音声モデルを用
いて類似単語を識別する方法によっても、DRNN出力
だけでは識別できない類似単語に対しても、既存のDR
NN音声モデルの学習方法を変更することなく類似単語
を確実に識別することができる。さらに、この発明は、
類似単語同士の特徴部分のみのDRNN音声モデルを用
いてそのDRNN出力から判断するので、より一層、高
精度な識別が可能となり、きわめて誤認識されやすい類
似単語についても高精度に識別可能となる。
【0030】そして、また、請求項11の発明は、請求
項9または10の発明において、前記DRNN音声モデ
ルは、類似単語の種類毎にグループ分けされた類似単語
グループに対応させ、それぞれの類似単語グループにお
いて、そのグループ内の単語すべてに対して一定以上の
確からしさを表すDRNN出力が得られるように学習さ
れた音声モデルであることを特徴としている。
【0031】以上のように、ここでは大きく分けて3つ
の方法について述べたが、これらのどの方法も処理が簡
単で、既存のDRNN音声モデルの学習方法を変更する
ことなく類似単語を確実に識別することができる。ま
た、前記DRNN音声モデルは、類似単語の種類毎にグ
ループ分けされた類似単語グループに対応させ、それぞ
れの類似単語グループにおいて、そのグループ内の単語
すべてに対して一定以上の確からしさを表すDRNN出
力が得られるように学習された音声モデルとすることに
より、類似単語をそれぞれ認識対象単語とする際、類似
単語1つ1つに対して音声モデルを作成する必要がなく
なり、コスト的にも優れたものとなる。また、本発明の
類似単語識別装置のうち、請求項12の発明は、ある単
語の音声データに反応して確からしさを表す所定の出力
が得られるように学習された音声モデルを有し、この音
声モデルを用いて入力単語に対する出力を取り出してそ
の出力に基づいて認識処理する際、誤認識される可能性
のある類似単語との識別を行う類似単語識別装置におい
て、ある単語の音声が入力されたとき、その入力単語の
音声データに反応する音声モデルにより一定以上の確か
らしさを表す出力を出す単語検出信号出力手段と、この
単語検出信号出力手段から一定以上の確からしさを表す
出力が出された場合、その出力に入力単語の特徴部分を
含む所定区間を設定し、その所定区間における前記入力
単語の音声データの特徴を調べ、その結果に基づいて、
入力単語とその入力単語に類似する単語との識別を行う
認識処理手段とを有することを特徴としている。
【0032】また、請求項13の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたDRNN音声モデルを有し、この
DRNN音声モデルを用いて入力単語に対するDRNN
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別装置において、ある単語の音声が入力されたと
き、DRNN音声モデルを用いてその入力単語音声デー
タに対応したDRNN出力を出す単語検出信号出力手段
と、前記入力単語音声データをコードブックを用いてコ
ードデータ化するコード化手段と、前記単語検出信号出
力手段から一定以上の確からしさを表すDRNN出力が
出された場合、そのDRNN出力にその入力単語の特徴
部分を含む所定区間を設定するとともに、その設定され
た所定区間において前記コード化手段によりコード化さ
れコードデータを調べ、その結果に基づいて入力単語と
その入力単語に類似する単語との識別を行う認識処理手
段とを有することを特徴としている。
【0033】請求項14の発明は、請求項13におい
て、前記設定された所定区間におけるコードデータのう
ち、母音に対応するコードデータを調べ、どの母音であ
るかにより、入力単語とその入力単語に類似する単語と
の識別を行うことを特徴としている。
【0034】また、請求項15の発明は、請求項13ま
たは14の発明において、前記コードブックを5つの母
音から生成したコードブックとしている。
【0035】また、請求項16の発明は、請求項13、
14または15の発明において、前記DRNN音声モデ
ルは、類似単語の種類毎にグループ分けされた類似単語
グループに対応させ、それぞれの類似単語グループにお
いて、そのグループ内の単語すべてに対して一定以上の
確からしさを表すDRNN出力が得られるように学習さ
れた音声モデルであることを特徴としている。
【0036】このように、本発明の類似単語識別装置
は、コードブックを用いて入力音声データをベクトル量
子化し、コードデータを得て、DRNN出力の所定区間
にどのような母音が存在するかを調べて、入力単語を識
別するようにしている。これにより、DRNN出力だけ
では識別できない類似単語に対して、DRNN音声モデ
ルの学習方法を変えることなく、既存のDRNNモデル
をそのまま用いて、高精度に類似単語の識別が可能とな
る。また、コードブックを5つの母音から生成されたコ
ードブックとすることにより、処理を大幅に簡略化する
ことができる。
【0037】また、請求項17の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたDRNN音声モデルを有し、この
DRNN音声モデルを用いて入力単語に対するDRNN
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別装置において、誤認識される可能性のある類似
単語それぞれについて複数の話者が発話して得られた音
声データをコード化したコードデータのうち、その単語
の特徴部分を含む所定区間におけるコードデータを用い
て作成されたコードヒストグラムを、標準ヒストグラム
データとして保存する標準ヒストグラムデータ記憶手段
と、ある単語の音声が入力されたとき、DRNN音声モ
デルを用いてその入力単語音声データに対応するDRN
N出力を出す単語検出信号出力手段と、前記入力単語音
声データを所定のコードブックを用いてコードデータ化
するコード化手段と、前記単語検出信号出力手段から一
定以上の確からしさを表すDRNN出力が出された場
合、そのDRNN出力にその入力単語の特徴部分を含む
所定区間を設定するとともに、前記コード化手段でコー
ド化されたコードデータを用いて前記所定区間内におけ
るコードヒストグラムを生成し、このヒストグラムデー
タと、前記標準ヒストグラムデータとを比較して、前記
入力単語とその入力単語に類似する単語との識別を行う
認識処理手段とを有することを特徴としている。
【0038】また、請求項18の発明は、請求項17に
おいて、それぞれのヒストグラムを正規化したのち、両
者の差分をとり、その差分の大きさから入力単語とその
入力単語に類似する単語との識別を行うことを特徴とし
ている。
【0039】このように、入力単語データを基に作成さ
れたヒストグラムデータと標準ヒストグラムデータから
類似単語を識別する類似単語識別装置は、前記同様、D
RNN出力だけでは識別できない類似単語に対して、D
RNN音声モデルの学習方法を変えることなく、既存の
DRNNモデルをそのまま用いて、高精度に類似単語の
識別が可能となる。さらに、この発明は、単語の特徴部
分を含む所定区間のコードデータの度数分布を標準話者
の度数分布と比較しているので、より一層、高精度な識
別が可能となり、きわめて誤認識されやすい類似単語に
ついても高精度に識別可能となる。
【0040】請求項19の発明は、請求項17または1
8の発明において、前記DRNN音声モデルを、類似単
語の種類毎にグループ分けされた類似単語グループに対
応させ、それぞれの類似単語グループにおいて、そのグ
ループ内の単語すべてに対して一定以上の確からしさを
表すDRNN出力が得られるように学習された音声モデ
ルとしたことを特徴としている。
【0041】また、請求項20の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたDRNN音声モデルを有し、この
DRNN音声モデルを用いて入力単語に対するDRNN
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別装置において、誤認識される可能性のある類似
単語それぞれの特徴部分に対し、一定以上の確からしさ
を表すDRNN出力が得られるように学習されたDRN
Nサブ音声モデルを記憶するDRNNサブ音声モデル記
憶手段と、ある単語の音声が入力されたとき、前記DR
NN音声モデルを用いてその入力単語データに対応した
DRNN出力を出すとともに、前記DRNNサブ音声モ
デルを用いて前記入力単語の特徴部分に対応したDRN
N出力を出す単語検出信号出力手段と、この単語検出信
号出力手段から前記DRNN音声モデルを用いて一定以
上の確からしさを表すDRNN出力が出された場合、そ
のDRNN出力にその単語の特徴部分を含む所定区間を
設定し、その所定区間内において前記入力単語に対する
前記DRNNサブ音声モデルによるDRNN出力状態を
調べ、その結果に基づいて入力単語とその入力単語に類
似する単語との識別を行う認識処理部とを有することを
特徴としている。
【0042】請求項21の発明は、請求項20の発明に
おいて、どのDRNNサブ音声モデルによるDRNN出
力が一定以上の確からしさを表す値となっているかによ
り入力単語とその入力単語に類似する単語との識別を行
うことを特徴としている。
【0043】このようにDRNNサブ音声モデルを用い
て類似単語を識別する類似単語識別装置によっても、前
記同様、DRNN出力だけでは識別できない類似単語に
対して、DRNN音声モデルの学習方法を変えることな
く、既存のDRNNモデルをそのまま用いて、高精度に
類似単語の識別が可能となる。さらに、この発明は、類
似単語同士の特徴部分のみのDRNN音声モデルを用い
てそのDRNN出力から判断するので、より一層、高精
度な識別が可能となり、きわめて誤認識されやすい類似
単語についても高精度に識別可能となる。
【0044】また、請求項22の発明は、請求項20ま
たは21の発明において、前記DRNN音声モデルは、
類似単語の種類毎にグループ分けされた類似単語グルー
プに対応させ、それぞれの類似単語グループにおいて、
そのグループ内の単語すべてに対して一定以上の確から
しさを表すDRNN出力が得られるように学習された音
声モデルであることを特徴としている。
【0045】以上のように、ここでは大きく分けて3つ
の類似単語識別装置について述べたが、これらのどの類
似単語識別装置においても、装置構成が大幅に複雑化す
ることはなく、また、既存のDRNN音声モデルの学習
方法を変更せずに、簡単な処理で類似単語を確実に識別
することができる。また、前記DRNN音声モデルは、
類似単語の種類毎にグループ分けされた類似単語グルー
プに対応させ、それぞれの類似単語グループにおいて、
そのグループ内の単語すべてに対して一定以上の確から
しさを表すDRNN出力が得られるように学習された音
声モデルとすることにより、類似単語を認識対象単語と
する際、類似単語1つ1つに対して音声モデルを作成す
る必要がなくなり、コスト的にも優れたものとなる。
【0046】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。なお、以下に説明する実施の形態
では、誤認識されやすい類似単語語として「なんじ(何
時)」と「なんど(何度)」を用い、これらそれぞれの
単語を認識処理する例について説明する。
【0047】(第1の実施の形態)図1は第1の実施の
形態を実現するための単語識別装置を示すブロック図で
あり、音声入力部としてのマイクロホン1、A/D変換
部2、音声分析部3、単語検出信号出力部4、DRNN
出力情報記憶部5、ベクトル量子化部6、コードブック
7、コードデータ記憶部8、認識処理部9などから構成
されている。
【0048】前記マイクロホン1から入力された音声は
A/D変換部2でA/D変換されたのち、音声分析部3
でたとえば10次元のLPCケプストラム係数で表され
る特徴ベクトル列に変換される。
【0049】前記単語検出信号出力部4はDRNN単語
デル記憶部41、ワードスポッティング部42から構成
される。DRNN単語モデル記憶部41は、認識対象単
語ごとのDRNN単語モデルデータが記憶されるもの
で、認識対象単語としては、たとえば、「おはよう」、
「おやすみ」、「なんじ」などの単語であるとする。
【0050】ワードスポッティング部42は、音声分析
部3からの音声データが入力されると、DRNN単語モ
デル記憶部41の内容を用いて、キーワード(認識対象
単語)に対するDRNN出力(DRNN出力の開始時
刻、終了時刻、確からしさを表す出力値などのデータ)
を得る。そして、これらの各データはDRNN出力情報
記憶部5に記憶される。
【0051】なお、この実施の形態では、前記したよう
に、類似語として「なんじ」と「なんど」を例にしてい
る。そして、「なんじ」という単語について学習された
単語モデルを有し、入力話者の発話する「なんじ」とい
う音声データに対しては、高い確からしさを有する出力
が出てくるようになっている。また、入力話者の発話す
る「なんど」という音声データに対しても同様の出力が
出力される。
【0052】ところで、前記コードブック7は「あ・い
・う・え・お」の5個の母音から作成されたコードサイ
ズが5のコードブックである。
【0053】ベクトル量子化部6は、音声分析された入
力音声の特徴ベクトル列を前記コードブック7を用いて
ベクトル量子化しコードデータを作成するものであり、
そのコードデータはコードデータ記憶部8に格納され
る。
【0054】このような構成において具体的な処理につ
いて説明する。
【0055】前述したように、DRNN単語モデル記憶
部41は、認識対象単語ごとのDRNN単語モデルを記
憶している。したがって、入力話者が「なんじ」と発話
すれば、ワードスポッティング部42からは一定以上の
確からしさを有するDRNN出力(「なんじ」の音声モ
デルによるDRNN出力)が出され、そのDRNN出力
の開始時刻、終了時刻、確からしさを表す出力値が検出
される。そして、これら各データはDRNN出力情報記
憶部5に格納される。
【0056】なお、この第1の実施の形態およびその後
の第2、第3の実施の形態における説明の中で、ワード
スポッティング部42からのDRNN出力というような
表現がある場合は、「なんじ」の音声モデルによるDR
NN出力という意味である。一方、入力話者が「なん
ど」と発話したときも、同様に、ワードスポッティング
部42からは一定以上の確からしさを有するDRNN出
力が出るとともに、そのDRNN出力の開始時刻、終了
時刻、確からしさを表す値が出力され、そのDRNN出
力の開始時刻、終了時刻、確からしさを表す出力値など
のデータはDRNN出力情報記憶部5に格納される。
【0057】図2(a)は入力話者が発話1として「い
まなんじかな」と発話した場合のDRNN出力を示すも
ので、図2(b)は入力話者が発話2として「いまなん
どかな」と発話した場合のDRNN出力を示すものであ
る。このように、「なんじ」および「なんど」の部分で
共に一定以上の確からしさを有するDRNN出力が出て
くる。
【0058】そして、入力話者が「いまなんじかな」と
発話した場合、その音声データ(特徴ベクトル列)は、
ベクトル量子化部6にも与えらる。このベクトル量子化
部6では、5つの母音から作成されたコードブック7を
用いて、入力話者の「いまなんじかな」の音声データを
ベクトル量子化する。
【0059】すなわち、コードブック7には、「あ・い
・う・え・お」のそれぞれの母音に対応する5個のコー
ドベクトル、つまり、「あ」に対してはc0、「い」に
対してはc1、「う」に対してはc2、「え」に対して
はc3、「お」に対してはc4が存在し、これらのコー
ドベクトル「c0,c1,・・・,c4」と、入力話者
が発話して得られた特徴ベクトル列を構成する各特徴ベ
クトルとの距離を計算し、最短距離のコードベクトルと
の対応付けを行うことによりコード化してコードデータ
得る。このコード化されたコード列の例を図2(c)に
示す。この図2(c)からもわかるように、「いまなん
じかな」の音韻列のうち、たとえば、「い」は母音の
「い」の音韻そのものであり、また、「じ」の部分にも
母音の「い」の音韻が存在するため、そのコードデータ
はc1が多いデータとなり、「ま」、「な」、「か」、
「な」などは母音の「あ」の音韻が存在するため、その
コードデータはc0が多いデータとなる。
【0060】このようにコード化されたコードデータは
コードデータ記憶部8に格納される。そして、認識処理
部9では、このコードデータ記憶部8に格納されたコー
ドデータと前記DRNN出力情報記憶部5に格納された
DRNN出力データに基づいて、入力話者の発話した単
語が、「なんじ」か「なんど」であるかを判定する。こ
の判定処理について以下に説明する。
【0061】前記DRNN出力情報記憶部5に格納され
るデータは、前述したように、DRNN出力の開始時
刻、終了時刻、確からしさを表す出力値であり、これら
のデータに基づいて、「なんじ」に対応するDRNN出
力(図2(a)参照)のうち、ある区間t1を設定する。
この区間t1は、この場合、「なんじ」と「なんど」の
識別であるから、両者に最も違いの出ると思われる
「じ」または「ど」の音韻部分のDRNN出力を十分含
むような区間を設定する。つまり、入力される類似単語
の特徴部分(この場合、「じ」、「ど」の部分)に対す
るDRNN出力を含むような区間を設定する。
【0062】そして、図2(c)に示すコードデータ列
における区間t1に対応するコードデータが主にどのよ
うなコードベクトルで構成されているかを調べる。この
場合、区間t1におけるコードベクトルは、c2,c
1,c1,c1が存在している。
【0063】このように、区間t1には「い」のコード
ベクトルが存在しているので、図2(a)で示されるD
RNN出力は、「なんじ」に対するDRNN出力である
と判断する。
【0064】また、入力話者が「いまなんどかな」と発
話したとすると、この場合も、DRNN出力は「なん
じ」とほぼ同様の出力となるが、この「いまなんどか
な」の特徴ベクトル列をコードブック7を用いてベクト
ル量子化部6でコード化すると、図2(d)のようなコ
ード列となる。この図2(d)からもわかるように、こ
の場合、区間t1におけるコードベクトルは、c2,c
4,c4,c4が存在している。
【0065】このように、区間t1には「お」のコード
ベクトルが存在しているので、図2(a)で示されるD
RNN出力は、「なんど」に対するDRNN出力である
と判断する。
【0066】以上のようにこの第1の実施の形態では、
類似単語を識別する方法として、5つの母音から作成し
たコードブックを用いて入力音声データをベクトル量子
化し、コードデータを得て、DRNN出力の所定区間に
どのような母音が存在するかを調べて、入力単語を識別
するようにしている。これにより、DRNN出力だけで
は識別できない単語に対しても高精度に識別できるよう
になる。
【0067】なお、この第1の実施の形態では、コード
ブック7は5つの母音から作成されたコード数が5個の
ものを使用する例について述べたが、このコードブック
7のコード数は5個に限られるものではなく、たとえ
ば、子音を含んだ音声から作成されたもっとコード数の
多いコードブックを用いるようにしてもよい。たとえ
ば、全音素の特徴を含むコードブックを用いた場合、
「なんじ」と「なんど」を例に取れば、入力話者の発話
して得られた「じ」または「ど」の音声データを、コー
ドブックを用いてベクトル量子化して、「なんじ」また
は「なんど」のDRNN出力の前記設定区間t1に
「じ」または「ど」に対応するコードデータが有るか否
かを判断することにより、入力話者の発話した単語が、
「なんじ」であるか「なんど」であるかを判断すること
ができる。ただし、この第1の実施の形態においては、
5つの母音から作成されたコードブックを用いた方が処
理量の点から有利である。
【0068】以上説明した第1の実施の形態で説明した
方法を用いて、成人男性と成人女性の合計二百数十名の
話者数にて「なんど」と「なんじ」について実際に発話
して認識率を求める実験を行った結果、95%近い認識
率が得られた。なお、ここで用いたコードブックは、男
女別のコードブック(離散母音発話データから作成した
サイズ=5のコードブック)である。この実験結果から
も類似単語についてきわめて高精度に識別を行うことが
できることがわかる。
【0069】(第2の実施の形態)次に本発明の第2の
実施の形態について説明する。図3は第2の実施の形態
を実現するための類似単語識別装置の構成図であり、第
1の実施の形態の構成と異なるのは、標準ヒストグラム
記憶部11とヒストグラム生成部12を設けた点にあ
る。その他の構成要素は図1とほぼ同じであるので、同
一部分には同一符号が付されている。ただし、この第2
の実施の形態で用いられるコードブック7は、全音素の
特徴を含むコードブックが使用される。この第2の実施
の形態では、コード数が64のコードブックを使用した
例で説明する。
【0070】前記標準ヒストグラム記憶部11には、標
準ヒストグラムデータが記憶される。この標準ヒストグ
ラムデータは、たとえば、「なんじ」という単語につい
て、数百人の話者一人一人が発話して得られた音声デー
タを、64のサイズのコードブックを用いてベクトル量
子化したとき、そのコードブックのどのコードベクトル
が何回出現したかを示すヒストグラムデータである。こ
の標準ヒストグラムデータは、誤認識されやすい類似単
語ごとに予め作成しておくものである。
【0071】図4(a)は、数百人のうち或る一人の話
者が「なんじ」と発話して得られた音声データを64サ
イズのコードブックを用いてベクトル量子化したとき得
られたコードデータ列を示すものであり、これを一人一
人について求め、c0〜c63のコードベクトルごとに
出現数を累積して、標準ヒストグラムを作成する。
【0072】そして、前述の第1の実施の形態で説明し
たように、「なんじ」の音声データに反応して出力する
DRNN出力(図2(a)参照)のうち、前記同様、あ
る区間t1を設定する。そして、前記作成された標準ヒ
ストグラムのうち、この区間t1における標準ヒストグ
ラムデータを標準ヒストグラム記憶部11に記憶させて
おく。図4(b)は標準ヒストグラム記憶部11に記憶
される標準ヒストグラム例を示すものである。
【0073】すなわち、この図4(b)に示される標準
ヒストグラムは、「なんじ」に対するDRNN出力の区
間t1に対応する音韻部分における数百人の話者から得
られたコードベクトルの累積出現数を表すものとなる。
【0074】同様にして、「なんじ」の類似単語である
「なんど」に対しても、前記区間t1に対応する音韻部
分における数百人の話者から得られたコードベクトルの
標準ヒストグラムを作成しておく。
【0075】以上のようにして類似単語(ここでは「な
んじ」と「なんど」)のDRNN出力の所定区間t1部
分におけるそれぞれの標準ヒストグラムを予め作成して
おき、それを標準ヒストグラム記憶部11に記憶させて
おく。
【0076】そして、ユーザが「いまなんじかな」と発
話した場合、その音声データ(特徴ベクトル列)は、ワ
ードスポッティング部42に与えられるとともに、ベク
トル量子化部6にも与えらる。このベクトル量子化部6
では、64のコードサイズのコードブック7を用いて、
ユーザの「いまなんじかな」の音声データをベクトル量
子化してコードデータを得る。このコードデータはコー
ドデータ記憶部8に格納される。
【0077】そして、認識処理部9では、ヒストグラム
の生成処理が必要と判断すると、DRNN出力情報から
得られた区間t1における入力話者のヒストグラムを生
成する。なお、ヒストグラムの生成処理が必要か否かの
判断は、DRNN出力情報記憶部5の内容を見て、ユー
ザの発話した「なんじ」に対して、一定上の確からしさ
を示す値が出力された場合は、ヒストグラムの生成処理
が必要と判断する。
【0078】前記区間t1における入力話者のヒストグ
ラムを生成する処理は、コードデータ記憶部8に格納さ
れたユーザの「いまなんじかな」の音声データに対する
コードデータのうち、前記DRNN出力の区間t1に対
応する部分のコードベクトルのヒストグラムを生成す
る。これにより生成されたヒストグラムの例を図4
(c)に示す。そして、この入力話者のヒストグラムと
前記標準ヒストグラムの距離を求めるが、標準ヒストグ
ラムは数百人から得られたヒストグラムであり、入力話
者のヒストグラムは一人の音声データから得られたヒス
トグラムであるため、それぞれを正規化して距離を求め
る。この正規化処理は特に限定されるものではない。
【0079】正規化された入力話者ヒストグラムと「な
んじ」に対する標準ヒストグラムとの差分ヒストグラム
を求めるとともに、入力話者ヒストグラムと「なんど」
に対する標準ヒストグラムとの差分ヒストグラムを求め
る。図4(d)は入力話者ヒストグラムと「なんじ」に
対する標準ヒストグラムとの差分ヒストグラム(絶対
値)を示すものである。
【0080】このようにして求められた差分ヒストグラ
ム(絶対値)における累積度数をたし算してその合計を
求める。
【0081】以上の処理を入力話者ヒストグラムと「な
んど」に対する標準ヒストグラムについても行い、両者
の差分ヒストグラムを求め、その差分ヒストグラムの累
積度数を足して合計を求める。
【0082】そして、それぞれの合計値を比較して合計
値の小さい方を選択する。たとえば、入力話者ヒストグ
ラムと「なんじ」に対する標準ヒストグラムとにより求
められた差分ヒストグラム(絶対値)における累積度数
の合計値が、入力話者ヒストグラムと「なんじ」に対す
る標準ヒストグラムとにより求められた差分ヒストグラ
ム(絶対値)における合計値よりも小さい場合は、入力
話者の発話した単語は「なんじ」であると判定する。
【0083】以上のように、この第2の実施の形態で
は、類似単語について数百人が発話して得られたそれぞ
れの音声データをコード化し、そのコードデータを基に
前記したような類似単語ごとの標準ヒストグラムを作成
しておき、この標準ヒストグラムと入力話者ヒストグラ
ムとの差分ヒストグラムを求め、その差分ヒストグラム
から入力単語を識別するようにしている。この第2の実
施の形態によっても、第1の実施の形態同様、DRNN
出力だけでは識別できない単語に対しても、既存のDR
NN音声モデルの学習方法を変更することなく類似単語
を確実に識別することができる。
【0084】また、この第2の実施の形態で示した方法
は、単語の特徴部分を含む所定区間のコードデータの度
数分布を標準話者の度数分布と比較しているので、より
一層、高精度な識別が可能となり、きわめて誤認識され
やすい類似単語についても高精度に識別可能となる。
【0085】以上説明した第2の実施の形態で説明した
方法を用いて、成人男性と成人女性の合計二百数十名の
話者数にて「なんど」と「なんじ」について実験した結
果、ほぼ100%に近い認識率が得られた。なお、ここ
で用いたコードブックは、男性用コードブックでそのコ
ードサイズは256のコードブックであり、標準ヒスト
グラムは男性用、女性用、男女兼用を作成したが、どの
標準ヒストグラムを用いてもほぼ同様の高い認識率が得
られた。
【0086】(第3の実施の形態)次に本発明の第3の
実施の形態について説明する。図5は第3の実施の形態
を実現するための類似識別装置の構成図であり、音声入
力部としてのマイクロホン1、A/D変換部2、音声分
析部3、単語検出信号出力部4、DRNN出力情報記憶
部5、認識処理部9、サブ単語DRNN出力情報記憶部
13などから構成されている。
【0087】この第3の実施の形態による単語検出信号
出力部4は、前記第1、第2の実施の形態で用いたDR
NN単語モデル記憶部41、ワードスポッティング部4
2の他に、DRNNサブ単語モデル記憶部43を有して
いる。このDRNNサブ単語モデル記憶部43は、類似
単語としての「なんじ」と「なんど」におけるそれぞれ
の特徴部分「じ」と「ど」のDRNN単語モデルデータ
を記憶するものである。
【0088】また、サブ単語DRNN出力情報記憶部1
3は、DRNNサブ単語モデル記憶部43を用いて、ワ
ードスポッティング処理されたときに出力されるDRN
N出力の開始時刻、終了時刻、確からしさを表すデータ
などを記憶するものである。なお、この実施の形態で
は、前記DRNN出力情報記憶部5は、サブ単語DRN
N出力情報記憶部13に対して入力単語そのもののDR
NN出力情報を記憶するものであるから、両者を区別す
るために、以下では入力単語DRNN出力情報記憶部5
という。
【0089】以下、この第3の実施の形態の処理につい
て説明する。この第3の実施の形態においても、類似単
語として「なんじ」と「なんど」を例にして説明する。
【0090】今、入力話者が「いまなんじかな」と発話
したとすると、その音声は音声分析部3で分析され、特
徴ベクトル列として出力され、ワードスポッティング部
42に与えられる。これにより、DRNN単語モデル記
憶部41の内容を用いてワードスポッティング処理さ
れ、ワードスポッティング部42からは「なんじ」の部
分で図6(a)に示すような一定以上の確からしさを有
するDRNN出力が出され、そのDRNN出力の開始時
刻、終了時刻、確からしさを表す出力値などのデータが
入力単語DRNN出力情報記憶部5に格納される。
【0091】このように、ユーザが「いまなんじかな」
と発話したときに、「なんじ」の部分でDRNNが出力
されるが、これとともに、「じ」の音韻部分でDRNN
サブ単語モデル記憶部43の内容を用いてワードスポッ
ティン処理され、ワードスポッティング部42からは
「じ」の部分で図6(b)に示すような一定以上の確か
らしさを有するDRNN出力が出される。そして、この
「じ」の音韻部分におけるDRNN出力の開始時刻、終
了時刻、確からしさを表す出力値がサブ単語DRNN出
力情報記憶部13に格納される。
【0092】そして、認識処理部9では、「なんじ」に
対する一定以上の確からしさを有するDRNN出力が有
った場合、前記第1、第2の実施の形態で説明したよう
に、入力単語DRNN出力情報記憶部5に格納された時
刻情報を基に、区間t1を設定し、その区間t1におけ
るサブ単語DRNN出力を調べ、その結果に基づいて入
力単語がどの単語であるかを判定する。つまり、認識処
理部9は、入力単語DRNN出力情報記憶部5とサブ単
語DRNN出力情報記憶部13の内容に基づいて入力単
語を認識する。具体的な処理は次のようにして行う。
【0093】前記サブ音声DRNN出力情報記憶部13
には、この場合、「じ」に対するDRNN出力の開始時
刻、終了時刻、確からしさを表す出力値などデータが入
っている。
【0094】したがって、認識処理部9は、「なんじ」
に対する一定以上の確からしさを有するDRNN出力が
有り、かつ、前記区間t1に一定上の確からしさを有す
るサブ単語DRNN出力が存在すれば、入力音声は「な
んじ」であると判断する。
【0095】一方、入力話者が「いまなんどかな」と発
話すると、ワードスポッティング部42からは「なん
ど」の部分で図6(c)に示すような一定以上の確から
しさを有するDRNN出力が出る。そして、そのDRN
N出力の開始時刻、終了時刻、確からしさを表す出力値
が検出され、各データは入力単語DRNN出力情報記憶
部5に格納される。
【0096】このように、ユーザが「いまなんどかな」
と発話したときに、「なんど」の部分でDRNNが出力
されるが、「ど」の音韻部分でDRNNサブ単語モデル
を用いてワードスポッティン処理され、ワードスポッテ
ィング部42からは「ど」の部分で図6(d)に示すよ
うな一定以上の確からしさを有するDRNN出力が出さ
れる。そして、この「ど」の音韻部分におけるDRNN
出力の開始時刻、終了時刻、確からしさを表す出力値が
検出され、各検出データはサブ単語DRNN出力情報記
憶部13に格納される。
【0097】したがって、認識処理部9は、「なんど」
に対する一定以上の確からしさを有するDRNN出力が
あり、かつ、前記区間t1に一定上の確からしさを有す
るサブ単語DRNN出力が存在すれば、入力音声は「な
んど」であると判断する。
【0098】ところで、この第3の実施の形態では、
「じ」や「ど」といった1つの音韻のDRNN単語モデ
ルを持つようにいている。実際の認識においては、1つ
の音韻DRNN単語モデルでは、「じ」や「ど」以外の
色々な音声に対しても出力がでてしまうことが多く、1
つの音韻そのものを認識するためのDRNN単語モデル
は現段階では問題を残している。しかし、この第3の実
施の形態のように、サブ単語モデルとして用いるのであ
れば実用上十分なデータを得ることができる。
【0099】また、ここでは「なんじ」と「なんど」に
ついて説明したので、DRNNサブ単語モデルは「じ」
と「ど」に対応した1つの音韻のDRNNサブ単語モデ
ルとしたが、類似文字によっては、1つの音韻のDRN
Nサブ単語モデルではなく2つ音韻以上のサブ単語モデ
ルとする場合もある。
【0100】たとえば、「なんじ」と「なんにち(何
日)」が類似単語であるとすると、この場合は、「なん
じ」に対するDRNNサブ単語モデルとして「じ」のD
RNNサブ単語モデルを用意し、「なんにち」に対して
は、たとえば、「にち」のDRNNサブ単語モデルを用
意する。このようにすれば、種々の類似単語に対応でき
る。
【0101】以上説明した第3の実施の形態によって
も、第1、第2の実施の形態同様、DRNN出力だけで
は識別できない単語に対しても、既存のDRNN単語モ
デルの学習方法を何等変更することなく類似単語を確実
に識別することができる。また、この第3の実施の形態
では、類似単語同志で異なる部分の音韻そのものに対す
るDRNN出力によって識別しているので、より一層、
高精度な識別が可能となる。
【0102】以上説明したように、DRNN単語モデル
を用いた音声認識においては、たとえば、「なんじ」と
「なんど」などの類似単語が入力された場合、両方の音
声に対してDRNN出力が出てしまうが、第1〜第3の
実施の形態によれば、このような類似単語に対して、認
識装置が持っているDRNN単語モデルの学習方法を変
えることなく、簡単な処理を追加するだけで、類似単語
を高精度に識別することができる。
【0103】なお、本発明は前述した第1〜第3の実施
の形態以外でも類似単語の識別は可能である。たとえ
ば、キーワードスポッティングが可能な始終端フリーD
Pマッチング法、HMM(隠れマルコフ)法、ニューラ
ルネットワーク法などの一般的な音声認識技術を用いて
識別することもできる。始終端フリーDPマッチング法
を用いた場合について以下に簡単に説明する。ここでも
「なんじ」と「なんど」を識別するものとする。
【0104】「なんじ」と「なんど」のそれぞれの標準
話者特徴データを用意しておき、入力話者の発話するた
とえば「いまなんじかな」によって出力される「なん
じ」に対応する部分のDRNN出力に前記した区間t1
を設定し、その区間t1において、入力音声特徴データ
と前記標準話者特徴データとのDPマッチングをとって
距離を求め、その距離から入力単語を識別する。この識
別方式は前述の第1〜第3の実施の形態に比べると処理
量が多くなるがこの方式によっても本発明を実現するこ
とは十分可能である。
【0105】また、前述の各実施の形態では、誤認識し
やすい類似単語として「なんじ」と「なんど」を例にし
て説明したが、類似単語はこれに限られるものでないこ
とは勿論であり、本発明は他の類似単語同志についても
識別可能である。
【0106】また、誤認識しやすい類似単語の組とし
て、たとえば、「なんじ」と「なんど」を考えたとき、
音声認識装置がもともと持っている単語モデルが「なん
じ」の単語モデルであったとすると、この単語モデルに
「なんど」が反応して一定以上のDRNN出力が出てし
まう場合、前記した各実施の形態で説明した処理を行う
ことにより、もともとの認識対象単語である「なんじ」
に対しては高精度に識別することができることは勿論、
この音声認識装置に新たな認識対象単語として「なん
ど」を加えることも可能となる。これは、他の類似単語
の組についても同様のことが言える。
【0107】さらに、本発明を実現するに際して、認識
装置の持つ単語モデルを始めから類似単語すべてに一定
以上のDRNN出力が出るような学習しておくようにし
てもよい。
【0108】たとえば、類似単語として「なんじ」と
「なんど」を例に取れば、「なんじ」に対しても「なん
ど」に対しても十分なDRNN出力が出る音声モデルを
予め作成しておき、これら類似単語のいずれが入力され
ても積極的にDRNN出力を出して、以降は、前記各実
施の形態で説明したような識別処理を行ってどの単語が
入力されたかを判断するようにしてもよい。
【0109】このようにすれば、認識対象単語の中に誤
認識されやすい類似単語が複数有る場合、類似単語それ
ぞれの音声モデルを持つ必要がなくなり、コスト的にも
有利なものとなる。
【0110】さらに、これに関連して、類似単語のグル
ープを作成し、そのグループ内のどの単語に対しても一
定以上の確からしさを有するDRNN出力が出るように
した単語モデルを各グループごとに作成するようにして
もよい。
【0111】たとえば、類似単語Aグループとして「な
んじ」と「なんど」、類似単語Bグループとして「でん
ごん(伝言)」、「でんわ(電話)」、「でんき(電
気)」などと言うように誤認識されやすい単語同志でグ
ループ分けしておく。そして、類似単語Aグループのど
の単語に対しても一定以上の確からしさを有する出力が
出るように学習されたDRNN単語モデルAを作成し、
また、類似単語Bグループのどの単語に対しても一定以
上の確からしさを有する出力が出るように学習されたD
RNN単語モデルBを作成するというように、それぞれ
のグループ対応の単語モデルを作成しておく。同様にし
て、他の類似単語グループに対しても各グループ対応の
単語モデルを作成しておく。
【0112】このように、類似単語のグループを作成
し、そのグループ内のどの単語に対しても一定以上のD
RNN出力が出るようにした各グループ対応の単語モデ
ルを持つことで、たとえば、「なんじ」という入力が入
った場合には、それに対応する単語モデルが働いて一定
以上の確からしさを有するDRNN出力が出され、以降
は、前述した各実施の形態で説明した処理を行うように
すれば、入力音声は「なんじ」であるとの判定を行うこ
とができる。
【0113】このようにすれば、認識対象単語の中に誤
認識されやすい類似単語が多数存在しても、類似単語そ
れぞれの単語モデルを持つ必要がなくなり、コスト的に
も有利なものとなる。
【0114】また、本発明は、前述の各実施の形態で説
明した類似単語識別処理を組み合わせて用いるようにし
てもよい。
【0115】なお、本発明の処理を行う処理プログラム
は、フロッピィディスク、光ディスク、ハードディスク
などの記憶媒体に記憶させておくことができ、本発明
は、それらの記憶媒体をも含むものであり、また、ネッ
トワークからデータを得る形式でもよい。
【0116】
【発明の効果】以上説明したように本発明によれば、D
RNN出力だけでは識別できない類似単語に対して、D
RNN単語モデルの学習方法を変えることなく、既存の
DRNN単語モデルをそのまま用いて、高精度に類似単
語の識別が可能となる。これを実現するための1つの方
法として、コードブックを用いて入力音声データをベク
トル量子化し、コードデータを得て、DRNN出力の所
定区間にどのような母音が存在するかを調べて、入力単
語を識別することにより、DRNN出力だけでは識別で
きない類似単語に対して、DRNN単語モデルの学習方
法を変えることなく、既存のDRNN単語モデルをその
まま用いて、高精度に類似単語の識別が可能となる。ま
た、コードブックを5つの母音から生成されたコードブ
ックとすることにより、きわめて少ない処理量にて類似
単語の識別が可能となる。
【0117】また、入力単語データを基に作成されたヒ
ストグラムデータと標準ヒストグラムデータから類似単
語を識別する方法によっても、前記同様、DRNN出力
だけでは識別できない類似単語に対して、DRNN単語
モデルの学習方法を変えることなく、既存のDRNN単
語モデルをそのまま用いて、高精度に類似単語の識別が
可能となる。このように、単語の特徴部分を含む所定区
間のコードデータの度数分布を標準話者の度数分布と比
較して類似単語の識別を行うことで、より一層、高精度
な識別が可能となり、きわめて誤認識されやすい類似単
語についても高精度に識別可能となる。
【0118】さらに、DRNNサブ単語モデルを用いて
類似単語を識別する方法によっても、前記同様、DRN
N出力だけでは識別できない類似単語に対しても、既存
のDRNN単語モデルの学習方法を変更することなく類
似単語を確実に識別することができる。このように、類
似単語同士の特徴部分のみのDRNN単語モデルを用い
て、類似単語同志で異なる部分の音韻そのものに対する
DRNN出力によって識別することにより、より一層、
高精度な識別が可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における類似単語識
別装置の構成図。
【図2】第1の実施の形態における識別処理を説明する
図。
【図3】本発明の第2の実施の形態における類似単語識
別装置の構成図。
【図4】第2の実施の形態における識別処理を説明する
図。
【図5】本発明の第3の実施の形態における類似単語識
別装置の構成図。
【図6】第3の実施の形態における識別処理を説明する
図。
【図7】DRNN単語モデルを用いてワードスポッティ
ング処理する際のDRNN出力を説明する図。
【図8】DRNN単語モデルを学習する際に2つの単語
を連続させて学習させる処理を説明する図。
【符号の説明】
1 マイクロホン 2 A/D変換部 3 音声分析部 4 単語検出信号分析部 5 DRNN出力情報記憶部 6 ベクトル量子化部 7 コードブック 8 コードデータ記憶部 9 認識処理部 11 標準ヒストグラムデータ記憶部 12 ヒストグラム生成部 13 サブ単語DRNN出力情報記憶部 41 DRNN単語モデル記憶部 42 ワードスポッティング部 43 DRNNサブ単語モデル記憶部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 長谷川 浩男 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 ある単語の音声データに反応して確から
    しさを表す所定の出力が得られるように学習された音声
    モデルを有し、この音声モデルを用いて入力単語に対す
    る出力を取り出してその出力に基づいて認識処理する
    際、誤認識される可能性のある類似単語との識別を行う
    類似単語識別方法において、 ある単語の音声が入力されたとき、その入力単語の音声
    データに反応する音声モデルにより一定以上の確からし
    さを表す出力が出された場合、その出力に入力単語の特
    徴部分を含む所定区間を設定し、その所定区間における
    前記入力単語の音声データの特徴を調べ、その結果に基
    づいて、入力単語とその入力単語に類似する単語との識
    別を行うことを特徴とする類似単語識別方法。
  2. 【請求項2】 ある単語の音声データに反応して確から
    しさを表す所定の出力が得られるように学習されたDR
    NN音声モデルを有し、このDRNN音声モデルを用い
    て入力単語に対するDRNN出力を取り出してその出力
    に基づいて認識処理する際、誤認識される可能性のある
    類似単語との識別を行う類似単語識別方法において、 ある単語の音声が入力されたとき、DRNN音声モデル
    を用いてその入力単語音声データに応じたDRNN出力
    を出すとともに、前記入力単語音声データをコードブッ
    クを用いてコードデータ化し、 前記入力単語に対して一定以上の確からしさを表すDR
    NN出力が出された場合、そのDRNN出力にその入力
    単語の特徴部分を含む所定区間を設定するとともに、前
    記設定された所定区間において前記コードデータを調
    べ、その結果に基づいて、入力単語とその入力単語に類
    似する単語との識別を行うことを特徴とする類似単語識
    別方法。
  3. 【請求項3】 前記設定された所定区間において前記コ
    ードデータを調べ、その結果に基づいて入力単語とその
    入力単語に類似する単語との識別を行う処理は、 前記設定された所定区間におけるコードデータのうち、
    母音に対応するコードデータを調べ、どの母音であるか
    により、入力単語とその入力単語に類似する単語との識
    別を行うことを特徴とする請求項2記載の類似単語識別
    方法。
  4. 【請求項4】 前記コードブックは、5つの母音から生
    成されたコードブックであることを特徴とする請求項2
    または3記載の類似単語識別方法。
  5. 【請求項5】 前記DRNN音声モデルは、類似単語の
    種類毎にグループ分けされた類似単語グループに対応さ
    せ、それぞれの類似単語グループにおいて、そのグルー
    プ内の単語すべてに対して一定以上の確からしさを表す
    DRNN出力が得られるように学習された音声モデルで
    あることを特徴とする請求項2、3、または4記載の類
    似単語識別方法。
  6. 【請求項6】 ある単語の音声データに反応して確から
    しさを表す所定の出力が得られるように学習されたDR
    NN音声モデルを有し、このDRNN音声モデルを用い
    て入力単語に対するDRNN出力を取り出してその出力
    に基づいて認識処理する際、誤認識される可能性のある
    類似単語との識別を行う類似単語識別方法において、 誤認識される可能性のある類似単語それぞれに対し、複
    数の話者がそれぞれの単語について発話して得られた音
    声データを所定のコードブックを用いてコード化し、こ
    のコード化されたコードデータを用いて、各単語につい
    てその単語の特徴部分を含む所定区間におけるコードヒ
    ストグラムを作成し、各単語ごとのヒストグラムデータ
    を標準ヒストグラムデータとして保存し、 ある単語の音声が入力されたとき、DRNN音声モデル
    を用いてその入力単語音声データに対応したDRNN出
    力を出すとともに、その入力単語音声データを所定のコ
    ードブックを用いてコードデータ化し、 前記入力単語に対して一定以上の確からしさを表すDR
    NN出力が出された場合、そのDRNN出力にその入力
    単語の特徴部分を含む所定区間を設定するとともに、前
    記コードデータを用いて前記所定区間内におけるコード
    ヒストグラムを作成し、このヒストグラムデータと、前
    記標準ヒストグラムデータとを比較して、前記入力単語
    とその入力単語に類似する単語との識別を行うことを特
    徴とする類似単語識別方法。
  7. 【請求項7】 前記入力単語により作成されたヒストグ
    ラムデータと、前記標準ヒストグラムデータとを比較し
    て、前記入力単語とその入力単語に類似する単語との識
    別を行う処理は、 それぞれのヒストグラムを正規化したのち、両者の差分
    をとり、その差分の大きさから入力単語とその入力単語
    に類似する単語との識別を行うことを特徴とする請求項
    6記載の類似単語識別方法。、
  8. 【請求項8】 前記DRNN音声モデルは、類似単語の
    種類毎にグループ分けされた類似単語グループに対応さ
    せ、それぞれの類似単語グループにおいて、そのグルー
    プ内の単語すべてに対して一定以上の確からしさを表す
    DRNN出力が得られるように学習された音声モデルで
    あることを特徴とする請求項6または7記載の類似単語
    識別方法。
  9. 【請求項9】 ある単語の音声データに反応して確から
    しさを表す所定の出力が得られるように学習されたDR
    NN音声モデルを有し、このDRNN音声モデルを用い
    て入力単語に対するDRNN出力を取り出してその出力
    に基づいて認識処理する際、誤認識される可能性のある
    類似単語との識別を行う類似単語識別方法において、 誤認識される可能性のある類似単語それぞれの特徴部分
    に対し、一定以上の確からしさを表すDRNN出力が得
    られるように学習されたDRNNサブ音声モデルを作成
    しておき、 ある単語の音声が入力されたとき、その入力単語に対し
    て一定以上の確からしさを表すDRNN出力が出された
    場合、そのDRNN出力にその単語の特徴部分を含む所
    定区間を設定し、その所定区間内において前記DRNN
    サブ音声モデルによるDRNN出力状態を調べ、その結
    果に基づいて入力単語とその入力単語に類似する単語と
    の識別を行うことを特徴とする類似単語識別方法。
  10. 【請求項10】 前記所定区間内において前記DRNN
    サブ音声モデルによるDRNN出力状態を調べ、その結
    果に基づいて入力単語とその入力単語に類似する単語と
    の識別を行う処理は、 どのDRNNサブ音声モデルによるDRNN出力が一定
    以上の確からしさを表す値となっているかにより入力単
    語とその入力単語に類似する単語との識別を行うことを
    特徴とする請求項9記載の類似単語識別方法。
  11. 【請求項11】 前記DRNN音声モデルは、類似単語
    の種類毎にグループ分けされた類似単語グループに対応
    させ、それぞれの類似単語グループにおいて、そのグル
    ープ内の単語すべてに対して一定以上の確からしさを表
    すDRNN出力が得られるように学習された音声モデル
    であることを特徴とする請求項9または10記載の類似
    単語識別方法。
  12. 【請求項12】 ある単語の音声データに反応して確か
    らしさを表す所定の出力が得られるように学習された音
    声モデルを有し、この音声モデルを用いて入力単語に対
    する出力を取り出してその出力に基づいて認識処理する
    際、誤認識される可能性のある類似単語との識別を行う
    類似単語識別装置において、 ある単語の音声が入力されたとき、その入力単語の音声
    データに反応する音声モデルにより一定以上の確からし
    さを表す出力を出す単語検出信号出力手段と、 この単語検出信号出力手段から一定以上の確からしさを
    表す出力が出された場合、その出力に入力単語の特徴部
    分を含む所定区間を設定し、その所定区間における前記
    入力単語の音声データの特徴を調べ、その結果に基づい
    て、入力単語とその入力単語に類似する単語との識別を
    行う認識処理手段と、 を有することを特徴とする類似単語識別装置。
  13. 【請求項13】 ある単語の音声データに反応して確か
    らしさを表す所定の出力が得られるように学習されたD
    RNN音声モデルを有し、このDRNN音声モデルを用
    いて入力単語に対するDRNN出力を取り出してその出
    力に基づいて認識処理する際、誤認識される可能性のあ
    る類似単語との識別を行う類似単語識別装置において、 ある単語の音声が入力されたとき、DRNN音声モデル
    を用いてその入力単語音声データに対応したDRNN出
    力を出す単語検出信号出力手段と、 前記入力単語音声データをコードブックを用いてコード
    データ化するコード化手段と、 前記単語検出信号出力手段から一定以上の確からしさを
    表すDRNN出力が出された場合、そのDRNN出力に
    その入力単語の特徴部分を含む所定区間を設定するとと
    もに、その設定された所定区間において前記コード化手
    段によりコード化されコードデータを調べ、その結果に
    基づいて入力単語とその入力単語に類似する単語との識
    別を行う認識処理手段と、 を有することを特徴とする類似単語識別装置。
  14. 【請求項14】 前記設定された所定区間において前記
    コードデータを調べ、その結果に基づいて入力単語とそ
    の入力単語に類似する単語との識別を行う処理は、 前記設定された所定区間におけるコードデータのうち、
    母音に対応するコードデータを調べ、どの母音であるか
    により、入力単語とその入力単語に類似する単語との識
    別を行うことを特徴とする請求項13記載の類似単語識
    別装置。
  15. 【請求項15】 前記コードブックは5つの母音から生
    成されたコードブックであることを特徴とする請求項1
    3または14記載の類似単語識別装置。
  16. 【請求項16】 前記DRNN音声モデルは、類似単語
    の種類毎にグループ分けされた類似単語グループに対応
    させ、それぞれの類似単語グループにおいて、そのグル
    ープ内の単語すべてに対して一定以上の確からしさを表
    すDRNN出力が得られるように学習された音声モデル
    であることを特徴とする請求項13、14、または15
    記載の類似単語識別装置。
  17. 【請求項17】 ある単語の音声データに反応して確か
    らしさを表す所定の出力が得られるように学習されたD
    RNN音声モデルを有し、このDRNN音声モデルを用
    いて入力単語に対するDRNN出力を取り出してその出
    力に基づいて認識処理する際、誤認識される可能性のあ
    る類似単語との識別を行う類似単語識別装置において、 誤認識される可能性のある類似単語それぞれについて複
    数の話者が発話して得られた音声データをコード化した
    コードデータのうち、それぞれの類似単語の特徴部分を
    含む所定区間におけるコードデータを用いて作成された
    類似単語ごとのコードヒストグラムを、標準ヒストグラ
    ムデータとして保存する標準ヒストグラム記憶手段と、 ある単語の音声が入力されたとき、DRNN音声モデル
    を用いてその入力単語音声データに対応するDRNN出
    力を出す単語検出信号出力手段と、 前記入力単語音声データを所定のコードブックを用いて
    コードデータ化するコード化手段と、 前記単語検出信号出力手段から一定以上の確からしさを
    表すDRNN出力が出された場合、そのDRNN出力に
    その入力単語の特徴部分を含む所定区間を設定するとと
    もに、前記コード化手段でコード化されたコードデータ
    を用いて前記所定区間内におけるコードヒストグラムを
    生成し、このヒストグラムデータと、前記標準ヒストグ
    ラムデータとを比較して、前記入力単語とその入力単語
    に類似する単語との識別を行う認識処理手段と、 を有することを特徴とする類似単語識別装置。
  18. 【請求項18】 前記入力単語により作成されたヒスト
    グラムデータと、前記標準ヒストグラムデータとを比較
    して、前記入力単語とその入力単語に類似する単語との
    識別を行う処理は、 それぞれのヒストグラムを正規化したのち、両者の差分
    をとり、その差分の大きさから入力単語とその入力単語
    に類似する単語との識別を行うことを特徴とする請求項
    17記載の類似単語識別装置。
  19. 【請求項19】 前記DRNN音声モデルは、類似単語
    の種類毎にグループ分けされた類似単語グループに対応
    させ、それぞれの類似単語グループにおいて、そのグル
    ープ内の単語すべてに対して一定以上の確からしさを表
    すDRNN出力が得られるように学習された音声モデル
    であることを特徴とする請求項17または18記載の類
    似単語識別装置。
  20. 【請求項20】 ある単語の音声データに反応して確か
    らしさを表す所定の出力が得られるように学習されたD
    RNN音声モデルを有し、このDRNN音声モデルを用
    いて入力単語に対するDRNN出力を取り出してその出
    力に基づいて認識処理する際、誤認識される可能性のあ
    る類似単語との識別を行う類似単語識別装置において、 誤認識される可能性のある類似単語それぞれの特徴部分
    に対し、一定以上の確からしさを表すDRNN出力が得
    られるように学習されたDRNNサブ音声モデルを記憶
    するDRNNサブ音声モデル記憶手段と、 ある単語の音声が入力されたとき、前記DRNN音声モ
    デルを用いてその入力単語データに対応したDRNN出
    力を出すとともに、前記DRNNサブ音声モデルを用い
    て前記入力単語の特徴部分に対応したDRNN出力を出
    す単語検出信号出力手段と、 この単語検出信号出力手段から前記DRNN音声モデル
    を用いて一定以上の確からしさを表すDRNN出力が出
    された場合、そのDRNN出力にその単語の特徴部分を
    含む所定区間を設定し、その所定区間内において前記入
    力単語に対する前記DRNNサブ音声モデルによるDR
    NN出力を調べ、その結果に基づいて入力単語とその入
    力単語に類似する単語との識別を行う認識処理部と、 を有することを特徴とする類似単語識別装置。
  21. 【請求項21】 前記所定区間内において前記入力単語
    に対する前記DRNNサブ音声モデルによるDRNN出
    力を調べ、その結果に基づいて入力単語とその入力単語
    に類似する単語との識別を行う処理は、 どのDRNNサブ音声モデルによるDRNN出力が一定
    以上の確からしさを表す値となっているかにより入力単
    語とその入力単語に類似する単語との識別を行うことを
    特徴とする請求項20記載の類似単語識別装置。
  22. 【請求項22】 前記DRNN音声モデルは、類似単語
    の種類毎にグループ分けされた類似単語グループに対応
    させ、それぞれの類似単語グループにおいて、そのグル
    ープ内の単語すべてに対して一定以上の確からしさを表
    すDRNN出力が得られるように学習された音声モデル
    であることを特徴とする請求項20または21記載の類
    似単語識別装置。
JP27024997A 1997-01-30 1997-10-02 類似単語識別方法およびその装置 Withdrawn JPH10274994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27024997A JPH10274994A (ja) 1997-01-30 1997-10-02 類似単語識別方法およびその装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1720597 1997-01-30
JP9-17205 1997-01-30
JP27024997A JPH10274994A (ja) 1997-01-30 1997-10-02 類似単語識別方法およびその装置

Publications (1)

Publication Number Publication Date
JPH10274994A true JPH10274994A (ja) 1998-10-13

Family

ID=26353688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27024997A Withdrawn JPH10274994A (ja) 1997-01-30 1997-10-02 類似単語識別方法およびその装置

Country Status (1)

Country Link
JP (1) JPH10274994A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081231A (zh) * 2016-03-23 2020-04-28 谷歌有限责任公司 用于多声道语音识别的自适应音频增强

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081231A (zh) * 2016-03-23 2020-04-28 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN111081231B (zh) * 2016-03-23 2023-09-05 谷歌有限责任公司 用于多声道语音识别的自适应音频增强

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US10176809B1 (en) Customized compression and decompression of audio data
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
EP2048655B1 (en) Context sensitive multi-stage speech recognition
CN112581963B (zh) 一种语音意图识别方法及系统
JPH09500223A (ja) 多言語音声認識システム
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
KR20220112560A (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
Kadambe et al. Language identification with phonological and lexical models
US5764851A (en) Fast speech recognition method for mandarin words
JP3444108B2 (ja) 音声認識装置
Parikh et al. Gujarati speech recognition–A review
Lee et al. Cantonese syllable recognition using neural networks
JP2001195087A (ja) 音声認識システム
Akther et al. Automated speech-to-text conversion systems in Bangla language: A systematic literature review
JPH10274994A (ja) 類似単語識別方法およびその装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
Atanda et al. Yorùbá automatic speech recognition: A review
Mary Two‐stage spoken term detection system for under‐resourced languages.

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20041207