JPH10274994A

JPH10274994A - 類似単語識別方法およびその装置

Info

Publication number: JPH10274994A
Application number: JP27024997A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Sunao Aizawa; 直相澤; Mitsuhiro Inazumi; 満広稲積; Hiroo Hasegawa; 浩男長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1997-01-30
Filing date: 1997-10-02
Publication date: 1998-10-13

Abstract

(57)【要約】【課題】ＤＲＮＮ単語モデルを用いて単語認識を行う
際に誤認識されやすい類似単語を高精度で識別する。【解決手段】類似単語を識別する方法の１例として、
ある単語の音声が入力されたとき、ＤＲＮＮ単語モデル
を用いてその入力単語音声データに対応したＤＲＮＮ出
力を単語検出信号出力部４から出力し、前記入力単語音
声データをコードブック７を用いてコードデータ化す
る。そして、前記単語検出信号出力部４から一定以上の
確からしさを表すＤＲＮＮ出力が出された場合、認識処
理部９がそのＤＲＮＮ出力にその入力単語の特徴部分を
含む所定区間を設定するとともに、その設定された所定
区間において前記コード化されコードデータを調べ、そ
の結果に基づいて入力単語とその入力単語に類似する単
語との識別を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発音の類似する単
語を識別する類似単語識別方法および類似単語識別装置
に関し、特に、不特定話者用の音声認識技術の一つとし
てのＤＲＮＮ（Ｄynamic Ｒecurrent Ｎeural Ｎetwork
s）単語モデルを用いた音声認識技術における類似単語
識別方法および類似単語識別装置に関する。

【０００２】

【従来の技術】不特定話者用の音声認識技術の一つとし
て、ＤＲＮＮ単語モデルを用いた音声認識技術がある
（このＤＲＮＮによる音声認識技術については、本出願
人が特開平６−４０７９、特開平６−１１９４７６など
により出願済みである）。

【０００３】このＤＲＮＮ単語モデルは、或る単語の特
徴ベクトル列が時系列データとして入力されると、その
単語に対する適切な出力が得られるようにするために、
予め定めた学習則に従って各ユニット間の重みとバイア
スがそれぞれ決められ、これにより、或る不特定話者の
発話する単語の音声データに対して、その単語に対する
教師出力に近い出力を得るようにしている。

【０００４】たとえば、或る不特定話者の「おはよう」
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力（教師出力）に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットに与
え、学習則に従って設定された重みとバイアスによって
変換する。これを時系列データとして入力される或る１
つの単語の特徴ベクトル列すべてについて、各時刻対応
に時系列処理を行う。このようにして、或る不特定話者
の発話する単語の音声データに対して、その単語に対す
る教師出力に近い出力を得るようにしている。

【０００５】このように、認識すべき単語全てに対応し
て用意されたＤＲＮＮ音声モデルについて、それぞれの
単語に対して適切な出力が取り出されるように重みを変
化させる学習則は、(社)電子情報通信学会発行の信学技
報:technical report of ＩＥＩＣＩ sp92-125(1993-0
1）の１７頁から２４頁に記載されている。

【０００６】このように、予め幾つかの単語について学
習されたＤＲＮＮ単語モデルを用いた音声認識について
図７を参照しながら簡単に説明する。

【０００７】このＤＲＮＮ方式による音声認識技術は、
たとえば、「おはよう、いいお天気だね」といった連続
音声の中から認識対象単語として予め登録されている単
語（この場合、「おはよう」、「天気」など）をキーワ
ードとして、これらキーワードとなる単語が入力音声中
のどの部分にどれくらいの確かさで存在するかを示す値
を得て、その確からしさを示す値を基に前記したような
連続的な音声を理解するものである。

【０００８】たとえば、入力話者が、「おはよう、いい
お天気だね」発話したとき、図７（ａ）に示すような音
声信号が出力されたとする。このような音声信号に対
し、「おはよう」という音声信号部分で同図（ｂ）のよ
うな出力が得られ、また、「天気」という音声信号部分
で同図（ｃ）のような出力が得られる。同図（ｂ），
（ｃ）において、0.9あるいは0.8といった数値は、確か
らしさ（近似度）を示す数値であり、0.9や0.8といった
高い数値であれば、その単語は入力音声の中に、高い確
からしさで存在するということができる。つまり、「お
はよう」という登録単語は、同図（ｂ）に示すように、
入力音声信号の時間軸上のｗ１の部分に0.9という確か
らしさで存在し、「天気」という登録単語は、同図
（ｃ）に示すように、入力音声信号の時間軸上のｗ２の
部分に0.8という確からしさで存在することがわかる。

【０００９】このように、認識対象とするそれぞれの単
語ごとのＤＲＮＮ単語モデルを作成して、そのＤＲＮＮ
単語モデルを用いて入力音声を認識する。

【００１０】ところで、ある単語についてのＤＲＮＮ単
語モデルを作成する場合、その認識対象単語とそれ以外
の単語の２つの単語を連ねて発話して学習させるという
ようなことを行う。

【００１１】たとえば、図８に示すように、２つの単語
（認識対象単語を単語１、他を単語２とする）の連続す
る音声信号に対して、単語１の音声データに対しては出
力を立ち上げ、その後に続く単語２の音声データに対し
ては出力を立ち下げ、また、図示しないが、順序を逆に
して、単語２の音声データに対しては出力を立ち上げな
いで、その後に続く単語１の音声データに対しては出力
を立ち上げるような学習を行う。

【００１２】

【発明が解決しようとする課題】このようにしてＤＲＮ
Ｎ単語モデルの学習がなされるが、このように学習され
て作成されたＤＲＮＮ単語モデルを用いた音声認識処理
において問題となるのは、認識対象単語に似た単語（類
似単語）が発話されると、その単語が認識対象単語でな
くても、一定以上の確からしさを有するＤＲＮＮ出力が
出てくることである。

【００１３】これは、ＤＲＮＮ単語モデルを学習する
際、前述したように、２つの単語の音声データを連続し
て与えて学習するが、このとき、発音の似た単語同志を
用いて学習しないのが通例であるからである。その理由
は、たとえば、「何時」と「何度」を発音の似た単語
（類似単語という）として考えたとき、「なんじ」につ
いての音声モデルを作成する際、「なんじ」の音声デー
タと「なんど」の音声データを連続させて与え、「なん
じ」の音声データに対しては出力を立ち上げ、それと発
音の似た「なんど」では立ち上げないという学習をさせ
るのは、両者とも同じ音韻列である「なん」の部分で学
習に矛盾が生じるからである。

【００１４】したがって、認識対象単語として「なん
じ」について学習されたＤＲＮＮ単語モデルの場合、入
力話者が「なんど」と発話した場合も「なんじ」と発話
した場合と同等のＤＲＮＮ出力が出ることが多く、この
場合は、「なんじ」と認識されることになる。

【００１５】また、ユーザからは、たとえば、予め学習
されて認識対象単語として登録されている「なんじ」と
いう単語に加えて、「なんど」という単語についても認
識可能としてほしいとの要望が出される場合がある。こ
のように、ユーザから類似単語を確実に認識できるよう
にしてほしいとの要望が出た場合、簡単な処理で対応で
きるようにする必要がある。

【００１６】そこで、本発明は、類似単語を確実に認識
可能とするために、現在のＤＲＮＮ音声モデルの学習方
法そのものを変えることなく、現在の音声モデルを利用
して、簡単でかつ高精度な類似単語の識別を可能とする
ことを目的とする。

【００１７】

【課題を解決するための手段】前記した目的を達成する
ために、本発明における類似単語識別方法における請求
項１の発明は、ある単語の音声データに反応して確から
しさを表す所定の出力が得られるように学習された音声
モデルを有し、この音声モデルを用いて入力単語に対す
る出力を取り出してその出力に基づいて認識処理する
際、誤認識される可能性のある類似単語との識別を行う
類似単語識別方法において、ある単語の音声が入力され
たとき、その入力単語の音声データに反応する音声モデ
ルにより一定以上の確からしさを表す出力が出された場
合、その出力に入力単語の特徴部分を含む所定区間を設
定し、その所定区間における前記入力単語の音声データ
の特徴を調べ、その結果に基づいて、入力単語とその入
力単語に類似する単語との識別を行うことを特徴として
いる。

【００１８】また、請求項２の発明は、ある単語の音声
データに反応して確からしさを表す所定の出力が得られ
るように学習されたＤＲＮＮ音声モデルを有し、このＤ
ＲＮＮ音声モデルを用いて入力単語に対するＤＲＮＮ出
力を取り出してその出力に基づいて認識処理する際、誤
認識される可能性のある類似単語との識別を行う類似単
語識別方法において、ある単語の音声が入力されたと
き、ＤＲＮＮ音声モデルを用いてその入力単語音声デー
タに応じたＤＲＮＮ出力を出すとともに、前記入力単語
音声データをコードブックを用いてコードデータ化し、
前記入力単語に対して一定以上の確からしさを表すＤＲ
ＮＮ出力が出された場合、そのＤＲＮＮ出力にその入力
単語の特徴部分を含む所定区間を設定するとともに、前
記設定された所定区間において前記コードデータを調
べ、その結果に基づいて、入力単語とその入力単語に類
似する単語との識別を行うことを特徴としている。

【００１９】また、請求項３の発明は、請求項２の発明
において、前記設定された所定区間におけるコードデー
タのうち、母音に対応するコードデータを調べ、どの母
音であるかにより、入力単語とその入力単語に類似する
単語との識別を行うようにしている。

【００２０】そして、請求項４の発明は、請求項２また
は３の発明において、前記コードブックを、５つの母音
から生成されたコードブックとしている。

【００２１】また、請求項５の発明は、前記請求項２、
３または４の発明において、前記ＤＲＮＮ音声モデル
を、類似単語の種類毎にグループ分けされた類似単語グ
ループに対応させ、それぞれの類似単語グループにおい
て、そのグループ内の単語すべてに対して一定以上の確
からしさを表すＤＲＮＮ出力が得られるように学習され
た音声モデルとしたことを特徴としている。

【００２２】このように、本発明は、類似単語を識別す
る方法の１つとして、コードブックを用いて入力音声デ
ータをベクトル量子化し、コードデータを得て、ＤＲＮ
Ｎ出力の所定区間にどのような母音が存在するかを調べ
て、入力単語を識別するようにしている。これにより、
ＤＲＮＮ出力だけでは識別できない類似単語に対して、
ＤＲＮＮ音声モデルの学習方法を変えることなく、既存
のＤＲＮＮモデルをそのまま用いて、高精度に類似単語
の識別が可能となる。また、コードブックを５つの母音
から生成されたコードブックとすることにより、処理を
大幅に簡略化することができる。

【００２３】また、請求項６の発明は、ある単語の音声
データに反応して確からしさを表す所定の出力が得られ
るように学習されたＤＲＮＮ音声モデルを有し、このＤ
ＲＮＮ音声モデルを用いて入力単語に対するＤＲＮＮ出
力を取り出してその出力に基づいて認識処理する際、誤
認識される可能性のある類似単語との識別を行う類似単
語識別方法において、誤認識される可能性のある類似単
語それぞれに対し、複数の話者がそれぞれの単語につい
て発話して得られた音声データを所定のコードブックを
用いてコード化し、このコード化されたコードデータを
用いて、各単語についてその単語の特徴部分を含む所定
区間におけるコードヒストグラムを生成し、各単語語ご
とのヒストグラムデータを標準ヒストグラムデータとし
て保存し、ある単語の音声が入力されたとき、ＤＲＮＮ
音声モデルを用いてその入力単語音声データに対応した
ＤＲＮＮ出力を出すとともに、前記入力単語音声データ
を所定のコードブックを用いてコードデータ化し、前記
入力単語に対して一定以上の確からしさを表すＤＲＮＮ
出力が出された場合、そのＤＲＮＮ出力にその入力単語
の特徴部分を含む所定区間を設定するとともに、前記コ
ードデータを用いて前記所定区間内におけるコードヒス
トグラムを生成し、このヒストグラムデータと、前記標
準ヒストグラムデータとを比較して、前記入力単語とそ
の入力単語に類似する単語との識別を行うことを特徴と
している。

【００２４】また、請求項７の発明は、請求項６におい
て、それぞれのヒストグラムを正規化したのち、両者の
差分をとり、その差分の大きさから入力単語とその入力
単語に類似する単語との識別を行うことを特徴としてい
る。

【００２５】このように、入力単語データを基に作成さ
れたヒストグラムデータと標準ヒストグラムデータから
類似単語を識別する方法によっても、前記同様、ＤＲＮ
Ｎ出力だけでは識別できない類似単語に対して、ＤＲＮ
Ｎ音声モデルの学習方法を変えることなく、既存のＤＲ
ＮＮモデルをそのまま用いて、高精度に類似単語の識別
が可能となる。さらに、この発明は、単語の特徴部分を
含む所定区間のコードデータの度数分布を標準話者の度
数分布と比較しているので、より一層、高精度な識別が
可能となり、きわめて誤認識されやすい類似単語につい
ても高精度に識別可能となる。

【００２６】また、請求項８の発明は、請求項６または
７の発明において、前記ＤＲＮＮ音声モデルを、類似単
語の種類毎にグループ分けされた類似単語グループに対
応させ、それぞれの類似単語グループにおいて、そのグ
ループ内の単語すべてに対して一定以上の確からしさを
表すＤＲＮＮ出力が得られるように学習された音声モデ
ルとしたことを特徴としている。

【００２７】さらに、請求項９の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたＤＲＮＮ音声モデルを有し、この
ＤＲＮＮ音声モデルを用いて入力単語に対するＤＲＮＮ
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別方法において、誤認識される可能性のある類似
単語それぞれの特徴部分に対し、一定以上の確からしさ
を表すＤＲＮＮ出力が得られるように学習されたＤＲＮ
Ｎサブ音声モデルを作成しておき、ある単語の音声が入
力されたとき、その入力単語に対して一定以上の確から
しさを表すＤＲＮＮ出力が出された場合、そのＤＲＮＮ
出力にその単語の特徴部分を含む所定区間を設定し、そ
の所定区間内において前記ＤＲＮＮサブ音声モデルによ
るＤＲＮＮ出力状態を調べ、その結果に基づいて入力単
語とその入力単語に類似する単語との識別を行うことを
特徴としている。

【００２８】請求項１０の発明は、請求項９の発明にお
いて、どのＤＲＮＮサブ音声モデルによるＤＲＮＮ出力
が一定以上の確からしさを表す値となっているかにより
入力単語とその入力単語に類似する単語との識別を行う
ことを特徴としている。

【００２９】このように、ＤＲＮＮサブ音声モデルを用
いて類似単語を識別する方法によっても、ＤＲＮＮ出力
だけでは識別できない類似単語に対しても、既存のＤＲ
ＮＮ音声モデルの学習方法を変更することなく類似単語
を確実に識別することができる。さらに、この発明は、
類似単語同士の特徴部分のみのＤＲＮＮ音声モデルを用
いてそのＤＲＮＮ出力から判断するので、より一層、高
精度な識別が可能となり、きわめて誤認識されやすい類
似単語についても高精度に識別可能となる。

【００３０】そして、また、請求項１１の発明は、請求
項９または１０の発明において、前記ＤＲＮＮ音声モデ
ルは、類似単語の種類毎にグループ分けされた類似単語
グループに対応させ、それぞれの類似単語グループにお
いて、そのグループ内の単語すべてに対して一定以上の
確からしさを表すＤＲＮＮ出力が得られるように学習さ
れた音声モデルであることを特徴としている。

【００３１】以上のように、ここでは大きく分けて３つ
の方法について述べたが、これらのどの方法も処理が簡
単で、既存のＤＲＮＮ音声モデルの学習方法を変更する
ことなく類似単語を確実に識別することができる。ま
た、前記ＤＲＮＮ音声モデルは、類似単語の種類毎にグ
ループ分けされた類似単語グループに対応させ、それぞ
れの類似単語グループにおいて、そのグループ内の単語
すべてに対して一定以上の確からしさを表すＤＲＮＮ出
力が得られるように学習された音声モデルとすることに
より、類似単語をそれぞれ認識対象単語とする際、類似
単語１つ１つに対して音声モデルを作成する必要がなく
なり、コスト的にも優れたものとなる。また、本発明の
類似単語識別装置のうち、請求項１２の発明は、ある単
語の音声データに反応して確からしさを表す所定の出力
が得られるように学習された音声モデルを有し、この音
声モデルを用いて入力単語に対する出力を取り出してそ
の出力に基づいて認識処理する際、誤認識される可能性
のある類似単語との識別を行う類似単語識別装置におい
て、ある単語の音声が入力されたとき、その入力単語の
音声データに反応する音声モデルにより一定以上の確か
らしさを表す出力を出す単語検出信号出力手段と、この
単語検出信号出力手段から一定以上の確からしさを表す
出力が出された場合、その出力に入力単語の特徴部分を
含む所定区間を設定し、その所定区間における前記入力
単語の音声データの特徴を調べ、その結果に基づいて、
入力単語とその入力単語に類似する単語との識別を行う
認識処理手段とを有することを特徴としている。

【００３２】また、請求項１３の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたＤＲＮＮ音声モデルを有し、この
ＤＲＮＮ音声モデルを用いて入力単語に対するＤＲＮＮ
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別装置において、ある単語の音声が入力されたと
き、ＤＲＮＮ音声モデルを用いてその入力単語音声デー
タに対応したＤＲＮＮ出力を出す単語検出信号出力手段
と、前記入力単語音声データをコードブックを用いてコ
ードデータ化するコード化手段と、前記単語検出信号出
力手段から一定以上の確からしさを表すＤＲＮＮ出力が
出された場合、そのＤＲＮＮ出力にその入力単語の特徴
部分を含む所定区間を設定するとともに、その設定され
た所定区間において前記コード化手段によりコード化さ
れコードデータを調べ、その結果に基づいて入力単語と
その入力単語に類似する単語との識別を行う認識処理手
段とを有することを特徴としている。

【００３３】請求項１４の発明は、請求項１３におい
て、前記設定された所定区間におけるコードデータのう
ち、母音に対応するコードデータを調べ、どの母音であ
るかにより、入力単語とその入力単語に類似する単語と
の識別を行うことを特徴としている。

【００３４】また、請求項１５の発明は、請求項１３ま
たは１４の発明において、前記コードブックを５つの母
音から生成したコードブックとしている。

【００３５】また、請求項１６の発明は、請求項１３、
１４または１５の発明において、前記ＤＲＮＮ音声モデ
ルは、類似単語の種類毎にグループ分けされた類似単語
グループに対応させ、それぞれの類似単語グループにお
いて、そのグループ内の単語すべてに対して一定以上の
確からしさを表すＤＲＮＮ出力が得られるように学習さ
れた音声モデルであることを特徴としている。

【００３６】このように、本発明の類似単語識別装置
は、コードブックを用いて入力音声データをベクトル量
子化し、コードデータを得て、ＤＲＮＮ出力の所定区間
にどのような母音が存在するかを調べて、入力単語を識
別するようにしている。これにより、ＤＲＮＮ出力だけ
では識別できない類似単語に対して、ＤＲＮＮ音声モデ
ルの学習方法を変えることなく、既存のＤＲＮＮモデル
をそのまま用いて、高精度に類似単語の識別が可能とな
る。また、コードブックを５つの母音から生成されたコ
ードブックとすることにより、処理を大幅に簡略化する
ことができる。

【００３７】また、請求項１７の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたＤＲＮＮ音声モデルを有し、この
ＤＲＮＮ音声モデルを用いて入力単語に対するＤＲＮＮ
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別装置において、誤認識される可能性のある類似
単語それぞれについて複数の話者が発話して得られた音
声データをコード化したコードデータのうち、その単語
の特徴部分を含む所定区間におけるコードデータを用い
て作成されたコードヒストグラムを、標準ヒストグラム
データとして保存する標準ヒストグラムデータ記憶手段
と、ある単語の音声が入力されたとき、ＤＲＮＮ音声モ
デルを用いてその入力単語音声データに対応するＤＲＮ
Ｎ出力を出す単語検出信号出力手段と、前記入力単語音
声データを所定のコードブックを用いてコードデータ化
するコード化手段と、前記単語検出信号出力手段から一
定以上の確からしさを表すＤＲＮＮ出力が出された場
合、そのＤＲＮＮ出力にその入力単語の特徴部分を含む
所定区間を設定するとともに、前記コード化手段でコー
ド化されたコードデータを用いて前記所定区間内におけ
るコードヒストグラムを生成し、このヒストグラムデー
タと、前記標準ヒストグラムデータとを比較して、前記
入力単語とその入力単語に類似する単語との識別を行う
認識処理手段とを有することを特徴としている。

【００３８】また、請求項１８の発明は、請求項１７に
おいて、それぞれのヒストグラムを正規化したのち、両
者の差分をとり、その差分の大きさから入力単語とその
入力単語に類似する単語との識別を行うことを特徴とし
ている。

【００３９】このように、入力単語データを基に作成さ
れたヒストグラムデータと標準ヒストグラムデータから
類似単語を識別する類似単語識別装置は、前記同様、Ｄ
ＲＮＮ出力だけでは識別できない類似単語に対して、Ｄ
ＲＮＮ音声モデルの学習方法を変えることなく、既存の
ＤＲＮＮモデルをそのまま用いて、高精度に類似単語の
識別が可能となる。さらに、この発明は、単語の特徴部
分を含む所定区間のコードデータの度数分布を標準話者
の度数分布と比較しているので、より一層、高精度な識
別が可能となり、きわめて誤認識されやすい類似単語に
ついても高精度に識別可能となる。

【００４０】請求項１９の発明は、請求項１７または１
８の発明において、前記ＤＲＮＮ音声モデルを、類似単
語の種類毎にグループ分けされた類似単語グループに対
応させ、それぞれの類似単語グループにおいて、そのグ
ループ内の単語すべてに対して一定以上の確からしさを
表すＤＲＮＮ出力が得られるように学習された音声モデ
ルとしたことを特徴としている。

【００４１】また、請求項２０の発明は、ある単語の音
声データに反応して確からしさを表す所定の出力が得ら
れるように学習されたＤＲＮＮ音声モデルを有し、この
ＤＲＮＮ音声モデルを用いて入力単語に対するＤＲＮＮ
出力を取り出してその出力に基づいて認識処理する際、
誤認識される可能性のある類似単語との識別を行う類似
単語識別装置において、誤認識される可能性のある類似
単語それぞれの特徴部分に対し、一定以上の確からしさ
を表すＤＲＮＮ出力が得られるように学習されたＤＲＮ
Ｎサブ音声モデルを記憶するＤＲＮＮサブ音声モデル記
憶手段と、ある単語の音声が入力されたとき、前記ＤＲ
ＮＮ音声モデルを用いてその入力単語データに対応した
ＤＲＮＮ出力を出すとともに、前記ＤＲＮＮサブ音声モ
デルを用いて前記入力単語の特徴部分に対応したＤＲＮ
Ｎ出力を出す単語検出信号出力手段と、この単語検出信
号出力手段から前記ＤＲＮＮ音声モデルを用いて一定以
上の確からしさを表すＤＲＮＮ出力が出された場合、そ
のＤＲＮＮ出力にその単語の特徴部分を含む所定区間を
設定し、その所定区間内において前記入力単語に対する
前記ＤＲＮＮサブ音声モデルによるＤＲＮＮ出力状態を
調べ、その結果に基づいて入力単語とその入力単語に類
似する単語との識別を行う認識処理部とを有することを
特徴としている。

【００４２】請求項２１の発明は、請求項２０の発明に
おいて、どのＤＲＮＮサブ音声モデルによるＤＲＮＮ出
力が一定以上の確からしさを表す値となっているかによ
り入力単語とその入力単語に類似する単語との識別を行
うことを特徴としている。

【００４３】このようにＤＲＮＮサブ音声モデルを用い
て類似単語を識別する類似単語識別装置によっても、前
記同様、ＤＲＮＮ出力だけでは識別できない類似単語に
対して、ＤＲＮＮ音声モデルの学習方法を変えることな
く、既存のＤＲＮＮモデルをそのまま用いて、高精度に
類似単語の識別が可能となる。さらに、この発明は、類
似単語同士の特徴部分のみのＤＲＮＮ音声モデルを用い
てそのＤＲＮＮ出力から判断するので、より一層、高精
度な識別が可能となり、きわめて誤認識されやすい類似
単語についても高精度に識別可能となる。

【００４４】また、請求項２２の発明は、請求項２０ま
たは２１の発明において、前記ＤＲＮＮ音声モデルは、
類似単語の種類毎にグループ分けされた類似単語グルー
プに対応させ、それぞれの類似単語グループにおいて、
そのグループ内の単語すべてに対して一定以上の確から
しさを表すＤＲＮＮ出力が得られるように学習された音
声モデルであることを特徴としている。

【００４５】以上のように、ここでは大きく分けて３つ
の類似単語識別装置について述べたが、これらのどの類
似単語識別装置においても、装置構成が大幅に複雑化す
ることはなく、また、既存のＤＲＮＮ音声モデルの学習
方法を変更せずに、簡単な処理で類似単語を確実に識別
することができる。また、前記ＤＲＮＮ音声モデルは、
類似単語の種類毎にグループ分けされた類似単語グルー
プに対応させ、それぞれの類似単語グループにおいて、
そのグループ内の単語すべてに対して一定以上の確から
しさを表すＤＲＮＮ出力が得られるように学習された音
声モデルとすることにより、類似単語を認識対象単語と
する際、類似単語１つ１つに対して音声モデルを作成す
る必要がなくなり、コスト的にも優れたものとなる。

【００４６】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。なお、以下に説明する実施の形態
では、誤認識されやすい類似単語語として「なんじ（何
時）」と「なんど（何度）」を用い、これらそれぞれの
単語を認識処理する例について説明する。

【００４７】（第１の実施の形態）図１は第１の実施の
形態を実現するための単語識別装置を示すブロック図で
あり、音声入力部としてのマイクロホン１、Ａ／Ｄ変換
部２、音声分析部３、単語検出信号出力部４、ＤＲＮＮ
出力情報記憶部５、ベクトル量子化部６、コードブック
７、コードデータ記憶部８、認識処理部９などから構成
されている。

【００４８】前記マイクロホン１から入力された音声は
Ａ／Ｄ変換部２でＡ／Ｄ変換されたのち、音声分析部３
でたとえば１０次元のＬＰＣケプストラム係数で表され
る特徴ベクトル列に変換される。

【００４９】前記単語検出信号出力部４はＤＲＮＮ単語
デル記憶部４１、ワードスポッティング部４２から構成
される。ＤＲＮＮ単語モデル記憶部４１は、認識対象単
語ごとのＤＲＮＮ単語モデルデータが記憶されるもの
で、認識対象単語としては、たとえば、「おはよう」、
「おやすみ」、「なんじ」などの単語であるとする。

【００５０】ワードスポッティング部４２は、音声分析
部３からの音声データが入力されると、ＤＲＮＮ単語モ
デル記憶部４１の内容を用いて、キーワード（認識対象
単語）に対するＤＲＮＮ出力（ＤＲＮＮ出力の開始時
刻、終了時刻、確からしさを表す出力値などのデータ）
を得る。そして、これらの各データはＤＲＮＮ出力情報
記憶部５に記憶される。

【００５１】なお、この実施の形態では、前記したよう
に、類似語として「なんじ」と「なんど」を例にしてい
る。そして、「なんじ」という単語について学習された
単語モデルを有し、入力話者の発話する「なんじ」とい
う音声データに対しては、高い確からしさを有する出力
が出てくるようになっている。また、入力話者の発話す
る「なんど」という音声データに対しても同様の出力が
出力される。

【００５２】ところで、前記コードブック７は「あ・い
・う・え・お」の５個の母音から作成されたコードサイ
ズが５のコードブックである。

【００５３】ベクトル量子化部６は、音声分析された入
力音声の特徴ベクトル列を前記コードブック７を用いて
ベクトル量子化しコードデータを作成するものであり、
そのコードデータはコードデータ記憶部８に格納され
る。

【００５４】このような構成において具体的な処理につ
いて説明する。

【００５５】前述したように、ＤＲＮＮ単語モデル記憶
部４１は、認識対象単語ごとのＤＲＮＮ単語モデルを記
憶している。したがって、入力話者が「なんじ」と発話
すれば、ワードスポッティング部４２からは一定以上の
確からしさを有するＤＲＮＮ出力（「なんじ」の音声モ
デルによるＤＲＮＮ出力）が出され、そのＤＲＮＮ出力
の開始時刻、終了時刻、確からしさを表す出力値が検出
される。そして、これら各データはＤＲＮＮ出力情報記
憶部５に格納される。

【００５６】なお、この第１の実施の形態およびその後
の第２、第３の実施の形態における説明の中で、ワード
スポッティング部４２からのＤＲＮＮ出力というような
表現がある場合は、「なんじ」の音声モデルによるＤＲ
ＮＮ出力という意味である。一方、入力話者が「なん
ど」と発話したときも、同様に、ワードスポッティング
部４２からは一定以上の確からしさを有するＤＲＮＮ出
力が出るとともに、そのＤＲＮＮ出力の開始時刻、終了
時刻、確からしさを表す値が出力され、そのＤＲＮＮ出
力の開始時刻、終了時刻、確からしさを表す出力値など
のデータはＤＲＮＮ出力情報記憶部５に格納される。

【００５７】図２（ａ）は入力話者が発話１として「い
まなんじかな」と発話した場合のＤＲＮＮ出力を示すも
ので、図２（ｂ）は入力話者が発話２として「いまなん
どかな」と発話した場合のＤＲＮＮ出力を示すものであ
る。このように、「なんじ」および「なんど」の部分で
共に一定以上の確からしさを有するＤＲＮＮ出力が出て
くる。

【００５８】そして、入力話者が「いまなんじかな」と
発話した場合、その音声データ（特徴ベクトル列）は、
ベクトル量子化部６にも与えらる。このベクトル量子化
部６では、５つの母音から作成されたコードブック７を
用いて、入力話者の「いまなんじかな」の音声データを
ベクトル量子化する。

【００５９】すなわち、コードブック７には、「あ・い
・う・え・お」のそれぞれの母音に対応する５個のコー
ドベクトル、つまり、「あ」に対してはｃ０、「い」に
対してはｃ１、「う」に対してはｃ２、「え」に対して
はｃ３、「お」に対してはｃ４が存在し、これらのコー
ドベクトル「ｃ０，ｃ１，・・・，ｃ４」と、入力話者
が発話して得られた特徴ベクトル列を構成する各特徴ベ
クトルとの距離を計算し、最短距離のコードベクトルと
の対応付けを行うことによりコード化してコードデータ
得る。このコード化されたコード列の例を図２（ｃ）に
示す。この図２（ｃ）からもわかるように、「いまなん
じかな」の音韻列のうち、たとえば、「い」は母音の
「い」の音韻そのものであり、また、「じ」の部分にも
母音の「い」の音韻が存在するため、そのコードデータ
はｃ１が多いデータとなり、「ま」、「な」、「か」、
「な」などは母音の「あ」の音韻が存在するため、その
コードデータはｃ０が多いデータとなる。

【００６０】このようにコード化されたコードデータは
コードデータ記憶部８に格納される。そして、認識処理
部９では、このコードデータ記憶部８に格納されたコー
ドデータと前記ＤＲＮＮ出力情報記憶部５に格納された
ＤＲＮＮ出力データに基づいて、入力話者の発話した単
語が、「なんじ」か「なんど」であるかを判定する。こ
の判定処理について以下に説明する。

【００６１】前記ＤＲＮＮ出力情報記憶部５に格納され
るデータは、前述したように、ＤＲＮＮ出力の開始時
刻、終了時刻、確からしさを表す出力値であり、これら
のデータに基づいて、「なんじ」に対応するＤＲＮＮ出
力（図２(a)参照）のうち、ある区間ｔ１を設定する。
この区間ｔ１は、この場合、「なんじ」と「なんど」の
識別であるから、両者に最も違いの出ると思われる
「じ」または「ど」の音韻部分のＤＲＮＮ出力を十分含
むような区間を設定する。つまり、入力される類似単語
の特徴部分（この場合、「じ」、「ど」の部分）に対す
るＤＲＮＮ出力を含むような区間を設定する。

【００６２】そして、図２（ｃ）に示すコードデータ列
における区間ｔ１に対応するコードデータが主にどのよ
うなコードベクトルで構成されているかを調べる。この
場合、区間ｔ１におけるコードベクトルは、ｃ２，ｃ
１，ｃ１，ｃ１が存在している。

【００６３】このように、区間ｔ１には「い」のコード
ベクトルが存在しているので、図２（ａ）で示されるＤ
ＲＮＮ出力は、「なんじ」に対するＤＲＮＮ出力である
と判断する。

【００６４】また、入力話者が「いまなんどかな」と発
話したとすると、この場合も、ＤＲＮＮ出力は「なん
じ」とほぼ同様の出力となるが、この「いまなんどか
な」の特徴ベクトル列をコードブック７を用いてベクト
ル量子化部６でコード化すると、図２（ｄ）のようなコ
ード列となる。この図２（ｄ）からもわかるように、こ
の場合、区間ｔ１におけるコードベクトルは、ｃ２，ｃ
４，ｃ４，ｃ４が存在している。

【００６５】このように、区間ｔ１には「お」のコード
ベクトルが存在しているので、図２（ａ）で示されるＤ
ＲＮＮ出力は、「なんど」に対するＤＲＮＮ出力である
と判断する。

【００６６】以上のようにこの第１の実施の形態では、
類似単語を識別する方法として、５つの母音から作成し
たコードブックを用いて入力音声データをベクトル量子
化し、コードデータを得て、ＤＲＮＮ出力の所定区間に
どのような母音が存在するかを調べて、入力単語を識別
するようにしている。これにより、ＤＲＮＮ出力だけで
は識別できない単語に対しても高精度に識別できるよう
になる。

【００６７】なお、この第１の実施の形態では、コード
ブック７は５つの母音から作成されたコード数が５個の
ものを使用する例について述べたが、このコードブック
７のコード数は５個に限られるものではなく、たとえ
ば、子音を含んだ音声から作成されたもっとコード数の
多いコードブックを用いるようにしてもよい。たとえ
ば、全音素の特徴を含むコードブックを用いた場合、
「なんじ」と「なんど」を例に取れば、入力話者の発話
して得られた「じ」または「ど」の音声データを、コー
ドブックを用いてベクトル量子化して、「なんじ」また
は「なんど」のＤＲＮＮ出力の前記設定区間ｔ１に
「じ」または「ど」に対応するコードデータが有るか否
かを判断することにより、入力話者の発話した単語が、
「なんじ」であるか「なんど」であるかを判断すること
ができる。ただし、この第１の実施の形態においては、
５つの母音から作成されたコードブックを用いた方が処
理量の点から有利である。

【００６８】以上説明した第１の実施の形態で説明した
方法を用いて、成人男性と成人女性の合計二百数十名の
話者数にて「なんど」と「なんじ」について実際に発話
して認識率を求める実験を行った結果、9５％近い認識
率が得られた。なお、ここで用いたコードブックは、男
女別のコードブック（離散母音発話データから作成した
サイズ＝５のコードブック）である。この実験結果から
も類似単語についてきわめて高精度に識別を行うことが
できることがわかる。

【００６９】（第２の実施の形態）次に本発明の第２の
実施の形態について説明する。図３は第２の実施の形態
を実現するための類似単語識別装置の構成図であり、第
１の実施の形態の構成と異なるのは、標準ヒストグラム
記憶部１１とヒストグラム生成部１２を設けた点にあ
る。その他の構成要素は図１とほぼ同じであるので、同
一部分には同一符号が付されている。ただし、この第２
の実施の形態で用いられるコードブック７は、全音素の
特徴を含むコードブックが使用される。この第２の実施
の形態では、コード数が６４のコードブックを使用した
例で説明する。

【００７０】前記標準ヒストグラム記憶部１１には、標
準ヒストグラムデータが記憶される。この標準ヒストグ
ラムデータは、たとえば、「なんじ」という単語につい
て、数百人の話者一人一人が発話して得られた音声デー
タを、６４のサイズのコードブックを用いてベクトル量
子化したとき、そのコードブックのどのコードベクトル
が何回出現したかを示すヒストグラムデータである。こ
の標準ヒストグラムデータは、誤認識されやすい類似単
語ごとに予め作成しておくものである。

【００７１】図４（ａ）は、数百人のうち或る一人の話
者が「なんじ」と発話して得られた音声データを６４サ
イズのコードブックを用いてベクトル量子化したとき得
られたコードデータ列を示すものであり、これを一人一
人について求め、ｃ０〜ｃ６３のコードベクトルごとに
出現数を累積して、標準ヒストグラムを作成する。

【００７２】そして、前述の第１の実施の形態で説明し
たように、「なんじ」の音声データに反応して出力する
ＤＲＮＮ出力（図２（ａ）参照）のうち、前記同様、あ
る区間ｔ１を設定する。そして、前記作成された標準ヒ
ストグラムのうち、この区間ｔ１における標準ヒストグ
ラムデータを標準ヒストグラム記憶部１１に記憶させて
おく。図４（ｂ）は標準ヒストグラム記憶部１１に記憶
される標準ヒストグラム例を示すものである。

【００７３】すなわち、この図４（ｂ）に示される標準
ヒストグラムは、「なんじ」に対するＤＲＮＮ出力の区
間ｔ１に対応する音韻部分における数百人の話者から得
られたコードベクトルの累積出現数を表すものとなる。

【００７４】同様にして、「なんじ」の類似単語である
「なんど」に対しても、前記区間ｔ１に対応する音韻部
分における数百人の話者から得られたコードベクトルの
標準ヒストグラムを作成しておく。

【００７５】以上のようにして類似単語（ここでは「な
んじ」と「なんど」）のＤＲＮＮ出力の所定区間ｔ１部
分におけるそれぞれの標準ヒストグラムを予め作成して
おき、それを標準ヒストグラム記憶部１１に記憶させて
おく。

【００７６】そして、ユーザが「いまなんじかな」と発
話した場合、その音声データ（特徴ベクトル列）は、ワ
ードスポッティング部４２に与えられるとともに、ベク
トル量子化部６にも与えらる。このベクトル量子化部６
では、６４のコードサイズのコードブック７を用いて、
ユーザの「いまなんじかな」の音声データをベクトル量
子化してコードデータを得る。このコードデータはコー
ドデータ記憶部８に格納される。

【００７７】そして、認識処理部９では、ヒストグラム
の生成処理が必要と判断すると、ＤＲＮＮ出力情報から
得られた区間ｔ１における入力話者のヒストグラムを生
成する。なお、ヒストグラムの生成処理が必要か否かの
判断は、ＤＲＮＮ出力情報記憶部５の内容を見て、ユー
ザの発話した「なんじ」に対して、一定上の確からしさ
を示す値が出力された場合は、ヒストグラムの生成処理
が必要と判断する。

【００７８】前記区間ｔ１における入力話者のヒストグ
ラムを生成する処理は、コードデータ記憶部８に格納さ
れたユーザの「いまなんじかな」の音声データに対する
コードデータのうち、前記ＤＲＮＮ出力の区間ｔ１に対
応する部分のコードベクトルのヒストグラムを生成す
る。これにより生成されたヒストグラムの例を図４
（ｃ）に示す。そして、この入力話者のヒストグラムと
前記標準ヒストグラムの距離を求めるが、標準ヒストグ
ラムは数百人から得られたヒストグラムであり、入力話
者のヒストグラムは一人の音声データから得られたヒス
トグラムであるため、それぞれを正規化して距離を求め
る。この正規化処理は特に限定されるものではない。

【００７９】正規化された入力話者ヒストグラムと「な
んじ」に対する標準ヒストグラムとの差分ヒストグラム
を求めるとともに、入力話者ヒストグラムと「なんど」
に対する標準ヒストグラムとの差分ヒストグラムを求め
る。図４（ｄ）は入力話者ヒストグラムと「なんじ」に
対する標準ヒストグラムとの差分ヒストグラム（絶対
値）を示すものである。

【００８０】このようにして求められた差分ヒストグラ
ム（絶対値）における累積度数をたし算してその合計を
求める。

【００８１】以上の処理を入力話者ヒストグラムと「な
んど」に対する標準ヒストグラムについても行い、両者
の差分ヒストグラムを求め、その差分ヒストグラムの累
積度数を足して合計を求める。

【００８２】そして、それぞれの合計値を比較して合計
値の小さい方を選択する。たとえば、入力話者ヒストグ
ラムと「なんじ」に対する標準ヒストグラムとにより求
められた差分ヒストグラム（絶対値）における累積度数
の合計値が、入力話者ヒストグラムと「なんじ」に対す
る標準ヒストグラムとにより求められた差分ヒストグラ
ム（絶対値）における合計値よりも小さい場合は、入力
話者の発話した単語は「なんじ」であると判定する。

【００８３】以上のように、この第２の実施の形態で
は、類似単語について数百人が発話して得られたそれぞ
れの音声データをコード化し、そのコードデータを基に
前記したような類似単語ごとの標準ヒストグラムを作成
しておき、この標準ヒストグラムと入力話者ヒストグラ
ムとの差分ヒストグラムを求め、その差分ヒストグラム
から入力単語を識別するようにしている。この第２の実
施の形態によっても、第１の実施の形態同様、ＤＲＮＮ
出力だけでは識別できない単語に対しても、既存のＤＲ
ＮＮ音声モデルの学習方法を変更することなく類似単語
を確実に識別することができる。

【００８４】また、この第２の実施の形態で示した方法
は、単語の特徴部分を含む所定区間のコードデータの度
数分布を標準話者の度数分布と比較しているので、より
一層、高精度な識別が可能となり、きわめて誤認識され
やすい類似単語についても高精度に識別可能となる。

【００８５】以上説明した第２の実施の形態で説明した
方法を用いて、成人男性と成人女性の合計二百数十名の
話者数にて「なんど」と「なんじ」について実験した結
果、ほぼ１００％に近い認識率が得られた。なお、ここ
で用いたコードブックは、男性用コードブックでそのコ
ードサイズは２５６のコードブックであり、標準ヒスト
グラムは男性用、女性用、男女兼用を作成したが、どの
標準ヒストグラムを用いてもほぼ同様の高い認識率が得
られた。

【００８６】（第３の実施の形態）次に本発明の第３の
実施の形態について説明する。図５は第３の実施の形態
を実現するための類似識別装置の構成図であり、音声入
力部としてのマイクロホン１、Ａ／Ｄ変換部２、音声分
析部３、単語検出信号出力部４、ＤＲＮＮ出力情報記憶
部５、認識処理部９、サブ単語ＤＲＮＮ出力情報記憶部
１３などから構成されている。

【００８７】この第３の実施の形態による単語検出信号
出力部４は、前記第１、第２の実施の形態で用いたＤＲ
ＮＮ単語モデル記憶部４１、ワードスポッティング部４
２の他に、ＤＲＮＮサブ単語モデル記憶部４３を有して
いる。このＤＲＮＮサブ単語モデル記憶部４３は、類似
単語としての「なんじ」と「なんど」におけるそれぞれ
の特徴部分「じ」と「ど」のＤＲＮＮ単語モデルデータ
を記憶するものである。

【００８８】また、サブ単語ＤＲＮＮ出力情報記憶部１
３は、ＤＲＮＮサブ単語モデル記憶部４３を用いて、ワ
ードスポッティング処理されたときに出力されるＤＲＮ
Ｎ出力の開始時刻、終了時刻、確からしさを表すデータ
などを記憶するものである。なお、この実施の形態で
は、前記ＤＲＮＮ出力情報記憶部５は、サブ単語ＤＲＮ
Ｎ出力情報記憶部１３に対して入力単語そのもののＤＲ
ＮＮ出力情報を記憶するものであるから、両者を区別す
るために、以下では入力単語ＤＲＮＮ出力情報記憶部５
という。

【００８９】以下、この第３の実施の形態の処理につい
て説明する。この第３の実施の形態においても、類似単
語として「なんじ」と「なんど」を例にして説明する。

【００９０】今、入力話者が「いまなんじかな」と発話
したとすると、その音声は音声分析部３で分析され、特
徴ベクトル列として出力され、ワードスポッティング部
４２に与えられる。これにより、ＤＲＮＮ単語モデル記
憶部４１の内容を用いてワードスポッティング処理さ
れ、ワードスポッティング部４２からは「なんじ」の部
分で図６（ａ）に示すような一定以上の確からしさを有
するＤＲＮＮ出力が出され、そのＤＲＮＮ出力の開始時
刻、終了時刻、確からしさを表す出力値などのデータが
入力単語ＤＲＮＮ出力情報記憶部５に格納される。

【００９１】このように、ユーザが「いまなんじかな」
と発話したときに、「なんじ」の部分でＤＲＮＮが出力
されるが、これとともに、「じ」の音韻部分でＤＲＮＮ
サブ単語モデル記憶部４３の内容を用いてワードスポッ
ティン処理され、ワードスポッティング部４２からは
「じ」の部分で図６（ｂ）に示すような一定以上の確か
らしさを有するＤＲＮＮ出力が出される。そして、この
「じ」の音韻部分におけるＤＲＮＮ出力の開始時刻、終
了時刻、確からしさを表す出力値がサブ単語ＤＲＮＮ出
力情報記憶部１３に格納される。

【００９２】そして、認識処理部９では、「なんじ」に
対する一定以上の確からしさを有するＤＲＮＮ出力が有
った場合、前記第１、第２の実施の形態で説明したよう
に、入力単語ＤＲＮＮ出力情報記憶部５に格納された時
刻情報を基に、区間ｔ１を設定し、その区間ｔ１におけ
るサブ単語ＤＲＮＮ出力を調べ、その結果に基づいて入
力単語がどの単語であるかを判定する。つまり、認識処
理部９は、入力単語ＤＲＮＮ出力情報記憶部５とサブ単
語ＤＲＮＮ出力情報記憶部１３の内容に基づいて入力単
語を認識する。具体的な処理は次のようにして行う。

【００９３】前記サブ音声ＤＲＮＮ出力情報記憶部１３
には、この場合、「じ」に対するＤＲＮＮ出力の開始時
刻、終了時刻、確からしさを表す出力値などデータが入
っている。

【００９４】したがって、認識処理部９は、「なんじ」
に対する一定以上の確からしさを有するＤＲＮＮ出力が
有り、かつ、前記区間ｔ１に一定上の確からしさを有す
るサブ単語ＤＲＮＮ出力が存在すれば、入力音声は「な
んじ」であると判断する。

【００９５】一方、入力話者が「いまなんどかな」と発
話すると、ワードスポッティング部４２からは「なん
ど」の部分で図６（ｃ）に示すような一定以上の確から
しさを有するＤＲＮＮ出力が出る。そして、そのＤＲＮ
Ｎ出力の開始時刻、終了時刻、確からしさを表す出力値
が検出され、各データは入力単語ＤＲＮＮ出力情報記憶
部５に格納される。

【００９６】このように、ユーザが「いまなんどかな」
と発話したときに、「なんど」の部分でＤＲＮＮが出力
されるが、「ど」の音韻部分でＤＲＮＮサブ単語モデル
を用いてワードスポッティン処理され、ワードスポッテ
ィング部４２からは「ど」の部分で図６（ｄ）に示すよ
うな一定以上の確からしさを有するＤＲＮＮ出力が出さ
れる。そして、この「ど」の音韻部分におけるＤＲＮＮ
出力の開始時刻、終了時刻、確からしさを表す出力値が
検出され、各検出データはサブ単語ＤＲＮＮ出力情報記
憶部１３に格納される。

【００９７】したがって、認識処理部９は、「なんど」
に対する一定以上の確からしさを有するＤＲＮＮ出力が
あり、かつ、前記区間ｔ１に一定上の確からしさを有す
るサブ単語ＤＲＮＮ出力が存在すれば、入力音声は「な
んど」であると判断する。

【００９８】ところで、この第３の実施の形態では、
「じ」や「ど」といった１つの音韻のＤＲＮＮ単語モデ
ルを持つようにいている。実際の認識においては、１つ
の音韻ＤＲＮＮ単語モデルでは、「じ」や「ど」以外の
色々な音声に対しても出力がでてしまうことが多く、１
つの音韻そのものを認識するためのＤＲＮＮ単語モデル
は現段階では問題を残している。しかし、この第３の実
施の形態のように、サブ単語モデルとして用いるのであ
れば実用上十分なデータを得ることができる。

【００９９】また、ここでは「なんじ」と「なんど」に
ついて説明したので、ＤＲＮＮサブ単語モデルは「じ」
と「ど」に対応した１つの音韻のＤＲＮＮサブ単語モデ
ルとしたが、類似文字によっては、１つの音韻のＤＲＮ
Ｎサブ単語モデルではなく２つ音韻以上のサブ単語モデ
ルとする場合もある。

【０１００】たとえば、「なんじ」と「なんにち（何
日）」が類似単語であるとすると、この場合は、「なん
じ」に対するＤＲＮＮサブ単語モデルとして「じ」のＤ
ＲＮＮサブ単語モデルを用意し、「なんにち」に対して
は、たとえば、「にち」のＤＲＮＮサブ単語モデルを用
意する。このようにすれば、種々の類似単語に対応でき
る。

【０１０１】以上説明した第３の実施の形態によって
も、第１、第２の実施の形態同様、ＤＲＮＮ出力だけで
は識別できない単語に対しても、既存のＤＲＮＮ単語モ
デルの学習方法を何等変更することなく類似単語を確実
に識別することができる。また、この第３の実施の形態
では、類似単語同志で異なる部分の音韻そのものに対す
るＤＲＮＮ出力によって識別しているので、より一層、
高精度な識別が可能となる。

【０１０２】以上説明したように、ＤＲＮＮ単語モデル
を用いた音声認識においては、たとえば、「なんじ」と
「なんど」などの類似単語が入力された場合、両方の音
声に対してＤＲＮＮ出力が出てしまうが、第１〜第３の
実施の形態によれば、このような類似単語に対して、認
識装置が持っているＤＲＮＮ単語モデルの学習方法を変
えることなく、簡単な処理を追加するだけで、類似単語
を高精度に識別することができる。

【０１０３】なお、本発明は前述した第１〜第３の実施
の形態以外でも類似単語の識別は可能である。たとえ
ば、キーワードスポッティングが可能な始終端フリーＤ
Ｐマッチング法、ＨＭＭ（隠れマルコフ）法、ニューラ
ルネットワーク法などの一般的な音声認識技術を用いて
識別することもできる。始終端フリーＤＰマッチング法
を用いた場合について以下に簡単に説明する。ここでも
「なんじ」と「なんど」を識別するものとする。

【０１０４】「なんじ」と「なんど」のそれぞれの標準
話者特徴データを用意しておき、入力話者の発話するた
とえば「いまなんじかな」によって出力される「なん
じ」に対応する部分のＤＲＮＮ出力に前記した区間ｔ１
を設定し、その区間ｔ１において、入力音声特徴データ
と前記標準話者特徴データとのＤＰマッチングをとって
距離を求め、その距離から入力単語を識別する。この識
別方式は前述の第１〜第３の実施の形態に比べると処理
量が多くなるがこの方式によっても本発明を実現するこ
とは十分可能である。

【０１０５】また、前述の各実施の形態では、誤認識し
やすい類似単語として「なんじ」と「なんど」を例にし
て説明したが、類似単語はこれに限られるものでないこ
とは勿論であり、本発明は他の類似単語同志についても
識別可能である。

【０１０６】また、誤認識しやすい類似単語の組とし
て、たとえば、「なんじ」と「なんど」を考えたとき、
音声認識装置がもともと持っている単語モデルが「なん
じ」の単語モデルであったとすると、この単語モデルに
「なんど」が反応して一定以上のＤＲＮＮ出力が出てし
まう場合、前記した各実施の形態で説明した処理を行う
ことにより、もともとの認識対象単語である「なんじ」
に対しては高精度に識別することができることは勿論、
この音声認識装置に新たな認識対象単語として「なん
ど」を加えることも可能となる。これは、他の類似単語
の組についても同様のことが言える。

【０１０７】さらに、本発明を実現するに際して、認識
装置の持つ単語モデルを始めから類似単語すべてに一定
以上のＤＲＮＮ出力が出るような学習しておくようにし
てもよい。

【０１０８】たとえば、類似単語として「なんじ」と
「なんど」を例に取れば、「なんじ」に対しても「なん
ど」に対しても十分なＤＲＮＮ出力が出る音声モデルを
予め作成しておき、これら類似単語のいずれが入力され
ても積極的にＤＲＮＮ出力を出して、以降は、前記各実
施の形態で説明したような識別処理を行ってどの単語が
入力されたかを判断するようにしてもよい。

【０１０９】このようにすれば、認識対象単語の中に誤
認識されやすい類似単語が複数有る場合、類似単語それ
ぞれの音声モデルを持つ必要がなくなり、コスト的にも
有利なものとなる。

【０１１０】さらに、これに関連して、類似単語のグル
ープを作成し、そのグループ内のどの単語に対しても一
定以上の確からしさを有するＤＲＮＮ出力が出るように
した単語モデルを各グループごとに作成するようにして
もよい。

【０１１１】たとえば、類似単語Ａグループとして「な
んじ」と「なんど」、類似単語Ｂグループとして「でん
ごん（伝言）」、「でんわ（電話）」、「でんき（電
気）」などと言うように誤認識されやすい単語同志でグ
ループ分けしておく。そして、類似単語Ａグループのど
の単語に対しても一定以上の確からしさを有する出力が
出るように学習されたＤＲＮＮ単語モデルＡを作成し、
また、類似単語Ｂグループのどの単語に対しても一定以
上の確からしさを有する出力が出るように学習されたＤ
ＲＮＮ単語モデルＢを作成するというように、それぞれ
のグループ対応の単語モデルを作成しておく。同様にし
て、他の類似単語グループに対しても各グループ対応の
単語モデルを作成しておく。

【０１１２】このように、類似単語のグループを作成
し、そのグループ内のどの単語に対しても一定以上のＤ
ＲＮＮ出力が出るようにした各グループ対応の単語モデ
ルを持つことで、たとえば、「なんじ」という入力が入
った場合には、それに対応する単語モデルが働いて一定
以上の確からしさを有するＤＲＮＮ出力が出され、以降
は、前述した各実施の形態で説明した処理を行うように
すれば、入力音声は「なんじ」であるとの判定を行うこ
とができる。

【０１１３】このようにすれば、認識対象単語の中に誤
認識されやすい類似単語が多数存在しても、類似単語そ
れぞれの単語モデルを持つ必要がなくなり、コスト的に
も有利なものとなる。

【０１１４】また、本発明は、前述の各実施の形態で説
明した類似単語識別処理を組み合わせて用いるようにし
てもよい。

【０１１５】なお、本発明の処理を行う処理プログラム
は、フロッピィディスク、光ディスク、ハードディスク
などの記憶媒体に記憶させておくことができ、本発明
は、それらの記憶媒体をも含むものであり、また、ネッ
トワークからデータを得る形式でもよい。

【０１１６】

【発明の効果】以上説明したように本発明によれば、Ｄ
ＲＮＮ出力だけでは識別できない類似単語に対して、Ｄ
ＲＮＮ単語モデルの学習方法を変えることなく、既存の
ＤＲＮＮ単語モデルをそのまま用いて、高精度に類似単
語の識別が可能となる。これを実現するための１つの方
法として、コードブックを用いて入力音声データをベク
トル量子化し、コードデータを得て、ＤＲＮＮ出力の所
定区間にどのような母音が存在するかを調べて、入力単
語を識別することにより、ＤＲＮＮ出力だけでは識別で
きない類似単語に対して、ＤＲＮＮ単語モデルの学習方
法を変えることなく、既存のＤＲＮＮ単語モデルをその
まま用いて、高精度に類似単語の識別が可能となる。ま
た、コードブックを５つの母音から生成されたコードブ
ックとすることにより、きわめて少ない処理量にて類似
単語の識別が可能となる。

【０１１７】また、入力単語データを基に作成されたヒ
ストグラムデータと標準ヒストグラムデータから類似単
語を識別する方法によっても、前記同様、ＤＲＮＮ出力
だけでは識別できない類似単語に対して、ＤＲＮＮ単語
モデルの学習方法を変えることなく、既存のＤＲＮＮ単
語モデルをそのまま用いて、高精度に類似単語の識別が
可能となる。このように、単語の特徴部分を含む所定区
間のコードデータの度数分布を標準話者の度数分布と比
較して類似単語の識別を行うことで、より一層、高精度
な識別が可能となり、きわめて誤認識されやすい類似単
語についても高精度に識別可能となる。

【０１１８】さらに、ＤＲＮＮサブ単語モデルを用いて
類似単語を識別する方法によっても、前記同様、ＤＲＮ
Ｎ出力だけでは識別できない類似単語に対しても、既存
のＤＲＮＮ単語モデルの学習方法を変更することなく類
似単語を確実に識別することができる。このように、類
似単語同士の特徴部分のみのＤＲＮＮ単語モデルを用い
て、類似単語同志で異なる部分の音韻そのものに対する
ＤＲＮＮ出力によって識別することにより、より一層、
高精度な識別が可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における類似単語識
別装置の構成図。

【図２】第１の実施の形態における識別処理を説明する
図。

【図３】本発明の第２の実施の形態における類似単語識
別装置の構成図。

【図４】第２の実施の形態における識別処理を説明する
図。

【図５】本発明の第３の実施の形態における類似単語識
別装置の構成図。

【図６】第３の実施の形態における識別処理を説明する
図。

【図７】ＤＲＮＮ単語モデルを用いてワードスポッティ
ング処理する際のＤＲＮＮ出力を説明する図。

【図８】ＤＲＮＮ単語モデルを学習する際に２つの単語
を連続させて学習させる処理を説明する図。

【符号の説明】

１マイクロホン２Ａ／Ｄ変換部３音声分析部４単語検出信号分析部５ＤＲＮＮ出力情報記憶部６ベクトル量子化部７コードブック８コードデータ記憶部９認識処理部１１標準ヒストグラムデータ記憶部１２ヒストグラム生成部１３サブ単語ＤＲＮＮ出力情報記憶部４１ＤＲＮＮ単語モデル記憶部４２ワードスポッティング部４３ＤＲＮＮサブ単語モデル記憶部

───────────────────────────────────────────────────── フロントページの続き (72)発明者長谷川浩男長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内

Claims

【特許請求の範囲】

【請求項１】ある単語の音声データに反応して確から
しさを表す所定の出力が得られるように学習された音声
モデルを有し、この音声モデルを用いて入力単語に対す
る出力を取り出してその出力に基づいて認識処理する
際、誤認識される可能性のある類似単語との識別を行う
類似単語識別方法において、ある単語の音声が入力されたとき、その入力単語の音声
データに反応する音声モデルにより一定以上の確からし
さを表す出力が出された場合、その出力に入力単語の特
徴部分を含む所定区間を設定し、その所定区間における
前記入力単語の音声データの特徴を調べ、その結果に基
づいて、入力単語とその入力単語に類似する単語との識
別を行うことを特徴とする類似単語識別方法。
【請求項２】ある単語の音声データに反応して確から
しさを表す所定の出力が得られるように学習されたＤＲ
ＮＮ音声モデルを有し、このＤＲＮＮ音声モデルを用い
て入力単語に対するＤＲＮＮ出力を取り出してその出力
に基づいて認識処理する際、誤認識される可能性のある
類似単語との識別を行う類似単語識別方法において、ある単語の音声が入力されたとき、ＤＲＮＮ音声モデル
を用いてその入力単語音声データに応じたＤＲＮＮ出力
を出すとともに、前記入力単語音声データをコードブッ
クを用いてコードデータ化し、前記入力単語に対して一定以上の確からしさを表すＤＲ
ＮＮ出力が出された場合、そのＤＲＮＮ出力にその入力
単語の特徴部分を含む所定区間を設定するとともに、前
記設定された所定区間において前記コードデータを調
べ、その結果に基づいて、入力単語とその入力単語に類
似する単語との識別を行うことを特徴とする類似単語識
別方法。
【請求項３】前記設定された所定区間において前記コ
ードデータを調べ、その結果に基づいて入力単語とその
入力単語に類似する単語との識別を行う処理は、前記設定された所定区間におけるコードデータのうち、
母音に対応するコードデータを調べ、どの母音であるか
により、入力単語とその入力単語に類似する単語との識
別を行うことを特徴とする請求項２記載の類似単語識別
方法。
【請求項４】前記コードブックは、５つの母音から生
成されたコードブックであることを特徴とする請求項２
または３記載の類似単語識別方法。
【請求項５】前記ＤＲＮＮ音声モデルは、類似単語の
種類毎にグループ分けされた類似単語グループに対応さ
せ、それぞれの類似単語グループにおいて、そのグルー
プ内の単語すべてに対して一定以上の確からしさを表す
ＤＲＮＮ出力が得られるように学習された音声モデルで
あることを特徴とする請求項２、３、または４記載の類
似単語識別方法。
【請求項６】ある単語の音声データに反応して確から
しさを表す所定の出力が得られるように学習されたＤＲ
ＮＮ音声モデルを有し、このＤＲＮＮ音声モデルを用い
て入力単語に対するＤＲＮＮ出力を取り出してその出力
に基づいて認識処理する際、誤認識される可能性のある
類似単語との識別を行う類似単語識別方法において、誤認識される可能性のある類似単語それぞれに対し、複
数の話者がそれぞれの単語について発話して得られた音
声データを所定のコードブックを用いてコード化し、こ
のコード化されたコードデータを用いて、各単語につい
てその単語の特徴部分を含む所定区間におけるコードヒ
ストグラムを作成し、各単語ごとのヒストグラムデータ
を標準ヒストグラムデータとして保存し、ある単語の音声が入力されたとき、ＤＲＮＮ音声モデル
を用いてその入力単語音声データに対応したＤＲＮＮ出
力を出すとともに、その入力単語音声データを所定のコ
ードブックを用いてコードデータ化し、前記入力単語に対して一定以上の確からしさを表すＤＲ
ＮＮ出力が出された場合、そのＤＲＮＮ出力にその入力
単語の特徴部分を含む所定区間を設定するとともに、前
記コードデータを用いて前記所定区間内におけるコード
ヒストグラムを作成し、このヒストグラムデータと、前
記標準ヒストグラムデータとを比較して、前記入力単語
とその入力単語に類似する単語との識別を行うことを特
徴とする類似単語識別方法。
【請求項７】前記入力単語により作成されたヒストグ
ラムデータと、前記標準ヒストグラムデータとを比較し
て、前記入力単語とその入力単語に類似する単語との識
別を行う処理は、それぞれのヒストグラムを正規化したのち、両者の差分
をとり、その差分の大きさから入力単語とその入力単語
に類似する単語との識別を行うことを特徴とする請求項
６記載の類似単語識別方法。、
【請求項８】前記ＤＲＮＮ音声モデルは、類似単語の
種類毎にグループ分けされた類似単語グループに対応さ
せ、それぞれの類似単語グループにおいて、そのグルー
プ内の単語すべてに対して一定以上の確からしさを表す
ＤＲＮＮ出力が得られるように学習された音声モデルで
あることを特徴とする請求項６または７記載の類似単語
識別方法。
【請求項９】ある単語の音声データに反応して確から
しさを表す所定の出力が得られるように学習されたＤＲ
ＮＮ音声モデルを有し、このＤＲＮＮ音声モデルを用い
て入力単語に対するＤＲＮＮ出力を取り出してその出力
に基づいて認識処理する際、誤認識される可能性のある
類似単語との識別を行う類似単語識別方法において、誤認識される可能性のある類似単語それぞれの特徴部分
に対し、一定以上の確からしさを表すＤＲＮＮ出力が得
られるように学習されたＤＲＮＮサブ音声モデルを作成
しておき、ある単語の音声が入力されたとき、その入力単語に対し
て一定以上の確からしさを表すＤＲＮＮ出力が出された
場合、そのＤＲＮＮ出力にその単語の特徴部分を含む所
定区間を設定し、その所定区間内において前記ＤＲＮＮ
サブ音声モデルによるＤＲＮＮ出力状態を調べ、その結
果に基づいて入力単語とその入力単語に類似する単語と
の識別を行うことを特徴とする類似単語識別方法。
【請求項１０】前記所定区間内において前記ＤＲＮＮ
サブ音声モデルによるＤＲＮＮ出力状態を調べ、その結
果に基づいて入力単語とその入力単語に類似する単語と
の識別を行う処理は、どのＤＲＮＮサブ音声モデルによるＤＲＮＮ出力が一定
以上の確からしさを表す値となっているかにより入力単
語とその入力単語に類似する単語との識別を行うことを
特徴とする請求項９記載の類似単語識別方法。
【請求項１１】前記ＤＲＮＮ音声モデルは、類似単語
の種類毎にグループ分けされた類似単語グループに対応
させ、それぞれの類似単語グループにおいて、そのグル
ープ内の単語すべてに対して一定以上の確からしさを表
すＤＲＮＮ出力が得られるように学習された音声モデル
であることを特徴とする請求項９または１０記載の類似
単語識別方法。
【請求項１２】ある単語の音声データに反応して確か
らしさを表す所定の出力が得られるように学習された音
声モデルを有し、この音声モデルを用いて入力単語に対
する出力を取り出してその出力に基づいて認識処理する
際、誤認識される可能性のある類似単語との識別を行う
類似単語識別装置において、ある単語の音声が入力されたとき、その入力単語の音声
データに反応する音声モデルにより一定以上の確からし
さを表す出力を出す単語検出信号出力手段と、この単語検出信号出力手段から一定以上の確からしさを
表す出力が出された場合、その出力に入力単語の特徴部
分を含む所定区間を設定し、その所定区間における前記
入力単語の音声データの特徴を調べ、その結果に基づい
て、入力単語とその入力単語に類似する単語との識別を
行う認識処理手段と、を有することを特徴とする類似単語識別装置。
【請求項１３】ある単語の音声データに反応して確か
らしさを表す所定の出力が得られるように学習されたＤ
ＲＮＮ音声モデルを有し、このＤＲＮＮ音声モデルを用
いて入力単語に対するＤＲＮＮ出力を取り出してその出
力に基づいて認識処理する際、誤認識される可能性のあ
る類似単語との識別を行う類似単語識別装置において、ある単語の音声が入力されたとき、ＤＲＮＮ音声モデル
を用いてその入力単語音声データに対応したＤＲＮＮ出
力を出す単語検出信号出力手段と、前記入力単語音声データをコードブックを用いてコード
データ化するコード化手段と、前記単語検出信号出力手段から一定以上の確からしさを
表すＤＲＮＮ出力が出された場合、そのＤＲＮＮ出力に
その入力単語の特徴部分を含む所定区間を設定するとと
もに、その設定された所定区間において前記コード化手
段によりコード化されコードデータを調べ、その結果に
基づいて入力単語とその入力単語に類似する単語との識
別を行う認識処理手段と、を有することを特徴とする類似単語識別装置。
【請求項１４】前記設定された所定区間において前記
コードデータを調べ、その結果に基づいて入力単語とそ
の入力単語に類似する単語との識別を行う処理は、前記設定された所定区間におけるコードデータのうち、
母音に対応するコードデータを調べ、どの母音であるか
により、入力単語とその入力単語に類似する単語との識
別を行うことを特徴とする請求項１３記載の類似単語識
別装置。
【請求項１５】前記コードブックは５つの母音から生
成されたコードブックであることを特徴とする請求項１
３または１４記載の類似単語識別装置。
【請求項１６】前記ＤＲＮＮ音声モデルは、類似単語
の種類毎にグループ分けされた類似単語グループに対応
させ、それぞれの類似単語グループにおいて、そのグル
ープ内の単語すべてに対して一定以上の確からしさを表
すＤＲＮＮ出力が得られるように学習された音声モデル
であることを特徴とする請求項１３、１４、または１５
記載の類似単語識別装置。
【請求項１７】ある単語の音声データに反応して確か
らしさを表す所定の出力が得られるように学習されたＤ
ＲＮＮ音声モデルを有し、このＤＲＮＮ音声モデルを用
いて入力単語に対するＤＲＮＮ出力を取り出してその出
力に基づいて認識処理する際、誤認識される可能性のあ
る類似単語との識別を行う類似単語識別装置において、誤認識される可能性のある類似単語それぞれについて複
数の話者が発話して得られた音声データをコード化した
コードデータのうち、それぞれの類似単語の特徴部分を
含む所定区間におけるコードデータを用いて作成された
類似単語ごとのコードヒストグラムを、標準ヒストグラ
ムデータとして保存する標準ヒストグラム記憶手段と、ある単語の音声が入力されたとき、ＤＲＮＮ音声モデル
を用いてその入力単語音声データに対応するＤＲＮＮ出
力を出す単語検出信号出力手段と、前記入力単語音声データを所定のコードブックを用いて
コードデータ化するコード化手段と、前記単語検出信号出力手段から一定以上の確からしさを
表すＤＲＮＮ出力が出された場合、そのＤＲＮＮ出力に
その入力単語の特徴部分を含む所定区間を設定するとと
もに、前記コード化手段でコード化されたコードデータ
を用いて前記所定区間内におけるコードヒストグラムを
生成し、このヒストグラムデータと、前記標準ヒストグ
ラムデータとを比較して、前記入力単語とその入力単語
に類似する単語との識別を行う認識処理手段と、を有することを特徴とする類似単語識別装置。
【請求項１８】前記入力単語により作成されたヒスト
グラムデータと、前記標準ヒストグラムデータとを比較
して、前記入力単語とその入力単語に類似する単語との
識別を行う処理は、それぞれのヒストグラムを正規化したのち、両者の差分
をとり、その差分の大きさから入力単語とその入力単語
に類似する単語との識別を行うことを特徴とする請求項
１７記載の類似単語識別装置。
【請求項１９】前記ＤＲＮＮ音声モデルは、類似単語
の種類毎にグループ分けされた類似単語グループに対応
させ、それぞれの類似単語グループにおいて、そのグル
ープ内の単語すべてに対して一定以上の確からしさを表
すＤＲＮＮ出力が得られるように学習された音声モデル
であることを特徴とする請求項１７または１８記載の類
似単語識別装置。
【請求項２０】ある単語の音声データに反応して確か
らしさを表す所定の出力が得られるように学習されたＤ
ＲＮＮ音声モデルを有し、このＤＲＮＮ音声モデルを用
いて入力単語に対するＤＲＮＮ出力を取り出してその出
力に基づいて認識処理する際、誤認識される可能性のあ
る類似単語との識別を行う類似単語識別装置において、誤認識される可能性のある類似単語それぞれの特徴部分
に対し、一定以上の確からしさを表すＤＲＮＮ出力が得
られるように学習されたＤＲＮＮサブ音声モデルを記憶
するＤＲＮＮサブ音声モデル記憶手段と、ある単語の音声が入力されたとき、前記ＤＲＮＮ音声モ
デルを用いてその入力単語データに対応したＤＲＮＮ出
力を出すとともに、前記ＤＲＮＮサブ音声モデルを用い
て前記入力単語の特徴部分に対応したＤＲＮＮ出力を出
す単語検出信号出力手段と、この単語検出信号出力手段から前記ＤＲＮＮ音声モデル
を用いて一定以上の確からしさを表すＤＲＮＮ出力が出
された場合、そのＤＲＮＮ出力にその単語の特徴部分を
含む所定区間を設定し、その所定区間内において前記入
力単語に対する前記ＤＲＮＮサブ音声モデルによるＤＲ
ＮＮ出力を調べ、その結果に基づいて入力単語とその入
力単語に類似する単語との識別を行う認識処理部と、を有することを特徴とする類似単語識別装置。
【請求項２１】前記所定区間内において前記入力単語
に対する前記ＤＲＮＮサブ音声モデルによるＤＲＮＮ出
力を調べ、その結果に基づいて入力単語とその入力単語
に類似する単語との識別を行う処理は、どのＤＲＮＮサブ音声モデルによるＤＲＮＮ出力が一定
以上の確からしさを表す値となっているかにより入力単
語とその入力単語に類似する単語との識別を行うことを
特徴とする請求項２０記載の類似単語識別装置。
【請求項２２】前記ＤＲＮＮ音声モデルは、類似単語
の種類毎にグループ分けされた類似単語グループに対応
させ、それぞれの類似単語グループにおいて、そのグル
ープ内の単語すべてに対して一定以上の確からしさを表
すＤＲＮＮ出力が得られるように学習された音声モデル
であることを特徴とする請求項２０または２１記載の類
似単語識別装置。