JPH07230299A

JPH07230299A - 音声認識装置

Info

Publication number: JPH07230299A
Application number: JP6020456A
Authority: JP
Inventors: Toshiyuki Watanabe; 俊幸渡辺; Akira Ishida; 明石田
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1994-02-17
Filing date: 1994-02-17
Publication date: 1995-08-29

Abstract

(57)【要約】【目的】入力音声が予め用意されている単語グループ
のうちのいずれのグループに属する単語かの粗い識別を
ニューラルネットワークで構成されたグループ識別部を
用いて行う。【構成】音声入力部１を通じて入力された音声信号に
ついて、特徴パターン作成部２にてその特徴パターンを
作成し、この特徴パターンに基づきニューラルネットワ
ークで構成されたグループ識別部３により入力項目１，
２又は３のいずれの入力項目に属する単語かを識別し、
識別された入力項目１，２又は３の単語認識部４，５又
は６にて入力項目内に格納されている単語を識別する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は入力音声がいずれのグル
ープに属するかを識別するグループ識別部と、各グルー
プ内のいずれの単語に対応するかを識別する単語識別部
とにより入力音声を認識する音声認識装置に関する。

【０００２】図５は従来の音声認識装置の構成を示すブ
ロック図であり、図中１１は音声入力部を示している。
音声入力部１１はマイクロフォン，マイクアンプ，ＡＤ
コンバータ等で構成されており、これを通じて入力され
た音声は音声信号として周波数スペクトル分析等により
特徴パターンを抽出する特徴パターン作成部１２へ入力
される。特徴パターン作成部１２は音声信号の特徴とす
る周波数スペクトルパターンを抽出し、これを各単語識
別部１３，１４又は１５へ入力する。

【０００３】各単語識別部１３，１４，１５には、例え
ば「人」の特徴を表わす内容についてのグループ、即ち
入力項目である性別，出身地，年令が割付けられ、性別
の場合は男，女、男性，女性等の単語が、また出身地の
場合には東京，大阪等の単語が、更に年令の場合には１
０代，２０代，３０代等の単語が夫々の単語認識部１
３，１４，１５に割り当てたメモリに各別に格納されて
おり、キー入力部１６、認識結果制御部１７を通じての
指示に従って、順次的に動作せしめられるようにしてあ
る。

【０００４】例えば最初に性別に関しての単語がメモリ
に格納されている入力項目１用の単語識別部１３が動作
せしめられている場合に、音声入力部１１から「男」の
音声が入力されると、単語識別部１３は特徴パターン作
成部１２から入力された特徴パターンと、予め格納され
ている性別を表す単語とを比較し、特徴パターンと対応
する単語を識別し、対応する単語が存在する場合には該
当する単語が認識されたことを示す信号を認識結果制御
部１７へ出力する。

【０００５】次に出身地に関する単語がメモリに格納さ
れている入力項目２用の単語識別部１４をキー入力部１
６の操作にて動作状態とし、単語識別部１４を待機状態
とする。出身地に関する音声が入力され、出身地に関す
る入力音声に対応する単語が認識されれば、年令に関す
る単語がメモリに格納されている入力項目３用の単語識
別部１５をキー入力部１６にて動作状態とし、年令に関
しての音声が入力され、それに対応する単語が認識され
れば再びキー入力部１６にて単語認識部１３を動作状態
として待機する。

【０００６】ところでこのような従来装置にあっては各
単語識別部１３，１４，１５を順次的に動作させて入力
音声と対応する単語を識別することとなるから、操作が
煩わしいという問題があった。この対策として入力され
た単語音声の特徴パターンを分析し、予め用意したグル
ープ別の粗い識別を行い、次いで各グループ内で用意さ
れている単語を識別することにより音声認識を行う技術
が提案されている（特公平２−５２２７８号公報：Ｇ１
０Ｌ３／００）。

【０００７】この従来技術では、クラスタリング手法を
用いて単語を予めグループ分けしておき、各グループの
センター座標を求めてこれを代表標準パターンとし、入
力音声の分析パターンを代表標準パターンと照合し、相
互の距離が最小となる代表標準パターンのグループを該
当グループと識別する。

【０００８】図６は上記した従来装置によるグループの
分類態様を示す説明図である。いま６種類の単語があ
り、これを例えば記号○，●，◇，◆，□，△等で示す
ものとすると各単語の物理的な特徴により○，●，☆の
３単語はグループＧ₁、◇，◆の２単語はグループ
Ｇ₂、□，＃の２単語はグループＧ₃、△，▽の２単語
がグループＧ₄に夫々グループ化しておく。そして入力
音声の分析パターンを各グループの代表標準パターンと
照合し、相互の距離が最小となる代表標準パターンのグ
ループを識別した後、次に図５に示した従来技術と同様
に各グループ別に入力音声をグループ内の単語と照合し
て識別を行う。

【０００９】

【発明が解決しようとする課題】ところがこのような方
式では、グループはクラスタリング手法を用いてグルー
プ分けしており、図６からも明らかなように物理的な特
徴の類似度が低いと誤認が多くなるためグループ化は対
象単語の物理的特徴に依らざるを得ず、音声それ自体に
よるグループ化となり、グループの細分化が避けられな
いとう問題があった。

【００１０】本発明はかかる事情に鑑みなされたもので
あって、その目的とするところはグループの識別を学習
内容に応じた識別機能を備え得るニューラルネットワー
クを用いて行うことで、入力音声に物理的特徴が少ない
場合にもグループ化を可能とした音声認識装置を提供す
ることにある。また本発明の他の目的はニューラルネッ
トワークで構成されたグループ識別部の識別結果に基づ
いて、制御部が各グループ毎の単語識別部を順次的に動
作させることで、従来の如きキー入力部の操作を不要と
した音声認識装置を提供することにある。

【００１１】

【課題を解決するための手段】第１の発明に係る音声認
識装置は、予め定めた単語のグループ夫々に対応する音
声を順次入力させ、グループ内における音声入力と対応
する単語を認識するようにした音声認識装置において、
音声入力部と、入力された音声の特徴パターンを作成す
る特徴パターン作成部と、前記特徴パターンに基づいて
入力音声が前記グループのいずれのグループに属するか
を識別可能に学習させたニューラルネットワークで構成
されたグループ識別部と、該グループ識別部で識別され
たグループ内から夫々前記特徴パターンに基づき対応す
る単語を識別する単語識別部とを具備することを特徴と
する。第２の発明に係る他の音声認識装置は、前記グル
ープ識別部の識別結果に基づいて次に音声入力させるべ
きグループの切替えを行う制御部を具備することを特徴
とする。

【００１２】

【作用】第１の発明にあってはこれによって、ニューラ
ルネットワークに対する学習パターンを用途に応じて設
定することで、入力音声の物理的特徴の類似度が低い場
合であっても入力音声のグループ別の識別が可能とな
る。また第２の発明にあってはニューラルネットワーク
で構成されたグループ識別部の識別結果に応じて制御部
が単語識別部を順次選択的に動作させ得ることとなり、
入力音声を自動的に識別してゆくことが可能となる。

【００１３】

【実施例】以下本発明をその実施例を示す図面に基づき
具体的に説明する。図１は本発明に係る音声認識装置の
構成を示すブロック図であり、図中１は音声入力部を示
している。音声入力部１はマイクロフォン，マイクアン
プ，ＡＤコンバータ等にて構成され、これを通じて入力
された音声は音声信号として特徴パターン作成部２へ出
力される。特徴パターン作成部２は入力された音声信号
の周波数スペトクルを求めて、その特徴を抽出し、これ
をニューラルネットワークで構成されたグループ識別部
３へ出力する。

【００１４】特徴パターン作成部２としては、例えば１
〜２０ｍｓ程度の区間の周波数的特徴を抽出する短時間
スペクトル法、又はこれを表す係数列を抽出する法等が
用いられるが、特にこれに限らず、従来知られている他
の方法を採用してもよい。

【００１５】ニューラルネットワークで構成されたグル
ープ識別部３は入力された特徴パターンに基づいて、予
めグループ分けされた単語が入力されている各グループ
毎の単語識別部、即ち入力項目１用の単語識別部４、入
力項目２用の単語識別部５、入力項目３用の単語識別部
６のいずれの単語識別部６に属する音声信号かを照合，
識別し、対応する単語識別部４，５又は６のいずれかへ
信号を出力すると共に、認識結果制御部７へも信号を出
力する。

【００１６】図２はニューラルネットワークの出力層ニ
ューロンと単語識別部４，５，６との関係を示す説明図
である。ニューラルネットワークは通常入力層ニューロ
ン，中間層ニューロン（いずれも図示せず）及び出力層
ニューロンの３層からなる階層構造に構成されており、
各層は夫々１又は複数のニューロンを備え、各入力層ニ
ューロンと中間層ニューロンとの間、各中間層ニューロ
ンと出力層ニューロンとの間は夫々異なる結合係数にて
結合されている。実施例では単語識別部４，５，６夫々
に３個の出力層ニューロンＯ₁，Ｏ₂，Ｏ₃を対応させ
た構成としてある。

【００１７】図３はニューラルネットワークで構成され
たグループ識別部３を用いる場合のグループ化の一例を
示す説明図であり、いま、例えば図３に示す如く単語
○，×はグループＫ₁に、また単語□，☆はグループＫ
₂に、単語●，△，▽はグループＫ₃に、更に◇，◆は
グループＫ₄にグループ分けしておくものとすると、ニ
ューラルネットワークで構成されたグループ識別部３に
対し、上記した各単語が夫々グループＫ₁〜Ｋ₄のいず
れかに属するかを識別し得るよう繰り返し学習させてお
く。図３，図６を対比すれば明らかなように図６に示し
たグループＧ₁，Ｇ₂〜Ｇ₄は極めて類似した物理的特
徴に基づき区分されているのに対し、図３に示したグル
ープＫ₁，Ｋ₂〜Ｋ₄は必ずしも物理的特徴が類似して
いる場合に限られないことが解る。

【００１８】そして、例えばグループＫ₁に属する単語
は入力項目１用の単語識別部４に割り付けたメモリに、
またグループＫ₂に属する単語は入力項目２用の単語識
別部５に割り付けたメモリに、更にグループＫ₃に属す
る単語は入力項目３用の単語識別部６に割り付けたメモ
リへ夫々格納しておく。これによってニューラルネット
ワークで構成されたグループ識別部３の図示しない入力
層ニューロンに特徴パターン作成部２からの出力を入力
させると、その出力が各中間層ニューロンに、更に各中
間層ニューロンの出力が各出力層ニューロンに与えら
れ、この過程でグループ識別が行われ、各出力層ニュー
ロンＯ₁〜Ｏ₃から夫々「１００」「０１０」又は「０
０１」の如き照合，識別信号が単語識別部４，５，６へ
出力される。

【００１９】例えば出力層ニューロンＯ₁〜Ｏ₃から
「１００」の信号が出力されると入力項目１用の単語識
別部４が、また「０１０」の信号が出力されると入力項
目２用の単語識別部５が、更に「００１」の信号が出力
されると入力項目３用の単語識別部６が夫々動作せしめ
られ、特徴パターン作成部２から出力された特徴パター
ンに基づく単語識別が実施される。

【００２０】即ち、各単語識別部４，５又は６は入力音
声の特徴パターンと予め格納されている各単語とを照合
し、対応する単語が認識されると、識別信号を認識結果
制御部７へ出力する。次にこの認識結果制御部７の制御
動作を図４に示すフローチャートと共に説明する。

【００２１】なお各入力項目１，２，３用の単語識別部
４，５，６夫々に割り付けたメモリ内には予め下記に示
す如き単語が格納されているものとする。入力項目対象単語１男，女，男性，女性２北海道，東北，関東，中部，近畿，中国，四国，九州３１０代，２０代，３０代，４０代，５０代，６０代

【００２２】図４において、先ずＦＬＡＧ〔１〕＝偽、
ＦＬＡＧ〔２〕＝偽、ＦＬＡＧ〔３〕＝偽として初期設
定を行い、また入力項目番号を示す符号をＩとして、こ
れを入力項目１に対応する数値「１」とおき (Ｓ１）、
Ｉ＝３か否かを判断する (Ｓ２）。Ｉは３ではないか
ら、音声入力を行い、また入力された音声信号から特徴
パターン作成部２にて特徴パターンを作成し、ニューラ
ルネットワークで構成されたグループ識別部３にて識別
を行う (Ｓ３）。

【００２３】これによって入力された音声信号のグルー
プ、即ち入力項目１が識別されるが、いま例えば入力項
目ｉ（入力項目の一般化した番号）であると識別された
ものとすると、Ｉ＝ｉか否かの判断で (Ｓ６）、Ｉ＝ｉ
であるから、単語識別を行い、その入力項目中のどの単
語が認識されたかを示す値ＲＣＧ［１］をｊ、またその
入力項目で既に何らかの入力が有ったことを示すフラグ
ＦＬＡＧ［１］を真とする処理を行い（Ｓ９）、ステッ
プＳ２へ戻る。またステップＳ６の判断において、Ｉ≠
ｉの場合、即ち前提条件であるＩ＝ｉに対し、ニューラ
ルネットワークで構成されたグループ識別部３により識
別された入力項目が、例えば「２」であった場合にはフ
ラグＦＬＡＧ〔１〕の真，偽を判断し (Ｓ７）、ＦＬＡ
Ｇ〔１〕が真である場合にはＩ＝Ｉ＋１とし（Ｓ８）、
ステップＳ９へ進み、またＦＬＡＧ〔１〕が偽である場
合にはステップＳ２へ戻る。

【００２４】例えばＩ＝１の場合において、音声入力が
「男性」である場合にはニューラルネットワークで構成
されたグループ識別部３にて識別される入力項目は
「１」、即ちｉ＝１となり、Ｉ＝ｉか否かの判断におい
てＩ＝ｉとなり、ＲＣＧ〔１〕＝男性、ＦＬＡＧ〔１〕
＝真を代入し、ステップＳ３へ戻る。この場合にはＩの
値は１のままであるから続いて入力項目１の変更入力が
可能となる。

【００２５】次に、例えばＩ＝１、即ち性別に関して
の入力項目である「１」とした状態で「近畿」の音声入
力があった場合、ニューラルネットワークにより識別さ
れる入力項目は「２」であるから、ステップＳ７で入力
項目１について既に何らかの入力があったかを示すフラ
グＦＬＡＧ〔１〕が真か偽かを判断する (Ｓ７）。ＦＬ
ＡＧ〔１〕が真の場合、即ち既に性別に関しての入力が
あった場合にはＩ＝Ｉ＋１＝２に入力項目を変え、ステ
ップＳ９ではＦＬＡＧ〔２〕＝真、またＲＣＧ〔２〕＝
「近畿」とする処理を行う。一方ＦＬＡＧ〔１〕が偽で
ある場合には音声入力ミスとし、ステップＳ３に戻り、
入力項目Ｉ＝１のままで次の音声入力待ちの状態とな
る。なお、上述の実施例では入力項目１，２，３の各単
語識別部４，５，６が３個備える場合を示したが、これ
に限るものではなく必要に応じて増減してよいことは言
うまでもない。

【００２６】

【発明の効果】以上の如く第１の発明にあっては識別対
象単語を予め複数のグループに区分しておき、これを識
別可能なようニューラルネットワークで構成されたグル
ープ識別部に学習させておくことで、物理的特徴が必ず
しも類似していないパターンのグループ分けが可能とな
り、用途に応じたグループ分けが可能となる等、本発明
は優れた効果を奏する。また第２の発明にあっては制御
部がニューラルネットワークで構成されたグループ識別
部の識別結果に基づいて順次別の単語識別部を動作させ
てゆくことが可能となり、従来の如くキー入力部の操作
を必要とせず、操作が極めて容易となる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の構成を示すブロッ
ク図である。

【図２】ニューラルネットワークで構成されたグループ
識別部とグループとの関係を示す説明図である。

【図３】グループ化された入力項目別の内容を示す説明
図である。

【図４】本発明に係る音声認識装置の処理過程を示すフ
ローチャートである。

【図５】従来装置の構成を示すブロック図である。

【図６】従来装置におけるグループ化された入力項目の
内容を示す説明図である。

【符号の説明】

１音声入力部２特徴パターン作成部３ニューラルネットワークで構成されたグループ識別
部４入力項目１用の単語識別部５入力項目２用の単語識別部６入力項目３用の単語識別部７認識結果制御部

Claims

【特許請求の範囲】

【請求項１】予め定めた単語のグループ夫々に対応す
る音声を順次入力させ、グループ内における音声入力と
対応する単語を認識するようにした音声認識装置におい
て、音声入力部と、入力された音声の特徴パターンを作
成する特徴パターン作成部と、前記特徴パターンに基づ
いて入力音声が前記グループのいずれのグループに属す
るかを識別可能に学習させたニューラルネットワークで
構成されたグループ識別部と、該グループ識別部で識別
されたグループ内から夫々前記特徴パターンに基づき対
応する単語を識別する単語識別部とを具備することを特
徴とする音声認識装置。
【請求項２】前記グループ識別部の識別結果に基づい
て次に音声入力させるべきグループの切替えを行う制御
部を具備することを特徴とする請求項１記載の音声認識
装置。