JPH07230299A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH07230299A
JPH07230299A JP6020456A JP2045694A JPH07230299A JP H07230299 A JPH07230299 A JP H07230299A JP 6020456 A JP6020456 A JP 6020456A JP 2045694 A JP2045694 A JP 2045694A JP H07230299 A JPH07230299 A JP H07230299A
Authority
JP
Japan
Prior art keywords
input
group
word
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6020456A
Other languages
English (en)
Inventor
Toshiyuki Watanabe
俊幸 渡辺
Akira Ishida
明 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP6020456A priority Critical patent/JPH07230299A/ja
Publication of JPH07230299A publication Critical patent/JPH07230299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声が予め用意されている単語グループ
のうちのいずれのグループに属する単語かの粗い識別を
ニューラルネットワークで構成されたグループ識別部を
用いて行う。 【構成】 音声入力部1を通じて入力された音声信号に
ついて、特徴パターン作成部2にてその特徴パターンを
作成し、この特徴パターンに基づきニューラルネットワ
ークで構成されたグループ識別部3により入力項目1,
2又は3のいずれの入力項目に属する単語かを識別し、
識別された入力項目1,2又は3の単語認識部4,5又
は6にて入力項目内に格納されている単語を識別する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は入力音声がいずれのグル
ープに属するかを識別するグループ識別部と、各グルー
プ内のいずれの単語に対応するかを識別する単語識別部
とにより入力音声を認識する音声認識装置に関する。
【0002】図5は従来の音声認識装置の構成を示すブ
ロック図であり、図中11は音声入力部を示している。
音声入力部11はマイクロフォン,マイクアンプ,AD
コンバータ等で構成されており、これを通じて入力され
た音声は音声信号として周波数スペクトル分析等により
特徴パターンを抽出する特徴パターン作成部12へ入力
される。特徴パターン作成部12は音声信号の特徴とす
る周波数スペクトルパターンを抽出し、これを各単語識
別部13,14又は15へ入力する。
【0003】各単語識別部13,14,15には、例え
ば「人」の特徴を表わす内容についてのグループ、即ち
入力項目である性別,出身地,年令が割付けられ、性別
の場合は男,女、男性,女性等の単語が、また出身地の
場合には東京,大阪等の単語が、更に年令の場合には1
0代,20代,30代等の単語が夫々の単語認識部1
3,14,15に割り当てたメモリに各別に格納されて
おり、キー入力部16、認識結果制御部17を通じての
指示に従って、順次的に動作せしめられるようにしてあ
る。
【0004】例えば最初に性別に関しての単語がメモリ
に格納されている入力項目1用の単語識別部13が動作
せしめられている場合に、音声入力部11から「男」の
音声が入力されると、単語識別部13は特徴パターン作
成部12から入力された特徴パターンと、予め格納され
ている性別を表す単語とを比較し、特徴パターンと対応
する単語を識別し、対応する単語が存在する場合には該
当する単語が認識されたことを示す信号を認識結果制御
部17へ出力する。
【0005】次に出身地に関する単語がメモリに格納さ
れている入力項目2用の単語識別部14をキー入力部1
6の操作にて動作状態とし、単語識別部14を待機状態
とする。出身地に関する音声が入力され、出身地に関す
る入力音声に対応する単語が認識されれば、年令に関す
る単語がメモリに格納されている入力項目3用の単語識
別部15をキー入力部16にて動作状態とし、年令に関
しての音声が入力され、それに対応する単語が認識され
れば再びキー入力部16にて単語認識部13を動作状態
として待機する。
【0006】ところでこのような従来装置にあっては各
単語識別部13,14,15を順次的に動作させて入力
音声と対応する単語を識別することとなるから、操作が
煩わしいという問題があった。この対策として入力され
た単語音声の特徴パターンを分析し、予め用意したグル
ープ別の粗い識別を行い、次いで各グループ内で用意さ
れている単語を識別することにより音声認識を行う技術
が提案されている(特公平2−52278号公報:G1
0L 3/00)。
【0007】この従来技術では、クラスタリング手法を
用いて単語を予めグループ分けしておき、各グループの
センター座標を求めてこれを代表標準パターンとし、入
力音声の分析パターンを代表標準パターンと照合し、相
互の距離が最小となる代表標準パターンのグループを該
当グループと識別する。
【0008】図6は上記した従来装置によるグループの
分類態様を示す説明図である。いま6種類の単語があ
り、これを例えば記号○,●,◇,◆,□,△等で示す
ものとすると各単語の物理的な特徴により○,●,☆の
3単語はグループG1 、◇,◆の2単語はグループ
2 、□,#の2単語はグループG3 、△,▽の2単語
がグループG4 に夫々グループ化しておく。そして入力
音声の分析パターンを各グループの代表標準パターンと
照合し、相互の距離が最小となる代表標準パターンのグ
ループを識別した後、次に図5に示した従来技術と同様
に各グループ別に入力音声をグループ内の単語と照合し
て識別を行う。
【0009】
【発明が解決しようとする課題】ところがこのような方
式では、グループはクラスタリング手法を用いてグルー
プ分けしており、図6からも明らかなように物理的な特
徴の類似度が低いと誤認が多くなるためグループ化は対
象単語の物理的特徴に依らざるを得ず、音声それ自体に
よるグループ化となり、グループの細分化が避けられな
いとう問題があった。
【0010】本発明はかかる事情に鑑みなされたもので
あって、その目的とするところはグループの識別を学習
内容に応じた識別機能を備え得るニューラルネットワー
クを用いて行うことで、入力音声に物理的特徴が少ない
場合にもグループ化を可能とした音声認識装置を提供す
ることにある。また本発明の他の目的はニューラルネッ
トワークで構成されたグループ識別部の識別結果に基づ
いて、制御部が各グループ毎の単語識別部を順次的に動
作させることで、従来の如きキー入力部の操作を不要と
した音声認識装置を提供することにある。
【0011】
【課題を解決するための手段】第1の発明に係る音声認
識装置は、予め定めた単語のグループ夫々に対応する音
声を順次入力させ、グループ内における音声入力と対応
する単語を認識するようにした音声認識装置において、
音声入力部と、入力された音声の特徴パターンを作成す
る特徴パターン作成部と、前記特徴パターンに基づいて
入力音声が前記グループのいずれのグループに属するか
を識別可能に学習させたニューラルネットワークで構成
されたグループ識別部と、該グループ識別部で識別され
たグループ内から夫々前記特徴パターンに基づき対応す
る単語を識別する単語識別部とを具備することを特徴と
する。第2の発明に係る他の音声認識装置は、前記グル
ープ識別部の識別結果に基づいて次に音声入力させるべ
きグループの切替えを行う制御部を具備することを特徴
とする。
【0012】
【作用】第1の発明にあってはこれによって、ニューラ
ルネットワークに対する学習パターンを用途に応じて設
定することで、入力音声の物理的特徴の類似度が低い場
合であっても入力音声のグループ別の識別が可能とな
る。また第2の発明にあってはニューラルネットワーク
で構成されたグループ識別部の識別結果に応じて制御部
が単語識別部を順次選択的に動作させ得ることとなり、
入力音声を自動的に識別してゆくことが可能となる。
【0013】
【実施例】以下本発明をその実施例を示す図面に基づき
具体的に説明する。図1は本発明に係る音声認識装置の
構成を示すブロック図であり、図中1は音声入力部を示
している。音声入力部1はマイクロフォン,マイクアン
プ,ADコンバータ等にて構成され、これを通じて入力
された音声は音声信号として特徴パターン作成部2へ出
力される。特徴パターン作成部2は入力された音声信号
の周波数スペトクルを求めて、その特徴を抽出し、これ
をニューラルネットワークで構成されたグループ識別部
3へ出力する。
【0014】特徴パターン作成部2としては、例えば1
〜20ms程度の区間の周波数的特徴を抽出する短時間
スペクトル法、又はこれを表す係数列を抽出する法等が
用いられるが、特にこれに限らず、従来知られている他
の方法を採用してもよい。
【0015】ニューラルネットワークで構成されたグル
ープ識別部3は入力された特徴パターンに基づいて、予
めグループ分けされた単語が入力されている各グループ
毎の単語識別部、即ち入力項目1用の単語識別部4、入
力項目2用の単語識別部5、入力項目3用の単語識別部
6のいずれの単語識別部6に属する音声信号かを照合,
識別し、対応する単語識別部4,5又は6のいずれかへ
信号を出力すると共に、認識結果制御部7へも信号を出
力する。
【0016】図2はニューラルネットワークの出力層ニ
ューロンと単語識別部4,5,6との関係を示す説明図
である。ニューラルネットワークは通常入力層ニューロ
ン,中間層ニューロン(いずれも図示せず)及び出力層
ニューロンの3層からなる階層構造に構成されており、
各層は夫々1又は複数のニューロンを備え、各入力層ニ
ューロンと中間層ニューロンとの間、各中間層ニューロ
ンと出力層ニューロンとの間は夫々異なる結合係数にて
結合されている。実施例では単語識別部4,5,6夫々
に3個の出力層ニューロンO1 ,O2 ,O3 を対応させ
た構成としてある。
【0017】図3はニューラルネットワークで構成され
たグループ識別部3を用いる場合のグループ化の一例を
示す説明図であり、いま、例えば図3に示す如く単語
○,×はグループK1 に、また単語□,☆はグループK
2 に、単語●,△,▽はグループK3 に、更に◇,◆は
グループK4 にグループ分けしておくものとすると、ニ
ューラルネットワークで構成されたグループ識別部3に
対し、上記した各単語が夫々グループK1 〜K4 のいず
れかに属するかを識別し得るよう繰り返し学習させてお
く。図3,図6を対比すれば明らかなように図6に示し
たグループG1 ,G2 〜G4 は極めて類似した物理的特
徴に基づき区分されているのに対し、図3に示したグル
ープK1 ,K2 〜K4 は必ずしも物理的特徴が類似して
いる場合に限られないことが解る。
【0018】そして、例えばグループK1 に属する単語
は入力項目1用の単語識別部4に割り付けたメモリに、
またグループK2 に属する単語は入力項目2用の単語識
別部5に割り付けたメモリに、更にグループK3 に属す
る単語は入力項目3用の単語識別部6に割り付けたメモ
リへ夫々格納しておく。これによってニューラルネット
ワークで構成されたグループ識別部3の図示しない入力
層ニューロンに特徴パターン作成部2からの出力を入力
させると、その出力が各中間層ニューロンに、更に各中
間層ニューロンの出力が各出力層ニューロンに与えら
れ、この過程でグループ識別が行われ、各出力層ニュー
ロンO1 〜O3 から夫々「100」「010」又は「0
01」の如き照合,識別信号が単語識別部4,5,6へ
出力される。
【0019】例えば出力層ニューロンO1 〜O3 から
「100」の信号が出力されると入力項目1用の単語識
別部4が、また「010」の信号が出力されると入力項
目2用の単語識別部5が、更に「001」の信号が出力
されると入力項目3用の単語識別部6が夫々動作せしめ
られ、特徴パターン作成部2から出力された特徴パター
ンに基づく単語識別が実施される。
【0020】即ち、各単語識別部4,5又は6は入力音
声の特徴パターンと予め格納されている各単語とを照合
し、対応する単語が認識されると、識別信号を認識結果
制御部7へ出力する。次にこの認識結果制御部7の制御
動作を図4に示すフローチャートと共に説明する。
【0021】なお各入力項目1,2,3用の単語識別部
4,5,6夫々に割り付けたメモリ内には予め下記に示
す如き単語が格納されているものとする。 入力項目 対象単語 1 男,女,男性,女性 2 北海道,東北,関東,中部,近畿,中国,四国,九州 3 10代,20代,30代,40代,50代,60代
【0022】図4において、先ずFLAG〔1〕=偽、
FLAG〔2〕=偽、FLAG〔3〕=偽として初期設
定を行い、また入力項目番号を示す符号をIとして、こ
れを入力項目1に対応する数値「1」とおき (S1)、
I=3か否かを判断する (S2)。Iは3ではないか
ら、音声入力を行い、また入力された音声信号から特徴
パターン作成部2にて特徴パターンを作成し、ニューラ
ルネットワークで構成されたグループ識別部3にて識別
を行う (S3)。
【0023】これによって入力された音声信号のグルー
プ、即ち入力項目1が識別されるが、いま例えば入力項
目i(入力項目の一般化した番号)であると識別された
ものとすると、I=iか否かの判断で (S6)、I=i
であるから、単語識別を行い、その入力項目中のどの単
語が認識されたかを示す値RCG[1]をj、またその
入力項目で既に何らかの入力が有ったことを示すフラグ
FLAG[1]を真とする処理を行い(S9)、ステッ
プS2へ戻る。またステップS6の判断において、I≠
iの場合、即ち前提条件であるI=iに対し、ニューラ
ルネットワークで構成されたグループ識別部3により識
別された入力項目が、例えば「2」であった場合にはフ
ラグFLAG〔1〕の真,偽を判断し (S7)、FLA
G〔1〕が真である場合にはI=I+1とし(S8)、
ステップS9へ進み、またFLAG〔1〕が偽である場
合にはステップS2へ戻る。
【0024】例えばI=1の場合において、音声入力が
「男性」である場合にはニューラルネットワークで構成
されたグループ識別部3にて識別される入力項目は
「1」、即ちi=1となり、I=iか否かの判断におい
てI=iとなり、RCG〔1〕=男性、FLAG〔1〕
=真を代入し、ステップS3へ戻る。この場合にはIの
値は1のままであるから続いて入力項目1の変更入力が
可能となる。
【0025】次に、例えば I=1、即ち性別に関して
の入力項目である「1」とした状態で「近畿」の音声入
力があった場合、ニューラルネットワークにより識別さ
れる入力項目は「2」であるから、ステップS7で入力
項目1について既に何らかの入力があったかを示すフラ
グFLAG〔1〕が真か偽かを判断する (S7)。FL
AG〔1〕が真の場合、即ち既に性別に関しての入力が
あった場合にはI=I+1=2に入力項目を変え、ステ
ップS9ではFLAG〔2〕=真、またRCG〔2〕=
「近畿」とする処理を行う。一方FLAG〔1〕が偽で
ある場合には音声入力ミスとし、ステップS3に戻り、
入力項目I=1のままで次の音声入力待ちの状態とな
る。なお、上述の実施例では入力項目1,2,3の各単
語識別部4,5,6が3個備える場合を示したが、これ
に限るものではなく必要に応じて増減してよいことは言
うまでもない。
【0026】
【発明の効果】以上の如く第1の発明にあっては識別対
象単語を予め複数のグループに区分しておき、これを識
別可能なようニューラルネットワークで構成されたグル
ープ識別部に学習させておくことで、物理的特徴が必ず
しも類似していないパターンのグループ分けが可能とな
り、用途に応じたグループ分けが可能となる等、本発明
は優れた効果を奏する。また第2の発明にあっては制御
部がニューラルネットワークで構成されたグループ識別
部の識別結果に基づいて順次別の単語識別部を動作させ
てゆくことが可能となり、従来の如くキー入力部の操作
を必要とせず、操作が極めて容易となる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成を示すブロッ
ク図である。
【図2】ニューラルネットワークで構成されたグループ
識別部とグループとの関係を示す説明図である。
【図3】グループ化された入力項目別の内容を示す説明
図である。
【図4】本発明に係る音声認識装置の処理過程を示すフ
ローチャートである。
【図5】従来装置の構成を示すブロック図である。
【図6】従来装置におけるグループ化された入力項目の
内容を示す説明図である。
【符号の説明】
1 音声入力部 2 特徴パターン作成部 3 ニューラルネットワークで構成されたグループ識別
部 4 入力項目1用の単語識別部 5 入力項目2用の単語識別部 6 入力項目3用の単語識別部 7 認識結果制御部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 予め定めた単語のグループ夫々に対応す
    る音声を順次入力させ、グループ内における音声入力と
    対応する単語を認識するようにした音声認識装置におい
    て、音声入力部と、入力された音声の特徴パターンを作
    成する特徴パターン作成部と、前記特徴パターンに基づ
    いて入力音声が前記グループのいずれのグループに属す
    るかを識別可能に学習させたニューラルネットワークで
    構成されたグループ識別部と、該グループ識別部で識別
    されたグループ内から夫々前記特徴パターンに基づき対
    応する単語を識別する単語識別部とを具備することを特
    徴とする音声認識装置。
  2. 【請求項2】 前記グループ識別部の識別結果に基づい
    て次に音声入力させるべきグループの切替えを行う制御
    部を具備することを特徴とする請求項1記載の音声認識
    装置。
JP6020456A 1994-02-17 1994-02-17 音声認識装置 Pending JPH07230299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6020456A JPH07230299A (ja) 1994-02-17 1994-02-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6020456A JPH07230299A (ja) 1994-02-17 1994-02-17 音声認識装置

Publications (1)

Publication Number Publication Date
JPH07230299A true JPH07230299A (ja) 1995-08-29

Family

ID=12027581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6020456A Pending JPH07230299A (ja) 1994-02-17 1994-02-17 音声認識装置

Country Status (1)

Country Link
JP (1) JPH07230299A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01232464A (ja) * 1988-03-11 1989-09-18 Nippon Telegr & Teleph Corp <Ntt> ニューラルネット構成方法
JPH0252278B2 (ja) * 1982-06-19 1990-11-13 Fujitsu Ltd
JPH0580793A (ja) * 1991-09-20 1993-04-02 Kokusai Denshin Denwa Co Ltd <Kdd> 単語予測機能付き対話理解装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0252278B2 (ja) * 1982-06-19 1990-11-13 Fujitsu Ltd
JPH01232464A (ja) * 1988-03-11 1989-09-18 Nippon Telegr & Teleph Corp <Ntt> ニューラルネット構成方法
JPH0580793A (ja) * 1991-09-20 1993-04-02 Kokusai Denshin Denwa Co Ltd <Kdd> 単語予測機能付き対話理解装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム

Similar Documents

Publication Publication Date Title
EP1704668B1 (en) System and method for providing claimant authentication
US6026397A (en) Data analysis system and method
US7769588B2 (en) Spoken man-machine interface with speaker identification
WO2019168253A1 (ko) 계층적으로 사용자 표현을 이해하고 답변을 생성하는 대화형 상담 챗봇 장치 및 방법
CN114818740B (zh) 一种基于领域知识图谱的人机协同方法及系统
Gorin Processing of semantic information in fluently spoken language
KR102655791B1 (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
WO2020036191A1 (ja) 学習データ作成装置、学習データ作成方法、及びプログラム
CN114186559B (zh) 一种从销售会话中确定会话主体角色标签的方法及系统
JPH07230299A (ja) 音声認識装置
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
CN115238050B (zh) 基于文本匹配和意图识别融合处理的智能对话方法及装置
CN114239565B (zh) 一种基于深度学习的情绪原因识别方法及系统
Martin Communications: One way to talk to computers: Voice commands to computers may substitute in part for conventional input devices
Gopalakrishnan et al. Some applications of clustering in the design of neural networks
JP3077555B2 (ja) エレベータの音声認識装置
US20040122663A1 (en) Apparatus and method for switching audio mode automatically
JPH05282457A (ja) 被写体認識方法
Neelamegan et al. Voice based gender recognition using deep learning
CN120336509B (zh) 基于说话者关系的多模态对话情感-原因对抽取方法
JPH0654503B2 (ja) パタ−ン認識装置
KR100382473B1 (ko) 음성 인식 방법
Hill An ESOTerIC approach to some problems in automatic speech recognition
JPH041870A (ja) パターン認識方法および装置
JP2000305590A (ja) 音声認識方法