JPH0962289A

JPH0962289A - 音声認識装置および音声認識処理方法

Info

Publication number: JPH0962289A
Application number: JP7212250A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Mitsuhiro Inazumi; 満広稲積; Hiroshi Hasegawa; 浩長谷川; Isanaka Edatsune; 伊佐央枝常; Osamu Urano; 治浦野
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1995-08-21
Filing date: 1995-08-21
Publication date: 1997-03-07
Anticipated expiration: 2015-08-21
Also published as: JP3697748B2; US6070139A

Abstract

(57)【要約】【目的】音声による遠隔操作を可能とし、かつ、年齢
や性別、あるいは話し方の個人差などによる特徴の違い
に関係なく不特定話者の音声をきわめて高い認識率での
認識を可能とすることを目的としている。【構成】装置本体側には、音声を認識しその認識結果
に応じた動作を行う音声認識処理手段１０を少なくとも
設け、この音声認識処理手段１０との間のデータ送受信
を無線にて行うユーザ端末部２０とを備える。そして、
前記ユーザ端末部２０には、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成する変換規則生成手
段２３２と、その変換規則を記憶する変換規則記憶手段
２３４とを少なくとも備え、前記音声認識処理手段１０
では、ユーザ端末部２０側の変換規則を参照して、標準
音声の特徴量に変換された入力音声特徴量によって音声
認識を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した応答や特定動作を行う音声認識装置お
よび音声認識処理方法に関する。

【０００２】

【従来の技術】この種の音声認識装置においては、特定
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。

【０００３】特定話者音声認識装置は、或る特定の話者
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を１０単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。

【０００４】このような特定話者音声認識装置は、特定
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。

【０００５】これに対して、不特定話者音声認識装置
は、多数（たとえば、２００人程度）の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶（登録）させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。

【０００６】

【発明が解決しようとする課題】この不特定話者の音声
を認識可能な不特定音声認識装置は、確かに、標準的な
音声に対しては比較的高い認識率が確保されるが、殆ど
の全ての音声に対しても高い認識率が得られるとは限ら
ない。たとえば、幼児の声、大人の声、女性の声、男性
の声などのように、年齢や性別によって音声の特徴が大
きく異なり、大人の問いかけに対してはきわめて高い認
識率が得られても、幼児の問いかけに対しては殆ど認識
されないという問題も生じてくる。

【０００７】また、この種の音声認識装置は、自動販売
機などに適用されることも考えられる。たとえば、自動
販売機として券売機を例に取れば、鉄道やバスなどの乗
車券や施設への入場券、食堂などの食券などの券売機や
に音声認識技術を取り入れることにより、音声を入力す
るだけで目的の券が買えるということも可能となる。こ
れが実用化されることになれば、必要な券の料金を表に
よって調べてボタンを押すというような面倒な操作が必
要なくなり、お年寄りや子ども、あるいは手足の不自由
な人にとっては特に便利なものとなる。

【０００８】しかしながら、実用化に際しては問題点も
多い。すなわち、この種の音声認識装置としては、前記
したように、年齢や性別、あるいは話し方の個人差など
による特徴の違いに関係なく不特定話者の音声をきわめ
て高い認識率で認識できなければならないという問題が
ある。

【０００９】本発明はこれらの課題を解決するためにな
されたもので、音声による遠隔操作を可能とし、かつ、
年齢や性別、あるいは話し方の個人差などによる特徴の
違いに関係なく不特定話者の音声をきわめて高い認識率
での認識を可能とすることを目的としている。

【００１０】

【課題を解決するための手段】本発明の音声認識装置
は、入力された音声を分析して音声特徴データを発生
し、この音声特徴データと予め登録された認識可能な単
語の標準音声特徴データとを比較して単語検出データを
出力し、この単語検出データを受けて、入力音声の意味
を理解し、それに対応した処理を行う音声認識装置にお
いて、音声を認識しその認識結果に応じた動作を行う音
声認識処理手段を少なくとも有する装置本体と、この装
置本体との間のデータ送受信を無線にて行うユーザ端末
部とを備え、前記ユーザ端末部は、或る特定のユーザの
音声と標準音声特徴データとを比較し、この比較結果を
もとに前記特定ユーザの音声の特徴量を標準話者の音声
の特徴量に変換するための変換規則を生成する変換規則
生成手段と、その変換規則を記憶する変換規則記憶手段
とを、少なくとも備えたことを特徴としている。

【００１１】そして、前記ユーザ端末部は、音声を入力
する音声入力手段と、この音声入力手段により入力され
た音声を分析して入力音声の特徴量を出力する音声分析
手段と、前記変換規則生成手段および変換規則記憶手段
と、この変換規則記憶手段に記憶された変換規則を参照
し、前記音声分析手段にて分析された入力音声の特徴量
を標準話者の特徴量に変換して出力する特徴量変換手段
と、この特徴量変換手段にて標準話者の特徴量に変換さ
れた入力音声の特徴量を前記装置本体に送信する信号送
信手段とを有する構成とする。この場合、前記装置本体
の音声認識処理手段は、前記ユーザ端末部からの信号を
受信する信号受信手段と、認識可能な単語に対する標準
音声特徴データを記憶している標準音声特徴データ記憶
手段と、前記特徴量変換手段により標準話者の特徴量に
変換された入力音声特徴量を入力し、前記標準音声特徴
データ記憶手段に記憶された標準音声特徴データをもと
に単語検出データを出力する単語検出手段と、この単語
検出手段からの単語検出データをもとに入力音声を理解
する音声理解制御手段と、この音声理解制御手段からの
指示を受けて、その指示に対応した動作を行う動作手段
とを有する構成とする。

【００１２】このような構成において、前記変換規則生
成手段および変換規則記憶手段を、ユーザ端末部に対し
て着脱自在なカートリッジ部に備えるような構成として
もよい。

【００１３】また、前記ユーザ端末部は、前記変換規則
生成手段および変換規則記憶手段と、装置本体との間で
のデータ授受が可能な信号送受信手段とを有する構成と
してもよい。このような構成とした場合、前記装置本体
の音声認識処理手段は、音声を入力する音声入力手段
と、この音声入力手段により入力された音声を分析して
入力音声の特徴量を出力する音声分析手段と、この音声
分析手段にて分析された入力音声の特徴量を、前記ユー
ザ端末部側に備えられた変換規則を用いて標準話者の特
徴量に変換する特徴量変換手段と、認識可能な単語に対
する標準音声特徴データを記憶している標準音声特徴デ
ータ記憶手段と、前記特徴量変換手段により標準話者の
特徴量に変換された入力音声特徴量を入力し、前記標準
音声特徴データ記憶手段に記憶された標準音声特徴デー
タをもとに単語検出データを出力する単語検出手段と、
この単語検出手段からの単語検出データをもとに入力音
声を理解する音声理解制御手段と、この音声理解制御手
段からの指示を受けて、その指示に対応した動作を行う
動作手段と、外部からの信号を受信するとともに外部に
信号を発信する信号送受信手段とを有した構成とする。

【００１４】また、本発明の音声認識装置は、入力され
た音声を分析して音声特徴データを発生し、この音声特
徴データと予め登録された認識可能な単語の標準音声特
徴データとを比較して単語検出データを出力し、この単
語検出データを受けて、入力音声の意味を理解し、それ
に対応した処理を行う音声認識装置において、音声を認
識しその認識結果に応じた動作を行う音声認識処理手段
を少なくとも有した装置本体と、この装置本体との間の
データ送受信を無線にて行うユーザ端末部とを備え、前
記ユーザ端末部は、音声を入力する音声入力手段と、こ
の音声入力手段から入力された音声信号を装置本体側に
送信する信号送信手段とを備えた構成とする。そして、
前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの音声信号を受信する信号受信手段と、この信号受
信手段で受信された音声信号を分析して入力音声の特徴
量を出力する音声分析手段と、或る特定のユーザの音声
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を予め作成する変換規則
生成手段およびその変換規則を記憶する変換規則記憶手
段と、前記音声分析手段にて分析された入力音声の特徴
量を、前記予め作成された変換規則を用いて標準話者の
特徴量に変換するための特徴量変換手段と、認識可能な
単語に対する標準音声特徴データを記憶している標準音
声特徴データ記憶手段と、前記特徴量変換手段により標
準話者の特徴量に変換された入力音声特徴量を入力し、
前記標準音声特徴データ記憶手段に記憶された標準音声
特徴データをもとに単語検出データを出力する単語検出
手段と、この単語検出手段からの単語検出データをもと
に入力音声を理解する音声理解制御手段と、この音声理
解制御手段からの指示を受けて、その指示に対応した動
作を行う動作手段とを有した構成としている。

【００１５】このような構成において、前記変換規則生
成手段および変換規則記憶手段を、装置本体に対して着
脱自在なカートリッジ部に備えた構成としてもよい。

【００１６】また、本発明の音声認識処理方法は、入力
された音声を分析して音声特徴データを発生し、この音
声特徴データと予め登録された認識可能な単語の標準音
声特徴データとを比較して単語検出データを出力し、こ
の単語検出データを受けて、入力音声の意味を理解し、
それに対応した処理を行う音声認識処理方法において、
音声を認識しその認識結果に応じた動作を行う音声認識
処理工程を少なくとも有する装置本体およびこの装置本
体との間のデータ送受信を無線にて行うユーザ端末部を
備え、前記ユーザ端末部は、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成し、この生成した変
換規則を記憶する機能を、少なくとも有することを特徴
としている。

【００１７】そして、前記ユーザ端末部は、或る特定の
ユーザの音声と標準音声特徴データとを比較し、この比
較結果をもとに前記特定ユーザの音声の特徴量を標準話
者の音声の特徴量に変換するための変換規則を生成し、
この生成した変換規則を記憶する機能を有し、さらに、
音声を入力し、入力された音声を分析して入力音声の特
徴量を出力するとともに、前記変換規則を参照し、前記
音声分析された入力音声の特徴量を標準話者の特徴量に
変換して出力し、この標準話者の特徴量に変換された入
力音声の特徴量を前記装置本体に送信する機能を有した
ものとする。この場合、前記装置本体の音声認識処理手
段は、前記ユーザ端末部側から送られてきた前記標準話
者の特徴量に変換された入力音声特徴量を入力し、認識
可能な単語に対する標準音声特徴データとの比較により
単語検出データを出力し、この単語検出データをもとに
入力音声を理解して、それに対応した動作を行うように
する。

【００１８】なお、この場合、前記ユーザ端末部におい
て、前記変換規則を生成し、この生成した変換規則を記
憶する機能を、個人所有の端末部に対して着脱自在なカ
ートリッジ部に備えるようにしてもよい。

【００１９】また、前記ユーザ端末部は、或る特定のユ
ーザの音声を入力し、この特定ユーザの音声特徴データ
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を生成し、この生成した
変換規則を記憶する機能を有するとともに、前記記憶さ
れた変換規則を装置本体からの要求に応じて装置本体側
に送信する機能を有するものであっってもよい。この場
合は、前記装置本体の音声認識処理手段は、音声を入力
し、入力された音声を分析して入力音声の特徴量を出力
し、前記ユーザ端末部に備えられた変換規則を参照する
ことで、前記入力音声の特徴量を標準話者の特徴量に変
換し、この標準話者の特徴量に変換された入力音声特徴
量を、認識可能な単語に対する標準音声特徴データと比
較して単語検出データを出力し、単語検出データをもと
に入力音声を理解して、それに対応した動作を行うよう
にする。

【００２０】また、本発明の音声認識処理方法は、入力
された音声を分析して音声特徴データを発生し、この音
声特徴データと予め登録された認識可能な単語の標準音
声特徴データとを比較して単語検出データを出力し、こ
の単語検出データを受けて、入力音声の意味を理解し、
それに対応した処理を行う音声認識処理方法において、
音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、音声を入力して、その入力
された音声信号を装置本体側に送信する機能を有したも
のとする。この場合、前記装置本体の音声認識処理手段
は、或る特定のユーザの音声と標準音声特徴データとを
比較し、この比較結果をもとに前記特定ユーザの音声の
特徴量を標準話者の音声の特徴量に変換するための変換
規則を生成し、この生成した変換規則を記憶する機能を
有し、さらに、前記ユーザ端末部からの音声信号を受信
し、受信された音声信号を分析して入力音声の特徴量を
出力し、前記変換規則を参照することで、前記入力音声
の特徴量を標準話者の特徴量に変換し、この標準話者の
特徴量に変換された入力音声特徴量を、認識可能な単語
に対する標準音声特徴データと比較して単語検出データ
を出力し、単語検出データをもとに入力音声を理解し
て、それに対応した動作を行うようにする。

【００２１】なお、前記変換規則を生成しこの生成した
変換規則を記憶する機能を、装置本体に対して着脱自在
なカートリッジ部に備えるようにしてもよい。

【００２２】

【作用】本発明は、前記ユーザ端末部と装置本体とを無
線でデータの授受を行うことを可能としている。したが
って、音声による遠隔操作が可能となる。また、前記ユ
ーザ端末部は、或る特定のユーザの音声と標準音声特徴
データとを比較し、この比較結果をもとに前記特定ユー
ザの音声の特徴量を標準話者の音声の特徴量に変換する
ための変換規則を生成し、この生成した変換規則を記憶
する機能を少なくとも有している。したがって、装置本
体では、ユーザ端末部側の変換規則を参照して、標準音
声の特徴列に変換された入力音声の特徴量によって音声
認識を行うため、年齢や性別などの違い、あるいは話し
方の個人差などに関係なく、きわめて高い認識率での認
識が可能となる。

【００２３】また、変換規則を生成しこの生成した変換
規則を記憶する部分をカートリッジ部に設けるようにす
る。これにより、１台の端末あるいは装置に対してユー
ザ単位でカートリッジを交換して使用することができ、
装置や端末は１台であっても複数のユーザが使用可能と
なる。

【００２４】

【実施例】以下、本発明の実施例を図面を参照して説明
する。

【００２５】（第１の実施例）この第１の実施例では、
たとえば、企業内の食堂などにおける食券の自動券売機
に適用した場合を例にとって説明する。図１は本発明の
全体的な概略構成を説明する図であり、概略的には、券
売機（装置本体）１内に収納された音声認識処理部１０
（詳細は後述する）と、ユーザが所有するユーザ端末部
２０（詳細は後述する）から構成され、このユーザ端末
部２０と音声認識処理部１０との間は無線によりデータ
の授受が行われるようになっている。そして、券売機１
の外面には通常の券売機と同様、販売可能なメニューの
表示部２や、その料金表示部３、料金投入部４、釣り銭
排出部５などの他に、音声入力部６、音声出力部７など
が設けられている。なお、この券売機の発券機構などは
本発明の要旨となる部分には直接関係しないので、これ
らの構成や機能などについては説明を省略する。

【００２６】図２はこの第１の実施例による音声認識処
理部１０およびユーザ端末部２０の構成を説明するブロ
ック図である。この第１の実施例では、ユーザ端末部２
０は、音声入力部２１、音声分析部２２、話者適応部２
３（詳細は後述する）、信号送信部２４で構成され、音
声認識処理部１０は、信号受信部１１、単語検出部１
２、標準音声特徴データ記憶部１３、音声理解制御部１
４、応答データ記憶部１５、音声合成部１６、音声出力
部１７（図１で示した音声出力部７に相当する）、駆動
データ記憶部１８、駆動制御部１９などから構成されて
いる。なお、この第１の実施例では、ユーザ端末部２０
に音声入力部２１が設けられた例を示しているので、こ
のユーザ端末部２０を使用する場合は、装置本体１の音
声入力部６は特に必要とはしない。

【００２７】以上の各部におけるそれぞれの機能、さら
には全体的な処理などについて以下に順次説明する。

【００２８】音声入力部２１は図示されていないがマイ
クロホン、増幅器、ローパスフィルタ、Ａ／Ｄ変換器な
どから構成され、マイクロホンから入力された音声を、
増幅器、ローパスフィルタを通して適当な音声波形とし
たのち、Ａ／Ｄ変換器によりディジタル信号（たとえ
ば、１２ＫＨｚ．１６ｂｉｔ）に変換して出力し、その
出力を音声分析部２２に送る。音声分析部２２では、音
声入力部２１から送られてきた音声波形信号を、演算器
（ＣＰＵ）を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出（LPCーCEP
STRUM係数が一般的）し、この特徴ベクトルの時系列
（以下、音声特徴ベクトル列という）を出力する。

【００２９】前記話者適応部２３は、特徴量変換部２３
１、変換規則生成部２３２、標準音声特徴データ記憶部
２３３、変換規則記憶部２３４などから構成されてい
る。前記標準音声特徴データ記憶部２３３は、１つ１つ
の単語に対し多数（たとえば、２００人程度）の話者が
発話した音声を用いて予め作成した認識可能な単語（登
録単語という）の標準パターンを記憶（登録）している
ＲＯＭである。

【００３０】このような構成の話者適応部２３は、前記
音声分析部２２からの出力を受けて、入力音声の特徴量
を標準話者の特徴量に変換したのち、信号送信部２４か
ら出力するものである。すなわち、変換規則生成部２３
２により、このユーザ端末部２０を所有するユーザの音
声をもとに、標準音声特徴データ記憶部２３３のデータ
を用いて変換規則を予め作成し、その変換規則を変換規
則記憶部２３４に格納しておく。そして、ユーザの音声
が入力されると、音声分析部２２で音声分析され、その
音声分析された特徴量が特徴量変換部２３１に入力され
る。特徴量変換部２３１では、その送られてきた特徴量
を基に、変換規則記憶部２３４に格納された変換規則に
基づいて標準話者の特徴量に変換し、その変換後の特徴
量を信号送信部２４から発信する。

【００３１】この話者適応部２３の具体的な構成例とし
ては、図３に示すように、ベクトル量子化部２４１、入
力話者コードブック生成部２４２、標準音声特徴データ
記憶部２３３、入力話者コードブック２４３、標準話者
コードブック２４４により構成されたものがある。図３
において、ベクトル量子化部２４１は図２における特徴
量変換部２３１に相当し、入力話者コードブック生成部
２４２は変換規則生成部２３２に相当し、入力話者コー
ドブック２４３と標準話者コードブック２４４は変換規
則記憶部２３４に相当している。この図３を用いて入力
音声の特徴量を標準話者の特徴量に変換する処理につい
て説明する。

【００３２】まず、入力話者コードブック生成部２４２
により入力話者コードブックを作成する処理を予め行っ
ておく。これは、ユーザが認識可能な単語のうち幾つか
の単語を１つづ入力することにより行われる。たとえば
認識可能な単語の１つとして、「おはよう」という単語
があるとすれば、この「おはよう」を入力すると、この
「おはよう」の音声が音声分析部２２で分析され、その
特徴ベクトル列が入力話者コードブック生成部２４２に
入力される。そして、標準音声特徴データ記憶部２３３
内のデータとの比較を行い、それらの音声の特徴の違い
から、標準話者のコードブックを入力話者の音声特徴空
間へ写象するための写象関数を作成する。この写象関数
は複数の単語を用いて作成することにより精度が向上す
るため、本実施例では複数の単語を用いる。

【００３３】このようにして得られた写象関数を用い
て、標準話者コードブックを入力話者の音声特徴空間へ
写象することにより、或る特定のユーザのコードブック
が作成される。そして、そのユーザの音声が入力される
と、入力話者コードブックと標準話者コードブックをも
とに標準話者の特徴ベクトル列に変換して出力する。こ
れを図４により説明する。図４（ａ）は、入力されたユ
ーザの音声特徴ベクトル列であり、同図（ｂ）は前記し
たように予め作成されたユーザのコードブック、同図
（ｃ）は標準話者のコードブックである。なお、通常、
入力音声特徴ベクトル列は１０次元程度であるが、ここ
では説明を簡単にするために５次元のベクトル列で示し
ている。また、コードブックのサイズは通常２５６ある
いは５１２といったサイズが用いられるが、ここでは説
明を簡単にするためにサイズを３としている。そして、
入力話者コードブックと標準話者コードブックはそれぞ
れのデータが予め対応づけられており、たとえば、入力
話者コードブックのＡのデータは標準話者コードブック
のＡ’に、入力話者コードブックのＢのデータは標準話
者コードブックのＢ’に、入力話者コードブックのＣの
データは標準話者コードブックのＣ’にそれぞれ対応づ
けられている。

【００３４】このようにして、今、ユーザの入力音声が
音声分析部２２で音声分析され、図４（ａ）示すよう
に、この場合、５次元の特徴ベクトル列が時系列として
出力される。

【００３５】そして、これらのデータ（１）、（２）、
（３）、・・・が、同図（ｂ）に示す入力話者コードブ
ックのどのデータと最も近いかを距離計算により求め
る。たとえば、入力音声（１）のデータ（３・２・０・
０・０）は入力話者コードブックのデータＡ（２・２・
０・０・０）と最も近く、入力音声（２）のデータ（２
・１・１・１・１）は入力話者コードブックのデータＢ
（１・１・１・１・１）と最も近く、入力音声（３）の
データ（１・２・１・１・１）は入力話者コードブック
のデータＢ（１・１・１・１・１）と最も近く、入力音
声（４）のデータ（０・０・２・２・２）は入力話者コ
ードブックのデータＣ（０・０・０・２・２）と最も近
く、入力音声（５）のデータ（０・０・０・２・３）は
入力話者コードブックのデータＣ（０・０・０・２・
２）と最も近いということが求められる。

【００３６】このようにして、入力音声の１つ１つのデ
ータ毎に入力話者コードブックを参照して、最も近い特
徴ベクトルを選ぶ。したがって、この場合、入力音声
（１）〜（５）に限って考えれば、Ａ・Ｂ・Ｂ・Ｃ・Ｃ
という特徴ベクトルが求められる。

【００３７】そして、入力話者コードブックは標準話者
コードブックに対して、ＡはＡ’、ＢはＢ’、ＣはＣ’
というような対応付けができているので、この場合、入
力音声は標準話者のコードブックのＡ’・Ｂ’・Ｂ’・
Ｃ’・Ｃ’というデータに変換されることになる。な
お、この場合、標準音声話者コードブックはデータＡ’
（５・５・１・１・１・）、データＢ’（２・２・３・
２・２）、データＣ’（０・１・３・３・３）である。

【００３８】以上のようにして、入力音声の特徴ベクト
ル列は標準話者コードブックの特徴ベクトル列に変換で
き、この変換された特徴ベクトル列が信号送信部２４か
ら装置本体の音声認識処理部１０に送信される。

【００３９】ところで、以上説明したユーザ端末部２０
は、たとえば、腕時計のなかに組み込んだり、あるい
は、カード型にしてそれぞれの個人が所有するようにす
る。そして、予め、所有する各ユーザが自己の入力話者
コードブックを作成しておく。これにより、ユーザ端末
部２０を所有するユーザは、たとえば食券を購入する場
合、券売機（装置本体）１のそばに行って、ユーザ端末
部２０に向かって、たとえば、「カレーを１つ下さい」
と言えば、その音声は、音声入力部２１から入力され、
音声分析部２２で音声分析された後、その特徴ベクトル
列は話者適応部２３によって、ユーザ自身の音声を基に
作成されたコードブックにより標準話者の特徴ベクトル
列に変換されて装置本体の音声認識処理部１０に送られ
る。

【００４０】次に、前記音声認識処理部１０の処理につ
いて説明する。標準音声特徴データ記憶部１３は、前記
話者適応部に設けられた標準音声特徴データ記憶部２３
３と同様、１つ１つの単語に対し多数（たとえば、２０
０人程度）の話者が発話した音声を用いて予め作成した
認識可能な単語（登録単語という）の標準パターンを記
憶（登録）しているＲＯＭである。ここでは、食券の販
売機を例にしているので、登録単語はメニュー分の１０
単語程度とし、その単語としては、たとえば、「カレ
ー」、「そば」、「うどん」などである。

【００４１】単語検出部１２は図示されていないが主に
演算器（ＣＰＵ）と処理プログラムを記憶しているＲＯ
Ｍから構成され、前記標準音声特徴データ記憶部１３に
登録されている単語が、入力音声中のどの部分にどれく
らいの確かさで存在するかを検出するものである。この
単語検出部１２としては、隠れマルコフモデル（ＨＭ
Ｍ）方式やＤＰマッチング方式などを用いることも可能
であるが、ここでは、ＤＲＮＮ（ダイナミックリカレ
ントニューラルネットワーク）方式によるキーワー
ドスポッティング処理技術（この技術に関しては、本出
願人が特開平６ー４０９７、特開平６ー１１９４７６に
より、すでに特許出願済みである。）を用いて、不特定
話者による連続音声認識に近い音声認識を可能とするた
めの単語検出データを出力するものであるとする。

【００４２】この単語検出部１２の具体的な処理につい
て、図５を参照しながら簡単に説明する。なお、本発明
の実施例では、食券などの券売機を例にしているが、図
５による単語検出部１２の単語検出データ出力処理、お
よび、後述する音声理解制御部１４の処理動作を説明す
る際は、券売機に関する音声認識処理には関係なく、一
般的な入力音声例を用いて説明する。

【００４３】単語検出部１２は、標準音声特徴データ記
憶部１３に登録されている単語が、入力音声中のどの部
分にどれくらいの確かさで存在するかを検出するもので
ある。今、話者から「明日の天気は、・・・」というよ
うな音声が入力され、図５（ａ）に示すような音声信号
が出力されたとする。この「明日の天気は、・・・」の
文節のうち、「明日」と「天気」がこの場合のキーワー
ドとなり、これらは、予め登録されている１０単語程度
の登録単語の１つとして、標準音声特徴データ記憶部１
３にそのパターンが記憶されている。そして、これら登
録単語をたとえば１０単語としたとき、これら１０単語
（これを、単語１、単語２、単語３、・・・とする）に
対応して各単語を検出するための信号が出力されてい
て、その検出信号の値などの情報から、入力音声中にど
の程度の確かさで対応する単語が存在するかを検出す
る。つまり、「天気」という単語（単語１）が入力音声
中に存在したときに、その「天気」という信号を待って
いる検出信号が、同図（ｂ）の如く、入力音声の「天
気」の部分で立ち上がる。同様に、「明日」という単語
（単語２）が入力音声中に存在したときに、その「明
日」という信号を待っている検出信号が、同図（ｃ）の
如く、入力音声の「明日」の部分で立ち上がる。同図
（ｂ），（ｃ）において、0.9あるいは0.8といった数値
は、確からしさ（近似度）を示す数値であり、0.9や0.8
といった高い数値であれば、その高い確からしさを持っ
た登録単語は、入力された音声に対する認識候補である
ということができる。つまり、「明日」という登録単語
は、同図（ｃ）に示すように、入力音声信号の時間軸上
のｗ１の部分に0.8という確からしさで存在し、「天
気」という登録単語は、同図（ｂ）に示すように、入力
音声信号の時間軸上のｗ２の部分に0.9という確からし
さで存在することがわかる。

【００４４】また、この図５の例では、「天気」という
入力に対して、同図（ｄ）に示すように、単語３（この
単語３は「何時」という登録単語であるとする）を待つ
信号も、時間軸上のｗ２の部分に、ある程度の確からし
さ（その数値は0.6程度）を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、２つ
以上の登録単語が認識候補として存在する場合には、最
も近似度（確からしさを示す数値）の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
１つの単語を認識単語として選定する方法などを用い
て、或る１つの認識候補単語を決定する。たとえば、前
者の方法で認識候補を決定するとすれば、この場合は、
時間軸上のｗ２の部分に対応する近似度は、「天気」を
検出する検出信号の近似度が最も高いことから、その部
分の入力音声に対する認識候補は「天気」であるとの判
定を行う。なお、これらの近似度を基に入力音声の認識
は音声理解制御部１４にて行う。

【００４５】たとえば、単語検出部１２からの図５
（ｂ）〜（ｅ）に示すような検出データ（これをワード
ラティスという。このワードラティスは、登録単語名、
近似度、単語の始点ｓと終点ｅを示す信号などが含まれ
る）が入力されると、まず、そのワードラティスを基
に、入力音声の中のキーワードとしての単語を１つまた
は複数個決定する。この例では、入力音声は「明日の天
気は・・・」であるので、「明日」と「天気」が検出さ
れることになり、この「明日」と「天気」のキーワード
から「明日の天気は・・・」という連続的な入力音声の
内容を理解し、それに対応した応答内容を選んで出力す
る。

【００４６】以上説明したキーワードスポッティング処
理による連続音声認識に近い音声認識処理は、日本語だ
けでなく他の言語においても適用可能である。たとえ
ば、使用する言語が英語であるとすれば、登録されてい
る認識可能な単語は、たとえば、“good morning”、
“time”、“tommorow”、“good night”などが一例
として挙げられ、これら認識可能な登録単語の特徴デー
タが、標準音声特徴データ記憶部４に記憶されている。
そして今、話者が「what time is it now」と問い
かけた場合、この「what time is it now」の文節
のうち、単語「time」がこの場合のキーワードとなり、
「time」という単語が入力音声の中に存在したときに、
その「time」の音声信号を待っている検出信号が、入力
音声の「time」の部分で立ち上がる。そして、単語検出
部３からの検出データ（ワードラティス）が入力される
と、まず、そのワードラティスを基に、入力音声の中の
キーワードとしての単語を１つまたは複数個決定する。
この例では、入力音声は、「what time is it no
w」であるので、「time」がキーワードとして検出され
ることになり、このキーワードを基に、「what time
is it now」という連続的な入力音声の内容を理解す
る。

【００４７】ところで、これを食券などの券売機として
実現するには、販売可能なメニュー名として、カレー、
そば、うどんといった単語とその個数をキーワードと
し、たとえば、ユーザが「カレーを１つ下さい」と自己
の所有するユーザ端末部２０に対して発話した場合、
「カレー」と「１つ」がキーワードとして検出され、こ
れらのキーワードを基に、装置側では「カレーを１つ下
さい」というような連続音声を認識することができ、こ
れに対して、装置側からは、「カレーを１つですね」と
いうような応答を行うように設定しておけばよい。

【００４８】音声理解制御部１４は、主に演算器（ＣＰ
Ｕ）と処理プログラムを記憶しているＲＯＭから構成さ
れ、単語検出部１２からの単語検出データを入力して、
その単語検出データを基に、音声を認識し（入力音声全
体の意味を理解し）、応答データ記憶部１５を参照し
て、入力音声の意味に応じた応答内容を決定してそれを
音声合成部（主にＣＰＵとＲＯＭで構成される）１６に
送る。そして、音声合成部１６では応答内容を音声合成
し、その音声合成出力は音声出力部１７から外部に出力
される。また、音声理解制御部１４は、単語検出部１２
からの単語検出データを基に、入力音声全体の意味を理
解すると、駆動データ記憶部１８を参照して、入力音声
の意味に応じた駆動内容を決定してそれを駆動制御部１
９に送る。これにより、駆動制御部１９は音声理解制御
部１４の指示に対応し駆動制御を行い、発券機構などが
駆動される。

【００４９】なお、前記した音声分析、単語検出、音声
理解会話制御、音声合成などの制御を行うＣＰＵはそれ
ぞれに設けてもよいが、これら全ての処理を行う１台の
メインのＣＰＵを設け、この１台のＣＰＵで本発明の全
体の処理を行うようにしてもよい。

【００５０】このような構成において、ユーザ端末部２
０を所有するユーザが、たとえば食券を購入する場合、
券売機（装置本体）１のそばに行って、ユーザ端末部２
０に向かって、たとえば、「カレーを１つ下さい」と言
えば、その音声は、音声入力部２１から入力され、音声
分析部２２で音声分析された後、その特徴ベクトル列は
話者適応部２３によって、ユーザ自身の音声を基に作成
されたコードブック及び標準話者コードブックにより標
準話者の特徴量ベクトル列に変換される。すなわち、音
声分析部２２にて音声分析された特徴ベクトル列は、ベ
クトル量子化部２４１を通って、入力話者コードブック
２４３のデータと比較され、予め対応づけられた標準話
者コードブック２４４の特徴ベクトル列に変換されてベ
クトル量子化部２４１から出力される。このベクトル量
子化部２４１によって標準話者の特徴ベクトル列に変換
された入力音声信号は信号送信部２４から発信され、装
置本体１内の音声認識処理部１０に設けられた信号受信
部１１で受信される。

【００５１】そして、単語検出部１２ではその送られて
きた特徴ベクトル列を標準音声特徴データ記憶部１３内
のデータと比較し、単語検出データ（ワードラティス）
を音声理解制御部１４に出力する。

【００５２】これにより、音声理解制御部１４では、単
語検出部１２からの単語検出データをもとに、入力音声
の意味を理解する。この場合、入力音声は「カレーを１
つ下さい」であるからそれを理解し、それに対する応答
として、たとえば、「はい、かれーを１つですね」とい
うような応答内容を応答データ記憶部１６から取り出し
て、その信号を音声合成部１５に送る。音声合成部１５
では、音声理解会話制御部１４からの信号を受けてそれ
に対応した音声合成を行い、音声出力部１７から音声合
成された応答内容を出力する。

【００５３】そして、ユーザは装置本体１側からの「は
い、カレーを１つですね」という応答内容を受けて、た
とえば「はい」（この「はい」は登録単語であるとす
る）という返事を行うことにより、装置本体１の音声認
識処理部１０では「はい」を前記同様に認識する。これ
により、装置本体１は料金が投入されたことを確認して
食券の発券処理を行う。具体的には、音声理解制御部１
４が、駆動データ記憶部１８を参照して対応する駆動デ
ータを駆動制御部１９に送る。駆動制御部では音声理解
制御部１４からの指示を受けて、発券機構などに対して
駆動制御を行い、これにより発券処理などが行われる。

【００５４】なお、ユーザと装置側の会話内容は前記し
たものに限られるものではなく、たおえば、ユーザが
「カレー」というと、装置側からは「幾つですか」と問
い返し、これに対してユーザが「１つ」というように応
答すると、装置側から「・・円を入れて下さい」という
ような会話も可能であり、その会話内容は種々の内容が
設定できる。

【００５５】以上のように、この第１の実施例では、音
声入力部２１、音声分析部２２、話者適応部２３で構成
されるユーザ端末部２０を各ユーザが所有し、このユー
ザ端末部２０を所有するユーザが予め、ユーザ自身の音
声により入力話者コードブックを作成し、実際に使用す
る際は、ユーザの話す音声を前記入力話者コードブック
を参照して標準話者の特徴量ベクトル列に変換して、そ
の特徴ベクトル列を装置本体の音声認識処理部１０に送
るようにしている。したがって、装置本体側では、標準
音声特徴ベクトル列に変換されたデータを用いて、音声
認識を行うので、ユーザの声の質や話し方の個人差に影
響されず、高い認識率を得ることができる。

【００５６】なお、前記第１の実施例において、音声入
力部２１、音声分析部２２、話者適応部２３を１つのセ
ットとしてユーザ端末部２０を構成したが、これに限ら
れることなく、たとえば、話者適応部２３の入力話者コ
ードブック生成部２４２、標準音声特徴データ記憶部２
３３、入力話者コードブック２４３、標準話者コードブ
ック２４４だけをカートリッジ部に備え、このカートリ
ッジ部を各個人で所有するようにしてもよい。すなわ
ち、ユーザ端末部２０をたとえばカード式とした場合、
図６に示すように、カード部には音声入力部２１、音声
分析部２２、ベクトル量子化部２４１、信号発信部２３
を設け、カートリッジ部２５には入力話者コードブック
生成部２４１、標準音声特徴データ記憶部２３３、入力
話者コードブック２４３、標準話者コードブック２４４
を設ける。そして、このカートリッジ２５をカード側に
設けられたカートリッジ装着部（図示せず）に装着する
ことにより、図６の点線で示すようにそれぞれが接続さ
れ、それぞれの部分との間での信号の授受が可能とな
る。

【００５７】このようにすれば、カートリッジ部２５の
みを個人所有とすることができ、音声入力部２１、音声
分析部２２、ベクトル量子化部２４１、信号発信部２３
などを収納したカード部は何人かで共用でき、個人所有
のカートリッジは小型軽量なものとなり、低価格なもの
とすることができる。この場合、入力話者コードブック
の作成時にはカートリッジをカードに装着して行えばよ
い。なお、このようにカートリッジ式とする場合、標準
音声特徴データ記憶部２３３は必ずしもカートリッジ２
５側に設ける必要はない。

【００５８】（第２の実施例）この第２の実施例も第１
の実施例と同様、たとえば、企業内の食堂などにおける
食券の自動券売機に適用した場合を例にとって説明す
る。以上説明した第１の実施例では、ユーザ端末部２０
は、音声入力部２１、音声分析部２２、話者適応部２
３、信号送信部２４などを備えた構成としたが、この第
２の実施例では、図７に示すように、音声入力部２１、
音声分析部２２、話者適応部２３のベクトル量子化部２
４１などは装置本体側の音声認識処理部１０に設け、話
者適応部２３のうち入力話者コードブック生成部２４
２、標準音声特徴データ記憶部２３３、入力話者コード
ブック２４３、標準話者コードブック２４４をユーザ端
末部２０側に設けた構成としている。また、この場合
は、券売機（装置本体）１の音声認識処理部１０には信
号送受信部３０が設けられるとともに、ユーザ端末部２
０にも信号送受信部２６が設けられる。図７において、
図２、図３と同一部分には同一符号が付されている。な
お、図７においては、音声認識のための標準音声特徴デ
ータ記憶部１３と入力話者コードブックを生成するため
の標準音声特徴データ記憶部２３３を別個に設けた例を
示しているが、単語検出方法によっては入力話者コード
ブックを生成する処理を行う際に、標準音声特徴データ
記憶部１３を使用することも可能であり、ここで示した
ように、それぞれに別個に設ける必要はない。ただし、
この場合は、標準音声特徴データ記憶部１３のデータを
ユーザ端末部２０側に送る手段が必要となる。

【００５９】以上のような構成において、ユーザが券を
購入する場合、次のような手順にて行う。この場合、ユ
ーザ端末部２０には音声入力部がないため、ユーザは装
置本体１に設けられた音声入力部６（図７では音声入力
部２１に相当する）に向かって発話することになる。そ
して、入力音声は音声分析部２２で音声分析されたの
ち、その特徴ベクトル列が装置本体１側に設けられた信
号送受信部３０から発信され、ユーザ端末部２０に設け
られた信号送受信部２６により受信されるようになって
いる。そして、ユーザ端末部２０では、送られてきた入
力音声の特徴ベクトル列に対応した標準話者コードブッ
クデータを信号送受信部２６から発信する。この標準話
者コードブックデータは、装置本体側に設けられた信号
送受信部３０で受信され、これにより、ベクトル量子化
部２４１からは、入力音声の特徴ベクトル列を標準話者
の特徴ベクトル列に変換した入力音声特徴ベクトルが出
力され、単語検出部１２に送られる。

【００６０】ところで、この第２の実施例において、各
ユーザがユーザ端末部２０において、入力話者コードブ
ック生成を行うには、たとえば、そのユーザ端末部２０
を持って券売機１の場所に行って、ユーザ端末部２０お
よび券売機１を入力話者コードブック生成のモードと
し、券売機１の音声入力部６から所定の単語を音声入力
することにより、前記第１の実施例で説明したと同様
に、入力話者コードブックが生成される。なお、この入
力話者コードブックの生成は、券売機１でなく、専用の
装置を設けて、その専用の装置により行うようにしても
よい。

【００６１】このような構成において、ユーザ端末部１
を所有するユーザが、たとえば食券を購入する場合、券
売機（装置本体）１の近くに行って、券売機１に向かっ
て、たとえば、「カレーを１つ下さい」と言えば、その
音声は、券売機１の音声入力部６（音声入力部２１）か
ら入力され、音声分析部２２で音声分析された後、その
特徴ベクトル列はベクトル量子化部２４１を通って、信
号送受信部３０より発信されて、ユーザ端末部２０の信
号送受信部２６で受信される。これにより、入力話者コ
ードブック２４３が参照され、予め対応づけられた標準
話者コードブック２４４のデータが信号送受信部２６か
ら発信され、券売機１の信号送受信部３０で受信され
る。これにより、標準話者の特徴ベクトル列に変換され
た特徴ベクトル列がベクトル量子化部２４１から出力さ
れ、単語検出部１２に送られる。

【００６２】単語検出部１２ではその送られてきた特徴
ベクトル列を標準音声特徴データ記憶部１３内のデータ
と比較し、単語検出データ（ワードラティス）を音声理
解制御部１４に出力する。

【００６３】これにより、音声理解制御部１４では、前
記第１の実施例で説明したように、単語検出部１２から
の単語検出データをもとに、入力音声の意味を理解す
る。この場合、入力音声は「カレーを１つ下さい」であ
るからそれを理解し、それに対する応答として、たとえ
ば、「はい、カレーを１つですね」というような応答内
容を応答データ記憶部１６から取り出して、その信号を
音声合成部１５に送る。音声合成部１５では、音声理解
会話制御部１４からの信号を受けてそれに対応した音声
合成を行い、音声出力部１７から音声合成された応答内
容を出力する。

【００６４】そして、ユーザは装置本体１側からの「は
い、カレーを１つですね」という応答内容を受けて、た
とえば「はい」（この「はい」は登録単語である）とい
う返事を行うことにより、装置本体１の音声認識処理部
１０では「はい」を前記同様に認識する。これにより、
装置本体１は料金が投入されたことを確認して食券の発
券処理を行う。具体的には、音声理解制御部１４が、駆
動データ記憶部１８を参照して対応する駆動データを駆
動制御部１９に送る。駆動制御部では音声理解制御部１
４からの指示を受けて、発券機構などに対して駆動制御
を行う。

【００６５】以上のように、この第２の実施例では、入
力話者コードブック生成部２４２、標準音声特徴データ
記憶部２３３、入力話者コードブック２４３、標準話者
コードブック２４４で構成されるユーザ端末部２０を各
ユーザが所有し、このユーザ端末部２０を所有するユー
ザが予め、ユーザ自身の音声により入力話者コードブッ
クを作成し、実際に使用する際は、ユーザの話す音声を
装置本体側で入力して、音声分析し、その音声分析され
た特徴ベクトル列をユーザの所有するユーザ端末部２０
に発信し、ユーザ端末部２０側で、前記入力話者コード
ブックを参照して対応する標準話者コードブックデータ
を装置側に送り返し、装置本体側で標準話者の特徴量ベ
クトル列を単語検出部１２に送るようにしている。そし
て、装置本体側では、入力音声特徴ベクトル列を標準音
声特徴列に変換したデータを用いて、音声認識を行うの
で、ユーザの声の質や話し方の個人差に影響されず、高
い認識率を得ることができる。これにより、ユーザ端末
部２０をより一層、小型で軽量なものとすることがで
き、また、低価格なものとすることができる。

【００６６】なお、以上の第１、第２の実施例では、本
発明を食券などの券売機に適用した例で説明したが、本
発明は、この種の自動販売機に限られるものでなく、玩
具や、日常的に使われる電子機器などに幅広く適用でき
ることは勿論である。また、ユーザが発する音声を認識
してそれに対して何らかの言葉を応答する例を示した
が、言葉での応答は必ずしも必要ではなく、音声認識し
てそれに対して何らかの動作をなすものであってもよ
い。

【００６７】（第３の実施例）この第３の実施例は、音
声入力部２１のみを装置本体から分離して、入力音声信
号を信号発信部から発信し、それを装置本体に設けた信
号受信部で受信し、音声分析して音声認識を行って、認
識結果に応じた何らかの動作を行うようにしたものであ
る。この第３の実施例は、或る程度、距離が離れた状態
で、装置を音声にて遠隔操作するような場合に特に有効
であり、たとえば、玩具を例に取れば、離れた場所から
模型の船や飛行機などを操縦する場合に適用できる。以
下この第３の実施例について説明する。

【００６８】図８は第３の実施例を説明するブロック図
である。図８において、装置本体側の音声認識処理部１
０には信号受信部１１、音声分析部２２、話者適応部２
３、単語検出部１２、標準音声特徴データ記憶部１３、
音声理解制御部１４、駆動データ記憶部１８、駆動制御
部１９などが設けられている。そして、ユーザ端末部２
０には音声入力部２１とこの音声入力部２１に入力され
た音声信号を発信する信号送信部２４が設けられてい
る。

【００６９】ここで、音声入力部２１、信号送信部２
４、信号受信部１１、音声分析部２２、話者適応部２
３、単語検出部１２、標準音声特徴データ記憶部１３、
音声理解制御部１４、駆動データ記憶部１８、駆動制御
部１９などの構成や機能などは今まで説明したものと同
じであるが、この例は、認識した音声に対して言葉で応
答する必要は特にないため、音声による応答内容の出力
処理については省略してある。そして、この場合は、た
とえば、遠隔操縦可能な船などであれば、ユーザが「直
進せよ」、「左にまがれ」、「止まれ」などの認識可能
な単語を含んだ音声を発することにより、音声理解制御
部１４がそれを認識し、この音声理解制御部１４の指示
によって駆動制御部１９がそれに応じた駆動制御を行
う。

【００７０】また、前記話者適応部２３は、この場合、
カートリッジ式にするのが望ましく、前記第１の実施例
のなかで説明したと同様、図９に示すように、話者適応
部２３のうち、入力話者コードブック生成部２４２、標
準音声特徴データ記憶部２３３、入力話者コードブック
２４３、標準話者コードブック２４４をカートリッジ部
２５に備え、このカートリッジ部２５を各個人で所有す
るようにする。すなわち、装置本体側の音声認識処理部
１０には、信号受信部１１、音声分析部２２、ベクトル
量子化部２４１、単語検出部１２、標準音声特徴データ
記憶部１３、音声理解制御部１４、駆動データ記憶部１
８、駆動制御部１９を設け、カートリッジ部２５を装置
本体の所定の装着部（図示せず）に装着することによ
り、カートリッジ内の入力話者コードブック生成部２４
２、入力話者コードブック２４３、標準話者コードブッ
ク２４４が音声分析部２２やベクトル量子化部２４１な
どに対して図９の点線で示すように接続され、信号の授
受が可能となるようにする。

【００７１】このようにすれば、カートリッジ部２５を
個人所有として、装置本体は何人かで共用できる。この
場合、入力話者コードブックの作成時にはカートリッジ
２５を装置本体に装着して前記した要領で行えばよい。

【００７２】このような構成において、この装置本体が
たとえば、遠隔操縦可能な玩具であれば、まず、ユーザ
が自己のカートリッジ（入力話者コードブック生成済
み）を装置本体に装着し、ユーザ端末部２０の音声入力
部２１に向かって、「直進せよ」などと言うと、その音
声信号が信号発信部２４から発信され、装置本体の信号
受信部１１で受信され、音声分析部２２で分析され、そ
の特徴ベクトル列が前記したように、標準話者の特徴ベ
クトル列に変換されて、単語検出部１２に入力される。

【００７３】単語検出部１２ではその特徴ベクトル列を
標準音声特徴データ記憶部１３内のデータと比較し、単
語検出データ（ワードラティス）を音声理解制御部１４
に出力する。

【００７４】これにより、音声理解制御部１４では、前
記したように、単語検出部１２からの単語検出データを
もとに、入力音声の意味を理解し、それに対応する信号
を出力する。駆動制御部１９はその信号を受けて、この
場合は、直進させるような制御を行う。

【００７５】以上のように、この第３の実施例では、音
声入力部を装置本体から分離して、入力音声信号を信号
送信部から発信し、それを装置本体に設けた信号受信部
で受信し、音声分析して音声認識を行って、認識結果に
応じた何らかの動作を行うようにしている。また、話者
適応部２３の入力話者コードブック生成部２４２、標準
音声特徴データ記憶部２３３、入力話者コードブック２
４３、標準話者コードブック２４４をカートリッジ部２
５に設け、このカートリッジ部２５を各個人で所有する
ようにして、装置を使用するユーザが、自己のカートリ
ッジを装置本体に装着して用いることにより、そのユー
ザの入力音声特徴ベクトル列が標準音声特徴ベクトル列
に変換され、その変換後の特徴ベクトル列より、音声認
識が行われるので、ユーザの声の質や話し方の個人差に
影響されず、高い認識率を得ることができる。

【００７６】なお、この第３の実施例において、音声認
識のための標準音声特徴データ記憶部１３と入力話者コ
ードブックを生成するための標準音声特徴データ記憶部
２３３を別個に設けた例を示したが、単語検出方法によ
っては入力話者コードブックを生成する処理を行う際
に、標準音声特徴データ記憶部１３を使用することも可
能であり、ここで示したように、それぞれに別個に設け
る必要はない。この場合は、話者適応部２３の入力話者
コードブック生成部２４２が標準音声特徴データ記憶部
１３のデータを入力できるようにしておけばよい。

【００７７】また、この第３の実施例では、本発明を遠
隔操縦が可能な玩具に適用した例で説明したが、本発明
は、この種の玩具に限られるものでなく、日常的に使わ
れる電子機器などに幅広く適用できることは勿論であ
る。また、この第３の実施例では、ユーザが発する音声
を認識してそれに対して、音声の応答ではなく何らかの
動作のみ行う例について説明したが、装置本体側に音声
による応答手段、信号送信手段などを設け、ユーザ端末
側には、信号受信手段、音声出力手段を設けて、ユーザ
の音声に対して何らかの動作を行うとともに、音声での
応答を行うようにすることも可能である。

【００７８】

【発明の効果】以上説明したように、本発明の音声認識
装置は、請求項１によれば、装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成する変換規則生成手
段と、その変換規則を記憶する変換規則記憶手段とを少
なくとも備えた構成としたことにより、音声による遠隔
操作が可能となり、しかも、ユーザ端末部はそれを使用
するユーザの音声を標準話者の特徴量に変換するための
変換規則が記憶されていることから、装置本体側では、
標準話者の特徴量に変換された特徴量を用いて音声認識
を行うので、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。

【００７９】また、請求項２によれば、ユーザ端末部側
に、音声入力手段、音声分析手段、変換規則生成手段、
変換規則記憶手段、この変換規則記憶手段に記憶された
変換規則に基づいて入力音声の特徴量を標準話者の特徴
量に変換して出力する特徴量変換手段、標準話者の特徴
量に変換された入力音声の特徴量を前記装置本体に送信
する信号送信手段を設けた構成としたので、ユーザの音
声を基にした変換規則生成処理を他の装置に依存するこ
となく、自己の所有する端末で簡単に行うことができ
る。また、このユーザ端末部を用いることにより、音声
による遠隔操作が可能となり、かつ、年齢や性別などの
違い、あるいは話し方の個人差などに関係なく、きわめ
て高い認識率での認識が可能となる。

【００８０】また、請求項３によれば、前記変換規則生
成手段および変換規則記憶手段を、カートリッジ部に備
え、各ユーザがそれぞれカートリッジを所有することに
より、１つのユーザ端末を複数のユーザが使用可能とな
り、また、各ユーザの所有するカートリッジは音声入力
部や音声分析部、特徴量変換部などを含まないので小
型、軽量、低コスト化を図ることができる。

【００８１】また、請求項４によれば、前記ユーザ端末
部は、前記変換規則生成手段、変換規則記憶手段、信号
送受信手段とを設けた構成としたので、各ユーザの所有
するユーザ端末部は、音声入力部や音声分析部、特徴量
変換部などを含まないので小型、軽量、低コスト化を図
ることができる。また、このユーザ端末部を用いること
により、音声による遠隔操作が可能となり、かつ、年齢
や性別などの違い、あるいは話し方の個人差などに関係
なく、きわめて高い認識率での認識が可能となる。

【００８２】また、請求項５によれば、前記ユーザ端末
部は、音声を入力する音声入力手段と、この音声入力手
段から入力された音声信号を装置本体側に送信する信号
送信手段とを備え、装置本体側には、前記ユーザ端末部
からの音声信号を受信する信号受信手段、入力音声の特
徴量を出力する音声分析手段と、変換規則を予め作成す
る変換規則生成手段、その変換規則を記憶する変換規則
記憶手段、入力音声の特徴量を変換規則を用いて標準話
者の特徴量に変換するための特徴量変換手段、標準話者
の特徴量に変換された入力音声特徴量を入力し、標準音
声特徴データをもとに単語検出データを出力する単語検
出手段と、この単語検出データをもとに入力音声を理解
する音声理解制御手段と、この音声理解制御手段からの
指示を受けて、その指示に対応した動作を行う動作手段
とを有した構成としたので、各ユーザの所有するユーザ
端末部は、音声入力部と信号発信部のみであるため、小
型、軽量、低コスト化を図ることができる。また、音声
による遠隔操作が可能となり、かつ、年齢や性別などの
違い、あるいは話し方の個人差などに関係なく、きわめ
て高い認識率での認識が可能となる。

【００８３】また、請求項６によれば、前記変換規則生
成手段および変換規則記憶手段を、カートリッジ部に備
え、１台の装置に対してユーザ単位でカートリッジを交
換できるようにしたので、１台の装置を複数のユーザが
使用可能となる。

【００８４】また、本発明の音声認識処理方法は、請求
項７によれば、装置本体と、この装置本体との間のデー
タ送受信を無線にて行うユーザ端末部とを備え、前記ユ
ーザ端末部は、或る特定のユーザの音声と標準音声特徴
データとを比較し、この比較結果をもとに前記特定ユー
ザの音声の特徴量を標準話者の音声の特徴量に変換する
ための変換規則を生成し、この生成した変換規則を記憶
する機能を少なくとも有したことにより、音声による遠
隔操作が可能となり、しかも、ユーザ端末部はそれを使
用するユーザの音声を標準話者の特徴量に変換するため
の変換規則が記憶されていることから、装置本体側で
は、標準話者の特徴量に変換された特徴量を用いて音声
認識を行うので、年齢や性別などの違い、あるいは話し
方の個人差などに関係なく、きわめて高い認識率での認
識が可能となる。

【００８５】また、請求項８によれば、ユーザ端末部
は、変換規則を生成しこの生成した変換規則を記憶する
機能および音声を入力し、入力された音声を分析して入
力音声の特徴量を出力するとともに、前記変換規則を参
照し、前記音声分析された入力音声の特徴量を標準話者
の特徴量に変換して出力し、この標準話者の特徴量に変
換された入力音声の特徴量を前記装置本体に送信する機
能を有しているので、ユーザの音声を基にした変換規則
生成処理を他の装置に依存することなく、自己の所有す
る端末で簡単に行うことができる。また、このユーザ端
末部を用いることにより、音声による遠隔操作が可能と
なり、かつ、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。

【００８６】また、請求項９によれば、変換規則を生成
しこの生成した変換規則を記憶する機能をカートリッジ
部に設け、各ユーザがそれぞれカートリッジを所有する
ことにより、１つのユーザ端末を複数のユーザが使用可
能となり、また、各ユーザの所有するカートリッジは音
声入力部や音声分析部、特徴量変換部などを含まないの
で小型、軽量、低コスト化を図ることができる。

【００８７】また、請求項１０によれば、ユーザ端末部
は、変換規則を生成しこの生成した変換規則を記憶する
機能および前記記憶された変換規則を装置本体からの要
求に応じて装置本体側に送信する機能のみを有するよう
にしたので、各ユーザの所有するユーザ端末部は、音声
入力部や音声分析部、特徴量変換部などを含まないので
小型、軽量、低コスト化を図ることができる。また、こ
の個人所有の端末を用いることにより、音声による遠隔
操作が可能となり、かつ、年齢や性別などの違い、ある
いは話し方の個人差などに関係なく、きわめて高い認識
率での認識が可能となる。

【００８８】また、請求項１１によれば、前記ユーザ端
末部としては、音声を入力して、その入力された音声信
号を装置本体側に送信する機能のみとし、装置本体側
は、変換規則を生成しこの生成した変換規則を記憶する
機能を有し、さらに、前記個人所有の端末部からの音声
信号を受信し、受信された音声信号を分析して入力音声
の特徴量を出力し、前記変換規則を参照することで、前
記入力音声の特徴量を標準話者の特徴量に変換し、この
標準話者の特徴量に変換された入力音声特徴量を、認識
可能な単語に対する標準音声特徴データと比較して単語
検出データを出力し、単語検出データをもとに入力音声
を理解して、それに対応した動作を行うようにしたの
で、各ユーザの所有するユーザ端末部は、音声入力部と
信号発信部のみであるため、小型、軽量、低コスト化を
図ることができる。また、音声による遠隔操作が可能と
なり、かつ、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。

【００８９】また、請求項１２によれば、前記変換規則
を生成しこの生成した変換規則を記憶する機能を、カー
トリッジ部に備え、１台の装置に対してユーザ単位でカ
ートリッジを交換できるようにしたので、１台の装置を
複数のユーザが使用可能となる。

【図面の簡単な説明】

【図１】本発明の概略を説明する図。

【図２】本発明の第１の実施例を説明するブロック図。

【図３】図２で示した話者適応部の具体例を示すブロッ
ク図。

【図４】入力音声の特徴ベクトル列を標準話者の特徴ベ
クトル列に変換する方法を説明する図。

【図５】単語検出部による単語検出処理および音声理解
制御部による音声認識処理を説明する図。

【図６】第１の実施例において話者適応部の一部をカー
トリッジ式とした例を示す図。

【図７】本発明の第２の実施例を説明するブロック図。

【図８】本発明の第３の実施例を説明するブロック図。

【図９】第３の実施例において話者適応部の一部をカー
トリッジ式とした例を示す図。

【符号の説明】

１・・・券売機（装置本体）１０・・・音声認識処理部１１・・・信号受信部１２・・・単語検出部１３・・・標準音声特徴データ記憶部１４・・・音声理解制御部１５・・・応答データ記憶部１６・・・音声合成部１８・・・駆動データ記憶部１９・・・駆動制御部２０・・・ユーザ端末部２１・・・音声入力部２２・・・音声分析部２３・・・話者適応部２４・・・信号送信部２５・・・カートリッジ部２３１・・・特徴量変換部２３２・・・変換規則生成部２３３・・・標準音声特徴データ記憶部２３４・・・変換規則記憶部２４１・・・ベクトル量子化部２４２・・・入力話者コードブック生成部２４３・・・入力話者コードブック２４４・・・標準話者コードブック

───────────────────────────────────────────────────── フロントページの続き (72)発明者枝常伊佐央長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内 (72)発明者浦野治長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内

Claims

【特許請求の範囲】

【請求項１】入力された音声を分析して音声特徴デー
タを発生し、この音声特徴データと予め登録された認識
可能な単語の標準音声特徴データとを比較して単語検出
データを出力し、この単語検出データを受けて、入力音
声の意味を理解し、それに対応した処理を行う音声認識
装置において、音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有する装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、或る特定のユーザの音声と標準音
声特徴データとを比較し、この比較結果をもとに前記特
定ユーザの音声の特徴量を標準話者の音声の特徴量に変
換するための変換規則を生成する変換規則生成手段と、
その変換規則を記憶する変換規則記憶手段とを、少なく
とも備えたことを特徴とする音声認識装置。
【請求項２】前記ユーザ端末部は、音声を入力する音
声入力手段と、この音声入力手段により入力された音声
を分析して入力音声の特徴量を出力する音声分析手段
と、前記変換規則生成手段および変換規則記憶手段と、
この変換規則記憶手段に記憶された変換規則を参照し、
前記音声分析手段にて分析された入力音声の特徴量を標
準話者の特徴量に変換して出力する特徴量変換手段と、
この特徴量変換手段にて標準話者の特徴量に変換された
入力音声の特徴量を前記装置本体に送信する信号送信手
段とを有し、前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの信号を受信する信号受信手段と、認識可能な単語
に対する標準音声特徴データを記憶している標準音声特
徴データ記憶手段と、前記特徴量変換手段により標準話
者の特徴量に変換された入力音声特徴量を入力し、前記
標準音声特徴データ記憶手段に記憶された標準音声特徴
データをもとに単語検出データを出力する単語検出手段
と、この単語検出手段からの単語検出データをもとに入
力音声を理解する音声理解制御手段と、この音声理解制
御手段からの指示を受けて、その指示に対応した動作を
行う動作手段とを有したことを特徴とする請求項１記載
の音声認識装置。
【請求項３】前記ユーザ端末部において、前記変換規
則生成手段および変換規則記憶手段を、ユーザ端末部に
対して着脱自在なカートリッジ部に備えたことを特徴と
する請求項２記載の音声認識装置。
【請求項４】前記ユーザ端末部は、前記変換規則生成
手段および変換規則記憶手段と、装置本体との間でのデ
ータ授受が可能な信号送受信手段とを有し、前記装置本体の音声認識処理手段は、音声を入力する音
声入力手段と、この音声入力手段により入力された音声
を分析して入力音声の特徴量を出力する音声分析手段
と、この音声分析手段にて分析された入力音声の特徴量
を、前記ユーザ端末部側に備えられた変換規則を用いて
標準話者の特徴量に変換する特徴量変換手段と、認識可
能な単語に対する標準音声特徴データを記憶している標
準音声特徴データ記憶手段と、前記特徴量変換手段によ
り標準話者の特徴量に変換された入力音声特徴量を入力
し、前記標準音声特徴データ記憶手段に記憶された標準
音声特徴データをもとに単語検出データを出力する単語
検出手段と、この単語検出手段からの単語検出データを
もとに入力音声を理解する音声理解制御手段と、この音
声理解制御手段からの指示を受けて、その指示に対応し
た動作を行う動作手段と、外部からの信号を受信すると
ともに外部に信号を発信する信号送受信手段とを有した
ことを特徴とする請求項１記載の音声認識装置。
【請求項５】入力された音声を分析して音声特徴デー
タを発生し、この音声特徴データと予め登録された認識
可能な単語の標準音声特徴データとを比較して単語検出
データを出力し、この単語検出データを受けて、入力音
声の意味を理解し、それに対応した処理を行う音声認識
装置において、音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、音声を入力する音声入力手段と、
この音声入力手段から入力された音声信号を装置本体側
に送信する信号送信手段とを備え、前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの音声信号を受信する信号受信手段と、この信号受
信手段で受信された音声信号を分析して入力音声の特徴
量を出力する音声分析手段と、或る特定のユーザの音声
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を予め作成する変換規則
生成手段およびその変換規則を記憶する変換規則記憶手
段と、前記音声分析手段にて分析された入力音声の特徴
量を、前記予め作成された変換規則を用いて標準話者の
特徴量に変換するための特徴量変換手段と、認識可能な
単語に対する標準音声特徴データを記憶している標準音
声特徴データ記憶手段と、前記特徴量変換手段により標
準話者の特徴量に変換された入力音声特徴量を入力し、
前記標準音声特徴データ記憶手段に記憶された標準音声
特徴データをもとに単語検出データを出力する単語検出
手段と、この単語検出手段からの単語検出データをもと
に入力音声を理解する音声理解制御手段と、この音声理
解制御手段からの指示を受けて、その指示に対応した動
作を行う動作手段とを有したことを特徴とする音声認識
装置。
【請求項６】前記変換規則生成手段および変換規則記
憶手段を、装置本体に対して着脱自在なカートリッジ部
に備えたことを特徴とする請求項５記載の音声認識装
置。
【請求項７】入力された音声を分析して音声特徴デー
タを発生し、この音声特徴データと予め登録された認識
可能な単語の標準音声特徴データとを比較して単語検出
データを出力し、この単語検出データを受けて、入力音
声の意味を理解し、それに対応した処理を行う音声認識
処理方法において、音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有する装置本体およびこの装置本
体との間のデータ送受信を無線にて行うユーザ端末部を
備え、前記ユーザ端末部は、或る特定のユーザの音声と標準音
声特徴データとを比較し、この比較結果をもとに前記特
定ユーザの音声の特徴量を標準話者の音声の特徴量に変
換するための変換規則を生成し、この生成した変換規則
を記憶する機能を、少なくとも有することを特徴とする
音声認識処理方法。
【請求項８】前記ユーザ端末部は、或る特定のユーザ
の音声と標準音声特徴データとを比較し、この比較結果
をもとに前記特定ユーザの音声の特徴量を標準話者の音
声の特徴量に変換するための変換規則を生成し、この生
成した変換規則を記憶する機能を有し、さらに、音声を
入力し、入力された音声を分析して入力音声の特徴量を
出力するとともに、前記変換規則を参照し、前記音声分
析された入力音声の特徴量を標準話者の特徴量に変換し
て出力し、この標準話者の特徴量に変換された入力音声
の特徴量を前記装置本体に送信する機能を有し、前記装置本体の音声認識処理手段は、前記ユーザ端末部
側から送られてきた前記標準話者の特徴量に変換された
入力音声特徴量を入力し、認識可能な単語に対する標準
音声特徴データとの比較により単語検出データを出力
し、この単語検出データをもとに入力音声を理解して、
それに対応した動作を行うことを特徴とする請求項７記
載の音声認識処理方法。
【請求項９】前記ユーザ端末部において、前記変換規
則を生成し、この生成した変換規則を記憶する機能を、
ユーザ端末部に対して着脱自在なカートリッジ部に備え
たことを特徴とする請求項８記載の音声認識処理方法。
【請求項１０】前記ユーザ端末部は、或る特定のユー
ザの音声を入力し、この特定ユーザの音声特徴データと
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成し、この生成した変
換規則を記憶する機能を有するとともに、前記記憶され
た変換規則を装置本体からの要求に応じて装置本体側に
送信する機能を有し、前記装置本体の音声認識処理手段は、音声を入力し、入
力された音声を分析して入力音声の特徴量を出力し、前
記ユーザ端末部側に備えられた変換規則を参照すること
で、前記入力音声の特徴量を標準話者の特徴量に変換
し、この標準話者の特徴量に変換された入力音声特徴量
を、認識可能な単語に対する標準音声特徴データと比較
して単語検出データを出力し、単語検出データをもとに
入力音声を理解して、それに対応した動作を行うことを
特徴とする請求項７記載の音声認識処理方法。
【請求項１１】入力された音声を分析して音声特徴デ
ータを発生し、この音声特徴データと予め登録された認
識可能な単語の標準音声特徴データとを比較して単語検
出データを出力し、この単語検出データを受けて、入力
音声の意味を理解し、それに対応した処理を行う音声認
識処理方法において、音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、音声を入力して、その入力された
音声信号を装置本体側に送信する機能を有し、前記装置本体の音声認識処理手段は、或る特定のユーザ
の音声と標準音声特徴データとを比較し、この比較結果
をもとに前記特定ユーザの音声の特徴量を標準話者の音
声の特徴量に変換するための変換規則を生成し、この生
成した変換規則を記憶する機能を有し、さらに、前記個
人所有の端末部からの音声信号を受信し、受信された音
声信号を分析して入力音声の特徴量を出力し、前記変換
規則を参照することで、前記入力音声の特徴量を標準話
者の特徴量に変換し、この標準話者の特徴量に変換され
た入力音声特徴量を、認識可能な単語に対する標準音声
特徴データと比較して単語検出データを出力し、単語検
出データをもとに入力音声を理解して、それに対応した
動作を行うことを特徴とする請求項１１記載の音声認識
処理方法。
【請求項１２】前記変換規則を生成し、この生成した
変換規則を記憶する機能を、装置本体に対して着脱自在
なカートリッジ部に備えたことを特徴とする請求項１１
記載の音声認識処理方法。