JPH0962289A - 音声認識装置および音声認識処理方法 - Google Patents

音声認識装置および音声認識処理方法

Info

Publication number
JPH0962289A
JPH0962289A JP7212250A JP21225095A JPH0962289A JP H0962289 A JPH0962289 A JP H0962289A JP 7212250 A JP7212250 A JP 7212250A JP 21225095 A JP21225095 A JP 21225095A JP H0962289 A JPH0962289 A JP H0962289A
Authority
JP
Japan
Prior art keywords
voice
input
unit
standard
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7212250A
Other languages
English (en)
Other versions
JP3697748B2 (ja
Inventor
Yasunaga Miyazawa
康永 宮沢
Mitsuhiro Inazumi
満広 稲積
Hiroshi Hasegawa
浩 長谷川
Isanaka Edatsune
伊佐央 枝常
Osamu Urano
治 浦野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP21225095A priority Critical patent/JP3697748B2/ja
Priority to US08/699,874 priority patent/US6070139A/en
Publication of JPH0962289A publication Critical patent/JPH0962289A/ja
Application granted granted Critical
Publication of JP3697748B2 publication Critical patent/JP3697748B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 音声による遠隔操作を可能とし、かつ、年齢
や性別、あるいは話し方の個人差などによる特徴の違い
に関係なく不特定話者の音声をきわめて高い認識率での
認識を可能とすることを目的としている。 【構成】 装置本体側には、音声を認識しその認識結果
に応じた動作を行う音声認識処理手段10を少なくとも
設け、この音声認識処理手段10との間のデータ送受信
を無線にて行うユーザ端末部20とを備える。そして、
前記ユーザ端末部20には、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成する変換規則生成手
段232と、その変換規則を記憶する変換規則記憶手段
234とを少なくとも備え、前記音声認識処理手段10
では、ユーザ端末部20側の変換規則を参照して、標準
音声の特徴量に変換された入力音声特徴量によって音声
認識を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した応答や特定動作を行う音声認識装置お
よび音声認識処理方法に関する。
【0002】
【従来の技術】この種の音声認識装置においては、特定
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。
【0003】特定話者音声認識装置は、或る特定の話者
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を10単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。
【0004】このような特定話者音声認識装置は、特定
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。
【0005】これに対して、不特定話者音声認識装置
は、多数(たとえば、200人程度)の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶(登録)させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。
【0006】
【発明が解決しようとする課題】この不特定話者の音声
を認識可能な不特定音声認識装置は、確かに、標準的な
音声に対しては比較的高い認識率が確保されるが、殆ど
の全ての音声に対しても高い認識率が得られるとは限ら
ない。たとえば、幼児の声、大人の声、女性の声、男性
の声などのように、年齢や性別によって音声の特徴が大
きく異なり、大人の問いかけに対してはきわめて高い認
識率が得られても、幼児の問いかけに対しては殆ど認識
されないという問題も生じてくる。
【0007】また、この種の音声認識装置は、自動販売
機などに適用されることも考えられる。たとえば、自動
販売機として券売機を例に取れば、鉄道やバスなどの乗
車券や施設への入場券、食堂などの食券などの券売機や
に音声認識技術を取り入れることにより、音声を入力す
るだけで目的の券が買えるということも可能となる。こ
れが実用化されることになれば、必要な券の料金を表に
よって調べてボタンを押すというような面倒な操作が必
要なくなり、お年寄りや子ども、あるいは手足の不自由
な人にとっては特に便利なものとなる。
【0008】しかしながら、実用化に際しては問題点も
多い。すなわち、この種の音声認識装置としては、前記
したように、年齢や性別、あるいは話し方の個人差など
による特徴の違いに関係なく不特定話者の音声をきわめ
て高い認識率で認識できなければならないという問題が
ある。
【0009】本発明はこれらの課題を解決するためにな
されたもので、音声による遠隔操作を可能とし、かつ、
年齢や性別、あるいは話し方の個人差などによる特徴の
違いに関係なく不特定話者の音声をきわめて高い認識率
での認識を可能とすることを目的としている。
【0010】
【課題を解決するための手段】本発明の音声認識装置
は、入力された音声を分析して音声特徴データを発生
し、この音声特徴データと予め登録された認識可能な単
語の標準音声特徴データとを比較して単語検出データを
出力し、この単語検出データを受けて、入力音声の意味
を理解し、それに対応した処理を行う音声認識装置にお
いて、音声を認識しその認識結果に応じた動作を行う音
声認識処理手段を少なくとも有する装置本体と、この装
置本体との間のデータ送受信を無線にて行うユーザ端末
部とを備え、前記ユーザ端末部は、或る特定のユーザの
音声と標準音声特徴データとを比較し、この比較結果を
もとに前記特定ユーザの音声の特徴量を標準話者の音声
の特徴量に変換するための変換規則を生成する変換規則
生成手段と、その変換規則を記憶する変換規則記憶手段
とを、少なくとも備えたことを特徴としている。
【0011】そして、前記ユーザ端末部は、音声を入力
する音声入力手段と、この音声入力手段により入力され
た音声を分析して入力音声の特徴量を出力する音声分析
手段と、前記変換規則生成手段および変換規則記憶手段
と、この変換規則記憶手段に記憶された変換規則を参照
し、前記音声分析手段にて分析された入力音声の特徴量
を標準話者の特徴量に変換して出力する特徴量変換手段
と、この特徴量変換手段にて標準話者の特徴量に変換さ
れた入力音声の特徴量を前記装置本体に送信する信号送
信手段とを有する構成とする。この場合、前記装置本体
の音声認識処理手段は、前記ユーザ端末部からの信号を
受信する信号受信手段と、認識可能な単語に対する標準
音声特徴データを記憶している標準音声特徴データ記憶
手段と、前記特徴量変換手段により標準話者の特徴量に
変換された入力音声特徴量を入力し、前記標準音声特徴
データ記憶手段に記憶された標準音声特徴データをもと
に単語検出データを出力する単語検出手段と、この単語
検出手段からの単語検出データをもとに入力音声を理解
する音声理解制御手段と、この音声理解制御手段からの
指示を受けて、その指示に対応した動作を行う動作手段
とを有する構成とする。
【0012】このような構成において、前記変換規則生
成手段および変換規則記憶手段を、ユーザ端末部に対し
て着脱自在なカートリッジ部に備えるような構成として
もよい。
【0013】また、前記ユーザ端末部は、前記変換規則
生成手段および変換規則記憶手段と、装置本体との間で
のデータ授受が可能な信号送受信手段とを有する構成と
してもよい。このような構成とした場合、前記装置本体
の音声認識処理手段は、音声を入力する音声入力手段
と、この音声入力手段により入力された音声を分析して
入力音声の特徴量を出力する音声分析手段と、この音声
分析手段にて分析された入力音声の特徴量を、前記ユー
ザ端末部側に備えられた変換規則を用いて標準話者の特
徴量に変換する特徴量変換手段と、認識可能な単語に対
する標準音声特徴データを記憶している標準音声特徴デ
ータ記憶手段と、前記特徴量変換手段により標準話者の
特徴量に変換された入力音声特徴量を入力し、前記標準
音声特徴データ記憶手段に記憶された標準音声特徴デー
タをもとに単語検出データを出力する単語検出手段と、
この単語検出手段からの単語検出データをもとに入力音
声を理解する音声理解制御手段と、この音声理解制御手
段からの指示を受けて、その指示に対応した動作を行う
動作手段と、外部からの信号を受信するとともに外部に
信号を発信する信号送受信手段とを有した構成とする。
【0014】また、本発明の音声認識装置は、入力され
た音声を分析して音声特徴データを発生し、この音声特
徴データと予め登録された認識可能な単語の標準音声特
徴データとを比較して単語検出データを出力し、この単
語検出データを受けて、入力音声の意味を理解し、それ
に対応した処理を行う音声認識装置において、音声を認
識しその認識結果に応じた動作を行う音声認識処理手段
を少なくとも有した装置本体と、この装置本体との間の
データ送受信を無線にて行うユーザ端末部とを備え、前
記ユーザ端末部は、音声を入力する音声入力手段と、こ
の音声入力手段から入力された音声信号を装置本体側に
送信する信号送信手段とを備えた構成とする。そして、
前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの音声信号を受信する信号受信手段と、この信号受
信手段で受信された音声信号を分析して入力音声の特徴
量を出力する音声分析手段と、或る特定のユーザの音声
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を予め作成する変換規則
生成手段およびその変換規則を記憶する変換規則記憶手
段と、前記音声分析手段にて分析された入力音声の特徴
量を、前記予め作成された変換規則を用いて標準話者の
特徴量に変換するための特徴量変換手段と、認識可能な
単語に対する標準音声特徴データを記憶している標準音
声特徴データ記憶手段と、前記特徴量変換手段により標
準話者の特徴量に変換された入力音声特徴量を入力し、
前記標準音声特徴データ記憶手段に記憶された標準音声
特徴データをもとに単語検出データを出力する単語検出
手段と、この単語検出手段からの単語検出データをもと
に入力音声を理解する音声理解制御手段と、この音声理
解制御手段からの指示を受けて、その指示に対応した動
作を行う動作手段とを有した構成としている。
【0015】このような構成において、前記変換規則生
成手段および変換規則記憶手段を、装置本体に対して着
脱自在なカートリッジ部に備えた構成としてもよい。
【0016】また、本発明の音声認識処理方法は、入力
された音声を分析して音声特徴データを発生し、この音
声特徴データと予め登録された認識可能な単語の標準音
声特徴データとを比較して単語検出データを出力し、こ
の単語検出データを受けて、入力音声の意味を理解し、
それに対応した処理を行う音声認識処理方法において、
音声を認識しその認識結果に応じた動作を行う音声認識
処理工程を少なくとも有する装置本体およびこの装置本
体との間のデータ送受信を無線にて行うユーザ端末部を
備え、前記ユーザ端末部は、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成し、この生成した変
換規則を記憶する機能を、少なくとも有することを特徴
としている。
【0017】そして、前記ユーザ端末部は、或る特定の
ユーザの音声と標準音声特徴データとを比較し、この比
較結果をもとに前記特定ユーザの音声の特徴量を標準話
者の音声の特徴量に変換するための変換規則を生成し、
この生成した変換規則を記憶する機能を有し、さらに、
音声を入力し、入力された音声を分析して入力音声の特
徴量を出力するとともに、前記変換規則を参照し、前記
音声分析された入力音声の特徴量を標準話者の特徴量に
変換して出力し、この標準話者の特徴量に変換された入
力音声の特徴量を前記装置本体に送信する機能を有した
ものとする。この場合、前記装置本体の音声認識処理手
段は、前記ユーザ端末部側から送られてきた前記標準話
者の特徴量に変換された入力音声特徴量を入力し、認識
可能な単語に対する標準音声特徴データとの比較により
単語検出データを出力し、この単語検出データをもとに
入力音声を理解して、それに対応した動作を行うように
する。
【0018】なお、この場合、前記ユーザ端末部におい
て、前記変換規則を生成し、この生成した変換規則を記
憶する機能を、個人所有の端末部に対して着脱自在なカ
ートリッジ部に備えるようにしてもよい。
【0019】また、前記ユーザ端末部は、或る特定のユ
ーザの音声を入力し、この特定ユーザの音声特徴データ
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を生成し、この生成した
変換規則を記憶する機能を有するとともに、前記記憶さ
れた変換規則を装置本体からの要求に応じて装置本体側
に送信する機能を有するものであっってもよい。この場
合は、前記装置本体の音声認識処理手段は、音声を入力
し、入力された音声を分析して入力音声の特徴量を出力
し、前記ユーザ端末部に備えられた変換規則を参照する
ことで、前記入力音声の特徴量を標準話者の特徴量に変
換し、この標準話者の特徴量に変換された入力音声特徴
量を、認識可能な単語に対する標準音声特徴データと比
較して単語検出データを出力し、単語検出データをもと
に入力音声を理解して、それに対応した動作を行うよう
にする。
【0020】また、本発明の音声認識処理方法は、入力
された音声を分析して音声特徴データを発生し、この音
声特徴データと予め登録された認識可能な単語の標準音
声特徴データとを比較して単語検出データを出力し、こ
の単語検出データを受けて、入力音声の意味を理解し、
それに対応した処理を行う音声認識処理方法において、
音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、音声を入力して、その入力
された音声信号を装置本体側に送信する機能を有したも
のとする。この場合、前記装置本体の音声認識処理手段
は、或る特定のユーザの音声と標準音声特徴データとを
比較し、この比較結果をもとに前記特定ユーザの音声の
特徴量を標準話者の音声の特徴量に変換するための変換
規則を生成し、この生成した変換規則を記憶する機能を
有し、さらに、前記ユーザ端末部からの音声信号を受信
し、受信された音声信号を分析して入力音声の特徴量を
出力し、前記変換規則を参照することで、前記入力音声
の特徴量を標準話者の特徴量に変換し、この標準話者の
特徴量に変換された入力音声特徴量を、認識可能な単語
に対する標準音声特徴データと比較して単語検出データ
を出力し、単語検出データをもとに入力音声を理解し
て、それに対応した動作を行うようにする。
【0021】なお、前記変換規則を生成しこの生成した
変換規則を記憶する機能を、装置本体に対して着脱自在
なカートリッジ部に備えるようにしてもよい。
【0022】
【作用】本発明は、前記ユーザ端末部と装置本体とを無
線でデータの授受を行うことを可能としている。したが
って、音声による遠隔操作が可能となる。また、前記ユ
ーザ端末部は、或る特定のユーザの音声と標準音声特徴
データとを比較し、この比較結果をもとに前記特定ユー
ザの音声の特徴量を標準話者の音声の特徴量に変換する
ための変換規則を生成し、この生成した変換規則を記憶
する機能を少なくとも有している。したがって、装置本
体では、ユーザ端末部側の変換規則を参照して、標準音
声の特徴列に変換された入力音声の特徴量によって音声
認識を行うため、年齢や性別などの違い、あるいは話し
方の個人差などに関係なく、きわめて高い認識率での認
識が可能となる。
【0023】また、変換規則を生成しこの生成した変換
規則を記憶する部分をカートリッジ部に設けるようにす
る。これにより、1台の端末あるいは装置に対してユー
ザ単位でカートリッジを交換して使用することができ、
装置や端末は1台であっても複数のユーザが使用可能と
なる。
【0024】
【実施例】以下、本発明の実施例を図面を参照して説明
する。
【0025】(第1の実施例)この第1の実施例では、
たとえば、企業内の食堂などにおける食券の自動券売機
に適用した場合を例にとって説明する。図1は本発明の
全体的な概略構成を説明する図であり、概略的には、券
売機(装置本体)1内に収納された音声認識処理部10
(詳細は後述する)と、ユーザが所有するユーザ端末部
20(詳細は後述する)から構成され、このユーザ端末
部20と音声認識処理部10との間は無線によりデータ
の授受が行われるようになっている。そして、券売機1
の外面には通常の券売機と同様、販売可能なメニューの
表示部2や、その料金表示部3、料金投入部4、釣り銭
排出部5などの他に、音声入力部6、音声出力部7など
が設けられている。なお、この券売機の発券機構などは
本発明の要旨となる部分には直接関係しないので、これ
らの構成や機能などについては説明を省略する。
【0026】図2はこの第1の実施例による音声認識処
理部10およびユーザ端末部20の構成を説明するブロ
ック図である。この第1の実施例では、ユーザ端末部2
0は、音声入力部21、音声分析部22、話者適応部2
3(詳細は後述する)、信号送信部24で構成され、音
声認識処理部10は、信号受信部11、単語検出部1
2、標準音声特徴データ記憶部13、音声理解制御部1
4、応答データ記憶部15、音声合成部16、音声出力
部17(図1で示した音声出力部7に相当する)、駆動
データ記憶部18、駆動制御部19などから構成されて
いる。なお、この第1の実施例では、ユーザ端末部20
に音声入力部21が設けられた例を示しているので、こ
のユーザ端末部20を使用する場合は、装置本体1の音
声入力部6は特に必要とはしない。
【0027】以上の各部におけるそれぞれの機能、さら
には全体的な処理などについて以下に順次説明する。
【0028】音声入力部21は図示されていないがマイ
クロホン、増幅器、ローパスフィルタ、A/D変換器な
どから構成され、マイクロホンから入力された音声を、
増幅器、ローパスフィルタを通して適当な音声波形とし
たのち、A/D変換器によりディジタル信号(たとえ
ば、12KHz.16bit)に変換して出力し、その
出力を音声分析部22に送る。音声分析部22では、音
声入力部21から送られてきた音声波形信号を、演算器
(CPU)を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEP
STRUM係数が一般的)し、この特徴ベクトルの時系列
(以下、音声特徴ベクトル列という)を出力する。
【0029】前記話者適応部23は、特徴量変換部23
1、変換規則生成部232、標準音声特徴データ記憶部
233、変換規則記憶部234などから構成されてい
る。前記標準音声特徴データ記憶部233は、1つ1つ
の単語に対し多数(たとえば、200人程度)の話者が
発話した音声を用いて予め作成した認識可能な単語(登
録単語という)の標準パターンを記憶(登録)している
ROMである。
【0030】このような構成の話者適応部23は、前記
音声分析部22からの出力を受けて、入力音声の特徴量
を標準話者の特徴量に変換したのち、信号送信部24か
ら出力するものである。すなわち、変換規則生成部23
2により、このユーザ端末部20を所有するユーザの音
声をもとに、標準音声特徴データ記憶部233のデータ
を用いて変換規則を予め作成し、その変換規則を変換規
則記憶部234に格納しておく。そして、ユーザの音声
が入力されると、音声分析部22で音声分析され、その
音声分析された特徴量が特徴量変換部231に入力され
る。特徴量変換部231では、その送られてきた特徴量
を基に、変換規則記憶部234に格納された変換規則に
基づいて標準話者の特徴量に変換し、その変換後の特徴
量を信号送信部24から発信する。
【0031】この話者適応部23の具体的な構成例とし
ては、図3に示すように、ベクトル量子化部241、入
力話者コードブック生成部242、標準音声特徴データ
記憶部233、入力話者コードブック243、標準話者
コードブック244により構成されたものがある。図3
において、ベクトル量子化部241は図2における特徴
量変換部231に相当し、入力話者コードブック生成部
242は変換規則生成部232に相当し、入力話者コー
ドブック243と標準話者コードブック244は変換規
則記憶部234に相当している。この図3を用いて入力
音声の特徴量を標準話者の特徴量に変換する処理につい
て説明する。
【0032】まず、入力話者コードブック生成部242
により入力話者コードブックを作成する処理を予め行っ
ておく。これは、ユーザが認識可能な単語のうち幾つか
の単語を1つづ入力することにより行われる。たとえば
認識可能な単語の1つとして、「おはよう」という単語
があるとすれば、この「おはよう」を入力すると、この
「おはよう」の音声が音声分析部22で分析され、その
特徴ベクトル列が入力話者コードブック生成部242に
入力される。そして、標準音声特徴データ記憶部233
内のデータとの比較を行い、それらの音声の特徴の違い
から、標準話者のコードブックを入力話者の音声特徴空
間へ写象するための写象関数を作成する。この写象関数
は複数の単語を用いて作成することにより精度が向上す
るため、本実施例では複数の単語を用いる。
【0033】このようにして得られた写象関数を用い
て、標準話者コードブックを入力話者の音声特徴空間へ
写象することにより、或る特定のユーザのコードブック
が作成される。そして、そのユーザの音声が入力される
と、入力話者コードブックと標準話者コードブックをも
とに標準話者の特徴ベクトル列に変換して出力する。こ
れを図4により説明する。図4(a)は、入力されたユ
ーザの音声特徴ベクトル列であり、同図(b)は前記し
たように予め作成されたユーザのコードブック、同図
(c)は標準話者のコードブックである。なお、通常、
入力音声特徴ベクトル列は10次元程度であるが、ここ
では説明を簡単にするために5次元のベクトル列で示し
ている。また、コードブックのサイズは通常256ある
いは512といったサイズが用いられるが、ここでは説
明を簡単にするためにサイズを3としている。そして、
入力話者コードブックと標準話者コードブックはそれぞ
れのデータが予め対応づけられており、たとえば、入力
話者コードブックのAのデータは標準話者コードブック
のA’に、入力話者コードブックのBのデータは標準話
者コードブックのB’に、入力話者コードブックのCの
データは標準話者コードブックのC’にそれぞれ対応づ
けられている。
【0034】このようにして、今、ユーザの入力音声が
音声分析部22で音声分析され、図4(a)示すよう
に、この場合、5次元の特徴ベクトル列が時系列として
出力される。
【0035】そして、これらのデータ(1)、(2)、
(3)、・・・が、同図(b)に示す入力話者コードブ
ックのどのデータと最も近いかを距離計算により求め
る。たとえば、入力音声(1)のデータ(3・2・0・
0・0)は入力話者コードブックのデータA(2・2・
0・0・0)と最も近く、入力音声(2)のデータ(2
・1・1・1・1)は入力話者コードブックのデータB
(1・1・1・1・1)と最も近く、入力音声(3)の
データ(1・2・1・1・1)は入力話者コードブック
のデータB(1・1・1・1・1)と最も近く、入力音
声(4)のデータ(0・0・2・2・2)は入力話者コ
ードブックのデータC(0・0・0・2・2)と最も近
く、入力音声(5)のデータ(0・0・0・2・3)は
入力話者コードブックのデータC(0・0・0・2・
2)と最も近いということが求められる。
【0036】このようにして、入力音声の1つ1つのデ
ータ毎に入力話者コードブックを参照して、最も近い特
徴ベクトルを選ぶ。したがって、この場合、入力音声
(1)〜(5)に限って考えれば、A・B・B・C・C
という特徴ベクトルが求められる。
【0037】そして、入力話者コードブックは標準話者
コードブックに対して、AはA’、BはB’、CはC’
というような対応付けができているので、この場合、入
力音声は標準話者のコードブックのA’・B’・B’・
C’・C’というデータに変換されることになる。な
お、この場合、標準音声話者コードブックはデータA’
(5・5・1・1・1・)、データB’(2・2・3・
2・2)、データC’(0・1・3・3・3)である。
【0038】以上のようにして、入力音声の特徴ベクト
ル列は標準話者コードブックの特徴ベクトル列に変換で
き、この変換された特徴ベクトル列が信号送信部24か
ら装置本体の音声認識処理部10に送信される。
【0039】ところで、以上説明したユーザ端末部20
は、たとえば、腕時計のなかに組み込んだり、あるい
は、カード型にしてそれぞれの個人が所有するようにす
る。そして、予め、所有する各ユーザが自己の入力話者
コードブックを作成しておく。これにより、ユーザ端末
部20を所有するユーザは、たとえば食券を購入する場
合、券売機(装置本体)1のそばに行って、ユーザ端末
部20に向かって、たとえば、「カレーを1つ下さい」
と言えば、その音声は、音声入力部21から入力され、
音声分析部22で音声分析された後、その特徴ベクトル
列は話者適応部23によって、ユーザ自身の音声を基に
作成されたコードブックにより標準話者の特徴ベクトル
列に変換されて装置本体の音声認識処理部10に送られ
る。
【0040】次に、前記音声認識処理部10の処理につ
いて説明する。標準音声特徴データ記憶部13は、前記
話者適応部に設けられた標準音声特徴データ記憶部23
3と同様、1つ1つの単語に対し多数(たとえば、20
0人程度)の話者が発話した音声を用いて予め作成した
認識可能な単語(登録単語という)の標準パターンを記
憶(登録)しているROMである。ここでは、食券の販
売機を例にしているので、登録単語はメニュー分の10
単語程度とし、その単語としては、たとえば、「カレ
ー」、「そば」、「うどん」などである。
【0041】単語検出部12は図示されていないが主に
演算器(CPU)と処理プログラムを記憶しているRO
Mから構成され、前記標準音声特徴データ記憶部13に
登録されている単語が、入力音声中のどの部分にどれく
らいの確かさで存在するかを検出するものである。この
単語検出部12としては、隠れマルコフモデル(HM
M)方式やDPマッチング方式などを用いることも可能
であるが、ここでは、DRNN(ダイナミック リカレ
ント ニューラル ネットワーク)方式によるキーワー
ドスポッティング処理技術(この技術に関しては、本出
願人が特開平6ー4097、特開平6ー119476に
より、すでに特許出願済みである。)を用いて、不特定
話者による連続音声認識に近い音声認識を可能とするた
めの単語検出データを出力するものであるとする。
【0042】この単語検出部12の具体的な処理につい
て、図5を参照しながら簡単に説明する。なお、本発明
の実施例では、食券などの券売機を例にしているが、図
5による単語検出部12の単語検出データ出力処理、お
よび、後述する音声理解制御部14の処理動作を説明す
る際は、券売機に関する音声認識処理には関係なく、一
般的な入力音声例を用いて説明する。
【0043】単語検出部12は、標準音声特徴データ記
憶部13に登録されている単語が、入力音声中のどの部
分にどれくらいの確かさで存在するかを検出するもので
ある。今、話者から「明日の天気は、・・・」というよ
うな音声が入力され、図5(a)に示すような音声信号
が出力されたとする。この「明日の天気は、・・・」の
文節のうち、「明日」と「天気」がこの場合のキーワー
ドとなり、これらは、予め登録されている10単語程度
の登録単語の1つとして、標準音声特徴データ記憶部1
3にそのパターンが記憶されている。そして、これら登
録単語をたとえば10単語としたとき、これら10単語
(これを、単語1、単語2、単語3、・・・とする)に
対応して各単語を検出するための信号が出力されてい
て、その検出信号の値などの情報から、入力音声中にど
の程度の確かさで対応する単語が存在するかを検出す
る。つまり、「天気」という単語(単語1)が入力音声
中に存在したときに、その「天気」という信号を待って
いる検出信号が、同図(b)の如く、入力音声の「天
気」の部分で立ち上がる。同様に、「明日」という単語
(単語2)が入力音声中に存在したときに、その「明
日」という信号を待っている検出信号が、同図(c)の
如く、入力音声の「明日」の部分で立ち上がる。同図
(b),(c)において、0.9あるいは0.8といった数値
は、確からしさ(近似度)を示す数値であり、0.9や0.8
といった高い数値であれば、その高い確からしさを持っ
た登録単語は、入力された音声に対する認識候補である
ということができる。つまり、「明日」という登録単語
は、同図(c)に示すように、入力音声信号の時間軸上
のw1の部分に0.8という確からしさで存在し、「天
気」という登録単語は、同図(b)に示すように、入力
音声信号の時間軸上のw2の部分に0.9という確からし
さで存在することがわかる。
【0044】また、この図5の例では、「天気」という
入力に対して、同図(d)に示すように、単語3(この
単語3は「何時」という登録単語であるとする)を待つ
信号も、時間軸上のw2の部分に、ある程度の確からし
さ(その数値は0.6程度)を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、2つ
以上の登録単語が認識候補として存在する場合には、最
も近似度(確からしさを示す数値)の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
1つの単語を認識単語として選定する方法などを用い
て、或る1つの認識候補単語を決定する。たとえば、前
者の方法で認識候補を決定するとすれば、この場合は、
時間軸上のw2の部分に対応する近似度は、「天気」を
検出する検出信号の近似度が最も高いことから、その部
分の入力音声に対する認識候補は「天気」であるとの判
定を行う。なお、これらの近似度を基に入力音声の認識
は音声理解制御部14にて行う。
【0045】たとえば、単語検出部12からの図5
(b)〜(e)に示すような検出データ(これをワード
ラティスという。このワードラティスは、登録単語名、
近似度、単語の始点sと終点eを示す信号などが含まれ
る)が入力されると、まず、そのワードラティスを基
に、入力音声の中のキーワードとしての単語を1つまた
は複数個決定する。この例では、入力音声は「明日の天
気は・・・」であるので、「明日」と「天気」が検出さ
れることになり、この「明日」と「天気」のキーワード
から「明日の天気は・・・」という連続的な入力音声の
内容を理解し、それに対応した応答内容を選んで出力す
る。
【0046】以上説明したキーワードスポッティング処
理による連続音声認識に近い音声認識処理は、日本語だ
けでなく他の言語においても適用可能である。たとえ
ば、使用する言語が英語であるとすれば、登録されてい
る認識可能な単語は、たとえば、“good morning”、
“time”、“tommorow”、“good night”などが一例
として挙げられ、これら認識可能な登録単語の特徴デー
タが、標準音声特徴データ記憶部4に記憶されている。
そして今、話者が「what time is it now」と問い
かけた場合、この「what time is it now」の文節
のうち、単語「time」がこの場合のキーワードとなり、
「time」という単語が入力音声の中に存在したときに、
その「time」の音声信号を待っている検出信号が、入力
音声の「time」の部分で立ち上がる。そして、単語検出
部3からの検出データ(ワードラティス)が入力される
と、まず、そのワードラティスを基に、入力音声の中の
キーワードとしての単語を1つまたは複数個決定する。
この例では、入力音声は、「what time is it no
w」であるので、「time」がキーワードとして検出され
ることになり、このキーワードを基に、「what time
is it now」という連続的な入力音声の内容を理解す
る。
【0047】ところで、これを食券などの券売機として
実現するには、販売可能なメニュー名として、カレー、
そば、うどんといった単語とその個数をキーワードと
し、たとえば、ユーザが「カレーを1つ下さい」と自己
の所有するユーザ端末部20に対して発話した場合、
「カレー」と「1つ」がキーワードとして検出され、こ
れらのキーワードを基に、装置側では「カレーを1つ下
さい」というような連続音声を認識することができ、こ
れに対して、装置側からは、「カレーを1つですね」と
いうような応答を行うように設定しておけばよい。
【0048】音声理解制御部14は、主に演算器(CP
U)と処理プログラムを記憶しているROMから構成さ
れ、単語検出部12からの単語検出データを入力して、
その単語検出データを基に、音声を認識し(入力音声全
体の意味を理解し)、応答データ記憶部15を参照し
て、入力音声の意味に応じた応答内容を決定してそれを
音声合成部(主にCPUとROMで構成される)16に
送る。そして、音声合成部16では応答内容を音声合成
し、その音声合成出力は音声出力部17から外部に出力
される。また、音声理解制御部14は、単語検出部12
からの単語検出データを基に、入力音声全体の意味を理
解すると、駆動データ記憶部18を参照して、入力音声
の意味に応じた駆動内容を決定してそれを駆動制御部1
9に送る。これにより、駆動制御部19は音声理解制御
部14の指示に対応し駆動制御を行い、発券機構などが
駆動される。
【0049】なお、前記した音声分析、単語検出、音声
理解会話制御、音声合成などの制御を行うCPUはそれ
ぞれに設けてもよいが、これら全ての処理を行う1台の
メインのCPUを設け、この1台のCPUで本発明の全
体の処理を行うようにしてもよい。
【0050】このような構成において、ユーザ端末部2
0を所有するユーザが、たとえば食券を購入する場合、
券売機(装置本体)1のそばに行って、ユーザ端末部2
0に向かって、たとえば、「カレーを1つ下さい」と言
えば、その音声は、音声入力部21から入力され、音声
分析部22で音声分析された後、その特徴ベクトル列は
話者適応部23によって、ユーザ自身の音声を基に作成
されたコードブック及び標準話者コードブックにより標
準話者の特徴量ベクトル列に変換される。すなわち、音
声分析部22にて音声分析された特徴ベクトル列は、ベ
クトル量子化部241を通って、入力話者コードブック
243のデータと比較され、予め対応づけられた標準話
者コードブック244の特徴ベクトル列に変換されてベ
クトル量子化部241から出力される。このベクトル量
子化部241によって標準話者の特徴ベクトル列に変換
された入力音声信号は信号送信部24から発信され、装
置本体1内の音声認識処理部10に設けられた信号受信
部11で受信される。
【0051】そして、単語検出部12ではその送られて
きた特徴ベクトル列を標準音声特徴データ記憶部13内
のデータと比較し、単語検出データ(ワードラティス)
を音声理解制御部14に出力する。
【0052】これにより、音声理解制御部14では、単
語検出部12からの単語検出データをもとに、入力音声
の意味を理解する。この場合、入力音声は「カレーを1
つ下さい」であるからそれを理解し、それに対する応答
として、たとえば、「はい、かれーを1つですね」とい
うような応答内容を応答データ記憶部16から取り出し
て、その信号を音声合成部15に送る。音声合成部15
では、音声理解会話制御部14からの信号を受けてそれ
に対応した音声合成を行い、音声出力部17から音声合
成された応答内容を出力する。
【0053】そして、ユーザは装置本体1側からの「は
い、カレーを1つですね」という応答内容を受けて、た
とえば「はい」(この「はい」は登録単語であるとす
る)という返事を行うことにより、装置本体1の音声認
識処理部10では「はい」を前記同様に認識する。これ
により、装置本体1は料金が投入されたことを確認して
食券の発券処理を行う。具体的には、音声理解制御部1
4が、駆動データ記憶部18を参照して対応する駆動デ
ータを駆動制御部19に送る。駆動制御部では音声理解
制御部14からの指示を受けて、発券機構などに対して
駆動制御を行い、これにより発券処理などが行われる。
【0054】なお、ユーザと装置側の会話内容は前記し
たものに限られるものではなく、たおえば、ユーザが
「カレー」というと、装置側からは「幾つですか」と問
い返し、これに対してユーザが「1つ」というように応
答すると、装置側から「・・円を入れて下さい」という
ような会話も可能であり、その会話内容は種々の内容が
設定できる。
【0055】以上のように、この第1の実施例では、音
声入力部21、音声分析部22、話者適応部23で構成
されるユーザ端末部20を各ユーザが所有し、このユー
ザ端末部20を所有するユーザが予め、ユーザ自身の音
声により入力話者コードブックを作成し、実際に使用す
る際は、ユーザの話す音声を前記入力話者コードブック
を参照して標準話者の特徴量ベクトル列に変換して、そ
の特徴ベクトル列を装置本体の音声認識処理部10に送
るようにしている。したがって、装置本体側では、標準
音声特徴ベクトル列に変換されたデータを用いて、音声
認識を行うので、ユーザの声の質や話し方の個人差に影
響されず、高い認識率を得ることができる。
【0056】なお、前記第1の実施例において、音声入
力部21、音声分析部22、話者適応部23を1つのセ
ットとしてユーザ端末部20を構成したが、これに限ら
れることなく、たとえば、話者適応部23の入力話者コ
ードブック生成部242、標準音声特徴データ記憶部2
33、入力話者コードブック243、標準話者コードブ
ック244だけをカートリッジ部に備え、このカートリ
ッジ部を各個人で所有するようにしてもよい。すなわ
ち、ユーザ端末部20をたとえばカード式とした場合、
図6に示すように、カード部には音声入力部21、音声
分析部22、ベクトル量子化部241、信号発信部23
を設け、カートリッジ部25には入力話者コードブック
生成部241、標準音声特徴データ記憶部233、入力
話者コードブック243、標準話者コードブック244
を設ける。そして、このカートリッジ25をカード側に
設けられたカートリッジ装着部(図示せず)に装着する
ことにより、図6の点線で示すようにそれぞれが接続さ
れ、それぞれの部分との間での信号の授受が可能とな
る。
【0057】このようにすれば、カートリッジ部25の
みを個人所有とすることができ、音声入力部21、音声
分析部22、ベクトル量子化部241、信号発信部23
などを収納したカード部は何人かで共用でき、個人所有
のカートリッジは小型軽量なものとなり、低価格なもの
とすることができる。この場合、入力話者コードブック
の作成時にはカートリッジをカードに装着して行えばよ
い。なお、このようにカートリッジ式とする場合、標準
音声特徴データ記憶部233は必ずしもカートリッジ2
5側に設ける必要はない。
【0058】(第2の実施例)この第2の実施例も第1
の実施例と同様、たとえば、企業内の食堂などにおける
食券の自動券売機に適用した場合を例にとって説明す
る。以上説明した第1の実施例では、ユーザ端末部20
は、音声入力部21、音声分析部22、話者適応部2
3、信号送信部24などを備えた構成としたが、この第
2の実施例では、図7に示すように、音声入力部21、
音声分析部22、話者適応部23のベクトル量子化部2
41などは装置本体側の音声認識処理部10に設け、話
者適応部23のうち入力話者コードブック生成部24
2、標準音声特徴データ記憶部233、入力話者コード
ブック243、標準話者コードブック244をユーザ端
末部20側に設けた構成としている。また、この場合
は、券売機(装置本体)1の音声認識処理部10には信
号送受信部30が設けられるとともに、ユーザ端末部2
0にも信号送受信部26が設けられる。図7において、
図2、図3と同一部分には同一符号が付されている。な
お、図7においては、音声認識のための標準音声特徴デ
ータ記憶部13と入力話者コードブックを生成するため
の標準音声特徴データ記憶部233を別個に設けた例を
示しているが、単語検出方法によっては入力話者コード
ブックを生成する処理を行う際に、標準音声特徴データ
記憶部13を使用することも可能であり、ここで示した
ように、それぞれに別個に設ける必要はない。ただし、
この場合は、標準音声特徴データ記憶部13のデータを
ユーザ端末部20側に送る手段が必要となる。
【0059】以上のような構成において、ユーザが券を
購入する場合、次のような手順にて行う。この場合、ユ
ーザ端末部20には音声入力部がないため、ユーザは装
置本体1に設けられた音声入力部6(図7では音声入力
部21に相当する)に向かって発話することになる。そ
して、入力音声は音声分析部22で音声分析されたの
ち、その特徴ベクトル列が装置本体1側に設けられた信
号送受信部30から発信され、ユーザ端末部20に設け
られた信号送受信部26により受信されるようになって
いる。そして、ユーザ端末部20では、送られてきた入
力音声の特徴ベクトル列に対応した標準話者コードブッ
クデータを信号送受信部26から発信する。この標準話
者コードブックデータは、装置本体側に設けられた信号
送受信部30で受信され、これにより、ベクトル量子化
部241からは、入力音声の特徴ベクトル列を標準話者
の特徴ベクトル列に変換した入力音声特徴ベクトルが出
力され、単語検出部12に送られる。
【0060】ところで、この第2の実施例において、各
ユーザがユーザ端末部20において、入力話者コードブ
ック生成を行うには、たとえば、そのユーザ端末部20
を持って券売機1の場所に行って、ユーザ端末部20お
よび券売機1を入力話者コードブック生成のモードと
し、券売機1の音声入力部6から所定の単語を音声入力
することにより、前記第1の実施例で説明したと同様
に、入力話者コードブックが生成される。なお、この入
力話者コードブックの生成は、券売機1でなく、専用の
装置を設けて、その専用の装置により行うようにしても
よい。
【0061】このような構成において、ユーザ端末部1
を所有するユーザが、たとえば食券を購入する場合、券
売機(装置本体)1の近くに行って、券売機1に向かっ
て、たとえば、「カレーを1つ下さい」と言えば、その
音声は、券売機1の音声入力部6(音声入力部21)か
ら入力され、音声分析部22で音声分析された後、その
特徴ベクトル列はベクトル量子化部241を通って、信
号送受信部30より発信されて、ユーザ端末部20の信
号送受信部26で受信される。これにより、入力話者コ
ードブック243が参照され、予め対応づけられた標準
話者コードブック244のデータが信号送受信部26か
ら発信され、券売機1の信号送受信部30で受信され
る。これにより、標準話者の特徴ベクトル列に変換され
た特徴ベクトル列がベクトル量子化部241から出力さ
れ、単語検出部12に送られる。
【0062】単語検出部12ではその送られてきた特徴
ベクトル列を標準音声特徴データ記憶部13内のデータ
と比較し、単語検出データ(ワードラティス)を音声理
解制御部14に出力する。
【0063】これにより、音声理解制御部14では、前
記第1の実施例で説明したように、単語検出部12から
の単語検出データをもとに、入力音声の意味を理解す
る。この場合、入力音声は「カレーを1つ下さい」であ
るからそれを理解し、それに対する応答として、たとえ
ば、「はい、カレーを1つですね」というような応答内
容を応答データ記憶部16から取り出して、その信号を
音声合成部15に送る。音声合成部15では、音声理解
会話制御部14からの信号を受けてそれに対応した音声
合成を行い、音声出力部17から音声合成された応答内
容を出力する。
【0064】そして、ユーザは装置本体1側からの「は
い、カレーを1つですね」という応答内容を受けて、た
とえば「はい」(この「はい」は登録単語である)とい
う返事を行うことにより、装置本体1の音声認識処理部
10では「はい」を前記同様に認識する。これにより、
装置本体1は料金が投入されたことを確認して食券の発
券処理を行う。具体的には、音声理解制御部14が、駆
動データ記憶部18を参照して対応する駆動データを駆
動制御部19に送る。駆動制御部では音声理解制御部1
4からの指示を受けて、発券機構などに対して駆動制御
を行う。
【0065】以上のように、この第2の実施例では、入
力話者コードブック生成部242、標準音声特徴データ
記憶部233、入力話者コードブック243、標準話者
コードブック244で構成されるユーザ端末部20を各
ユーザが所有し、このユーザ端末部20を所有するユー
ザが予め、ユーザ自身の音声により入力話者コードブッ
クを作成し、実際に使用する際は、ユーザの話す音声を
装置本体側で入力して、音声分析し、その音声分析され
た特徴ベクトル列をユーザの所有するユーザ端末部20
に発信し、ユーザ端末部20側で、前記入力話者コード
ブックを参照して対応する標準話者コードブックデータ
を装置側に送り返し、装置本体側で標準話者の特徴量ベ
クトル列を単語検出部12に送るようにしている。そし
て、装置本体側では、入力音声特徴ベクトル列を標準音
声特徴列に変換したデータを用いて、音声認識を行うの
で、ユーザの声の質や話し方の個人差に影響されず、高
い認識率を得ることができる。これにより、ユーザ端末
部20をより一層、小型で軽量なものとすることがで
き、また、低価格なものとすることができる。
【0066】なお、以上の第1、第2の実施例では、本
発明を食券などの券売機に適用した例で説明したが、本
発明は、この種の自動販売機に限られるものでなく、玩
具や、日常的に使われる電子機器などに幅広く適用でき
ることは勿論である。また、ユーザが発する音声を認識
してそれに対して何らかの言葉を応答する例を示した
が、言葉での応答は必ずしも必要ではなく、音声認識し
てそれに対して何らかの動作をなすものであってもよ
い。
【0067】(第3の実施例)この第3の実施例は、音
声入力部21のみを装置本体から分離して、入力音声信
号を信号発信部から発信し、それを装置本体に設けた信
号受信部で受信し、音声分析して音声認識を行って、認
識結果に応じた何らかの動作を行うようにしたものであ
る。この第3の実施例は、或る程度、距離が離れた状態
で、装置を音声にて遠隔操作するような場合に特に有効
であり、たとえば、玩具を例に取れば、離れた場所から
模型の船や飛行機などを操縦する場合に適用できる。以
下この第3の実施例について説明する。
【0068】図8は第3の実施例を説明するブロック図
である。図8において、装置本体側の音声認識処理部1
0には信号受信部11、音声分析部22、話者適応部2
3、単語検出部12、標準音声特徴データ記憶部13、
音声理解制御部14、駆動データ記憶部18、駆動制御
部19などが設けられている。そして、ユーザ端末部2
0には音声入力部21とこの音声入力部21に入力され
た音声信号を発信する信号送信部24が設けられてい
る。
【0069】ここで、音声入力部21、信号送信部2
4、信号受信部11、音声分析部22、話者適応部2
3、単語検出部12、標準音声特徴データ記憶部13、
音声理解制御部14、駆動データ記憶部18、駆動制御
部19などの構成や機能などは今まで説明したものと同
じであるが、この例は、認識した音声に対して言葉で応
答する必要は特にないため、音声による応答内容の出力
処理については省略してある。そして、この場合は、た
とえば、遠隔操縦可能な船などであれば、ユーザが「直
進せよ」、「左にまがれ」、「止まれ」などの認識可能
な単語を含んだ音声を発することにより、音声理解制御
部14がそれを認識し、この音声理解制御部14の指示
によって駆動制御部19がそれに応じた駆動制御を行
う。
【0070】また、前記話者適応部23は、この場合、
カートリッジ式にするのが望ましく、前記第1の実施例
のなかで説明したと同様、図9に示すように、話者適応
部23のうち、入力話者コードブック生成部242、標
準音声特徴データ記憶部233、入力話者コードブック
243、標準話者コードブック244をカートリッジ部
25に備え、このカートリッジ部25を各個人で所有す
るようにする。すなわち、装置本体側の音声認識処理部
10には、信号受信部11、音声分析部22、ベクトル
量子化部241、単語検出部12、標準音声特徴データ
記憶部13、音声理解制御部14、駆動データ記憶部1
8、駆動制御部19を設け、カートリッジ部25を装置
本体の所定の装着部(図示せず)に装着することによ
り、カートリッジ内の入力話者コードブック生成部24
2、入力話者コードブック243、標準話者コードブッ
ク244が音声分析部22やベクトル量子化部241な
どに対して図9の点線で示すように接続され、信号の授
受が可能となるようにする。
【0071】このようにすれば、カートリッジ部25を
個人所有として、装置本体は何人かで共用できる。この
場合、入力話者コードブックの作成時にはカートリッジ
25を装置本体に装着して前記した要領で行えばよい。
【0072】このような構成において、この装置本体が
たとえば、遠隔操縦可能な玩具であれば、まず、ユーザ
が自己のカートリッジ(入力話者コードブック生成済
み)を装置本体に装着し、ユーザ端末部20の音声入力
部21に向かって、「直進せよ」などと言うと、その音
声信号が信号発信部24から発信され、装置本体の信号
受信部11で受信され、音声分析部22で分析され、そ
の特徴ベクトル列が前記したように、標準話者の特徴ベ
クトル列に変換されて、単語検出部12に入力される。
【0073】単語検出部12ではその特徴ベクトル列を
標準音声特徴データ記憶部13内のデータと比較し、単
語検出データ(ワードラティス)を音声理解制御部14
に出力する。
【0074】これにより、音声理解制御部14では、前
記したように、単語検出部12からの単語検出データを
もとに、入力音声の意味を理解し、それに対応する信号
を出力する。駆動制御部19はその信号を受けて、この
場合は、直進させるような制御を行う。
【0075】以上のように、この第3の実施例では、音
声入力部を装置本体から分離して、入力音声信号を信号
送信部から発信し、それを装置本体に設けた信号受信部
で受信し、音声分析して音声認識を行って、認識結果に
応じた何らかの動作を行うようにしている。また、話者
適応部23の入力話者コードブック生成部242、標準
音声特徴データ記憶部233、入力話者コードブック2
43、標準話者コードブック244をカートリッジ部2
5に設け、このカートリッジ部25を各個人で所有する
ようにして、装置を使用するユーザが、自己のカートリ
ッジを装置本体に装着して用いることにより、そのユー
ザの入力音声特徴ベクトル列が標準音声特徴ベクトル列
に変換され、その変換後の特徴ベクトル列より、音声認
識が行われるので、ユーザの声の質や話し方の個人差に
影響されず、高い認識率を得ることができる。
【0076】なお、この第3の実施例において、音声認
識のための標準音声特徴データ記憶部13と入力話者コ
ードブックを生成するための標準音声特徴データ記憶部
233を別個に設けた例を示したが、単語検出方法によ
っては入力話者コードブックを生成する処理を行う際
に、標準音声特徴データ記憶部13を使用することも可
能であり、ここで示したように、それぞれに別個に設け
る必要はない。この場合は、話者適応部23の入力話者
コードブック生成部242が標準音声特徴データ記憶部
13のデータを入力できるようにしておけばよい。
【0077】また、この第3の実施例では、本発明を遠
隔操縦が可能な玩具に適用した例で説明したが、本発明
は、この種の玩具に限られるものでなく、日常的に使わ
れる電子機器などに幅広く適用できることは勿論であ
る。また、この第3の実施例では、ユーザが発する音声
を認識してそれに対して、音声の応答ではなく何らかの
動作のみ行う例について説明したが、装置本体側に音声
による応答手段、信号送信手段などを設け、ユーザ端末
側には、信号受信手段、音声出力手段を設けて、ユーザ
の音声に対して何らかの動作を行うとともに、音声での
応答を行うようにすることも可能である。
【0078】
【発明の効果】以上説明したように、本発明の音声認識
装置は、請求項1によれば、装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成する変換規則生成手
段と、その変換規則を記憶する変換規則記憶手段とを少
なくとも備えた構成としたことにより、音声による遠隔
操作が可能となり、しかも、ユーザ端末部はそれを使用
するユーザの音声を標準話者の特徴量に変換するための
変換規則が記憶されていることから、装置本体側では、
標準話者の特徴量に変換された特徴量を用いて音声認識
を行うので、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。
【0079】また、請求項2によれば、ユーザ端末部側
に、音声入力手段、音声分析手段、変換規則生成手段、
変換規則記憶手段、この変換規則記憶手段に記憶された
変換規則に基づいて入力音声の特徴量を標準話者の特徴
量に変換して出力する特徴量変換手段、標準話者の特徴
量に変換された入力音声の特徴量を前記装置本体に送信
する信号送信手段を設けた構成としたので、ユーザの音
声を基にした変換規則生成処理を他の装置に依存するこ
となく、自己の所有する端末で簡単に行うことができ
る。また、このユーザ端末部を用いることにより、音声
による遠隔操作が可能となり、かつ、年齢や性別などの
違い、あるいは話し方の個人差などに関係なく、きわめ
て高い認識率での認識が可能となる。
【0080】また、請求項3によれば、前記変換規則生
成手段および変換規則記憶手段を、カートリッジ部に備
え、各ユーザがそれぞれカートリッジを所有することに
より、1つのユーザ端末を複数のユーザが使用可能とな
り、また、各ユーザの所有するカートリッジは音声入力
部や音声分析部、特徴量変換部などを含まないので小
型、軽量、低コスト化を図ることができる。
【0081】また、請求項4によれば、前記ユーザ端末
部は、前記変換規則生成手段、変換規則記憶手段、信号
送受信手段とを設けた構成としたので、各ユーザの所有
するユーザ端末部は、音声入力部や音声分析部、特徴量
変換部などを含まないので小型、軽量、低コスト化を図
ることができる。また、このユーザ端末部を用いること
により、音声による遠隔操作が可能となり、かつ、年齢
や性別などの違い、あるいは話し方の個人差などに関係
なく、きわめて高い認識率での認識が可能となる。
【0082】また、請求項5によれば、前記ユーザ端末
部は、音声を入力する音声入力手段と、この音声入力手
段から入力された音声信号を装置本体側に送信する信号
送信手段とを備え、装置本体側には、前記ユーザ端末部
からの音声信号を受信する信号受信手段、入力音声の特
徴量を出力する音声分析手段と、変換規則を予め作成す
る変換規則生成手段、その変換規則を記憶する変換規則
記憶手段、入力音声の特徴量を変換規則を用いて標準話
者の特徴量に変換するための特徴量変換手段、標準話者
の特徴量に変換された入力音声特徴量を入力し、標準音
声特徴データをもとに単語検出データを出力する単語検
出手段と、この単語検出データをもとに入力音声を理解
する音声理解制御手段と、この音声理解制御手段からの
指示を受けて、その指示に対応した動作を行う動作手段
とを有した構成としたので、各ユーザの所有するユーザ
端末部は、音声入力部と信号発信部のみであるため、小
型、軽量、低コスト化を図ることができる。また、音声
による遠隔操作が可能となり、かつ、年齢や性別などの
違い、あるいは話し方の個人差などに関係なく、きわめ
て高い認識率での認識が可能となる。
【0083】また、請求項6によれば、前記変換規則生
成手段および変換規則記憶手段を、カートリッジ部に備
え、1台の装置に対してユーザ単位でカートリッジを交
換できるようにしたので、1台の装置を複数のユーザが
使用可能となる。
【0084】また、本発明の音声認識処理方法は、請求
項7によれば、装置本体と、この装置本体との間のデー
タ送受信を無線にて行うユーザ端末部とを備え、前記ユ
ーザ端末部は、或る特定のユーザの音声と標準音声特徴
データとを比較し、この比較結果をもとに前記特定ユー
ザの音声の特徴量を標準話者の音声の特徴量に変換する
ための変換規則を生成し、この生成した変換規則を記憶
する機能を少なくとも有したことにより、音声による遠
隔操作が可能となり、しかも、ユーザ端末部はそれを使
用するユーザの音声を標準話者の特徴量に変換するため
の変換規則が記憶されていることから、装置本体側で
は、標準話者の特徴量に変換された特徴量を用いて音声
認識を行うので、年齢や性別などの違い、あるいは話し
方の個人差などに関係なく、きわめて高い認識率での認
識が可能となる。
【0085】また、請求項8によれば、ユーザ端末部
は、変換規則を生成しこの生成した変換規則を記憶する
機能および音声を入力し、入力された音声を分析して入
力音声の特徴量を出力するとともに、前記変換規則を参
照し、前記音声分析された入力音声の特徴量を標準話者
の特徴量に変換して出力し、この標準話者の特徴量に変
換された入力音声の特徴量を前記装置本体に送信する機
能を有しているので、ユーザの音声を基にした変換規則
生成処理を他の装置に依存することなく、自己の所有す
る端末で簡単に行うことができる。また、このユーザ端
末部を用いることにより、音声による遠隔操作が可能と
なり、かつ、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。
【0086】また、請求項9によれば、変換規則を生成
しこの生成した変換規則を記憶する機能をカートリッジ
部に設け、各ユーザがそれぞれカートリッジを所有する
ことにより、1つのユーザ端末を複数のユーザが使用可
能となり、また、各ユーザの所有するカートリッジは音
声入力部や音声分析部、特徴量変換部などを含まないの
で小型、軽量、低コスト化を図ることができる。
【0087】また、請求項10によれば、ユーザ端末部
は、変換規則を生成しこの生成した変換規則を記憶する
機能および前記記憶された変換規則を装置本体からの要
求に応じて装置本体側に送信する機能のみを有するよう
にしたので、各ユーザの所有するユーザ端末部は、音声
入力部や音声分析部、特徴量変換部などを含まないので
小型、軽量、低コスト化を図ることができる。また、こ
の個人所有の端末を用いることにより、音声による遠隔
操作が可能となり、かつ、年齢や性別などの違い、ある
いは話し方の個人差などに関係なく、きわめて高い認識
率での認識が可能となる。
【0088】また、請求項11によれば、前記ユーザ端
末部としては、音声を入力して、その入力された音声信
号を装置本体側に送信する機能のみとし、装置本体側
は、変換規則を生成しこの生成した変換規則を記憶する
機能を有し、さらに、前記個人所有の端末部からの音声
信号を受信し、受信された音声信号を分析して入力音声
の特徴量を出力し、前記変換規則を参照することで、前
記入力音声の特徴量を標準話者の特徴量に変換し、この
標準話者の特徴量に変換された入力音声特徴量を、認識
可能な単語に対する標準音声特徴データと比較して単語
検出データを出力し、単語検出データをもとに入力音声
を理解して、それに対応した動作を行うようにしたの
で、各ユーザの所有するユーザ端末部は、音声入力部と
信号発信部のみであるため、小型、軽量、低コスト化を
図ることができる。また、音声による遠隔操作が可能と
なり、かつ、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。
【0089】また、請求項12によれば、前記変換規則
を生成しこの生成した変換規則を記憶する機能を、カー
トリッジ部に備え、1台の装置に対してユーザ単位でカ
ートリッジを交換できるようにしたので、1台の装置を
複数のユーザが使用可能となる。
【図面の簡単な説明】
【図1】本発明の概略を説明する図。
【図2】本発明の第1の実施例を説明するブロック図。
【図3】図2で示した話者適応部の具体例を示すブロッ
ク図。
【図4】入力音声の特徴ベクトル列を標準話者の特徴ベ
クトル列に変換する方法を説明する図。
【図5】単語検出部による単語検出処理および音声理解
制御部による音声認識処理を説明する図。
【図6】第1の実施例において話者適応部の一部をカー
トリッジ式とした例を示す図。
【図7】本発明の第2の実施例を説明するブロック図。
【図8】本発明の第3の実施例を説明するブロック図。
【図9】第3の実施例において話者適応部の一部をカー
トリッジ式とした例を示す図。
【符号の説明】
1・・・券売機(装置本体) 10・・・音声認識処理部 11・・・信号受信部 12・・・単語検出部 13・・・標準音声特徴データ記憶部 14・・・音声理解制御部 15・・・応答データ記憶部 16・・・音声合成部 18・・・駆動データ記憶部 19・・・駆動制御部 20・・・ユーザ端末部 21・・・音声入力部 22・・・音声分析部 23・・・話者適応部 24・・・信号送信部 25・・・カートリッジ部 231・・・特徴量変換部 232・・・変換規則生成部 233・・・標準音声特徴データ記憶部 234・・・変換規則記憶部 241・・・ベクトル量子化部 242・・・入力話者コードブック生成部 243・・・入力話者コードブック 244・・・標準話者コードブック
───────────────────────────────────────────────────── フロントページの続き (72)発明者 枝常 伊佐央 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内 (72)発明者 浦野 治 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を分析して音声特徴デー
    タを発生し、この音声特徴データと予め登録された認識
    可能な単語の標準音声特徴データとを比較して単語検出
    データを出力し、この単語検出データを受けて、入力音
    声の意味を理解し、それに対応した処理を行う音声認識
    装置において、 音声を認識しその認識結果に応じた動作を行う音声認識
    処理手段を少なくとも有する装置本体と、この装置本体
    との間のデータ送受信を無線にて行うユーザ端末部とを
    備え、 前記ユーザ端末部は、或る特定のユーザの音声と標準音
    声特徴データとを比較し、この比較結果をもとに前記特
    定ユーザの音声の特徴量を標準話者の音声の特徴量に変
    換するための変換規則を生成する変換規則生成手段と、
    その変換規則を記憶する変換規則記憶手段とを、少なく
    とも備えたことを特徴とする音声認識装置。
  2. 【請求項2】 前記ユーザ端末部は、音声を入力する音
    声入力手段と、この音声入力手段により入力された音声
    を分析して入力音声の特徴量を出力する音声分析手段
    と、前記変換規則生成手段および変換規則記憶手段と、
    この変換規則記憶手段に記憶された変換規則を参照し、
    前記音声分析手段にて分析された入力音声の特徴量を標
    準話者の特徴量に変換して出力する特徴量変換手段と、
    この特徴量変換手段にて標準話者の特徴量に変換された
    入力音声の特徴量を前記装置本体に送信する信号送信手
    段とを有し、 前記装置本体の音声認識処理手段は、前記ユーザ端末部
    からの信号を受信する信号受信手段と、認識可能な単語
    に対する標準音声特徴データを記憶している標準音声特
    徴データ記憶手段と、前記特徴量変換手段により標準話
    者の特徴量に変換された入力音声特徴量を入力し、前記
    標準音声特徴データ記憶手段に記憶された標準音声特徴
    データをもとに単語検出データを出力する単語検出手段
    と、この単語検出手段からの単語検出データをもとに入
    力音声を理解する音声理解制御手段と、この音声理解制
    御手段からの指示を受けて、その指示に対応した動作を
    行う動作手段とを有したことを特徴とする請求項1記載
    の音声認識装置。
  3. 【請求項3】 前記ユーザ端末部において、前記変換規
    則生成手段および変換規則記憶手段を、ユーザ端末部に
    対して着脱自在なカートリッジ部に備えたことを特徴と
    する請求項2記載の音声認識装置。
  4. 【請求項4】 前記ユーザ端末部は、前記変換規則生成
    手段および変換規則記憶手段と、装置本体との間でのデ
    ータ授受が可能な信号送受信手段とを有し、 前記装置本体の音声認識処理手段は、音声を入力する音
    声入力手段と、この音声入力手段により入力された音声
    を分析して入力音声の特徴量を出力する音声分析手段
    と、この音声分析手段にて分析された入力音声の特徴量
    を、前記ユーザ端末部側に備えられた変換規則を用いて
    標準話者の特徴量に変換する特徴量変換手段と、認識可
    能な単語に対する標準音声特徴データを記憶している標
    準音声特徴データ記憶手段と、前記特徴量変換手段によ
    り標準話者の特徴量に変換された入力音声特徴量を入力
    し、前記標準音声特徴データ記憶手段に記憶された標準
    音声特徴データをもとに単語検出データを出力する単語
    検出手段と、この単語検出手段からの単語検出データを
    もとに入力音声を理解する音声理解制御手段と、この音
    声理解制御手段からの指示を受けて、その指示に対応し
    た動作を行う動作手段と、外部からの信号を受信すると
    ともに外部に信号を発信する信号送受信手段とを有した
    ことを特徴とする請求項1記載の音声認識装置。
  5. 【請求項5】 入力された音声を分析して音声特徴デー
    タを発生し、この音声特徴データと予め登録された認識
    可能な単語の標準音声特徴データとを比較して単語検出
    データを出力し、この単語検出データを受けて、入力音
    声の意味を理解し、それに対応した処理を行う音声認識
    装置において、 音声を認識しその認識結果に応じた動作を行う音声認識
    処理手段を少なくとも有した装置本体と、この装置本体
    との間のデータ送受信を無線にて行うユーザ端末部とを
    備え、 前記ユーザ端末部は、音声を入力する音声入力手段と、
    この音声入力手段から入力された音声信号を装置本体側
    に送信する信号送信手段とを備え、 前記装置本体の音声認識処理手段は、前記ユーザ端末部
    からの音声信号を受信する信号受信手段と、この信号受
    信手段で受信された音声信号を分析して入力音声の特徴
    量を出力する音声分析手段と、或る特定のユーザの音声
    と標準音声特徴データとを比較し、この比較結果をもと
    に前記特定ユーザの音声の特徴量を標準話者の音声の特
    徴量に変換するための変換規則を予め作成する変換規則
    生成手段およびその変換規則を記憶する変換規則記憶手
    段と、前記音声分析手段にて分析された入力音声の特徴
    量を、前記予め作成された変換規則を用いて標準話者の
    特徴量に変換するための特徴量変換手段と、認識可能な
    単語に対する標準音声特徴データを記憶している標準音
    声特徴データ記憶手段と、前記特徴量変換手段により標
    準話者の特徴量に変換された入力音声特徴量を入力し、
    前記標準音声特徴データ記憶手段に記憶された標準音声
    特徴データをもとに単語検出データを出力する単語検出
    手段と、この単語検出手段からの単語検出データをもと
    に入力音声を理解する音声理解制御手段と、この音声理
    解制御手段からの指示を受けて、その指示に対応した動
    作を行う動作手段とを有したことを特徴とする音声認識
    装置。
  6. 【請求項6】 前記変換規則生成手段および変換規則記
    憶手段を、装置本体に対して着脱自在なカートリッジ部
    に備えたことを特徴とする請求項5記載の音声認識装
    置。
  7. 【請求項7】 入力された音声を分析して音声特徴デー
    タを発生し、この音声特徴データと予め登録された認識
    可能な単語の標準音声特徴データとを比較して単語検出
    データを出力し、この単語検出データを受けて、入力音
    声の意味を理解し、それに対応した処理を行う音声認識
    処理方法において、 音声を認識しその認識結果に応じた動作を行う音声認識
    処理手段を少なくとも有する装置本体およびこの装置本
    体との間のデータ送受信を無線にて行うユーザ端末部を
    備え、 前記ユーザ端末部は、或る特定のユーザの音声と標準音
    声特徴データとを比較し、この比較結果をもとに前記特
    定ユーザの音声の特徴量を標準話者の音声の特徴量に変
    換するための変換規則を生成し、この生成した変換規則
    を記憶する機能を、少なくとも有することを特徴とする
    音声認識処理方法。
  8. 【請求項8】 前記ユーザ端末部は、或る特定のユーザ
    の音声と標準音声特徴データとを比較し、この比較結果
    をもとに前記特定ユーザの音声の特徴量を標準話者の音
    声の特徴量に変換するための変換規則を生成し、この生
    成した変換規則を記憶する機能を有し、さらに、音声を
    入力し、入力された音声を分析して入力音声の特徴量を
    出力するとともに、前記変換規則を参照し、前記音声分
    析された入力音声の特徴量を標準話者の特徴量に変換し
    て出力し、この標準話者の特徴量に変換された入力音声
    の特徴量を前記装置本体に送信する機能を有し、 前記装置本体の音声認識処理手段は、前記ユーザ端末部
    側から送られてきた前記標準話者の特徴量に変換された
    入力音声特徴量を入力し、認識可能な単語に対する標準
    音声特徴データとの比較により単語検出データを出力
    し、この単語検出データをもとに入力音声を理解して、
    それに対応した動作を行うことを特徴とする請求項7記
    載の音声認識処理方法。
  9. 【請求項9】 前記ユーザ端末部において、前記変換規
    則を生成し、この生成した変換規則を記憶する機能を、
    ユーザ端末部に対して着脱自在なカートリッジ部に備え
    たことを特徴とする請求項8記載の音声認識処理方法。
  10. 【請求項10】 前記ユーザ端末部は、或る特定のユー
    ザの音声を入力し、この特定ユーザの音声特徴データと
    標準音声特徴データとを比較し、この比較結果をもとに
    前記特定ユーザの音声の特徴量を標準話者の音声の特徴
    量に変換するための変換規則を生成し、この生成した変
    換規則を記憶する機能を有するとともに、前記記憶され
    た変換規則を装置本体からの要求に応じて装置本体側に
    送信する機能を有し、 前記装置本体の音声認識処理手段は、音声を入力し、入
    力された音声を分析して入力音声の特徴量を出力し、前
    記ユーザ端末部側に備えられた変換規則を参照すること
    で、前記入力音声の特徴量を標準話者の特徴量に変換
    し、この標準話者の特徴量に変換された入力音声特徴量
    を、認識可能な単語に対する標準音声特徴データと比較
    して単語検出データを出力し、単語検出データをもとに
    入力音声を理解して、それに対応した動作を行うことを
    特徴とする請求項7記載の音声認識処理方法。
  11. 【請求項11】 入力された音声を分析して音声特徴デ
    ータを発生し、この音声特徴データと予め登録された認
    識可能な単語の標準音声特徴データとを比較して単語検
    出データを出力し、この単語検出データを受けて、入力
    音声の意味を理解し、それに対応した処理を行う音声認
    識処理方法において、 音声を認識しその認識結果に応じた動作を行う音声認識
    処理手段を少なくとも有した装置本体と、この装置本体
    との間のデータ送受信を無線にて行うユーザ端末部とを
    備え、 前記ユーザ端末部は、音声を入力して、その入力された
    音声信号を装置本体側に送信する機能を有し、 前記装置本体の音声認識処理手段は、或る特定のユーザ
    の音声と標準音声特徴データとを比較し、この比較結果
    をもとに前記特定ユーザの音声の特徴量を標準話者の音
    声の特徴量に変換するための変換規則を生成し、この生
    成した変換規則を記憶する機能を有し、さらに、前記個
    人所有の端末部からの音声信号を受信し、受信された音
    声信号を分析して入力音声の特徴量を出力し、前記変換
    規則を参照することで、前記入力音声の特徴量を標準話
    者の特徴量に変換し、この標準話者の特徴量に変換され
    た入力音声特徴量を、認識可能な単語に対する標準音声
    特徴データと比較して単語検出データを出力し、単語検
    出データをもとに入力音声を理解して、それに対応した
    動作を行うことを特徴とする請求項11記載の音声認識
    処理方法。
  12. 【請求項12】 前記変換規則を生成し、この生成した
    変換規則を記憶する機能を、装置本体に対して着脱自在
    なカートリッジ部に備えたことを特徴とする請求項11
    記載の音声認識処理方法。
JP21225095A 1995-08-21 1995-08-21 端末、音声認識装置 Expired - Lifetime JP3697748B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP21225095A JP3697748B2 (ja) 1995-08-21 1995-08-21 端末、音声認識装置
US08/699,874 US6070139A (en) 1995-08-21 1996-08-20 Bifurcated speaker specific and non-speaker specific speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21225095A JP3697748B2 (ja) 1995-08-21 1995-08-21 端末、音声認識装置

Publications (2)

Publication Number Publication Date
JPH0962289A true JPH0962289A (ja) 1997-03-07
JP3697748B2 JP3697748B2 (ja) 2005-09-21

Family

ID=16619465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21225095A Expired - Lifetime JP3697748B2 (ja) 1995-08-21 1995-08-21 端末、音声認識装置

Country Status (2)

Country Link
US (1) US6070139A (ja)
JP (1) JP3697748B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100533601B1 (ko) * 2002-12-05 2005-12-06 베스티안파트너스(주) 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법
JP2009151318A (ja) * 2001-01-31 2009-07-09 Qualcomm Inc 音響特性ベクトル変形を使用する分散型音声認識システム

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL119948A (en) 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US20010032278A1 (en) * 1997-10-07 2001-10-18 Brown Stephen J. Remote generation and distribution of command programs for programmable devices
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
DE19933524A1 (de) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Verfahren zur Eingabe von Daten in ein System
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6629077B1 (en) * 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
US7904194B2 (en) * 2001-02-09 2011-03-08 Roy-G-Biv Corporation Event management systems and methods for motion control systems
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7174300B2 (en) * 2001-12-11 2007-02-06 Lockheed Martin Corporation Dialog processing method and apparatus for uninhabited air vehicles
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7286993B2 (en) * 2002-01-31 2007-10-23 Product Discovery, Inc. Holographic speech translation system and method
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
WO2004035449A1 (en) * 2002-10-15 2004-04-29 Otis Elevator Company Elevator wireless communication infrastructure using piconet modules
US20070015400A1 (en) * 2005-07-18 2007-01-18 Elliot Rudell Modular edutainment system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8406390B1 (en) 2010-08-23 2013-03-26 Sprint Communications Company L.P. Pausing a live teleconference call
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2014003748A1 (en) * 2012-06-28 2014-01-03 Nuance Communications, Inc. Meta-data inputs to front end processing for automatic speech recognition
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR20140060040A (ko) 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144395A2 (en) 2013-03-15 2014-09-18 Apple Inc. User training by intelligent digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9460735B2 (en) 2013-12-28 2016-10-04 Intel Corporation Intelligent ancillary electronic device
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
KR102805829B1 (ko) * 2016-04-15 2025-05-12 삼성전자주식회사 인터페이스 뉴럴 네트워크
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP2019072787A (ja) * 2017-10-13 2019-05-16 シャープ株式会社 制御装置、ロボット、制御方法、および制御プログラム
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2338551A (en) * 1942-07-09 1944-01-04 Rca Corp Automatic volume control
US3610831A (en) * 1969-05-26 1971-10-05 Listening Inc Speech recognition apparatus
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4305131A (en) * 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
DE3779351D1 (ja) * 1986-03-28 1992-07-02 American Telephone And Telegraph Co., New York, N.Y., Us
JPS62253093A (ja) * 1986-04-25 1987-11-04 株式会社 バンダイ 乗用玩具
US5182549A (en) * 1987-03-05 1993-01-26 Canon Kabushiki Kaisha Liquid crystal apparatus
WO1988010474A1 (en) * 1987-06-18 1988-12-29 University Of West Virginia State analog neural network and method of implementing same
GB8720387D0 (en) * 1987-08-28 1987-10-07 British Telecomm Matching vectors
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
US5285522A (en) * 1987-12-03 1994-02-08 The Trustees Of The University Of Pennsylvania Neural networks for acoustical pattern recognition
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US5014219A (en) * 1988-05-06 1991-05-07 White James A Mask controled neural networks
US5054082A (en) * 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
JP2897220B2 (ja) * 1988-09-17 1999-05-31 ソニー株式会社 信号処理装置
US5093899A (en) * 1988-09-17 1992-03-03 Sony Corporation Neural network with normalized learning constant for high-speed stable learning
DE68922567T2 (de) * 1988-10-06 1995-08-17 Toshiba Kawasaki Kk Neuronales Netzwerksystem.
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
JPH02165388A (ja) * 1988-12-20 1990-06-26 Toshiba Corp パターン認識方式
US5086385A (en) * 1989-01-31 1992-02-04 Custom Command Systems Expandable home automation system
DE69031842T2 (de) * 1989-02-20 1998-04-16 Fujitsu Ltd Lernsystem und Lernverfahren für eine Datenverarbeitungsvorrichtung
US5119469A (en) * 1989-05-17 1992-06-02 United States Of America Neural network with weight adjustment based on prior history of input signals
US5150323A (en) * 1989-08-11 1992-09-22 Hughes Aircraft Company Adaptive network for in-band signal separation
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
US5046019A (en) * 1989-10-13 1991-09-03 Chip Supply, Inc. Fuzzy data comparator with neural network postprocessor
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
JP2580826B2 (ja) * 1990-03-14 1997-02-12 日本電気株式会社 フィードバック神経細胞モデル
US5182794A (en) * 1990-07-12 1993-01-26 Allen-Bradley Company, Inc. Recurrent neural networks teaching system
JP2601003B2 (ja) * 1990-09-25 1997-04-16 日産自動車株式会社 車両の走行条件認識装置
DE4100500A1 (de) * 1991-01-10 1992-07-16 Bodenseewerk Geraetetech Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren
JP3091504B2 (ja) * 1991-03-26 2000-09-25 三洋電機株式会社 神経回路網モデルによる音声認識方法
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
US5377305A (en) * 1991-10-01 1994-12-27 Lockheed Sanders, Inc. Outer product neural network
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
JPH064097A (ja) * 1992-06-18 1994-01-14 Seiko Epson Corp 話者認識方法
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
US5278944A (en) * 1992-07-15 1994-01-11 Kokusai Electric Co., Ltd. Speech coding circuit
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
JPH06119476A (ja) * 1992-10-09 1994-04-28 Seiko Epson Corp 時系列データ処理装置
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5668929A (en) * 1993-01-21 1997-09-16 Hirsch Electronics Corporation Speech activated security systems and methods
US5562453A (en) * 1993-02-02 1996-10-08 Wen; Sheree H.-R. Adaptive biofeedback speech tutor toy
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5577164A (en) * 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US5444673A (en) * 1994-07-12 1995-08-22 Mathurin; Trevor S. Audio controlled and activated wristwatch memory aid device
US5704009A (en) * 1995-06-30 1997-12-30 International Business Machines Corporation Method and apparatus for transmitting a voice sample to a voice activated data processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151318A (ja) * 2001-01-31 2009-07-09 Qualcomm Inc 音響特性ベクトル変形を使用する分散型音声認識システム
KR100533601B1 (ko) * 2002-12-05 2005-12-06 베스티안파트너스(주) 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법

Also Published As

Publication number Publication date
JP3697748B2 (ja) 2005-09-21
US6070139A (en) 2000-05-30

Similar Documents

Publication Publication Date Title
JPH0962289A (ja) 音声認識装置および音声認識処理方法
US5946658A (en) Cartridge-based, interactive speech recognition method with a response creation capability
US5794204A (en) Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability
US9251142B2 (en) Mobile speech-to-speech interpretation system
US5983186A (en) Voice-activated interactive speech recognition device and method
JP4867804B2 (ja) 音声認識装置及び会議システム
JP4393494B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
JPH11119791A (ja) 音声感情認識システムおよび方法
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
JP2004163541A (ja) 音声応答装置
US11564194B1 (en) Device communication
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2000347684A (ja) 音声認識システム
KR20190032557A (ko) 음성 기반 통신
JP2000322088A (ja) 音声認識マイクおよび音声認識システムならびに音声認識方法
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
KR100369732B1 (ko) 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법
JP2007286376A (ja) 音声案内システム
JP3285047B2 (ja) 不特定話者用音声認識装置
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置
JP3468389B2 (ja) 音声認識対話装置および音声認識対話処理方法
JPH08110790A (ja) 音声認識装置
US20230386491A1 (en) Artificial intelligence device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050627

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080715

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100715

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110715

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110715

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120715

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120715

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130715

Year of fee payment: 8

EXPY Cancellation because of completion of term