JPH0962289A - 音声認識装置および音声認識処理方法 - Google Patents
音声認識装置および音声認識処理方法Info
- Publication number
- JPH0962289A JPH0962289A JP7212250A JP21225095A JPH0962289A JP H0962289 A JPH0962289 A JP H0962289A JP 7212250 A JP7212250 A JP 7212250A JP 21225095 A JP21225095 A JP 21225095A JP H0962289 A JPH0962289 A JP H0962289A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- unit
- standard
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
や性別、あるいは話し方の個人差などによる特徴の違い
に関係なく不特定話者の音声をきわめて高い認識率での
認識を可能とすることを目的としている。 【構成】 装置本体側には、音声を認識しその認識結果
に応じた動作を行う音声認識処理手段10を少なくとも
設け、この音声認識処理手段10との間のデータ送受信
を無線にて行うユーザ端末部20とを備える。そして、
前記ユーザ端末部20には、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成する変換規則生成手
段232と、その変換規則を記憶する変換規則記憶手段
234とを少なくとも備え、前記音声認識処理手段10
では、ユーザ端末部20側の変換規則を参照して、標準
音声の特徴量に変換された入力音声特徴量によって音声
認識を行う。
Description
識結果に対応した応答や特定動作を行う音声認識装置お
よび音声認識処理方法に関する。
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を10単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。
は、多数(たとえば、200人程度)の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶(登録)させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。
を認識可能な不特定音声認識装置は、確かに、標準的な
音声に対しては比較的高い認識率が確保されるが、殆ど
の全ての音声に対しても高い認識率が得られるとは限ら
ない。たとえば、幼児の声、大人の声、女性の声、男性
の声などのように、年齢や性別によって音声の特徴が大
きく異なり、大人の問いかけに対してはきわめて高い認
識率が得られても、幼児の問いかけに対しては殆ど認識
されないという問題も生じてくる。
機などに適用されることも考えられる。たとえば、自動
販売機として券売機を例に取れば、鉄道やバスなどの乗
車券や施設への入場券、食堂などの食券などの券売機や
に音声認識技術を取り入れることにより、音声を入力す
るだけで目的の券が買えるということも可能となる。こ
れが実用化されることになれば、必要な券の料金を表に
よって調べてボタンを押すというような面倒な操作が必
要なくなり、お年寄りや子ども、あるいは手足の不自由
な人にとっては特に便利なものとなる。
多い。すなわち、この種の音声認識装置としては、前記
したように、年齢や性別、あるいは話し方の個人差など
による特徴の違いに関係なく不特定話者の音声をきわめ
て高い認識率で認識できなければならないという問題が
ある。
されたもので、音声による遠隔操作を可能とし、かつ、
年齢や性別、あるいは話し方の個人差などによる特徴の
違いに関係なく不特定話者の音声をきわめて高い認識率
での認識を可能とすることを目的としている。
は、入力された音声を分析して音声特徴データを発生
し、この音声特徴データと予め登録された認識可能な単
語の標準音声特徴データとを比較して単語検出データを
出力し、この単語検出データを受けて、入力音声の意味
を理解し、それに対応した処理を行う音声認識装置にお
いて、音声を認識しその認識結果に応じた動作を行う音
声認識処理手段を少なくとも有する装置本体と、この装
置本体との間のデータ送受信を無線にて行うユーザ端末
部とを備え、前記ユーザ端末部は、或る特定のユーザの
音声と標準音声特徴データとを比較し、この比較結果を
もとに前記特定ユーザの音声の特徴量を標準話者の音声
の特徴量に変換するための変換規則を生成する変換規則
生成手段と、その変換規則を記憶する変換規則記憶手段
とを、少なくとも備えたことを特徴としている。
する音声入力手段と、この音声入力手段により入力され
た音声を分析して入力音声の特徴量を出力する音声分析
手段と、前記変換規則生成手段および変換規則記憶手段
と、この変換規則記憶手段に記憶された変換規則を参照
し、前記音声分析手段にて分析された入力音声の特徴量
を標準話者の特徴量に変換して出力する特徴量変換手段
と、この特徴量変換手段にて標準話者の特徴量に変換さ
れた入力音声の特徴量を前記装置本体に送信する信号送
信手段とを有する構成とする。この場合、前記装置本体
の音声認識処理手段は、前記ユーザ端末部からの信号を
受信する信号受信手段と、認識可能な単語に対する標準
音声特徴データを記憶している標準音声特徴データ記憶
手段と、前記特徴量変換手段により標準話者の特徴量に
変換された入力音声特徴量を入力し、前記標準音声特徴
データ記憶手段に記憶された標準音声特徴データをもと
に単語検出データを出力する単語検出手段と、この単語
検出手段からの単語検出データをもとに入力音声を理解
する音声理解制御手段と、この音声理解制御手段からの
指示を受けて、その指示に対応した動作を行う動作手段
とを有する構成とする。
成手段および変換規則記憶手段を、ユーザ端末部に対し
て着脱自在なカートリッジ部に備えるような構成として
もよい。
生成手段および変換規則記憶手段と、装置本体との間で
のデータ授受が可能な信号送受信手段とを有する構成と
してもよい。このような構成とした場合、前記装置本体
の音声認識処理手段は、音声を入力する音声入力手段
と、この音声入力手段により入力された音声を分析して
入力音声の特徴量を出力する音声分析手段と、この音声
分析手段にて分析された入力音声の特徴量を、前記ユー
ザ端末部側に備えられた変換規則を用いて標準話者の特
徴量に変換する特徴量変換手段と、認識可能な単語に対
する標準音声特徴データを記憶している標準音声特徴デ
ータ記憶手段と、前記特徴量変換手段により標準話者の
特徴量に変換された入力音声特徴量を入力し、前記標準
音声特徴データ記憶手段に記憶された標準音声特徴デー
タをもとに単語検出データを出力する単語検出手段と、
この単語検出手段からの単語検出データをもとに入力音
声を理解する音声理解制御手段と、この音声理解制御手
段からの指示を受けて、その指示に対応した動作を行う
動作手段と、外部からの信号を受信するとともに外部に
信号を発信する信号送受信手段とを有した構成とする。
た音声を分析して音声特徴データを発生し、この音声特
徴データと予め登録された認識可能な単語の標準音声特
徴データとを比較して単語検出データを出力し、この単
語検出データを受けて、入力音声の意味を理解し、それ
に対応した処理を行う音声認識装置において、音声を認
識しその認識結果に応じた動作を行う音声認識処理手段
を少なくとも有した装置本体と、この装置本体との間の
データ送受信を無線にて行うユーザ端末部とを備え、前
記ユーザ端末部は、音声を入力する音声入力手段と、こ
の音声入力手段から入力された音声信号を装置本体側に
送信する信号送信手段とを備えた構成とする。そして、
前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの音声信号を受信する信号受信手段と、この信号受
信手段で受信された音声信号を分析して入力音声の特徴
量を出力する音声分析手段と、或る特定のユーザの音声
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を予め作成する変換規則
生成手段およびその変換規則を記憶する変換規則記憶手
段と、前記音声分析手段にて分析された入力音声の特徴
量を、前記予め作成された変換規則を用いて標準話者の
特徴量に変換するための特徴量変換手段と、認識可能な
単語に対する標準音声特徴データを記憶している標準音
声特徴データ記憶手段と、前記特徴量変換手段により標
準話者の特徴量に変換された入力音声特徴量を入力し、
前記標準音声特徴データ記憶手段に記憶された標準音声
特徴データをもとに単語検出データを出力する単語検出
手段と、この単語検出手段からの単語検出データをもと
に入力音声を理解する音声理解制御手段と、この音声理
解制御手段からの指示を受けて、その指示に対応した動
作を行う動作手段とを有した構成としている。
成手段および変換規則記憶手段を、装置本体に対して着
脱自在なカートリッジ部に備えた構成としてもよい。
された音声を分析して音声特徴データを発生し、この音
声特徴データと予め登録された認識可能な単語の標準音
声特徴データとを比較して単語検出データを出力し、こ
の単語検出データを受けて、入力音声の意味を理解し、
それに対応した処理を行う音声認識処理方法において、
音声を認識しその認識結果に応じた動作を行う音声認識
処理工程を少なくとも有する装置本体およびこの装置本
体との間のデータ送受信を無線にて行うユーザ端末部を
備え、前記ユーザ端末部は、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成し、この生成した変
換規則を記憶する機能を、少なくとも有することを特徴
としている。
ユーザの音声と標準音声特徴データとを比較し、この比
較結果をもとに前記特定ユーザの音声の特徴量を標準話
者の音声の特徴量に変換するための変換規則を生成し、
この生成した変換規則を記憶する機能を有し、さらに、
音声を入力し、入力された音声を分析して入力音声の特
徴量を出力するとともに、前記変換規則を参照し、前記
音声分析された入力音声の特徴量を標準話者の特徴量に
変換して出力し、この標準話者の特徴量に変換された入
力音声の特徴量を前記装置本体に送信する機能を有した
ものとする。この場合、前記装置本体の音声認識処理手
段は、前記ユーザ端末部側から送られてきた前記標準話
者の特徴量に変換された入力音声特徴量を入力し、認識
可能な単語に対する標準音声特徴データとの比較により
単語検出データを出力し、この単語検出データをもとに
入力音声を理解して、それに対応した動作を行うように
する。
て、前記変換規則を生成し、この生成した変換規則を記
憶する機能を、個人所有の端末部に対して着脱自在なカ
ートリッジ部に備えるようにしてもよい。
ーザの音声を入力し、この特定ユーザの音声特徴データ
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を生成し、この生成した
変換規則を記憶する機能を有するとともに、前記記憶さ
れた変換規則を装置本体からの要求に応じて装置本体側
に送信する機能を有するものであっってもよい。この場
合は、前記装置本体の音声認識処理手段は、音声を入力
し、入力された音声を分析して入力音声の特徴量を出力
し、前記ユーザ端末部に備えられた変換規則を参照する
ことで、前記入力音声の特徴量を標準話者の特徴量に変
換し、この標準話者の特徴量に変換された入力音声特徴
量を、認識可能な単語に対する標準音声特徴データと比
較して単語検出データを出力し、単語検出データをもと
に入力音声を理解して、それに対応した動作を行うよう
にする。
された音声を分析して音声特徴データを発生し、この音
声特徴データと予め登録された認識可能な単語の標準音
声特徴データとを比較して単語検出データを出力し、こ
の単語検出データを受けて、入力音声の意味を理解し、
それに対応した処理を行う音声認識処理方法において、
音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、音声を入力して、その入力
された音声信号を装置本体側に送信する機能を有したも
のとする。この場合、前記装置本体の音声認識処理手段
は、或る特定のユーザの音声と標準音声特徴データとを
比較し、この比較結果をもとに前記特定ユーザの音声の
特徴量を標準話者の音声の特徴量に変換するための変換
規則を生成し、この生成した変換規則を記憶する機能を
有し、さらに、前記ユーザ端末部からの音声信号を受信
し、受信された音声信号を分析して入力音声の特徴量を
出力し、前記変換規則を参照することで、前記入力音声
の特徴量を標準話者の特徴量に変換し、この標準話者の
特徴量に変換された入力音声特徴量を、認識可能な単語
に対する標準音声特徴データと比較して単語検出データ
を出力し、単語検出データをもとに入力音声を理解し
て、それに対応した動作を行うようにする。
変換規則を記憶する機能を、装置本体に対して着脱自在
なカートリッジ部に備えるようにしてもよい。
線でデータの授受を行うことを可能としている。したが
って、音声による遠隔操作が可能となる。また、前記ユ
ーザ端末部は、或る特定のユーザの音声と標準音声特徴
データとを比較し、この比較結果をもとに前記特定ユー
ザの音声の特徴量を標準話者の音声の特徴量に変換する
ための変換規則を生成し、この生成した変換規則を記憶
する機能を少なくとも有している。したがって、装置本
体では、ユーザ端末部側の変換規則を参照して、標準音
声の特徴列に変換された入力音声の特徴量によって音声
認識を行うため、年齢や性別などの違い、あるいは話し
方の個人差などに関係なく、きわめて高い認識率での認
識が可能となる。
規則を記憶する部分をカートリッジ部に設けるようにす
る。これにより、1台の端末あるいは装置に対してユー
ザ単位でカートリッジを交換して使用することができ、
装置や端末は1台であっても複数のユーザが使用可能と
なる。
する。
たとえば、企業内の食堂などにおける食券の自動券売機
に適用した場合を例にとって説明する。図1は本発明の
全体的な概略構成を説明する図であり、概略的には、券
売機(装置本体)1内に収納された音声認識処理部10
(詳細は後述する)と、ユーザが所有するユーザ端末部
20(詳細は後述する)から構成され、このユーザ端末
部20と音声認識処理部10との間は無線によりデータ
の授受が行われるようになっている。そして、券売機1
の外面には通常の券売機と同様、販売可能なメニューの
表示部2や、その料金表示部3、料金投入部4、釣り銭
排出部5などの他に、音声入力部6、音声出力部7など
が設けられている。なお、この券売機の発券機構などは
本発明の要旨となる部分には直接関係しないので、これ
らの構成や機能などについては説明を省略する。
理部10およびユーザ端末部20の構成を説明するブロ
ック図である。この第1の実施例では、ユーザ端末部2
0は、音声入力部21、音声分析部22、話者適応部2
3(詳細は後述する)、信号送信部24で構成され、音
声認識処理部10は、信号受信部11、単語検出部1
2、標準音声特徴データ記憶部13、音声理解制御部1
4、応答データ記憶部15、音声合成部16、音声出力
部17(図1で示した音声出力部7に相当する)、駆動
データ記憶部18、駆動制御部19などから構成されて
いる。なお、この第1の実施例では、ユーザ端末部20
に音声入力部21が設けられた例を示しているので、こ
のユーザ端末部20を使用する場合は、装置本体1の音
声入力部6は特に必要とはしない。
には全体的な処理などについて以下に順次説明する。
クロホン、増幅器、ローパスフィルタ、A/D変換器な
どから構成され、マイクロホンから入力された音声を、
増幅器、ローパスフィルタを通して適当な音声波形とし
たのち、A/D変換器によりディジタル信号(たとえ
ば、12KHz.16bit)に変換して出力し、その
出力を音声分析部22に送る。音声分析部22では、音
声入力部21から送られてきた音声波形信号を、演算器
(CPU)を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEP
STRUM係数が一般的)し、この特徴ベクトルの時系列
(以下、音声特徴ベクトル列という)を出力する。
1、変換規則生成部232、標準音声特徴データ記憶部
233、変換規則記憶部234などから構成されてい
る。前記標準音声特徴データ記憶部233は、1つ1つ
の単語に対し多数(たとえば、200人程度)の話者が
発話した音声を用いて予め作成した認識可能な単語(登
録単語という)の標準パターンを記憶(登録)している
ROMである。
音声分析部22からの出力を受けて、入力音声の特徴量
を標準話者の特徴量に変換したのち、信号送信部24か
ら出力するものである。すなわち、変換規則生成部23
2により、このユーザ端末部20を所有するユーザの音
声をもとに、標準音声特徴データ記憶部233のデータ
を用いて変換規則を予め作成し、その変換規則を変換規
則記憶部234に格納しておく。そして、ユーザの音声
が入力されると、音声分析部22で音声分析され、その
音声分析された特徴量が特徴量変換部231に入力され
る。特徴量変換部231では、その送られてきた特徴量
を基に、変換規則記憶部234に格納された変換規則に
基づいて標準話者の特徴量に変換し、その変換後の特徴
量を信号送信部24から発信する。
ては、図3に示すように、ベクトル量子化部241、入
力話者コードブック生成部242、標準音声特徴データ
記憶部233、入力話者コードブック243、標準話者
コードブック244により構成されたものがある。図3
において、ベクトル量子化部241は図2における特徴
量変換部231に相当し、入力話者コードブック生成部
242は変換規則生成部232に相当し、入力話者コー
ドブック243と標準話者コードブック244は変換規
則記憶部234に相当している。この図3を用いて入力
音声の特徴量を標準話者の特徴量に変換する処理につい
て説明する。
により入力話者コードブックを作成する処理を予め行っ
ておく。これは、ユーザが認識可能な単語のうち幾つか
の単語を1つづ入力することにより行われる。たとえば
認識可能な単語の1つとして、「おはよう」という単語
があるとすれば、この「おはよう」を入力すると、この
「おはよう」の音声が音声分析部22で分析され、その
特徴ベクトル列が入力話者コードブック生成部242に
入力される。そして、標準音声特徴データ記憶部233
内のデータとの比較を行い、それらの音声の特徴の違い
から、標準話者のコードブックを入力話者の音声特徴空
間へ写象するための写象関数を作成する。この写象関数
は複数の単語を用いて作成することにより精度が向上す
るため、本実施例では複数の単語を用いる。
て、標準話者コードブックを入力話者の音声特徴空間へ
写象することにより、或る特定のユーザのコードブック
が作成される。そして、そのユーザの音声が入力される
と、入力話者コードブックと標準話者コードブックをも
とに標準話者の特徴ベクトル列に変換して出力する。こ
れを図4により説明する。図4(a)は、入力されたユ
ーザの音声特徴ベクトル列であり、同図(b)は前記し
たように予め作成されたユーザのコードブック、同図
(c)は標準話者のコードブックである。なお、通常、
入力音声特徴ベクトル列は10次元程度であるが、ここ
では説明を簡単にするために5次元のベクトル列で示し
ている。また、コードブックのサイズは通常256ある
いは512といったサイズが用いられるが、ここでは説
明を簡単にするためにサイズを3としている。そして、
入力話者コードブックと標準話者コードブックはそれぞ
れのデータが予め対応づけられており、たとえば、入力
話者コードブックのAのデータは標準話者コードブック
のA’に、入力話者コードブックのBのデータは標準話
者コードブックのB’に、入力話者コードブックのCの
データは標準話者コードブックのC’にそれぞれ対応づ
けられている。
音声分析部22で音声分析され、図4(a)示すよう
に、この場合、5次元の特徴ベクトル列が時系列として
出力される。
(3)、・・・が、同図(b)に示す入力話者コードブ
ックのどのデータと最も近いかを距離計算により求め
る。たとえば、入力音声(1)のデータ(3・2・0・
0・0)は入力話者コードブックのデータA(2・2・
0・0・0)と最も近く、入力音声(2)のデータ(2
・1・1・1・1)は入力話者コードブックのデータB
(1・1・1・1・1)と最も近く、入力音声(3)の
データ(1・2・1・1・1)は入力話者コードブック
のデータB(1・1・1・1・1)と最も近く、入力音
声(4)のデータ(0・0・2・2・2)は入力話者コ
ードブックのデータC(0・0・0・2・2)と最も近
く、入力音声(5)のデータ(0・0・0・2・3)は
入力話者コードブックのデータC(0・0・0・2・
2)と最も近いということが求められる。
ータ毎に入力話者コードブックを参照して、最も近い特
徴ベクトルを選ぶ。したがって、この場合、入力音声
(1)〜(5)に限って考えれば、A・B・B・C・C
という特徴ベクトルが求められる。
コードブックに対して、AはA’、BはB’、CはC’
というような対応付けができているので、この場合、入
力音声は標準話者のコードブックのA’・B’・B’・
C’・C’というデータに変換されることになる。な
お、この場合、標準音声話者コードブックはデータA’
(5・5・1・1・1・)、データB’(2・2・3・
2・2)、データC’(0・1・3・3・3)である。
ル列は標準話者コードブックの特徴ベクトル列に変換で
き、この変換された特徴ベクトル列が信号送信部24か
ら装置本体の音声認識処理部10に送信される。
は、たとえば、腕時計のなかに組み込んだり、あるい
は、カード型にしてそれぞれの個人が所有するようにす
る。そして、予め、所有する各ユーザが自己の入力話者
コードブックを作成しておく。これにより、ユーザ端末
部20を所有するユーザは、たとえば食券を購入する場
合、券売機(装置本体)1のそばに行って、ユーザ端末
部20に向かって、たとえば、「カレーを1つ下さい」
と言えば、その音声は、音声入力部21から入力され、
音声分析部22で音声分析された後、その特徴ベクトル
列は話者適応部23によって、ユーザ自身の音声を基に
作成されたコードブックにより標準話者の特徴ベクトル
列に変換されて装置本体の音声認識処理部10に送られ
る。
いて説明する。標準音声特徴データ記憶部13は、前記
話者適応部に設けられた標準音声特徴データ記憶部23
3と同様、1つ1つの単語に対し多数(たとえば、20
0人程度)の話者が発話した音声を用いて予め作成した
認識可能な単語(登録単語という)の標準パターンを記
憶(登録)しているROMである。ここでは、食券の販
売機を例にしているので、登録単語はメニュー分の10
単語程度とし、その単語としては、たとえば、「カレ
ー」、「そば」、「うどん」などである。
演算器(CPU)と処理プログラムを記憶しているRO
Mから構成され、前記標準音声特徴データ記憶部13に
登録されている単語が、入力音声中のどの部分にどれく
らいの確かさで存在するかを検出するものである。この
単語検出部12としては、隠れマルコフモデル(HM
M)方式やDPマッチング方式などを用いることも可能
であるが、ここでは、DRNN(ダイナミック リカレ
ント ニューラル ネットワーク)方式によるキーワー
ドスポッティング処理技術(この技術に関しては、本出
願人が特開平6ー4097、特開平6ー119476に
より、すでに特許出願済みである。)を用いて、不特定
話者による連続音声認識に近い音声認識を可能とするた
めの単語検出データを出力するものであるとする。
て、図5を参照しながら簡単に説明する。なお、本発明
の実施例では、食券などの券売機を例にしているが、図
5による単語検出部12の単語検出データ出力処理、お
よび、後述する音声理解制御部14の処理動作を説明す
る際は、券売機に関する音声認識処理には関係なく、一
般的な入力音声例を用いて説明する。
憶部13に登録されている単語が、入力音声中のどの部
分にどれくらいの確かさで存在するかを検出するもので
ある。今、話者から「明日の天気は、・・・」というよ
うな音声が入力され、図5(a)に示すような音声信号
が出力されたとする。この「明日の天気は、・・・」の
文節のうち、「明日」と「天気」がこの場合のキーワー
ドとなり、これらは、予め登録されている10単語程度
の登録単語の1つとして、標準音声特徴データ記憶部1
3にそのパターンが記憶されている。そして、これら登
録単語をたとえば10単語としたとき、これら10単語
(これを、単語1、単語2、単語3、・・・とする)に
対応して各単語を検出するための信号が出力されてい
て、その検出信号の値などの情報から、入力音声中にど
の程度の確かさで対応する単語が存在するかを検出す
る。つまり、「天気」という単語(単語1)が入力音声
中に存在したときに、その「天気」という信号を待って
いる検出信号が、同図(b)の如く、入力音声の「天
気」の部分で立ち上がる。同様に、「明日」という単語
(単語2)が入力音声中に存在したときに、その「明
日」という信号を待っている検出信号が、同図(c)の
如く、入力音声の「明日」の部分で立ち上がる。同図
(b),(c)において、0.9あるいは0.8といった数値
は、確からしさ(近似度)を示す数値であり、0.9や0.8
といった高い数値であれば、その高い確からしさを持っ
た登録単語は、入力された音声に対する認識候補である
ということができる。つまり、「明日」という登録単語
は、同図(c)に示すように、入力音声信号の時間軸上
のw1の部分に0.8という確からしさで存在し、「天
気」という登録単語は、同図(b)に示すように、入力
音声信号の時間軸上のw2の部分に0.9という確からし
さで存在することがわかる。
入力に対して、同図(d)に示すように、単語3(この
単語3は「何時」という登録単語であるとする)を待つ
信号も、時間軸上のw2の部分に、ある程度の確からし
さ(その数値は0.6程度)を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、2つ
以上の登録単語が認識候補として存在する場合には、最
も近似度(確からしさを示す数値)の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
1つの単語を認識単語として選定する方法などを用い
て、或る1つの認識候補単語を決定する。たとえば、前
者の方法で認識候補を決定するとすれば、この場合は、
時間軸上のw2の部分に対応する近似度は、「天気」を
検出する検出信号の近似度が最も高いことから、その部
分の入力音声に対する認識候補は「天気」であるとの判
定を行う。なお、これらの近似度を基に入力音声の認識
は音声理解制御部14にて行う。
(b)〜(e)に示すような検出データ(これをワード
ラティスという。このワードラティスは、登録単語名、
近似度、単語の始点sと終点eを示す信号などが含まれ
る)が入力されると、まず、そのワードラティスを基
に、入力音声の中のキーワードとしての単語を1つまた
は複数個決定する。この例では、入力音声は「明日の天
気は・・・」であるので、「明日」と「天気」が検出さ
れることになり、この「明日」と「天気」のキーワード
から「明日の天気は・・・」という連続的な入力音声の
内容を理解し、それに対応した応答内容を選んで出力す
る。
理による連続音声認識に近い音声認識処理は、日本語だ
けでなく他の言語においても適用可能である。たとえ
ば、使用する言語が英語であるとすれば、登録されてい
る認識可能な単語は、たとえば、“good morning”、
“time”、“tommorow”、“good night”などが一例
として挙げられ、これら認識可能な登録単語の特徴デー
タが、標準音声特徴データ記憶部4に記憶されている。
そして今、話者が「what time is it now」と問い
かけた場合、この「what time is it now」の文節
のうち、単語「time」がこの場合のキーワードとなり、
「time」という単語が入力音声の中に存在したときに、
その「time」の音声信号を待っている検出信号が、入力
音声の「time」の部分で立ち上がる。そして、単語検出
部3からの検出データ(ワードラティス)が入力される
と、まず、そのワードラティスを基に、入力音声の中の
キーワードとしての単語を1つまたは複数個決定する。
この例では、入力音声は、「what time is it no
w」であるので、「time」がキーワードとして検出され
ることになり、このキーワードを基に、「what time
is it now」という連続的な入力音声の内容を理解す
る。
実現するには、販売可能なメニュー名として、カレー、
そば、うどんといった単語とその個数をキーワードと
し、たとえば、ユーザが「カレーを1つ下さい」と自己
の所有するユーザ端末部20に対して発話した場合、
「カレー」と「1つ」がキーワードとして検出され、こ
れらのキーワードを基に、装置側では「カレーを1つ下
さい」というような連続音声を認識することができ、こ
れに対して、装置側からは、「カレーを1つですね」と
いうような応答を行うように設定しておけばよい。
U)と処理プログラムを記憶しているROMから構成さ
れ、単語検出部12からの単語検出データを入力して、
その単語検出データを基に、音声を認識し(入力音声全
体の意味を理解し)、応答データ記憶部15を参照し
て、入力音声の意味に応じた応答内容を決定してそれを
音声合成部(主にCPUとROMで構成される)16に
送る。そして、音声合成部16では応答内容を音声合成
し、その音声合成出力は音声出力部17から外部に出力
される。また、音声理解制御部14は、単語検出部12
からの単語検出データを基に、入力音声全体の意味を理
解すると、駆動データ記憶部18を参照して、入力音声
の意味に応じた駆動内容を決定してそれを駆動制御部1
9に送る。これにより、駆動制御部19は音声理解制御
部14の指示に対応し駆動制御を行い、発券機構などが
駆動される。
理解会話制御、音声合成などの制御を行うCPUはそれ
ぞれに設けてもよいが、これら全ての処理を行う1台の
メインのCPUを設け、この1台のCPUで本発明の全
体の処理を行うようにしてもよい。
0を所有するユーザが、たとえば食券を購入する場合、
券売機(装置本体)1のそばに行って、ユーザ端末部2
0に向かって、たとえば、「カレーを1つ下さい」と言
えば、その音声は、音声入力部21から入力され、音声
分析部22で音声分析された後、その特徴ベクトル列は
話者適応部23によって、ユーザ自身の音声を基に作成
されたコードブック及び標準話者コードブックにより標
準話者の特徴量ベクトル列に変換される。すなわち、音
声分析部22にて音声分析された特徴ベクトル列は、ベ
クトル量子化部241を通って、入力話者コードブック
243のデータと比較され、予め対応づけられた標準話
者コードブック244の特徴ベクトル列に変換されてベ
クトル量子化部241から出力される。このベクトル量
子化部241によって標準話者の特徴ベクトル列に変換
された入力音声信号は信号送信部24から発信され、装
置本体1内の音声認識処理部10に設けられた信号受信
部11で受信される。
きた特徴ベクトル列を標準音声特徴データ記憶部13内
のデータと比較し、単語検出データ(ワードラティス)
を音声理解制御部14に出力する。
語検出部12からの単語検出データをもとに、入力音声
の意味を理解する。この場合、入力音声は「カレーを1
つ下さい」であるからそれを理解し、それに対する応答
として、たとえば、「はい、かれーを1つですね」とい
うような応答内容を応答データ記憶部16から取り出し
て、その信号を音声合成部15に送る。音声合成部15
では、音声理解会話制御部14からの信号を受けてそれ
に対応した音声合成を行い、音声出力部17から音声合
成された応答内容を出力する。
い、カレーを1つですね」という応答内容を受けて、た
とえば「はい」(この「はい」は登録単語であるとす
る)という返事を行うことにより、装置本体1の音声認
識処理部10では「はい」を前記同様に認識する。これ
により、装置本体1は料金が投入されたことを確認して
食券の発券処理を行う。具体的には、音声理解制御部1
4が、駆動データ記憶部18を参照して対応する駆動デ
ータを駆動制御部19に送る。駆動制御部では音声理解
制御部14からの指示を受けて、発券機構などに対して
駆動制御を行い、これにより発券処理などが行われる。
たものに限られるものではなく、たおえば、ユーザが
「カレー」というと、装置側からは「幾つですか」と問
い返し、これに対してユーザが「1つ」というように応
答すると、装置側から「・・円を入れて下さい」という
ような会話も可能であり、その会話内容は種々の内容が
設定できる。
声入力部21、音声分析部22、話者適応部23で構成
されるユーザ端末部20を各ユーザが所有し、このユー
ザ端末部20を所有するユーザが予め、ユーザ自身の音
声により入力話者コードブックを作成し、実際に使用す
る際は、ユーザの話す音声を前記入力話者コードブック
を参照して標準話者の特徴量ベクトル列に変換して、そ
の特徴ベクトル列を装置本体の音声認識処理部10に送
るようにしている。したがって、装置本体側では、標準
音声特徴ベクトル列に変換されたデータを用いて、音声
認識を行うので、ユーザの声の質や話し方の個人差に影
響されず、高い認識率を得ることができる。
力部21、音声分析部22、話者適応部23を1つのセ
ットとしてユーザ端末部20を構成したが、これに限ら
れることなく、たとえば、話者適応部23の入力話者コ
ードブック生成部242、標準音声特徴データ記憶部2
33、入力話者コードブック243、標準話者コードブ
ック244だけをカートリッジ部に備え、このカートリ
ッジ部を各個人で所有するようにしてもよい。すなわ
ち、ユーザ端末部20をたとえばカード式とした場合、
図6に示すように、カード部には音声入力部21、音声
分析部22、ベクトル量子化部241、信号発信部23
を設け、カートリッジ部25には入力話者コードブック
生成部241、標準音声特徴データ記憶部233、入力
話者コードブック243、標準話者コードブック244
を設ける。そして、このカートリッジ25をカード側に
設けられたカートリッジ装着部(図示せず)に装着する
ことにより、図6の点線で示すようにそれぞれが接続さ
れ、それぞれの部分との間での信号の授受が可能とな
る。
みを個人所有とすることができ、音声入力部21、音声
分析部22、ベクトル量子化部241、信号発信部23
などを収納したカード部は何人かで共用でき、個人所有
のカートリッジは小型軽量なものとなり、低価格なもの
とすることができる。この場合、入力話者コードブック
の作成時にはカートリッジをカードに装着して行えばよ
い。なお、このようにカートリッジ式とする場合、標準
音声特徴データ記憶部233は必ずしもカートリッジ2
5側に設ける必要はない。
の実施例と同様、たとえば、企業内の食堂などにおける
食券の自動券売機に適用した場合を例にとって説明す
る。以上説明した第1の実施例では、ユーザ端末部20
は、音声入力部21、音声分析部22、話者適応部2
3、信号送信部24などを備えた構成としたが、この第
2の実施例では、図7に示すように、音声入力部21、
音声分析部22、話者適応部23のベクトル量子化部2
41などは装置本体側の音声認識処理部10に設け、話
者適応部23のうち入力話者コードブック生成部24
2、標準音声特徴データ記憶部233、入力話者コード
ブック243、標準話者コードブック244をユーザ端
末部20側に設けた構成としている。また、この場合
は、券売機(装置本体)1の音声認識処理部10には信
号送受信部30が設けられるとともに、ユーザ端末部2
0にも信号送受信部26が設けられる。図7において、
図2、図3と同一部分には同一符号が付されている。な
お、図7においては、音声認識のための標準音声特徴デ
ータ記憶部13と入力話者コードブックを生成するため
の標準音声特徴データ記憶部233を別個に設けた例を
示しているが、単語検出方法によっては入力話者コード
ブックを生成する処理を行う際に、標準音声特徴データ
記憶部13を使用することも可能であり、ここで示した
ように、それぞれに別個に設ける必要はない。ただし、
この場合は、標準音声特徴データ記憶部13のデータを
ユーザ端末部20側に送る手段が必要となる。
購入する場合、次のような手順にて行う。この場合、ユ
ーザ端末部20には音声入力部がないため、ユーザは装
置本体1に設けられた音声入力部6(図7では音声入力
部21に相当する)に向かって発話することになる。そ
して、入力音声は音声分析部22で音声分析されたの
ち、その特徴ベクトル列が装置本体1側に設けられた信
号送受信部30から発信され、ユーザ端末部20に設け
られた信号送受信部26により受信されるようになって
いる。そして、ユーザ端末部20では、送られてきた入
力音声の特徴ベクトル列に対応した標準話者コードブッ
クデータを信号送受信部26から発信する。この標準話
者コードブックデータは、装置本体側に設けられた信号
送受信部30で受信され、これにより、ベクトル量子化
部241からは、入力音声の特徴ベクトル列を標準話者
の特徴ベクトル列に変換した入力音声特徴ベクトルが出
力され、単語検出部12に送られる。
ユーザがユーザ端末部20において、入力話者コードブ
ック生成を行うには、たとえば、そのユーザ端末部20
を持って券売機1の場所に行って、ユーザ端末部20お
よび券売機1を入力話者コードブック生成のモードと
し、券売機1の音声入力部6から所定の単語を音声入力
することにより、前記第1の実施例で説明したと同様
に、入力話者コードブックが生成される。なお、この入
力話者コードブックの生成は、券売機1でなく、専用の
装置を設けて、その専用の装置により行うようにしても
よい。
を所有するユーザが、たとえば食券を購入する場合、券
売機(装置本体)1の近くに行って、券売機1に向かっ
て、たとえば、「カレーを1つ下さい」と言えば、その
音声は、券売機1の音声入力部6(音声入力部21)か
ら入力され、音声分析部22で音声分析された後、その
特徴ベクトル列はベクトル量子化部241を通って、信
号送受信部30より発信されて、ユーザ端末部20の信
号送受信部26で受信される。これにより、入力話者コ
ードブック243が参照され、予め対応づけられた標準
話者コードブック244のデータが信号送受信部26か
ら発信され、券売機1の信号送受信部30で受信され
る。これにより、標準話者の特徴ベクトル列に変換され
た特徴ベクトル列がベクトル量子化部241から出力さ
れ、単語検出部12に送られる。
ベクトル列を標準音声特徴データ記憶部13内のデータ
と比較し、単語検出データ(ワードラティス)を音声理
解制御部14に出力する。
記第1の実施例で説明したように、単語検出部12から
の単語検出データをもとに、入力音声の意味を理解す
る。この場合、入力音声は「カレーを1つ下さい」であ
るからそれを理解し、それに対する応答として、たとえ
ば、「はい、カレーを1つですね」というような応答内
容を応答データ記憶部16から取り出して、その信号を
音声合成部15に送る。音声合成部15では、音声理解
会話制御部14からの信号を受けてそれに対応した音声
合成を行い、音声出力部17から音声合成された応答内
容を出力する。
い、カレーを1つですね」という応答内容を受けて、た
とえば「はい」(この「はい」は登録単語である)とい
う返事を行うことにより、装置本体1の音声認識処理部
10では「はい」を前記同様に認識する。これにより、
装置本体1は料金が投入されたことを確認して食券の発
券処理を行う。具体的には、音声理解制御部14が、駆
動データ記憶部18を参照して対応する駆動データを駆
動制御部19に送る。駆動制御部では音声理解制御部1
4からの指示を受けて、発券機構などに対して駆動制御
を行う。
力話者コードブック生成部242、標準音声特徴データ
記憶部233、入力話者コードブック243、標準話者
コードブック244で構成されるユーザ端末部20を各
ユーザが所有し、このユーザ端末部20を所有するユー
ザが予め、ユーザ自身の音声により入力話者コードブッ
クを作成し、実際に使用する際は、ユーザの話す音声を
装置本体側で入力して、音声分析し、その音声分析され
た特徴ベクトル列をユーザの所有するユーザ端末部20
に発信し、ユーザ端末部20側で、前記入力話者コード
ブックを参照して対応する標準話者コードブックデータ
を装置側に送り返し、装置本体側で標準話者の特徴量ベ
クトル列を単語検出部12に送るようにしている。そし
て、装置本体側では、入力音声特徴ベクトル列を標準音
声特徴列に変換したデータを用いて、音声認識を行うの
で、ユーザの声の質や話し方の個人差に影響されず、高
い認識率を得ることができる。これにより、ユーザ端末
部20をより一層、小型で軽量なものとすることがで
き、また、低価格なものとすることができる。
発明を食券などの券売機に適用した例で説明したが、本
発明は、この種の自動販売機に限られるものでなく、玩
具や、日常的に使われる電子機器などに幅広く適用でき
ることは勿論である。また、ユーザが発する音声を認識
してそれに対して何らかの言葉を応答する例を示した
が、言葉での応答は必ずしも必要ではなく、音声認識し
てそれに対して何らかの動作をなすものであってもよ
い。
声入力部21のみを装置本体から分離して、入力音声信
号を信号発信部から発信し、それを装置本体に設けた信
号受信部で受信し、音声分析して音声認識を行って、認
識結果に応じた何らかの動作を行うようにしたものであ
る。この第3の実施例は、或る程度、距離が離れた状態
で、装置を音声にて遠隔操作するような場合に特に有効
であり、たとえば、玩具を例に取れば、離れた場所から
模型の船や飛行機などを操縦する場合に適用できる。以
下この第3の実施例について説明する。
である。図8において、装置本体側の音声認識処理部1
0には信号受信部11、音声分析部22、話者適応部2
3、単語検出部12、標準音声特徴データ記憶部13、
音声理解制御部14、駆動データ記憶部18、駆動制御
部19などが設けられている。そして、ユーザ端末部2
0には音声入力部21とこの音声入力部21に入力され
た音声信号を発信する信号送信部24が設けられてい
る。
4、信号受信部11、音声分析部22、話者適応部2
3、単語検出部12、標準音声特徴データ記憶部13、
音声理解制御部14、駆動データ記憶部18、駆動制御
部19などの構成や機能などは今まで説明したものと同
じであるが、この例は、認識した音声に対して言葉で応
答する必要は特にないため、音声による応答内容の出力
処理については省略してある。そして、この場合は、た
とえば、遠隔操縦可能な船などであれば、ユーザが「直
進せよ」、「左にまがれ」、「止まれ」などの認識可能
な単語を含んだ音声を発することにより、音声理解制御
部14がそれを認識し、この音声理解制御部14の指示
によって駆動制御部19がそれに応じた駆動制御を行
う。
カートリッジ式にするのが望ましく、前記第1の実施例
のなかで説明したと同様、図9に示すように、話者適応
部23のうち、入力話者コードブック生成部242、標
準音声特徴データ記憶部233、入力話者コードブック
243、標準話者コードブック244をカートリッジ部
25に備え、このカートリッジ部25を各個人で所有す
るようにする。すなわち、装置本体側の音声認識処理部
10には、信号受信部11、音声分析部22、ベクトル
量子化部241、単語検出部12、標準音声特徴データ
記憶部13、音声理解制御部14、駆動データ記憶部1
8、駆動制御部19を設け、カートリッジ部25を装置
本体の所定の装着部(図示せず)に装着することによ
り、カートリッジ内の入力話者コードブック生成部24
2、入力話者コードブック243、標準話者コードブッ
ク244が音声分析部22やベクトル量子化部241な
どに対して図9の点線で示すように接続され、信号の授
受が可能となるようにする。
個人所有として、装置本体は何人かで共用できる。この
場合、入力話者コードブックの作成時にはカートリッジ
25を装置本体に装着して前記した要領で行えばよい。
たとえば、遠隔操縦可能な玩具であれば、まず、ユーザ
が自己のカートリッジ(入力話者コードブック生成済
み)を装置本体に装着し、ユーザ端末部20の音声入力
部21に向かって、「直進せよ」などと言うと、その音
声信号が信号発信部24から発信され、装置本体の信号
受信部11で受信され、音声分析部22で分析され、そ
の特徴ベクトル列が前記したように、標準話者の特徴ベ
クトル列に変換されて、単語検出部12に入力される。
標準音声特徴データ記憶部13内のデータと比較し、単
語検出データ(ワードラティス)を音声理解制御部14
に出力する。
記したように、単語検出部12からの単語検出データを
もとに、入力音声の意味を理解し、それに対応する信号
を出力する。駆動制御部19はその信号を受けて、この
場合は、直進させるような制御を行う。
声入力部を装置本体から分離して、入力音声信号を信号
送信部から発信し、それを装置本体に設けた信号受信部
で受信し、音声分析して音声認識を行って、認識結果に
応じた何らかの動作を行うようにしている。また、話者
適応部23の入力話者コードブック生成部242、標準
音声特徴データ記憶部233、入力話者コードブック2
43、標準話者コードブック244をカートリッジ部2
5に設け、このカートリッジ部25を各個人で所有する
ようにして、装置を使用するユーザが、自己のカートリ
ッジを装置本体に装着して用いることにより、そのユー
ザの入力音声特徴ベクトル列が標準音声特徴ベクトル列
に変換され、その変換後の特徴ベクトル列より、音声認
識が行われるので、ユーザの声の質や話し方の個人差に
影響されず、高い認識率を得ることができる。
識のための標準音声特徴データ記憶部13と入力話者コ
ードブックを生成するための標準音声特徴データ記憶部
233を別個に設けた例を示したが、単語検出方法によ
っては入力話者コードブックを生成する処理を行う際
に、標準音声特徴データ記憶部13を使用することも可
能であり、ここで示したように、それぞれに別個に設け
る必要はない。この場合は、話者適応部23の入力話者
コードブック生成部242が標準音声特徴データ記憶部
13のデータを入力できるようにしておけばよい。
隔操縦が可能な玩具に適用した例で説明したが、本発明
は、この種の玩具に限られるものでなく、日常的に使わ
れる電子機器などに幅広く適用できることは勿論であ
る。また、この第3の実施例では、ユーザが発する音声
を認識してそれに対して、音声の応答ではなく何らかの
動作のみ行う例について説明したが、装置本体側に音声
による応答手段、信号送信手段などを設け、ユーザ端末
側には、信号受信手段、音声出力手段を設けて、ユーザ
の音声に対して何らかの動作を行うとともに、音声での
応答を行うようにすることも可能である。
装置は、請求項1によれば、装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、前記ユーザ端末部は、或る特定のユーザの音声と
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成する変換規則生成手
段と、その変換規則を記憶する変換規則記憶手段とを少
なくとも備えた構成としたことにより、音声による遠隔
操作が可能となり、しかも、ユーザ端末部はそれを使用
するユーザの音声を標準話者の特徴量に変換するための
変換規則が記憶されていることから、装置本体側では、
標準話者の特徴量に変換された特徴量を用いて音声認識
を行うので、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。
に、音声入力手段、音声分析手段、変換規則生成手段、
変換規則記憶手段、この変換規則記憶手段に記憶された
変換規則に基づいて入力音声の特徴量を標準話者の特徴
量に変換して出力する特徴量変換手段、標準話者の特徴
量に変換された入力音声の特徴量を前記装置本体に送信
する信号送信手段を設けた構成としたので、ユーザの音
声を基にした変換規則生成処理を他の装置に依存するこ
となく、自己の所有する端末で簡単に行うことができ
る。また、このユーザ端末部を用いることにより、音声
による遠隔操作が可能となり、かつ、年齢や性別などの
違い、あるいは話し方の個人差などに関係なく、きわめ
て高い認識率での認識が可能となる。
成手段および変換規則記憶手段を、カートリッジ部に備
え、各ユーザがそれぞれカートリッジを所有することに
より、1つのユーザ端末を複数のユーザが使用可能とな
り、また、各ユーザの所有するカートリッジは音声入力
部や音声分析部、特徴量変換部などを含まないので小
型、軽量、低コスト化を図ることができる。
部は、前記変換規則生成手段、変換規則記憶手段、信号
送受信手段とを設けた構成としたので、各ユーザの所有
するユーザ端末部は、音声入力部や音声分析部、特徴量
変換部などを含まないので小型、軽量、低コスト化を図
ることができる。また、このユーザ端末部を用いること
により、音声による遠隔操作が可能となり、かつ、年齢
や性別などの違い、あるいは話し方の個人差などに関係
なく、きわめて高い認識率での認識が可能となる。
部は、音声を入力する音声入力手段と、この音声入力手
段から入力された音声信号を装置本体側に送信する信号
送信手段とを備え、装置本体側には、前記ユーザ端末部
からの音声信号を受信する信号受信手段、入力音声の特
徴量を出力する音声分析手段と、変換規則を予め作成す
る変換規則生成手段、その変換規則を記憶する変換規則
記憶手段、入力音声の特徴量を変換規則を用いて標準話
者の特徴量に変換するための特徴量変換手段、標準話者
の特徴量に変換された入力音声特徴量を入力し、標準音
声特徴データをもとに単語検出データを出力する単語検
出手段と、この単語検出データをもとに入力音声を理解
する音声理解制御手段と、この音声理解制御手段からの
指示を受けて、その指示に対応した動作を行う動作手段
とを有した構成としたので、各ユーザの所有するユーザ
端末部は、音声入力部と信号発信部のみであるため、小
型、軽量、低コスト化を図ることができる。また、音声
による遠隔操作が可能となり、かつ、年齢や性別などの
違い、あるいは話し方の個人差などに関係なく、きわめ
て高い認識率での認識が可能となる。
成手段および変換規則記憶手段を、カートリッジ部に備
え、1台の装置に対してユーザ単位でカートリッジを交
換できるようにしたので、1台の装置を複数のユーザが
使用可能となる。
項7によれば、装置本体と、この装置本体との間のデー
タ送受信を無線にて行うユーザ端末部とを備え、前記ユ
ーザ端末部は、或る特定のユーザの音声と標準音声特徴
データとを比較し、この比較結果をもとに前記特定ユー
ザの音声の特徴量を標準話者の音声の特徴量に変換する
ための変換規則を生成し、この生成した変換規則を記憶
する機能を少なくとも有したことにより、音声による遠
隔操作が可能となり、しかも、ユーザ端末部はそれを使
用するユーザの音声を標準話者の特徴量に変換するため
の変換規則が記憶されていることから、装置本体側で
は、標準話者の特徴量に変換された特徴量を用いて音声
認識を行うので、年齢や性別などの違い、あるいは話し
方の個人差などに関係なく、きわめて高い認識率での認
識が可能となる。
は、変換規則を生成しこの生成した変換規則を記憶する
機能および音声を入力し、入力された音声を分析して入
力音声の特徴量を出力するとともに、前記変換規則を参
照し、前記音声分析された入力音声の特徴量を標準話者
の特徴量に変換して出力し、この標準話者の特徴量に変
換された入力音声の特徴量を前記装置本体に送信する機
能を有しているので、ユーザの音声を基にした変換規則
生成処理を他の装置に依存することなく、自己の所有す
る端末で簡単に行うことができる。また、このユーザ端
末部を用いることにより、音声による遠隔操作が可能と
なり、かつ、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。
しこの生成した変換規則を記憶する機能をカートリッジ
部に設け、各ユーザがそれぞれカートリッジを所有する
ことにより、1つのユーザ端末を複数のユーザが使用可
能となり、また、各ユーザの所有するカートリッジは音
声入力部や音声分析部、特徴量変換部などを含まないの
で小型、軽量、低コスト化を図ることができる。
は、変換規則を生成しこの生成した変換規則を記憶する
機能および前記記憶された変換規則を装置本体からの要
求に応じて装置本体側に送信する機能のみを有するよう
にしたので、各ユーザの所有するユーザ端末部は、音声
入力部や音声分析部、特徴量変換部などを含まないので
小型、軽量、低コスト化を図ることができる。また、こ
の個人所有の端末を用いることにより、音声による遠隔
操作が可能となり、かつ、年齢や性別などの違い、ある
いは話し方の個人差などに関係なく、きわめて高い認識
率での認識が可能となる。
末部としては、音声を入力して、その入力された音声信
号を装置本体側に送信する機能のみとし、装置本体側
は、変換規則を生成しこの生成した変換規則を記憶する
機能を有し、さらに、前記個人所有の端末部からの音声
信号を受信し、受信された音声信号を分析して入力音声
の特徴量を出力し、前記変換規則を参照することで、前
記入力音声の特徴量を標準話者の特徴量に変換し、この
標準話者の特徴量に変換された入力音声特徴量を、認識
可能な単語に対する標準音声特徴データと比較して単語
検出データを出力し、単語検出データをもとに入力音声
を理解して、それに対応した動作を行うようにしたの
で、各ユーザの所有するユーザ端末部は、音声入力部と
信号発信部のみであるため、小型、軽量、低コスト化を
図ることができる。また、音声による遠隔操作が可能と
なり、かつ、年齢や性別などの違い、あるいは話し方の
個人差などに関係なく、きわめて高い認識率での認識が
可能となる。
を生成しこの生成した変換規則を記憶する機能を、カー
トリッジ部に備え、1台の装置に対してユーザ単位でカ
ートリッジを交換できるようにしたので、1台の装置を
複数のユーザが使用可能となる。
ク図。
クトル列に変換する方法を説明する図。
制御部による音声認識処理を説明する図。
トリッジ式とした例を示す図。
トリッジ式とした例を示す図。
Claims (12)
- 【請求項1】 入力された音声を分析して音声特徴デー
タを発生し、この音声特徴データと予め登録された認識
可能な単語の標準音声特徴データとを比較して単語検出
データを出力し、この単語検出データを受けて、入力音
声の意味を理解し、それに対応した処理を行う音声認識
装置において、 音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有する装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、 前記ユーザ端末部は、或る特定のユーザの音声と標準音
声特徴データとを比較し、この比較結果をもとに前記特
定ユーザの音声の特徴量を標準話者の音声の特徴量に変
換するための変換規則を生成する変換規則生成手段と、
その変換規則を記憶する変換規則記憶手段とを、少なく
とも備えたことを特徴とする音声認識装置。 - 【請求項2】 前記ユーザ端末部は、音声を入力する音
声入力手段と、この音声入力手段により入力された音声
を分析して入力音声の特徴量を出力する音声分析手段
と、前記変換規則生成手段および変換規則記憶手段と、
この変換規則記憶手段に記憶された変換規則を参照し、
前記音声分析手段にて分析された入力音声の特徴量を標
準話者の特徴量に変換して出力する特徴量変換手段と、
この特徴量変換手段にて標準話者の特徴量に変換された
入力音声の特徴量を前記装置本体に送信する信号送信手
段とを有し、 前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの信号を受信する信号受信手段と、認識可能な単語
に対する標準音声特徴データを記憶している標準音声特
徴データ記憶手段と、前記特徴量変換手段により標準話
者の特徴量に変換された入力音声特徴量を入力し、前記
標準音声特徴データ記憶手段に記憶された標準音声特徴
データをもとに単語検出データを出力する単語検出手段
と、この単語検出手段からの単語検出データをもとに入
力音声を理解する音声理解制御手段と、この音声理解制
御手段からの指示を受けて、その指示に対応した動作を
行う動作手段とを有したことを特徴とする請求項1記載
の音声認識装置。 - 【請求項3】 前記ユーザ端末部において、前記変換規
則生成手段および変換規則記憶手段を、ユーザ端末部に
対して着脱自在なカートリッジ部に備えたことを特徴と
する請求項2記載の音声認識装置。 - 【請求項4】 前記ユーザ端末部は、前記変換規則生成
手段および変換規則記憶手段と、装置本体との間でのデ
ータ授受が可能な信号送受信手段とを有し、 前記装置本体の音声認識処理手段は、音声を入力する音
声入力手段と、この音声入力手段により入力された音声
を分析して入力音声の特徴量を出力する音声分析手段
と、この音声分析手段にて分析された入力音声の特徴量
を、前記ユーザ端末部側に備えられた変換規則を用いて
標準話者の特徴量に変換する特徴量変換手段と、認識可
能な単語に対する標準音声特徴データを記憶している標
準音声特徴データ記憶手段と、前記特徴量変換手段によ
り標準話者の特徴量に変換された入力音声特徴量を入力
し、前記標準音声特徴データ記憶手段に記憶された標準
音声特徴データをもとに単語検出データを出力する単語
検出手段と、この単語検出手段からの単語検出データを
もとに入力音声を理解する音声理解制御手段と、この音
声理解制御手段からの指示を受けて、その指示に対応し
た動作を行う動作手段と、外部からの信号を受信すると
ともに外部に信号を発信する信号送受信手段とを有した
ことを特徴とする請求項1記載の音声認識装置。 - 【請求項5】 入力された音声を分析して音声特徴デー
タを発生し、この音声特徴データと予め登録された認識
可能な単語の標準音声特徴データとを比較して単語検出
データを出力し、この単語検出データを受けて、入力音
声の意味を理解し、それに対応した処理を行う音声認識
装置において、 音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、 前記ユーザ端末部は、音声を入力する音声入力手段と、
この音声入力手段から入力された音声信号を装置本体側
に送信する信号送信手段とを備え、 前記装置本体の音声認識処理手段は、前記ユーザ端末部
からの音声信号を受信する信号受信手段と、この信号受
信手段で受信された音声信号を分析して入力音声の特徴
量を出力する音声分析手段と、或る特定のユーザの音声
と標準音声特徴データとを比較し、この比較結果をもと
に前記特定ユーザの音声の特徴量を標準話者の音声の特
徴量に変換するための変換規則を予め作成する変換規則
生成手段およびその変換規則を記憶する変換規則記憶手
段と、前記音声分析手段にて分析された入力音声の特徴
量を、前記予め作成された変換規則を用いて標準話者の
特徴量に変換するための特徴量変換手段と、認識可能な
単語に対する標準音声特徴データを記憶している標準音
声特徴データ記憶手段と、前記特徴量変換手段により標
準話者の特徴量に変換された入力音声特徴量を入力し、
前記標準音声特徴データ記憶手段に記憶された標準音声
特徴データをもとに単語検出データを出力する単語検出
手段と、この単語検出手段からの単語検出データをもと
に入力音声を理解する音声理解制御手段と、この音声理
解制御手段からの指示を受けて、その指示に対応した動
作を行う動作手段とを有したことを特徴とする音声認識
装置。 - 【請求項6】 前記変換規則生成手段および変換規則記
憶手段を、装置本体に対して着脱自在なカートリッジ部
に備えたことを特徴とする請求項5記載の音声認識装
置。 - 【請求項7】 入力された音声を分析して音声特徴デー
タを発生し、この音声特徴データと予め登録された認識
可能な単語の標準音声特徴データとを比較して単語検出
データを出力し、この単語検出データを受けて、入力音
声の意味を理解し、それに対応した処理を行う音声認識
処理方法において、 音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有する装置本体およびこの装置本
体との間のデータ送受信を無線にて行うユーザ端末部を
備え、 前記ユーザ端末部は、或る特定のユーザの音声と標準音
声特徴データとを比較し、この比較結果をもとに前記特
定ユーザの音声の特徴量を標準話者の音声の特徴量に変
換するための変換規則を生成し、この生成した変換規則
を記憶する機能を、少なくとも有することを特徴とする
音声認識処理方法。 - 【請求項8】 前記ユーザ端末部は、或る特定のユーザ
の音声と標準音声特徴データとを比較し、この比較結果
をもとに前記特定ユーザの音声の特徴量を標準話者の音
声の特徴量に変換するための変換規則を生成し、この生
成した変換規則を記憶する機能を有し、さらに、音声を
入力し、入力された音声を分析して入力音声の特徴量を
出力するとともに、前記変換規則を参照し、前記音声分
析された入力音声の特徴量を標準話者の特徴量に変換し
て出力し、この標準話者の特徴量に変換された入力音声
の特徴量を前記装置本体に送信する機能を有し、 前記装置本体の音声認識処理手段は、前記ユーザ端末部
側から送られてきた前記標準話者の特徴量に変換された
入力音声特徴量を入力し、認識可能な単語に対する標準
音声特徴データとの比較により単語検出データを出力
し、この単語検出データをもとに入力音声を理解して、
それに対応した動作を行うことを特徴とする請求項7記
載の音声認識処理方法。 - 【請求項9】 前記ユーザ端末部において、前記変換規
則を生成し、この生成した変換規則を記憶する機能を、
ユーザ端末部に対して着脱自在なカートリッジ部に備え
たことを特徴とする請求項8記載の音声認識処理方法。 - 【請求項10】 前記ユーザ端末部は、或る特定のユー
ザの音声を入力し、この特定ユーザの音声特徴データと
標準音声特徴データとを比較し、この比較結果をもとに
前記特定ユーザの音声の特徴量を標準話者の音声の特徴
量に変換するための変換規則を生成し、この生成した変
換規則を記憶する機能を有するとともに、前記記憶され
た変換規則を装置本体からの要求に応じて装置本体側に
送信する機能を有し、 前記装置本体の音声認識処理手段は、音声を入力し、入
力された音声を分析して入力音声の特徴量を出力し、前
記ユーザ端末部側に備えられた変換規則を参照すること
で、前記入力音声の特徴量を標準話者の特徴量に変換
し、この標準話者の特徴量に変換された入力音声特徴量
を、認識可能な単語に対する標準音声特徴データと比較
して単語検出データを出力し、単語検出データをもとに
入力音声を理解して、それに対応した動作を行うことを
特徴とする請求項7記載の音声認識処理方法。 - 【請求項11】 入力された音声を分析して音声特徴デ
ータを発生し、この音声特徴データと予め登録された認
識可能な単語の標準音声特徴データとを比較して単語検
出データを出力し、この単語検出データを受けて、入力
音声の意味を理解し、それに対応した処理を行う音声認
識処理方法において、 音声を認識しその認識結果に応じた動作を行う音声認識
処理手段を少なくとも有した装置本体と、この装置本体
との間のデータ送受信を無線にて行うユーザ端末部とを
備え、 前記ユーザ端末部は、音声を入力して、その入力された
音声信号を装置本体側に送信する機能を有し、 前記装置本体の音声認識処理手段は、或る特定のユーザ
の音声と標準音声特徴データとを比較し、この比較結果
をもとに前記特定ユーザの音声の特徴量を標準話者の音
声の特徴量に変換するための変換規則を生成し、この生
成した変換規則を記憶する機能を有し、さらに、前記個
人所有の端末部からの音声信号を受信し、受信された音
声信号を分析して入力音声の特徴量を出力し、前記変換
規則を参照することで、前記入力音声の特徴量を標準話
者の特徴量に変換し、この標準話者の特徴量に変換され
た入力音声特徴量を、認識可能な単語に対する標準音声
特徴データと比較して単語検出データを出力し、単語検
出データをもとに入力音声を理解して、それに対応した
動作を行うことを特徴とする請求項11記載の音声認識
処理方法。 - 【請求項12】 前記変換規則を生成し、この生成した
変換規則を記憶する機能を、装置本体に対して着脱自在
なカートリッジ部に備えたことを特徴とする請求項11
記載の音声認識処理方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21225095A JP3697748B2 (ja) | 1995-08-21 | 1995-08-21 | 端末、音声認識装置 |
| US08/699,874 US6070139A (en) | 1995-08-21 | 1996-08-20 | Bifurcated speaker specific and non-speaker specific speech recognition method and apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21225095A JP3697748B2 (ja) | 1995-08-21 | 1995-08-21 | 端末、音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0962289A true JPH0962289A (ja) | 1997-03-07 |
| JP3697748B2 JP3697748B2 (ja) | 2005-09-21 |
Family
ID=16619465
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP21225095A Expired - Lifetime JP3697748B2 (ja) | 1995-08-21 | 1995-08-21 | 端末、音声認識装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US6070139A (ja) |
| JP (1) | JP3697748B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
| JP2009151318A (ja) * | 2001-01-31 | 2009-07-09 | Qualcomm Inc | 音響特性ベクトル変形を使用する分散型音声認識システム |
Families Citing this family (176)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| IL119948A (en) | 1996-12-31 | 2004-09-27 | News Datacom Ltd | Voice activated communication system and program guide |
| US20010032278A1 (en) * | 1997-10-07 | 2001-10-18 | Brown Stephen J. | Remote generation and distribution of command programs for programmable devices |
| JP3075250B2 (ja) * | 1998-03-04 | 2000-08-14 | 日本電気株式会社 | 話者認識方法及び装置 |
| US6260014B1 (en) * | 1998-09-14 | 2001-07-10 | International Business Machines Corporation | Specific task composite acoustic models |
| DE19933524A1 (de) * | 1999-07-16 | 2001-01-18 | Nokia Mobile Phones Ltd | Verfahren zur Eingabe von Daten in ein System |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US6629077B1 (en) * | 2000-11-22 | 2003-09-30 | Universal Electronics Inc. | Universal remote control adapted to receive voice input |
| US7904194B2 (en) * | 2001-02-09 | 2011-03-08 | Roy-G-Biv Corporation | Event management systems and methods for motion control systems |
| ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
| US7174300B2 (en) * | 2001-12-11 | 2007-02-06 | Lockheed Martin Corporation | Dialog processing method and apparatus for uninhabited air vehicles |
| US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
| US7286993B2 (en) * | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
| US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
| WO2004035449A1 (en) * | 2002-10-15 | 2004-04-29 | Otis Elevator Company | Elevator wireless communication infrastructure using piconet modules |
| US20070015400A1 (en) * | 2005-07-18 | 2007-01-18 | Elliot Rudell | Modular edutainment system |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
| US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
| US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
| US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
| US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
| US8406390B1 (en) | 2010-08-23 | 2013-03-26 | Sprint Communications Company L.P. | Pausing a live teleconference call |
| US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
| US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
| US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
| US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
| US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
| US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| WO2014003748A1 (en) * | 2012-06-28 | 2014-01-03 | Nuance Communications, Inc. | Meta-data inputs to front end processing for automatic speech recognition |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
| KR20140060040A (ko) | 2012-11-09 | 2014-05-19 | 삼성전자주식회사 | 디스플레이장치, 음성취득장치 및 그 음성인식방법 |
| EP2954514B1 (en) | 2013-02-07 | 2021-03-31 | Apple Inc. | Voice trigger for a digital assistant |
| US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
| US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
| CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| WO2014144395A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | User training by intelligent digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| HK1220268A1 (zh) | 2013-06-09 | 2017-04-28 | 苹果公司 | 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面 |
| JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
| KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9460735B2 (en) | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US20150336786A1 (en) * | 2014-05-20 | 2015-11-26 | General Electric Company | Refrigerators for providing dispensing in response to voice commands |
| US9484022B2 (en) * | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| KR102805829B1 (ko) * | 2016-04-15 | 2025-05-12 | 삼성전자주식회사 | 인터페이스 뉴럴 네트워크 |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| JP2019072787A (ja) * | 2017-10-13 | 2019-05-16 | シャープ株式会社 | 制御装置、ロボット、制御方法、および制御プログラム |
| CN107909995B (zh) * | 2017-11-16 | 2021-08-17 | 北京小米移动软件有限公司 | 语音交互方法和装置 |
Family Cites Families (54)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US2338551A (en) * | 1942-07-09 | 1944-01-04 | Rca Corp | Automatic volume control |
| US3610831A (en) * | 1969-05-26 | 1971-10-05 | Listening Inc | Speech recognition apparatus |
| US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
| US4305131A (en) * | 1979-02-05 | 1981-12-08 | Best Robert M | Dialog between TV movies and human viewers |
| US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
| US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
| US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
| DE3779351D1 (ja) * | 1986-03-28 | 1992-07-02 | American Telephone And Telegraph Co., New York, N.Y., Us | |
| JPS62253093A (ja) * | 1986-04-25 | 1987-11-04 | 株式会社 バンダイ | 乗用玩具 |
| US5182549A (en) * | 1987-03-05 | 1993-01-26 | Canon Kabushiki Kaisha | Liquid crystal apparatus |
| WO1988010474A1 (en) * | 1987-06-18 | 1988-12-29 | University Of West Virginia | State analog neural network and method of implementing same |
| GB8720387D0 (en) * | 1987-08-28 | 1987-10-07 | British Telecomm | Matching vectors |
| JPH0673080B2 (ja) * | 1987-11-25 | 1994-09-14 | 日本電気株式会社 | 連続音声認識方式 |
| US5285522A (en) * | 1987-12-03 | 1994-02-08 | The Trustees Of The University Of Pennsylvania | Neural networks for acoustical pattern recognition |
| US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
| US5014219A (en) * | 1988-05-06 | 1991-05-07 | White James A | Mask controled neural networks |
| US5054082A (en) * | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
| JP2764277B2 (ja) * | 1988-09-07 | 1998-06-11 | 株式会社日立製作所 | 音声認識装置 |
| JP2897220B2 (ja) * | 1988-09-17 | 1999-05-31 | ソニー株式会社 | 信号処理装置 |
| US5093899A (en) * | 1988-09-17 | 1992-03-03 | Sony Corporation | Neural network with normalized learning constant for high-speed stable learning |
| DE68922567T2 (de) * | 1988-10-06 | 1995-08-17 | Toshiba Kawasaki Kk | Neuronales Netzwerksystem. |
| JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
| US5255342A (en) * | 1988-12-20 | 1993-10-19 | Kabushiki Kaisha Toshiba | Pattern recognition system and method using neural network |
| JPH02165388A (ja) * | 1988-12-20 | 1990-06-26 | Toshiba Corp | パターン認識方式 |
| US5086385A (en) * | 1989-01-31 | 1992-02-04 | Custom Command Systems | Expandable home automation system |
| DE69031842T2 (de) * | 1989-02-20 | 1998-04-16 | Fujitsu Ltd | Lernsystem und Lernverfahren für eine Datenverarbeitungsvorrichtung |
| US5119469A (en) * | 1989-05-17 | 1992-06-02 | United States Of America | Neural network with weight adjustment based on prior history of input signals |
| US5150323A (en) * | 1989-08-11 | 1992-09-22 | Hughes Aircraft Company | Adaptive network for in-band signal separation |
| JPH0375860A (ja) * | 1989-08-18 | 1991-03-29 | Hitachi Ltd | パーソナライズド端末 |
| US5046019A (en) * | 1989-10-13 | 1991-09-03 | Chip Supply, Inc. | Fuzzy data comparator with neural network postprocessor |
| JP2964507B2 (ja) * | 1989-12-12 | 1999-10-18 | 松下電器産業株式会社 | Hmm装置 |
| JP2580826B2 (ja) * | 1990-03-14 | 1997-02-12 | 日本電気株式会社 | フィードバック神経細胞モデル |
| US5182794A (en) * | 1990-07-12 | 1993-01-26 | Allen-Bradley Company, Inc. | Recurrent neural networks teaching system |
| JP2601003B2 (ja) * | 1990-09-25 | 1997-04-16 | 日産自動車株式会社 | 車両の走行条件認識装置 |
| DE4100500A1 (de) * | 1991-01-10 | 1992-07-16 | Bodenseewerk Geraetetech | Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren |
| JP3091504B2 (ja) * | 1991-03-26 | 2000-09-25 | 三洋電機株式会社 | 神経回路網モデルによる音声認識方法 |
| JPH04295894A (ja) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | 神経回路網モデルによる音声認識方法 |
| JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
| US5263097A (en) * | 1991-07-24 | 1993-11-16 | Texas Instruments Incorporated | Parameter normalized features for classification procedures, systems and methods |
| US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
| US5377305A (en) * | 1991-10-01 | 1994-12-27 | Lockheed Sanders, Inc. | Outer product neural network |
| EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
| JPH064097A (ja) * | 1992-06-18 | 1994-01-14 | Seiko Epson Corp | 話者認識方法 |
| JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
| US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
| JP3168779B2 (ja) * | 1992-08-06 | 2001-05-21 | セイコーエプソン株式会社 | 音声認識装置及び方法 |
| JPH06119476A (ja) * | 1992-10-09 | 1994-04-28 | Seiko Epson Corp | 時系列データ処理装置 |
| US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
| US5668929A (en) * | 1993-01-21 | 1997-09-16 | Hirsch Electronics Corporation | Speech activated security systems and methods |
| US5562453A (en) * | 1993-02-02 | 1996-10-08 | Wen; Sheree H.-R. | Adaptive biofeedback speech tutor toy |
| US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
| US5577164A (en) * | 1994-01-28 | 1996-11-19 | Canon Kabushiki Kaisha | Incorrect voice command recognition prevention and recovery processing method and apparatus |
| US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
| US5704009A (en) * | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
-
1995
- 1995-08-21 JP JP21225095A patent/JP3697748B2/ja not_active Expired - Lifetime
-
1996
- 1996-08-20 US US08/699,874 patent/US6070139A/en not_active Expired - Lifetime
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151318A (ja) * | 2001-01-31 | 2009-07-09 | Qualcomm Inc | 音響特性ベクトル変形を使用する分散型音声認識システム |
| KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3697748B2 (ja) | 2005-09-21 |
| US6070139A (en) | 2000-05-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0962289A (ja) | 音声認識装置および音声認識処理方法 | |
| US5946658A (en) | Cartridge-based, interactive speech recognition method with a response creation capability | |
| US5794204A (en) | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability | |
| US9251142B2 (en) | Mobile speech-to-speech interpretation system | |
| US5983186A (en) | Voice-activated interactive speech recognition device and method | |
| JP4867804B2 (ja) | 音声認識装置及び会議システム | |
| JP4393494B2 (ja) | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム | |
| JPH096389A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
| JPH11119791A (ja) | 音声感情認識システムおよび方法 | |
| KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
| JP2004163541A (ja) | 音声応答装置 | |
| US11564194B1 (en) | Device communication | |
| WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
| JP2000347684A (ja) | 音声認識システム | |
| KR20190032557A (ko) | 음성 기반 통신 | |
| JP2000322088A (ja) | 音声認識マイクおよび音声認識システムならびに音声認識方法 | |
| JP2000020089A (ja) | 音声認識方法及びその装置、並びに音声制御システム | |
| JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
| KR100369732B1 (ko) | 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법 | |
| JP2007286376A (ja) | 音声案内システム | |
| JP3285047B2 (ja) | 不特定話者用音声認識装置 | |
| JP2004139049A (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
| JP3468389B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
| JPH08110790A (ja) | 音声認識装置 | |
| US20230386491A1 (en) | Artificial intelligence device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040728 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040824 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041008 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050215 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050413 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050614 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050627 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080715 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100715 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110715 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110715 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120715 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120715 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130715 Year of fee payment: 8 |
|
| EXPY | Cancellation because of completion of term |