JPH09134193A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH09134193A JPH09134193A JP7289865A JP28986595A JPH09134193A JP H09134193 A JPH09134193 A JP H09134193A JP 7289865 A JP7289865 A JP 7289865A JP 28986595 A JP28986595 A JP 28986595A JP H09134193 A JPH09134193 A JP H09134193A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- recognition
- unit
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Navigation (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
(57)【要約】
【課題】 状況に応じて音声認識アルゴリズムを使い分
けて音声認識の認識率を向上させ、携帯端末或はカーナ
ビゲーション装置その他の使用環境の変化、或はユーザ
要求の多様性に柔軟に対応するコストパフォーマンスの
高い音声認識を行う音声認識装置を提供する。 【解決手段】 音声認識部に少なくとも1個のストアー
ドプログラム構成の中央演算ユニットが有り、音声認識
装置が有する複数の音声認識プログラムの内から使用環
境に適合するプログラムをロードする音声認識装置。
けて音声認識の認識率を向上させ、携帯端末或はカーナ
ビゲーション装置その他の使用環境の変化、或はユーザ
要求の多様性に柔軟に対応するコストパフォーマンスの
高い音声認識を行う音声認識装置を提供する。 【解決手段】 音声認識部に少なくとも1個のストアー
ドプログラム構成の中央演算ユニットが有り、音声認識
装置が有する複数の音声認識プログラムの内から使用環
境に適合するプログラムをロードする音声認識装置。
Description
【0001】
【発明の属する技術分野】この発明は、音声認識装置に
関し、特に、音声を入力して文字その他の認識結果を出
力する音声認識装置に関する。
関し、特に、音声を入力して文字その他の認識結果を出
力する音声認識装置に関する。
【0002】
【従来の技術】人間の手で操作する代りに音声を入力し
て電気機器その他の機器を操作する音声認識装置につい
ては、従来より様々な研究開発がなされてる。音声認識
技術は人間が任意の場所から任意のタイミングで発声し
た任意長の音声を100%の確率で認識できることが理
想である。しかし、実際の使用条件下においては、騒音
が存在するし、任意の時刻で発声された音声を捕捉しよ
うとすると、音声入力処理において雑音をも含めて観測
される信号区間の中から音声の始端と終端とを何度も検
出し、かつ雑音のみを除外するための複雑なアルゴリズ
ムを常に実行しなければならず、全体の計算量が膨大に
なることは避けられない。このために、音声認識技術に
は複雑なアルゴリズムを効率的に実行する手法およびア
ルゴリズムが必要とされ、当該出願の発明者らの手によ
る特願平7−151698号その他の多くの提案がなさ
れている。この音声認識装置の先行例を図3を参照して
説明する。
て電気機器その他の機器を操作する音声認識装置につい
ては、従来より様々な研究開発がなされてる。音声認識
技術は人間が任意の場所から任意のタイミングで発声し
た任意長の音声を100%の確率で認識できることが理
想である。しかし、実際の使用条件下においては、騒音
が存在するし、任意の時刻で発声された音声を捕捉しよ
うとすると、音声入力処理において雑音をも含めて観測
される信号区間の中から音声の始端と終端とを何度も検
出し、かつ雑音のみを除外するための複雑なアルゴリズ
ムを常に実行しなければならず、全体の計算量が膨大に
なることは避けられない。このために、音声認識技術に
は複雑なアルゴリズムを効率的に実行する手法およびア
ルゴリズムが必要とされ、当該出願の発明者らの手によ
る特願平7−151698号その他の多くの提案がなさ
れている。この音声認識装置の先行例を図3を参照して
説明する。
【0003】図3において、音声認識装置は、マイクロ
ホンその他の音声を音声信号に変換する音響電気変換器
より成る音声入力部1P、音声波形データをディジタル
の数値に変換する波形変換部2P、音声波形から音声認
識のための特徴を抽出する音声特徴抽出部3P、音声認
識をするために音声区間検出時の始端検出開始のトリガ
ーを与える起動スイッチ部4P、音声特徴抽出部から得
られる音声特徴量より音声の始端および終端をそれぞれ
1箇所だけ決定する音声区間検出部5P、音声区間検出
部により決定された音声始端から終端に到る音声特徴量
を取り込んで未知入力パターンとする入力パターン格納
部6P、ラベル名を付与された認識のための複数の音声
パターンを格納した標準パターン記憶部8P、入力パタ
ーン格納部に格納される未知の入力音声パターンおよび
標準パターン記憶部に格納される各標準パターンとの間
の類似度の計算を行なってその結果である入力音声パタ
ーンとの間の距離値例えばマハラノビス距離の数式で定
義される特徴量上の距離値を出力するパターンマッチン
グ部10P、各標準パターンについてそれぞれ出力され
た未知入力音声パターンとの間の距離値の内の最も小さ
い距離値を有する標準パターンを決定する距離比較部1
1P、距離比較部において最も小さい距離値を有するも
のと決定された標準パターンのラベル名を上位ホスト或
はシステムバスに送出する結果出力部12Pから構成さ
れる。
ホンその他の音声を音声信号に変換する音響電気変換器
より成る音声入力部1P、音声波形データをディジタル
の数値に変換する波形変換部2P、音声波形から音声認
識のための特徴を抽出する音声特徴抽出部3P、音声認
識をするために音声区間検出時の始端検出開始のトリガ
ーを与える起動スイッチ部4P、音声特徴抽出部から得
られる音声特徴量より音声の始端および終端をそれぞれ
1箇所だけ決定する音声区間検出部5P、音声区間検出
部により決定された音声始端から終端に到る音声特徴量
を取り込んで未知入力パターンとする入力パターン格納
部6P、ラベル名を付与された認識のための複数の音声
パターンを格納した標準パターン記憶部8P、入力パタ
ーン格納部に格納される未知の入力音声パターンおよび
標準パターン記憶部に格納される各標準パターンとの間
の類似度の計算を行なってその結果である入力音声パタ
ーンとの間の距離値例えばマハラノビス距離の数式で定
義される特徴量上の距離値を出力するパターンマッチン
グ部10P、各標準パターンについてそれぞれ出力され
た未知入力音声パターンとの間の距離値の内の最も小さ
い距離値を有する標準パターンを決定する距離比較部1
1P、距離比較部において最も小さい距離値を有するも
のと決定された標準パターンのラベル名を上位ホスト或
はシステムバスに送出する結果出力部12Pから構成さ
れる。
【0004】この様な音声認識装置は、これに必要にし
て充分な計算能力を付与せしめる必要があるところか
ら、高性能なマイクロプロセッサ、或はディジタルシグ
ナルプロセッサの如きCPUを装置の中心に具備せしめ
る(例えば、特開平7−140998号公報参照)。高
性能なCPUを他の用途に使用することは、用途に応じ
た応用プログラムの利用コストを引き下げて有利となる
ので、図2に示される様な音声認識装置の形態が採用さ
れる。ここで、メッセージ処理部11が、音声認識部1
2の一部を構成するCPU或は独立別配置のCPUより
成るものとする。音声認識装置1の音声認識部12は、
入力された音声信号を認識し、その結果が意味するとこ
ろのメッセージをメッセージ処理部11により解釈し、
音声認識装置の直近に具備される応用プログラム群2か
らプログラムをメッセージに従って音声認識装置に転送
する。この時、何れの応用プログラムを音声認識装置が
利用しているか、利用することができるかを管理する応
用プログラム管理テーブル13を音声認識装置内に具備
することは極めて有効なことである。メッセージ処理部
11を構成する高性能のCPUを活用してマルチタスク
として複数の応用プログラム2を同時に実行することも
行われる。この様な高いパフォーマンスで音声認識装置
の運用をすることができるに到る一方において、音声認
識部12のパフォーマンスには未だに以下に述べる改善
の余地がある。
て充分な計算能力を付与せしめる必要があるところか
ら、高性能なマイクロプロセッサ、或はディジタルシグ
ナルプロセッサの如きCPUを装置の中心に具備せしめ
る(例えば、特開平7−140998号公報参照)。高
性能なCPUを他の用途に使用することは、用途に応じ
た応用プログラムの利用コストを引き下げて有利となる
ので、図2に示される様な音声認識装置の形態が採用さ
れる。ここで、メッセージ処理部11が、音声認識部1
2の一部を構成するCPU或は独立別配置のCPUより
成るものとする。音声認識装置1の音声認識部12は、
入力された音声信号を認識し、その結果が意味するとこ
ろのメッセージをメッセージ処理部11により解釈し、
音声認識装置の直近に具備される応用プログラム群2か
らプログラムをメッセージに従って音声認識装置に転送
する。この時、何れの応用プログラムを音声認識装置が
利用しているか、利用することができるかを管理する応
用プログラム管理テーブル13を音声認識装置内に具備
することは極めて有効なことである。メッセージ処理部
11を構成する高性能のCPUを活用してマルチタスク
として複数の応用プログラム2を同時に実行することも
行われる。この様な高いパフォーマンスで音声認識装置
の運用をすることができるに到る一方において、音声認
識部12のパフォーマンスには未だに以下に述べる改善
の余地がある。
【0005】
【発明が解決しようとする課題】以上の音声認識装置に
要請される「何時でも、誰の声でも、如何なる内容でも
認識することができる」ことを満足するには、超大型の
汎用コンピュータによる演算を必要とする。語彙数を数
万以下に限定した場合、ワークステーションレベルの計
算機能力を有するコンピュータで事足りることとなる
が、ワークステーションの大きさと重量から明らかな如
く、これは到底持ち運べるものではない。そして、コス
ト的にも現在において数十万円ないし数百万円のコスト
を要する。1個の優れた音声認識装置により全ての音声
認識に対応しようとするとこの様なことになる。また、
雑音環境下における音声認識に対して、適応的雑音除去
技術を活用することなく簡易な低コストの音声認識装置
を構成すると、対象とする語彙数が数語以内と少なくな
る実用的な制約が生ずる。
要請される「何時でも、誰の声でも、如何なる内容でも
認識することができる」ことを満足するには、超大型の
汎用コンピュータによる演算を必要とする。語彙数を数
万以下に限定した場合、ワークステーションレベルの計
算機能力を有するコンピュータで事足りることとなる
が、ワークステーションの大きさと重量から明らかな如
く、これは到底持ち運べるものではない。そして、コス
ト的にも現在において数十万円ないし数百万円のコスト
を要する。1個の優れた音声認識装置により全ての音声
認識に対応しようとするとこの様なことになる。また、
雑音環境下における音声認識に対して、適応的雑音除去
技術を活用することなく簡易な低コストの音声認識装置
を構成すると、対象とする語彙数が数語以内と少なくな
る実用的な制約が生ずる。
【0006】音声認識装置のこの様な問題はこの装置が
置かれる環境に音声認識プログラムが充分に対応するこ
とができないことに起因して生起する。この点について
具体的に説明する。例えば、良く知られる隠れマルコフ
モデルHMMに立脚した音声認識プログラムは、認識語
彙数が千〜数万を対象とすることができる。例えば「え
〜札幌」における”え〜”の如き余剰語が認識対象語彙
の前後に付随しても高い認識率を示す長所を有する。一
方、認識のための辞書モデルの作成に手間と時間を必要
とするという様な改善されるべき点もある。そして、例
えば、良く知られたダイナミックプログラミング手法を
不特定話者認識に拡張したSPLIT法(管村、古井:
擬音韻標準パターンによる大語彙単語音声認識”、信学
論、J65−D、8、pp.1041−1048(昭5
7))は、HMMより少ない計算量と記憶容量で音声認
識を行うことができる。その反面、標準パターンの作成
に特徴が有るため、HMMと比較して大語彙への対応が
困難である。また、簡易な音声認識技術としては、一般
的には10次以上である次数を8次程度にまで削減した
上で自己相関係数を求めて標準パターンと比較するSA
DP(Staggered Array DP)法のプ
ログラムが知られている。この方法は、計算量と記憶量
が一般的な音声認識の1/10程度であり、素早い応答
をすることができる反面、認識語彙数は精々20語以内
に限定される。更に、雑音環境の下において有効な適応
的雑音除去を組み込んだ音声認識技術は耐雑音性が優れ
る反面、計算量および記憶量が数割増大するという難点
を有する。
置かれる環境に音声認識プログラムが充分に対応するこ
とができないことに起因して生起する。この点について
具体的に説明する。例えば、良く知られる隠れマルコフ
モデルHMMに立脚した音声認識プログラムは、認識語
彙数が千〜数万を対象とすることができる。例えば「え
〜札幌」における”え〜”の如き余剰語が認識対象語彙
の前後に付随しても高い認識率を示す長所を有する。一
方、認識のための辞書モデルの作成に手間と時間を必要
とするという様な改善されるべき点もある。そして、例
えば、良く知られたダイナミックプログラミング手法を
不特定話者認識に拡張したSPLIT法(管村、古井:
擬音韻標準パターンによる大語彙単語音声認識”、信学
論、J65−D、8、pp.1041−1048(昭5
7))は、HMMより少ない計算量と記憶容量で音声認
識を行うことができる。その反面、標準パターンの作成
に特徴が有るため、HMMと比較して大語彙への対応が
困難である。また、簡易な音声認識技術としては、一般
的には10次以上である次数を8次程度にまで削減した
上で自己相関係数を求めて標準パターンと比較するSA
DP(Staggered Array DP)法のプ
ログラムが知られている。この方法は、計算量と記憶量
が一般的な音声認識の1/10程度であり、素早い応答
をすることができる反面、認識語彙数は精々20語以内
に限定される。更に、雑音環境の下において有効な適応
的雑音除去を組み込んだ音声認識技術は耐雑音性が優れ
る反面、計算量および記憶量が数割増大するという難点
を有する。
【0007】以上の通り、音声認識用のプログラムとし
て全ての状況に対応するプログラムはないと言ってもよ
く、認識語彙数、耐雑音性、計算機能力の小型経済性そ
の他の要請の内から重視される要請を選定し、それに適
合するうアルゴリズム或はプログラムを音声認識装置に
搭載する様にしているのが現状である。この発明は、上
述した問題を解消した音声認識装置を提供するものであ
る。
て全ての状況に対応するプログラムはないと言ってもよ
く、認識語彙数、耐雑音性、計算機能力の小型経済性そ
の他の要請の内から重視される要請を選定し、それに適
合するうアルゴリズム或はプログラムを音声認識装置に
搭載する様にしているのが現状である。この発明は、上
述した問題を解消した音声認識装置を提供するものであ
る。
【0008】
【課題を解決するための手段】音声信号を入力する音声
入力部10を具備し、入力された音声信号より音声特徴
パターンを抽出し、その音声特徴パターン情報に基づい
て音声を認識する音声認識部12を具備し、認識対象の
語彙および/或は認識用の標準パターン、および/或は
適用対象の異なる認識対象の語彙群および/或は適用対
象の異なる認識用標準パターン群を格納する第1の記憶
部14を具備し、音声認識部12にロードされるべき複
数の音声認識プログラム121を格納する第2の記憶部
20を具備する音声認識装置を構成した。
入力部10を具備し、入力された音声信号より音声特徴
パターンを抽出し、その音声特徴パターン情報に基づい
て音声を認識する音声認識部12を具備し、認識対象の
語彙および/或は認識用の標準パターン、および/或は
適用対象の異なる認識対象の語彙群および/或は適用対
象の異なる認識用標準パターン群を格納する第1の記憶
部14を具備し、音声認識部12にロードされるべき複
数の音声認識プログラム121を格納する第2の記憶部
20を具備する音声認識装置を構成した。
【0009】そして、先の音声認識装置において、標準
パターンとして音声認識プログラム121に付属する認
識対象テーブル1211を具備する音声認識装置を構成
した。また、以上の音声認識装置において、外部入力信
号40を検知するセンサおよびインタフェース部41を
具備し、検知された外部入力信号により複数の音声認識
プログラムを切り替える構成を具備する音声認識装置を
構成した。
パターンとして音声認識プログラム121に付属する認
識対象テーブル1211を具備する音声認識装置を構成
した。また、以上の音声認識装置において、外部入力信
号40を検知するセンサおよびインタフェース部41を
具備し、検知された外部入力信号により複数の音声認識
プログラムを切り替える構成を具備する音声認識装置を
構成した。
【0010】
【発明の実施の形態】この発明は、ストアードプログラ
ム方式のコンピュータと同様に音声認識に使用される音
声認識プログラムを音声認識装置に複数搭載し、複数プ
ログラムをセンサからの入力信号の状況に応じてダイナ
ミックに使い分けるというストアードプログラム方式の
コンピュータには認められない構成で認識を実行する音
声認識装置を構成したものである。音声認識装置に課せ
られる「何時でも、誰の声でも、どんな内容でも認識す
ることができる」という要請を満足する手立てとして、
この発明は状況に応じた適切な認識プログラムをプログ
ラム記憶部から音声認識部にロード即ち読み込んで対応
することによりこの要請に対処するものである。
ム方式のコンピュータと同様に音声認識に使用される音
声認識プログラムを音声認識装置に複数搭載し、複数プ
ログラムをセンサからの入力信号の状況に応じてダイナ
ミックに使い分けるというストアードプログラム方式の
コンピュータには認められない構成で認識を実行する音
声認識装置を構成したものである。音声認識装置に課せ
られる「何時でも、誰の声でも、どんな内容でも認識す
ることができる」という要請を満足する手立てとして、
この発明は状況に応じた適切な認識プログラムをプログ
ラム記憶部から音声認識部にロード即ち読み込んで対応
することによりこの要請に対処するものである。
【0011】
【実施例】先ず、この発明の実施例の概要を図1を参照
して説明する。図1において、点線の矢印1によって分
割された左方の部分は音声認識装置を示す。この音声認
識装置1の音声入力部10は、音声を受信してこれを音
声信号に変換するところであり、例えば、オーディオマ
イクロホン、音声波形データを受信するディジタルの信
号入力端子等により構成される。なお、音声入力部10
に入力される音響は機械音、コンピュータの合成音、或
は動物の鳴き声その他の非音声であって差し支えない
が、説明の都合上、これらを音声と表現して一括説明す
る。
して説明する。図1において、点線の矢印1によって分
割された左方の部分は音声認識装置を示す。この音声認
識装置1の音声入力部10は、音声を受信してこれを音
声信号に変換するところであり、例えば、オーディオマ
イクロホン、音声波形データを受信するディジタルの信
号入力端子等により構成される。なお、音声入力部10
に入力される音響は機械音、コンピュータの合成音、或
は動物の鳴き声その他の非音声であって差し支えない
が、説明の都合上、これらを音声と表現して一括説明す
る。
【0012】音声認識部12は音声入力部10を介して
採録された入力音声信号を認識し、認識結果が意味する
メッセージを中央演算装置(CPU)111により解釈
する。音声認識部12は、音声認識のアルゴリズムを高
速に実行することができるDSPにより構成することが
一般的ではあるが、CPUと同様なマイクロプロセッサ
ーとすることもできる。そして、音声認識部12のCP
UとしてCPU111を使用する構成も採用することが
できる。この場合、音声認識装置1の本体の制御と音声
認識の演算処理制御とを同時に実施する必要上、CPU
111としてマルチタスクの機能を有するものを使用す
る。
採録された入力音声信号を認識し、認識結果が意味する
メッセージを中央演算装置(CPU)111により解釈
する。音声認識部12は、音声認識のアルゴリズムを高
速に実行することができるDSPにより構成することが
一般的ではあるが、CPUと同様なマイクロプロセッサ
ーとすることもできる。そして、音声認識部12のCP
UとしてCPU111を使用する構成も採用することが
できる。この場合、音声認識装置1の本体の制御と音声
認識の演算処理制御とを同時に実施する必要上、CPU
111としてマルチタスクの機能を有するものを使用す
る。
【0013】音声認識装置1およびCPU111は、音
声認識或は命令を効率的に実行する必要上、第1の記憶
部14を具備する。第1の記憶部14は、音声認識に必
要とされる認識辞書/標準パターン15、音声認識装置
1が何れの応用プログラムを利用しているか、利用する
ことができるかを管理する応用プログラム管理テーブル
13、および「音声認識装置1が何れの音声認識プログ
ラムを利用しているか或は利用することができるか」を
管理する音声認識プログラム管理テーブル16を格納し
ている。
声認識或は命令を効率的に実行する必要上、第1の記憶
部14を具備する。第1の記憶部14は、音声認識に必
要とされる認識辞書/標準パターン15、音声認識装置
1が何れの応用プログラムを利用しているか、利用する
ことができるかを管理する応用プログラム管理テーブル
13、および「音声認識装置1が何れの音声認識プログ
ラムを利用しているか或は利用することができるか」を
管理する音声認識プログラム管理テーブル16を格納し
ている。
【0014】音声認識装置1は、更に、第2の記憶部2
0を具備している。この様に第1の記憶部14および第
2の記憶部20の2個の記憶部を併せ持つ理由は、記憶
部の利用効率を向上させたいがためである。一般に、D
RAM或はSRAMの如き半導体メモリは記憶部として
小型、高速応答する利点を有する。その反面、比較的に
高価であるという欠点を有する。これらの半導体メモリ
と対象的なメモリとして、CD−ROM或はディジタル
ビデオディスクDVDの如きメモリを挙げることができ
る。これらの利害得失は半導体メモリの利点が欠点に、
欠点が利点になっている。このために、コンピュータの
要素を有する装置は、記憶装置として半導体メモリを併
用することが一般的である。この発明も例えば第1の記
憶部14として半導体メモリより成るキャッシュメモリ
を具備し、第2の記憶部20として容量の大なるCD−
ROMより成る外部メモリを具備する構成を採用する。
これに際して、記憶容量の大なる第2の記憶部20に
は、音声認識プログラム121ないし121x、音声認
識プログラム121に付属する認識対象テーブル121
1が格納されている。第2の記憶部20には、更に、複
数の応用プログラム2も格納されており、音声により命
令されるコマンドを理解して、要求されたプログラムを
音声認識装置が即座に使用し得る状態とされる。
0を具備している。この様に第1の記憶部14および第
2の記憶部20の2個の記憶部を併せ持つ理由は、記憶
部の利用効率を向上させたいがためである。一般に、D
RAM或はSRAMの如き半導体メモリは記憶部として
小型、高速応答する利点を有する。その反面、比較的に
高価であるという欠点を有する。これらの半導体メモリ
と対象的なメモリとして、CD−ROM或はディジタル
ビデオディスクDVDの如きメモリを挙げることができ
る。これらの利害得失は半導体メモリの利点が欠点に、
欠点が利点になっている。このために、コンピュータの
要素を有する装置は、記憶装置として半導体メモリを併
用することが一般的である。この発明も例えば第1の記
憶部14として半導体メモリより成るキャッシュメモリ
を具備し、第2の記憶部20として容量の大なるCD−
ROMより成る外部メモリを具備する構成を採用する。
これに際して、記憶容量の大なる第2の記憶部20に
は、音声認識プログラム121ないし121x、音声認
識プログラム121に付属する認識対象テーブル121
1が格納されている。第2の記憶部20には、更に、複
数の応用プログラム2も格納されており、音声により命
令されるコマンドを理解して、要求されたプログラムを
音声認識装置が即座に使用し得る状態とされる。
【0015】音声認識装置1においては、第1の記憶部
14および第2の記憶部20の間において双方に分散し
て格納されるテーブル或はプログラムを入れ替え、或は
音声認識部12およびCPU111にロードすることは
常に行なわれるている。この操作はメモリマネージメン
トユニットMMU30を介して行う。MMU30は、図
1に示される様にCPU111とは別のモジュールとす
る構成の他に、CPU111或は音声認識部12の中核
をなすDSPの一部の機能を活用して構成することもで
きる。
14および第2の記憶部20の間において双方に分散し
て格納されるテーブル或はプログラムを入れ替え、或は
音声認識部12およびCPU111にロードすることは
常に行なわれるている。この操作はメモリマネージメン
トユニットMMU30を介して行う。MMU30は、図
1に示される様にCPU111とは別のモジュールとす
る構成の他に、CPU111或は音声認識部12の中核
をなすDSPの一部の機能を活用して構成することもで
きる。
【0016】音声認識装置1は、上述した記憶部、音声
認識部およびCPUの間において記憶内容、認識結果或
は応用プログラムの呼び出しを高速で実施するに、デー
タ情報の高速伝達経路であるバスを具備する。31は第
1の記憶部14に設けられる第1のバスであり、32は
第2の記憶部20に設けられる第2のバスである。必要
に応じて更なるバスを設けることができる。第1のバス
31と第2のバス32を接続することもできる。これら
のバスには、音声認識部12、CPU111、MMU3
0、第1の記憶部14或は第2の記憶部20がデータ或
は命令情報を流す経路が設けられ、それぞれが効率良
く、音声認識装置の動作に破綻を来さない様に利用する
ことができる状態を先のMMU30が作り出している。
認識部およびCPUの間において記憶内容、認識結果或
は応用プログラムの呼び出しを高速で実施するに、デー
タ情報の高速伝達経路であるバスを具備する。31は第
1の記憶部14に設けられる第1のバスであり、32は
第2の記憶部20に設けられる第2のバスである。必要
に応じて更なるバスを設けることができる。第1のバス
31と第2のバス32を接続することもできる。これら
のバスには、音声認識部12、CPU111、MMU3
0、第1の記憶部14或は第2の記憶部20がデータ或
は命令情報を流す経路が設けられ、それぞれが効率良
く、音声認識装置の動作に破綻を来さない様に利用する
ことができる状態を先のMMU30が作り出している。
【0017】以上の通り、音声認識装置の使用環境に応
じて音声認識プログラムを入れ替えることにより、音声
認識装置のパフォーマンスを総合的に向上させることが
できる。なお、この発明の音声認識装置の構成は、従来
の音声認識装置の構成に比べて若干、複雑な構成とな
る。また、複数の音声認識プログラムを開発する必要が
あるところから、これが付加的なコスト増の要因とな
る。しかし、この発明による多数の音声認識装置が世に
提供されることにより、開発コストがその数で按配され
るため、個々の音声認識装置の経費負担は微々たるもの
になる。複数のプログラムを搭載する記憶部の容量増に
関しては、低コストのCD-ROM 部に常時プログラム
を格納し、認識実行時に高速アクセスすることができる
半導体メモリを一時的に利用する形態(キャッシュメモ
リと称する)として使用することにより実効的なコスト
アップを抑制することができる。
じて音声認識プログラムを入れ替えることにより、音声
認識装置のパフォーマンスを総合的に向上させることが
できる。なお、この発明の音声認識装置の構成は、従来
の音声認識装置の構成に比べて若干、複雑な構成とな
る。また、複数の音声認識プログラムを開発する必要が
あるところから、これが付加的なコスト増の要因とな
る。しかし、この発明による多数の音声認識装置が世に
提供されることにより、開発コストがその数で按配され
るため、個々の音声認識装置の経費負担は微々たるもの
になる。複数のプログラムを搭載する記憶部の容量増に
関しては、低コストのCD-ROM 部に常時プログラム
を格納し、認識実行時に高速アクセスすることができる
半導体メモリを一時的に利用する形態(キャッシュメモ
リと称する)として使用することにより実効的なコスト
アップを抑制することができる。
【0018】この発明は、音声を含む一般的な音圧、振
動、加速度に起因する信号、GPS号その他の外部入力
信号を音声認識装置に取り込み、音声認識の効率を向上
させることができる。即ち、これらの一般的な外部入力
信号40は音声認識装置に具備されたセンサおよびイン
タフェース部41により検知され、インタフェース部を
介してバス32に供給される。センサおよびインタフェ
ース部41を介して得られる信号は、CPU111に伝
送され、予め設定された環境条件の判断に使用される。
以下、カーナビゲーション装置に適用したところを例と
して取り上げて説明する。
動、加速度に起因する信号、GPS号その他の外部入力
信号を音声認識装置に取り込み、音声認識の効率を向上
させることができる。即ち、これらの一般的な外部入力
信号40は音声認識装置に具備されたセンサおよびイン
タフェース部41により検知され、インタフェース部を
介してバス32に供給される。センサおよびインタフェ
ース部41を介して得られる信号は、CPU111に伝
送され、予め設定された環境条件の判断に使用される。
以下、カーナビゲーション装置に適用したところを例と
して取り上げて説明する。
【0019】公知の如く、カーナビゲーション装置は最
初に目的地の設定をする。日本全国の地名は町村のレベ
ルまで対象とすると、おおよそ20万程度の数の内の一
地名を認識する必要がある。出発前の設定であるか否か
は、エンジンキーが差し込まれた後の最初の命令か否か
の判断に加えて、カーナビゲーション装置が具備するG
PSセンサーからの位置情報信号の時間変化を検出する
ことにより決定することができる。なお、GPS信号に
よる位置情報の変化がなければ車は静止していることを
意味する。車の動きは、また、加速度を検出する加速度
センサの信号から判断することもできる。カーナビゲー
ション装置が最初の目的地の設定時に、その動作する環
境条件として問題となるのは、せいぜい車のエンジン音
であり、車の騒音の大半を占めるロードノイズ或は風切
り音は問題とはならない。この様な環境においては耐雑
音性よりも認識率の高い、或は多数の語彙を認識するこ
とができるプログラムを音声認識装置にロードして動作
させることが得策である。
初に目的地の設定をする。日本全国の地名は町村のレベ
ルまで対象とすると、おおよそ20万程度の数の内の一
地名を認識する必要がある。出発前の設定であるか否か
は、エンジンキーが差し込まれた後の最初の命令か否か
の判断に加えて、カーナビゲーション装置が具備するG
PSセンサーからの位置情報信号の時間変化を検出する
ことにより決定することができる。なお、GPS信号に
よる位置情報の変化がなければ車は静止していることを
意味する。車の動きは、また、加速度を検出する加速度
センサの信号から判断することもできる。カーナビゲー
ション装置が最初の目的地の設定時に、その動作する環
境条件として問題となるのは、せいぜい車のエンジン音
であり、車の騒音の大半を占めるロードノイズ或は風切
り音は問題とはならない。この様な環境においては耐雑
音性よりも認識率の高い、或は多数の語彙を認識するこ
とができるプログラムを音声認識装置にロードして動作
させることが得策である。
【0020】次に、走行中を想定するに、走行中である
か否かは上述した加速度センサから得られる加速度信
号、車両が発生するタイヤの回転数をパルス信号化した
車速信号を検出することにより判定することができる。
この様な状況下においては、地名認識の様な膨大な認識
対象から一つの語彙を選定する困難な操作/コマンドで
はなくして、「今、何処?」「次は?」「地図拡大」の
如き限定されたコマンドを認識することができるもので
あれば充分であり、一度に認識対象とすべき語彙数は高
々数10以下の語彙数に限定される。走行中においてロ
ードノイズ或は風切り音が著しい環境下においては、耐
雑音性を重視した少数語彙対象の認識プログラムを音声
認識装置にロードして動作させることが得策である。
か否かは上述した加速度センサから得られる加速度信
号、車両が発生するタイヤの回転数をパルス信号化した
車速信号を検出することにより判定することができる。
この様な状況下においては、地名認識の様な膨大な認識
対象から一つの語彙を選定する困難な操作/コマンドで
はなくして、「今、何処?」「次は?」「地図拡大」の
如き限定されたコマンドを認識することができるもので
あれば充分であり、一度に認識対象とすべき語彙数は高
々数10以下の語彙数に限定される。走行中においてロ
ードノイズ或は風切り音が著しい環境下においては、耐
雑音性を重視した少数語彙対象の認識プログラムを音声
認識装置にロードして動作させることが得策である。
【0021】以上の図1の実施例における音声認識部1
2は、例えば、特願平7−151698号明細書に記載
される音声認識装置により構成することができる。これ
を図3を参照して説明する 図3において、(1)音声入力部1Pより得られる音声
データをディジタル数値に変換する波形変換部2Pを具
備する。この波形変換部は、例えば、アナログの音声波
形をディジタルデータに変換する処理、音声をADPC
Mの如き圧縮されたデータとして受信して線形のデータ
に変換する過程も含まれるものとする。
2は、例えば、特願平7−151698号明細書に記載
される音声認識装置により構成することができる。これ
を図3を参照して説明する 図3において、(1)音声入力部1Pより得られる音声
データをディジタル数値に変換する波形変換部2Pを具
備する。この波形変換部は、例えば、アナログの音声波
形をディジタルデータに変換する処理、音声をADPC
Mの如き圧縮されたデータとして受信して線形のデータ
に変換する過程も含まれるものとする。
【0022】そして、(2)波形変換部2Pにより得ら
れた音声波形データから音声区間を検出すると共に音声
認識に使用する特徴量を抽出する音声特徴抽出部3Pを
具備する。音声特徴抽出部の分析手法としては短時間対
数パワー分析、ケプストラム分析その他の音声認識技術
において良く知られている分析手法が採用される。音声
認識プログラムの詳細、アルゴリズムおよび他のモジュ
ールとの間のプロトコルは第1の記憶部14或は第2の
記憶部20に格納されており、必要に応じて音声認識部
12にロードして目的の機能を果たさせる。
れた音声波形データから音声区間を検出すると共に音声
認識に使用する特徴量を抽出する音声特徴抽出部3Pを
具備する。音声特徴抽出部の分析手法としては短時間対
数パワー分析、ケプストラム分析その他の音声認識技術
において良く知られている分析手法が採用される。音声
認識プログラムの詳細、アルゴリズムおよび他のモジュ
ールとの間のプロトコルは第1の記憶部14或は第2の
記憶部20に格納されており、必要に応じて音声認識部
12にロードして目的の機能を果たさせる。
【0023】また、(3)音声特徴抽出部3Pから得ら
れる音声特徴量より音声始端および音声終端を特定する
音声区間検出部5Pを具備する。音声区間を検出する手
法としては音声発声以前の雑音レベルを測定しておき、
この雑音レベルと比較して一定閾値以上の対数パワー値
を有する信号成分が一定時間内で推移する区間を音声区
間とする手法を使用することができる。雑音レベルの検
出は、音声認識装置の具備するマイクロフォンそのもの
を使用することができるが、マイクロフォンの周波数特
性或は指向性の制約から別に入力することがより実際的
である。一般に、入力部には単一指向性のマイクロフォ
ンが適しており、雑音検出部には全指向性のマイクロフ
ォンが適している。
れる音声特徴量より音声始端および音声終端を特定する
音声区間検出部5Pを具備する。音声区間を検出する手
法としては音声発声以前の雑音レベルを測定しておき、
この雑音レベルと比較して一定閾値以上の対数パワー値
を有する信号成分が一定時間内で推移する区間を音声区
間とする手法を使用することができる。雑音レベルの検
出は、音声認識装置の具備するマイクロフォンそのもの
を使用することができるが、マイクロフォンの周波数特
性或は指向性の制約から別に入力することがより実際的
である。一般に、入力部には単一指向性のマイクロフォ
ンが適しており、雑音検出部には全指向性のマイクロフ
ォンが適している。
【0024】更に、(4)音声認識処理するに際して音
声区間検出時の始端検出開始のトリガーを与える起動ス
イッチ部4Pを具備する。この起動スイッチとしてはボ
イススイッチを使用して使用者が発声した時を自動的に
捕捉する構成とすることができ、或は発声に際して使用
者がプレストークボタンを押圧する構成とすることもで
きる。
声区間検出時の始端検出開始のトリガーを与える起動ス
イッチ部4Pを具備する。この起動スイッチとしてはボ
イススイッチを使用して使用者が発声した時を自動的に
捕捉する構成とすることができ、或は発声に際して使用
者がプレストークボタンを押圧する構成とすることもで
きる。
【0025】ここで、(5)音声区間検出部により決定
された音声始端から音声終端に到る音声特徴量を取り込
んで未知入力パターンとして格納する入力パターン格納
部6Pを具備する。そして、(6)入力パターン格納部
に未知入力パターンが格納されるに到る手順と同様の手
順により分析、格納され、ラベル名を付与された複数の
音声標準パターンを格納した標準パターン記憶部8Pを
具備する。この標準パターン情報には音声区間検出部で
検出したものに相当する音声区間情報も含まれる。
された音声始端から音声終端に到る音声特徴量を取り込
んで未知入力パターンとして格納する入力パターン格納
部6Pを具備する。そして、(6)入力パターン格納部
に未知入力パターンが格納されるに到る手順と同様の手
順により分析、格納され、ラベル名を付与された複数の
音声標準パターンを格納した標準パターン記憶部8Pを
具備する。この標準パターン情報には音声区間検出部で
検出したものに相当する音声区間情報も含まれる。
【0026】また、(7)入力パターン格納部に格納さ
れた未知の入力音声パターンと標準パターン記憶部に記
憶される各標準パターンとの間の類似度の計算を行なう
パターンマッチング部10Pを具備する。類似度の計算
は、例えば、DPマッチングを使用して行う。更に、
(8)それぞれの類似度の演算結果を蓄積し、何れの標
準パターンと未知入力音声パターンとの間の差異が最も
小さくなる標準パターンを決定する距離比較部11Pを
具備する。
れた未知の入力音声パターンと標準パターン記憶部に記
憶される各標準パターンとの間の類似度の計算を行なう
パターンマッチング部10Pを具備する。類似度の計算
は、例えば、DPマッチングを使用して行う。更に、
(8)それぞれの類似度の演算結果を蓄積し、何れの標
準パターンと未知入力音声パターンとの間の差異が最も
小さくなる標準パターンを決定する距離比較部11Pを
具備する。
【0027】また、(9)距離比較部において最も類似
していると判定された標準パターンのラベル名を音声認
識部12の上位ホストであるCPU111に出力する結
果出力部12Pを具備する。以上の実施例において、標
準パターンとしては、予め分析され、整備されたものが
既に登録されているのが普通である。即ち、この登録さ
れた標準パターンが図1における認識辞書/標準パター
ン15であり、また、小規模な標準パターンとしては音
声認識プログラム121に付属する認識対象テーブル1
211の様な形で利用することもできる。この発明にお
いては、音声認識装置をその使用環境に適合させ、或は
音声認識装置をして使用者の要請に応じた効率的な応答
をさせるために、認識対象語彙、認識用の標準パター
ン、或はこれらの双方、適用対象の異なる認識対象語彙
群、適用対象の異なる認識用標準パターン群、或はこれ
らの双方、を必要に応じて記憶部に格納する。これら
は、SPLIT法或はHMMによる音声認識方法その
他、そのプログラム毎に適した状況があり、必要に応じ
てバスを経由して高速にプログラム情報を音声認識部1
2に転送する仕組が必要である。
していると判定された標準パターンのラベル名を音声認
識部12の上位ホストであるCPU111に出力する結
果出力部12Pを具備する。以上の実施例において、標
準パターンとしては、予め分析され、整備されたものが
既に登録されているのが普通である。即ち、この登録さ
れた標準パターンが図1における認識辞書/標準パター
ン15であり、また、小規模な標準パターンとしては音
声認識プログラム121に付属する認識対象テーブル1
211の様な形で利用することもできる。この発明にお
いては、音声認識装置をその使用環境に適合させ、或は
音声認識装置をして使用者の要請に応じた効率的な応答
をさせるために、認識対象語彙、認識用の標準パター
ン、或はこれらの双方、適用対象の異なる認識対象語彙
群、適用対象の異なる認識用標準パターン群、或はこれ
らの双方、を必要に応じて記憶部に格納する。これら
は、SPLIT法或はHMMによる音声認識方法その
他、そのプログラム毎に適した状況があり、必要に応じ
てバスを経由して高速にプログラム情報を音声認識部1
2に転送する仕組が必要である。
【0028】次に、この発明において、DPマッチング
による音声認識プログラムと、8次の自己相関係数のみ
により音声認識を行う簡易音声認識プログラムとを音声
認識装置に搭載し、状況に応じて認識実験を行った結果
を説明する。認識対象語彙は、文献「音響学会予稿集、
音声認識用共通音声データ」(著者板橋、1985年発
表)に記載される日本都市名100単語中の上位60単
語およびコマンド(大:地図の拡大、小:地図の縮小、
終わり:コマンドの終了、その他の10単語)を男性話
者4名が騒音レベル65dBおよび75dBの環境下に
おいて発声したものである。音声は300Hz〜3.4
kHzのフィルタを介して8kHzで変換され、DPマ
ッチングによる音声認識プログラムに対しては、128
msec毎の短時間LPCケプストラム分析を実行し
た。音声区間検出は短時間対数パワーで行った。音声始
端の検出方法は、信号パワー値が音声のない状態から或
る一定閾値以上の大きな値で一定時間継続したときにそ
の信号パワー値の立ち上がり位置を始端とする。この
後、音声区間検出部は音声の信号パワー値の減衰点を検
出して音声の終端とする。簡易音声認識プログラムに対
しては、音声信号の前処理段階はDPマッチングプログ
ラムと同条件とし、後の類似度の比較でプログラムその
ものの手順に沿った処理とした。DPマッチングによる
音声認識プログラムにおける類似度の計算は始端固定、
終端フリーのStaggered Array DPで
ある。
による音声認識プログラムと、8次の自己相関係数のみ
により音声認識を行う簡易音声認識プログラムとを音声
認識装置に搭載し、状況に応じて認識実験を行った結果
を説明する。認識対象語彙は、文献「音響学会予稿集、
音声認識用共通音声データ」(著者板橋、1985年発
表)に記載される日本都市名100単語中の上位60単
語およびコマンド(大:地図の拡大、小:地図の縮小、
終わり:コマンドの終了、その他の10単語)を男性話
者4名が騒音レベル65dBおよび75dBの環境下に
おいて発声したものである。音声は300Hz〜3.4
kHzのフィルタを介して8kHzで変換され、DPマ
ッチングによる音声認識プログラムに対しては、128
msec毎の短時間LPCケプストラム分析を実行し
た。音声区間検出は短時間対数パワーで行った。音声始
端の検出方法は、信号パワー値が音声のない状態から或
る一定閾値以上の大きな値で一定時間継続したときにそ
の信号パワー値の立ち上がり位置を始端とする。この
後、音声区間検出部は音声の信号パワー値の減衰点を検
出して音声の終端とする。簡易音声認識プログラムに対
しては、音声信号の前処理段階はDPマッチングプログ
ラムと同条件とし、後の類似度の比較でプログラムその
ものの手順に沿った処理とした。DPマッチングによる
音声認識プログラムにおける類似度の計算は始端固定、
終端フリーのStaggered Array DPで
ある。
【0029】ここで、DPマッチングプログラムによる
音声認識の場合は、雑音レベルが65dBの時の誤認識
率は5%であったのに対して、雑音レベルが10dB増
大した75dBの環境下においては、誤認識率はおよそ
40%にまで増大し、実用上支障を来すことが予想され
た。SPLIT法或はHMMによる音声認識の場合もこ
れと同様の結果となるものと予測される。
音声認識の場合は、雑音レベルが65dBの時の誤認識
率は5%であったのに対して、雑音レベルが10dB増
大した75dBの環境下においては、誤認識率はおよそ
40%にまで増大し、実用上支障を来すことが予想され
た。SPLIT法或はHMMによる音声認識の場合もこ
れと同様の結果となるものと予測される。
【0030】一方、簡易音声認識プログラムによる音声
認識の場合は、定義した10個のコマンドについて、6
5dBの騒音下においては誤認識率は2%以内にとどま
り、75dBの騒音下においても10%以内の誤認識率
に収まった。簡易音声認識プログラムによる音声認識の
騒音下における比較的に高い認識率は、図1に示される
認識辞書/標準パターン15および認識対象テーブル1
211を作成するに際して、相互に識別し易い語彙構成
とした効果も含まれている。これもダイナミックにこれ
らの情報を切り替えて使用するこの発明の一効果であ
る。
認識の場合は、定義した10個のコマンドについて、6
5dBの騒音下においては誤認識率は2%以内にとどま
り、75dBの騒音下においても10%以内の誤認識率
に収まった。簡易音声認識プログラムによる音声認識の
騒音下における比較的に高い認識率は、図1に示される
認識辞書/標準パターン15および認識対象テーブル1
211を作成するに際して、相互に識別し易い語彙構成
とした効果も含まれている。これもダイナミックにこれ
らの情報を切り替えて使用するこの発明の一効果であ
る。
【0031】これらの結果に基づいて、エンジンキーが
差し込まれて車両のアクセサリー類に通電された時に音
声認識装置が以下の機能を果たすプロトタイプの音声入
力機能付きカーナビゲーション装置を試作し、良好な結
果を得ることができた。 1.音声入力機能付きカーナビゲーション装置の初期化
とSPLIT方式の音声認識プログラムのロード これによる地名入力待ち。
差し込まれて車両のアクセサリー類に通電された時に音
声認識装置が以下の機能を果たすプロトタイプの音声入
力機能付きカーナビゲーション装置を試作し、良好な結
果を得ることができた。 1.音声入力機能付きカーナビゲーション装置の初期化
とSPLIT方式の音声認識プログラムのロード これによる地名入力待ち。
【0032】2.音声入力による出発前の目的設定 3.加速度センサによる車の移動速度の検出によるナビ
ゲーションの開始 同時に音声認識部のメインプログラムを先のものから簡
易音声認識プログラムに切り替え。 4.応答コマンド、拡大、縮小、・・・の入力待ち 5.使用者のコマンドに応じた応用プログラムのロー
ド、画面操作への対応 6.エンジンキーの抜き取りによる音声入力機能付きカ
ーナビゲーション装置の自動終了
ゲーションの開始 同時に音声認識部のメインプログラムを先のものから簡
易音声認識プログラムに切り替え。 4.応答コマンド、拡大、縮小、・・・の入力待ち 5.使用者のコマンドに応じた応用プログラムのロー
ド、画面操作への対応 6.エンジンキーの抜き取りによる音声入力機能付きカ
ーナビゲーション装置の自動終了
【0033】
【発明の効果】以上の通りであって、この発明は、音声
認識装置の使用される環境に応じて音声認識プログラム
を切り替える構成を採用するものであり、単一のプログ
ラムのみにより動作させる音声認識装置に依っては困難
であった、例えば日本全国の地名認識をすることができ
ると共に高騒音下におけるコマンド応答にも対応するこ
とができるという両用の音声認識装置を実現することが
できる。そして、プログラムの切り替えに音声認識装置
の音響センサを使用することにより、使用者に負担を掛
けることなくして自然な音声認識サービスを提供するこ
とができる。
認識装置の使用される環境に応じて音声認識プログラム
を切り替える構成を採用するものであり、単一のプログ
ラムのみにより動作させる音声認識装置に依っては困難
であった、例えば日本全国の地名認識をすることができ
ると共に高騒音下におけるコマンド応答にも対応するこ
とができるという両用の音声認識装置を実現することが
できる。そして、プログラムの切り替えに音声認識装置
の音響センサを使用することにより、使用者に負担を掛
けることなくして自然な音声認識サービスを提供するこ
とができる。
【図1】実施例を説明するブロック図。
【図2】音声認識装置の従来例を説明するブロック図。
【図3】音声認識部の先行例を説明するブロック図。
1 音声認識装置 10 音声入力部 12 音声認識部 111 CPU 13 応用プログラム管理テーブル 14 第1の記憶部 15 認識辞書/標準パターン 16 音声認識プログラム管理テーブル 20 第2の記憶部 30 MMU 31 第1のバス 32 第2のバス 40 外部入力信号 41 センサおよびインタフェース部 121 音声認識プログラム 1211 認識対象テーブル
Claims (3)
- 【請求項1】 音声信号を入力する音声入力部を具備
し、 入力された音声信号より音声特徴パターンを抽出し、そ
の音声特徴パターン情報に基づいて音声を認識する音声
認識部を具備し、 認識対象の語彙および/或は認識用の標準パターン、お
よび/或は適用対象の異なる認識対象の語彙群および/
或は適用対象の異なる認識用標準パターン群を格納する
第1の記憶部を具備し、 音声認識部にロードされるべき複数の音声認識プログラ
ムを格納する第2の記憶部を具備することを特徴とする
音声認識装置。 - 【請求項2】 請求項1に記載される音声認識装置にお
いて、 標準パターンとして音声認識プログラムに付属する認識
対象テーブルを具備することを特徴とする音声認識装
置。 - 【請求項3】 請求項1および請求項2の内の何れかに
記載される音声認識装置において、 外部入力信号を検知するセンサおよびインタフェース部
を具備し、 検知された外部入力信号により複数の音声認識プログラ
ムを切り替える構成を具備することを特徴とする音声認
識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7289865A JPH09134193A (ja) | 1995-11-08 | 1995-11-08 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7289865A JPH09134193A (ja) | 1995-11-08 | 1995-11-08 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09134193A true JPH09134193A (ja) | 1997-05-20 |
Family
ID=17748766
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7289865A Pending JPH09134193A (ja) | 1995-11-08 | 1995-11-08 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09134193A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1998029864A1 (en) * | 1996-12-26 | 1998-07-09 | Sony Corporation | Recognition apparatus, recognition method, learning apparatus and learning method |
| JP2004163458A (ja) * | 2002-11-08 | 2004-06-10 | Sony Corp | 音声認識装置 |
| KR100504982B1 (ko) * | 2002-07-25 | 2005-08-01 | (주) 메카트론 | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 |
| JP2010049291A (ja) * | 1998-04-15 | 2010-03-04 | Microsoft Corp | 音声認識システムのための動的にコンフィギュレーション可能な音響モデル |
| JP2010049718A (ja) * | 2009-12-03 | 2010-03-04 | Hitachi Ltd | 半導体装置 |
| JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
| US9798679B2 (en) | 2003-05-06 | 2017-10-24 | Renesas Electronics Corporation | Information processing device and processor |
-
1995
- 1995-11-08 JP JP7289865A patent/JPH09134193A/ja active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1998029864A1 (en) * | 1996-12-26 | 1998-07-09 | Sony Corporation | Recognition apparatus, recognition method, learning apparatus and learning method |
| US6396954B1 (en) | 1996-12-26 | 2002-05-28 | Sony Corporation | Apparatus and method for recognition and apparatus and method for learning |
| JP2010049291A (ja) * | 1998-04-15 | 2010-03-04 | Microsoft Corp | 音声認識システムのための動的にコンフィギュレーション可能な音響モデル |
| KR100504982B1 (ko) * | 2002-07-25 | 2005-08-01 | (주) 메카트론 | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 |
| JP2004163458A (ja) * | 2002-11-08 | 2004-06-10 | Sony Corp | 音声認識装置 |
| US9798679B2 (en) | 2003-05-06 | 2017-10-24 | Renesas Electronics Corporation | Information processing device and processor |
| US10289569B2 (en) | 2003-05-06 | 2019-05-14 | Renesas Electronics Corporation | Information processing device and processor |
| US10983924B2 (en) | 2003-05-06 | 2021-04-20 | Renesas Electronics Corporation | Information processing device and processor |
| JP2010049718A (ja) * | 2009-12-03 | 2010-03-04 | Hitachi Ltd | 半導体装置 |
| JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101056511B1 (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
| JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
| US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
| JP2002006878A (ja) | 音声フレーズ認識方法及び音声認識装置 | |
| US8606581B1 (en) | Multi-pass speech recognition | |
| WO2009140884A1 (zh) | 一种车载语音交互系统 | |
| JP2021089432A (ja) | 音声対応デバイスのためのダイナミックウェイクワード | |
| JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
| JPH10501078A (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
| CN110223687B (zh) | 指令执行方法、装置、存储介质及电子设备 | |
| US7349844B2 (en) | Minimizing resource consumption for speech recognition processing with dual access buffering | |
| WO2021098318A1 (zh) | 应答方法、终端及存储介质 | |
| CN103680505A (zh) | 语音识别方法及系统 | |
| JP2003114696A (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
| JPH09134193A (ja) | 音声認識装置 | |
| CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 | |
| JP2003509705A (ja) | 音声認識方法および音声認識装置 | |
| KR102417899B1 (ko) | 차량의 음성인식 시스템 및 방법 | |
| CN117636872A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
| JP2871420B2 (ja) | 音声対話システム | |
| JP2006039382A (ja) | 音声認識装置 | |
| JP2021089310A (ja) | 音声操作装置、音声操作システムおよび音声操作方法 | |
| JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
| CN118155604A (zh) | 语音识别方法、系统、装置、车辆、电子设备和存储介质 | |
| CN114724544B (zh) | 语音芯片、语音识别方法、装置、设备及智能汽车 |