JPH11119793A

JPH11119793A - 音声認識装置

Info

Publication number: JPH11119793A
Application number: JP9283324A
Authority: JP
Inventors: Dairo Katayama; 大朗片山; Junichi Nakabashi; 順一中橋; Mitsuhiko Serikawa; 光彦芹川; Yoshihisa Nakato; 良久中藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-10-16
Filing date: 1997-10-16
Publication date: 1999-04-30

Abstract

(57)【要約】【課題】入力された音声を認識し文字列などとして出
力する音声認識装置において、内部で用いられるビーム
サーチ法の枝刈りのための閾値や、目標アクティブパス
数を、自動的に設定することを目標とする。【解決手段】本発明の音声認識装置は、音声入力手段
と、音声認識手段と、標準パターンの辞書を記憶してい
る記憶手段とを具備し、かつ、記憶手段に記憶されてい
る辞書を読み出して、認識タスクの複雑さを表わすパラ
メータであるパープレキシティを検出するパープレキシ
ティ検出手段と、前記パープレキシティ検出手段におい
て検出されたパープレキシティより、前記音声認識手段
で行うビームサーチ法による枝刈りの閾値を決定する閾
値設定手段と、を具備することを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人が発声した単語
などの音声を入力信号とし、その音声を標準パターンと
比較して最も似たパターンを探索することにより認識
し、結果を文字列などとして出力するような音声認識装
置に関するものである。

【０００２】

【従来の技術】従来の技術について、図６を参照しなが
ら説明する。

【０００３】従来の音声認識装置は、入力された音声を
認識して結果を出力する音声認識装置６０１であって、
音声入力手段６０２と、記憶手段６０３と、音声認識手
段６０４と、閾値設定手段６０５とを具備している。

【０００４】音声入力手段６０２は、時間波形から音声
区間を検出し、検出された音声区間をフレーム分割し、
フレーム分割された音声を認識のためにパラメータ化す
る。

【０００５】記憶手段６０３は、パラメータ化された音
声の標準パターンを、あらかじめ辞書として記憶してい
る。

【０００６】音声認識手段６０４は、音声入力手段にお
いてパラメータ化された信号と、辞書から読み出した標
準パターンとを、ＤＰマッチング法などにより、認識結
果を文字列などとして出力する。ここで、前記音声認識
手段６０４においては、演算量を削減するために、前記
ＤＰマッチング法などに、ビームサーチ法を組み合わせ
て音声認識を行う。

【０００７】閾値設定手段６０５は、前記音声認識手段
で行うビームサーチ法による枝刈りの閾値αを、音声認
識手段６０４に送るものである。

【０００８】音声認識手段６０４は、パラメータ化され
た入力音声と標準パターンとを先頭フレームから比較し
累積尤度を計算して行くという、最適パス探索問題を解
くものである。音声認識手段６０４で行われるビームサ
ーチ法による枝刈りとは、前記最適パス探索問題におい
て、先頭フレームから計算して行くそれぞれのパスのう
ち、累積尤度の低いものについては途中で計算を止める
という手法のことである。これは音声認識手段における
演算量を軽減するために行われる。また、これは、フレ
ームが進むに連れて増えて行く枝を刈り取るような作業
であるので、枝刈りと呼ばれる。

【０００９】ここで、枝刈りを行うには、刈るべきパス
の累積尤度の閾値が必要であるが、従来の音声認識装置
６０１においては、外部から閾値を与えるか、あるい
は、外部から残すべきパスの本数を与える必要があっ
た。この残すべきパスの本数を目標アクティブパス数と
呼ぶ。

【００１０】以上のような構成の音声認識装置６０１に
より、入力された音声を認識し、その結果を文字列など
として出力することが可能となる。

【００１１】

【発明が解決しようとする課題】従来の音声認識装置に
おいてはビームサーチ法による枝刈りの閾値を設定する
際に、外部から累積尤度の閾値を与えたり、あるいは、
外部から目標アクティブパス数を与える必要があった。

【００１２】しかしながら、累積尤度の閾値や、目標ア
クティブパス数は、認識タスクの語彙数、辞書に登録さ
れている語彙の類似度、標準パターンの精度などに依存
する。よって、枝刈りのための累積尤度の閾値や目標ア
クティブパス数を設定するには、認識タスクごとに、そ
れらと認識率の関係について、あらかじめ調べておかな
ければならない。これは、非常に手間のかかる作業であ
った。

【００１３】本発明は上記の課題に鑑みてなされたもの
であり、枝刈りのための累積尤度の閾値や目標アクティ
ブパス数を自動的に設定することを目的とする。

【００１４】

【課題を解決するための手段】上記の課題を解決するた
めに、本発明の音声認識装置は、入力された音声を認識
して認識結果を出力する音声認識装置であって、音声を
入力し、前記音声の時間波形から音声区間を検出し、検
出された音声区間をフレーム分割し、フレーム分割され
た音声を認識のためのパラメータに変換する音声入力手
段と、あらかじめ用意された音声の標準パターンを辞書
として記憶している記憶手段と、音声入力手段において
パラメータに変換された信号と、辞書から読み出した標
準パターンとを、ビームサーチ法を用いながら比較し、
認識結果を出力する音声認識手段と、前記記憶手段に記
憶された辞書を読み出して、前記音声認識手段で行う認
識タスクの複雑さを表すパープレキシティを検出するパ
ープレキシティ検出手段と、前記パープレキシティ検出
手段において検出されたパープレキシティより、前記音
声認識手段で行うビームサーチ法による枝刈りの閾値を
決定する閾値設定手段と、を具備することを特徴とす
る。

【００１５】また、本発明の音声認識装置は、入力され
た音声を認識して認識結果を出力する音声認識装置であ
って、音声を入力し、前記音声の時間波形から音声区間
を検出し、検出された音声区間をフレーム分割し、フレ
ーム分割された音声を認識のためにパラメータ化する音
声入力手段と、あらかじめ用意された音声の標準パター
ンを辞書として記憶している記憶手段と、音声入力手段
においてパラメータ化された信号と、辞書から読み出し
た標準パターンとを、ビームサーチ法を用いながら比較
し、認識結果を出力する音声認識手段と、前記音声認識
手段より現在処理しているフレーム番号が入力され、ま
た、前記記憶手段に記憶された辞書を読み出して、前記
音声認識手段で行う認識タスクの、あるフレーム区間の
複雑さを表すパープレキシティを検出する区間パープレ
キシティ検出手段と、前記区間パープレキシティ検出手
段において検出されたパープレキシティより、前記音声
認識手段で行うビームサーチ法による枝刈りの閾値を決
定する閾値設定手段と、を具備することを特徴とする。

【００１６】また、本発明の音声認識装置は、入力され
た音声を認識して認識結果を出力する音声認識装置であ
って、音声を入力し、前記音声の時間波形から音声区間
を検出し、検出された音声区間をフレーム分割し、フレ
ーム分割された音声を認識のためにパラメータ化する音
声入力手段と、あらかじめ用意された音声の標準パター
ンを辞書として記憶している記憶手段と、音声入力手段
においてパラメータ化された信号と、辞書から読み出し
た標準パターンとを、ビームサーチ法を用いながら比較
し、認識結果を出力する音声認識手段と、前記記憶手段
に記憶された辞書を読み出して、前記音声認識手段で行
う認識タスクの複雑さを表すパープレキシティを検出す
るパープレキシティ検出手段と、前記音声認識手段にお
いて実際にアクティブなパスの本数を検出する実アクテ
ィブパス数検出手段と、前記パープレキシティ検出手段
から出力されたパープレキシティと、前記実アクティブ
パス数検出手段から出力されたアクティブなパスの本数
とが入力され、前記ビームサーチ法における枝刈りの閾
値を決定し、前記枝刈りの閾値を前記音声認識手段に出
力する、閾値設定手段と、を具備することを特徴とす
る。

【００１７】また、本発明の音声認識装置は、入力され
た音声を認識して認識結果を出力する音声認識装置であ
って、音声を入力し、前記音声の時間波形から音声区間
を検出し、検出された音声区間をフレーム分割し、フレ
ーム分割された音声を認識のためにパラメータ化する音
声入力手段と、あらかじめ用意された音声の標準パター
ンを辞書として記憶している記憶手段と、音声入力手段
においてパラメータ化された信号と、辞書から読み出し
た標準パターンとを、ビームサーチ法を用いながら比較
し、認識結果を出力する音声認識手段と、前記記憶手段
に記憶された辞書を読み出して、前記音声認識手段で行
う認識タスクの複雑さを表すパープレキシティを検出す
るパープレキシティ検出手段と、前記音声認識手段より
現在処理しているフレーム番号が入力され、前記記憶手
段に記憶された辞書を読み出して、前記認識タスクの前
記フレーム番号における計算アクティブパス数を計算す
るアクティブパス数計算手段と、前記パープレキシティ
検出手段から出力されたパープレキシティと、前記アク
ティブパス数計算手段から出力された計算アクティブパ
ス数とが入力され、前記音声認識装置でのビームサーチ
法における目標アクティブパス数を決定し、出力する、
目標アクティブパス数設定手段と、前記音声認識装置に
おける実際のアクティブパス数を検出する実アクティブ
パス数検出手段と、前記目標アクティブパス数設定手段
から出力された目標アクティブパス数と、実アクティブ
パス数検出手段から出力されたアクティブパス数が入力
され、アクティブパス数が目標アクティブパス数を上回
っている場合には、枝刈りの閾値を更新して、前記音声
認識装置に新たな枝刈りの閾値を出力する閾値設定手段
と、を具備することを特徴とする。

【００１８】また、本発明の音声認識装置は、入力され
た音声を認識して認識結果を出力する音声認識装置であ
って、音声を入力し、前記音声の時間波形から音声区間
を検出し、検出された音声区間をフレーム分割し、フレ
ーム分割された音声を認識のためにパラメータ化する音
声入力手段と、あらかじめ用意された音声の標準パター
ンを辞書として記憶している記憶手段と、音声入力手段
においてパラメータ化された信号と、辞書から読み出し
た標準パターンとを、ビームサーチ法を用いながら比較
し、認識結果を出力する音声認識手段と、前記記憶手段
に記憶された辞書を読み出して、前記音声認識手段で行
う認識タスクの複雑さを表すパープレキシティを検出す
るパープレキシティ検出手段と、前記音声認識手段より
現在処理しているフレーム番号が入力され、前記記憶手
段に記憶された辞書を読み出して、前記認識タスクの前
記フレーム番号における計算アクティブパス数を計算す
るアクティブパス数計算手段と、前記パープレキシティ
検出手段から出力されたパープレキシティと、前記アク
ティブパス数計算手段から出力された計算アクティブパ
ス数とが入力され、前記音声認識装置でのビームサーチ
法における適確な目標アクティブパス数を決定して、前
記音声認識手段に対して前記目標アクティブパス数を出
力する、目標アクティブパス数設定手段と、前記音声認
識手段における実際のアクティブなパスの本数を検出す
る実アクティブパス数検出手段と、前記実アクティブパ
ス数検出手段から出力されるアクティブパス数と、前記
目標アクティブパス数とが入力され、前記アクティブな
パスの本数が前記目標アクティブパス数よりも大きい場
合には、閾値の更新命令を出力する比較手段と、前記音
声認識手段において、あるフレームで計算される、アク
ティブパスの累積尤度の平均値および分散値を検出す
る、平均値分散値検出手段と、前記平均値分散値検出手
段から出力される平均値および分散値と、前記比較手段
から出力される閾値の更新命令が入力された場合に、前
記音声認識手段の枝刈りの閾値を更新する閾値設定手段
と、を具備することを特徴とする。

【００１９】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図１から図５を参照しながら説明を行う。

【００２０】（実施の形態１）本発明の実施の形態１に
ついて、図１を参照しながら説明する。

【００２１】実施の形態１の音声認識装置１０１は、音
声入力手段１０２と、記憶手段１０３と、音声認識手段
１０４と、パープレキシティ検出手段１０５と、第１の
閾値設定手段１０６とを具備している。

【００２２】音声入力手段１０２は、時間波形から音声
区間を検出し、検出された音声区間をフレーム分割し、
フレーム分割された音声を認識のためにパラメータ化す
る。

【００２３】記憶手段１０３は、あらかじめ用意された
音声の標準パターンを辞書として記憶している。

【００２４】音声認識手段１０４は、音声入力手段にお
いてパラメータ化された信号と、辞書から読み出した標
準パターンとを、ビームサーチ法を用いながら比較し、
認識結果を文字列などとして出力する。

【００２５】パープレキシティ検出手段１０５は、記憶
手段１０３に格納されている辞書を読み出して、認識タ
スクの複雑さを表わすパラメータであるパープレキシテ
ィＦを検出する。ここで、パープレキシティＦとは、定
数である。前記パープレキシティ検出手段１０５は、認
識タスク全体のパープレキシティ、あるいは、認識タス
クの初期フレーム部分のパープレキシティを検出するも
のとする。

【００２６】第１の閾値設定手段１０６は、前記パープ
レキシティ検出手段１０５において検出されたパープレ
キシティより、前記音声認識手段１０４で行うビームサ
ーチ法による枝刈りの閾値αを決定する。パープレキシ
ティは、認識タスクの複雑さを表わすパラメータである
から、パープレキシティが大きい場合には累積尤度の閾
値αは小さく、逆に、パープレキシティが小さい場合に
は累積尤度の閾値αは大きくすれば良い。

【００２７】また、多くの認識タスクにおいて、初期フ
レーム部分でのパープレキシティが、全体のパープレキ
シティに比べて大きいという傾向がある。よって、前記
パープレキシティ検出手段１０５においては、特に認識
タスクの初期フレーム部分のパープレキシティを検出し
て枝刈りの閾値を設定すると、枝刈りの閾値を狭く設定
し過ぎて最適パスをも刈り取ってしまうという危険性が
軽減される。

【００２８】以上の構成により、本発明の音声認識装置
は、認識タスクのパープレキシティＦを用いて、枝刈り
の閾値αを自動的に設定することが可能となる。

【００２９】（実施の形態２）本発明の実施の形態２に
ついて、図２を参照しながら説明する。

【００３０】実施の形態２の音声認識装置２０１は、音
声入力手段２０２と、記憶手段２０３と、音声認識手段
２０４と、区間パープレキシティ検出手段２０５と、第
２の閾値設定手段２０６とを具備している。

【００３１】実施の形態２の構成は、実施の形態１の構
成とほとんど同じであるが、異なるのは、パープレキシ
ティ検出手段１０５の代わりに、区間パープレキシティ
検出手段２０５を具備していることである。

【００３２】区間パープレキシティ検出手段２０５は、
前記音声認識手段より現在処理しているフレーム番号ｔ
が入力され、また、記憶手段２０３に格納されている辞
書を読み出す。ここで、認識タスクの辞書を参照しなが
ら、ある限られた区間、例えば、初期フレーム部分、中
間フレーム部分、後期フレーム部分など、のパープレキ
シティＦｂを検出する。

【００３３】一般的に、パープレキシティは、辞書に登
録されている語彙の初期フレーム部分、中間フレーム部
分、後期フレーム部分などによって変化する。

【００３４】本発明の区間パープレキシティ検出手段に
よれば、例えば、入力音声の初期、中間、後期の各区間
に対応したパープレキシティＦｂを検出し、枝刈りの閾
値をそれぞれ設定することが可能となる。これにより、
ビームサーチ法において、不要なパスの累積尤度を計算
するという冗長性や、残すべきパスを刈り取ってしまう
危険性が、改善される。

【００３５】（実施の形態３）本発明の実施の形態３の
音声認識装置３０１について、図３を参照しながら説明
する。

【００３６】音声入力手段３０２と、記憶手段３０３
と、音声認識手段３０４と、パープレキシティ検出手段
３０５とは、前記実施の形態１と同じである。実施の形
態３が前記実施の形態と異なるのは、実アクティブパス
数検出手段３０６と、第３の閾値設定手段３０７と、を
具備していることである。

【００３７】実アクティブパス数検出手段３０６は、前
記音声認識手段３０４で行われるビームサーチ法におけ
るアクティブなパスの本数ｎ（ｔ）を、各フレーム毎に
検出し、第３の閾値設定手段３０７に送る。

【００３８】閾値設定手段３０７は、前記パープレキシ
ティ検出手段３０５から出力されたパープレキシティＦ
と、前記実アクティブパス数検出手段３０６から出力さ
れたアクティブパス数ｎ（ｔ）とが入力され、前記音声
認識装置３０４でのビームサーチ法におけるアクティブ
パスの枝刈りの閾値α（ｔ）を決定する。

【００３９】本実施の形態の音声認識装置３０１は、枝
刈りの閾値α（ｔ）の設定にあたって、パープレキシテ
ィＦおよびアクティブパス数ｎ（ｔ）を用いるのが特徴
である。これにより、パープレキシティＦのみで枝刈り
の閾値を設定する場合に比べて、枝刈りの閾値α（ｔ）
をさらに適確な値に自動設定することが可能となる。つ
まり、実際に処理中のアクティブパス数ｎ（ｔ）が分か
らないために、枝刈りが不十分で不要なパスの計算を残
してしまうという冗長性や、枝刈りをし過ぎて最適パス
をも刈り取ってしまうという危険性が軽減される。

【００４０】（実施の形態４）本発明の実施の形態４の
音声認識装置４０１について、図４を参照しながら説明
する。

【００４１】音声入力手段４０２と、記憶手段４０３
と、音声認識手段４０４と、パープレキシティ検出手段
４０５と、実アクティブパス数検出手段４０８は、前記
実施の形態３のそれらと同じである。実施の形態４の音
声認識装置４０１は、さらに、前記記憶手段４０３に接
続されたアクティブパス数計算手段４０６と、目標アク
ティブパス数設定手段４０７と、第４の第４の閾値設定
手段４０９、を具備している。

【００４２】アクティブパス数計算手段４０６は、前記
音声認識手段４０４より現在処理しているフレーム番号
ｔが入力され、かつ、前記記憶手段４０３に格納された
標準パターンを読み出す。ここでは、もし、前記音声認
識手段４０４で枝刈りを行わないとした場合に、前記フ
レーム番号ｔにおいて、累積尤度の計算が必要となるア
クティブパス数Ｍ（ｔ）を算出する。

【００４３】目標アクティブパス数設定手段４０７は、
前記パープレキシティ検出手段４０５から出力されたパ
ープレキシティＦと、前記アクティブパス数計算手段４
０６から出力された計算アクティブパス数Ｍ（ｔ）とが
入力され、現在の認識タスクに適した目標アクティブパ
ス数Ｎ（ｔ）を設定し、第４の閾値設定手段４０９に対
して出力する。ここで、パープレキシティＦは定数、計
算アクティブパス数Ｍは各フレーム毎に変化する値であ
る。

【００４４】第４の閾値設定手段４０９は、前記実アク
ティブパス数検出手段４０８から出力された実際のアク
ティブパス数ｎ（ｔ）と、前記目標アクティブパス数設
定手段４０７から出力された目標アクティブパス数Ｎ
（ｔ）とが入力され、実際のアクティブパス数ｎ（ｔ）
が目標アクティブパス数Ｎ（ｔ）よりも多い場合には、
枝刈りの閾値α（ｔ）を更新する。

【００４５】本発明によれば、枝刈りの閾値α（ｔ）を
設定する際に、認識タスクのパープレキシティＦと、認
識タスクの標準パターンの辞書から計算した計算アクテ
ィブパス数Ｍ（ｔ）とを用いて目標アクティブパス数Ｎ
（ｔ）を設定し、その目標アクティブパス数Ｎ（ｔ）と
実際のアクティブパス数ｎ（ｔ）を各フレーム毎に比較
しながら枝刈りの閾値α（ｔ）を更新して行くので、よ
り適確な閾値を自動的に設定することが可能となる。

【００４６】これにより、ビームサーチ法において、枝
刈りが不十分で不要なパスの計算をしてしまうという冗
長性や、枝刈りをし過ぎて最適パスをも刈り取ってしま
うという危険性が軽減される。

【００４７】（実施の形態５）本発明の実施の形態５の
音声認識装置５０１について、図５を参照しながら説明
する。

【００４８】音声入力手段５０２と、記憶手段５０３
と、音声認識手段５０４と、パープレキシティ検出手段
５０５と、アクティブパス数計算手段５０６と、目標ア
クティブパス数設定手段５０７と、実アクティブパス検
出手段５０８は、前記実施の形態４のそれらと同じであ
る。

【００４９】実施の形態５の音声認識装置５０１は、さ
らに、前記実アクティブパス数検出手段５０８から出力
される実際のアクティブパス数ｎ（ｔ）と、前記目標ア
クティブパス数設定手段５０７から出力される目標アク
ティブパス数Ｎ（ｔ）が入力される、比較手段５０９
と、前記音声認識手段５０４において、あるフレームで
計算される、全アクティブパスの累積尤度のばらつき具
合を表わす、累積尤度の平均値Ａ（ｔ）および分散値Ｂ
（ｔ）を検出する、平均値分散値検出手段５１０と、前
記比較器５０９において、前記実際のアクティブパス数
ｎ（ｔ）が前記目標アクティブパス数Ｎ（ｔ）を上回っ
た場合に出力される閾値更新命令と、前記平均値分散値
検出手段５１０から出力される累積尤度の平均値Ａ
（ｔ）および分散値Ｂ（ｔ）とが入力される、第５の閾
値設定手段５１１と、を具備している。

【００５０】前記平均値分散値検出手段５１０は、各フ
レーム毎に、音声認識手段５０４で計算されるアクティ
ブパスの累積尤度の平均値Ａ（ｔ）および分散値Ｂ
（ｔ）を検出し、第５の閾値設定手段５１１に出力す
る。

【００５１】前記第５の閾値設定手段５１１は、前記比
較手段５０９から閾値更新命令を受け、前記平均値分散
値検出手段５１０から出力された、アクティブパスの累
積尤度の平均値Ａ（ｔ）および分散値Ｂ（ｔ）、およ
び、現在の閾値とによって、新たな閾値α（ｔ）を設定
し、前記音声認識手段５０４に送る。

【００５２】本発明によれば、認識タスクのパープレキ
シティＦと計算アクティブパス数Ｍ（ｔ）から計算した
目標アクティブパス数Ｎ（ｔ）と、アクティブパスの累
積尤度の平均値Ａ（ｔ）と、分散値Ｂ（ｔ）と、を用い
て、枝刈りの閾値α（ｔ）を求めるので、前記実施の形
態に比べてさらに適確な閾値を自動的に設定することが
可能となる。

【００５３】これにより、ビームサーチ法において、枝
刈りが不十分で不要なパスの計算をしてしまうという冗
長性や、枝刈りをし過ぎて最適パスをも刈り取ってしま
うという危険性が軽減される。

【００５４】

【発明の効果】以上のように本発明によれば、枝刈りの
ための累積尤度の閾値や目標アクティブパス数を自動的
に設定することが可能になるという効果が得られる。

【図面の簡単な説明】

【図１】本発明の実施の形態１の音声認識装置を表わす
ブロック図

【図２】本発明の実施の形態２の音声認識装置を表わす
ブロック図

【図３】本発明の実施の形態３の音声認識装置を表わす
ブロック図

【図４】本発明の実施の形態４の音声認識装置を表わす
ブロック図

【図５】本発明の実施の形態５の音声認識装置を表わす
ブロック図

【図６】従来の技術の音声認識装置を表わすブロック図

【符号の説明】

１０１音声認識装置１０２音声入力手段１０３記憶手段１０４音声認識手段１０５パープレキシティ検出手段１０６第１の閾値設定手段２０１音声認識装置２０２音声入力手段２０３記憶手段２０４音声認識手段２０５区間パープレキシティ検出手段２０６第２の閾値設定手段３０１音声認識装置３０２音声入力手段３０３記憶手段３０４音声認識手段３０５パープレキシティ検出手段３０６実アクティブパス数検出手段３０７第３の閾値設定手段４０１音声認識装置４０２音声入力手段４０３記憶手段４０４音声認識手段４０５パープレキシティ検出手段４０６アクティブパス数計算手段４０７目標アクティブパス数設定手段４０８実アクティブパス数検出手段４０９第４の閾値設定手段５０１音声認識装置５０２音声入力手段５０３記憶手段５０４音声認識手段５０５パープレキシティ検出手段５０６アクティブパス数計算手段５０７目標アクティブパス数設定手段５０８実アクティブパス数検出手段５０９比較手段５１０平均値分散値検出手段５１１第５の閾値設定手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者中藤良久大阪府門真市大字門真1006番地松下電器産業株式会社内

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識して認識結果を出
力する音声認識装置であって、音声を入力し、前記音声の時間波形から音声区間を検出
し、検出された音声区間をフレーム分割し、フレーム分
割された音声を認識のためのパラメータに変換する音声
入力手段と、あらかじめ用意された音声の標準パターンを辞書として
記憶している記憶手段と、音声入力手段においてパラメータに変換された信号と、
辞書から読み出した標準パターンとを、ビームサーチ法
を用いながら比較し、認識結果を出力する音声認識手段
と、前記記憶手段に記憶された辞書を読み出して、前記音声
認識手段で行う認識タスクの複雑さを表すパープレキシ
ティを検出するパープレキシティ検出手段と、前記パープレキシティ検出手段において検出されたパー
プレキシティより、前記音声認識手段で行うビームサー
チ法による枝刈りの閾値を決定する閾値設定手段と、を
具備することを特徴とする音声認識装置。
【請求項２】前記パープレキシティ検出手段は、前記
入力された音声の初期フレーム部分のパープレキシティ
を検出することを特徴とする請求項１記載の音声認識装
置。
【請求項３】入力された音声を認識して認識結果を出
力する音声認識装置であって、音声を入力し、前記音声の時間波形から音声区間を検出
し、検出された音声区間をフレーム分割し、フレーム分
割された音声を認識のためにパラメータ化する音声入力
手段と、あらかじめ用意された音声の標準パターンを辞書として
記憶している記憶手段と、音声入力手段においてパラメータ化された信号と、辞書
から読み出した標準パターンとを、ビームサーチ法を用
いながら比較し、認識結果を出力する音声認識手段と、前記音声認識手段より現在処理しているフレーム番号が
入力され、また、前記記憶手段に記憶された辞書を読み
出して、前記音声認識手段で行う認識タスクの、あるフ
レーム区間の複雑さを表すパープレキシティを検出する
区間パープレキシティ検出手段と、前記区間パープレキシティ検出手段において検出された
パープレキシティより、前記音声認識手段で行うビーム
サーチ法による枝刈りの閾値を決定する閾値設定手段
と、を具備することを特徴とする音声認識装置。
【請求項４】入力された音声を認識して認識結果を出
力する音声認識装置であって、音声を入力し、前記音声の時間波形から音声区間を検出
し、検出された音声区間をフレーム分割し、フレーム分
割された音声を認識のためにパラメータ化する音声入力
手段と、あらかじめ用意された音声の標準パターンを辞書として
記憶している記憶手段と、音声入力手段においてパラメータ化された信号と、辞書
から読み出した標準パターンとを、ビームサーチ法を用
いながら比較し、認識結果を出力する音声認識手段と、前記記憶手段に記憶された辞書を読み出して、前記音声
認識手段で行う認識タスクの複雑さを表すパープレキシ
ティを検出するパープレキシティ検出手段と、前記音声認識手段において実際にアクティブなパスの本
数を検出する実アクティブパス数検出手段と、前記パープレキシティ検出手段から出力されたパープレ
キシティと、前記実アクティブパス数検出手段から出力
されたアクティブなパスの本数とが入力され、前記ビー
ムサーチ法における枝刈りの閾値を決定し、前記枝刈り
の閾値を前記音声認識手段に出力する、閾値設定手段
と、を具備することを特徴とする音声認識装置。
【請求項５】入力された音声を認識して認識結果を出
力する音声認識装置であって、音声を入力し、前記音声の時間波形から音声区間を検出
し、検出された音声区間をフレーム分割し、フレーム分
割された音声を認識のためにパラメータ化する音声入力
手段と、あらかじめ用意された音声の標準パターンを辞書として
記憶している記憶手段と、音声入力手段においてパラメータ化された信号と、辞書
から読み出した標準パターンとを、ビームサーチ法を用
いながら比較し、認識結果を出力する音声認識手段と、前記記憶手段に記憶された辞書を読み出して、前記音声
認識手段で行う認識タスクの複雑さを表すパープレキシ
ティを検出するパープレキシティ検出手段と、前記音声認識手段より現在処理しているフレーム番号が
入力され、前記記憶手段に記憶された辞書を読み出し
て、前記認識タスクの前記フレーム番号における計算ア
クティブパス数を計算するアクティブパス数計算手段
と、前記パープレキシティ検出手段から出力されたパープレ
キシティと、前記アクティブパス数計算手段から出力さ
れた計算アクティブパス数とが入力され、前記音声認識
装置でのビームサーチ法における目標アクティブパス数
を決定し、出力する、目標アクティブパス数設定手段
と、前記音声認識装置における実際のアクティブパス数を検
出する実アクティブパス数検出手段と、前記目標アクティブパス数設定手段から出力された目標
アクティブパス数と、実アクティブパス数検出手段から
出力されたアクティブパス数が入力され、アクティブパ
ス数が目標アクティブパス数を上回っている場合には、
枝刈りの閾値を更新して、前記音声認識装置に新たな枝
刈りの閾値を出力する閾値設定手段と、を具備すること
を特徴とする音声認識装置。
【請求項６】入力された音声を認識して認識結果を出
力する音声認識装置であって、音声を入力し、前記音声の時間波形から音声区間を検出
し、検出された音声区間をフレーム分割し、フレーム分
割された音声を認識のためにパラメータ化する音声入力
手段と、あらかじめ用意された音声の標準パターンを辞書として
記憶している記憶手段と、音声入力手段においてパラメータ化された信号と、辞書
から読み出した標準パターンとを、ビームサーチ法を用
いながら比較し、認識結果を出力する音声認識手段と、前記記憶手段に記憶された辞書を読み出して、前記音声
認識手段で行う認識タスクの複雑さを表すパープレキシ
ティを検出するパープレキシティ検出手段と、前記音声認識手段より現在処理しているフレーム番号が
入力され、前記記憶手段に記憶された辞書を読み出し
て、前記認識タスクの前記フレーム番号における計算ア
クティブパス数を計算するアクティブパス数計算手段
と、前記パープレキシティ検出手段から出力されたパープレ
キシティと、前記アクティブパス数計算手段から出力さ
れた計算アクティブパス数とが入力され、前記音声認識
装置でのビームサーチ法における適確な目標アクティブ
パス数を決定して、前記音声認識手段に対して前記目標
アクティブパス数を出力する、目標アクティブパス数設
定手段と、前記音声認識手段における実際のアクティブなパスの本
数を検出する実アクティブパス数検出手段と、前記実アクティブパス数検出手段から出力されるアクテ
ィブパス数と、前記目標アクティブパス数とが入力さ
れ、前記アクティブなパスの本数が前記目標アクティブ
パス数よりも大きい場合には、閾値の更新命令を出力す
る比較手段と、前記音声認識手段において、あるフレームで計算され
る、アクティブパスの累積尤度の平均値および分散値を
検出する、平均値分散値検出手段と、前記平均値分散値検出手段から出力される平均値および
分散値と、前記比較手段から出力される閾値の更新命令
が入力された場合に、前記音声認識手段の枝刈りの閾値
を更新する閾値設定手段と、を具備することを特徴とす
る音声認識装置。