JP5996152B2

JP5996152B2 - 音声認識システム及び音声認識方法

Info

Publication number: JP5996152B2
Application number: JP2016532819A
Authority: JP
Inventors: 直哉杉谷; 岡登　洋平; 洋平岡登; 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-07-08
Filing date: 2014-07-08
Publication date: 2016-09-21
Anticipated expiration: 2034-07-08
Also published as: DE112014006795B4; DE112014006795T5; US10115394B2; CN106663421A; WO2016006038A1; JPWO2016006038A1; CN106663421B; US20170140752A1

Description

本発明は、出力部から出力すべき音声認識を行う音声認識システム及び音声認識方法に関する。

従来の音声認識装置に用いる音声認識の技術は、認識率、演算量及びハードウェアリソースに応じて特化されている。例えば、車載の音声認識装置には、車載用に特化された音声認識（ローカル認識）が採用されており、高い耐騒音性及び応答性などを利点として有する。また、例えば、外部からネットワークを介して受信した音声データを認識するサーバの音声認識装置には、サーバ用に特化された音声認識（サーバ認識）が採用されており、多数または新しい語彙を含む辞典が使用可能であること、及び、高い演算量で音声認識が可能であることを利点として有する。

ここで、近年、用途の多様化などを理由に、ローカル認識とサーバ認識とを組み合わせて両者の利点を得る構成が検討されている。しかしながら、複数の音声認識部を用いる構成では、それぞれの音声認識エンジンの認識方式や、認識に用いる辞書（認識辞書）が異なるため、それぞれの認識結果を単純に比較することができないという問題がある。

具体的には、複数の音声認識部のそれぞれでは、音声認識の結果として、入力音声に対応する候補文字列（入力音声に一致する可能性が高い語彙などの文字列）が決定されるとともに、各候補文字列の正確性（各候補文字列が入力音声と一致する可能性）を示すスコア値が算出される。しかしながら、いくつかの候補文字列に対するスコア値が複数の音声認識部間で異なる場合には、複数の音声認識部間でスコア値を単純に比較することができないという問題がある。

そこで、この問題に対して様々な技術が提案されている。例えば、特許文献１には、複数の音声認識部にて異なるスコア値を統計的に処理して、複数の音声認識部間で比較可能なスコア値に正規化し、最もスコア値が高い候補文字列を、全体の認識結果として出力する技術が提案されている。

また、例えば、特許文献２には、複数の認識辞書を用いて第１の音声認識部にて入力音声を認識し、その結果であるスコア値が上位の候補文字列を二次判定辞書に格納し、当該二次判定辞書を用いて第２の音声認識部にて入力音声を認識させる技術が提案されている。

特開２００５−００３９９７号公報特開２００８−１９７３５６号公報

上述したように、特許文献１の技術では、複数の音声認識部間にて異なるスコア値を統計的に処理して、複数の音声認識部間で比較可能なスコア値に正規化する。しかしながら、例えば、複数の音声認識部間にて異なるスコア値が算出された候補文字列が多数ある場合には、適切に比較できる程度にまでスコア値を正規化しきれず、結果として妥当性の高い認識結果を得ることができないという問題がある。

また、特許文献２の技術では、一段階目の音声認識で十分正確な結果が得られている場合であっても、二段階目の音声認識も行うので、無駄な処理が生じているという問題がある。

そこで、本発明は、上記のような問題点を鑑みてなされたものであり、無駄な処理を抑制しつつ、妥当性の高い認識結果が得られる技術を提供することを目的とする。

本発明に係る音声認識システムは、出力部から出力すべき音声認識を行う音声認識システムであって、入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第１、第２及び第３の音声認識部と、第１及び第２の音声認識部で取得された認識結果に基づいて、第３の音声認識部に入力音声を認識させると判定された場合に、第１及び第２の音声認識部の少なくとも一方で取得された候補文字列を含む辞書を用いて第３の音声認識部に入力音声を認識させ、それによって得られた認識結果を出力部に出力させる制御部とを備える。

また、本発明に係る音声認識方法は、出力部から出力すべき音声認識を行う音声認識方法であって、入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第１、第２及び第３の音声認識部のうち、第１及び第２の音声認識部で取得された認識結果に基づいて、第３の音声認識部に入力音声を認識させると判定された場合に、第１及び第２の音声認識部の少なくとも一方で取得された候補文字列を含む辞書を用いて第３の音声認識部に入力音声を認識させ、それによって得られた認識結果を出力部に出力させる、音声認識方法。

本発明によれば、無駄な処理を抑制しつつ、妥当性の高い認識結果を得ることができる。

本発明の目的、特徴、態様および利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１に係る音声認識装置の主要な構成を示すブロック図である。実施の形態１に係る入力音声の認識結果の一例を示す図である。実施の形態１に係る音声認識装置の構成を示すブロック図である。実施の形態１に係る指標の一例を説明するための図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。変形例１に係る指標の一例を説明するための図である。変形例２に係る指標の一例を説明するための図である。実施の形態２に係る音声認識装置の構成を示すブロック図である。その他の変形例に係る音声認識システムの主要な構成を示すブロック図である。その他の変形例に係る音声認識システムの主要な構成を示すブロック図である。

＜実施の形態１＞
以下の説明では、本発明に係る音声認識システムが、音声認識装置単体に適用された場合を例にして主に説明する。

図１は、本発明の実施の形態１に係る音声認識装置１の主要な構成を示すブロック図である。図１の音声認識装置１は、第１の音声認識部１１と、第２の音声認識部１２と、第３の音声認識部１３と、制御部１４と、認識結果出力部１５とを備えている。

図１の音声認識装置１は、出力部である認識結果出力部１５から出力すべき音声認識を行う。認識結果出力部１５は、例えば音声認識によって得られた認識結果を他の装置に出力する出力端子であってもよいし、認識結果を表示する表示装置であってもよいし、認識結果を音声出力する音声出力装置であってもよい。なお、図１の構成では、認識結果出力部１５は音声認識装置１に備えられているが、認識結果出力部１５が表示装置または音声出力装置などである場合には、認識結果出力部１５は音声認識装置１に備えられずに、他の装置に備えられてもよい。

第１〜第３の音声認識部１１〜１３は、例えば、複数の語彙、単語または文書を含む辞書、及び、プログラムを記憶した半導体メモリなどの記憶装置と、Central Processing Unit（以下「ＣＰＵ」と記す）などのプロセッサが上記プログラムを実行することで実現される機能とから構成される。このように構成された第１〜第３の音声認識部１１〜１３は、入力音声を認識することによって、入力音声に対応する候補文字列（入力音声に一致する可能性が高い語彙、単語または文書などの文字列）を含む認識結果を取得（生成）する。

図２は、第１〜第３の音声認識部１１〜１３で取得される認識結果の一例を示す図である。本実施の形態１では、第１〜第３の音声認識部１１〜１３の認識結果は、候補文字列だけでなく、各候補文字列の正確性（各候補文字列が入力音声と一致する可能性）を示すスコア値をさらに含んでいる。以下、一例として、スコア値が大きいほど候補文字列の正確性が高いものとして説明する。

制御部１４は、例えばＣＰＵなどのプロセッサが記憶装置に記憶されたプログラムを実行することによって実現される。制御部１４は、第１及び第２の音声認識部１１，１２で取得された認識結果に基づいて、第３の音声認識部１３に入力音声を認識させると判定された場合に、第１及び第２の音声認識部１１，１２で取得された候補文字列を含む辞書を用いて第３の音声認識部１３に入力音声を認識させ、それによって得られた認識結果を認識結果出力部１５に出力させる。

第３の音声認識部１３に音声認識させるか否かの判定は、音声認識装置１で行われてもよいし、第１及び第２の音声認識部１１，１２で取得された認識結果が、音声認識装置１の外部の装置に与えられることにより、当該装置で行われてもよい。

以上のような本実施の形態１に係る音声認識装置１によれば、第３の音声認識部１３が、第１及び第２の音声認識部１１，１２で取得された候補文字列を含む辞書を用いて入力音声を認識する。これにより、例えば、第１及び第２の音声認識部１１，１２で取得された候補文字列のスコア値が比較できない程度にばらついていても、当該候補文字列に対して基準が統一されたスコア値を第３の音声認識部１３で算出することができる。つまり、実質的に第１及び第２の音声認識部１１，１２のスコア値を正規化することができるので、その結果として、妥当性の高い認識結果を得ることができる。

また、制御部１４は、第１及び第２の音声認識部１１，１２で取得された認識結果に基づいて、第３の音声認識部１３に入力音声を認識させると判定された場合に、第３の音声認識部１３に入力音声を認識させる。これにより、第１及び第２の音声認識部１１，１２の認識結果が完全に一致していないけれども似ている場合のように、第１及び第２の音声認識部１１，１２の認識結果のどちらが適切かを明確に判定することが困難である場合に、第３の音声認識部１３に入力音声を認識させることができる。したがって、第３の音声認識部１３の音声認識を必要以上に行わないようにすることができるので、無駄な処理を抑制することができる。

次に、音声認識装置１の主要な構成要素だけでなく、付加的な構成要素についても説明する。ただし、以下の内容は、上述の内容の一例を説明したものであり、本発明は以下の内容に限ったものではない。

図３は、本実施の形態１に係る音声認識装置１の主要な構成及び付加的な構成を示すブロック図である。

音声認識装置１は、音声入力部５１と接続されている。音声入力部５１は、例えばマイクなどから構成され、ユーザなどが発した音声を受け取る。音声入力部５１は、受け取った音声を入力音声として第１及び第２の音声認識部１１，１２、並びに音声記憶部２１に出力する。

音声記憶部２１は、音声入力部５１から受け取った入力音声を一時的に記憶する。例えば、音声記憶部２１は、音声入力部５１から受け取った入力音声を、次に音声入力部５１から入力音声を受け取るまで記憶する。

第１の音声認識部１１は、第１辞書記憶部１１ａと、第１音声認識エンジン１１ｂとを含んでいる。同様に、第２の音声認識部１２は、第２辞書記憶部１２ａと、第２音声認識エンジン１２ｂとを含んでおり、第３の音声認識部１３は、一時辞書記憶部１３ａと、第３音声認識エンジン１３ｂとを含んでいる。

第１及び第２辞書記憶部１１ａ，１２ａ、並びに一時辞書記憶部１３ａは、例えば半導体メモリなどの記憶装置から構成されている。第１〜第３音声認識エンジン１１ｂ，１２ｂ，１３ｂは、例えばプロセッサが音声認識用のアルゴリズム（例えば隠れマルコフモデルなど）を含むプログラムを実行することによって実現される。

次に、第１の音声認識部１１の第１辞書記憶部１１ａ及び第１音声認識エンジン１１ｂについて詳細に説明する。

第１辞書記憶部１１ａには、複数の語彙、単語または文書などを含む辞書が記憶されている。第１音声認識エンジン１１ｂは、第１辞書記憶部１１ａの辞書を用いて、音声入力部５１から受け取った入力音声を認識する。具体的には、第１音声認識エンジン１１ｂは、第１辞書記憶部１１ａの辞書に含まれる語彙、単語または文書などの中から、入力音声に対応する候補文字列（図２）を決定するとともに、当該候補文字列のスコア値（図２）を算出する。そして、第１音声認識エンジン１１ｂは、候補文字列及びスコア値を含む認識結果を、制御部１４（認識結果評価部１４ａ）に出力する。

第２の音声認識部１２の第２辞書記憶部１２ａ及び第２音声認識エンジン１２ｂも、第１辞書記憶部１１ａ及び第１音声認識エンジン１１ｂと同様に構成されている。ただし、第２の音声認識部１２は、第１の音声認識部１１と完全に同じ音声認識を行わないように構成されている。仮に、第２の音声認識部１２が、第１の音声認識部１１と完全に同じ音声認識を行う場合には、同じ入力音声に対して同じ認識結果しか得られないからである。

第１及び第２の音声認識部１１，１２が異なる音声認識を行う構成としては、例えば、辞書及びアルゴリズム（認識方式）の両方が、第１及び第２の音声認識部１１，１２の間で異なる構成、あるいは、辞書及びアルゴリズム（認識方式）の一方が、第１及び第２の音声認識部１１，１２の間で異なる構成が想定される。

第３の音声認識部１３の一時辞書記憶部１３ａ及び第３音声認識エンジン１３ｂについては後で詳細に説明する。

制御部１４は、認識結果評価部１４ａ及び辞書登録部１４ｂを含んでいる。

認識結果評価部１４ａは、第１及び第２の音声認識部１１，１２で取得された認識結果（候補文字列及びスコア値）の評価を示す指標を算出し、当該指標に基づいて第３の音声認識部１３に入力音声を認識させるか否かを判定する。

図４（ａ）〜図４（ｆ）は、本実施の形態１に係る指標の一例を説明するための図である。本実施の形態１では、認識結果評価部１４ａは、上述の指標として、第１及び第２の音声認識部１１，１２で取得されたスコア値順に並べられた候補文字列の順序が異なる度合を示す順序距離を算出する。

以下、順序距離の算出について説明する。図４（ａ）には、第１の音声認識部１１で取得された認識結果の一例が、候補文字列をスコア値順に並べた状態で示されており、図４（ｂ）には、第２の音声認識部１２で取得された認識結果の一例が、候補文字列をスコア値順に並べた状態で示されている。

図４（ｃ）には、第１の音声認識部１１で取得された候補文字列（図４（ａ））のうち、第２の音声認識部１２で取得された候補文字列（図４（ｂ））と共通する候補文字列Ａ〜Ｃ，Ｅ，Ｆがスコア順に並べられて示されている。

図４（ｆ）には、第２の音声認識部１２で取得された候補文字列（図４（ｂ））のうち、第１の音声認識部１１で取得された候補文字列（図４（ａ））と共通する候補文字列Ａ〜Ｃ，Ｅ，Ｆがスコア順に並べられて示されている。

図４（ｄ）及び図４（ｅ）には、図４（ｃ）の第１の音声認識部１１に関する候補文字列の順序を入れ替えて、図４（ｆ）の第２の音声認識部１２に関する候補文字列の順序と一致させるまでの途中経過が示されている。具体的には、図４（ｃ）の順序から図４（ｄ）の順序に移行する１回目の順序入れ替えでは、候補文字列Ｃと候補文字列Ａとの順序が入れ替えられている。図４（ｄ）の順序から図４（ｅ）の順序に移行する２回目の順序入れ替えでは、候補文字列Ｃと候補文字列Ｂとの順序が入れ替えられている。図４（ｅ）の順序から図４（ｆ）の順序に移行する３回目の順序入れ替えでは、候補文字列Ｆと候補文字列Ｅとの順序が入れ替えられている。

上述の順序距離は、順序入れ替えの回数に相当しており、図４（ｃ）〜図４（ｆ）の例では「３」となる。

図３の認識結果評価部１４ａは、第１及び第２の音声認識部１１，１２で取得された認識結果が完全に一致せず、かつ、順序距離が予め定められた閾値以下である場合（どちらが適切かを明確に判定することが困難である場合）には、第３の音声認識部１３に入力音声を認識させると判定する。認識結果評価部１４ａは、それ以外の場合には、第３の音声認識部１３に入力音声を認識させないと判定する。

例えば、判定に用いられる閾値が「４」に設定されている場合において、図４（ａ）及び図４（ｂ）の認識結果が取得された場合には、図４（ａ）及び図４（ｂ）の認識結果は順序が完全に一致しておらず、かつ、順序距離（「３」）は閾値（「４」）以下であることから、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させると判定する。

なお、判定に用いられる閾値は、例えば、第１及び第２音声認識エンジン１１ｂ，１２ｂの設定値（取得可能な候補文字列の個数、つまりリスト表示個数）及び実測値などに基づいて設定される。

認識結果評価部１４ａは、第３の音声認識部１３に入力音声を認識させないと判定した場合には、第１及び第２の音声認識部１１，１２の一方で取得された認識結果を認識結果出力部１５に出力させる。すなわち、認識結果評価部１４ａ（制御部１４）は、第１及び第２の音声認識部１１，１２で取得された認識結果に基づいて、第３の音声認識部１３に入力音声を認識させないと判定された場合に、第１及び第２の音声認識部１１，１２の一方で取得された認識結果を認識結果出力部１５に出力させる。

なお、第１及び第２の音声認識部１１，１２の認識結果のどちらを認識結果出力部１５に出力させるかは、例えば、ユースケース、音声認識エンジンの特性などに基づく信頼性（信頼度）を考慮して初期設定などの段階で予め設定される。このため、第１及び第２の音声認識部１１，１２の認識結果が似ていない程度に全く異なる場合には、第１及び第２の音声認識部１１，１２の認識結果のどちらが適切かを明確に判定することが困難ではなく、第１及び第２の音声認識部１１，１２のうち予め決定された信頼性の高い一方の認識結果が出力されることになる。

認識結果評価部１４ａは、第３の音声認識部１３に入力音声を認識させると判定した場合には、第１及び第２の音声認識部１１，１２で取得された候補文字列とを、辞書登録部１４ｂに出力する。

辞書登録部１４ｂは、認識結果評価部１４ａから入力された第１及び第２の音声認識部１１，１２の候補文字列を統合して、第３の音声認識部１３に用いられる辞書を生成する。この辞書の生成は、認識結果評価部１４ａから第１及び第２の音声認識部１１，１２の候補文字列が入力された場合、すなわち、認識結果評価部１４ａが第３の音声認識部１３に入力音声を認識させると判定した場合に行われる。

辞書登録部１４ｂは、例えば候補文字列のリストとして、上述の辞書を生成する。辞書登録部１４ｂは、生成した辞書を一時辞書記憶部１３ａに記憶（登録）する。

第３の音声認識部１３は、上述したように、一時辞書記憶部１３ａと、第３音声認識エンジン１３ｂとを含んでいる。

一時辞書記憶部１３ａには、辞書登録部１４ｂによって生成された辞書が記憶される。第３音声認識エンジン１３ｂは、一時辞書記憶部１３ａの辞書を用いて、音声記憶部２１に記憶された入力音声を認識することによって、当該入力音声に対応する候補文字列及びスコア値を含む認識結果を取得（生成）し、当該認識結果を認識結果出力部１５に出力する。なお、本実施の形態１では、第３の音声認識部１３が入力音声を認識するごとに、当該認識に用いられた候補文字列は、一時辞書記憶部１３ａから消去されるものとする。

上述したように、第２の音声認識部１２は、第１の音声認識部１１と完全に同じ音声認識を行わないように構成されているが、同様に、第３の音声認識部１３は、第１及び第２の音声認識部１１，１２と完全に同じ音声認識を行わないように構成されている。ただし、本実施の形態１では、一時辞書記憶部１３ａに記憶された辞書は、第１及び第２の音声認識部１１，１２で取得された候補文字列の両方を含んでおり、第３の音声認識部１３の辞書の候補文字列が、第１及び第２の音声認識部１１，１２の各々の辞書のみに含まれないことがある。このことは、第３の音声認識部１３の辞書が、第１及び第２の音声認識部１１，１２の各々の辞書と実質的に異なることに相当することから、第３の音声認識部１３のアルゴリズムは、第１及び第２の音声認識部１１，１２のアルゴリズムと必ずしも異ならなくてもよい。

認識結果出力部１５は、第１〜第３の音声認識部１１〜１３のいずれかで取得された認識結果を出力する。認識結果出力部１５は、例えば、図２に示した認識結果のようにスコア値にソートされた複数の候補文字列を出力してもよいし、スコア値が最も高い候補文字列のみを出力してもよい。

＜動作＞
図５は、本実施の形態１に係る音声認識装置１の動作を示すフローチャートである。

まずステップＳ１にて、第１及び第２の音声認識部１１，１２は、入力音声を認識する。

ステップＳ２にて、認識結果評価部１４ａは、第１及び第２の音声認識部１１，１２の認識結果に基づいて、当該認識結果の評価を示す指標を算出する。

ステップＳ３にて、認識結果評価部１４ａは、算出した指標に基づいて、第３の音声認識部１３に入力音声を認識させるか否かを判定する。本実施の形態１では、当該指標は順序距離であることから、第１及び第２の音声認識部１１，１２の認識結果が完全に一致せず、かつ、順序距離が予め定められた閾値以下である場合には、第３の音声認識部１３に入力音声を認識させると判定してステップＳ４に進み、それ以外の場合にはステップＳ８に進む。

ステップＳ４にて、辞書登録部１４ｂは、第１及び第２の音声認識部１１，１２で取得された候補文字列から辞書を生成する。

ステップＳ５にて、一時辞書記憶部１３ａは、ステップＳ４で生成された辞書を記憶する。

ステップＳ６にて、第３の音声認識部１３（第３音声認識エンジン１３ｂ）は、一時辞書記憶部１３ａに記憶された辞書を用いて、入力音声を認識する。なお、第３の音声認識部１３による音声認識後には、当該音声認識に用いられた候補文字列は、一時辞書記憶部１３ａから消去される。

ステップＳ７にて、認識結果出力部１５は、第３の音声認識部１３で取得された認識結果を出力する。その後、図５に示す動作を終了する。

ステップＳ３からステップＳ８に進んだ場合、認識結果出力部１５は、第１及び第２の音声認識部１１，１２の一方で取得された認識結果を出力する。その後、図５に示す動作を終了する。

＜効果＞
以上のような本実施の形態１に係る音声認識装置１によれば、制御部１４は、第１及び第２の音声認識部１１，１２で取得された認識結果に基づいて、第３の音声認識部１３に入力音声を認識させると判定された場合に、第１及び第２の音声認識部１１，１２で取得された候補文字列を含む辞書を用いて第３の音声認識部１３に入力音声を認識させ、それによって得られた認識結果を認識結果出力部１５に出力させる。これにより、上述したように無駄な処理を抑制しつつ、妥当性の高い認識結果を得ることができる。

また本実施の形態１では、制御部１４は、第１及び第２の音声認識部１１，１２で取得された認識結果に基づいて、第３の音声認識部１３に入力音声を認識させないと判定された場合に、第１及び第２の音声認識部１１，１２の一方で取得された認識結果を認識結果出力部１５に出力させる。これにより、第１及び第２の音声認識部１１，１２の認識結果が似ていない程度に全く異なり、どちらが適切かを明確に判定することが困難ではない場合には、適切な一方の認識結果を出力することができる。

また本実施の形態１では、指標（ここでは順序距離）に基づいて第３の音声認識部１３に入力音声を認識させるか否かが判定される。これにより、第１及び第２の音声認識部１１，１２の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。

また本実施の形態１では、第３の音声認識部１３が入力音声を認識するごとに、当該認識に用いられた候補文字列は、一時辞書記憶部１３ａから消去される。これにより、第３の音声認識部１３は、通常、入力音声と関係性が低い候補文字列を用いて、入力音声を認識しなくて済むので、無駄な処理を抑制する効果を高めることができる。

＜変形例１＞
実施の形態１では、第３の音声認識部１３に入力音声を認識させるか否かを判定するための指標は、順序距離であった。しかしながら、当該指標はこれに限ったものではない。本変形例１では、上述の指標は、第１及び第２の音声認識部１１，１２でそれぞれ取得された最大のスコア値である。以下、第１の音声認識部１１で取得された最大のスコア値を、「第１の最大のスコア値」と記し、第２の音声認識部１２で取得された最大のスコア値を、「第２の最大のスコア値」と記して説明する。

本変形例１では、認識結果評価部１４ａは、第１及び第２の音声認識部１１，１２で取得された認識結果が完全に一致せず、かつ、第１及び第２の音声認識部１１，１２で取得された第１及び第２の最大のスコア値が両者とも、予め定められた第１及び第２の閾値よりも小さいか、または第１及び第２の閾値よりも大きい場合には、第３の音声認識部１３に入力音声を認識させると判定する。また、認識結果評価部１４ａは、それ以外の場合には、第３の音声認識部１３に入力音声を認識させないと判定する。なお、第１の閾値は、例えば、第１音声認識エンジン１１ｂの設定値（スコア値の上限値）及び実測値などに基づいて設定され、第２の閾値は、例えば、第２音声認識エンジン１２ｂの設定値（スコア値の上限値）及び実測値などに基づいて設定される。

図６（ａ）及び図６（ｂ）は、本変形例１に係る指標の一例を説明するための図である。図６（ａ）には第１の音声認識部１１で取得された認識結果の一例が示されており、図６（ｂ）には、第２の音声認識部１２で取得された認識結果の一例が示されている。

第１の音声認識部１１のスコア値の上限値は「１０００」であり、その半分の値「５００」が第１の閾値として設定されている。第２の音声認識部１２のスコア値の上限値は「１００００」であり、その半分の値「５０００」が第２の閾値として設定されている。

図６（ａ）の例では、第１の音声認識部１１で取得された第１の最大のスコア値は「３００」であり、第１閾値「５００」よりも小さい。また、図６（ｂ）の例では、第２の音声認識部１２で取得された第２の最大のスコア値は「４０００」であり、第２閾値「５０００」よりも小さい。このため、図６（ａ）及び図６（ｂ）の認識結果が得られた場合には、図４（ａ）及び図４（ｂ）の認識結果は順序が完全に一致しておらず、かつ、第１及び第２の最大のスコア値がそれぞれ、第１及び第２の閾値よりも小さいことから、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させると判定する。

同様に、第１及び第２の音声認識部１１，１２で取得された認識結果が完全に一致せず、かつ、第１及び第２の最大のスコア値がそれぞれ、第１及び第２の閾値よりも大きい場合にも、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させると判定する。

一方、第１の最大のスコア値が第１の閾値よりも大きく、かつ第２の最大のスコア値が第２の閾値よりも小さい場合、または、第１の最大のスコア値が第１の閾値よりも小さく、かつ第２の最大のスコア値が第２の閾値よりも大きい場合などには、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させないと判定する。

以上のような本変形例１によれば、実施の形態１と同様に、指標（ここでは第１及び第２の最大のスコア値）に基づいて第３の音声認識部１３に入力音声を認識させるか否かを判定することができる。したがって、実施の形態１と同様に、第１及び第２の音声認識部１１，１２の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。

なお、例えば、第１の最大のスコア値が第１の閾値よりも小さく、第２の最大のスコア値が第２の閾値よりも大きく、かつ第３音声認識エンジン１３ｂが第２音声認識エンジン１２ｂと異なる場合にのみ、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させないと判定してもよい。同様に、第１の最大のスコア値が第１の閾値よりも大きく、第２の最大のスコア値が第２の閾値よりも小さく、かつ第３音声認識エンジン１３ｂが第１音声認識エンジン１１ｂと異なる場合にのみ、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させないと判定してもよい。これによれば、スコア算出基準が同一となる演算を省略することができる。

＜変形例２＞
本変形例２では、第３の音声認識部１３に入力音声を認識させるか否かを判定するための指標は、第１及び第２の音声認識部１１，１２で取得された候補文字列が一致する度合を示す類似度である。

また、本変形例２では、認識結果評価部１４ａは、第１及び第２の音声認識部１１，１２で取得された認識結果が完全に一致せず、かつ、類似度が予め定められた閾値以上である場合には、第３の音声認識部１３に入力音声を認識させると判定し、それ以外の場合には、第３の音声認識部１３に入力音声を認識させないと判定する。なお、閾値は、例えば、第１及び第２音声認識エンジン１１ｂ，１２ｂの設定値（取得可能な候補文字列の個数、つまりリスト表示個数）及び実測値などに基づいて設定される。

図７（ａ）及び図７（ｂ）は、本変形例２に係る指標の一例を説明するための図である。図７（ａ）には第１の音声認識部１１で取得された認識結果の一例が示されており、図７（ｂ）には、第２の音声認識部１２で取得された認識結果の一例が示されている。なお、図７（ａ）及び図７（ｂ）に示されるように、本変形例２ではスコア値は必須ではない。

まず、認識結果評価部１４ａは、第１の音声認識部１１で取得された候補文字列の個数（以下「第１全候補数」と記す）と、第２の音声認識部１２で取得された候補文字列の個数（以下「第２全候補数」と記す）とを算出する。図７（ａ）の例では、第１全候補数は「６」であり、図７（ｂ）の例では、第２全候補数は「５」である。

次に、認識結果評価部１４ａは、第１及び第２の音声認識部１１，１２で取得された候補文字列のうち、共通する候補文字列の個数（以下「共通候補数」と記す）を算出する。図７（ａ）及び図７（ｂ）の例では、共通候補数は、候補文字列Ａ〜Ｄの合計の個数「４」である。

認識結果評価部１４ａは、第１全候補数、第２全候補数、及び共通候補数を次式（１）に適用することにより、類似度を算出する。図７（ａ）及び図７（ｂ）の例では、類似度は「０．５３＝（４／６＊４／５）」となる。

例えば、上記閾値が「０．２５」に設定されており、かつ、図７（ａ）及び図７（ｂ）の認識結果が取得された場合には、図７（ａ）及び図７（ｂ）の認識結果は個数が完全に一致しておらず、かつ、類似度（「０．５３」）は閾値（「０．２５」）以上であることから、認識結果評価部１４ａは、第３の音声認識部１３に音声認識させると判定する。

以上のような本変形例２によれば、実施の形態１と同様に、指標（ここでは類似度）に基づいて第３の音声認識部１３に入力音声を認識させるか否かを判定することができる。したがって、実施の形態１と同様に、第１及び第２の音声認識部１１，１２の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。

＜変形例３＞
以上の説明では、上述の指標は、順序距離と、第１及び第２の最大のスコア値と、類似度とのいずれか１つであった。しかしこれに限ったものではなく、上述の指標は、順序距離と、第１及び第２の最大のスコア値と、類似度との少なくともいずれか１つを含むものであればよい。

例えば、指標には、順序距離と、第１及び第２の最大のスコア値と、類似度とが適宜組み合わされた次式（２）〜（５）が適用されてもよい。なお、次式（２）及び次式（３）は、類似度と同様の性質を有するので、類似度と同様の判定が行われる。一方、次式（４）及び次式（５）は、順序距離と同様の性質を有するので、順序距離と同様の判定が行われる。このことからも分かるように、類似度は変形例２で説明したものには限ったものではなく、順序距離は実施の形態１で説明したものに限ったものではない。

以上のような本変形例３によっても、実施の形態１と同様に、第１及び第２の音声認識部１１，１２の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。

＜変形例４＞
実施の形態１では、辞書登録部１４ｂは、第１及び第２の音声認識部１１，１２で取得された候補文字列の両方から、一時辞書記憶部１３ａに記憶される辞書を生成した。しかしこれに限ったものではなく、本変形例４のように、辞書登録部１４ｂは、第１及び第２の音声認識部１１，１２の一方で取得された候補文字列から、一時辞書記憶部１３ａに記憶される辞書を生成してもよい。

ここで、一時辞書記憶部１３ａに記憶される辞書が、第１の音声認識部１１で取得された候補文字列のみから生成される構成を想定する。本構成では、第３の音声認識部１３の辞書の候補文字列が、第１の音声認識部１１の辞書のみに必ず含まれることになる。このことは、第３の音声認識部１３の辞書が、第１の音声認識部１１の辞書と実質的に同じであることに相当する。したがって、本構成において、第３の音声認識部１３が、第１の音声認識部１１と完全に同じ音声認識を行わないようにするためには、第３の音声認識部１３に、第１の音声認識部１１と異なるアルゴリズムが適用されることになる。なお、ここでいう第１の音声認識部１１と異なるアルゴリズムには、例えば第２の音声認識部１２のアルゴリズムが含まれる。

同様に、一時辞書記憶部１３ａに記憶される辞書が、第２の音声認識部１２で取得された候補文字列のみから生成される構成において、第３の音声認識部１３が、第２の音声認識部１２と完全に同じ音声認識を行わないようにするためには、第３の音声認識部１３には、第２の音声認識部１２と異なるアルゴリズムが適用されることになる。なお、ここでいう第２の音声認識部１２と異なるアルゴリズムには、例えば第１の音声認識部１１のアルゴリズムが含まれる。

なお、上述した変形例１〜４は、実施の形態１だけでなく、次に説明する実施の形態２にも適用されてもよい。

＜実施の形態２＞
図８は、本発明の実施の形態２に係る音声認識装置１の構成を示すブロック図である。なお、本実施の形態２に係る音声認識装置１において、以上で説明した構成要素と同一または類似するものについては同じ参照符号を付し、異なる部分について主に説明する。

図８の音声認識装置１は、図３の音声認識装置１の構成に加えて、第３辞書記憶部１３ｃを備えている。この第３辞書記憶部１３ｃは、第３の音声認識部１３に含まれており、第３の音声認識部１３に固有の辞書を記憶している。第３の音声認識部１３は、一時辞書記憶部１３ａに記憶された辞書と、第３辞書記憶部１３ｃに記憶された辞書とを用いて入力音声の認識を行う。つまり、第３の音声認識部１３は、第１及び第２の音声認識部１１，１２で取得された候補文字列を含む辞書とともに、第３の音声認識部１３に固有の辞書も用いて、入力音声の認識を行う。

＜効果＞
以上のような本実施の形態２に係る音声認識装置１によれば、第１及び第２の音声認識部１１，１２では認識され難い語彙などの存在が予測される場合などには、その語彙などを第３辞書記憶部１３ｃの辞書に含めておくことにより、妥当性の高い認識結果を得る効果を高めることができる。

＜その他の変形例＞
図９は、本変形例に係る音声認識装置１の主要な構成を示すブロック図である。図９に示すように、第１の音声認識部１１が第１のサーバ６１に設けられ、第１の音声認識部１１で取得された認識結果を受信する第１の通信部７１が音声認識装置１に設けられてもよい。このような構成であっても、実施の形態１と同様の効果を得ることができる。

図１０は、本変形例に係る音声認識装置１の別の主要な構成を示すブロック図である。図１０に示すように、第１及び第２の音声認識部１１，１２が第１及び第２のサーバ６１，６２にそれぞれ設けられ、第１及び第２の音声認識部１１，１２で取得された認識結果を受信する第１及び第２の通信部７１，７２が音声認識装置１に設けられてもよい。このような構成であっても、実施の形態１と同様の効果を得ることができる。

また、以上に説明した音声認識装置１は、車両に搭載可能な備え付けられたナビゲーション装置、Portable Navigation Device、通信端末（例えば携帯電話、スマートフォン、及びタブレットなどの携帯端末）、及びこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせてシステムとして構築される音声認識システムにも適用することができる。この場合、以上で説明した音声認識装置１の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。

なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。

本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。

１音声認識装置、１１第１の音声認識部、１２第２の音声認識部、１３第３の音声認識部、１４制御部、１５認識結果出力部。

Claims

出力部から出力すべき音声認識を行う音声認識システムであって、
入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第１、第２及び第３の音声認識部と、
前記第１及び前記第２の音声認識部で取得された前記認識結果に基づいて、前記第３の音声認識部に前記入力音声を認識させると判定された場合に、前記第１及び前記第２の音声認識部の少なくとも一方で取得された前記候補文字列を含む辞書を用いて前記第３の音声認識部に前記入力音声を認識させ、それによって得られた前記認識結果を前記出力部に出力させる制御部と
を備える、音声認識システム。
請求項１に記載の音声認識システムであって、
前記制御部は、
前記第１及び前記第２の音声認識部で取得された前記認識結果に基づいて、前記第３の音声認識部に前記入力音声を認識させないと判定された場合に、前記第１及び前記第２の音声認識部の一方で取得された前記認識結果を前記出力部に出力させる、音声認識システム。
請求項１に記載の音声認識システムであって、
前記第３の音声認識部は、
前記候補文字列を含む辞書とともに、前記第３の音声認識部に固有の辞書も用いて、前記入力音声の認識を行う、音声認識システム。
請求項１に記載の音声認識システムであって、
前記第１及び前記第２の音声認識部で取得された前記候補文字列が一致する度合を示す類似度に基づいて、第３の前記音声認識部に前記入力音声を認識させるか否かが判定される、音声認識システム。
請求項４に記載の音声認識システムであって、
前記第１及び前記第２の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記類似度が予め定められた閾値以上である場合には、第３の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第３の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
請求項１に記載の音声認識システムであって、
前記第１及び前記第２の音声認識部でそれぞれ取得された認識結果は、前記候補文字列の正確性を示すスコア値をさらに含み、
前記第１及び前記第２の音声認識部でそれぞれ取得された最大の前記スコア値と、前記第１及び前記第２の音声認識部で取得された前記候補文字列が一致する度合を示す類似度と、前記第１及び前記第２の音声認識部で取得された前記スコア値順に並べられた前記候補文字列の順序が異なる度合を示す順序距離との少なくともいずれか１つを含む指標に基づいて、第３の前記音声認識部に前記入力音声を認識させるか否かが判定される、音声認識システム。
請求項６に記載の音声認識システムであって、
前記指標は前記類似度であり、
前記第１及び前記第２の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記類似度が予め定められた閾値以上である場合には、第３の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第３の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
請求項６に記載の音声認識システムであって、
前記指標は前記順序距離であり、
前記第１及び前記第２の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記順序距離が予め定められた閾値以下である場合には、第３の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第３の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
請求項６に記載の音声認識システムであって、
前記指標は前記最大のスコア値であり、
前記第１及び前記第２の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記第１及び前記第２の音声認識部で取得された第１及び第２の前記最大のスコア値が両者とも、予め定められた第１及び第２の閾値よりも小さいか、または前記第１及び前記第２の閾値よりも大きい場合には、第３の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第３の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
請求項１に記載の音声認識システムであって、
前記第３の音声認識部が前記入力音声を認識するごとに、当該認識に用いられた前記候補文字列を前記辞書から消去する、音声認識システム。
出力部から出力すべき音声認識を行う音声認識方法であって、
入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第１、第２及び第３の音声認識部のうち、前記第１及び前記第２の音声認識部で取得された前記認識結果に基づいて、前記第３の音声認識部に前記入力音声を認識させると判定された場合に、前記第１及び前記第２の音声認識部の少なくとも一方で取得された前記候補文字列を含む辞書を用いて前記第３の音声認識部に前記入力音声を認識させ、それによって得られた前記認識結果を前記出力部に出力させる、音声認識方法。