JP2020160118A

JP2020160118A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2020160118A
Application number: JP2019056140A
Authority: JP
Inventors: 大樹石浦; Daiki Ishiura; 光平武田; Kohei Takeda
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2020-10-01
Anticipated expiration: 2039-03-25
Also published as: JP7406921B2

Abstract

【課題】音声認識用の辞書を好適に生成する。
【解決手段】第１の辞書に基づく第１音声認識結果と、第２の辞書に基づく第２音声認識結果と、を受信するとともに、予め定められた演算に基づいて算出された第１音声認識結果についての第１確信度と、演算に基づいて算出された第２音声認識結果についての第２確信度と、を受信する。第１確信度と第２確信度とを比較し、予め定められた条件を満たす場合、第２音声認識結果に含まれる単語情報を登録する。第２の辞書には、第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる。
【選択図】図５

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

不特定者を対象とした音声認識装置では、汎用的かつ一般的な語彙を中心とした音声認識用の辞書が予め登録されており、当該音声認識装置は、登録されている音声認識用の辞書に基づいて音声を認識する。このような音声認識装置において、認識対象の語彙が設計時において規定可能な場合には、事前に作成した音声認識用辞書を用いるが、語彙が規定できない場合、あるいは動的に変更されるべきである場合においては、一般的に、人的作業による入力、または自動的に文字列情報から音声認識用の語彙を生成して辞書に登録する、などといったことが行われる。

また、近年の音声認識装置では、例えば、省略語などの言い換え表現についても音声認識用の辞書に登録することによって、正式な単語の発声だけでなく、ユーザによる任意の省略的な発声にも対処している。

例えば特許文献１には、単語の省略的な言い換え表現に対しても高い認識率で認識することが可能な音声認識装置が開示されている。

特許第３７２４６４９号公報

しかしながら、特許文献１に開示されている音声認識装置では、例えば、企業特有の社内用語や今回の会議や講演会で登場するような特殊用語といった、汎用的かつ一般的ではない新規な単語（特殊用語）を音声認識用の辞書に登録する場合には、人的作業による入力が必要となり、登録すべき単語の選別や入力など、人的作業負担が大きかった。そのため、音声認識用の辞書を好適に生成するという観点からすると未だ十分でなかった。

本発明は、上述のような事情に鑑みてなされたものであり、音声認識用の辞書を好適に生成することができる情報処理装置、情報処理方法およびプログラムを提供することを目的としている。

上記目的を達成するため、本発明の第１の観点に係る情報処理装置は、
第１の辞書に基づく第１音声認識結果と、前記第１の辞書とは異なる第２の辞書に基づく第２音声認識結果と、を受信する音声認識結果受信手段と、
予め定められた演算に基づいて算出された前記第１音声認識結果についての第１確信度と、前記演算に基づいて算出された前記第２音声認識結果についての第２確信度と、を受信する確信度受信手段と、
前記第１確信度と前記第２確信度とを比較し、予め定められた条件を満たす場合、前記第２音声認識結果に含まれる単語情報を登録する単語情報登録手段と、を備え、
前記第２の辞書には、前記第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる、
ことを特徴とする。

前記予め定められた条件を満たす場合、前記第２音声認識結果から登録対象となる単語情報を、予め定められた基準に従って抽出する抽出手段をさらに備え、
前記単語情報登録手段は、前記抽出手段により抽出された単語情報を登録する、
ようにしてもよい。

前記抽出手段により抽出された単語情報を、出現頻度毎に予め定められた複数分類のいずれかに分類する分類手段をさらに備え、
前記単語情報登録手段は、前記分類手段により分類された単語情報を該分類毎に登録する、
ようにしてもよい。

前記単語情報には音声情報および文字情報が含まれ、
前記単語情報登録手段により登録された単語情報を前記第１の辞書に追加することで前記第１の辞書を更新する第１辞書更新手段、をさらに備え、
前記第２の辞書は、前記第１の辞書が更新される毎に前記ユーザの操作により新たに記憶される、
ようにしてもよい。

上記目的を達成するため、本発明の第２の観点に係る情報処理方法は、
第１の辞書に基づく第１音声認識結果と、前記第１の辞書とは異なる第２の辞書に基づく第２音声認識結果と、を受信する音声認識結果受信ステップと、
予め定められた演算に基づいて算出された前記第１音声認識結果についての第１確信度と、前記演算に基づいて算出された前記第２音声認識結果についての第２確信度と、を受信する確信度受信ステップと、
前記第１確信度と前記第２確信度とを比較し、予め定められた条件を満たす場合、前記第２音声認識結果に含まれる単語情報を登録する単語情報登録ステップと、を備え、
前記第２の辞書には、前記第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる、
ことを特徴とする。

上記目的を達成するため、本発明の第３の観点に係るプログラムは、
コンピュータを、
第１の辞書に基づく第１音声認識結果と、前記第１の辞書とは異なる第２の辞書に基づく第２音声認識結果と、を受信する音声認識結果受信手段、
予め定められた演算に基づいて算出された前記第１音声認識結果についての第１確信度と、前記演算に基づいて算出された前記第２音声認識結果についての第２確信度と、を受信する確信度受信手段、
前記第１確信度と前記第２確信度とを比較し、予め定められた条件を満たす場合、前記第２音声認識結果に含まれる単語情報を登録する単語情報登録手段、として機能させ、
前記第２の辞書には、前記第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる、
ことを特徴とする。

本発明によれば、音声認識用の辞書を好適に生成することができる。

本発明の実施の形態に係る情報処理システムの一例を示すブロック図である。本発明の実施の形態に係る情報処理装置の一例を示すブロック図である。本発明の実施の形態に係る音声認識サーバの一例を示すブロック図である。情報処理システムの全体的な処理を説明するための説明図である。用語登録処理の一例を示すフローチャートである。音声認識結果の一例を示す図である。音声認識結果の形態素と品詞の一例を示す図である。

本発明における情報処理装置１００を、図１に示す情報処理システム１に適用した例を用いて説明する。情報処理システム１では、図１に示すように、情報処理装置１００Ａおよび１００Ｂと、音声認識サーバ２００とがネットワーク５１０を介して通信可能に接続されている。なお、理解を容易にするため、この実施の形態では、情報処理装置１００Ａのユーザと情報処理装置１００Ｂのユーザとが互いに会話を行う場合を例に、以下説明する。なお、情報処理装置１００Ａおよび情報処理装置１００Ｂは、単に情報処理装置１００とも言う。

情報処理装置１００は、携帯電話やスマートフォン、タブレットやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の情報端末（所謂コンピュータ）であり、Ｐ２Ｐ（ＰｅｅｒｔｏＰｅｅｒ）等の分散型のネットワーク５１０を構築している。なお、情報処理システム１は、Ｐ２Ｐ型のシステムに限られず、例えばクラウドコンピューティング型であってもよい。

情報処理装置１００は、音声認識サーバ２００から受信した、他の情報処理装置１００のユーザの会話の音声データおよびテキストデータ（音声認識結果）を出力する機能を有している。また、情報処理装置１００は、音声認識サーバ２００から受信した確信度に基づいて、登録対象となる単語情報を音声認識結果から抽出し、音声認識用の辞書へ登録する機能を有している。

音声認識サーバ２００は、例えばメインフレームやワークステーション、あるいはＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の任意のコンピュータ装置である。音声認識サーバ２００は、情報処理装置１００から送信された音声（会話の内容）を、予め記憶された音声認識用の辞書に基づいて認識し、認識した音声データをテキストデータとともに（音声認識結果として）他の情報処理装置１００へ送信する機能を有している。また、音声認識サーバ２００は、音声認識結果として得られる語彙が実際に発話された語彙と一致している確率を示す確信度を算出し、他の情報処理装置１００へ送信する機能も有している。

次に、図２を参照し、この実施の形態における情報処理装置１００（図１に示す情報処理装置１００Ａおよび情報処理装置１００Ｂ）の構成について説明する。なお、図示は省略しているが、ユーザの会話（音声）を送信用の音声データとして（アナログからデジタルへ）変換する機能（およびその逆の機能）を有する機能部が設けられているものとする。

図２に示すように、情報処理装置１００は、記憶部１１０と、制御部１２０と、入出力部１３０と、通信部１４０と、これらを相互に接続するシステムバス（図示省略）と、を備えている。

記憶部１１０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ)やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等を備える。ＲＯＭは制御部１２０のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行するプログラム及び、プログラムを実行する上で予め必要なデータを記憶する（図示省略）。

具体的に、この実施の形態における記憶部１１０は、登録用語一覧１１１として、音声認識用の辞書として登録すべき単語の音声データとそのテキストデータを記憶する。なお、音声データと当該音声データに対応するテキストデータを、合わせて単語情報とも言う。なお、登録用語一覧１１１は、登録対象の単語情報の一覧を示すものであり、複数の単語情報が含まれる。当該登録用語一覧１１１の単語情報は、後述する用語登録処理により、分類毎に記憶部１１０へ記憶される。また、記憶部１１０には、登録分類１１２として、ユーザによる指定に基づいて分類される登録分類の一覧と、その分類基準が記憶されている。登録分類としては、例えば、「普遍的に使用される社内用語」といった分類や、「特定の組織内で使用される組織内用語」などの分類が、ユーザによる指定に基づいて登録されている。分類基準としては、例えば、会話中における当該登録対象の単語情報の出現頻度を記憶しておき、５回以上出現している単語情報については「普遍的に使用される社内用語」と分類し、５回未満であれば「特定の組織内で使用される組織内用語」に分類するなど、ユーザによって任意に設定可能であればよい。

制御部１２０は、ＣＰＵやＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等から構成される。制御部１２０は、記憶部１１０に記憶されたプログラムに従って動作し、当該プログラムに従った処理を実行する。制御部１２０は、記憶部１１０に記憶されたプログラムにより提供される主要な機能部として、確信度比較部１２１と、形態素抽出部１２２と、品詞推定部１２３と、用語分類部１２４と、用語登録部１２５と、を備える。

確信度比較部１２１は、音声認識サーバ２００から送信された確信度を比較する機能部である。詳しくは後述するが、音声認識サーバ２００からは、第１登録用語一覧２１１を音声認識用の辞書（第１の辞書）として用いた場合の音声認識結果（後述する第１登録用語一覧２１１に基づくテキストデータとその音声データ）とその確信度Ａ（第１確信度）と、第２登録用語一覧２１２を音声認識用の辞書（第２の辞書）として用いた場合の音声認識結果（後述する第２登録用語一覧２１２に基づくテキストデータとその音声データ）とその確信度Ｂ（第２確信度）と、が送信される。確信度比較部１２１は、当該確信度Ａと確信度Ｂとを比較する。具体的に、確信度比較部１２１は、確信度Ｂから確信度Ａを減算した値が、予め定められた閾値以上であるか否かを判定することにより、確信度を比較する。閾値は、例えば、会議の内容や使用する言語などに応じて異なる値がユーザにより設定されていればよい。

形態素抽出部１２２は、例えば、第１登録用語一覧２１１を音声認識用の辞書として用いた場合の音声認識結果（第１音声認識結果）と、第２登録用語一覧２１２を音声認識用の辞書として用いた場合の音声認識結果（第２音声認識結果）と、のそれぞれを、形態素解析などにより形態素毎に分割し、異なる形態素を抽出する機能部である。具体的に、形態素抽出部１２２は、形態素毎に分割した第２音声認識結果から、形態素毎に分割した第１音声認識結果との共通部分の形態素を差し引くことで、異なる形態素を抽出する。

品詞推定部１２３は、第１音声認識結果と第２音声認識結果とのそれぞれの形態素の品詞を比較することで、異なる品詞の形態素を抽出する機能部である。具体的に、品詞推定部１２３は、第１音声認識結果の形態素と第２音声認識結果の形態素を比較し、第２音声認識結果の形態素の品詞が名詞であるものの、第１音声認識結果の形態素が名詞以外である形態素を抽出する。すなわち、形態素抽出部１２２は、第２音声認識結果から、第１音声認識結果と異なる単語の形態素（異なる文字列）を抽出するのに対し、品詞推定部１２３は、第２音声認識結果から、第１音声認識結果と異なる品詞の形態素を抽出する。換言すると、形態素抽出部１２２は、文字列の観点から形態素を抽出する機能部であり、品詞推定部１２３は、品詞の観点から形態素を抽出する機能部であると言える。なお、「普遍的に使用される社内用語」や「特定の組織内で使用される組織内用語」などといった特殊用語は、通常名詞であることが多い。そのため、この実施の形態における品詞推定部１２３は、第２音声認識結果の形態素の品詞が名詞であるものの、第１音声認識結果の形態素が名詞以外である形態素を抽出する。これとは異なり、単に異なる品詞の形態素を入出力部１３０に出力し、ユーザにより抽出するか否かを選択させるようにしてもよい。

用語分類部１２４は、形態素抽出部１２２の機能により抽出した形態素と、品詞推定部１２３の機能により抽出した形態素と、が一致しているか否かを判定し、一致した場合に登録対象として認定し、当該認定した登録対象の形態素の単語情報を、登録分類１１２に基づく分類に基づいて分類する機能部である。具体的に、用語分類部１２４は、抽出したそれぞれの形態素が一致する場合、登録対象となる単語情報の出現頻度に基づいて、登録分類１１２として設定されている分類基準に従い、登録されているいずれかの分類に分類する。

用語登録部１２５は、用語分類部１２４で分類された単語情報を、当該分類毎に登録用語一覧１１１へ登録する機能部である。また、用語登録部１２５は、登録用語一覧１１１へ登録された単語情報の内容に基づいて、第１登録用語一覧２１１の内容を更新させる更新指示を音声認識サーバ２００へ送信する機能も有している。なお、用語登録部１２５は、単語情報登録手段としての機能である。

これら各機能部が協働して、情報処理装置１００において、登録対象となる単語情報を音声認識用の辞書へ登録する機能を実現している。

入出力部１３０は、キーボード、マウス、カメラ、マイク、液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等から構成され、データの入出力を行うための装置である。

通信部１４０は、他の情報処理装置１００や音声認識サーバ２００とネットワーク５１０を介して通信を行うためのデバイスである。

以上が、情報処理装置１００の構成である。次に、図３を参照し、この実施の形態における音声認識サーバ２００の構成について説明する。図３に示すように、音声認識サーバ２００は、記憶部２１０と、制御部２２０と、入出力部２３０と、通信部２４０と、これらを相互に接続するシステムバス（図示省略）と、を備えている。

記憶部２１０は、ＲＯＭやＲＡＭ等を備える。ＲＯＭは制御部２２０のＣＰＵが実行するプログラム及び、プログラムを実行する上で予め必要なデータを記憶する（図示省略）。

具体的に、この実施の形態における記憶部２１０は、音声認識用の辞書として、第１登録用語一覧２１１と、第２登録用語一覧２１２とを記憶する。第１登録用語一覧２１１は、単語情報の一覧であり、後述する用語登録処理が実行される度に、登録されている単語情報が更新される。なお、初期の第１登録用語一覧２１１は、汎用的かつ一般的な語彙を中心とした単語情報の一覧であればよく、例えば、ユーザにより生成されてもよいし、ネットワーク上に公開されているものをダウンロードすることで取得してもよい。

一方、第２登録用語一覧２１２は、第１登録用語一覧２１１よりも、例えば「普遍的に使用される社内用語」や「特定の組織内で使用される組織内用語」などといった特殊用語の単語情報を多く含むよう、ユーザにより生成された単語情報の一覧である。なお、第２登録用語一覧２１２は、例えば、予定されている会議の資料や講演会の資料に基づいて、当該会議や講演会毎にユーザにより生成されればよい。この実施の形態における情報処理装置１００では、例えば会議毎に（換言すると第１登録用語一覧２１１が更新される毎に）第２登録用語一覧２１２が新規に記憶されて、後述する用語登録処理が行われる。当該用語登録処理では、第２登録用語一覧２１２と第１登録用語一覧２１１との比較により、対象となる単語情報が登録される。したがって、「普遍的に使用される社内用語」などの特殊用語を音声認識用の辞書に好適に登録することができるとともに、繰り返し実行することで、当該音声認識用の辞書を更新することが可能となる。

制御部２２０は、ＣＰＵやＡＳＩＣ等から構成される。制御部１２０は、記憶部１１０に記憶されたプログラムに従って動作し、当該プログラムに従った処理を実行する。制御部２２０は、記憶部２１０に記憶されたプログラムにより提供される主要な機能部として、音声認識処理部２２１と、確信度算出部２２２と、を備える。

音声認識処理部２２１は、例えば、情報処理装置１００から受信した音声データについて、第１登録用語一覧２１１に基づくテキストデータと、第２登録用語一覧２１２に基づくテキストデータと、のそれぞれに変換する機能部である。なお、音声データからテキストデータへの変換は、第１登録用語一覧２１１および第２登録用語一覧２１２に基づいて、従来から用いられている音声認識技術により行われればよい。なお、音声認識処理部２２１は、変換したそれぞれのテキストデータを、音声データとともに他の情報処理装置１００へと送信する機能も有している。

確信度算出部２２２は、音声認識処理部２２１にて変換されたテキストデータに対応する確信度を算出する機能部である。具体的に、確信度算出部２２２は、第１登録用語一覧２１１に基づくテキストデータの確信度Ａと、第２登録用語一覧２１２に基づくテキストデータの確信度Ｂと、をそれぞれ算出する。確信度は、例えば、第１登録用語一覧２１１や第２登録用語一覧２１２に登録されている単語情報の音声特徴量（波形や周期等）と、受信した音声データによる音声特徴量の類似度に基づいて算出（予め定められた演算に基づいて算出）されればよい。なお、確信度算出部２２２は、算出したそれぞれの確信度を他の情報処理装置１００へと送信する機能も有している。

これらの機能部が協働して、音声認識サーバ２００において、情報処理装置１００から受信した音声データをテキストデータにそれぞれ変換し（音声認識し）、当該音声データとともに音声認識結果として他の情報処理装置１００へと送信する機能を実現している。また、確信度を他の情報処理装置１００へと送信する機能を実現している。

入出力部２３０は、キーボード、マウス、カメラ、マイク、液晶ディスプレイ、有機ＥＬディスプレイ等から構成され、データの入出力を行うための装置である。

通信部２４０は、情報処理装置１００とネットワーク５１０を介して通信を行うためのデバイスである。

以上が、音声認識サーバ２００の構成である。続いて情報処理装置１００の動作などについて、図４〜図７を参照して説明する。まず、情報処理システム１の動作として、全体的な処理の流れについて、図４を参照して説明する。なお、図示する例では、情報処理装置１００Ｂのユーザが情報処理装置１００Ａのユーザに対して例文１の内容の発言した場合を例に、以下説明する。

図４に示すように、情報処理装置１００Ｂのユーザが入出力部１３０に例文１の音声を入力すると、制御部１２０の機能により音声データに変換され、当該音声データが音声認識サーバ２００へ送信される（図４の（１））。なお、図示する例では、理解を容易にするため、情報処理装置１００Ｂから音声認識サーバ２００へ当該音声データが送信される例を示しているが、例えば、情報処理装置１００Ｂから情報処理装置１００Ａへと音声データが送信され、当該情報処理装置１００Ａにて抽出した特定の音声データが音声認識サーバ２００へ送信されるようにしてもよい。

音声認識サーバ２００は、情報処理装置１００Ｂから音声データを受信すると、音声認識処理部２２１の機能により、第１登録用語一覧２１１に基づいて音声認識を行い（テキストデータへ変換し）、音声データとテキストデータを、第１音声認識結果として情報処理装置１００Ａへ送信する（図４の（２））。また、音声認識サーバ２００は、確信度算出部２２２の機能により、第１登録用語一覧２１１に基づく音声認識の確信度Ａを算出し、情報処理装置１００Ａへ送信する（図４の（３））。

また、音声認識サーバ２００は、音声認識処理部２２１の機能により、第２登録用語一覧２１２に基づいて音声認識を行い（テキストデータへ変換し）、音声データとテキストデータを、第２音声認識結果として情報処理装置１００Ａへ送信する（図４の（４））。また、音声認識サーバ２００は、確信度算出部２２２の機能により、第２登録用語一覧２１２に基づく音声認識の確信度Ｂを算出し、情報処理装置１００Ａへ送信する（図４の（５））。なお、図４の（２）〜（５）は、まとめて行われてもよい。

情報処理装置１００Ａの側では、音声認識サーバ２００から受信した、第２登録用語一覧２１２に基づく音声データとテキストデータを、入出力部１３０から出力する（図６（Ｂ）に示す内容が出力される）。また、情報処理装置１００Ａは、音声認識サーバ２００から第１音声認識結果と第２音声認識結果（確信度Ａおよび確信度Ｂも含む）を受信すると（音声認識結果受信手段および確信度受信手段に相当）、登録対象となる特殊用語を当該音声認識用の辞書に登録するための用語登録処理を行う。すなわち、情報処理装置１００Ａは、情報処理装置１００Ｂのユーザの発言に含まれる特殊用語を音声認識用の辞書に登録するための処理を行う。なお、以下では、図６（Ａ）に示す内容の音声データおよびテキストデータを第１音声認識結果として受信し、図６（Ｂ）に示す内容の音声データおよびテキストデータを第２音声認識結果として受信し、当該第２音声認識結果の「ＮＴＴ」を、特殊用語として登録する場合について説明する（確信度についても図示する値であるとする）。

図５は、用語登録処理の一例を示すフローチャートである。用語登録処理において、情報処理装置１００Ａは、確信度比較部１２１の機能により、確信度Ｂから確信度Ａを減算した値が、予め定められた閾値以上であるか否か（予め定められた条件を満たすか否か）を判定する（ステップＳ１０１）。閾値未満である場合、情報処理装置１００Ａは、登録すべき対象が存在しないものとして、そのまま用語登録処理を終了する。具体的に、ステップＳ１０１の処理では、図６（Ｂ）に示す確信度０．８９から図６（Ａ）に示す確信度０．１６を減算し、閾値以上であるか否かを判定する。なお、この例における閾値は、０．５として予めユーザにより設定されているものとする。

閾値以上である場合（ステップＳ１０１；Ｙｅｓ）、情報処理装置１００Ａは、形態素抽出部１２２の機能により、音声認識サーバ２００から受信した第１音声認識結果と第２音声認識結果のそれぞれを形態素毎に分割し、異なる形態素を第２音声認識結果から抽出する（ステップＳ１０２）。なお、ステップＳ１０２では、第１音声認識結果のうちのテキストデータを形態素毎に分割し、異なる形態素を抽出した上で、当該形態素に対応する部分の音声データを抽出してもよい。また、第１音声認識結果のうちのテキストデータと音声データの両方を形態素毎に分割し、それぞれについて異なる形態素を抽出してもよい。具体的に、ステップＳ１０２では、図６（Ａ）および図７（Ａ）に示す「Ｖｅｎｄｉｔｔｉ」と図６（Ｂ）および図７（Ｂ）に示す「ＮＴＴ」の形態素が異なるため、図６（Ｂ）および図７（Ｂ）に示す「ＮＴＴ」の形態素を抽出する。なお、図６（Ａ）および図７（Ａ）に示す「Ｖｅｎｄｉｔｔｉ」はこの実施の形態にて理解を容易にするために用いた造語であり、品詞が形容詞であるものとする。また、以下では、当該「ＮＴＴ」の出現頻度が５回であり、今回の例文１にて６回の出現頻度となったものとする。

ステップＳ１０２の処理を実行した後、情報処理装置１００Ａは、品詞推定部１２３の機能により、第１音声認識結果の形態素と第２音声認識結果の形態素を比較し、第２音声認識結果の形態素の品詞が名詞であるものの、第１音声認識結果の形態素が名詞以外である形態素を抽出する（ステップＳ１０３）。なお、上述したように、ステップＳ１０３では、単に異なる品詞の形態素を入出力部１３０に出力し、ユーザにより抽出するか否かを選択させるようにしてもよい。具体的に、ステップＳ１０３の処理では、図７（Ａ）に示す「Ｖｅｎｄｉｔｔｉ」の品詞が「形容詞」であり、図７（Ｂ）に示す「ＮＴＴ」の品詞が「名詞」であることから、図７（Ｂ）に示す「ＮＴＴ」の形態素を抽出する。また、この実施の形態では、図７に示すように「ｏｆ」といった前置詞については、音声認識用の辞書への登録といった観点からすると不要な品詞であることから、比較対象外としている。

ステップＳ１０３の処理を実行した後、情報処理装置１００Ａは、用語分類部１２４の機能により、ステップＳ１０２で抽出した形態素とステップＳ１０３で抽出した形態素とが一致するか否かを判定する（ステップＳ１０４）。一致していない場合（ステップＳ１０４；Ｎｏ）、用語登録処理を終了する。なお、一致していない場合、ステップＳ１０２で抽出した形態素とステップＳ１０３で抽出した形態素のそれぞれに対応する単語情報ついて、登録用語一覧１１１へ登録するか否かをユーザに選択させ、いずれも登録しない場合に当該用語登録処理を終了し、少なくともいずれかを登録する場合には、ステップＳ１０５の処理に移行すればよい。なお、この実施の形態では、ステップＳ１０２の処理およびステップＳ１０３の処理で抽出した形態素同士が一致するか否かを判定したが、ステップＳ１０２の処理のみ、またはステップＳ１０３の処理のみ行い、ステップＳ１０５の処理に移行してもよい。さらに、ステップＳ１０２〜ステップＳ１０４の処理を実行せず、ステップＳ１０１にてＹｅｓと判定した場合には、ステップＳ１０５の処理へ移行してもよい。この場合、例えば、形態素毎の確信度が音声認識サーバ２００から送信されればよい。

一致していると判定した場合（ステップＳ１０４；Ｙｅｓ）、情報処理装置１００Ａは、用語分類部１２４の機能により、抽出した形態素に対応する単語情報を登録対象として認定し、認定した登録対象の形態素の単語情報を、登録分類１１２に基づく分類に基づいて分類する（ステップＳ１０５）。具体的に、ステップＳ１０５の処理では、「ＮＴＴ」の単語情報の出現頻度が６回であることから、当該「ＮＴＴ」は「普遍的に使用される社内用語」の分類に分類する。なお、「普遍的に使用される社内用語」には、例えば、複数のプロジェクトにおいて共通して使用される用語が含まれる。

ステップＳ１０５の処理を実行した後、情報処理装置１００Ａは、用語登録部１２５の機能により、ステップＳ１０４の処理にて分類された単語情報としての音声データおよびテキストデータを、当該分類に従い登録用語一覧１１１へ登録する（ステップＳ１０６）。具体的に、ステップＳ１０６の処理では、「普遍的に使用される社内用語」の分類に分類された「ＮＴＴ」の音声データおよびテキストデータを、それぞれ対応付けて、登録用語一覧１１１における「普遍的に使用される社内用語」の分類として登録する。

ステップＳ１０６の処理を実行した後、情報処理装置１００Ａは、用語登録部１２５の機能により、登録用語一覧１１１へ登録された単語情報の内容に基づいて、第１登録用語一覧２１１の内容を更新させる更新指示を音声認識サーバ２００へ送信し（ステップＳ１０７）、用語登録処理を終了する。具体的に、ステップＳ１０７の処理では、登録用語一覧１１１における「普遍的に使用される社内用語」の分類として登録した「ＮＴＴ」の音声データおよびテキストデータを、更新指示とともに音声認識サーバ２００へ送信し、音声認識サーバ２００に記憶されている第１登録用語一覧２１１に、当該「ＮＴＴ」の音声データおよびテキストデータを追加登録させる。これにより、第１登録用語一覧２１１の内容が更新されることとなる。

図４に戻り、音声認識サーバ２００の側では、情報処理装置１００Ａから更新指示を受信したことに基づいて、第１登録用語一覧２１１の内容を更新する。なお、図示は省略しているが、この後に、情報処理装置１００Ａのユーザが情報処理装置１００Ｂのユーザに対して発言した場合には、情報処理装置１００Ａの制御部１２０の機能により音声データに変換され、当該音声データが音声認識サーバ２００へ送信される。そして情報処理装置１００Ｂの側において用語登録処理が行われ、音声認識サーバ２００における第１登録用語一覧２１１の内容が更新される。このような処理が、当該会議や講演会などの会話が終了するまで繰り返し実行されることとなる。このように、会話毎に用語登録処理が行われて第１登録用語一覧２１１の内容が更新されるため、リアルタイムで音声認識用の辞書が更新されることとなり、音声認識用の辞書を好適に生成することができる。なお、この実施の形態では、２者間での会話を例としたが、３者以上でも同様である。また、このようにして生成された辞書は、公知の日本語入力ソフトにおける辞書にも活用可能である。

（変形例）
なお、この発明は、上記実施の形態に限定されず、様々な変形及び応用が可能である。例えば、情報処理装置１００では、上記実施の形態で示した全ての技術的特徴を備えるものでなくてもよく、従来技術における少なくとも１つの課題を解決できるように、上記実施の形態で説明した一部の構成を備えたものであってもよい。また、下記の変形例それぞれについて、少なくとも一部を組み合わせてもよい。

上記実施の形態では、図５のステップＳ１０７の処理が用語登録処理の中で実行される例を示したが、例えば、会議の終了や講演会の終了などといった一連の会話が終了したタイミングで一度行われるようにしてもよい。例えば、会話が終了したタイミングでユーザによる入出力部１３０への操作が行われることで図５に示すステップＳ１０７の処理が実行されるようにしてもよい。また、例えば、「終了」など、予め定められた特定の音声（複数設定されていてよい）を受信した場合に、会話の終了と判定して図５のステップＳ１０７の処理を実行するようにしてもよい。また、これとは異なり、ユーザにより設定された数の単語情報が登録用語一覧１１１へ登録される毎に図５のステップＳ１０７の処理が実行されるようにしてもよい。これらによれば、第１登録用語一覧２１１の更新処理に対する負荷を軽減することができる。

また、例えば「ＰｏＣ」という単語について、「ピーオーシー」と読むユーザや「ポック」と読むユーザなど、一の単語について、ユーザ毎に読み方が異なるような場合がある。このような単語について、第２登録用語一覧２１２として、一のテキストデータに対応して複数の音声データを予め登録しておき、図５のステップＳ１０６では、一のテキストデータに対応して複数の音声データを登録用語一覧１１１へ登録すればよい。そして、ステップＳ１０７の処理では、当該内容にて第１登録用語一覧２１１を更新させる指示を行えばよい。これによれば、一の単語について、ユーザ毎に読み方が異なるような場合についても、音声認識用の辞書を好適に生成することができる。

また、上記実施の形態における音声認識サーバ２００の構成を、情報処理装置１００が備えていてもよい。この場合、図５のステップＳ１０７において、自身の記憶部１１０に記憶された第１登録用語一覧２１１を更新し、他の情報処理装置１００に記憶された第１登録用語一覧２１１と同期をとるようにすればよい。

なお、上述の機能を、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）とアプリケーションとの分担、またはＯＳとアプリケーションとの協同により実現する場合等には、ＯＳ以外の部分のみを媒体に格納してもよい。

また、搬送波にプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板（ＢＢＳ、ＢｕｌｌｅｔｉｎＢｏａｒｄＳｙｓｔｅｍ）に当該プログラムを掲示し、ネットワークを介して当該プログラムを配信してもよい。そして、これらのプログラムを起動し、オペレーティングシステムの制御下で、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行できるように構成してもよい。

１情報処理システム、１００、１００Ａ、１００Ｂ情報処理装置、１１０、２１０記憶部、１１１登録用語一覧、１１２登録分類、１２０、２２０制御部、１２１確信度比較部、１２２形態素抽出部、１２３品詞推定部、１２４用語分類部、１２５用語登録部、１３０、２３０入出力部、１４０、２４０通信部、２００音声認識サーバ、２１１第１登録用語一覧、２１２第２登録用語一覧、２２１音声認識処理部、２２２確信度算出部、５１０ネットワーク

Claims

第１の辞書に基づく第１音声認識結果と、前記第１の辞書とは異なる第２の辞書に基づく第２音声認識結果と、を受信する音声認識結果受信手段と、
予め定められた演算に基づいて算出された前記第１音声認識結果についての第１確信度と、前記演算に基づいて算出された前記第２音声認識結果についての第２確信度と、を受信する確信度受信手段と、
前記第１確信度と前記第２確信度とを比較し、予め定められた条件を満たす場合、前記第２音声認識結果に含まれる単語情報を登録する単語情報登録手段と、を備え、
前記第２の辞書には、前記第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる、
ことを特徴とする情報処理装置。
前記予め定められた条件を満たす場合、前記第２音声認識結果から登録対象となる単語情報を、予め定められた基準に従って抽出する抽出手段をさらに備え、
前記単語情報登録手段は、前記抽出手段により抽出された単語情報を登録する、
ことを特徴とする請求項１に記載の情報処理装置。
前記抽出手段により抽出された単語情報を、出現頻度毎に予め定められた複数分類のいずれかに分類する分類手段をさらに備え、
前記単語情報登録手段は、前記分類手段により分類された単語情報を該分類毎に登録する、
ことを特徴とする請求項２に記載の情報処理装置。
前記単語情報には音声情報および文字情報が含まれ、
前記単語情報登録手段により登録された単語情報を前記第１の辞書に追加することで前記第１の辞書を更新する第１辞書更新手段、をさらに備え、
前記第２の辞書は、前記第１の辞書が更新される毎に前記ユーザの操作により新たに記憶される、
ことを特徴とする請求項１〜３のいずれか１項に記載の情報処理装置。
第１の辞書に基づく第１音声認識結果と、前記第１の辞書とは異なる第２の辞書に基づく第２音声認識結果と、を受信する音声認識結果受信ステップと、
予め定められた演算に基づいて算出された前記第１音声認識結果についての第１確信度と、前記演算に基づいて算出された前記第２音声認識結果についての第２確信度と、を受信する確信度受信ステップと、
前記第１確信度と前記第２確信度とを比較し、予め定められた条件を満たす場合、前記第２音声認識結果に含まれる単語情報を登録する単語情報登録ステップと、を備え、
前記第２の辞書には、前記第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる、
ことを特徴とする情報処理方法。
コンピュータを、
第１の辞書に基づく第１音声認識結果と、前記第１の辞書とは異なる第２の辞書に基づく第２音声認識結果と、を受信する音声認識結果受信手段、
予め定められた演算に基づいて算出された前記第１音声認識結果についての第１確信度と、前記演算に基づいて算出された前記第２音声認識結果についての第２確信度と、を受信する確信度受信手段、
前記第１確信度と前記第２確信度とを比較し、予め定められた条件を満たす場合、前記第２音声認識結果に含まれる単語情報を登録する単語情報登録手段、として機能させ、
前記第２の辞書には、前記第１の辞書に登録された単語情報に加え、ユーザにより指定された単語情報が含まれる、
ことを特徴とするプログラム。