JP2000504510A

JP2000504510A - データベースアクセス

Info

Publication number: JP2000504510A
Application number: JP9527399A
Authority: JP
Inventors: アットウォーター、デイビッド・ジョン; オルセン、ポール・アンドリュー; ブリッジマン、シーマス・オーデェイン; ウィットテーカー、スティーブン・ジョン
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-01-31
Filing date: 1997-01-27
Publication date: 2000-04-11
Also published as: CA2244116C; US5778344A; CN1121777C; EP0878085B1; GB9601925D0; NO983501D0; EP0878085A1; MX9806168A; AU3606897A; KR19990082252A; CN1210643A; AU707248B2; DE69729277T2; NO983501L; CA2244116A1; DE69729277D1; WO1997028634A1; NZ326441A

Abstract

(57)【要約】データベースシステムをアクセスする方法および装置において、前記データべースシステムは、エントリに属する情報のアイテムの機械表示を含む複数のフィールドをそれぞれ含むエントリを含んでおり、前記表示は第１のボキャブラリを形成しているデータベースと、このような表示の第２のボキャブラリに入る機械表示に応答して機械表示を表す信号を発生する出力手段と、信号を受信してこのような表示の第３のボキャブラリに入る機械表示を発生するように動作可能な入力手段とを具備している。データベースシステムをアクセスする方法は、（ｉ）第１のボキャブラリと第３のボキャブラリの定められた関係にしたがって、入力手段により生成される各表示に対して、第１のボキャブラリにしたがった１以上の表示を発生し、（ii）生成された表示を含んでいるデータベースエントリを識別し、（iii ）識別されたエントリの選択されたフィールドまたはフィールドの組合わせに含まれている各表示または表示の組合わせを試験してこれらの表示または組合わせのうちの弁別可能なものを識別し、規定された関係にしたがって第２のボキャブラリの表示へ変換されるときの弁別可能な表示または組合わせは、同様に変換されるときの弁別可能な表示または組合わせと互いに異なっており、（iv）弁別可能な表示または組合わせのうちの１つに対応する少なくとも１つの単語または単語の組合わせを含んでいる出力を発生する出力手段を制御するステップを有する。

Description

【発明の詳細な説明】データベースアクセス本発明はデータベースのアクセス、特に言語スピーチ認識入力および合成された言語出力の使用に関するが、それに限定されない。国際特許公開第WO94/14270号明細書は、機械化されたディレクトリ問合わせ（電話番号案内）システムを開示しており、ここでは発呼者が最初に必要な都市名を述べようとする。話された単語が認識され、最高の確信レベルを有する単語が使用者が話した単語として選択される。その後、発呼者は探し求めているパーティ（当業者）の名称を述べようとする。満足すべき確信レベルが得られたとき、データベースがアクセスされ、番号が発呼者に接続される。確信レベルが好ましい確信レベルに合致しなかったならば、発呼者はその位置または名称のスペル（綴り）を全てまたは一部綴る。話した入力とデータベース間に１または複数の一致が発見されたならば、使用者は確認された一致が見つかるまでそれぞれの一致を１つ１つ確認するように求められる。このような一致が突き止められなかったならば、自動処理が終了される。欧州特許出願公開第433964号明細書はテキスト入力を使用するシステムに関する。第１に、姓を表す入力単語がエントリと整合される。“類似する”が入力と全く同一ではない整合が発見されたならば、入力の頭文字とデータベースエントリが比較される。これらが一致したならば、データエントリの記録が行われる。システムはその後必要なタイトルと必要な個人名を比較する。最も確率の高いエントリが使用者へ与えられる。米国特許第5204894 号明細書はパーソナル電子ディレクトリに関し、ここではエントリの名称が使用者の音声中に記憶され、関連する番号は多音（ＤＴＭＦ）電話キーパッドまたは話された入力を使用して入力される。使用者がディレクトリをアクセスする必要があるとき、使用者は必要な名前を言及し、ディレクトリシステムは入力の第１の単語と記憶された単語を比較し、使用者が１つの単語を確認するまで連続して全ての可能性を使用者へ与える。前述した全ての従来技術のシステムでは、システムは使用者がデータエントリを必要なものとして確定するまで使用者にデータベース内の識別されたエントリを連続的な方法で与える。本発明の１特徴にしたがって、データベースアクセス装置が提供され、この装置は、（ａ）エントリに属する情報のアイテムの機械表示を含む複数のフィールドをそれぞれ具備するエントリを含んでおり、前記表示は第１のボキャブラリを形成しているデータベースと、（ｂ）このような表示の第２のボキャブラリ内に入る機械表示に応答して話されたアナウンスを表したオーディオ信号を発生するアナウンス手段と、（ｃ）信号を受信し、このような表示の第３のボキャブラリに入る機械表示を発生するように動作可能な入力手段と、（ｄ）第１のボキャブラリと第２のボキャブラリとの間の関係と、第１のボキャブラリと第３のボキャブラリとの間の関係を規定する変換手段と、（ｅ）制御手段とを具備しており、この制御手段は、（ｉ）規定された関係にしたがって、入力手段により発生される各表示に対して第１のボキャブラリにしたがって１または複数の表示を発生し、（ii）発生された表示を含んでいるデータベースエントリを識別し、（iii ）識別されたエントリの選択されたフィールドまたはフィールドの組合わせに含まれている各表示または表示の組合わせを検査してこれらの表示または組合わせのうち弁別可能なものを識別し、限定された関係にしたがって第２のボキャブラリの表示へ変換されるときの弁別可能な表示または組合わせは、同様に変換されるときの弁別可能な表示または組合わせと互いに異なっており、（iv）アナウンスを生成するアナウンス手段を制御するように動作可能であり、アナウンスは弁別可能な表示または組合わせのうちの１つに対応する１または複数の単語または単語の組合わせを含んでいる。アナウンスにより出力される含まれている単語は任意の適切な形態であってもよく、例えば含まれた単語は単語全体、綴られた単語またはアルファ数字を表してもよい。別の特徴では、本発明はスピーチ認識方法を提供し、それは、（ａ）応答を必要とする少なくとも１つのアナウンスを生成し、（ｂ）応答を認識し、（ｃ）認識された応答に整合するフィールドを含んだデータベースエントリを識別し、（ｄ）このようなエントリの数が予め定められた限界を越えた場合、正または負の応答に対する識別されたエントリの選択フィールドに対応する少なくとも１つの単語を含んだアナウンスを生成し、（ｅ）正の応答を受信したとき、認識された応答に整合するフィールドを含み、その選択されたフィールドが前記単語に整合するデータベースエントリを識別し、（ｆ）ステップ（ｄ）と（ｅ）を１回以上反復するステップを有する。本発明の幾つかの実施形態を添付図面を参照して例示により説明する。図１は音声、話された、データベース表示間の変換の１例を示したエンティティ関連図である。図２は本発明にしたがった装置のブロック図である。図３は図１の装置の動作を示したフローチャートである。図３ａは図１の装置の別の動作を示したフローチャートである。図４は弁別可能なタップルを識別するプロセスを示したフローチャートである。図５は音声、話された言葉、綴り、データベース表示間の変換の１例を示したエンティティ関係図である。音声対話装置を以下説明し、これは使用者に対して質問を行い、使用者の応答を認識し、それによってデータベースの内容をアクセスする。自動式電話ディレクトリ問合わせシステムで使用されるような名前、住所、電話番号のデータベースを１例として用いる。しかしながら、最初に、装置の動作を理解するのに重要な幾つかの基本的な概念を説明する。データベースは複数のエントリを含んでいるものと想定され、各エントリは例えばエントリが照合する人物の姓名、位置、電話番号等の、エントリについての情報のアイテムをそれぞれ含んでいる複数のフィールドを有する。１つのエントリからの１フィールドセットをここではタップルと呼び、即ちＮ個のフィールドの組合わせである（Ｎ＝１、２または３であるとき、用語シングル、デュプル、トリプルがそれぞれ使用される）。従って完全なエントリは１つのエントリから抽出されたそれより小さいフィールドセットのようなタップルであり、したがって例示のデータベースから取られた１セットの名／姓の対は１セットの抽出デュプルを形成している。データベースフィールドに記憶された情報アイテムは任意の便利な表示であってもよく、一般的にこの説明は通常テキスト表示の使用を想定し、例えば姓がジョンソン（Jonson）の場合、名前の文字に対応する文字コードを使用するが、例えば地理的位置等の幾つかのフィールドの形式化された表示では、サウスエンドと呼ばれる地名が英国ではサウスエンド１、サウスエンド２、サウスエンド３のように３つ存在するように異なった表示で同一名称の幾つかの異なった位置を識別する。装置と使用者間の対話で使用されるフィールド内容を表すための単語はデータベース表示とは概念上異なっており、各フィールドについて話されたボキャブラリー（語彙）を表す。データベース表示がテキストであるならば、これら表示と話されたボキャブラリの間にオーバーラップが存在するが、そうであっても情報のアイテムを説明するために使用者がデータベースフィールドに実際に含まれている単語とは異なった単語を使用することを考慮することが望ましく、即ち幾つかの単語は同義語と見なされる。最後に、複数の発音が１つの単語（同音異義語：ホモニム）に関連してもよく、また反対に複数の単語が同一の発音を有する（同音字：ホモフォン）ことでもよいことに留意する必要がある。これらの概念は“エンティティ関連図”である図１に示されており、ここでは、左から右、右から左に移行するときに表示を変換する必要性が見られる。ボックスＡは１つのデータエントリのセットを表し、ボックスＢはエントリとの１：多数（one:many）の関係を有する１セット（組）の特定の姓を表しており、即ち１つの姓が多数のエントリで見られるが１つのエントリは１つの姓のみを含んでいる。ボックスＣ、Ｄ、Ｅは名前、町、電話番号の表示のセットに対応し、ここでは同様のことが言える。ボックスＦは名前に対応する話されたボキャブラリ、即ちこのフィールドの説明に使用することが装置により許容された全ての単語のセットを表している。これはデータベースボキャブラリとは異なっていてもよく（または同じであっても、多くはそれと１：１の対応をもたない）、それによって例えばアンディ（Andy）、ジム（Jim）等の（姓に対する）名の略称がアンドリュー（Andrew）、ジェイムズ（James）等の正式名と同一の意味を有すると考えられるような同義語等の別名（アリアス）を考慮する。話されたボキャブラリ単語の好ましい形態と、使用の“可能性を有する”別の形態とに対応してボックスＣとＦの間に２つの接続路が示されている。同様に、ボックスＧは町の名称に対応する話されたボキャブラリを表している。ここで大きな町はその中に小さい場所または地区を含むことが多いので別名の可能性が生じる。例えば、イプスウィッチ（Ipswich）はイングランドのサフォーク（Suffolk）州の町である。その近くにケスグレーブ（Kesgrave）と呼ばれる小さい地区が存在する。ケスグレーブに在住の人はイプスウィッチまたはケスグレーブとしてデータベースに記憶されている住所をもつ。同様に、このような人の電話番号を探す問合わせ人はその場所のいずれかの呼び方をすることもある。したがってイプスウィッチまたはケスグレーブはデータベースの検索の目的では同義とみなされる。しかしながら、この地理的な別名は複雑であることに留意し、即ちイプスウィッチはフォックスホール（Foxhall ）のような別の局地的な村落と同義であるとみなされるが、ケスグレーブとフォックスホールは異なった位置であるので同義ではない。ボックスＨは完全にするため姓についての話されたボキャブラリを表しているが、このフィールドでは同義語の範囲は恐らく小さい。ボックスＪは同音字および同音異義語（homophone and homonym ）を考慮するため姓についての発音ボキャブラリを表している。例えば、Smith という姓は通常、英単語“pith”のように短い“ｉ”で発音するが、一方Smytheという姓は“ lithe”のように長音で“ｉ”を発音する。他方、Smyth はどちらかの方法で発音される。地域的にアクセントが異なっている例ではその他の例の種々の発音例が生じる。以下説明する理由で、“主要”および“可能性を有する”のリンクが示されている。ボックスＫとＬはそれぞれ名前と地理的名称についての発音ボキャブラリを表している。図２は対話を行う装置のブロック図である。一方オーディオ信号入力１はスピーチ認識装置２に接続されており、オーディオ信号出力３はスピーチシンセサイザ（言語合成器）４に接続されている。記憶プログラム制御されたプロセッサ５の形態の制御装置は認識装置とシンセサイザの動作を制御し、またプログラムメモリ６、動作メモリ（ＲＡＭ）７、データベース８、話されたボキャブラリ変換表９、発音表10へのアクセスを行う。オーディオ入力および出力は電話線等を経て使用者との２方向の通信をするために接続されている。データベース８は前述したようにテキスト形態で電話ディレクトリエントリを含むものと仮定される。話されたボキャブラリ変換表９はディレクトリ表示と話されたボキャブラリ表示から構成されている単語対を含んでいる記憶装置であり、例えばIpswich がその例である。データベース話された言葉表示表示ＩＰＳＷＩＣＨＩＰＳＷＩＣＨＩＰＳＷＩＣＨＫＥＳＧＲＡＶＥＩＰＳＷＩＣＨＦＯＸＨＡＬＬＫＥＳＧＲＡＶＥＫＥＳＧＲＡＶＥＫＥＳＧＲＡＶＥＩＰＳＷＩＣＨＦＯＸＨＡＬＬＦＯＸＨＡＬＬＦＯＸＨＡＬＬＩＰＳＷＩＣＨ（所望ならば、話されたボキャブラリ単語と１：１の対応を有し、同じであるデータベース表示として使用される任意の単語は変換が必要ないのでこの表から省略されてもよい）。変換表９は各タイプのフィールドに対する別々の区域を有し、所定のボキャブラリ単語に対応するデータベース表示を決定するためにプロセッサ５によりアクセスされ、その逆も行われる。所望ならば（またはデータベース表示がテキスト形態ではないならば）全てのアイテムが変換されてもよい。発音表10は検索表（および所望ならば、検索表中のエントリ数を減少するための１セットのルール）を含んでいる記憶装置であり、それによってプロセッサ５は（合成目的または同音異義語の識別目的で）それをアクセスし、それによって所定の話されたボキャブラリ単語に対して１または複数のその発音方法の音声表示を獲得し、反対に（認識のために）その発音に対応する１または複数の話されたボキャブラリ単語を獲得することもできる。各タイプのフィールドに対して別々の区域が所望されるようにしてもよい。装置の動作が図３のフローチャートで示されており、これはメモリ６に記憶されたプログラムとして実行される。第１のステップはシンセサイザを使用して使用者に対する質問の生成と使用者の返答の認識を含んでいる。従って、ステップ 100、104、108では、プロセッサ５はシンセサイザ４へ指令を送信し、電話番号を探す人物の姓名と町名をそれぞれ使用者に言わせるようにリクエストするアナウンスを行う。ステップ102、106、110では、プロセッサは認識装置２へ指令を送信し、これらのフィールドに対応する音声ボキャブラリを参照して使用者の回答を認識するように命令する。認識装置は各認識ステップで使用されるボキャブラリを決定するために変換表９、10をアクセスするか、その固有のボキャブラリを内部で記憶または生成し、後者の場合、使用されたボキャブラリは表９、10（および適切であるならばデータベース）により決定されるボキャブラリに対応しなければならず、それ故、音声ボキャブラリに含まれる単語のみを出力することができる。認識装置は、各認識ステップで、出力として、使用者が実際に話された単語に対して予め定められた類似性基準を満たすだけの数の音声表示を生成するように配置されている。（認識装置は勿論話されたボキャブラリ表示への変換を行い、多数の認識装置はそれを行うことができる。）認識装置は使用者が実際に話した単語が表10中の音声表示のどれともほとんど類似していないことを示し、これをプロセッサ５へ示すことが可能である。好ましくは認識装置は実際に話された単語に対応する相対的な確率または可能性を示している各表示の“スコア ”または確信尺度も生成する。予備ステップ 100−110 は他にも記載されているので（例えば国際特許出願第PCT/GB/02524号明細書を参照）これ以上説明しない。以下のテキストでは、データベースエントリに対して複数のスコアされたタップル（scoredtuple）についての整合を含んだステップを説明する。これらの整合がとれるエントリから、特定の（または弁別可能な）スコアされたタップルのセットが得られ、これはその整合のために使用されたタップルとは異なったセット（恐らくオーバーラップしている）に対応する。ステップ110 に続いて、プロセッサ５は各３つのフィールドに対して、認識されていると考える１または複数の音声表示を利用できるようにしている。ここで必要なことは話されたボキャブラリ表示への変換、即ち図１の左側に示されている変換である。したがってステップ112 では、プロセッサは各単語に対して１または複数の対応する話されたボキャブラリ表示を決定するために表10をアクセスし、それによって各フィールドにつき１つの、３つの話されたボキャブラリ表示のセットを有する。各話されたボキャブラリ表示に対するスコアは変換が行われた（もとの）音声表示に対するスコアである。２つの音声表示が同一のボキャブラリ表示に変換されるならば、２スコア以上の確信が得られる。これは前述の一般化された整合プロセスの特別例であり、ここでは整合がとれるシングル（単一のもの）のセットは発音であり、得られたシングルのセットは話されたボキャブラリアイテムである。ステップ114 では、プロセッサ５は、各話された表示に対して１または複数の対応するデータベース表示を決定するために表９を使用してデータベース表示への変換、即ち図１の中心に示されている変換を行い、それによって３つのデータベース表示のセットをもっている。スコアは初期の変換のために送られる。データベース表示はトリプルの数（実際の数は３つのセットのそれぞれの表示数の積）を表している。トリプルのスコアは一般に、構成される個々の表示のスコアの積である。ステップ116 で、プロセッサはこれらのトリプルのリストを作成し、これをデータベースヘ送り、データベースはこれらのトリプルに対応するデータべースエントリ数のカウントＫを戻す。この数がゼロであるならば（ステップ11 8 ）、ステップ120 でプロセッサはエントリが発見されなかったことをアナウンスするようにシンセサイザヘ指令を送り、プログラムを終了する（ステップ122 ）。その代わりに使用者がマニュアルオペレータへ転送するような他の動作が行われてもよい。エントリが存在するならば、ステップ124 で、ステップ116 で整合した全てのエントリタップルが次いでデータベースから検索され、３以下の弁別可能なエントリが存在するか否かを判断して決定する。タップルは可能性の順序で、最初に最も可能性の高いものの順で検索される。１または複数のタップルが同一スコアを共有することが可能である。この場合、任意のランキングがこれらの間で選択されるか、ランキングを判断するために事前の知識が使用されてもよい。タップルが検索されると、これらが３以下の弁別可能なエントリを表すか否かについての査定が行われる。“弁別可能”の意味とその判断決定方法についてここで説明する。カウント４に到達すると、試験が終了する。（ステップ126 において）弁別可能なエントリの数が３以下であるならば、ステップ128 でプロセッサはこれらのエントリをデータベースから検索し、これらをシンセサイザ４へ転送し、シンセサイザ４はデータベース表示から一次的な音声表示へ変換するために表９、 10を使用して確信性が最も高いものを最初にした確信度の順序で使用者へ読出す。弁別可能なエントリが４以上存在するならば、プロセスは対話確定相に入り、ここで３以下の弁別可能なタップルを含んでいる抽出されたタップルのリストを識別し、続いて確定のため使用者へタップルを提供する。この例では、タップルは名前（名十姓）に対応するデュプルと、町に対応するシングルである。この例の場合でも原理上、これらのタップルの構成単語が使用者が既に尋ねているフィールドに対応する必要はないことに留意すべきである。ステップ130 では、名前のデュプルが既に確定するために与えられているか否かに関する検査が行われ、第１のパスでは回答は常に“ノー”であり、ステップ 132 では抽出された名前のデュプルのリストがトリプルのリストから準備される。リストからの名前デュプルは、３以下の弁別可能なデュプルが存在するか否かを判断して決定するためにステップ124 におけるトリプルの試験方法と類似した方法で試験される。（所望ならば、リスト中の同一でないデータベース表示デュプルの数がカウントされ、例えば３０のような予め定められた限界を越えるならば、詳細な試験プロセスは（ステップ144 へ）スキップされてもよい。）３以下の弁別可能なデュプルが存在するならば（ステップ134 ）スコアされた各デュプルは単一の主要な音声表示へ変換され、ステップ136 で確信度の順序でシンセサイザへ供給され、それによってシンセサイザは質問（例えば）“名前はJohn Smithですか？イエスまたはノーで答えてください”と話しかけ“イエス”または“ノー ”を試験するように認識装置に一度に１つづつプロセッサヘ返答を転送する（13 8 ）。使用者が“イエス”と返答したならば、ステップ140 へ進む。（ａ）姓名フィールドは“確定”とマークされ、したがって確定のために姓名フィールドをさらに与えることはステップ130 のテストによりバイパスされる。（ｂ）確定されたデュプル（以下参照）に関する以外のトリプルのリストの全てのメンバー（構成要素）が消去される。プロセッサはステップ124 から再開される。使用者が“ノー”と返答したならば、トリプルのリストの対応するメンバは消去される。消去されるものは、システム設計者により選択されるように音声表示とデータベース表示間の限定された関係に基づいている。例えば使用者が氏名は “John Smithですか？”と聞かれ、使用者が“ノー”と答えたならば、Smytheが常に SmithまたはSmyth と異なって発音されることがシステム設計者により決定されている場合、JohnおよびSmith/Smyth/Smytheを含むトリプルのリストの全てのメンバが消去されるか、またはJohnおよびSmith/Smyth を含むメンバのみが消去される。同様に、使用者が“氏名はDave Smithですか？”と尋ねられ、使用者が“ノー ”と返答したならば、Dave Smithを含むメンバーは消去されてもよく、使用者は “氏名はDavid Smithですか？”と尋ねられる。（ステップ142 ）使用者が全ての与えられたタップルに対してノーと答えたならば、これは失敗と考慮され、プロセスはステップ120 、122 を経てこれを終了する。ステップ134 のテストで弁別可能な氏名のデュプルの数が確定するには多過ぎるならば、または第２または後続のパスにおけるステップ130 で氏名の確定が既に行われ、（ステップ144 ）で町の名称が確定のために与えられていないならば、町の名称の確定プロセスが開始され、既に説明したステップ132 乃至142 に全ての観点で類似しているステップ146 乃至150 を含んでいる。これらのプロセッサがテスト126 で弁別可能なエントリ数を減少できないならば、プロセッサは与えられた返答に対して多過ぎるエントリが見つかったというアナウンス156 によって最終的に終了する。その代わりに、さらに別のフィールドにおける情報を獲得するために（ステップ100 で行われたように）１または複数の質問をする処理が後続する。明瞭にするために、図３で示されステップ116 から進行する処理をデュプルとシングルの確定に関して説明する。より一般的なアルゴリズムは以下のように進行する。開始：依然としてアクティブなデータベースエントリが存在しないならば： “何もなし”メッセージを与えるアルゴリズムを終了するジャンプ：３以下の弁別可能なデータベースエントリが存在するならば：それらを提供するアルゴリズムを終了する４以上の弁別可能なデータベースエントリが存在するならば：連続し優先順位を有するフィールドまたはまだ確定されていないフィールドの組合わせに対してこれらがなくなるまで以下のことが行われる：これに関して３以下の弁別可能なタップルを有するタップルリストが存在するならば：このリストを確定する確定がポジティブの場合、これを確定しＪＵＭＰへ進むネガティブな確定が“誤ったエントリ”というメッセージを与えたならば： “以下のことを行う”へ戻る優先順位を有するリストでは、尋ねられた次のボキャブラリを得る。尋ねられていないおよび確定されていないボキャブラリが残っているならば：それを尋ねるアルゴリズムのスタートヘ移行する尋ねられていないまたは確定されていないボキャブラリが残っていないならば： “多過ぎる”というメッセージを与えるアルゴリズムを終了する問合わせプロセス全体の別のプロセスが図３ａに示されている。このプロセスは以下のように行われる。開始依然としてアクティブなデータベースエントリが存在しないならば（300 ） “何もない”メッセージを与える（301 ）アルゴリズムを終了する３以下の弁別可能なデータベースエントリが存在するならば（302 ）：それらを提供する（303 ）アルゴリズムを終了する４以上の弁別可能なデータベースエントリが存在するならば（302 ）まだ確定されていないフィールドまたはフィールドの組合わせについての各優先順位を付けられたリストのそれぞれを考慮する（304 ）３以下の弁別可能なタップルを有するタップルリストが存在するならば：このリストを確定する（308 ）肯定的な確定の場合ならば（309 ）：スタートヘ移行する否定的な確定ならば：誤エントリメッセージを与える（310 ）アルゴリズムを終了する。３以下の弁別可能なタップルを有するタップルリストが存在しないならば：次のフィールドまたはフィールドの組合わせを考慮する３以下の弁別可能なタップルを有するリストが存在しないならば：優先順位を付けられたリストでは、尋ねられていないおよび確定されていない残りのボキャブラリが存在するならば（305 ）、それを尋ねる（307 ） “スタート”へ移行する尋ねられていないおよび確定されていない残りのボキャブラリが存在しないならば： “多過ぎる”というメッセージを与える（306 ）アルゴリズムを終了する前述の手順では、存在する弁別可能なタップルの数を判断して決定するためにデータベース表示中のタップルのリストを試験することが必要とされる。（前述のステップ124 のように）問題となるタップルはデータベースエントリ全体であってもよく、これは（ステップ132 のように）２（以上）のフィールドからの表示を含んでいる抽出されたタップルであるか、または（ステップ146 のように）抽出されたシングルであってもよい。２つの表示は以下（ａ）、（ｂ）、（ｃ）であるならば弁別できないと考えられる。（ａ）それらは同一であるかまたは、（ｂ）それらは同一の話されたボキャブラリ単語（例えばこれらは同義語であるか地理的に混雑している）へ変換し、または、（ｃ）それらは同音異義語である話されたボキャブラリ単語に変換し（即ち、これらの単語は同一の音声表示へ変換する）。（前に定義したように）１つのタップルのフィールドが対応する他のタップルのフィールドと弁別できないならば、２つのタップルは弁別できないものと考えられる。同様に、２つの表示は以下（ａ）、（ｂ）、（ｃ）であるならば弁別できると考えられる。（ａ）それらは同一ではない（ｂ）それらは同一の話されたボキャブラリ単語（例えばそれらは同義語ではなく地理的に混同を生じていない）へ変換しない（ｃ）それらは同音異義語である話されたボキャブラリ単語に変換せず（即ち、これらの単語は同一の音声表示へ変換しない）。データベース表示のタップルのリストを有し、リストの第１のタップルがＤ（１）、リストのｎ番目の位置を現在占有するタップルがＤ（ｎ）であり、ｎ＝１，・・・，Ｎであり、リスト中にＮ個のタップルが存在することを想定する。各タップルはＭフィールドからなり、ｄとして示され、タップルＤ（ｎ）のｍ番目のフィールドはｄ（ｎ，ｍ）、即ちＤ（ｎ）＝｛ｄ（ｎ，ｍ）｝、ｍ＝１，・・・，Ｍである。好ましくはリストはスコアにより順序を定められ、即ち最高の確信度を有するタップルはＤ（１）であり、次に高い確信度を有するタップルはＤ（２）である。以下説明するプロセスは図４のフローチャートに示されており、リストから第１のタップルを取り、それをリストにおけるその下部のタップルと比較し、２つが弁別可能であるか否かを確めることを含んでいる。これらが弁別可能ではないならば、下部の位置を占有するタップルはリストから消去される。全てのタップルが試験されるまでこれが繰返される。同じステップがリストの第２の位置を現在占有しているタップルに対して行われ、以下同様に行われて最終的にリストに残る個々のタップルが他のものと弁別可能である。所望ならば、弁別可能なタップル数が後続するステップにより処理されることができるタップル数を越したことを確定すると直ぐにプロセスは終了される（即ち例３）。図４では、ｉはリストの１つのタップルを指しており、ｊはリストの下部の１つのタップルを指している。ｌはリスト中のタップル数である。ステップ200 では、ｉは１に初期設定され、ｌはＮに設定され、ステップ202 では、Ｄ（ｉ）がデータベースから読取られる。ステップ204 はｊを後続するタップルの点へ設定し、ステップ206 でＤ（ｊ）が読取られる。フィールドポインタｍはその後ステップ208 で１に初期化され、この後に後続のループで２つのタップルの各フィールドが順に採用される。タップルＤ（ｉ）のフィールドｍは表９によって１または複数の話されたボキャブラリ単語ｓ１（ａ）へ変換され、ここでａ＝１，・・・Ａであり、Ａは実際上は、発見された同義語の数である。話されたボキャブラリ単語ａ１は表１０によりＢ音声表示ｐ１（ｂ）（ｂ＝１，・・・Ｂ）の総数へ変換される。Ｂはこのような表示の数、即ち同音異義語の数により乗算されたＡである。類似のステップ214 、216 は１または複数の音声表示ｐ２（ｄ）（ｄ＝１，… Ｄ）を生成する対応するフィールドＤ（ｊ）の２段変換を行う。ステップ218 では、各音声表示ｐ１（ｂ）は各表示ｐ２（ｄ）と比較される（即ちＢＤの全体比較）。これらの比較に同一性が発見されなかったならば、２つのタップルは弁別可能であると考えられる。（ステップ226 において）ｊがリストの最後のタップルに到達していないならば、これはステップ206 の反復においてさらにタップルを読取る前にインクレメントされ（ステップ228）、そうでなければタップルポインタｉはリストの語尾から２番目のメンバに到達するか否かに関してステップ230 でテストされ、（到達していないならば）ステップ202 に戻る前にインクレメント（232）され、（到達しているならば）プロセスは終了する。この点で、リストは相互に識別可能なタップルのみを含んでおり、ｌは数であり、結果ｋはステップ234 でプロセスのこの部分から出る前にステップ23３でｌに設定される。一方、218 における比較が１つのタップルの１つのフィールドで生成された音声表示のうちの１つと、他のタップルの同じフィールドで生成された音声表示のうちの１つとの間の識別を示しているならば、ｍをインクレメント（ステップ23 6 ）し、さらに別のフィールドに対してステップ210 から218 を繰り返すことが必要である。２つのタップルの全てのフィールドが比較され、全てが弁別可能ではないならば、これはステップ238 で認識され、タップルは識別可能ではないと考えられる。この場合、低いタップルＤ（ｊ）がリストから外され、ｌがデクレメントされ、それによってリストに残るタップル数を表し続ける（ステップ240 、242 ）。ｊはステップ244 で、これが（短くされた）リストの端を越えて指しているか否かを決定するテストをされ、さらにタップルが試験されない場合には、ステップ206 から継続される。そうでなければプロセスは既に説明したようにステップ230 へ進行する。ステップ232 がｉをタップルへの点へインクレメントする毎に、ステップ240 によりリストから除去されることにならない少なくともｉタップルが存在することが知られている。したがってこの点では、ｉはこれが３に到達するか否かを見るためにテストされることができ（ステップ246 ）、到達しているならば、プロセスは中断され、ｋは４に設定され、出口234 へ進む。図４のアルゴリズムと図３または３ａのステップの関係を明瞭にするため、以下のことを注目すべきある。（ａ）アルゴリズムはステップ124 の実行を表し、図４の結果におけるリストはエントリがステップ128 で与えられるエントリを（データベースから）アクセスするために使用される。（ｂ）アルゴリズムはステップ132 の実行を表し、図４の結果におけるリストはステップ136 で使用者へ与えられるための（データベース表示の）氏名デュプルのリストを表している。（ｃ）アルゴリズムはステップ146 の実行を表し、図４の結果におけるリストはステップ150 で使用者へ与えられるための町のリストを表している。（ｄ）アルゴリズムはステップ302 の実行を表している。図３のステップ140 と154 で行われる除去を説明しなければならない。ステップ140 を例に挙げると、従うべき原理は、使用者が、弁別可能ではないと考えられるタップルの対（またはグループ）の１つであるタップル（この場合ではデュプル）を確定する場合、これは他の対またはグループの他のタップルの確定を構成するものと考えられる。例えば、氏名デュプルのリストが、以下の氏名を含み、ＤａｖｅＳｍｉｔｈＤａｖｉｄＳｍｙｔｈこれらがステップ132 により弁別可能ではないと考えられるならば、（例えば最初の“ＤａｖｅＳｍｉｔｈ”の場合）１つのエントリのみがステップ136 で確定されるために使用者へ与えられる。与えられるタップルは、システム設計者による選択にしたがって決定される。しかしながら、使用者が“イエス”と返答したならば、ステップ140 で、“ＤａｖｅＳｍｉｔｈ”を含む全てのタップルならびに “ＤａｖｉｄＳｍｙｔｈ”を含む全てのタップルが保持される。これはステップ132 で行われる変換結果を使用して行われるが、以下のように進行することが好ましい。音声表示における確定されたデュプルの各フィールドｐ（即ちステップ136 で生成されたデュプル）は表９、１０を使用して１または複数のデータベース表示へ変換される。これらの表示の組合わせにより表される全てのデュプルが確定され、即ちこれらのデュプルのうちの１つを含んでいるトリプルのリストが保持され、他のトリプルは消去される。図１のエンティティ関係図と、図３、４で説明されているプロセスとの関係を明瞭にする価値がある。これらのプロセスでは、データベース表示から話されたボキャブラリ表示へ、さらに音声表示への（即ち図１の右から左へ）変換が行われ、またその反対方向、即ち音声表示から、話されたボキャブラリ表示へ、さらにデータベース表示への（即ち図１の左から右）変換が行われる。図面の代わりの通路（例えば話される可能性／主として話される）の存在は変換ルートの選択を示している。合成するために、“主として話される”ルートが通常使用され、他の目的では、変換に同義語または同音異義語を含むか除外するかの要求にしたがって変化が可能である。異なったルートを以下表にし、名前に対するルートセットの１例を含んでいる。他のマッピングが使用されてもよい。したがって、入力が受信され、入力信号を表す機械表示が発生されたとき、シングル入力に対する機械表示は全ての可能なデータ表示へ変換される。これを実現するために、入力は“可能性のある発音”ルートによって話された認識ボキャブラリヘマップされる。したがって、入力の全ての可能な話された表示が識別される。これらの話されたボキャブラリ表示はその後、話された表示が表している全ての可能なデータベース表示（例えば“話される可能性のある”）へマップされる。例えば、名前“Ｄａｖｅ”が入力され、音声表示D AI VとM AI Vがスピーチ認識装置２により発生される。これらの音声表示は例えば“Ｄａｖｅ”と“Ｍａｖｅ”のように話されたボキャブラリ表示へ変換される。これらの各話されたボキャブラリ表示はその後、記憶装置９によって全ての可能なデータベース表示（“話される可能性のある”）例えばＤａｖｅ、Ｄａｖｉｄ、Ｍａｖｅ、Ｍａｖｉｓへ変換される。プロセッサ５は名前フィールド中のこれらのエントリを含む全てのエントリに対してデータベース８を検索する。プロセッサ５は発見された全てのエントリに対して、選択されたフィールドに含まれるそれぞれの表示を試験し、これらの組合わせから弁別可能なものを識別する。弁別可能なエントリは確定するために使用者へ与えられる。これを行うために、プロセッサ５は話されたボキャブラリ記憶装置10を参照して、限定された関係にしたがって、識別されたデータベース表示を“可能性のある話された”ルートにより話されたボキャブラリヘ変換する。したがって、Ｄａｖｅの全てのエントリは“Ｄａｖｅ”または“Ｄａｖｉｄ”へ変換され、Ｄａｖｉｄに対する全てのエントリは“Ｄａｖｅ”または“Ｄａｖｉｄ”へ変換され、Ｍａｖｅに対する全てのエントリは“Ｍａｖｅ”または“Ｍａｖｉｓ”へ変換され、Ｍａｖｉｓの全てのエントリは“Ｍａｖｅ”または“Ｍａｖｉｓ”へ変換される。プロセッサ５はその後、記憶装置10を参照して話されたボキャブラリ表示を音声表示（“ 可能性のある発音”）へ変換する。したがって“Ｄａｖｅ”、“Ｄａｖｉｄ”、 “Ｍａｖｅ”、“Ｍａｖｉｓ”が発音される態様を表す音声表示はD AI V、DA I V I D、D AA V I D、M AI V、M AI VI Sとして決定される。これらの音声表示は弁別可能なものを識別するために試験される。例えばＤａｖｅとＤａｖｉｄはそれらが少なくとも１つの共通の発音を共有しているので弁別可能ではない。しかしながら、ＭａｖｅとＤａｖｅはこれらが共通の音声表示を共有していないので弁別可能である。２つのデータベース表示が弁別可能でないことが認められたならば、一方の表示が維持され、他方は消去され、例えばＤａｖｉｄはＤａｖｅに勝るものとして選択され、ＭａｖｉｓはＭａｖｅに勝るものとして選択される。この選択はシステム設計者により判断されて決定され、メモリ６に記憶される。“Ｄａｖｉｄ”および“Ｍａｖｉｓ”の最も確率の高い音声表示が“話される可能性／主として話される”関係を用いてプロセッサ５によりシンセサイザ４へ、さらに使用者へ与えられる。実際、記憶装置９、10は各マッピングに対する別々の“表”を含んでもよいことに留意すべきである。図１はアナウンス手段、例えばスピーチシンセサイザのボキャブラリが入力手段、例えばスピーチ認識装置のボキャブラリと同一である状態を示している。しかしながら、これは必ずしも常に同一ではない。例えば、スペリングは話している形態に対する代わりの入力または確定媒体として使用されてもよいことに留意すべきである。スペリングに必要な技術は話された形態に直接類似している。図５は図１に対応し、（ボックスＭで示されている）町名のスペリングを有する（簡単にするためにこれらのマッピングは図５で示されていないがスペリングはまた姓名に対して与えられる。）“可能性のあるスペル”、“主としたスペル”が話された認識に加えて設けられる。スペリングが、図１を参照して前述した全てのルートを認識または確定する期間に使用されるならば、“スペル”は“発音”に置換され、アルゴリズムは全て依然として適用される。提供および確定に関する考察が依然として行われるので、話されたまたはスぺルの入力または出力は基本的ではないことを注意しなければならない。例えばキーパッド入力が使用されるが、これは１または複数の文字を電話キーパッドの各ボタンヘ割当てるために曖昧さの問題が生じる。この場合、キーパッド入力コードのさらに別のボキャブラリが必要とされ、“可能性のあるキー”の変換は前述した発音およびスペリング変換と類似している。入力ボキャブラリとデータベースの機械表示は同一の技術にしたがって発生され、例えばデータベースエントリはテキスト形態で記憶され、入力もテキスト形態で記憶され、データベースと出力の機械表示は話された出力等の異なった技術にしたがって発生される。使用者により話された実際の単語の同義語を含んでいるアナウンスが使用者に与えられると混乱が生じる。例えば使用者が“ＤａｖｅＳｍｉｔｈ”について尋ねると、システムは“ＤａｖｉｄＳｍｉｔｈと言いましたか？”という出力を発生する。この混乱を避けるため、識別された弁別可能なデータベースエントリに対応する単語が入力手段により認識される単語に対応することを確認するチェックが行われる。

───────────────────────────────────────────────────── フロントページの続き (72)発明者オルセン、ポール・アンドリューイギリス国、アイピー４・２アールエヌ、サフォーク、イプスウィッチ、アレキサンドラ・ロード 65 (72)発明者ブリッジマン、シーマス・オーデェインアイルランド国、４ダブリン、マリオン・ロード（番地なし）、マリオン・ハウス、テレコム・アイルランド・ソフトウェアー内 (72)発明者ウィットテーカー、スティーブン・ジョンイギリス国、アイピー４・４エルピー、サフォーク、イプスウィッチ、ブリストル・ロード 53 【要約の続き】ラリの表示へ変換されるときの弁別可能な表示または組合わせは、同様に変換されるときの弁別可能な表示または組合わせと互いに異なっており、（iv）弁別可能な表示または組合わせのうちの１つに対応する少なくとも１つの単語または単語の組合わせを含んでいる出力を発生する出力手段を制御するステップを有する。

Claims

【特許請求の範囲】１．データベースアクセス装置において、（ａ）エントリに属する情報のアイテムの機械表示を含む複数のフィールドをそれぞれ具備するエントリを含んでおり、前記表示は第１のボキャブラリを形成しているデータベースと、（ｂ）このような表示の第２のボキャブラリ内に入る機械表示に応答して話されたアナウンスを表したオーディオ信号を発生するアナウンス手段と、（ｃ）信号を受信し、このような表示の第３のボキャブラリ内に入る機械表示を発生するように動作可能な入力手段と、（ｄ）第１のボキャブラリと第２のボキャブラリとの間、および第１のボキャブラリと第３のボキャブラリとの間の関係を規定する変換手段と、（ｅ）制御手段とを具備しており、この制御手段は、（ｉ）規定された関係にしたがって、入力手段により発生される表示に対して第１のボキャブラリにしたがって１以上の表示を発生し、（ii）発生された表示を含んでいるデータベースエントリを識別し、（iii ）識別されたエントリの選択されたフィールドまたはフィールドの組合わせに含まれている各表示または表示の組合わせを検査し、これらの表示または組合わせのうち弁別可能なものを識別し、規定された関係にしたがって第２のボキャブラリの表示へ変換されるときの弁別可能な表示または組合わせは、同様に変換されるときの弁別可能な表示または組合わせと互いに異なっており、（iv）アナウンスを生成するアナウンス手段を制御するように動作可能であり、アナウンスは弁別可能な表示または組合わせの１つに対応する少なくとも１つの単語または単語の組合わせを含んでいるデータベースアクセス装置。２．制御手段は、アナウンス手段を制御するように動作可能であり、それによって弁別可能な表示または組合わせの１つに対応する少なくとも１つの単語または単語の組合わせをそれぞれ含んでいる連続的アナウンスを生成し、逐次的な確信順序でアナウンスを出力するためアナウンス手段を制御するように動作可能であり、第１のアナウンスは最も弁別可能な表示または組合わせに対応する少なくとも１つの単語または単語の組合わせを含んでいる請求項１記載の装置。３．制御手段は、前記ステップ（iv）において、各弁別可能な表示または組合わせに対して、弁別可能な表示または組合わせから変換手段を使用して、第２のボキャブラリの１つの表示または組合わせを生成し、これをアナウンス手段へ送信するように動作可能である請求項１または２記載の装置。４．制御手段は、ステップ（iv）において、各弁別可能な表示または組合わせに対して、アナウンス手段へ第２のボキャブラリの１つの表示または組合わせを送信し、第２のボキャブラリは変換手段により規定される関係にしたがって、ステップ（iii ）ですでに生成されている弁別可能な表示または組合わせに対応している請求項１または２記載の装置。５．制御手段は、ステップ（iv）において、含まれている単語または組合わせの確定をリクエストするアナウンスを発生するように動作可能であり、さらに動作において、（ｖ）確定応答を受信したとき、含まれている単語に対応する第２のボキャブラリ中の表示または組合わせから、１以上の表示または組合わせを第１のボキャブラリにしたがって生成し、選択されたフィールドでこのような表示または組合わせを含んでいるデータベースエントリを識別するように配置されている請求項１乃至４のいずれか１項記載の装置。６．入力手段はオーディオ信号を受信するように動作可能なスピーチ認識装置である請求項１乃至５のいずれか１項記載の装置。７．第２および第３のボキャブラリは同一である請求項６記載の装置。８．第１および第３のボキャブラリは同一である請求項１乃至７のいずれか１項記載の装置。９．少なくとも１つの選択されたフィールドは、生成された表示がステップ（ii ）で発見されたフィールドであり、ステップ（iv）に含まれる単語が入力手段により生成される表示に対応している単語である請求項１乃至８のいずれか１項記載の装置。１０．さらに中間ボキャブラリを具備し、変換手段は第１のボキャブラリと中間ボキャブラリとの関係と、第２のボキャブラリと中間ボキャブラリとの関係と、第３のボキャブラリと中間ボキャブラリとの関係を定めている請求項１乃至９のいずれか１項記載の装置。１１．エントリに属する情報のアイテムの機械表示を含む複数のフィールドをそれぞれ具備したエントリを含んでおり、前記表示は第１のボキャブラリを形成するデータベースと、このような表示の第２のボキャブラリに入る機械表示に応答し、話されたアナウンスを表すオーディオ信号を発生するアナウンス手段と、信号を受信してこのような表示の第３のボキャブラリに入る機械表示を発生するように動作可能な入力手段とを具備しているデータベースシステムのアクセス方法において、（ｉ）第１のボキャブラリと第３のボキャブラリの間の規定された関係にしたがって、入力手段により生成される各表示に対して、第１のボキャブラリにしたがって１以上の表示を発生し、（ii）生成された表示を含んでいるデータベースエントリを識別し、（iii）識別されたエントリの選択されたフィールドまたはフィールドの組合わせに含まれている各表示または表示の組合わせを検査してこれらの表示または組合わせのうちの弁別可能なものを識別し、定められた関係にしたがって第２のボキャブラリの表示へ変換されるときの弁別可能な表示または組合わせは、同様に変換されるときの他の弁別可能な表示または組合わせと互いに異なっており、（iv）アナウンスを生成するアナウンス手段の制御は弁別可能な表示または組合わせのうちの１つに対応する少なくとも１つの単語または単語の組合わせを含んでいるステップを有するデータベースシステムのアクセス方法。１２．ステップ（iv）において、逐次的な確信度順序で１以上のアナウンスを出力する出力手段を制御し、第１のアナウンスは最もそれらしい高い弁別可能な表示に対応する少なくとも１つの単語または単語の組合わせを含んでいる請求項１１記載の方法。１３．（ａ）応答を必要とする少なくとも１つのアナウンスを生成し、（ｂ）応答を認識し、（ｃ）認識された応答に整合するフィールドを含んだデータベースエントリを識別し、（ｄ）このようなエントリの数が予め定められた限界を越えた場合、ポジチブまたはネガチブな応答に対する識別されたエントリの選択されたフィールドに対応する少なくとも１つの単語を含んだ出力を発生し、（ｅ）ポジチブな応答を受信したとき、認識された応答に整合するフィールドを含みその選択されたフィールドが前記単語に一致するデータベースエントリを識別し、（ｆ）ステップ（ｄ）と（ｅ）を少なくとも１度反復するステップをさらに有する請求項１１または１２記載の方法。１４．（ａ）応答を必要とする少なくとも１つのアナウンスを生成し、（ｂ）応答を認識し、（ｃ）認識された応答に整合するフィールドを含んだデータベースエントリを識別し、（ｄ）このようなエントリの数が予め定められた限界以下である場合、整合するエントリの１以上のフィールドをそれぞれ含んだ１以上のエントリを与える出力を発生し、終了し、（ｅ）このようなエントリの数が予め定められた限界を越えた場合、特定のフィールドまたはフィールドの選択に対して、同一のエントリの特定のフィールドまたはフィールドの組合わせに含まれている弁別可能な表示または表示の選択を試験し、（ｆ）このような弁別可能な表示または表示の組合わせの数が予め定められた限界を越えた場合、ステップ（ｅ）を反復し、予め定められた順序にしたがって別のフィールドまたはフィールドの選択を選択し、これは考慮されるフィールドがなくなるまで考慮されず、（ｇ）すでにリクエストされていないまたは確定されていない応答を必要とする少なくとも１つの出力を発生し、（ｈ）応答を認識し、（ｉ）少なくとも１度ステップ（ｃ）を反復し、（ｊ）このような弁別可能な表示または表示の組合わせの数が予め定められた限界以下である場合、ポジチブまたはネガチブな応答に対する識別されたエントリの選択されたフィールドに対応する少なくとも１つの単語を含んだアナウンスを発生し、（ｋ）ポジチブな応答を受信したとき、認識された応答に整合するフィールドを含みその選択されたフィールドが前記単語または単語の組合わせに整合するデータベースエントリを識別し、（１）ステップ（ｄ）および（ｅ）を少なくとも１度反復し、（ｍ）全てのこのような単語または複数の単語のネガチブな応答を受信したとき、データベースアクセス方法を終了するステップを有する請求項１１または１２記載の方法。