JP7287459B2

JP7287459B2 - 発話画像化装置、発話画像化方法及びプログラム

Info

Publication number: JP7287459B2
Application number: JP2021514735A
Authority: JP
Inventors: 陽子石井; 桃子中谷; 愛中根; 明日香小野; 由美子松浦
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2023-06-06
Anticipated expiration: 2039-04-18
Also published as: US12205610B2; JPWO2020213115A1; WO2020213115A1; US20220199104A1

Description

本発明は、発話画像化装置、発話画像化方法及びプログラムに関する。

従来、人物の発話内容をリアルタイムで自動的にテキスト化して記録する技術が開示されている（例えば、非特許文献１）。

鎌土,藤村,岩瀬,青野,政瀧,山田,大津谷,"HTML5対応クラウド音声認識プラットフォーム", 研究報告音声言語情報処理（SLP）,2015-SLP-108(3),pp.1-6 (2015)

複数名で対話を行う場合、非特許文献１に記載の技術によれば、対話内容をリアルタイム、かつ、自動的にテキスト化することができる。

しかしながら、全ての会話をテキストとして確認しながら対話を行うことは聞き手側の認知的負荷が高い。例えば、自己紹介の場において、テキストで発話内容のみを表示しても認知的負荷が高いため相互理解が促進されづらい。

本発明は、上記の点に鑑みてなされたものであって、発話内容に対する認知的負荷を低下させることを目的とする。

そこで上記課題を解決するため、発話画像化装置は、複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出部と、前記一部の文字列に基づく画像を取得する取得部と、前記画像を前記発話に係る話者に対応する位置に出力させる出力部と、を有する。

発話内容に対する認知的負荷を低下させることができる。

本発明の実施の形態におけるシステム構成例を示す図である。本発明の実施の形態における発話画像化装置１０のハードウェア構成例を示す図である。本発明の実施の形態における発話画像化装置１０の機能構成例を示す図である。投影範囲内における最大の楕円を説明するための図である。発話画像の第１の出力例を示す図である。発話画像の第２の出力例を示す図である。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態におけるシステム構成例を示す図である。図１に示されるように、本実施の形態では、マイクなどの集音装置２０ｘ、２０ｙ及び２０ｚ（以下、それぞれを区別しない場合、単に「集音装置２０」という。）と、プロジェクタ（投影装置）などの表示装置３０と、ＰＣ（Personal Computer）等の発話画像化装置１０と、プロジェクタなどの表示装置３０とが利用される。また、必要に応じて、撮影装置４０が利用されてもよい。各集音装置２０、表示装置３０及び撮影装置４０は、それぞれに応じたインタフェースを介して発話画像化装置１０に接続される。集音装置２０は、対話を行う複数の人物（以下、「参加者」という。）のそれぞれに対して設置される。本実施の形態では、参加者Ｘ、参加者Ｙ及び参加者Ｚの３人によって対話が行われ、当該対話が可視化される例について説明する。したがって、３台の集音装置２０が設置される。但し、２人又は４人以上によって対話が行われる場合に対して本実施の形態が適用されてもよい。なお、本実施の形態では、対話の場面として自己紹介を行う場面を想定する。したがって、参加者Ｘ、参加者Ｙ、参加者Ｚは、例えば、皆向かい合うように円座し、順番に話者となる（自己紹介を行う）。したがって、或る瞬間において話者は一人である。但し、対話の内容は自己紹介でなくてもよい。また、各参加者の位置関係は、円座に限られない。

各集音装置２０は、それぞれに対応する参加者（参加者Ｘ、参加者Ｙ又は参加者Ｚ）の声を音声信号として入力する。

表示装置３０は、話者による発話内容に基づく画像を出力する。

撮影装置４０は、参加者Ｘ、参加者Ｙ、参加者Ｚの様子を撮影する。なお、１台の撮影装置４０によって全員を撮影できない場合等には、複数台の撮影装置４０が用いられてもよい。

図２は、本発明の実施の形態における発話画像化装置１０のハードウェア構成例を示す図である。図２の発話画像化装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

発話画像化装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って発話画像化装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図３は、本発明の実施の形態における発話画像化装置１０の機能構成例を示す図である。図３において、発話画像化装置１０は、特徴設定部１１、キーワード抽出部１２、画像化部１４及び出力データ生成部１５等を有する。これら各部は、発話画像化装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。但し、これら各部は、同じコンピュータ内に実装されなくてもよい。これら各部は、複数のコンピュータに分散されて実装されてもよい。すなわち、発話画像化装置１０は、１又は複数のコンピュータによって構成されてもよい。

以下、各部が実行する処理手順について説明する。

［特徴設定部１１］
特徴設定部１１は、発話の中からのキーワードの候補を抽出（又は検出）するための条件を示す設定情報（何を、どれだけ）の設定をユーザから受け付ける。ユーザによる設定情報の設定は、キーワード抽出部１２が動作する前に一度だけ行われればよい。但し、設定情報が変更される場合、特徴設定部１１は、ユーザからの設定情報の受け付けを再度行ってもよい。なお、設定情報は、例えば、補助記憶装置１０２等に記憶される。

キーワードとして「何を」抽出するかについての設定内容は、例えば、品詞によって指定されてもよい。

「どれだけ」については、例えば、話者が交代するたびにＮ個抽出することが設定されてもよい。この場合は、或る話者が長時間発話した場合には、Ｎ個抽出した後の発話に対しては、キーワードの抽出は行われないようにしてもよい。Ｎは自由に設定可能とする。また、一人の話者の一定時間の発話から頻出度の高いキーワード、又は逆に頻出度の低いキーワードから順にＮ個を抽出することが設定内容とされてもよい。この場合、話者が交代してから、予め設定された一定時間が経過するたびに、Ｎ個のキーワードの候補が抽出されることになる。仮に、頻出度の高い順に３個と、頻出度の低い順に３個が設定内容とされた場合、一定時間経過ごとに３個ずつ、合計６個のキーワードの候補が抽出される。設定する時間や個数は自由に設定可能とする。

更に、「何を」、「どれだけ」に加えて「いつ」が指定可能とされてもよい。例えば、対話全体の音量の大きさが閾値と比較され、音量が或る閾値を超えて大きい期間（対話の盛り上がり時を想定）や、逆に音量が或る閾値を下回って小さい期間（聞き取れない人がいる時を想定）における音声がキーワードの候補の抽出対象とされるように設定されてもよい。

［キーワード抽出部１２］
キーワード抽出部１２は、設定情報、及び各集音装置２０が入力した音声データや撮影装置４０で取得された映像データ等を入力とし、或る期間（例えば、話者の交代からの所定期間）における音声データが示すテキスト（文字列）から設定情報に合致するキーワード（すなわち、音声データが示すテキストの一部の文字列）の候補を抽出し、抽出したキーワードの候補を出力する。

キーワード抽出部１２は、いずれかの集音装置２０から音声データが入力されると、当該音声データに係る話者がいずれの参加者であるのかを特定する。例えば、キーワード抽出部１２は、各集音装置２０から入力される音声データのうち、音量が予め設定される閾値を一定時間を超えて、かつ、音量が最も大きい集音装置２０に対応する参加者を話者として特定する。集音装置２０と参加者との対応情報は、例えば、補助記憶装置１０２に予め記憶されていてもよい。なお、話者が特定されている状態において、当該話者以外の参加者に係る音量が上記の条件を満たした場合、キーワード抽出部１２は、当該参加者を新たな話者として特定する（すなわち、話者の交代を検知する。）。

但し、話者の交代の検知には、トーキングスティックのような明示的に話者を示すデバイスが用いられてもよい。その場合、キーワード抽出部１２は、トーキングスティックを保持している参加者を話者として特定し、トーキングスティックの保持者が交代した際に話者の交代を検知する。誰がトーキングスティックを保持しているかは、撮影装置４０による映像データに対する画像認識に基づいて判定されてもよいし、人手で発話画像化装置１０に対して入力されるようにしてもよい。

続いて、キーワード抽出部１２は、話者の特定（交代の場合も含む。）の対象となった音声データから、設定情報に合致するキーワードを抽出する。当該音声データは、集音装置２０から当該音声データの入力が開始されてから、所定期間における音声データをいう。所定期間とは、例えば、設定情報に含まれる条件が満たされるまでの期間や、話者の交代が検知されるまでの期間である。

キーワード抽出部１２は、まず、当該音声データをテキストデータに変換する。変換するための技術としては音声認識エンジンなどが用いられればよい。一例として、クラウド上の音声認識エンジンをｗｅｂブラウザで利用することが可能なＡＰＩを用いる例を示す。この場合、発話画像化装置１０で開いたｗｅｂブラウザから音声データを送信することで、リアルタイムに音声をテキスト化することが可能になる。音声認識エンジンは、テキスト化されたデータを形態素解析し、各単語の品詞を推定した形で音声認識の結果を含むテキストデータを応答する。キーワード抽出部１２は、当該テキストデータの中から、設定情報に合致する１以上のキーワード群（該当するキーワードが１つの場合も「キーワード群」という。）を抽出し、抽出されたキーワード群及び話者である参加者の識別情報（以下、「参加者ＩＤ」という。）を出力する。

議題特徴抽出部１３ａ、話者特徴抽出部１３ｂ、複数話者特徴抽出部１３ｃ及びＤＢ参照特徴抽出部１３ｄのそれぞれは、キーワード抽出部１２から出力されたキーワード群（以下、「キーワード群Ｗ１」という。）を入力とし、それぞれに対して設定された特徴情報に対して関連性が高い１以上のキーワードの集合（以下「キーワード群Ｗ２」という。）をキーワード群Ｗ１から抽出し、抽出されたキーワード群Ｗ２を出力する。すなわち、キーワード群Ｗ２は、キーワード群Ｗ１の部分集合である。関連性の高さは、キーワードと特徴情報との関連度を閾値と比較することで判定されてもよい。この場合、閾値は任意に設定可能とされてよい。特徴情報の一例として、単語や文章が挙げられる。

［議題特徴抽出部１３ａ］
議題特徴抽出部１３ａは、キーワード抽出部１２からキーワード群Ｗ１が出力されると、議題特徴抽出部１３ａに対する特徴情報として、例えば、事前に補助記憶装置１０２に登録された特徴情報を補助記憶装置１０２から読み出す。議題特徴抽出部１３ａに対する特徴情報とは、例えば、趣味や出かけ先となる場所など、議題や話題となりそうな名詞を含む単語又は文章である。

特徴情報として１以上の単語（以下、「特徴単語」という。）が登録されている場合、議題特徴抽出部１３ａは、以下の＜単語の場合の例１＞及び＜単語の場合の例２＞の２つの例のいずれかの手順によって、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

＜単語の場合の例１＞
議題特徴抽出部１３ａは、キーワード群Ｗ１に含まれるキーワードごとに、各特徴単語とのシソーラス距離（概念距離）を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。シソーラス距離（概念距離）は、例えば、ＷｏｒｄＮｅｔを用いて計算されてもよい。なお、シソーラス距離は、関連度が高いほど小さい値となり、関連度が低いほど大きい値となる。議題特徴抽出部１３ａは、当該合計値が閾値未満であるキーワードをキーワード群Ｗ２として抽出し、出力する。

＜単語の場合の例２＞
機械学習を用いて予め単語データのベクトル空間を構築しておく。議題特徴抽出部１３ａは、例えば、キーワード群Ｗ１に含まれる各キーワードと各特徴単語とのそれぞれについて、ｗｏｒｄ２ｖｅｃといった機械学習のアルゴリズムを用いて、当該ベクトル空間における分散表現を取得する。これにより各キーワード及び各特徴単語を多次元のベクトルデータの数値に変換することが可能になる。議題特徴抽出部１３ａは、キーワード群Ｗ１に含まれるキーワードごとに、当該キーワードの分散表現と、各特徴単語の分散表現とのユークリッド距離を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。なお、ユークリッド距離は、関連度が高いほど小さい値となり、関連度が低いほど大きい値となる。議題特徴抽出部１３ａは、当該合計値が閾値未満であるキーワードをキーワード群Ｗ２として抽出し、出力する。

一方、特徴情報として１以上の文章（以下、「特徴文章」という。）が登録されている場合、議題特徴抽出部１３ａは、以下の＜文章の場合の例１＞及び＜文章の場合の例２＞の２つの例のいずれかの手順によって、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

＜文章の場合の例１＞
議題特徴抽出部１３ａは、まず、特徴文章を形態素解析し、特徴文章を単語単位に分割する。議題特徴抽出部１３ａは、分割された単語の中から、例えば、名詞のみを特徴単語として抽出する。例えば、自己紹介などの対話でよく用いられる議題として「好きな食べ物を答えてください」、「よく出かけるお出かけ場所を答えてください」といった文章を例に考える。この場合は、「食べ物」、「場所」といった単語が特徴単語として抽出される。議題特徴抽出部１３ａは、キーワード群Ｗ１に含まれるキーワードごとに、各特徴単語とのシソーラス距離（概念距離）を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。議題特徴抽出部１３ａは、当該合計値が閾値未満であるキーワードをキーワード群Ｗ２として抽出し、出力する。

＜文章の場合の例２＞
機械学習を用いて予め単語データのベクトル空間を構築しておく。議題特徴抽出部１３ａは、例えば、キーワード群Ｗ１に含まれる各キーワードと各特徴文章とのそれぞれについて、ｄｏｃ２ｖｅｃといった機械学習のアルゴリズムを用いて、当該ベクトル空間における分散表現を取得する。なお、特徴文章の分散表現を取得する場合、当該特徴文章を形態素解析し、単語群に分割する。当該単語群をｄｏｃ２ｖｅｃアルゴリズムに渡すことで当該特徴文章を分散表現に変換することができる。議題特徴抽出部１３ａは、キーワード群Ｗ１に含まれるキーワードごとに、当該キーワードの分散表現と、各特徴単語の分散表現とのユークリッド距離を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。議題特徴抽出部１３ａは、当該合計値が閾値未満であるキーワードをキーワード群Ｗ２として抽出し、出力する。

議題特徴抽出部１３ａによれば、議題の特徴に対して関連性が相対的に高いキーワードがキーワード群Ｗ２として抽出される。なお、特徴単語及び特徴文章の双方が特徴情報として登録されてもよい。

［話者特徴抽出部１３ｂ］
話者特徴抽出部１３ｂは、キーワード抽出部１２からキーワード群Ｗ１及び参加者ＩＤが出力されると、話者特徴抽出部１３ｂに対する特徴情報として、例えば、事前に補助記憶装置１０２に参加者別に登録された特徴情報のうち、当該参加者ＩＤに対応する特徴情報を補助記憶装置１０２から読み出す。話者特徴抽出部１３ｂに対する特徴情報とは、例えば、話者の個人情報であり、例えば本人の居住地や家族構成などのプロフィールや趣味など個人を表す情報を含む単語（特徴単語）又は文章（特徴文章）である。

特徴情報として１以上の特徴単語が登録されている場合、話者特徴抽出部１３ｂは、上記の＜単語の場合の例１＞及び＜単語の場合の例２＞の２つの例のいずれかの手順によって、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

一方、特徴情報として１以上の特徴文章が登録されている場合、話者特徴抽出部１３ｂは、上記の＜文章の場合の例１＞及び＜文章の場合の例２＞の２つの例のいずれかの手順によって、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。但し、話者特徴抽出部１３ｂに対する特徴文章の一例としては、「湘南でサーフィンをすることが好き」、「ピアノを弾くこと」等が考えられる。この場合、これらの特徴文章からは、形態素解析によって、「湘南」、「サーフィン」、「ピアノ」等が特徴単語として取得される。

話者特徴抽出部１３ｂによれば、話者の特徴に対して相対的に関連性が高いキーワードがキーワード群Ｗ２として抽出される。なお、特徴単語及び特徴文章の双方が特徴情報として登録されてもよい。

［複数話者特徴抽出部１３ｃ］
複数話者特徴抽出部１３ｃは、キーワード抽出部１２からキーワード群Ｗ１が出力されると、上述した話者特徴抽出部１３ｂに対する特徴情報として、例えば、事前に補助記憶装置１０２に参加者別に登録された特徴情報のうち、全ての参加者に対する特徴情報を補助記憶装置１０２から読み出す。

特徴情報として１以上の特徴単語が登録されている場合、複数話者特徴抽出部１３ｃは、以下の＜共通処理＞を実行した後に、以下の＜単語の場合の例３＞及び＜単語の場合例４＞の２つの例のいずれかの手順によって、参加者について共通の特徴情報（厳密に完全一致でなくてよい）に基づいて、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

＜共通処理＞
複数話者特徴抽出部１３ｃは、まず、それぞれが各参加者の１つの特徴単語を含む全ての組み合わせを生成し、各組み合わせをグループとする。すなわち、各グループは、グループ間において少なくともいずれか１以上の特徴単語が相互に異なるように生成される。本実施の形態のように参加者が３人の場合、各グループは、参加者Ｘのいずれ１つのかの特徴単語、参加者Ｙのいずれか１つの特徴単語及び参加者Ｚのいずれか１つの特徴単語の３つの特徴単語を含む。

続いて、複数話者特徴抽出部１３ｃは、グループごとに、当該グループに属する全ての特徴単語間のシソーラス距離の合計を求める。例えば、特徴単語ａ、特徴単語ｂ、特徴単語ｃを含むグループの場合、ａとｂ、ｂとｃ、ｃとａのそれぞれのシソーラス距離の合計値が計算される。

続いて、複数話者特徴抽出部１３ｃは、シソーラス距離の合計値が閾値以下であるグループに属する特徴単語を、参加者について共通の特徴情報として抽出する。

＜単語の場合の例３＞
＜共通処理＞において「参加者について共通の特徴情報」として抽出された特徴単語を用いる点を除き、複数話者特徴抽出部１３ｃは、上記の＜単語の場合の例１＞と同様の処理手順を行い、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

＜単語の場合の例４＞
＜共通処理＞において「参加者について共通の特徴情報」として抽出された特徴単語を用いる点を除き、複数話者特徴抽出部１３ｃは、上記の＜単語の場合の例２＞と同様の処理手順を行い、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

一方、特徴情報として参加者ごとに特徴文章が登録されている場合、複数話者特徴抽出部１３ｃは、各参加者の特徴文章を形態素解析して、各特徴文章から名詞を抽出する。続いて、複数話者特徴抽出部１３ｃは、抽出された名詞を特徴単語として、上記の＜共通処理＞に続き＜単語の場合の例３＞又は＜単語の場合の例４＞を実行して、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。そうすることで、例えば、参加者全員が『家族構成として子供がいる』などの共通する特徴を有すれば、当該特徴に対する関連性が相対的に高いキーワードがキーワード群Ｗ２に含まれる。

複数話者特徴抽出部１３ｃの処理を行うと、参加者全てに共通する特徴に対して関連性が相対的に高いキーワードがキーワード群Ｗ２として抽出される。なお、特徴単語及び特徴文章の双方が特徴情報として登録されてもよい。

ところで、複数話者特徴抽出部１３ｃによって抽出されるキーワード群は、話者特徴抽出部１３ｂによって抽出されるキーワード群の部分集合となる。したがって、複数話者特徴抽出部１３ｃと話者特徴抽出部１３ｂとは選択的に利用可能とされてもよい。例えば、ユーザによって、複数話者特徴抽出部１３ｃと話者特徴抽出部１３ｂとのいずれを利用するのかが設定可能とされてもよい。この場合、利用対象とされた方が処理を実行すればよい。

［ＤＢ参照特徴抽出部１３ｄ］
ＤＢ参照特徴抽出部１３ｄは、キーワード抽出部１２からキーワード群Ｗ１が出力されると、ＤＢ参照特徴抽出部１３ｄに対する特徴情報として、例えば、事前に所定のデータベースに登録された特徴情報を当該データベースから読み出す。ＤＢ参照特徴抽出部１３ｄに対する特徴情報とは、以前において盛り上がった対話の議題に関する単語（特徴単語）又は文章（特徴文章）である。但し、ＤＢ参照特徴抽出部１３ｄに対する特徴情報は、所定のものに限定されない。

特徴情報として１以上の特徴単語が登録されている場合、ＤＢ参照特徴抽出部１３ｄは、上記の＜単語の場合の例１＞及び＜単語の場合の例２＞の２つの例のいずれかの手順によって、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

一方、特徴情報として１以上の特徴文章が登録されている場合、話者特徴抽出部１３ｂは、上記の＜文章の場合の例１＞及び＜文章の場合の例２＞の２つの例のいずれかの手順によって、キーワード群Ｗ１の中からキーワード群Ｗ２を抽出する。

議題特徴抽出部１３ａ、話者特徴抽出部１３ｂ又は複数話者特徴抽出部１３ｃ、及びＤＢ参照特徴抽出部１３ｄの処理は、直列的に行われてもよいし並列的に行われてもよい。

［画像化部１４］
画像化部１４は、議題特徴抽出部１３ａから出力されたキーワード群Ｗ２、話者特徴抽出部１３ｂ又は複数話者特徴抽出部１３ｃから出力されたキーワード群Ｗ２、及びＤＢ参照特徴抽出部１３ｄから出力されたキーワード群Ｗ２を入力とし、以下の手法１～３のいずれかによって各キーワード群Ｗ２に基づく画像を取得して、当該画像を出力する。なお、ここで、各キーワード群Ｗ２の論理和から重複を排除した結果をキーワード群Ｗ３という。

＜手法１＞
キーワード群Ｗ３に含まれる各キーワードについて、任意のフォントのテキストデータを生成し、当該テキストデータを画像化する。

＜手法２＞
キーワード群Ｗ３に含まれる各キーワードによって、例えば、インターネットを介して画像検索を実行し、キーワードごとに、検索された画像群の中から１つの画像を選択（取得）する。したがって、キーワード群Ｗ３に複数のキーワードが含まれる場合、複数の画像が取得される。

＜手法３＞
手法２によって選択された各画像を加工し、加工結果を出力する。例えば、当該画像の一部分（部分領域）が切り出されたり、当該画像に含まれている物体の輪郭のみ抽出たりした画像が生成されてもよい。

なお、画像化部１４は、キーワード群Ｗ３に多数（例えば、閾値以上の個数）のキーワードが含まれている場合、画像化するキーワードを絞り込むために、以下のような処理を実行してもよい。

画像化部１４は、ＷｏｒｄＮｅｔを用いてキーワード群Ｗ３に含まれる各キーワード間（２つのキーワードの全ての組み合わせ）についてシソーラス距離を計算し、シソーラス距離が閾値よりも小さいキーワード同士をグルーピングする。画像化部１４は、グループ群のうち、属するキーワードの数が最も多いグループから順に２つのグループを選択し、選択した各グループの中から一つのキーワードをランダムに選択して画像化の対象とする。なお、グルーピングする際に、同じキーワードが複数のグループに属する可能性がある。それを回避するため、或るグループから選択されたキーワードは、別のグループでは選択されないようにすればよい。シソーラス距離の閾値や、選び出すグループの数は自由に設定可能とする。又は、ランダムに一つのキーワードが画像化の対象とされてもよい。

また、手法２又は手法３に関して、画像化部１４は、各キーワード群Ｗ２の論理積をとる（すなわち、全てのキーワード群Ｗ２に共通に含まれているキーワードを抽出する）ことで得られるキーワードを画像化の対象としてもよい。又は、手法２又は手法３に関して、画像化部１４は、上記と同様にキーワード群Ｗ３をグルーピングし、属するキーワードの数が最も多いグループから順に２つのグループを選択し、選択した各グループの中から一つのキーワードをランダムに選択し、当該各グループから選択したキーワードの論理積をとることによって得られるキーワードを画像化の対象としてもよい。

なお、手法１、２、３のいずれを実行するかや、画像化の対象とするキーワードの絞り込み方法等は、いずれの参加者が話者であるかに応じて変えてもよい。

［出力データ生成部１５］
出力データ生成部１５は、画像化部１４から出力された画像データ（以下、「発話画像」という。）を入力とし、当該発話画像が、話者と他者（話者以外の参加者）との位置関係に基づく方向に回転された状態で、表示装置３０によって出力（投影）されるようにするための画像データ（以下「出力データ」という。）を生成する。

出力データ生成部１５は、まず、各参加者の位置を特定する。例えば、出力データ生成部１５は、撮影装置４０から得られる画像に公知の画像処理を適用することで、各参加者の位置を特定してもよい。

続いて、出力データ生成部１５は、話者の位置を特定する。例えば、各集音装置２０の位置は既知であるとする（例えば、各集音装置２０の位置情報が補助記憶装置１０２に記憶されていてもよい。）。出力データ生成部１５は、各参加者について特定された位置のうち、話者に係る集音装置２０の位置に最も近い位置を話者の位置として特定する。

続いて、出力データ生成部１５は、表示装置３０の投影範囲内における最も大きい楕円の円周上で話者に最も近い地点を、発話画像の配置位置の基準点（以下、「配置基準点」という。）として特定する。又は、参加者が円座で存在することが想定されているため、参加者の並び順が予め設定されるようにし、表示装置３０の投影範囲内における最も大きい楕円の円周上において、当該並び順で均等に各参加者に対応する位置が特定された上で、話者の位置に最も近い位置が配置基準点とされてもよい。

図４は、投影範囲内における最大の楕円を説明するための図である。図４には、投影範囲ａ１において最大の楕円ｅ１が示されている。

続いて、出力データ生成部１５は、話者以外の参加者（他者）の位置に合わせた方向に発話画像が回転された状態（すなわち、他者から発話画像が視認しやすい状態）で投影されるように出力データを生成する。出力データの生成に際し、出力データ生成部１５は、発話画像の全部が表示装置３０の投影範囲に含まれる状態が確保される範囲で、配置基準点と発話画像の中心ができるだけ近くなるように投影範囲内（出力データ）における発話画像の位置を決定する。発話画像を話者の近くに配置するのは、話者と発話画像とを関連付けて、話者による発話内容を他者が思い出しやすくするためである。

また、発話画像は他者に向けて（発話画像の内容の下側が他者に向くように）表示することを想定しているため、出力データ生成部１５は、例えば、表示装置３０の投影範囲内において最大の楕円の中心との位置関係に基づいて対象画像を回転させて配置する。例えば、対象画像の底辺（下側の辺）が当該中心を向くように対象画像が回転されて配置される。

なお、発話画像が複数枚存在する場合は、全ての発話画像が同時に表示されるようにしてもよいし、時間差で１枚以上の発話画像が順番に表示されるようにしてもよい。

出力データ生成部１５は、上記のように生成した出力データを表示装置３０に出力させる。その結果、表示装置３０によって出力データが出力（投影）される。

図５は、発話画像の第１の出力例を示す図である。図５中、図１又は図４と同一部分には同一符号を付している。図５では、参加者ごとに、最大で１つの話者画像が出力される例が示されている。すなわち、上記した処理手順によれば、或る参加者が発話（発言）すると、その内容に基づく発話画像が随時出力されるといった状態が再現される。図４の例では、新たな発話画像が出力される際に、当該発話画像に係る参加者（すなわち、話者）の過去の発話画像は削除される。但し、他者の発話画像は残されたままとされる。なお、図５には、参加者Ｘが話者である際に特定された配置基準点Ｐｘ、参加者Ｙが話者である際に特定された配置基準点Ｐｙ、参加者Ｚが話者である際に特定された配置基準点Ｐｚが示されている。

図６は、発話画像の第１の出力例を示す図である。図６中、図５と同一部分には同一符号を付している。図６の例では、新たな発話画像が出力される際に、過去の発話画像の位置がずらされる。その結果、参加者ごとに、複数の発話画像が出力されうる。但し、出力対象として残される発話画像の数について上限が設定され、当該上限を超えた場合、最も古い発話画像が出力対象から除去されるようにしてもよい。

図５及び図６のいずれの例においても、各参加者の話者画像の底辺は、楕円ａ１の中心を向くように投影されている。その結果、各話者画像は他者から見易い状態で表示される。

なお、上記では、発話内容に基づく発話画像がリアルタイムで出力される例を示したが、発話内容が録音された録音データや、対話の様子が録画された録画データが用いられて本実施の形態が実施されてもよい。この場合、発話画像の出力位置は、適宜定められればよい。

また、上記では、自己紹介の例を示したが、複数人が順番で発話を行う形式ではなく、議論ように、複数人がほぼ同時に発話が行われる場面において本実施の形態が適用されてもよい。この場合、集音装置２０ごとに上記した処理手順が行われればよい。そうすることで、各参加者の発話画像をほぼ同時に出力することができる。

また、プレゼンテーションのように、一人が話者となる状況において本実施の形態が適用されてもよい。この場合、他者は円座しているとは限らない。したがって、発話画像は、他者の座席の方向から見易いように回転された状態で出力されればよい。

また、本実施の形態では、表示装置３０が投影装置（プロジェクタ）である例を示したが、例えば、参加者ごとに、当該参加者の近辺（参加者の前等）に、表示装置３０としてのタブレット端末が上向きで配置されてもよいし、表示装置３０としての液晶ディスプレイが他者に向けて配置されてもよい。この場合、出力データ生成部１５は、話者に対応する表示装置３０に対して出力データを出力すればよい。

上述したように、本実施の形態によれば、話者による発話内容の一部が画像として出力される。画像は視覚的に発話内容の理解を促進することができるため、発話内容の認知的負荷を低下させることができる。

また、発話内容のうち画像化される一部分（キーワード）は、対話の議題から得られる特徴、話者個人の特徴から得られる情報、複数話者の特徴から得られる情報、データベースに予め保存されている特徴から得られる情報等に基づいて抽出される。したがって、重要なキーワード（他者に対して発話内容の印象を与えやすいキーワード）を画像化することができる。

なお、本実施の形態において、設定情報、特徴情報は、所定の条件の一例である。キーワード抽出部１２、議題特徴抽出部１３ａ、話者特徴抽出部１３ｂ、複数話者特徴抽出部１３ｃ、ＤＢ参照特徴抽出部１３ｄは、抽出部の一例である。画像化部１４は、取得部の一例である。出力データ生成部１５は、出力部の一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０発話画像化装置
１１特徴設定部
１２キーワード抽出部
１３ａ議題特徴抽出部
１３ｂ話者特徴抽出部
１３ｃ複数話者特徴抽出部
１３ｄＤＢ参照特徴抽出部
１４画像化部
１５出力データ生成部
２０集音装置
３０表示装置
４０撮影装置
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
Ｂバス

Claims

複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出部と、
前記一部の文字列に基づく画像を取得する取得部と、
前記画像を前記発話に係る話者に対応する位置に出力させる出力部と、
を有することを特徴とする発話画像化装置。
前記画像は、前記一部の文字列が画像化された画像、又は前記一部の文字列に基づいて検索された画像である、
ことを特徴とする請求項１記載の発話画像化装置。
前記出力部は、前記話者と他者との位置関係に基づく方向に回転された状態で前記画像を出力する、
ことを特徴とする請求項１又は２記載の発話画像化装置。
前記抽出部は、前記複数の文字列のそれぞれについて、前記発話に係る前記参加者に対して設定されている単語又は文章と所定の指標に基づく関連度を算出し、前記関連度に基づいて前記複数の文字列から一部の文字列を抽出する、
ことを特徴とする請求項１乃至３いずれか一項記載の発話画像化装置。
複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出手順と、
前記一部の文字列に基づく画像を取得する取得手順と、
前記画像を前記発話に係る話者に対応する位置に出力させる出力手順と、
をコンピュータが実行することを特徴とする発話画像化方法。
請求項１乃至４いずれか一項記載の発話画像化装置としてコンピュータを機能させることを特徴とするプログラム。