JP2012185394A

JP2012185394A - 分析装置、分析プログラムおよび分析方法

Info

Publication number: JP2012185394A
Application number: JP2011049476A
Authority: JP
Inventors: Gei Cho; 霓張
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2012-09-27
Anticipated expiration: 2031-03-07
Also published as: JP5678732B2

Abstract

【課題】より簡易に会話スタイルを分析すること。
【解決手段】分析装置１０は、取得部１４ａと、第１の検出部１４ｂと、第２の検出部１４ｃと、抽出部１４ｅと、分析部１４ｆとを有する。取得部１４ａは、音声データを取得する。第１の検出部１４ｂは、取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する。第２の検出部１４ｃは、検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、音声データにおける発話領域および沈黙領域を検出する。抽出部１４ｅは、検出された発話領域および沈黙領域の会話特性を抽出する。分析部１４ｆは、抽出された会話特性に基づいて、会話スタイルを分析する。
【選択図】図１

Description

本発明は、分析装置、分析プログラムおよび分析方法に関する。

複数人での会話において、各々の人物の会話の特性を測定し、会話スタイルや対話パターンなどを分析する技術が知られている。また、分析結果をコールセンターに従事する人や、セールスやマーケティングに従事する人にフィードバックすることで、各々が従事する仕事の改善に役立たせる技術が知られている。

また、従来の技術では、話者が発した音声の音素を特定することで、会話の内容を特定するものがある。かかる従来技術では、会話の内容を特定し、音圧データなどを用いて、話者の会話スタイルを分析する。

特開２００６−１１３５４６号公報

しかしながら、上記の従来の技術では、話者の会話スタイルを分析する際に、会話の内容を特定しなければならず、処理に時間を要する。そのため、上記の従来の技術では、簡易に会話スタイルを分析することができないという問題がある。

開示の技術は、上記に鑑みてなされたものであって、より簡易に会話スタイルを分析することができる分析装置、分析プログラムおよび分析方法を提供することを目的とする。

本願の開示する分析装置は、一つの態様において、取得部と、第１の検出部と、第２の検出部と、抽出部と、分析部とを有する。取得部は、音声データを取得する。第１の検出部は、前記取得部により取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する。第２の検出部は、前記第１の検出部により検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出する。抽出部は、前記第２の検出部により検出された発話領域および沈黙領域の会話特性を抽出する。分析部は、前記抽出部により抽出された会話特性に基づいて、会話スタイルを分析する。

本願の開示する分析装置の一つの態様によれば、より簡易に会話スタイルを分析することができる。

図１は、実施例１に係る分析装置の構成を示す図である。図２は、有声音および無声音の一例を説明するための図である。図３は、発話が行われる発話領域、および発話が行われない沈黙領域の一例を説明するための図である。図４は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図５は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図６は、会話スタイルの分析方法の一例を説明するための図である。図７は、会話スタイルの分析方法の一例を説明するための図である。図８は、会話スタイルの分析方法の一例を説明するための図である。図９は、人物Ａが、人物Ｂ、Ｃ、Ｄ、Ｅのそれぞれと会話したときに抽出された会話特性の一例を示す図である。図１０は、実施例１に係る分析処理の手順を示すフローチャートである。図１１は、実施例１に係る分析処理の手順を示すフローチャートである。図１２は、実施例１に係る分析処理の手順を示すフローチャートである。図１３は、分析プログラムを実行するコンピュータを示す図である。

以下に、本願の開示する分析装置、分析プログラムおよび分析方法の各実施例を図面に基づいて詳細に説明する。なお、各実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［分析装置の構成］
実施例１に係る分析装置について説明する。図１は、実施例１に係る分析装置の構成を示す図である。本実施例に係る分析装置１０は、音声データを取得し、取得した音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する。また、本実施例に係る分析装置１０は、検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、音声データにおける発話領域および沈黙領域を検出する。また、本実施例に係る分析装置１０は、検出された発話領域および沈黙領域の会話特性を抽出し、抽出した会話特性に基づいて、会話スタイルを分析する。図１に示すように、分析装置１０は、入力部１１と、出力部１２と、記憶部１３と、制御部１４とを有する。

入力部１１は、ユーザの操作を受け付けて制御部１４に受付内容を送信する。例えば、入力部１１は、後述の分析処理を実行する指示を受け付けた場合には、この指示を制御部１４に送信する。また、入力部１１は、後述の第１の音声データ１３ａおよび第２の音声データ１３ｂを受け付けた場合には、これらの音声データを制御部１４に送信する。

出力部１２は、受け付けた情報を出力する。例えば、出力部１２は、後述の分析部１４ｆからの分析結果を表示する。出力部１２のデバイスの一例としては、ＬＣＤ（Liquid Crystal Display）やプロジェクタなどの表示デバイスが挙げられる。

記憶部１３は、制御部１４で実行される各種プログラムを記憶する。また、記憶部１３は、第１の音声データ１３ａ、第２の音声データ１３ｂを記憶する。

第１の音声データ１３ａ、第２の音声データ１３ｂについて説明する。第１の音声データ１３ａは、複数人、例えば、ＡおよびＢの２人の会話を、Ａに取り付けたマイク（microphone）により音声データに変換したものである。第１の音声データ１３ａには、ＡおよびＢの会話が含まれるが、Ａの音声の音量の方がＢの音声の音量よりも大きくなる。これは、ＢよりもＡの方がマイクに近いからである。また、第２の音声データ１３ｂは、複数人、例えば、ＡおよびＢの２人の会話を、Ｂに取り付けたマイクにより音声データに変換したものである。第２の音声データ１３ｂには、ＡおよびＢの会話が含まれるが、Ｂの音声の音量の方がＡの音声の音量よりも大きくなる。これは、ＡよりもＢの方がマイクに近いからである。なお、ＡとＢとが互いに携帯電話を用いて会話を行う場合などには、互いの携帯電話にマイクを設けることにより、第１の音声データ１３ａ、第２の音声データ１３ｂを取得することができる。

ここで、日本語、英語、中国語などの任意の言語において共通する特徴について説明する。図２は、有声音および無声音の一例を説明するための図である。図２の例では、サンプリング周波数が１６ｋＨｚである接話型マイクを用いて取得した音声データが示されている。図２の例では、横軸は時間を示し、縦軸は周波数を示し、図中の濃淡はスペクトルエントロピーの大小を示す。図２に示すように、有声音Ｖは、スペクトルエントロピーの変化が大きく、無声音Ｕよりも低い周波数の音声データの部分の音である。ここで、有声音は、母音「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」である。

また、無声音Ｕは、有声音Ｖよりも高い周波数の音声データの部分である。ここで、無声音は、母音以外の音、例えば「ｓ」、「ｐ」、「ｈ」である。

図３は、発話が行われる発話領域、および発話が行われない沈黙領域の一例を説明するための図である。発話領域は、無声音領域および有声音領域を含む。図３の例は、発話の内容が「ＷａＴａＳｈｉＷａＣｈｏｕＤｅＳｕ」の場合を示す。図３の例では、発話領域は、無声音「Ｗ」、有声音「ａ」、無声音「Ｔ」、有声音「ａ」、無声音「Ｓｈ」、有声音「ｉ」、無声音「Ｗ」、有声音「ａ」を含む。また、図３の例では、発話領域は、無声音「Ｃｈ」、有声音「ｏｕ」を含む。また、図３の例では、発話領域は、無声音「Ｄ」、有声音「ｅ」、無声音「Ｓ」、有声音「ｕ」を含む。また、図３の例では、「ＷａＴａＳｈｉＷａ」の発話領域と、「Ｃｈｏｕ」の発話領域と、「ＤｅＳｕ」の発話領域との間に、沈黙領域が存在することを示す。

記憶部１３は、例えば、フラッシュメモリなどの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。なお、記憶部１３は、上記の種類の記憶装置に限定されるものではなく、ＲＡＭ（Random Access Memory)、ＲＯＭ（Read Only Memory)であってもよい。

図１の説明に戻り、制御部１４は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部１４は、図１に示すように、取得部１４ａと、第１の検出部１４ｂと、第２の検出部１４ｃと、特定部１４ｄと、抽出部１４ｅと、分析部１４ｆとを有する。

取得部１４ａは、音声データを取得する。例えば、取得部１４ａは、第１の音声データ１３ａおよび第２の音声データ１３ｂを取得する。なお、取得部１４ａは、入力部１１が受け付けた第１の音声データ１３ａおよび第２の音声データ１３ｂを、入力部１１から取得することもできる。

第１の検出部１４ｂは、取得部１４ａにより取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する。例えば、第１の検出部１４ｂは、まず、第１の音声データ１３ａおよび第２の音声データ１３ｂのそれぞれの長さを比較する。そして、第１の検出部１４ｂは、第１の音声データ１３ａおよび第２の音声データ１３ｂの長さの差が許容誤差範囲内でない場合には、以降の処理を行うのに適さないため、エラー出力するように出力部１２を制御し、以降の処理を行わない。一方、第１の検出部１４ｂは、第１の音声データ１３ａおよび第２の音声データ１３ｂの長さが同一であるか、または、それぞれの長さの差が許容誤差範囲内である場合には、以降の処理を行う。すなわち、第１の検出部１４ｂは、第１の音声データ１３ａおよび第２の音声データ１３ｂをフレーム化する。具体例を挙げて説明すると、第１の検出部１４ｂは、下記の式（１）、式（２）を用いて、それぞれの音声データを、長さを２５６ｍｓとするフレーム化を行う。このとき、前後のフレームの重複部分の長さが１２８ｍｓとなるようにする。
Ｓ＝ｆｌｏｏｒ（Ｙ／Ｘ）・・・・・・・・・・・・・・・・式（１）
ｍ＝ｆｌｏｏｒ（（Ｓ−２５６）／１２８）＋１・・・・・・・・式（２）
なお、「ｆｌｏｏｒ（ｘ）」は、ｘ以下の最大の整数を算出するための関数であり、Ｙは、第１の音声データ１３ａおよび第２の音声データ１３ｂのそれぞれのデータ量（ｂｙｔｅ）であり、Ｘは、１（ｂｙｔｅ）のデータに対応する長さ（ｍｓ）である。

このような処理によって、第１の音声データ１３ａおよび第２の音声データ１３ｂのそれぞれについてｍ個のフレームが得られたものとして、以下、説明を続ける。なお、以下の説明では、第１の音声データ１３ａから得られたｍ個のフレームの各々を、「第１フレーム（１）」、「第１フレーム（２）」、・・・、「第１フレーム（ｍ）」と表記する場合がある。同様に、第２の音声データ１３ｂから得られたｍ個のフレームの各々を、「第２フレーム（１）」、「第２フレーム（２）」、・・・、「第２フレーム（ｍ）」と表記する場合がある。また、上記で説明したフレームの長さ、前後のフレームの重複部分の長さは、一例であり、任意の値を採用できる。

そして、第１の検出部１４ｂは、第１フレーム（１）〜第１フレーム（ｍ）、第２フレーム（１）〜第２フレーム（ｍ）の全てのフレームについて、下記の処理を行う。すなわち、第１の抽出部１４ｂは、自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーの３つの特徴量を抽出する。

そして、第１の検出部１４ｂは、全てのフレームについて抽出した３つの特徴量のそれぞれの平均値および標準偏差を算出する。そして、第１の検出部１４ｂは、確率モデルである隠れマルコフモデル（Hidden Markov Model；HMM）を用いて、有声音領域および無声音領域を検出する。

有声音領域および無声音領域の検出方法について、具体例を挙げて説明する。図４は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図４の例では、第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果（observation）として用いて、ＥＭ法（Expectation-Maximization algorithm）により、状態遷移確率（transition possibility）Ｐ_tを算出する。ここで、状態遷移確率Ｐ_tは、例えば、有声音の状態のままでいる確率、有声音の状態から無声音の状態に遷移する確率、無声音の状態のままでいる確率、無声音の状態から有声音の状態に遷移する確率である。なお、図４の例では、発話は、有声音および無声音の両方とも同一の確率で開始すると考えられるので、発話の開始における有声音および無声音の状態の確率はともに「０．５」である。また、図４の例では、初期の状態遷移確率Ｐ_tとして、有声音の状態のままでいる確率「０．９５」、有声音の状態から無声音の状態に遷移する確率「０．０５」が与えられる。さらに、図４の例では、初期の状態遷移確率Ｐ_tとして、無声音の状態のままでいる確率「０．９５」、無声音の状態から有声音の状態に遷移する確率「０．０５」が与えられる。第１の検出部１４ｂは、状態遷移確率Ｐ_tを再び算出することを所定回数繰り返す。これにより、精度の高い状態遷移確率Ｐ_tを算出することができる。

また、図４の例では、第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果として用いて、ビタビアルゴリズム（Viterbi algorithm）により、観測確率（observation possibility）Ｐ_ｏを算出する。ここで、観測確率Ｐ_ｏは、例えば、有声音の状態から観測（observed）を出力する確率、有声音の状態から非観測（not observed）を出力する確率、無声音の状態から観測を出力する確率、および無声音の状態から非観測を出力する確率である。なお、観測確率は、出力確率（emission possibility）とも称される。

そして、図４の例では、状態遷移確率Ｐ_tおよび観測確率Ｐ_ｏが算出された場合には、第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量に基づいて、ビタビアルゴリズムを用いて、次のような処理を行う。すなわち、第１の検出部１４ｂは、発話が行われている各フレームにおいて、発話されている音が有声音であるか、または、無声音であるかを検出する。そして、第１の検出部１４ｂは、有声音が検出された領域を有声音領域とし、無声音が検出された領域を無声音領域とする。

このように、分析装置１０は、周囲のノイズに強い自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーなどの特徴量を用いて、有声音領域および無声音領域を検出する。したがって、分析装置１０によれば、周囲のノイズの影響により、有声音領域および無声音領域を検出する精度が低下することを抑制することができる。また、周囲のノイズに強い特徴量を用いるため、第１の音声データ１３ａおよび第２の音声データ１３ｂをフレーム化する際に、フレームの個数をより少なくすることができる。したがって、分析装置１０によれば、より簡易な処理で有声音領域および無声音領域を検出することができる。

第２の検出部１４ｃは、第１の検出部１４ｂにより検出された有声音領域および無声音領域に基づいて、隠れマルコフモデルを用いて、音声データにおける発話領域および沈黙領域を検出する。

発話領域および沈黙領域の検出方法について、具体例を挙げて説明する。図５は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図５の例では、状態遷移確率Ｐ_tおよび観測確率Ｐ_ｏは、予め定められた値である。図５の例では、状態遷移確率Ｐ_tは、例えば、沈黙の状態である沈黙状態のままでいる確率、沈黙状態から発話の状態である発話状態に遷移する確率、発話状態のままでいる確率、および発話状態から沈黙状態に遷移する確率である。なお、図５の例では、発話の開始における沈黙状態および発話状態の確率はともに「０．５」である。また、図５の例では、状態遷移確率Ｐ_tとして、沈黙状態のままでいる確率「０．９９９」、沈黙状態から発話状態に遷移する確率「０．００１」が定められている。また、図５の例では、状態遷移確率Ｐ_tとして、発話状態のままでいる確率「０．９９９」、発話状態から沈黙状態に遷移する確率「０．００１」が定められている。

また、図５の例では、観測確率Ｐ_ｏは、例えば、沈黙状態において無声音が検出される確率、沈黙状態において有声音が検出される確率、発話状態において無声音が検出される確率、および発話状態において有声音が検出される確率である。なお、図５の例では、観測確率Ｐ_ｏとして、沈黙状態において無声音が検出される確率「０．９９」、沈黙状態において有声音が検出される確率「０．０１」が定められている。また、図５の例では、観測確率Ｐ_ｏとして、発話状態において無声音が検出される確率「０．５」、発話状態において有声音が検出される確率「０．５」が定められている。

そして、図５の例では、第２の検出部１４ｃは、全てのフレームについて、第１の検出部１４ｂにより検出された有声音および無声音に基づいて、ビタビアルゴリズムを用いて、沈黙状態であるか、または、発話状態であるかを検出する。そして、第２の検出部１４ｃは、沈黙状態の領域を沈黙領域とし、発話状態の領域を発話領域とする。

このように、分析装置１０は、隠れマルコフモデルを用いて、沈黙領域および発話領域を検出する。したがって、分析装置１０によれば、２人の会話において、発話が重複しても、精度よく、沈黙領域および発話領域を検出することができる。

特定部１４ｄは、第２の検出部１４ｃにより検出された発話領域での有声音領域における音量が閾値以上の場合に、音声取得装置に最も近い人物を発話領域において発話した人物として特定する。また、特定部１４ｄは、第２の検出部１４ｃにより検出された発話領域での有声音領域における音量が閾値未満の場合に、音声取得装置に最も近い人物以外の人物を発話領域において発話した人物として特定する。

例えば、特定部１４ｄは、第１の音声データ１３ａについて、発話領域での有声音領域として検出されたフレームの音量の平均値Ｅ_ｔ１を算出する。同様に、特定部１４ｄは、第２の音声データ１３ｂについて、発話領域での有声音領域として検出されたフレームの音量の平均値Ｅ_ｔ２を算出する。

そして、特定部１４ｄは、第１の音声データ１３ａにおいて発話領域での有声音領域として検出されたフレームの全てについて、音量が所定の閾値以上であるか否かを判定する。特定部１４ｄは、音量が所定の閾値以上であるフレームについては、第１の音声データ１３ａを取得した音声取得装置であるマイクに最も近い人物、例えばＡを、このフレームにおいて発話した人物として特定する。これは、ＢよりもＡの方がマイクに近いため、第１の音声データ１３ａにおいて、Ａの音声の音量の方がＢの音声の音量よりも大きくなるからである。また、特定部１４ｄは、音量が所定の閾値未満であるフレームについては、第１の音声データ１３ａを取得した音声取得装置であるマイクに最も近い人物以外の人物を、このフレームにおいて発話した人物として特定する。なお、閾値として、「０．２Ｅ_ｔ１」や「０．５Ｅ_ｔ１」が挙げられるが、閾値はこれに限られず、発話した人物を特定可能な値であれば任意の値を採用できる。

また、特定部１４ｄは、第２の音声データ１３ｂにおいて発話領域での有声音領域として検出されたフレームの全てについて、音量が所定の閾値以上であるか否かを判定する。特定部１４ｄは、音量が所定の閾値以上であるフレームについては、第２の音声データ１３ｂを取得したマイクに最も近い人物、例えばＢを、このフレームにおいて発話した人物として特定する。また、特定部１４ｄは、音量が所定の閾値未満であるフレームについては、第２の音声データ１３ｂを取得したマイクに最も近い人物以外の人物を、このフレームにおいて発話した人物として特定する。なお、閾値として、「０．２Ｅ_ｔ２」や「０．５Ｅ_ｔ２」が挙げられるが、閾値はこれに限られず、発話した人物を特定可能な値であれば任意の値を採用できる。

すなわち、特定部１４ｄは、各音声データについて、音量が閾値以上であるフレームにおいて発話する人物として、既知である、対応するマイクに最も近い人物を特定する。また、会話を行う人数が２人であることが既知である場合には、特定部１４ｄは、音量が閾値未満であるフレームにおいて発話する人物として、既知である、対応するマイクに最も近い人物以外の人物を特定する。上記の第１の音声データ１３ａから人物を特定する場面の例では、特定部１４ｄは、音量が所定の閾値未満であるフレームについては、第１の音声データ１３ａを取得したマイクに最も近い人物以外の人物Ｂを、発話した人物として特定する。また、上記の第２の音声データ１３ｂから人物を特定する場面の例では、特定部１４ｄは、音量が所定の閾値未満であるフレームについては、第２の音声データ１３ｂを取得したマイクに最も近い人物以外の人物Ａを、発話した人物として特定する。なお、特定部１４ｄによる人物を特定する方法はこれに限られず、種々の方法を用いることができる。

抽出部１４ｅは、音声データから会話特性を抽出する。例えば、抽出部１４ｅは、Ａが発話したと特定されたフレームから、有声音領域の数、有声音領域の長さの平均値、および有声音領域の長さの標準偏差を算出する。また、抽出部１４ｅは、Ａが発話したと特定されたフレームから、発話領域の数、発話領域の長さの平均値、および発話領域の長さの標準偏差を算出する。また、抽出部１４ｅは、Ａの沈黙領域のフレームから、沈黙領域の数、沈黙領域の長さの平均値、および沈黙領域の長さの標準偏差を算出する。

また、抽出部１４ｅは、会話全体の時間の長さに対するＡの発話時間の長さの割合を算出する。なお、抽出部１４ｅは、Ａの発話領域の長さの合計を、Ａの発話時間の長さとして、かかる割合を算出する。また、抽出部１４ｅは、Ｂの発話時間に対するＡの発話時間の割合を算出する。また、抽出部１４ｅは、Ａが発話したと特定されたフレームから、音量の標準偏差およびスペクトルエントロピーの標準偏差を算出する。また、抽出部１４ｅは、Ａが発話したと特定されたフレームから算出した音量の標準偏差と、スペクトルエントロピーの標準偏差との和を、変化の度合いとして算出する。

また、抽出部１４ｅは、Ｂが発話したと特定されたフレームから、有声音領域の数、有声音領域の長さの平均値、および有声音領域の長さの標準偏差を算出する。また、抽出部１４ｅは、Ｂが発話したと特定されたフレームから、発話領域の数、発話領域の長さの平均値、および発話領域の長さの標準偏差を算出する。また、抽出部１４ｅは、Ｂの沈黙領域のフレームから、沈黙領域の数、沈黙領域の長さの平均値、および沈黙領域の長さの標準偏差を算出する。

また、抽出部１４ｅは、会話全体の時間の長さに対するＢの発話時間の長さの割合を算出する。なお、抽出部１４ｅは、Ｂの発話領域の長さの合計を、Ｂの発話時間の長さとして、かかる割合を算出する。また、抽出部１４ｅは、Ａの発話時間に対するＢの発話時間の割合を算出する。また、抽出部１４ｅは、Ｂが発話したと特定されたフレームから、音量の標準偏差およびスペクトルエントロピーの標準偏差を算出する。また、抽出部１４ｅは、Ｂが発話したと特定されたフレームから算出した音量の標準偏差と、スペクトルエントロピーの標準偏差との和を、変化の度合いとして算出する。

このようにして算出された有声音領域の数、有声音領域の長さの平均値、および有声音領域の長さの標準偏差の各会話特性は、有声音の長さがどの位長いのかを示す指標となる。また、発話領域の数、発話領域の長さの平均値、および発話領域の長さの標準偏差の各会話特性は、対応する人物が、常に会話において長く続けて話すのか、または、少ししか話さないのかを示す指標となる。また、沈黙領域の数、沈黙領域の長さの平均値、および沈黙領域の長さの標準偏差の各会話特性は、話者の話し方が、長く続けて話すのか、または、中断（沈黙）を多くはさみながら話すのかを示す指標となる。また、会話全体の時間の長さに対するある人物の発話時間の長さの割合、および他の人物の発話時間に対するある人物の発話時間の割合Ｒ_ｔの各会話特性は、会話の参加状態を示す指標となる。また、音量の標準偏差、スペクトルエントロピーの標準偏差、および変化の度合いの各会話特性は、感情の変化が激しい情熱的な話者であるのか、または、感情の変化が小さい静かな話者であるのかを示す指標となる。

分析部１４ｆは、抽出された会話特性に基づいて、会話スタイルを分析する。具体例について説明する。分析部１４ｆは、他の人物の発話時間に対するある人物の発話時間の割合Ｒ_ｔが、所定値、例えば１．５以上である場合には、この「ある人物」は、会話においてよく話す人物であると分析する。また、分析部１４ｆは、割合Ｒ_ｔが、所定値、例えば０．６６以下である場合には、この「ある人物」は、会話においてあまり話さない、いわゆる聞き役の人物であると分析する。なお、分析部１４ｆは、割合Ｒ_ｔが、所定値、例えば０．６６より大きく、１．５未満である場合には、会話に対する参加状況において両者は対等であると分析する。

図６は、会話スタイルの分析方法の一例を説明するための図である。図６では、会話全体の時間の長さに対するＡの発話時間の長さの割合が２５．７２％である場合が例示されている。また、図６では、会話全体の時間の長さに対するＢの発話時間の長さの割合が４３．７１％である場合が例示されている。また、図６では、Ａの発話時間に対するＢの発話時間の割合Ｒ_ｔが１．７０である場合が例示されている。この場合、分析部１４ｆは、Ｂは会話においてよく話す人物であると分析する。また、この場合、Ｂの発話時間に対するＡの発話時間の割合Ｒ_ｔが０．６６以下となるので、分析部１４ｆは、Ａはあまり話さない、いわゆる聞き役の人物であると分析する。

また、分析部１４ｆは、ある人物の発話領域の数に対する有声音領域の数の割合、および発話領域の長さの平均値が、他の人物の発話領域の数に対する有声音領域の数の割合、および発話領域の長さの平均値よりも大きい場合には、次の処理を行う。すなわち、分析部１４ｆは、「ある人物」は会話において長く続けて話しがちな人物であると分析する。また、分析部１４ｆは、ある人物の沈黙領域の長さの平均値が、他の人物の沈黙領域の長さの平均値よりも大きく、かつある人物の沈黙領域の長さの標準偏差が、所定値、例えば、６．０以上である場合には、次の処理を行う。すなわち、分析部１４ｆは、「ある人物」は、相手の話を聞いて、相手の内容に合わせて自分の発話を中断するため、発話の長さが一定しない人物であると分析する。

図７は、会話スタイルの分析方法の一例を説明するための図である。図７では、Ａの有声音領域の数が８３、有声音領域の長さの平均値が０．４２５４６（ｓ）、有声音領域の長さの標準偏差が０．５０１０である場合が例示されている。また、図７では、Ａの発話領域の数が２８、発話領域の長さの平均値が１．５８（ｓ）、発話領域の長さの標準偏差が１．７８０３である場合が例示されている。また、図７では、Ａの沈黙領域の数が２９、沈黙領域の長さの平均値が４．４０５５（ｓ）、沈黙領域の長さの標準偏差が６．８００１である場合が例示されている。また、図７では、Ｂの有声音領域の数が１５０、有声音領域の長さの平均値が０．４０４１６（ｓ）、有声音領域の長さの標準偏差が０．４１９８である場合が例示されている。また、図７では、Ｂの発話領域の数が４０、発話領域の長さの平均値が１．８７９６（ｓ）、発話領域の長さの標準偏差が１．４９２８である場合が例示されている。また、図７では、Ｂの沈黙領域の数が４１、沈黙領域の長さの平均値が２．３６１４（ｓ）、沈黙領域の長さの標準偏差が２．７５２７である場合が例示されている。この場合、分析部１４ｆは、Ｂは会話においてよく話す人物であると分析する。また、この場合、Ｂの発話時間に対するＡの発話時間の割合Ｒ_ｔが０．６６以下となるので、分析部１４ｆは、Ａはあまり話さない、いわゆる聞き役の人物であると分析する。この場合、Ｂの発話領域の数に対する有声音領域の数の割合、および発話領域の長さの平均値が、Ａの発話領域の数に対する有声音領域の数の割合、および発話領域の長さの平均値よりも大きい。そのため、分析部１４ｆは、Ｂは会話において長く続けて話しがちな人物であると分析する。また、Ａの沈黙領域の長さの平均値が、Ｂの沈黙領域の長さの平均値よりも大きく、かつＡの沈黙領域の長さの標準偏差が、所定値、例えば、６．０以上である。そのため、分析部１４ｆは、Ａは、相手の話を聞いて、相手の内容に合わせて自分の発話を中断するため、発話の長さが一定しない人物であると分析する。

また、分析部１４ｆは、ある人物の音量の標準偏差、スペクトルエントロピーの標準偏差、または変化の度合いが、それぞれに対応する基準値以上である場合には、「ある人物」は感情の変化が激しい情熱的な話者であると分析する。また、分析部１４ｆは、ある人物の音量の標準偏差、スペクトルエントロピーの標準偏差、または変化の度合いが、それぞれに対応する基準値未満である場合には、「ある人物」は感情の変化が小さい静かな話者であると分析する。

図８は、会話スタイルの分析方法の一例を説明するための図である。図８では、Ａの変化の度合いが０．２８２４であり、Ｂの変化の度合いが０．２６６２である場合が例示されている。ここで、変化の度合いに対応する基準値を、例えば、０．２７とする場合には、分析部１４ｆは、Ａは感情の変化が激しい情熱的な話者であると分析する。また、分析部１４ｆは、Ｂは感情の変化が小さい静かな話者であると分析する。

また、分析部１４ｆは、ある人物と、他の人物との関係を分析することもできる。例えば、分析部１４ｆは、他の人物の発話時間に対するある人物の発話時間の割合Ｒ_ｔが、所定値、例えば１．０以上である場合には、「ある人物」は「他の人物」に対してよく話しかけているため、ある人物と他の人物との関係が友達や家族であると分析できる。一方、割合Ｒ_ｔが、所定値、例えば１．０未満である場合には、この「ある人物」は「他の人物」の話を聞こうとしているため、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

また、分析部１４ｆは、ある人物と他の人物との会話において、ある人物の発話領域の長さの平均値が、所定値、例えば、１．８５（ｓ）以上である場合には、ある人物と他の人物との関係が友達や家族であると分析できる。これは、「ある人物」は「他の人物」に対してよく話しかけているためである。一方、分析部１４ｆは、ある人物と他の人物との会話において、ある人物の発話領域の長さの平均値が、所定値、例えば、１．８５（ｓ）未満である場合には、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

また、分析部１４ｆは、ある人物と他の人物との会話において、ある人物の沈黙領域の長さの平均値が、所定値、例えば、３．００（ｓ）以下である場合には、同様の理由で、ある人物と他の人物との関係が友達や家族であると分析できる。一方、分析部１４ｆは、ある人物の沈黙領域の長さの平均値が、所定値、例えば、３．００（ｓ）より大きい場合には、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

また、分析部１４ｆは、ある人物と他の人物との会話において、ある人物の変化の度合いが、所定値、例えば、０．３３以上である場合には、同様の理由で、ある人物と他の人物との関係が友達や家族であると分析できる。一方、分析部１４ｆは、ある人物の変化の度合いが、所定値、例えば、０．３３未満である場合には、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

図９は、人物Ａが、人物Ｂ、Ｃ、Ｄ、Ｅのそれぞれと会話したときに抽出された会話特性の一例を示す図である。図９の例では、ＡとＢとの関係は同僚である。また、図９の例では、ＡとＣとの関係はビジネスパートナーである。また、図９の例では、ＡとＤとの関係は友達である。また、図９の例では、ＡとＥとの関係は家族である。

図９の例では、ＡとＢとの会話におけるＡの割合Ｒ_ｔが０．９である場合が例示されている。また、図９の例では、ＡとＣとの会話におけるＡの割合Ｒ_ｔが０．８である場合が例示されている。また、図９の例では、ＡとＤとの会話におけるＡの割合Ｒ_ｔが１．３である場合が例示されている。また、図９の例では、ＡとＥとの会話におけるＡの割合Ｒ_ｔが１．５である場合が例示されている。このような場合、分析部１４ｆは、割合Ｒ_ｔに基づいて、Ａと、ＢおよびＣとの関係は同僚またはビジネスパートナーであると分析する。また、分析部１４ｆは、割合Ｒ_ｔに基づいて、Ａと、ＤおよびＥとの関係は友達または家族であると分析する。

また、図９の例では、ＡとＢとの会話におけるＡの発話領域の長さの平均値が１．８１６（ｓ）である場合が例示されている。また、図９の例では、ＡとＣとの会話におけるＡの発話領域の長さの平均値が１．７５９（ｓ）である場合が例示されている。また、図９の例では、ＡとＤとの会話におけるＡの発話領域の長さの平均値が１．９２６（ｓ）である場合が例示されている。また、図９の例では、ＡとＥとの会話におけるＡの発話領域の長さの平均値が１．８８３（ｓ）である場合が例示されている。このような場合、分析部１４ｆは、Ａの発話領域の長さの平均値に基づいて、Ａと、ＢおよびＣとの関係は同僚またはビジネスパートナーであると分析する。また、分析部１４ｆは、Ａの発話領域の長さの平均値に基づいて、Ａと、ＤおよびＥとの関係は友達または家族であると分析する。

また、図９の例では、ＡとＢとの会話におけるＡの沈黙領域の長さの平均値が３．１８０２７（ｓ）である場合が例示されている。また、図９の例では、ＡとＣとの会話におけるＡの沈黙領域の長さの平均値が３．２２５９（ｓ）である場合が例示されている。また、図９の例では、ＡとＤとの会話におけるＡの沈黙領域の長さの平均値が２．５３６４２（ｓ）である場合が例示されている。また、図９の例では、ＡとＥとの会話におけるＡの沈黙領域の長さの平均値が２．７５９５８（ｓ）である場合が例示されている。このような場合、分析部１４ｆは、Ａの沈黙領域の長さの平均値に基づいて、Ａと、ＢおよびＣとの関係は同僚またはビジネスパートナーであると分析する。また、分析部１４ｆは、Ａの沈黙領域の長さの平均値に基づいて、Ａと、ＤおよびＥとの関係は友達または家族であると分析する。

また、図９の例では、ＡとＢとの会話におけるＡの変化の度合いが０．３１６４８６である場合が例示されている。また、図９の例では、ＡとＣとの会話におけるＡの変化の度合いが０．２８８１８９である場合が例示されている。また、図９の例では、ＡとＤとの会話におけるＡの変化の度合いが０．３４２２７８である場合が例示されている。また、図９の例では、ＡとＥとの会話におけるＡの変化の度合いが０．３７０８０５である場合が例示されている。このような場合、分析部１４ｆは、Ａの変化の度合いに基づいて、Ａと、ＢおよびＣとの関係は同僚またはビジネスパートナーであると分析する。また、分析部１４ｆは、Ａの変化の度合いに基づいて、Ａと、ＤおよびＥとの関係は友達または家族であると分析する。

そして、分析部１４ｆは、分析結果を出力装置１２に送信する。これにより、分析結果が出力装置１２により出力され、分析結果が発話者にフィードバックされる。

制御部１４は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路またはＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路である。

［処理の流れ］
次に、本実施例に係る分析装置１０の処理の流れを説明する。図１０〜図１２は、実施例１に係る分析処理の手順を示すフローチャートである。この分析処理の実行タイミングとしては様々なタイミングが考えられる。例えば、分析処理は、入力部１１から分析処理を実行する指示を制御部１４が受信した場合に実行される。

図１０に示すように、取得部１４ａは、第１の音声データ１３ａおよび第２の音声データ１３ｂを取得する（ステップＳ１０１）。第１の検出部１４ｂは、第１の音声データ１３ａおよび第２の音声データ１３ｂのそれぞれの長さが同一であるか否かを判定する（ステップＳ１０２）。ここで言う「同一」は、長さの差が許容誤差範囲内である場合も含む。

長さが同一でない場合（ステップＳ１０２否定）には、第１の検出部１４ｂは、エラー出力するように出力部１２を制御し（ステップＳ１０３）、処理を終了する。一方、長さが同一である場合（ステップＳ１０２肯定）には、第１の検出部１４ｂは、第１の音声データ１３ａおよび第２の音声データ１３ｂをフレーム化する（ステップＳ１０４）。

第１の検出部１４ｂは、全てのフレームについて、自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーの３つの特徴量を抽出する（ステップＳ１０５）。第１の検出部１４ｂは、全てのフレームについて抽出した３つの特徴量のそれぞれの平均値および標準偏差を算出する（ステップＳ１０６）。第１の検出部１４ｂは、変数Ｎに０を設定する（ステップＳ１０７）。

第１の検出部１４ｂは、隠れマルコフモデルにおける有声音および無声音の状態遷移について、初期の状態遷移確率Ｐ_tを設定する（ステップＳ１０８）。第１の検出部１４ｂは、変数Ｎの値を１つインクリメントする（ステップＳ１０９）。

第１の検出部１４ｂは、変数Ｎの値が５以上であるか否かを判定する（ステップＳ１１０）。変数Ｎの値が５以上でない場合（ステップＳ１１０否定）には、第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果として用いて、ＥＭ法により、状態遷移確率Ｐ_tを算出し（ステップＳ１１１）、ステップＳ１０９へ戻る。

一方、変数Ｎの値が５以上である場合（ステップＳ１１０肯定）には、第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果として用いて、ＥＭ法により、状態遷移確率Ｐ_tを算出する（ステップＳ１１２）。

第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果として用いて、ビタビアルゴリズムにより、観測確率Ｐ_ｏを算出する（ステップＳ１１３）。

第１の検出部１４ｂは、全てのフレームについて抽出した上記の３つの特徴量に基づいて、ビタビアルゴリズムを用いて、次のような処理を行う。すなわち、第１の検出部１４ｂは、発話が行われている各フレームにおいて、発話されている音が有声音であるか、または、無声音であるかを検出する。そして、第１の検出部１４ｂは、有声音が検出された領域を有声音領域とし、無声音が検出された領域を無声音領域とする（ステップＳ１１４）。

第２の検出部１４ｃは、全てのフレームについて、有声音および無声音に基づいて、ビタビアルゴリズムを用いて、沈黙状態であるか、または、発話状態であるかを検出することで、沈黙領域および発話領域を検出する（ステップＳ１１５）。

特定部１４ｄは、第１の音声データ１３ａについて、発話領域での有声音領域として検出されたフレームの音量の平均値Ｅ_ｔ１を算出するとともに、第２の音声データ１３ｂについて、発話領域での有声音領域として検出されたフレームの音量の平均値Ｅ_ｔ２を算出する（ステップＳ１１６）。特定部１４ｄは、第１の音声データ１３ａにおいて発話領域での有声音領域として検出されたフレームのうち、未判定のフレームを１つ選択して、選択されたフレームの音量Ｅ_ｊが所定の閾値、例えば０．２Ｅ_ｔ１以上であるか否かを判定する（ステップＳ１１７）。選択されたフレームの音量が所定の閾値以上である場合（ステップＳ１１７肯定）には、特定部１４ｄは、第１の音声データ１３ａを取得したマイクに最も近い人物を、このフレームにおいて発話した人物として特定する（ステップＳ１１８）。一方、選択されたフレームの音量が所定の閾値未満である場合（ステップＳ１１７否定）には、特定部１４ｄは、第１の音声データ１３ａを取得したマイクに最も近い人物以外の人物を、このフレームにおいて発話した人物として特定する（ステップＳ１１９）。

特定部１４ｄは、第１の音声データ１３ａにおいて発話領域での有声音領域として検出されたフレームの中に、上記ステップＳ１１８で未判定のフレームがあるか否かを判定する（ステップＳ１２０）。未判定のフレームがある場合（ステップＳ１２０肯定）には、ステップＳ１１７に戻る。一方、未判定のフレームがない場合（ステップＳ１２０否定）には、図１１に示すように、特定部１４ｄは、次のような処理を行う。すなわち、特定部１４ｄは、第２の音声データ１３ｂにおいて発話領域での有声音領域として検出されたフレームのうち、未判定のフレームを１つ選択して、選択されたフレームの音量Ｅ_ｊが所定の閾値、例えば０．２Ｅ_ｔ２以上であるか否かを判定する（ステップＳ１２１）。

選択されたフレームの音量が所定の閾値以上である場合（ステップＳ１２１肯定）には、特定部１４ｄは、第２の音声データ１３ｂを取得したマイクに最も近い人物を、このフレームにおいて発話した人物として特定する（ステップＳ１２２）。一方、選択されたフレームの音量が所定の閾値未満である場合（ステップＳ１２１否定）には、特定部１４ｄは、第２の音声データ１３ｂを取得したマイクに最も近い人物以外の人物を、このフレームにおいて発話した人物として特定する（ステップＳ１２３）。

特定部１４ｄは、第２の音声データ１３ｂにおいて発話領域での有声音領域として検出されたフレームの中に、上記ステップＳ１２１で未判定のフレームがあるか否かを判定する（ステップＳ１２４）。未判定のフレームがある場合（ステップＳ１２４肯定）には、ステップＳ１２１に戻る。一方、未判定のフレームがない場合（ステップＳ１２４否定）には、図１２に示すように、抽出部１４ｅは、次のような処理を行う。すなわち、抽出部１４ｅは、ある人物が発話したと特定されたフレームから、有声音領域の数、有声音領域の長さの平均値、および有声音領域の長さの標準偏差を算出する（ステップＳ１２５）。抽出部１４ｅは、ある人物が発話したと特定されたフレームから、発話領域の数、発話領域の長さの平均値、および発話領域の長さの標準偏差を算出する（ステップＳ１２６）。抽出部１４ｅは、ある人物の沈黙領域のフレームから、沈黙領域の数、沈黙領域の長さの平均値、および沈黙領域の長さの標準偏差を算出する（ステップＳ１２７）。

抽出部１４ｅは、会話全体の時間の長さに対するある人物の発話時間の長さの割合を算出する（ステップＳ１２８）。抽出部１４ｅは、他の人物の発話時間に対するある人物の発話時間の割合を算出する（ステップＳ１２９）。抽出部１４ｅは、ある人物が発話したと特定されたフレームから、音量の標準偏差およびスペクトルエントロピーの標準偏差を算出する（ステップＳ１３０）。抽出部１４ｅは、ある人物が発話したと特定されたフレームから算出した音量の標準偏差と、スペクトルエントロピーの標準偏差との和を、変化の度合いとして算出する（ステップＳ１３１）。

抽出部１４ｅは、他の人物が発話したと特定されたフレームから、有声音領域の数、有声音領域の長さの平均値、および有声音領域の長さの標準偏差を算出する（ステップＳ１３２）。抽出部１４ｅは、他の人物が発話したと特定されたフレームから、発話領域の数、発話領域の長さの平均値、および発話領域の長さの標準偏差を算出する（ステップＳ１３３）。抽出部１４ｅは、他の人物の沈黙領域のフレームから、沈黙領域の数、沈黙領域の長さの平均値、および沈黙領域の長さの標準偏差を算出する（ステップＳ１３４）。

抽出部１４ｅは、会話全体の時間の長さに対する他の人物の発話時間の長さの割合を算出する（ステップＳ１３５）。抽出部１４ｅは、ある人物の発話時間に対する他の人物の発話時間の割合を算出する（ステップＳ１３６）。抽出部１４ｅは、他の人物が発話したと特定されたフレームから、音量の標準偏差およびスペクトルエントロピーの標準偏差を算出する（ステップＳ１３７）。抽出部１４ｅは、他の人物が発話したと特定されたフレームから算出した音量の標準偏差と、スペクトルエントロピーの標準偏差との和を、変化の度合いとして算出する（ステップＳ１３８）。

分析部１４ｆは、抽出された会話特性に基づいて、会話スタイルを分析する（ステップＳ１３９）。分析部１４ｆは、分析結果を出力装置１２に送信し（ステップＳ１４０）、処理を終了する。

［実施例１の効果］
上述してきたように、本実施例に係る分析装置１０は、音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する。本実施例に係る分析装置１０は、検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、音声データにおける発話領域および沈黙領域を検出する。本実施例に係る分析装置１０は、検出された発話領域および沈黙領域の会話特性を抽出する。本実施例に係る分析装置１０は、抽出された会話特性に基づいて、会話スタイルを分析する。このように、本実施例によれば、話者の会話スタイルを分析する際に、会話の内容を特定せずに、発話領域および沈黙領域の会話特性に基づいて会話スタイルを分析するため、処理に時間を要することなく簡易に会話スタイルを分析することができる。

また、本実施例によれば、話者の会話スタイルを分析する際に、会話の内容を特定せずに、会話スタイルを分析するため、会話の内容が知られることなく、話者のプライバシーを保護しつつ、会話スタイルを分析することができる。

また、本実施例によれば、話者の会話スタイルを分析する際に、日本語、英語、中国語などの各種言語に共通の特徴を用いて、発話領域および沈黙領域を検出するので、言語に依存することなく、会話スタイルを分析することができる。

また、本実施例に係る分析装置１０は、周囲のノイズに強い自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーなどの特徴量を抽出し、抽出した特徴量を用いて、有声音領域および無声音領域を検出する。したがって、本実施例に係る分析装置１０によれば、周囲のノイズの影響により、有声音領域および無声音領域を検出する精度が低下することを抑制することができる。また、周囲のノイズに強い特徴量を用いているため、本実施例に係る分析装置１０は、第１の音声データ１３ａおよび第２の音声データ１３ｂをフレーム化する際に、フレームの個数をより少なくすることができる。したがって、分析装置１０によれば、より簡易な処理で有声音領域および無声音領域を検出することができる。

また、本実施例に係る分析装置１０は、発話領域における音量が閾値以上の場合に、マイクに最も近い人物を発話領域において発話した人物として特定する。また、本実施例に係る分析装置１０は、発話領域における音量が閾値未満の場合に、マイクに最も近い人物以外の人物を発話領域において発話した人物として特定する。本実施例に係る分析装置１０は、特定した人物ごとに、会話スタイルを分析する。したがって、本実施例に係る分析装置１０によれば、音量の大きさの判定という簡易な処理で人物を特定することができる結果、簡易な処理で人物ごとの会話スタイルを分析できる。

また、本実施例に係る分析装置１０は、確率モデルとして隠れマルコフモデルを用いて、沈黙領域および発話領域を検出する。したがって、本実施例に係る分析装置１０によれば、２人の会話において、発話が重複しても、精度よく、沈黙領域および発話領域を検出することができる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理の順番を変更できる。例えば、会話の人数が２人であり、開示の装置は、この２人の属性（名前など）について既知である場合には、図１１に示すステップＳ１２１〜１２４の処理を省略することもできる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的状態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図１に示す抽出部１４ｅと分析部１４ｆとが統合されてもよい。

［分析プログラム］
また、上記の実施例で説明した分析装置の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図１３を用いて、上記の実施例で説明した分析装置と同様の機能を有する分析プログラムを実行するコンピュータの一例を説明する。図１３は、分析プログラムを実行するコンピュータを示す図である。

図１３に示すように、実施例２におけるコンピュータ３００は、ＣＰＵ（Central Processing Unit）３１０、ＲＯＭ（Read Only Memory）３２０、ＨＤＤ（Hard Disk Drive）３３０、ＲＡＭ（Random Access Memory）３４０を有する。これら３００〜３４０の各部は、バス４００を介して接続される。

ＲＯＭ３２０には、上記の実施例１で示す取得部１４ａと、第１の検出部１４ｂと、第２の検出部１４ｃと、特定部１４ｄと、抽出部１４ｅと、分析部１４ｆと同様の機能を発揮する分析プログラム３２０ａが予め記憶される。なお、分析プログラム３２０ａについては、適宜分離しても良い。

そして、ＣＰＵ３１０が、分析プログラム３２０ａをＲＯＭ３２０から読み出して実行する。

そして、ＨＤＤ３３０には、第１の音声データ、第２の音声データが設けられる。これら第１の音声データ、第２の音声データのそれぞれは、図１に示した第１の音声データ１３ａ、第２の音声データ１３ｂのそれぞれに対応する。

そして、ＣＰＵ３１０は、第１の音声データと、第２の音声データとを読み出してＲＡＭ３４０に格納する。さらに、ＣＰＵ３１０は、ＲＡＭ３４０に格納された第１の音声データと、第２の音声データとを用いて、分析プログラムを実行する。なお、ＲＡＭ３４０に格納される各データは、常に全てのデータがＲＡＭ３４０に格納される必要はなく、処理に必要なデータのみがＲＡＭ３４０に格納されれば良い。

なお、上記した分析プログラムについては、必ずしも最初からＲＯＭ３２０に記憶させておく必要はない。

例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ３００がこれらからプログラムを読み出して実行するようにしてもよい。

さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ３００に接続される「他のコンピュータ（またはサーバ）」などにプログラムを記憶させておく。そして、コンピュータ３００がこれらからプログラムを読み出して実行するようにしてもよい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。

（付記１）音声データを取得する取得部と、
前記取得部により取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する第１の検出部と、
前記第１の検出部により検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出する第２の検出部と、
前記第２の検出部により検出された発話領域および沈黙領域の会話特性を抽出する抽出部と、
前記抽出部により抽出された会話特性に基づいて、会話スタイルを分析する分析部と
を有することを特徴とする分析装置。

（付記２）前記第１の検出部は、前記音声データの各フレームについて、自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーを抽出し、抽出した自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーに基づいて、有声音領域および無声音領域を検出する
ことを特徴とする付記１に記載の分析装置。

（付記３）前記取得部は、音声取得装置により取得された複数人の会話における音声データを取得し、
前記第２の検出部により検出された発話領域における音量が閾値以上の場合に、前記音声取得装置に最も近い人物を該発話領域において発話した人物として特定するとともに、前記第２の検出部により検出された発話領域における音量が閾値未満の場合に、前記音声取得装置に最も近い人物以外の人物を該発話領域において発話した人物として特定する特定部をさらに有し、
前記分析部は、前記特定部により特定された人物ごとに、会話スタイルを分析する
ことを特徴とする付記１または２に記載の分析装置。

（付記４）コンピュータに、
音声データを取得し、
取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出し、
検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出し、
検出された発話領域および沈黙領域の会話特性を抽出し、
抽出された会話特性に基づいて、会話スタイルを分析する
処理を実行させることを特徴とする分析プログラム。

（付記５）前記有声音領域および無声音領域を検出する処理は、前記音声データの各フレームについて、自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーを抽出し、抽出した自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーに基づいて、有声音領域および無声音領域を検出する
ことを特徴とする付記４に記載の分析プログラム。

（付記６）前記音声データを取得する処理は、音声取得装置により取得された複数人の会話における音声データを取得し、
検出された発話領域における音量が閾値以上の場合に、前記音声取得装置に最も近い人物を該発話領域において発話した人物として特定するとともに、検出された発話領域における音量が閾値未満の場合に、前記音声取得装置に最も近い人物以外の人物を該発話領域において発話した人物として特定する処理をさらに前記コンピュータに実行させ、
前記会話スタイルを分析する処理は、前記特定された人物ごとに、会話スタイルを分析する
ことを特徴とする付記４または５に記載の分析プログラム。

（付記７）コンピュータが実行する分析方法であって、
音声データを取得し、
取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出し、
検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出し、
検出された発話領域および沈黙領域の会話特性を抽出し、
抽出された会話特性に基づいて、会話スタイルを分析する
ことを特徴とする分析方法。

（付記８）前記有声音領域および無声音領域を検出する方法は、前記音声データの各フレームについて、自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーを抽出し、抽出した自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーに基づいて、有声音領域および無声音領域を検出する
ことを特徴とする付記７に記載の分析方法。

（付記９）前記音声データを取得する方法は、音声取得装置により取得された複数人の会話における音声データを取得し、
検出された発話領域における音量が閾値以上の場合に、前記音声取得装置に最も近い人物を該発話領域において発話した人物として特定するとともに、検出された発話領域における音量が閾値未満の場合に、前記音声取得装置に最も近い人物以外の人物を該発話領域において発話した人物として特定する方法をさらに前記コンピュータが実行し、
前記会話スタイルを分析する方法は、前記特定された人物ごとに、会話スタイルを分析する
ことを特徴とする付記７または８に記載の分析方法。

１０分析装置
１１入力部
１２出力部
１３記憶部
１３ａ第１の音声データ
１３ｂ第２の音声データ
１４制御部
１４ａ取得部
１４ｂ第１の検出部
１４ｃ第２の検出部
１４ｄ特定部
１４ｅ抽出部
１４ｆ分析部

Claims

音声データを取得する取得部と、
前記取得部により取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出する第１の検出部と、
前記第１の検出部により検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出する第２の検出部と、
前記第２の検出部により検出された発話領域および沈黙領域の会話特性を抽出する抽出部と、
前記抽出部により抽出された会話特性に基づいて、会話スタイルを分析する分析部と
を有することを特徴とする分析装置。
前記第１の検出部は、前記音声データの各フレームについて、自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーを抽出し、抽出した自己相関係数のピークの数、自己相関係数のピークの最大値、およびスペクトルエントロピーに基づいて、有声音領域および無声音領域を検出する
ことを特徴とする請求項１に記載の分析装置。
前記取得部は、音声取得装置により取得された複数人の会話における音声データを取得し、
前記第２の検出部により検出された発話領域における音量が閾値以上の場合に、前記音声取得装置に最も近い人物を該発話領域において発話した人物として特定するとともに、前記第２の検出部により検出された発話領域における音量が閾値未満の場合に、前記音声取得装置に最も近い人物以外の人物を該発話領域において発話した人物として特定する特定部をさらに有し、
前記分析部は、前記特定部により特定された人物ごとに、会話スタイルを分析する
ことを特徴とする請求項１または２に記載の分析装置。
コンピュータに、
音声データを取得し、
取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出し、
検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出し、
検出された発話領域および沈黙領域の会話特性を抽出し、
抽出された会話特性に基づいて、会話スタイルを分析する
処理を実行させることを特徴とする分析プログラム。
コンピュータが実行する分析方法であって、
音声データを取得し、
取得された音声データから、第１の確率モデルを用いて、有声音領域および無声音領域を検出し、
検出された有声音領域および無声音領域に基づいて、第２の確率モデルを用いて、前記音声データにおける発話領域および沈黙領域を検出し、
検出された発話領域および沈黙領域の会話特性を抽出し、
抽出された会話特性に基づいて、会話スタイルを分析する
ことを特徴とする分析方法。